Einführung in die Theorie der Markov

Werbung
Einführung in die Theorie der Markov-Ketten
Jens Schomaker
Markov-Ketten
Zur Motivation der Einführung von Markov-Ketten betrachte folgendes Beispiel:
1.1 Beispiel
Wir wollen die folgende Situation mathematisch formalisieren:
Eine Person steht in einer der vier Ecken eines Raumes - in diesem Fall s1 - und wirft eine faire Münze, um
zu entscheiden, ob sie sich im Uhrzeigersinn oder gegen ihn bewegt. Dies wiederholt die Person beliebig
oft.
Man möchte also für alle Schritte des Experiments, die man anhand der natürlichen Zahlen abzählt, eine
Zufallsvariable Xn definieren, welche die Ecke angibt, in der sich die Person im n-ten Schritt befindet.
D.h. man wählt einen (zeitdiskreten) stochastischen Prozess (X0 , X1 , . . .), der Werte in {s1 , . . . , s4 } annimmt.
Dass ein zugehöriger Produktraum mit Wahrscheinlichkeitsmaß P wie unten existiert, ist nicht klar, wird aber
durch den Satz von Ionescu-Tulcea geliefert, der aufgrund seines Umfangs jedoch nicht behandelt wird.
Um die Ausgangsbedingung, dass in s1 gestartet wird, zu erfüllen, sollte gelten:
P(X0 = s1 ) = 1.
Die Entscheidungsregel für die Bewegung liefert zudem:
P(X1 = s2 ) = 1/2
und
P(X1 = s4 ) = 1/2.
Um die Verteilungen der Xn für n ≥ 2 zu berechnen, benötigt man nun jedoch bedingte Wahrscheinlichkeiten.
Für den Fall Xn = s2 ergibt sich z.B. aus der Entscheidungsregel für die Bewegung folgendes:
P(Xn+1 = s1 | Xn = s2 ) = 1/2
und
P(Xn+1 = s3 | Xn = s2 ) = 1/2.
Genauer gilt sogar aufgrund der Entscheidungsregel, dass Xn+1 nur von Xn abhängt; für Xn = s2 und beliebige
i0 , . . . , in−1 ∈ {1, . . . , 4} beispielsweise:
P(Xn+1 = s1 | Xn = s2 , Xn−1 = sin−1 , . . . , X0 = si0 ) = 1/2
und
P(Xn+1 = s3 | Xn = s2 , Xn−1 = sin−1 , . . . , X0 = si0 ) = 1/2.
1
Diese beispielhaften Überlegungen fasst man nun in einer Definition zusammen:
1.2 Definition
Sei P eine k × k-Matrix mit Einträgen (Pi,j )i,j=1,...,k .
Ein (zeitdiskreter) stochastischer Prozess (X0 , X1 , . . .) mit endlichem Zustandsraum {s1 , . . . , sk } heißt (homogene) Markov-Kette mit Übergangsmatrix P genau dann, wenn für alle n ∈ N, alle i, j ∈ {1, . . . , k} und
alle i0 , . . . , in−1 ∈ {1, . . . , k} gilt:
P(Xn+1 = sj | Xn = si , Xn−1 = sin−1 , . . . , X0 = si0 ) = P(Xn+1 = sj | Xn = si ) = Pi,j .
(1)
Die Einträge der Übergangsmatrix P heißen Übergangswahrscheinlichkeiten und die Übergangswahrscheinlichkeit Pi,j ist die bedingte Wahrscheinlichkeit sich zum Zeitpunkt n + 1 im Zustand sj zu befinden, gegeben,
dass man zum Zeitpunkt n im Zustand si ist.
Die Homogenität der Markov-Kette ist dabei die Zeitunabhängigkeit, d.h zu allen Zeiten n liegen dieselben
Übergangswahrscheinlichkeiten Pi,j bzw. liegt dieselbe Übergangsmatrix P vor. Homogenität wird in der Regel
nicht erwähnt, da man diese Eigenschaft voraussetzen möchte, wenn man Markov-Ketten betrachtet.
Die Eigenschaft, die durch das erste Gleichheitszeichen in Gleichung 1 gegeben ist, wird dabei als MarkovEigenschaft - kurz ME - oder auch Gedächtsnislosigkeit bezeichnet. Sie drückt aus, dass die bedingte Wahrscheinlichkeit von Xn+1 unter (X0 , . . . , Xn ) nur von Xn abhängt und unabhängig von den vorhergehenden
X0 , . . . , Xn−1 ist.
Mit dieser Definition ergeben sich direkt folgende Eigenschaften für die Übergangsmatrix:
i) Pi,j ≥ 0 für alle i, j ∈ {1, . . . , k}, da (bedingte) Wahrscheinlichkeiten nicht negativ sind.
ii)
k
P
Pi,j = 1 für alle i ∈ {1, . . . , k}, da {s1 , . . . , sk } der gesamte Wertebereich von Xn+1 ist:
j=1
k
X
Pi,j =
j=1
k
X
P(Xn+1 = sj | Xn = si ) = 1.
j=1
1.3 Beispiel
Das oben eingeführte Beispiel 1.1 hat also als Zustandsraum {s1 , . . . , s4 } und als Übergangsmatrix:


0 1/2 0 1/2
1/2 0 1/2 0 

P =
 0 1/2 0 1/2
1/2
0 1/2 0
1.4 Definition
Eine einfache und nahezu selbsterklärende Möglichkeit die Übergangsmatrix darzustellen, ist ein Übergangsgraph. Der Übergangsgraph für Beispiel 1.1 sieht beispielsweise wie folgt aus:
s1O o
1/2
1/2
1/2
1/2
s4 o
/ s2
O
1/2
1/2
1/2
/ s 3
1/2
Die Zustände werden dabei mit den zugehörigen Übergangswahrscheinlichkeiten verbunden, sofern diese nicht
Null sind. Die Summe der Wahrscheinlichkeiten, die von einem Zustand wegzeigen, ist dabei immer 1, was der
spaltenweisen Aufsummierung zu 1 in der Übergangsmatrix entspricht (vgl. Definition 1.2, Eigenschaft ii).
Um das Beispiel 1.1 komplett zu erfassen, benötigen wir noch eine weitere Eigenschaft einer Markov-Kette:
1.5 Definition
Die Anfangsverteilung einer Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } wird durch einen
2
Zeilenvektor µ(0) wie folgt definiert:
(0)
(0)
µ(0) = (µ1 , . . . , µk ) := (P(X0 = s1 ), . . . , P(X0 = sk )).
Da µ(0) eine Wahrscheinlichkeitsverteilung auf dem Zustandsraum {s1 , . . . , sk } ist, gilt:
k
X
(0)
µi
= 1.
i=1
Ebenso definiert man µ(n) für n ≥ 1 als die Wahrscheinlichkeitsverteilung der Markov-Kette zum Zeitpunkt n
als:
(n)
(n)
µ(n) = (µ1 , . . . , µk ) := (P(Xn = s1 ), . . . , P(Xn = sk )).
Auch hier gilt analog:
k
X
(n)
µi
= 1.
i=1
1.6 Beispiel
Das oben eingeführte Beispiel 1.1 hat also als Anfangsverteilung:
µ(0) = (1, 0, 0, 0).
Es wird sich in folgendem Satz zeigen, dass man zur Berechnung der µ(n) lediglich die Anfangsverteilung µ(0)
und die Übergangsmatrix P benötigt.
1.7 Satz
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk }, Übergangsmatrix P und Anfangsverteilung
µ(0) gegeben. Dann gilt für alle n ∈ N:
µ(n) = µ(0) P n .
Beweis:
Induktion über n:
n = 1:
(0)
(0)
Sei µ(0) = (µ1 , . . . , µk ), dann gilt für j = 1, . . . , k:
(1)
µj
Def.
=
σ-Add.
=
P(X1 = sj )
k
X
P(X0 = si , X1 = sj )
i=1
bed. W.-keit
=
k
X
P(X0 = si )P(X1 = sj | X0 = si )
i=1
Def.
=
=
k
X
(0)
µi Pi,j
i=1
(0)
(µ
P )j .
Dabei ist (µ(0) P )j der j-te Eintrag des Zeilenvektors µ(0) P . Also gilt:
(1)
(1)
µ(1) = (µ1 , . . . , µk ) = ((µ(0) P )1 , . . . , (µ(0) P )k ) = µ(0) P.
n → n + 1:
3
Sei also die Behauptung für n gezeigt. Zeige, dass sie auch für n + 1 gilt. Für j = 1, . . . , k gilt analog:
(n+1)
µj
= P(Xn+1 = sj )
=
k
X
P(Xn = si , Xn+1 = sj )
i=1
=
k
X
P(Xn = si )P(Xn+1 = sj | Xn = si )
i=1
=
k
X
i=1
(n)
= (µ
(n)
µi Pi,j
P )j .
Also gilt auch µ(n+1) = µ(n) P und damit und der Induktionsvoraussetzung auch:
IV
µ(n+1) = µ(n) P = µ(0) P n P = µ(0) P n+1 .
1.8 Beispiel
Für Beispiel 1.1 ergibt sich mit Anfangsverteilung µ(0) = (1, 0, 0, 0) induktiv durch einfaches Nachrechnen:
(
(0, 1/2, 0, 1/2) , falls n ≥ 1 und n ungerade
.
µ(n) =
(1/2, 0, 1/2, 0) , falls n ≥ 1 und n gerade
Mit Anfangsverteilung µ(0) = (0, 1, 0, 0) vertauscht sich dagegen die Zuordnung von gerade und ungerade.
Die Wahl der Anfangsverteilung bestimmt also das Verhalten des weiteren Verlaufs der Verteilungen µ(n) ,
wie man hier sieht, und gehört zu einer vollständigen Charakterisierung einer Markov-Kette.
Ein anderes Beispiel gegeben durch eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , s2 } und folgender Übergangsmatrix
0,75 0,25
0,25 0,75
liefert induktiv für alle n ∈ N
(n)
µ
(
(1/2(1 + 2−n ), 1/2(1 − 2−n ))
=
(1/2(1 − 2−n ), 1/2(1 + 2−n ))
, falls µ(0) = (1, 0)
.
, falls µ(0) = (0, 1)
In beiden Fällen gilt jedoch limn→∞ µ(n) = (1/2, 1/2).
1.9 Lemma
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Sei {a0 , . . . , an } ⊆ N für n ≥ 2 so, dass a0 < a1 < . . . < an−1 < an . Dann gilt für alle i0 , . . . , in ∈ {1, . . . , k}:
P(Xan = sin , . . . , Xa1 = si1 | Xa0 = si0 ) =
n−1
Y
P(Xaj+1 = sij+1 | Xaj = sij ).
j=0
Anschaulich: Die Wahrscheinlichkeit eines gegebenen Weges durch den Übergangsgraph mit gegebenen Zeiten
ist gleich dem Produkt der einzelnen Wege mit den entsprechenden Zeiten.
Beweis:
Induktion über n:
n = 2:
4
Sei {a0 , a1 , a2 } ⊆ N so, dass a0 < a1 < a2 :
P(Xa2 = si2 , Xa1 = si1 | Xa0 = si0 )
bed. W.-keit
=
ME
=
=
P(Xa2 = si2 | Xa1 = si1 , Xa0 = si0 )P(Xa1 = si1 | Xa0 = si0 )
P(Xa2 = si2 | Xa1 = si1 )P(Xa1 = si1 | Xa0 = si0 )
1
Y
P(Xaj+1 = sij+1 | Xaj = sij )
j=0
n → n + 1:
Sei {a0 , . . . , an+1 } ⊆ N so, dass a0 < a1 < . . . < an < an+1 :
P(Xan+1 = sin+1 , Xan = sin , . . . , Xa1 = si1 | Xa0 = si0 )
bed. W.-keit
=
ME & IV
=
P(Xan+1 = sin+1 | Xan = sin , . . . , Xa0 = si0 )P(Xan = sin , . . . , Xa1 = si1 | Xa0 = si0 )
P(Xan+1 = sin+1 | Xan = sin )
n−1
Y
P(Xaj+1 = sij+1 | Xaj = sij )
j=0
=
n
Y
P(Xaj+1 = sij+1 | Xaj = sij )
j=0
1.10 Lemma
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Seien i, j ∈ {1, . . . , k}. Dann gilt für alle m, n ∈ N:
P(Xm+n = sj | Xm = si ) = (P n )i,j , insbesondere ist dies unabhängig von m.
Beweis:
Sei m fest aber beliebig. Beweise die Behauptung durch Induktion über n:
n = 1:
n = 1 folgt direkt aus der Definition von Markov-Kette.
n → n + 1:
Sei also die Behauptung für n gezeigt. Zeige, dass sie auch für n + 1 gilt.
P(Xm+n+1 = sj | Xm = si )
σ-Add.
=
k
X
P(Xm+n = sq , Xm+n+1 = sj | Xm = si )
q=1
k
X
1.9
=
P(Xm+n = sq | Xm = si )P(Xm+n+1 = sj | Xm+n = sq )
q=1
IV & Def.
=
k
X
(P n )i,q Pq,j
q=1
=
(P n P )i,j
=
(P n+1 )i,j
1.11 Kolmogorov-Chapman-Gleichung
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Seien i, j ∈ {1, . . . , k}. Dann gilt für alle m, n ∈ N die Kolmogorov-Chapman-Gleichung:
P(Xm+n = sj | X0 = si ) =
k
X
P(Xm = sq | X0 = si )P(Xm+n = sj | Xm = sq ).
q=1
5
Anschaulich: Die Wahrscheinlichkeit aller Wege gegeben durch Anfangs- und Endpunkt durch den Übergangsgraph mit gegebenen Anfangs- und Endzeiten ist gleich der Summe aller möglichen Wege mit festem Zeitpunkt
für einen festen Zwischenschritt.
Insbesondere gilt damit auch für alle q ∈ {1, . . . , k}:
P(Xm+n = sj | X0 = si ) ≥ P(Xm = sq | X0 = si )P(Xm+n = sj | Xm = sq )
Beweis:
1.10
P(Xm+n = sj | X0 = si ) = (P m+n )i,j
=
k
X
(P m )i,q (P n )q,j
q=1
1.10
=
k
X
P(Xm = sq | X0 = si )P(Xm+n = sj | Xm = sq )
q=1
6
Irreduzible und aperiodische
Markov-Ketten
In diesem Kapitel werden zwei grundlegende Eigenschaften von Markov-Ketten beschrieben.
2.1 Definition
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Man sagt, dass ein Zustand si mit einem Zustand sj kommuniziert, in Zeichen si → sj , genau dann,
wenn die Markov-Kette positive Wahrscheinlichkeit besitzt, innerhalb einer Zeit n von Zustand si nach Zustand
sj zu gelangen; d.h. wenn ein n ∈ N existiert, sodass:
P(Xm+n = sj | Xm = si ) > 0.
Nach Lemma 1.10 ist dies unabhängig von m und es gilt P(Xm+n = sj | Xm = si ) = (P n )i,j .
Weiter sagt man, dass zwei Zustände si und sj miteinander kommunizieren, in Zeichen si ↔ sj , genau
dann, wenn si → sj und sj → si .
2.2 Definition
Eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P heißt irreduzibel
genau dann, wenn für alle i, j ∈ {1, . . . , k} gilt, dass si ↔ sj . Ansonsten heißt die Markov-Kette reduzibel.
Eine äquivalente Formulierung für Irreduzibilität ist, dass für alle i, j ∈ {1, . . . , k} ein n ∈ N mit (P n )i,j > 0
existiert.
2.3 Beispiel
Die Irreduzibilität lässt sich am Übergangsgraph leicht veranschaulich und auch überprüfen, indem man alle
Paare von Zuständen darauf überprüft, ob es jeweils einen Weg von einem Zustand in den anderen gibt. Die
Markov-Kette aus Beispiel 1.1 ist z.B. irreduzibel. Übergangsgraphen von reduzibelen Markov-Ketten sind z.B.
wie folgt gegeben:
1/2
s1 o ^
/ s2
@
2/3
3/4
s4O
1/2
1/3
1
1/2
1
1/4
s5
s3
oder
s1
> s2O
1
1/2
1
s3
Man sieht hier auch die Rechtfertigung für die Bezeichnung reduzibel“, da das Betrachten des Langzeitver”
haltens einer reduzibelen Markov-Kette, d.h. das Verhalten der µ(n) für große n, sich auf das Betrachten einer
Markov-Kette mit kleinerem Zustandsraum und entsprechend angepasster Übergangsmatrix vereinfachen lässt.
2.4 Definition
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Die Periode d(si ) eines Zustandes si definiert man als:
d(si ) := ggT({n ≥ 1 | (P n )i,i > 0}) , wobei ggT(∅) := ∞.
7
In Worten bedeutet dies, dass die Periode von si der größte gemeinsame Teiler der Menge von Zeiten ist,
an denen die Markov-Kette wieder nach si (mit positiver Wahrscheinlichkeit) zurückkehren kann, sofern die
Markov-Kette in si gestartet ist, d.h. X0 = si .
Ist d(si ) = 1, so heißt der Zustand si aperiodisch (die Markov-Kette kann also unregelmäßig“ nach si
”
zurückkehren).
2.5 Definition
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Falls alle Zustände der Markov-Kette aperiodisch sind, so heißt auch die Markov-Kette aperiodisch. Andernfalls
heißt sie periodisch.
2.6 Beispiel
Betrachte nur den Teil der linken Markov-Kette aus Beispiel 2.3 bestehend aus den Zuständen {s1 , s2 , s3 }, also
den folgenden Übergangsgraph:
1/2
s1 o `
/ s2
>
2/3
3/4
1/3
1/2
1/4
~
s3
Man sieht leicht mit den Aussagen aus 1.10 und 1.11, dass für jeden Zustand si gilt:
(P 2 )i,i > 0 und (P 3 )i,i > 0, und damit auch d(si ) = 1.
Also ist diese reduzierte Markov-Kette aperiodisch.
Das Beispiel 1.1 hingegen ist periodisch, da für jeden Zustand si gilt:
(P n )i,i > 0 genau dann, wenn n ∈ {2k | k ∈ N}.
Also ist d(si ) = ggT({2k > 0 | k ∈ N}) = 2. Man sieht hier auch den Zusammenhang zu den in Beispiel 1.8
berechneten Verteilungen µ(n) , da man sich in Abhängigkeit vom Startzustand immer alternierend zwischen
den Zustandspaaren s1 , s3 und s2 , s4 bewegt.
Vorbereitend für den nächsten Satz benötigt man folgendes Lemma:
2.7 Lemma
Sei A = {a1 , a2 , a3 , . . .} eine Menge positiver, natürlicher Zahlen mit folgenden Eigenschaften:
i) ggT(A) = 1, und
ii) A ist abgeschlossen unter Addition, d.h. wenn a, b ∈ A gilt, dann gilt auch a + b ∈ A.
Dann existiert ein N ∈ N so, dass n ∈ A für alle n ≥ N .
Beweis: siehe Appendix in Brémaud, Pierre (1998) Markov Chains: Gibbs Fields, Monte Carlo Simulation,
and Queues, Springer, New York.
2.8 Satz
Sei eine aperiodische Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Dann existiert ein N ∈ N so, dass
(P n )i,i > 0 für alle i ∈ {1, . . . , k} und alle n ≥ N .
Beweis:
Für jeden Zustand si definiere Ai := {n ≥ 1 | (P n )i,i > 0}.
Nach Voraussetzung ist die Markov-Kette aperiodisch, d.h. alle Zustände sind aperiodisch und somit gilt
ggT(Ai ) = 1. Zur Anwendung des Lemmas benötigt man nun die Abgeschlossenheit unter Addition für
Ai :
8
Seien a1 , a2 ∈ Ai , d.h. es gilt
1.10
1.10
(P a1 )i,i = P(Xa1 = si | X0 = si ) > 0 und (P a2 )i,i = P(Xa1 +a2 = si | Xa1 = si ) > 0.
Hiermit folgt:
1.10
(P a1 +a2 )i,i = P(Xa1 +a2 = si | X0 = si )
≥ P(Xa1 +a2 = si , Xa1 = si | X0 = si )
1.9
= P(Xa1 = si | X0 = si )P(Xa1 +a2 = si | Xa1 = si )
> 0
Also gilt auch a1 + a2 ∈ Ai .
Mit dem Lemma angewandt auf Ai folgt nun, dass ein Ni ∈ N existiert, sodass (P n )i,i > 0 für alle n ≥ Ni .
N := max{N1 , . . . , Nk } liefert die Behauptung des Satzes.
2.9 Korollar
Sei eine aperiodische und irreduzibele Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Dann existiert ein M ∈ N so, dass
(P n )i,j > 0 für alle i, j ∈ {1, . . . , k} und alle n ≥ M .
Beweis:
Aufgrund der Aperiodizität und Satz 2.8 existiert ein N ∈ N so, dass (P n )i,i > 0 für alle i ∈ {1, . . . , k}
und alle n ≥ N . Für zwei Zustände si und sj existiert aufgrund der Irreduzibilität ein ni,j ∈ N so, dass
(P ni,j )i,j > 0. Sei Mi,j := N + ni,j , dann gilt für jedes m ≥ Mi,j :
(P m )i,j = P(Xm = sj | X0 = si )
≥ P(Xm = sj , Xm−ni,j = si | X0 = si )
= P(Xm−ni,j = si | X0 = si ) P(Xm = sj | Xm−ni,j = si )
|
{z
}|
{z
}
>0, da m−ni,j ≥N
>0, nach Wahl von ni,j
> 0
M := max{Mi,j | i, j = 1, . . . , k} liefert die Behauptung des Korollars.
2.10 Satz
Sei eine irreduzibele Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Wenn ein Zustand si mit Pi,i > 0 existiert, dann ist die Markov-Kette auch aperiodisch.
Beweis:
Zu zeigen, dass die Markov-Kette aperiodisch ist, bedeutet für alle j ∈ {1, . . . , k}:
1 = d(sj ) = ggT({n ≥ 1 | (P n )j,j > 0}).
Sei also j ∈ {1, . . . , k} beliebig und i ∈ {1, . . . , k} nach Voraussetzung so, dass Pi,i > 0.
Aufgrund der Irreduzibilität existieren m1 , m2 ∈ N so, dass (P m1 )i,j > 0 und (P m2 )j,i > 0.
Damit folgt für alle n ∈ N:
(P m2 +n+m1 )j,j = P(Xm2 +n+m1 = sj | X0 = sj )
≥ P(Xm2 +n+m1 = sj , Xm2 +n = si , . . . , Xm2 = si | X0 = sj )
1.9
= (P m2 )j,i (Pi,i )n (P m1 )i,j
> 0
⇒ {n ≥ 1 | (P n )j,j > 0} ⊇ N \ {0, . . . , m2 + m1 − 1}
⇒ {n ≥ 1 | (P n )j,j > 0} enthält mindestens zwei Primzahlen.
⇒ d(sj ) = ggT({n ≥ 1 | (P n )j,j > 0}) = 1.
9
Herunterladen