Markov-Ketten: Grundlagen

Werbung
Kapitel 4
Markov-Ketten: Grundlagen
Der Begriff einer Markov-Kette wurde in Definition 1.10 eingeführt. Die Verteilung einer Markov-Kette
lässt sich mit Hilfe von Übergangsmatrizen und W-Vektoren (Wahrscheinlichkeitsvektoren beschreiben.
4.1
Wahrscheinlichkeitsvektoren und stochastische Matrizen
Definition 4.1 (W-Vektor, stochastische Matrix)
Sei M eine (nicht-leere) abzählbare Menge. Eine Funktion
X
π : M −→ [ 0 , ∞) mit
π(x) = 1
x∈M
heißt ein W-Vektor (wir stellen uns π als einen Zeilenvektor vor).
Eine Funktion
X
T : M × M −→ [ 0 , ∞) mit
T(x, y) = 1 ∀ x ∈ M
y∈M
heißt eine stochastische Matrix.
Für einen W-Vektor π und eine stochastische Matrix T definiert man das Produkt πT
(das ein W-Vektor ist) durch
X
(πT)(y) =
π(x) T(x, y) ∀ y ∈ M .
x∈M
Für zwei stochastische Matrizen T and U definiert man das Produkt TU (das eine stochastische Matrix
ist) durch
X
(TU)(x, y) =
T(x, z) U(z, y) ∀ x, y ∈ M .
z∈M
Für die so definierten Multiplikationen gilt das Assoziativgesetz:
(π T) U
=
π (T U) ,
(T U) V
=
T (U V) ,
(für einen W-Vektor π und stochastische Matrizen T, U, V). Daher sind höhere Produkte definiert:
πT1 T2 · · · Tn
und T1 T2 · · · Tn
(für einen W-Vektor π und stochastische Matrizen T1 , . . . , Tn , und n ∈ N).
22
Norbert Gaffke: Vorlesung “Stochastische Prozesse”, Sommersemester 2011
Kapitel 4: Markov-Ketten: Grundlagen
23
Durch vollständige Induktion verifiziert man:
(πT1 T2 · · · Tn )(y)
X
=
π(x0 )
X
n
Y
(x0 ,x1 ...,xn )∈M n+1
x0 =x, xn =y
i=1
=
Ti (xi−1 , xi ) ∀ y ∈ M ,
i=1
(x0 ,x1 ,...,xn )∈M n+1
xn =y
(T1 T2 · · · Tn )(x, y)
n
Y
Ti (xi−1 , xi ) ∀ x, y ∈ M .
Definition 4.2 (Übergangsmatrizen einer Markov-Kette)
Sei (Xn )n∈N0 eine Markov-Kette mit (abzählbarem) Zustandsraum M . Eine Folge (Tn )n∈N von stochastischen Matrizen (auf M × M ) heißt eine Folge von Übergangsmatrizen der Markov-Kette, wenn
gilt:
¡
¢
Tn (x, y) = P Xn = y | Xn−1 = x
für alle n ∈ N und alle x, y ∈ M mit P (Xn−1 = x) > 0 .
Bemerkungen:
1. Zu jeder Markov-Kette (Xn )n∈N0 existiert eine Folge (Tn )n∈N von Übergangsmatrizen.
2. Eine Markov-Kette (Xn )n∈N0 ist genau dann homogen, wenn es eine konstante Folge Tn = T
von Übergangsmatrizen der Markov-Kette gibt.
4.2
Verteilung einer Markov-Kette
Die folgende Formel für die Verteilung eines (endlichen) “Abschnittes” Xk , Xk+1 , . . . , X` (wobei
k, ` ∈ N0 , k < `) einer Markov-Kette wird später (s. Theorem 4.5) verallgemeinert auf beliebige
Zeitpunkte n0 < n1 < . . . < nr .
Theorem 4.3 (Gemeinsame Verteilung eines Abschnittes)
Sei (Xn )n∈N0 eine Markov-Kette mit Übergangsmatrizen (Tn )n∈N . Seien k, ` ∈ N0 mit k < ` und
bezeichne π k den W-Vektor
π k (x) = P( Xk = x ) ∀ x ∈ M ,
(Zähldichte von PXk ).
Dann gilt für alle xk , xk+1 , . . . , x` ∈ M :
Ỳ
¡
¢
P Xk = xk , Xk+1 = xk+1 , . . . , X` = x` = π k (xk )
Ti (xi−1 , xi ) .
i=k+1
Theorem 4.4 (Erweiterte Formulierung der Markov-Eigenschaft)
¡
¢
Sei
Seien
¡ (Xn )n∈N0 eine Markov-Kette.
¢
¡ n ≥ 2 , x ∈¢ M , A ∈ σ X0 , . . . , Xn−2 mit
P {Xn−1 = x} ∩ A > 0 , und B ∈ σ Xk : k ≥ n ; dann gilt:
¡ ¯
¢
¡ ¯
¢
P B ¯ {Xn−1 = x} ∩ A = P B ¯ Xn−1 = x .
Norbert Gaffke: Vorlesung “Stochastische Prozesse”, Sommersemester 2011
Kapitel 4: Markov-Ketten: Grundlagen
24
Wir führen folgende Notationen ein:
Für n ∈ N0 sei π n der W-Vektor
π n (x) = P( Xn = x ) ∀ x ∈ M ,
(Zähldichte von PXn ).
For k, n ∈ N0 mit k < n :
T(k,n] := Tk+1 Tk+2 · · · Tn ,
(eine stochastische Matrix).
Anmerkung: Speziell für k = n − 1 erhält man wieder T(n−1,n] = Tn .
Theorem 4.5 (Formeln für die Verteilung einer Markov-Kette)
Sei (Xn )n∈N0 eine Markov-Kette mit Übergangsmatrizen (Tn )n∈N . Dann gilt:
(i) π n = π n−1 Tn
∀ n ∈ N , und auch π n = π k T(k,n] ∀ 0 ≤ k < n .
¡
¢
(ii) T(k,n] (x, y) = P Xn = y | Xk = x
für alle 0 ≤ k < n and all x, y ∈ M mit P(Xk = x) > 0 .
(iii) Für alle r ∈ N, alle 0 ≤ n0 < n1 < . . . < nr (in N0 ) und alle x0 , x1 , . . . , xr ∈ M :
¡
P Xn0 = x0 , Xn1 = x1 , . . . , Xnr = xr
¢
= π n0 (x0 )
r
Y
T(nj−1 ,nj ] (xj−1 , xj ) ,
j=1
und auch, sofern P( Xn0 = x0 ) > 0,
r
Y
¯
¢
¡
T(nj−1 ,nj ] (xj−1 , xj ) .
P Xn1 = x1 , . . . , Xnr = xr ¯ Xn0 = x0 =
j=1
Bemerkung:
Theorem 4.5 zeigt insbesondere:
Die Verteilung einer Markov-Kette (Xn )n∈N0 ist durch die Folge der Übergangsmatrizen (Tn )n∈N und
die Verteilung von X0 (die Anfangsverteilung) vollständig bestimmt.
Denn (i) and (iii) des Theorems 4.5 ergeben:
r
Y
¡
¢
¡
¢
P Xn1 = x1 , . . . , Xnr = xr = π 0 T(0,n1 ] (x1 )
T(nj−1 ,nj ] (xj−1 , xj ) ,
j=2
für alle r ∈ N, alle 0 ≤ n1 < . . . < nr (in N0 ) und alle x1 , . . . , xr ∈ M .
1
Q
Hier werden die üblichen Konventionen verwendet:
. . . := 1 und π 0 T(0,0] := π 0 .
j=2
Theorem 4.6 (Theoretische Ergänzung)
Seien M eine (nicht-leere) abzählbare Menge, (Tn )n∈N eine Folge von stochastischen Matrizen
(auf M × M ) und π 0 ein W-Vektor (auf M ). Dann existiert eine Markov-Kette (Xn )n∈N0 mit Zustandsraum M , die (Tn )n∈N als Übergangsmatrizen und π 0 als Anfangsverteilung hat.
(Letzteres soll heißen: P( X0 = x ) = π 0 (x) ∀ x ∈ M ).
Norbert Gaffke: Vorlesung “Stochastische Prozesse”, Sommersemester 2011
Kapitel 4: Markov-Ketten: Grundlagen
4.3
25
Rekursive Konstruktion einer Markov-Kette
Theorem 4.7
¡
¢
Seien eine Zufallsvariable
X0 : (Ω, A) −→ M, P(M ) und eine Folge von Zufallsvariablen Un :
¡
¢
(Ω, A) −→ E, B , n ∈ N , gegeben, wobei M abzählbar und (E, B) Messraum sind.
Die Zufallsvariablen X0 , U1 , U2 , . . . , Un , . . . seien stochastisch unabhängig.
Seien noch eine Folge messbarer Abbildungen fn : M × E −→ M , n ∈ N , gegeben.
Wir definieren rekursiv Zufallsvariablen Xn für alle n ∈ N :
¡
¢
¡
¢
Xn = fn Xn−1 , Un , d.h. Xn (ω) = fn Xn−1 (ω) , Un (ω)
∀ ω ∈ Ω.
Dann ist (Xn )n∈N0 eine Markov-Kette mit Zustandsraum M und Übergangsmatrizen (Tn )n∈N , wobei
³ ¡
´
¢
Tn (x, y) = P fn x, Un = y
∀ n ∈ N, ∀ x, y ∈ M.
Wenn außerdem die Zufallsvariablen Un (n ∈ N) identisch verteilt sind und die Abbildungen fn alle
identisch sind (fn = f1 ∀ n ∈ N) , dann ist die Markov-Kette (Xn )n∈N0 homogen mit der
Übergangsmatrix T, wobei
´
³ ¡
¢
∀ x, y ∈ M.
T(x, y) = P f1 x, U1 = y
4.4
4.4.1
Spezielle Markov-Ketten
Irrfahrt auf Z
So nennt man eine homogene Markov-Kette (Xn )n∈N0 mit Zustandsraum Z und Übergangsmatrix

 p , falls y = x + 1
q , falls y = x − 1 ,
T(x, y) =
∀x, y ∈ Z ,

0 , sonst
wobei p ∈ ( 0 , 1 ) und q := 1 − p. Im Fall p = 1/2 spricht man von einer symmetrischen Irrfahrt auf Z.
Eine Irrfahrt auf Z lässt sich auch konstruieren aus einer Folge Un (n ∈ N) von {±1}-wertigen Zufallsvariablen und einer Z-wertigen Zufallsvariablen X0 , wobei X0 , U1 , U2 , . . . , Un , . . . stochastisch
unabhängig seien und
P( Un = 1 ) = p ,
P( Un = −1 ) = q
∀ n ∈ N.
Die konstruktive Darstellung der Irrfahrt ist dann:
Xn = X0 +
n
X
Ui
∀ n ∈ N,
i=1
oder als Rekursion wie in Theorem 4.7 :
¡
¢
Xn = Xn−1 + Un = f Xn−1 , Un
∀ n ∈ N,
wobei
f : Z × {−1, 1} −→ Z ,
f (x, u) = x + u ,
(x ∈ Z , u ∈ {−1, 1}).
Norbert Gaffke: Vorlesung “Stochastische Prozesse”, Sommersemester 2011
Kapitel 4: Markov-Ketten: Grundlagen
4.4.2
26
Symmetrische Irrfahrt auf Zd
So nennt man eine homogene Markov-Kette (Xn )n∈N0 mit Zustandsraum Zd und Übergangsmatrix
(
Pd
1/(2d) , falls
i=1 |xi − yi | = 1
T(x, y) =
0
, sonst
∀ x = (x1 , . . . , xd ) , y = (y1 , . . . , yd ) ∈ Zd ,
Konstruktive Darstellung:
©
ª (i)
Sei Un (n ∈ N) eine Folge von Zufallsvariablen mit Werten in E := ±e(1) , . . . , ±e(d)
(e der i-te
elementare Einheitsvektor in Rd ) und PUn die Gleichverteilung auf E für alle n ; sei X0 eine Z-wertige
Zufallsvariable und X0 , U1 , U2 , . . . , Un , . . . seien stochastisch unabhängig. Dann:
Xn = X0 +
n
X
Ui ∀ n ∈ N ,
bzw. Xn = Xn−1 + Un ∀ n ∈ N .
i=1
4.4.3
Länge einer Warteschlange
Sei Un (n ∈ N) eine Folge von N0 -wertigen Zufallsvariablen, X0 eine N0 -wertige Zufallsvariable, und
X0 , U1 , U2 , . . . , Un , . . . seien stochastisch unabhängig. Ein Modell für die Länge einer Warteschlange
(in diskreter Zeit) ist:
Xn = (Xn−1 − 1)+ + Un ∀ n ∈ N .
Nach Theorem 4.7 ist (Xn )n∈N0 eine Markov-Kette mit Zustandsraum N0 und Übergangsmatrizen
(Tn )n∈N , wobei
¡
¢
Tn (x, y) = P Un = y − (x − 1)+
∀ x, y ∈ N0 .
Wenn außerdem die Un (n ∈ N) identisch verteilt sind mit Zähldichte g(j) = P(U1 = j) (j ∈ N0 ) ,
dann ist die Markov-Kette (Xn )n∈N0 homogen mit Übergangsmatrix

g(y)
, falls x ∈ {0, 1}

g(y − x + 1) , falls x ≥ 2 und y ≥ x − 1
∀ x, y ∈ N0 .
T(x, y) =

0
sonst
Ein Beispiel ist die sog. eingebettete Markov-Kette im M/G/1 - Bedienmodell (s. Abschnitt 2.3, insbes.
Theorem 2.14).
4.4.4
Simulated Annealing
Das ist ein stochastischer Algorithmus zur Lösung eines Minimierungsproblems
minimiere h(x) über x ∈ M ,
wobei M eine endliche (aber große) Menge und h eine gegebene reelle Funktion auf M sind. Das
Konzept des Simulated Annealing ist:
(o) Wähle einen Startpunkt x0 ∈ M . Gehe zu (i).
(i) Auf Stufe n − 1 ∈ N0 sei xn−1 ∈ M der aktuelle Punkt. Durch einen Zufallsmechanismus wird
ein Kandidat yn ∈ M für den nächsten aktuellen Punkt erzeugt (z.B. ziehe yn zufällig aus einer
“Umgebung” von xn−1 ). Gehe zu (ii).
(ii) Ein Bernoulli Experiment wird durchgeführt zur Entscheidung über Akzeptanz oder Verwerfung
von yn als nächsten aktuellen Punkt. Im Fall der Akzeptanz: xn := yn ; im Fall der Verwerfung:
xn := xn−1 . Ersetze n − 1 durch n und gehe zu (i).
Norbert Gaffke: Vorlesung “Stochastische Prozesse”, Sommersemester 2011
Kapitel 4: Markov-Ketten: Grundlagen
Die Durchführungen aller Zufallsexperimente seien voneinander (stochastisch) unabhängig.
Stochastisches Modell:
Zu (i): Gegeben eine Folge γ n (n ∈ N) stochastischer Matrizen auf M × M ; γ n (x, y) ist die Wahrscheinlichkeit, auf Stufe n − 1 bei aktuellem Punkt xn−1 = x den Kandidaten yn = y zu ziehen. Oft
wird eine konstante Folge γ n = γ ∀ n ∈ N verwendet.
Zu (ii): Gegeben eine Folge pn (n ∈ N) von [ 0 , 1 ]-wertigen Matrizen auf M × M (nicht notwendig stochastische Matrizen); pn (x, y) ist die Wahrscheinlichkeit, auf Stufe n−1 bei aktuellem Punkt xn−1 = x
und Kandidaten yn = y eben diesen Kandidaten y als nächsten aktuellen Punkt zu akzeptieren.
Z.B. die Akzeptanzwahrscheinlichkeiten nach Metropolis:
³ ¡h(y) − h(x)¢+ ´
, ∀ n ∈ N , ∀ x, y ∈ M ,
pn (x, y) = exp −
cn
mit einer Folge cn > 0 (Cooling Control Parameter), die sehr langsam gegen Null konvergiert.
Insgesamt resultiert als Modell eine Markov-Kette (Xn )n∈N0 mit Übergangsmatrizen
(
γ n (x, y) pn (x, y)
, falls y 6= x
, (x, y ∈ M , n ∈ N).
Tn (x, y) =
P
1 − z∈M \{x} γ n (x, z) pn (x, z) , falls y = x
Die vom Algorithmus erzeugte Punktfolge xn (n ∈ N0 ) ist ein Pfad xn = Xn (ω) (n ∈ N0 ) der
Markov-Kette.
27
Herunterladen