1 Basics über diskrete Markov-Ketten auf endli

Werbung
1
Basics über diskrete Markov-Ketten auf endlichen Zustandsräumen
Im folgenden sei S der Zustandsraum (Wertebereich), wir betrachten nur den für
algorithmische Aspekte ausreichenden Fall |S| < ∞.
Definition 1 Eine Folge S-wertiger Zufallsvariable (Xn )n≥0 heißt homogene MarkovKette mit Startverteilung µ und Übergangsmatrix P = (Pxy )x,y∈S , falls
P(X0 = x) = µ(x) ∀ x ∈ S
P(Xn+1 = y|Xn = x, Xn−1 = xn−1 , . . . , X0 = x0 ) = P(Xn+1 = y|Xn = x) = Pxy
für alle y, x, x0 , . . . , xn−1 ∈ S, so dass das Ereignis auf welches bedingt wird, nicht
Wahrscheinlichkeit 0 hat.
• (Pxy )x,y∈S ist eine stochastische |S| × |S| Matrix, d.h. 0 ≤ Pxy ≤ 1 für alle
P
x, y ∈ S und y∈S Pxy = 1 für alle x ∈ S.
• Die Startverteilung µ wird gerne als Index beigefügt, statt P schreibt man Pµ .
Man setzt Px := Pδx .
Definition 2 Eine Verteilung π heißt stationäre Verteilung für die Markov-Kette
(Xn )n≥0 , falls
X
π(x) =
π(y)Pyx .
y∈S
• In Matrixschreibweise gilt π = πP , π ist demnach ein linker Eigenvektor der
Übergangsmartrix P zum Eigenwert 1.
• Es gilt Pπ (Xn = x) = Pπ (X0 = x) = π(x) für alle x ∈ S, n ≥ 0. Die Folge von
Zufallsvariablen (Xn )n≥0 ist somit identisch verteilt, dies erklärt den Begriff
stationär.
• π(x) lässt sich als asymptotischen Zeitanteil, den die Kette in x verbringt,
interpretieren.
• Für |S| < ∞ existiert eine stationäre Verteilung.
Definition 3 Eine Markov-Kette (Xn )n≥0 heißt irreduzibel, falls für alle x, y ∈ S
ein n ≥ 0 existiert mit Px (Xn = y) > 0. Sie heißt aperiodisch, falls für alle x, y ∈ S
gilt ggT{n : Px (Xn = y) > 0} = 1.
Im irreduziblen Fall ist die stationäre Verteilung eindeutig.
Satz 1 (Konvergenzsatz) Sei (Xn )n≥0 eine aperiodisch, irreduzible Markovkette
mit stationärer Verteilung π. Dann gilt für alle x ∈ S
n→∞
sup |Px (Xn ∈ A) − π(A)| −→ 0.
A⊆S
1
Anschaulich besagt dieser Satz, dass die Kette ihren Anfangszustand “vergisst”.
Sind sowohl die Übergangswahrscheinlichkeiten als auch die stationäre Verteilung
bekannt, erlaubt der Satz für “große” n die Verteilung der Kette durch die stationäre Verteilung zu approximieren und somit Informationen über ihre Dynamik
zu erhalten. Dieses Verfahren lässt sich für algorithmische Zwecke unter gewissen
Umständen umkehren.
Anwendung: Stichprobenziehen aus einer unbekannten Verteilung π: Konstruiere
eine Markov-Kette mit stationärer Verteilung π und lasse sie hinreichend lang laufen.
Natürlich ist zunächst unklar, wie eine passende Kette konstruiert werden kann,
falls die stationäre Verteilung unbekannt ist. Wir erwähnen zwei übliche Verfahren.
Metropolis-Algorithmus: Konstruiere zusammenhängenden Graphen (V, E) mit
Eckenmenge S. Es ist möglich eine Markov-Kette auf S zu konstruieren, die eine
Irrfahrt auf dem Graphen vollführt und stationäre Verteilung π hat, falls die Übergangswahrscheinlichkeiten passend gewählt werden. Dabei muss π nur bis auf eine
Konstante bekannt sein, es gehen nur Größen der Form π(x)/π(y) für x, y ∈ S in
die Rechnung ein.
n
Gibbs-Sampler: Sei S = S für eine endliche Menge S und n ∈ N. Konstruiere
eine Markov-Kette auf S wiefolgt: Gilt Xn = (x1 , . . . , xn ) so wähle i ∈ {1, . . . , n}
uniform, setze Xn+1 (j) = Xn (j) für j 6= i und
P(Xn+1 (i) = y) =
π(x1 , . . . , xi−1 , y, xi+1 , . . . , xn )
.
π({(y1 , . . . , yn ) : yj = xj für j 6= i})
Auch hier muss die stationäre Verteilung nicht explizit bekannt sein.
Als zusätzliche Eigenschaft ergibt sich in diesen beiden Fällen, dass die stationäre
Verteilung π reversibel ist, d.h. für alle x, y ∈ S gilt
π(x)Pxy = π(y)Pyx .
• π(x)Pxy lässt sich als asymptotischer Anteil der Zeit, in der die Kette von
x nach y springt, interpretieren. Reversibilität besagt demnach, dass diese
Übergänge asymptotisch gleichoft auftreten, die Kette ist demnach in einem
lokalen Gleichgewicht.
• Wird eine Kette in ihrer reversiblen Verteilung gestartet, so sind (X0 , . . . , Xn )
und (Xn , . . . , X0 ) identisch verteilt, die Verteilung der Kette ändert sich unter
Zeitumkehr nicht.
2
Herunterladen