1 Basics über diskrete Markov-Ketten auf endlichen Zustandsräumen Im folgenden sei S der Zustandsraum (Wertebereich), wir betrachten nur den für algorithmische Aspekte ausreichenden Fall |S| < ∞. Definition 1 Eine Folge S-wertiger Zufallsvariable (Xn )n≥0 heißt homogene MarkovKette mit Startverteilung µ und Übergangsmatrix P = (Pxy )x,y∈S , falls P(X0 = x) = µ(x) ∀ x ∈ S P(Xn+1 = y|Xn = x, Xn−1 = xn−1 , . . . , X0 = x0 ) = P(Xn+1 = y|Xn = x) = Pxy für alle y, x, x0 , . . . , xn−1 ∈ S, so dass das Ereignis auf welches bedingt wird, nicht Wahrscheinlichkeit 0 hat. • (Pxy )x,y∈S ist eine stochastische |S| × |S| Matrix, d.h. 0 ≤ Pxy ≤ 1 für alle P x, y ∈ S und y∈S Pxy = 1 für alle x ∈ S. • Die Startverteilung µ wird gerne als Index beigefügt, statt P schreibt man Pµ . Man setzt Px := Pδx . Definition 2 Eine Verteilung π heißt stationäre Verteilung für die Markov-Kette (Xn )n≥0 , falls X π(x) = π(y)Pyx . y∈S • In Matrixschreibweise gilt π = πP , π ist demnach ein linker Eigenvektor der Übergangsmartrix P zum Eigenwert 1. • Es gilt Pπ (Xn = x) = Pπ (X0 = x) = π(x) für alle x ∈ S, n ≥ 0. Die Folge von Zufallsvariablen (Xn )n≥0 ist somit identisch verteilt, dies erklärt den Begriff stationär. • π(x) lässt sich als asymptotischen Zeitanteil, den die Kette in x verbringt, interpretieren. • Für |S| < ∞ existiert eine stationäre Verteilung. Definition 3 Eine Markov-Kette (Xn )n≥0 heißt irreduzibel, falls für alle x, y ∈ S ein n ≥ 0 existiert mit Px (Xn = y) > 0. Sie heißt aperiodisch, falls für alle x, y ∈ S gilt ggT{n : Px (Xn = y) > 0} = 1. Im irreduziblen Fall ist die stationäre Verteilung eindeutig. Satz 1 (Konvergenzsatz) Sei (Xn )n≥0 eine aperiodisch, irreduzible Markovkette mit stationärer Verteilung π. Dann gilt für alle x ∈ S n→∞ sup |Px (Xn ∈ A) − π(A)| −→ 0. A⊆S 1 Anschaulich besagt dieser Satz, dass die Kette ihren Anfangszustand “vergisst”. Sind sowohl die Übergangswahrscheinlichkeiten als auch die stationäre Verteilung bekannt, erlaubt der Satz für “große” n die Verteilung der Kette durch die stationäre Verteilung zu approximieren und somit Informationen über ihre Dynamik zu erhalten. Dieses Verfahren lässt sich für algorithmische Zwecke unter gewissen Umständen umkehren. Anwendung: Stichprobenziehen aus einer unbekannten Verteilung π: Konstruiere eine Markov-Kette mit stationärer Verteilung π und lasse sie hinreichend lang laufen. Natürlich ist zunächst unklar, wie eine passende Kette konstruiert werden kann, falls die stationäre Verteilung unbekannt ist. Wir erwähnen zwei übliche Verfahren. Metropolis-Algorithmus: Konstruiere zusammenhängenden Graphen (V, E) mit Eckenmenge S. Es ist möglich eine Markov-Kette auf S zu konstruieren, die eine Irrfahrt auf dem Graphen vollführt und stationäre Verteilung π hat, falls die Übergangswahrscheinlichkeiten passend gewählt werden. Dabei muss π nur bis auf eine Konstante bekannt sein, es gehen nur Größen der Form π(x)/π(y) für x, y ∈ S in die Rechnung ein. n Gibbs-Sampler: Sei S = S für eine endliche Menge S und n ∈ N. Konstruiere eine Markov-Kette auf S wiefolgt: Gilt Xn = (x1 , . . . , xn ) so wähle i ∈ {1, . . . , n} uniform, setze Xn+1 (j) = Xn (j) für j 6= i und P(Xn+1 (i) = y) = π(x1 , . . . , xi−1 , y, xi+1 , . . . , xn ) . π({(y1 , . . . , yn ) : yj = xj für j 6= i}) Auch hier muss die stationäre Verteilung nicht explizit bekannt sein. Als zusätzliche Eigenschaft ergibt sich in diesen beiden Fällen, dass die stationäre Verteilung π reversibel ist, d.h. für alle x, y ∈ S gilt π(x)Pxy = π(y)Pyx . • π(x)Pxy lässt sich als asymptotischer Anteil der Zeit, in der die Kette von x nach y springt, interpretieren. Reversibilität besagt demnach, dass diese Übergänge asymptotisch gleichoft auftreten, die Kette ist demnach in einem lokalen Gleichgewicht. • Wird eine Kette in ihrer reversiblen Verteilung gestartet, so sind (X0 , . . . , Xn ) und (Xn , . . . , X0 ) identisch verteilt, die Verteilung der Kette ändert sich unter Zeitumkehr nicht. 2