Aufgabensammlung zur Vorlesung Markovketten SS 2008

Werbung
Institut für Mathematische Statistik
Universität Münster
Aufgabensammlung zur Vorlesung
Markovketten
SS 2008
Aufgabe 1 (4 Punkte)
Gegeben sei die zeitlich homogene Markovkette (X0 , X1 , . . .) aus Beispiel 1.1 (Irrfahrt in kleiner“
”
Stadt) mit Startverteilung µ(0) := (1, 0, 0, 0) und Übergangsmatrix


0 12 0 12
 1 0 1 0 


P :=  2 1 2 1  .
 0 2 0 2 
1
1
2 0 2 0
a) Berechnen Sie das Quadrat P 2 der Übergangsmatrix P . Wie ist P 2 zu interpretieren?
b) Zeigen Sie durch Induktion, daß gilt:

 0, 12 , 0, 12 für n = 1, 3, 5, . . .
µ(n) =
 1 , 0, 1 , 0 für n = 2, 4, 6, . . .
2
2
Lösung zu Aufgabe 1
a) Die Matrix

1
2
 0

P 2 :=  1
 2
0
0
1
2
0
1
2

1
2
0
0



0 
1
2
1
2
1
2
0
enthält die Übergangswahrscheinlichkeiten der zeitlich homogenen Markovkette (X0 , X1 , . . .)
für zwei Zeitschritte. Genauer gesagt gibt ein Eintrag
(P 2 )i,j = IP(Xn+2 = sj |Xn = si )
die bedingte Wahrscheinlichkeit an, daß die Markovkette sich im Schritt n + 2 im Zustand sj
befindet, wenn sie im Schritt n im Zustand si war.
b) Es ist zu zeigen, daß für alle k ∈ IN gilt:
1
1
(2k−1)
µ
=
0, , 0,
2
2
und
1
µ
(2k)
=
1
1
, 0, , 0 .
2
2
Wir beweisen dies durch Induktion über k. Hierbei beachte man, daß für alle n ∈ IN nach
Satz 1.1 µ(n) = µ(0) P n gilt. Damit ist für k = 1


0 21 0 12
 1 0 1 0 


(1)
(0)
µ
= µ P = (1, 0, 0, 0)  2 1 2 1  = 0, 12 , 0, 21 ,
 0 2 0 2 
1
1
2 0 2 0
 1

1
2 0 2 0
 0 1 0 1 


µ(2) = µ(0) P 2 = (1, 0, 0, 0)  1 2 1 2  = 12 , 0, 12 , 0 .
 2 0 2 0 
0 12 0 12
Gilt die Behauptung für ein k, so folgt nach Induktionsvoraussetzung
 1
1
2 0 2
1

0
 0
µ(2(k+1)−1) = µ(2k+1) = µ(2k−1) P 2 = 0, 21 , 0, 12  1 2 1
 2 0 2
0 12 0
 1
1
2 0 2

1
 0
0
µ(2(k+1))
= µ(2k+2) = µ(2k) P 2
= 21 , 0, 12 , 0  1 2 1
 2 0 2
0 12 0
0
1
2



 =
0 
,
.
0, 21 , 0, 12
1
2
0
1
2



 =
0 
1
1
2 , 0, 2 , 0
1
2
Aufgabe 2 (3 Punkte)
Gegeben sei die zeitlich homogene Markovkette (X0 , X1 , . . .) aus Beispiel 1.2 (Europäisches Wettermodell) mit Startverteilung µ(0) := (1, 0) (d.h. Start an einem regnerischen Tag) und Übergangsmatrix
!
0.75 0.25
P :=
.
0.25 0.75
a) Zeigen Sie durch Induktion, daß für jedes n ∈ IN gilt:
1
1
µ(n) =
1 + 2−n ,
1 − 2−n
.
2
2
b) Was passiert mit µ(n) für n → ∞?
Lösung zu Aufgabe 2
a) Für n = 1 ist
µ(1) = µ(0) P
= (1, 0)
3
4
1
4
1
4
3
4
!
=
3 1
4, 4
=
1
2
1 + 2−1 , 12 1 − 2−1 .
Gilt die Behauptung für ein n, so folgt nach Induktionsvoraussetzung
µ(n+1)
=
µ(n) P
=
=
1
2
1
2
(1 +
2−n ) , 12
(1 −
2−n )
3
4
1
4
1
4
3
4
!
1 + 2−(n+1) , 21 1 − 2−(n+1) .
2
b) Für n → ∞ strebt 2−n gegen 0 und somit µ(n) gegen
1 1
2, 2
.
Aufgabe 3 (4 Punkte)
a) Gegeben sei die Markovkette (X0 , X1 , . . .) aus Beispiel 1.3 (Kalifornisches Wettermodell) mit
Startverteilung µ(0) := 61 , 56 und Übergangsmatrix
!
0.5 0.5
P :=
.
0.1 0.9
Zeigen Sie, daß µ(n) = µ(0) für alle n gilt. Was bedeutet dies anschaulich?
b) Gibt es eine Startverteilung für die Markovkette aus Aufgabe 2 (Europäisches Wettermodell),
für die sich dasselbe Verhalten wie in Teil a), d.h. µ(n) = µ(0) für alle n, einstellt? Vergleichen
Sie dieses Resultat mit dem aus Aufgabe 2b).
Lösung zu Aufgabe 3
a) Induktion über n. Für n = 1 gilt
µ(1)
=
µ(0) P
=
1 5
6, 6
0.5 0.5
0.1 0.9
!
=
1 5
6, 6
= µ(0) .
Ist die Behauptung wahr für ein n, so folgt nach Definition und Induktionsvoraussetzung
!
0.5
0.5
µ(n+1) = µ(n) P = 61 , 56
= 61 , 56 = µ(0) ,
0.1 0.9
also die Behauptung. Diese bedeutet, daß die Verteilungen der Xj alle gleich sind, d.h. daß
die Regenwahrscheinlichkeit an jedem Tag dieselbe ist.
!
b) Zur Bestimmung einer derartigen Startverteilung lösen wir die Gleichung µ(1) = µ(0) P = µ(0) ,
d.h. mit µ(0) = (x1 , x2 ) die Gleichung
!
(x1 , x2 )
3
4
1
4
1
4
3
4
!
= (x1 , x2 ) ,
also das Gleichungssystem
3
x1 +
4
1
x1 +
4
1
!
x2 = x1 ,
4
3
!
x2 = x2 ,
4
was äquivalent ist zu x1 = x2 . Unter der Randbedingung x1 + x2 = 1 (Wahrscheinlichkeiten!)
ergibt sich die Lösung
1 1
(0)
,
.
µ
=
2 2
Diese sogenannte Gleichgewichtsverteilung tauchte bereits in Aufgabe 2b) als Grenzwert für
n → ∞ der zu der Startverteilung (1, 0) gehörigen Verteilungen µ(n) auf.
3
Aufgabe 4 (4 Punkte)
Gegeben sei eine zeitlich homogene Markovkette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und
Übergangsmatrix P . Zeigen Sie, daß für alle m, n ≥ 0 und für alle i, j ∈ {1, . . . , k} gilt:
IP(Xm+n = sj |Xm = si ) = (P n )i,j .
Lösung zu Aufgabe 4
Seien m ≥ 0 sowie i, j ∈ {1, . . . , k} beliebig und im folgenden fest. Wir beweisen die Behauptung
durch Induktion über n. Für n = 1 gilt
IP(Xm+1 = sj |Xm = si ) = Pi,j
nach Definition. Gilt nun die Induktionsvoraussetzung
IP(Xm+n = sj |Xm = si ) = (P n )i,j ,
so folgt nach den elementaren Rechenregeln für bedingte Wahrscheinlichkeiten und der Definition
einer zeitlich homogenen Markovkette
IP(Xm+n+1 = sj |Xm = si ) =
=
IP(Xm+n+1 = sj , Xm = si )
IP(Xm = si )
k
X
IP(Xm+n+1 = sj , Xm+n = sl , Xm = si )
IP(Xm = si )
l=1
=
=
k
X
l=1
k
X
l=1
=
IP(Xm+n+1 = sj |Xm+n = sl , Xm = si ) ·
IP(Xm+n = sl , Xm = si )
IP(Xm = si )
IP(Xm+n+1 = sj |Xm+n = sl ) · IP(Xm+n = sl |Xm = si )
{z
}
|
{z
} |
I.V.
Def.
= (P n )i,l
= Pl,j
k
X
(P n )i,l Pl,j
l=1
n+1
= (P
)i,j .
Aufgabe 5 (5 Punkte)
Sei (X0 , X1 , . . .) eine zeitlich homogene Markovkette mit Zustandsraum S = {s1 , . . . , sk } und
Übergangsmatrix P .
a) Zeigen Sie: Zwei kommunizierende Zustände haben dieselbe Periode, d.h. es gilt:
si ↔ sj
=⇒
d(si ) = d(sj ) .
b) Welche Aussage ergibt sich aus a) speziell für irreduzible Markovketten?
Lösung zu Aufgabe 5
a) Die Aussage si kommuniziert mit sj“ bedeutet, daß ein k ∈ IN existiert mit
”
(P k )i,j = IP(Xm+k = sj |Xm = si ) > 0
4
für alle m (vgl. Aufgabe 4). Ferner sei an die Definition
d(si ) = ggT{n ≥ 1 | (P n )i,i > 0}
(1)
erinnert, wobei die auf der rechten Seite von (1) auftretende Menge von der Gestalt
Ai := {n ≥ 1 | (P n )i,i > 0} = {d(si ) · nli }l∈I
mit durch eine Indexmenge I indizierten natürlichen Zahlen nli ist, für die gilt:
ggT{nli }l∈I
= 1.
Nach der Voraussetzung si ↔ sj existieren k, m ∈ IN mit (P k )i,j > 0 bzw. (P m )j,i > 0, und
es ergibt sich das folgende Schema für die zwischen si und sj möglichen Übergänge:
m
d(si) · nli
....
......................... .....................................
.........
..........................
............
.........
.......... ...............
.....
.......
.........
........
....
......
....
.....
..... ......... ...............
...
....... ........... .........
...
.
.
......
...
.....
...... ..........
.
.
...
.
.
.
.
.
.
...
..
.
...
..
.
..
.
....
...
.
....
..
..
....
...
...
..
.
.
...
...
..
.
.
...
.
.
.
.
...
...
..
.
.
...
.
.
.
.
.
.
.....
......
...
.....
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.......
...
...
..
.......
........
....
...
.....
........
..........
.....
......
.....
.......
..........
.............
............. .................
.............................
.........................................................
..
si
sj
d(sj ) · nlj
k
Wir zeigen im folgenden, daß d(sj ) den anderen ggT d(si ) teilt. Mit einer analogen Argumentation ergibt sich dann auch d(si ) | d(sj ) und somit die Behauptung d(si ) = d(sj ).
Behauptung: d(sj ) | d(si ):
Da es einen Übergang von si zu sich selbst in k + m Schritten gibt, läßt sich k + m als
k + m = d(si ) · nl0 i
mit einem festen l0 ∈ I
schreiben. Da es ebenfalls einen Übergang von sj zu sich selbst in k + m Schritten gibt, folgt
d(sj ) | k + m und damit
d(sj ) | d(si ) · nl0 i .
(2)
Da es des weiteren für alle l ∈ I einen Übergang von sj zu sich selbst in k + m + d(si ) · nli
Schritten gibt, gilt d(sj ) | k + m + d(si ) · nli und damit
d(sj ) | d(si ) · [nl0 i + nli ] .
(3)
Wir nun nehmen an, daß d(sj ) den ggT d(si ) nicht teilt und erhalten mit (2) sowie (3) die
Beziehungen
d(sj ) | nl0 i
und
d(sj ) | nl0 i + nli
für alle l ∈ I
und hieraus
d(sj ) | nli
für alle l ∈ I
im Widerspruch zu ggT{nli }l∈I = 1.
b) Da in einer irreduziblen Markovkette nach Definition alle Zustände kommunizieren, bedeutet
a) in diesem Fall, daß alle Zustände dieselbe Periode besitzen.
5
Aufgabe 6 (3 Punkte)
Zeigen Sie, daß eine zeitlich homogene irreduzible Markovkette mit Zustandsraum S = {s1 , . . . , sk }
und Übergangsmatrix P , die einen Zustand si mit Pii > 0 besitzt, auch aperiodisch ist.
Lösung zu Aufgabe 6
Nach Aufgabe 5 haben in einer zeitlich homogenen Markovkette zwei kommunizierende Zustände
dieselbe Periode. Da in einer irreduziblen Markovkette alle Zustände wechselseitig kommunizieren,
ist dort für alle Zustände die Periode gleich:
d := d(sj ) = ggT{n ≥ 1 | (P n )j,j > 0}
für alle j ∈ {1, . . . , k}.
Da ferner nach Voraussetzung ein Zustand si mit Pii > 0 existiert, liegt der Wert 1 in der Menge
{n ≥ 1 | (P n )j,j > 0}, über die der ggT gebildet wird, was
d = d(si ) = 1
zur Folge hat. Der Zustand si und damit auch die gesamte Markovkette ist also aperiodisch.
Aufgabe 7 (5 Punkte)
Wir modellieren die Bewegung einer einzelnen Schachfigur auf einem Schachbrett als (zeitlich homogene) Markovkette. Dabei sei der Zustandsraum S = {s1 , . . . , s64 } die Menge der Felder, Xn
die Position der Figur zum Zeitpunkt n und die Übergangsmatrix P dadurch gegeben, daß die
Schachfigur in jedem Schritt aus allen möglichen Zügen gleichwahrscheinlich einen auswählt (P soll
nicht explizit angegeben werden!).
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0j0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0a0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0m0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
Bestimmen Sie, ob die Markovkette (X0 , X1 , . . .) irreduzibel bzw. aperiodisch ist, wenn es sich bei
der Figur um einen
a) König
b) Läufer
c) Springer
handelt.
Lösung zu Aufgabe 7
Die Bewegung einer einzelnen Schachfigur auf einem Schachbrett kann als (zeitlich homogene)
Markovkette mit Zustandsraum S = {s1 , . . . , s64 } und Übergangsmatrix P modelliert werden. Dabei bezeichnet Xn die Position der Figur zum Zeitpunkt n, und in jedem Schritt wird aus allen
6
möglichen Zügen gleichwahrscheinlich einer ausgewählt.
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0j0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0a0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0m0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
Es soll bestimmt werden, ob die Markovkette (X0 , X1 , . . .) in den Fällen König, Läufer, Springer
irreduzibel bzw. aperiodisch ist.
a) König: Da der König von jeder Position aus jedes Feld erreichen kann, ist die Markovkette
irreduzibel.
Sie ist ferner aperiodisch, da jeder Zustand die Periode 1 besitzt, d.h. für jedes Feld si gilt
d(si ) = ggT{n ≥ 1 | (P n )i,i > 0} = 1 .
(4)
Dies sieht man leicht ein, da der König stets in 2 oder in 3 Zügen zu seiner Ausgangsposition
zurückkehren kann (in 2 Zügen: auf Nachbarfeld ziehen und zurück; in 3 Zügen: einmal im
Dreieck ziehen). Damit muß der ggT der Menge in (4) gleich 1 sein.
b) Läufer: Im Falle eines Läufers ist die resultierende Markovkette reduzibel, da von einer
Ausgangsposition nie alle Felder erreicht werden können. Denn steht der Läufer auf einem
schwarzen Feld, kann er genau die schwarzen Felder erreichen und die weißen nicht. Analoges
gilt für eine Ausgangsposition auf einem weißen Feld.
Die Markovkette ist wie im Falle des Königs aperiodisch, da auch der Läufer stets in 2 oder
in 3 Zügen zu seiner Ausgangsposition zurückkehren kann.
c) Springer: Der Springer kann von jeder Ausgangsposition aus jedes Feld erreichen. Somit ist
die resultierende Markovkette irreduzibel.
Sie ist ferner periodisch mit Periode 2, d.h. für jedes Feld si gilt
d(si ) = ggT{n ≥ 1 | (P n )i,i > 0} = 2
(5)
für den größten gemeinsamen Teiler aller mit positiver Wahrscheinlichkeit auftretenden Rückkehrzeiten zu si . Denn wie man sich leicht überlegt, kann der Springer in 2 Zügen zu seiner
Ausgangsposition si zurückkehren. Da er aber von einem schwarzen Feld aus nur auf ein
weißes gelangt (und umgekehrt von einem weißen nur auf ein schwarzes), kann er auch nur in
einer geraden Anzahl von Schritten zu seiner Ausgangsposition si zurückkehren. Damit teilt
2 alle n mit (P n )i,i > 0, und insgesamt ist der ggT in (5) gleich 2.
Aufgabe 8 (6 Punkte)
Beweisen Sie die Formel
kν − µk = max |ν(A) − µ(A)|
A⊆S
7
für den Abstand in totaler Variation von zwei Wahrscheinlichkeitsmaßen ν und µ auf einer Menge
S = {s1 , . . . , sk }.
Hinweis: Zeigen Sie zunächst |ν(A) − µ(A)| ≤ kν − µk für alle A ⊆ S und betrachten Sie dann
das Ereignis A := {s ∈ S : ν(s) ≥ µ(s)}.
Lösung zu Aufgabe 8
Für zwei Wahrscheinlichkeitsmaße ν = (ν1 , . . . , νk ) und µ = (µ1 , . . . , µk ) auf einer Menge S =
{s1 , . . . , sk } ist der Abstand in totaler Variation definiert als
k
kν − µk =
1X
|νi − µi | .
2
i=1
Wir möchten also die Darstellung
k
1X
|νi − µi | = max |ν(A) − µ(A)|
A⊆S
2
(6)
i=1
zeigen. Hierzu verwenden wir die für allgemeine reellwertige Funktionen f gültige Zerlegung in
einen Positiv– und einen Negativ–Teil, d.h. mit der Notation
f + := max(f, 0)
f − := − min(f, 0)
und
gilt
= f+ − f−
f
|f | = f + + f −
und
.
Zunächst beobachtet man, daß wegen
0 =
k
X
(νi − µi ) =
i=1
k
X
i=1
|νi − µi | =
k
X
i=1
k
X
i=1
+
(νi − µi ) −
(νi − µi )+ +
k
X
i=1
k
X
i=1
(νi − µi )−
und
(νi − µi )−
die Beziehung
k
X
i=1
(νi − µi )+ =
k
X
i=1
k
(νi − µi )− =
1X
|νi − µi |
2
i=1
gilt. Damit folgt die Gleichheit (6) aus den folgenden zwei Behauptungen.
P
Behauptung 1: ∀A ⊆ S : |ν(A) − µ(A)| ≤ 21 ki=1 |νi − µi |
Beweis. Für beliebiges A ⊆ S gilt
ν(A) − µ(A) =
X
i:si ∈A
(νi − µi ) =
X
i:si ∈A
(νi − µi )+ −
X
i:si ∈A
(νi − µi )− ≤
k
X
i=1
(νi − µi )+
k
=
1X
|νi − µi |
2
i=1
8
und umgekehrt mit derselben Argumentation
k
µ(A) − ν(A) ≤
k
1X
|µi − νi | =
2
1X
|νi − µi | .
2
i=1
i=1
Zusammengenommen folgt Behauptung 1:
k
1X
|νi − µi |
2
|ν(A) − µ(A)| ≤
Behauptung 2: ∃A ⊆ S : |ν(A) − µ(A)| =
1
2
.
i=1
Pk
i=1 |νi
− µi |
Wir zeigen, daß die Gleichheit für das Ereignis
A := {s ∈ S : ν(s) ≥ µ(s)} = {si ∈ S : νi ≥ µi }
gilt. Denn hierfür ist
ν(A) − µ(A) =
X
i:si ∈A
(νi − µi ) =
k
X
i=1
k
+
(νi − µi )
=
1X
|νi − µi | .
2
i=1
Insbesondere gilt ν(A) − µ(A) ≥ 0, also ν(A) − µ(A) = |ν(A) − µ(A)| und damit Behauptung 2.
Aufgabe 9 (6 Punkte)
Wir betrachten eine zeitlich homogene, irreduzible und aperiodische Markovkette (X0 , X1 , . . .)
mit Zustandsraum S = {s1 , . . . , sk } und Übergangsmatrix P . Wie in der Vorlesung sei Ti,i die
Rückkehrzeit nach si , wenn die Markovkette in si startet, d.h.
Ti,i = min{n ≥ 1 | Xn = i}
mit X0 = si ,
und bei Start in s1 bezeichne
̺i :=
∞
X
IP (Xn = si , T1,1 > n)
(7)
n=0
die mittlere Anzahl von Besuchen in si bis zur Rückkehr nach s1 . In der Vorlesung wurde gezeigt,
daß die invariante Verteilung durch
̺1
̺2
̺k
π := (π1 , . . . , πk ) =
,
, ... ,
IE[T1,1 ] IE[T1,1 ]
IE[T1,1 ]
gegeben ist. Verallgemeinert man (7) auf einen Start der Markovkette in sm (d.h. es gelte X0 = sm ),
so bezeichnet
̺m,i :=
∞
X
IP (Xn = si , Tm,m > n)
n=0
die mittlere Anzahl von Besuchen in si vor der Rückkehr nach sm . Insbesondere gilt ̺i = ̺1,i .
Zeigen Sie:
a)
π =
1
1
1
,
, ... ,
IE[T1,1 ] IE[T2,2 ]
IE[Tk,k ]
9
.
b)
̺m,i =
πi
.
πm
Lösung zu Aufgabe 9
Startet die Markovkette in sm (d.h. gilt X0 = sm ), so ist
̺m,m =
∞
X
IP (Xn = sm , Tm,m > n) = 1 ,
n=0
denn anhand der Definition von Tm,m sieht man unmittelbar, daß der Summand für n = 0 gleich 1
und alle anderen Summanden gleich 0 sind.
Schreibt man nun die Formel
π = (π1 , . . . , πk ) =
̺1
̺2
̺k
,
, ... ,
IE[T1,1 ] IE[T1,1 ]
IE[T1,1 ]
für die invariante Verteilung von P für jeden einzelnen Startpunkt sm und berücksichtigt neben
der Gleichheit ̺m,m = 1 die Eindeutigkeit der invarianten Verteilung, so gelangt man zu
̺1,k
̺1,2
1
π = (π1 , . . . , πk ) =
,
, ... ,
IE[T1,1 ] IE[T1,1 ]
IE[T1,1 ]
̺2,k
̺2,1
1
,
, ... ,
=
(8)
IE[T2,2 ] IE[T2,2 ]
IE[T2,2 ]
..
.
̺k,2
̺k,1
1
,
, ... ,
.
=
IE[Tk,k ] IE[Tk,k ]
IE[Tk,k ]
Dabei bedeutet die Gleichheit der k Vektoren die jeweilige Gleichheit der Komponenten.
a) Aus dem Vergleich der Komponenten in (8) (man betrachte die Diagonale“) liest man sofort
”
die gewünschte Darstellung von π ab:
1
1
1
π =
,
, ... ,
.
IE[T1,1 ] IE[T2,2 ]
IE[Tk,k ]
b) Die Darstellung (8) liefert für alle m, i ∈ {1, . . . , k} (man betrachte die Spalten“):
”
̺m,i
1
=
,
IE[Tm,m ]
IE[Ti,i ]
also durch Umformen und Einsetzen von a)
̺m,i =
IE[Tm,m ]
IE[Ti,i ]
=
πi
.
πm
Aufgabe 10 (7 Punkte)
a) Es seien P eine Übergangsmatrix und 0 ≤ α ≤ 1. Zeigen Sie: Falls π und π ′ invariante
Verteilungen von P sind, so gilt dies auch für απ + (1 − α)π ′ .
10
b) Sei nun speziell
P



:= 

0.75 0.25 0
0
0.25 0.75 0
0
0
0
0.5 0.5
0
0
0.1 0.9
i) Finden Sie alle invarianten Verteilungen für P .





.
ii) Sei (X0 , X1 , . . .) eine Markovkette mit Startverteilung µ(0) und Übergangsmatrix P . Wie
verhält sich µ(n) für n → ∞? Was sind die möglichen Grenzverteilungen?
Lösung zu Aufgabe 10
a) Es seien π = (π1 , . . . , πk ) und π ′ = (π1′ , . . . , πk′ ) invariante Verteilungen von P . Wir zeigen, daß
die Mischung απ +(1−α)π ′ ebenfalls invariant für P ist. Offensichtlich sind die Komponenten
(απ + (1 − α)π ′ )i = απi + (1 − α)πi′ nichtnegativ und summieren sich zu 1:
k
X
i=1
απ + (1 − α)π
′
i
= α
i=1
i=1
πi + (1 − α)
| {z }
k
X
=πj
}
=
1.
i=1
=1
k
k
X
X
πi′ Pi,j
πi Pi,j + (1 − α)
απ + (1 − α)π ′ i Pi,j = α
|i=1 {z
πi′
| {z }
=1
Des weiteren gilt für alle j ∈ {1, . . . , k}
k
X
k
X
|i=1 {z
}

,
=πj′
b) Wir betrachten nun die spezielle Matrix

0.75 0.25 0
0
 0.25 0.75 0
0

P = 
 0
0
0.5 0.5
0
0
0.1 0.9




=
απ + (1 − α)π ′
die sich am geschicktesten als Blockmatrix mit 2 × 2–Blöcken schreibt:
!
!
0.75 0.25
P1 0
mit P1 :=
und P2 :=
P =
0.25 0.75
0 P2
0.5 0.5
0.1 0.9
j
!
.
.
i) Es sei π = (π1 , π2 , π3 , π4 ) ein Zeilenvektor mit nichtnegativen Komponenten, die sich zu
1 summieren. Die Bedingung dafür, daß π invariante Verteilung von P ist, läßt sich wie
folgt äquivalent umformen:
πP = π
⇐⇒
⇐⇒
⇐⇒
(π1 , π2 )P1 = (π1 , π2 ) und (π3 , π4 )P2 = (π3 , π4 )
π1
π1
π2
π2
(π1 + π2 )
,
,
P1 = (π1 + π2 )
,
π1 + π2 π1 + π2
π1 + π2 π1 + π2
π3
π3
π4
π4
(π3 + π4 )
,
,
P2 = (π3 + π4 )
π3 + π4 π3 + π4
π3 + π4 π3 + π4
π1
π1
π2
π2
,
,
P1 =
,
π1 + π2 π1 + π2
π1 + π2 π1 + π2
π3
π4
π4
π3
,
,
P2 =
.
π3 + π4 π3 + π4
π3 + π4 π3 + π4
11
(π1 , π2 , π3 , π4 )ist also genau
Verteilung
von P , wenn die normalisierten
dann invariante
π1
π2
π4
π3
Teilvektoren π1 +π2 , π1 +π2 bzw. π3 +π4 , π3 +π4 invariante Verteilungen der Teilmatrizen P1 bzw. P2 sind. Man beachte, daß dabei die beiden Teilvektoren auf Komponentensumme 1 normalisiert werden müssen. Da nun die zu den beiden 2 × 2–Matrizen
gehörenden Markovketten irreduzibel und aperiodisch sind, ist die jeweilige zugehörige
invariante Verteilung eindeutig, und es folgt nach Aufgabe 3
π1
1 1
1 5
π3
π2
π4
,
,
,
,
=
=
bzw.
.
π1 + π2 π1 + π2
2 2
π3 + π4 π3 + π4
6 6
Für π bedeutet dies
π1 + π2 π1 + π2 π3 + π4 5(π3 + π4 )
,
,
,
π = (π1 , π2 , π3 , π4 ) =
2
2
6
6
1 1
1 5
= (π1 + π2 )
, , 0, 0
+ (π3 + π4 ) 0, 0, ,
2 2
6 6
1 5
1 1
, , 0, 0
+ (1 − α) 0, 0, ,
mit 0 ≤ α ≤ 1,
= α
2 2
6 6
wenn wir α := π1 + π2 setzen.
ii) Die Verteilung im n–ten Schritt berechnet sich anhand von µ(n) = µ(0) P n mit µ(0) =
(µ1 , µ2 , µ3 , µ4 ). Da die Matrix P blockdiagonal ist, gilt
!
n
0
P
1
,
Pn =
0 P2n
und die ersten beiden bzw. letzten beiden Komponenten von µ(n) sind gegeben durch
µ1
µ2
n
(µ1 , µ2 ) P1 = (µ1 + µ2 )
,
P1n
bzw.
µ1 + µ2 µ1 + µ2
µ3
µ4
n
(µ3 , µ4 ) P2 = (µ3 + µ4 )
,
P2n .
µ3 + µ4 µ3 + µ4
Da die durch die Teilmatrizen P1 bzw. P2 beschriebenen Markovketten irreduzibel
und
µ1
µ2
aperiodisch sind, konvergieren die zu den normalisierten Startverteilungen µ1 +µ2 , µ1 +µ2
µ4
3
,
gehörenden Verteilungen im n–ten Schritt in totaler Variation gebzw. µ3µ+µ
4 µ3 +µ4
gen die eindeutigen invarianten Verteilungen aus Aufgabe 3:
µ1
1 1
1 5
µ2
µ4
µ3
n
n
,
,
,
,
P1 →
P2 →
bzw.
.
µ1 + µ2 µ1 + µ2
2 2
µ3 + µ4 µ3 + µ4
6 6
Insgesamt ergibt sich
1 1
1 5
1 5
1 1
(n)
µ → (µ1+µ2 )
, , 0, 0 +(µ3+µ4 ) 0, 0, ,
, , 0, 0 +(1−α) 0, 0, ,
=α
2 2
6 6
2 2
6 6
mit α := µ1 + µ2 . Die Grenzverteilung von µ(n) ist also abhängig von der Wahrscheinlichkeit α = µ1 + µ2 , mit der die Markovkette in dem ersten Block“ (d.h. in den ersten
”
beiden Zuständen) startet.
12
Aufgabe 11 (3 Punkte)
Es sei P eine doppelt stochastische Matrix, d.h. es gelten
• Pi,j ≥ 0 für alle i, j ∈ {1, . . . , k},
k
X
Pi,j = 1 für alle i ∈ {1, . . . , k},
•
j=1
k
X
•
a) Zeigen Sie: π :=
i=1
1 1
1
k, k, . . . , k
Pi,j = 1 für alle j ∈ {1, . . . , k}.
ist invariante Verteilung von P .
b) Unter welcher Bedingung an P ist π auch reversibel?
Lösung zu Aufgabe 11
a) π := (π1 , . . . , πk ) = k1 , k1 , . . . , k1 erfüllt die an eine invariante Verteilung gestellten Bedingungen: Offensichtlich sind alle Komponenten πi (i = 1, . . . , k) nichtnegativ und summieren
sich zu 1. Außerdem gilt für alle j ∈ {1, . . . , k} nach Voraussetzung an die Matrix P :
k
X
πi Pi,j =
i=1
k
1X
Pi,j
k
i=1
=
1
k
= πj .
b) Damit π reversibel ist, muß für alle i, j ∈ {1, . . . , k} gelten:
1
Pi,j
k
!
= πi Pi,j = πj Pj,i =
1
Pj,i ,
k
d.h. Pi,j = Pj,i für alle i, j ∈ {1, . . . , k}. Dies ist gleichbedeutend damit, daß es sich bei P um
eine symmetrische Matrix handelt.
Aufgabe 12 (5 Punkte)
Die Markovkette (X0 , X1 , . . .) beschreibe die reflektierende Irrfahrt“ mit Zuständen {0, 1, . . . , N },
”
d.h. mit 21 ≤ p < 1, p + q = 1, gelte
•
•
•
•
Pi,i+1 = p für i = 0, 1, . . . , N − 1,
Pi,i−1 = q für i = 1, 2, . . . , N ,
PN,N = p,
P0,0 = q.
a) Finden Sie eine invariante Verteilung π.
b) Ist π eindeutig festgelegt?
Lösung zu Aufgabe 12
Für die reflektierende Irrfahrt“ mit Zuständen {0, 1, . . . , N } ergibt sich das folgende Bild:
”
13
p
q
p
p
p
p
......
..............................
..............................
................................
........... ................
.... .
.... .
.......
.......
.......
.....
......
......
....... .......... ......
....... .......... .......
.......
....
...... ............ .......
... ..
...... .....
....... ......
....
.....
....
......... ..................................
.
.
.
.
.
.
.
..
...
..
..
.
.
..
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
...
...
...
.
.
..
..
...
.
.
.
.
.....
.
.
.
.
...
...
...
.
....
.
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
......................
.
.
.
.
.
.
.
.
... .. .
... ....
.. .. ..
....
.........
... ........ ...........
.... ........ ...........
.... ........ ...........
....
........ ...........
.....
.....
.......
.....
.....
.......
.......
.......
......
..............................
..............................
..............................
..............................
0
1
2
q
3
q
q
.
...............
...
.............
p
....
.....
............ ..................
............ .................
..........
......
......
......
....... ........
......
....
...
.... ....................
...........................
...
...
...
..
..
..
..
...
....
.....
.
..
..
.
...
...
..
..
....
...
.
....
.
.
.
.
.
.
................. .....................
......
. .....................
.
.
.
.
.
.
.
........
.......
.......
.....
.......
......
...............................
.............................
...
.............
N
N-1
q
q
p
q
a) Zur Berechnung einer invarianten Verteilung π = (π0 , π1 , . . . , πN ) von P machen wir wie in
Beispiel 6.3 der Vorlesung (Geburts– und Todesprozeß) einen reversiblen Ansatz:
πi Pi,j = πj Pj,i .
Damit ergeben sich
P0,1
π0 =
P1,0
π1 =
p
π0
q
,
π2 =
P1,2
π1 =
P2,1
P1,2 P0,1
π0 =
P2,1 P1,0
2
p
π0
q
und allgemein
i−1
Y
Pl,l+1
πi =
l=0
Pl+1,l
π0
i
p
=
π0 .
q
Die Normierung auf Komponentensumme 1 führt zu der Bedingung
N
X
πi = π0
N i
X
p
i=0
i=0
q
!
=1,
d.h.
π0 =
1
N X
i=0
Im Fall p = q =
1
2
erhalten wir π0 =
π=
Im Fall p >
1
2
1
N +1 ,
und damit πi =
1
1
,...,
N +1
N +1
1
N +1
p
q
i .
für alle i ∈ {0, . . . , N }, also
.
ergibt sich
π0 =
p
q
p
q −1
N +1
und
π = π0
−1
p
1, ,
q
N !
2
p
p
,...,
.
q
q
b) Die reflektierende Irrfahrt ist irreduzibel (von jedem Ausgangspunkt aus werden alle Zustände
erreicht) und aperiodisch (der Zustand 0 hat offensichtlich die Periode 1, und nach Aufgabe 5
gilt dies für alle Zustände). Damit ist die invariante Verteilung π eindeutig.
Aufgabe 13 (5 Punkte)
Wie in Aufgabe 7 modellieren wir die Bewegung eines einzelnen Königs auf einem Schachbrett als
(zeitlich homogene) Markovkette. Dabei sei der Zustandsraum S = {s1 , . . . , s64 } die Menge der
Felder, Xn die Position der Figur zum Zeitpunkt n und die Übergangsmatrix P dadurch gegeben,
daß der König in jedem Schritt seinen nächsten Zug rein zufällig wählt. Ausgehend von einem Feld
si wählt der König also gleichwahrscheinlich eines der Ni Nachbarfelder aus (man unterscheide die
Fälle Eckfeld/Randfeld/mittleres Feld).
14
8
7
6
5
4
3
2
1
•
0Z0Z0Z0Z
•
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
•
Z0Z0Z0Z0
0Z0Z0Z0Z
j0Z0Z0Z0•
a
b c d e
f
g
h
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
kZ0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0j0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
a) Zeigen Sie, daß
π := (π1 , . . . , π64 )
mit
πi :=
Ni
Z
und
Z :=
64
X
Ni
i=1
eine invariante Verteilung von P ist und berechnen Sie Z.
b) Der König starte im Feld a1. Berechnen Sie die erwartete Anzahl der Besuche im Feld
i) h1
ii) h8
iii) g7
iv) a3
vor der Rückkehr nach a1.
Lösung zu Aufgabe 13
Die Bewegung eines einzelnen Königs auf einem Schachbrett kann als (zeitlich homogene) Markovkette mit Zustandsraum S = {s1 , . . . , s64 } und Übergangsmatrix P modelliert werden. Dabei bezeichnet Xn die Position der Figur zum Zeitpunkt n, und in jedem Schritt wird aus allen möglichen
Zügen gleichwahrscheinlich einer ausgewählt.
8
7
6
5
4
3
2
1
•
0Z0Z0Z0Z
•
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
•
Z0Z0Z0Z0
0Z0Z0Z0Z
j0Z0Z0Z0•
a
b c d e
f
g
h
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
kZ0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
0Z0j0Z0Z
Z0Z0Z0Z0
0Z0Z0Z0Z
Z0Z0Z0Z0
Steht der König also auf einem Eckfeld, so hat er Ni = 3 Nachbarfelder und damit Möglichkeiten
zu ziehen, für Randfelder ist Ni = 5 und für mittlere Felder Ni = 8. Dabei gibt es 4 Eckfelder,
24 Randfelder und 36 mittlere Felder.
15
a) Anhand der obigen Bemerkungen ergibt sich sofort
64
X
Z :=
i=1
Ni = 4 · 3 + 24 · 5 + 36 · 8 = 420 .
Zur Berechnung der invarianten Verteilung von P modellieren wir die Bewegung des Königs
auf dem Schachbrett als Irrfahrt auf einem gewichteten Graphen G = (V, E). Dabei ist die
Menge der Ecken V := S = {s1 , . . . , s64 } gleich der Menge der Felder, und zwei Ecken sind
genau dann durch eine Kante verbunden, wenn sie benachbart sind, d.h. wenn der König das
eine Feld vom anderen aus in einem Zug erreichen kann.
Damit befinden wir uns im Szenario von Beispiel 6.4 der Vorlesung, genauer gesagt in dem
Spezialfall, daß alle Gewichte Ci,j gleich 1 sind. Denn dann gilt für die Übergangswahrscheinlichkeit von si nach sj
Pi,j
Ci,j
X
=
Ci,k
=
1
.
Ni
k : sk Nb von si
Ferner wurde in der Vorlesung bewiesen, daß die Markovkette (X0 , X1 , . . .) die reversible (und
damit invariante) Verteilung
π := (π1 , . . . , π64 )
mit πi :=
1
Z
X
Ci,k
und Z :=
64
X
X
Ci,k
i=1 k : sk Nb von si
k : sk Nb von si
besitzt. Daraus folgt wegen
πi =
1
Ni
Z
und
Z =
64
X
Ni
i=1
die zu zeigende Behauptung.
b) Die durch die Bewegung des Königs auf dem Schachbrett gegebene Markovkette ist nach
Aufgabe 7a) irreduzibel und aperiodisch, d.h. wir können Aufgabe 9 anwenden. Dort wurde
beim Start in sm (d.h. X0 = sm ) für die erwartete Anzahl von Besuchen in si vor der Rückkehr
nach sm die Darstellung
̺m,i :=
∞
X
IP (Xn = si , Tm,m > n) =
n=0
πi
πm
=
Ni
Nm
gezeigt, wobei πi und πm die entsprechenden Komponenten der invarianten Verteilung sind
und für die letzte Gleichung Teil a) der aktuellen Aufgabe verwendet wurde. Damit ergibt
sich in den vier angegebenen Fällen:
Nh1
Na1
Nh8
=
Na1
Ng7
=
Na1
Na3
=
Na1
i) ̺a1,h1 =
ii) ̺a1,h8
iii) ̺a1,g7
iv) ̺a1,a3
16
3
3
3
=
3
8
=
3
5
=
3
=
= 1,
= 1,
= 2.6 ,
= 1.6 .
Aufgabe 14 (12 Punkte)
Wie in Beispiel 7.2 der Vorlesung betrachten wir zufällige q–Färbungen (q ≥ 2) eines Graphen
G = (V, E) mit einer endlichen Menge V = {v1 , . . . , vk } von Ecken.
a) Zeigen Sie, daß der Gibbs–Sampler für zufällige q–Färbungen aus Beispiel 7.2
i) aperiodisch ist und
ii) die Gleichverteilung ̺G,q auf allen q–Färbungen von G als invariante Verteilung hat.
b) Wir betrachten nun speziell den Graphen
.....
..... .......
....
..... .....
... ........
.
.
.
.
....
...
...
...
....
.
.
....
...
...
....
....
.
.
...
....
...
....
.................
.
................
.
..
....
.....
.
.... .....
.... .....
........
........
...
...... .......
....
..
..... ......
......
i) Zeigen Sie, daß für q = 4 der Gibbs–Sampler für zufällige q–Färbungen irreduzibel ist.
ii) Gilt dies auch für q = 3?
Lösung zu Aufgabe 14
Wir betrachten zufällige q–Färbungen (q ≥ 2; keine zwei benachbarten Ecken haben dieselbe Farbe)
eines Graphen G = (V, E) mit einer endlichen Menge V = {v1 , . . . , vk } von Ecken. Der Gibbs–
Sampler beschreibt eine Markovkette mit dem Zustandsraum der q–Färbungen und dem folgenden
Übergangsgesetz:
1. Wähle v ∈ V rein zufällig (d.h. mit Gleichverteilung auf V ).
2. Wähle Xn+1 (v) gemäß der Gleichverteilung auf der Menge der Farben, die von keinem Nachbarn von v angenommen werden.
3. Setze Xn+1 (w) := Xn (w) für alle w 6= v.
a)
i) Der Gibbs–Sampler ist aperiodisch, da er von jedem Zustand aus mit positiver Wahrscheinlichkeit in einem Schritt in denselben Zustand zurückkehrt. Denn die durch den
obigen Algorithmus beschriebene Übergangswahrscheinlichkeit Pξ,ξ von einem zulässigen
Zustand ξ (d.h. einer q–Färbung) in sich selbst ist gegeben durch
Pξ,ξ =
X1 1
k av
> 0,
v∈V
wobei av die Anzahl der Farben, die bei keinem der Nachbarn von v auftreten, bezeichnet.
ii) Um zu zeigen, daß der Gibbs–Sampler die Gleichverteilung ̺G,q auf allen q–Färbungen
von G als invariante Verteilung hat, machen wir (wie üblich) einen reversiblen Ansatz:
Für beliebige q–Färbungen ξ, ξ ′ ist zu zeigen, daß die Gleichung
̺G,q (ξ)Pξ,ξ ′
17
= ̺G,q (ξ ′ )Pξ ′ ,ξ
(9)
erfüllt ist, wobei Pξ,ξ ′ die durch den obigen Algorithmus beschriebene Übergangswahrscheinlichkeit von der Konfiguration ξ nach ξ ′ angibt. Für ξ = ξ ′ ist (9) trivial, ebenso,
wenn sich ξ und ξ ′ in mehr als zwei Ecken unterscheiden (dann steht dort 0 = 0“).
”
Unterscheiden sich ξ und ξ ′ in genau einer Ecke v ∈ V , so wird (9) durch
1 1 1
·
ZF k av
=
̺G,q (ξ)Pξ,ξ ′
= ̺G,q (ξ ′ )Pξ ′ ,ξ
verifiziert, wobei av die Anzahl der Farben, die bei keinem der Nachbarn von v auftreten,
bezeichnet und ZF die Anzahl der insgesamt möglichen q–Färbungen angibt.
b) Wir betrachten nun speziell zufällige Färbungen des Graphen G:
........
.... ......
....
..... ......
......
...............
.
.....
...
.
................
.
.
..
.
.
.
.
....
...
...
....
...
.
.
....
...
....
....
...
.
.
.
....
....
...
..................
................
.....
.
.
.....
... .....
..... ......
..........
.....
i) Der Gibbs–Sampler für zufällige q–Färbungen ist für q = 4 irreduzibel, wie man durch
die folgenden Überlegungen einsieht. Dazu ist zu zeigen, daß der Algorithmus aus jedem
zulässigen Zustand (d.h. jeder q–Färbung) in jeden beliebigen anderen zulässigen Zustand gelangen kann. Hierzu stellt man zunächst fest, daß die q–Färbungen des Graphen
G von der Gestalt
b,d ............................
.....
..... .......
....
.
..... .....
... ........
.
.
...
.
.
..
....
...
....
...
.
.
.
.
...
...
....
....
...
.
.
.
....
...
...
................
...................
.....
.....
.
..
.... .....
.... ...
........
........
c
.............
a
b,d
sind, wobei die Farben b und d jeweils beliebig gegeneinander ausgetauscht (umgefärbt)
werden können, da hierdurch keinerlei Konflikte hinsichtlich der Zulässigkeit entstehen.
Der Gibbs–Sampler kann also aus jeder dieser vier Konfigurationen in die Referenzkonfiguration
b ..........................
c
a
d
................
.....
.
.
...
...............
.
.
..
.
.
.
.
....
...
...
....
...
.
.
....
...
....
....
...
.
.
.
....
...
....
.....
.................
..... .......
.....
..
.
.....
... ...
..... ......
............
.....
.............
(10)
gelangen, so daß es ausreicht, diese im folgenden stellvertretend für alle vier zu betrachten. Desweiteren stellt man fest, daß alle zulässigen Zustände von dieser Gestalt sind
(mit derselben Klassenbildung in der linken oberen und rechten unteren Ecke) und durch
Permutation der Farben a,b,c,d aus (10) abgeleitet werden können.
Um zu zeigen, daß der Gibbs–Sampler für zufällige 4–Färbungen irreduzibel ist, reicht
es also zu zeigen, daß man von der Referenzkonfiguration (10) durch Umfärben in jede
18
beliebige Belegung der Ecken mit 4 verschiedenen Farben gelangen kann. Hierzu reicht
es zu zeigen, daß man in (10) die Färbung zweier beliebiger Ecken vertauschen kann, und
aus Symmetriegründen reicht es sogar zu zeigen, daß man o.B.d.A. die Belegungen der
beiden unteren Ecken (also a und d) vertauschen kann. Dies wird z.B. durch die Schritte
b ............................
...............
.....
...
.................
.
.
.
.
...
.
.
...
...
...
....
...
.
.
.
.
....
...
...
....
...
.
.
..
...
...
....
....
..................
..... .......
...
.....
.
.....
... ....
...... ........
..........
...
c
a
b ...........................
................
.....
.
.
..
................
.
.
.
...
.
.
....
...
....
....
...
.
.
..
....
....
....
...
.
.
..
....
...
...
................
...................
.....
.
.....
.
.... .....
.... .....
.........
........
c
.............
.............
;
d
a
b ...........................
................
.....
.
..
...............
.
.
.
...
.
.
....
...
....
....
...
.
.
..
....
....
....
...
.
.
.
.
...
...
....
....
..................
..... .......
.....
..
.
.....
... ...
...... ........
..........
...
c
.............
;
b
d
b ............................
...............
..
.....
.. ...
...............
.
.
..
.
.
.
...
...
....
...
....
.
.
...
....
...
....
...
.
.
.
..
...
....
...
..............
..................
..
...
.....
.....
.... ....
.... .....
........
........
c
.............
;
b
d
a
realisiert, was den Beweis abschließt.
ii) Für q = 3 sind die q–Färbungen des Graphen G von der Gestalt
c ...........................
a
b
c
.....
..... .......
....
..... ......
.
.
. ......
....
....
...
.
.
.
..
....
....
....
...
.
.
....
...
....
...
....
.
.
..
...
................
...................
.....
.....
.
.
.... .....
.... .....
........
........
.............
wobei es insgesamt 6 Stück gibt, die durch Permutation der Farben a,b und c entstehen.
Offensichtlich kommt der Gibbs–Sampler von einem zulässigen Zustand nicht in einen
anderen, da z.B. in dem obigen Fall weder a, noch b oder c gegen eine andere Farbe
ausgetauscht werden können, ohne daß die Menge der zulässigen Zustände verlassen
wird.
Aufgabe 15 (8 Punkte)
Wir betrachten das folgende verallgemeinerte Hard Core Modell ( unterschiedliche Packdichten von
”
Einsen“). In einem Graphen G = (V, E) mit Ecken V = {v1 , . . . , vk } und Kanten E = {e1 , . . . , el }
besteht eine zulässige Konfiguration aus einer Belegung der Ecken mit 0 und 1, so daß keine benachbarten Einsen entstehen. Die Gleichverteilung µG auf der Menge der zulässigen Konfigurationen
aus dem klassischen Hard Core Modell wird nun durch die Einführung eines Parameters λ > 0 wie
folgt modifiziert:
Jeder Konfiguration ξ ∈ {0, 1}V wird die Wahrscheinlichkeit
( n(ξ)
λ
, falls ξ zulässig ist
ZG,λ
µG,λ (ξ) :=
0
, sonst
zugewiesen. Dabei bezeichnen n(ξ) die Anzahl der Einsen in ξ und
X
ZG,λ :=
λn(ξ) 1{ξ zulässig}
ξ∈{0,1}V
eine Normierungskonstante.
a) Zeigen Sie: Für jede Ecke v ∈ V ist die bedingte Wahrscheinlichkeit, daß v den Wert 1
annimmt, gegeben die Werte in allen Ecken w 6= v, gleich
(
λ
λ+1 , falls alle Nachbarn von v den Wert 0 haben,
0 , sonst.
19
Je größer also λ ist, desto eher wird der Ecke v eine 1 zugewiesen.
b) Konstruieren Sie einen MCMC–Algorithmus für dieses verallgemeinerte Hard Core Modell.
Lösung zu Aufgabe 15
In dem verallgemeinerten Hard Core Modell auf einem Graphen G = (V, E) mit Ecken V =
{v1 , . . . , vk } und Kanten E = {e1 , . . . , el } besteht eine zulässige Konfiguration aus einer Belegung
der Ecken mit 0 und 1, so daß keine benachbarten Einsen entstehen. Die Menge aller zulässigen
Konfigurationen bezeichnen wir mit
S :=
ξ ∈ {0, 1}V ξ zulässig .
Für festes λ > 0 wird durch die Zuordnung
( n(ξ)
λ
, falls ξ zulässig ist
ZG,λ
µG,λ (ξ) :=
0
, sonst
,
ξ ∈ {0, 1}V ,
eine Wahrscheinlichkeitsverteilung auf {0, 1}V definiert. Dabei bezeichnen n(ξ) die Anzahl der
Einsen in der Konfiguration ξ und
X
ZG,λ :=
λn(ξ) 1{ξ zulässig}
ξ∈{0,1}V
eine Normierungskonstante.
a) Es soll gezeigt werden, daß für jede Ecke v ∈ V die bedingte Wahrscheinlichkeit, daß v den
Wert 1 annimmt, gegeben die Werte in allen Ecken w 6= v, gleich
(
λ
λ+1 , falls alle Nachbarn von v den Wert 0 haben,
0 , sonst.
ist. Um dies formal besser fassen zu können, definieren wir uns eine Zufallsvariable X auf
einem Wahrscheinlichkeitsraum Ω mit Werten in {0, 1}V und Verteilung µG,λ , d.h.
X : (Ω, A, IP) → {0, 1}V , P({0, 1}V ), µG,λ
und halten v ∈ V fest. Es ist nun zu zeigen, daß für jede feste Konfiguration ξ ∗ ∈ {0, 1}V \{v}
(die o.B.d.A. zulässig sei, sonst ist das weitere Vorgehen nicht sinnvoll) gilt:
(
λ
∗
λ+1 , ξ (w) = 0 für alle Nachbarn w von v,
IP(X(v) = 1 | X(w) = ξ ∗ (w) ∀ w 6= v) =
0 , sonst.
Um dies zu zeigen, definieren wir uns die beiden möglichen Fortsetzungen von ξ ∗ ∈ {0, 1}V \{v}
zu einer Konfiguration auf {0, 1}V :
(
(
0
, w = v,
1
, w = v,
ξ0 (w) :=
und
ξ1 (w) :=
ξ ∗ (w) , w 6= v,
ξ ∗ (w) , w 6= v.
Damit läßt sich die gesuchte Wahrscheinlichkeit umschreiben zu
IP(X(v) = 1 | X(w) = ξ ∗ (w) ∀ w 6= v) =
20
IP(X(v) = 1, X(w) = ξ ∗ (w) ∀ w 6= v)
IP(X(w) = ξ ∗ (w) ∀ w 6= v)
=
IP(X = ξ1 )
IP(X = ξ0 ) + IP(X = ξ1 )
=
µG,λ (ξ1 )
,
µG,λ (ξ0 ) + µG,λ (ξ1 )
und wir beenden den Beweis durch eine Fallunterscheidung.
Fall 1: ξ ∗ (w) = 0 für alle Nachbarn w von v:
In diesem Fall sind die Konfigurationen ξ1 und ξ0 nach Definition zulässig, und da ξ1 genau
eine 1 mehr hat als ξ0 , gilt n(ξ1 ) − n(ξ0 ) = 1. Damit folgt die Behauptung:
µG,λ (ξ1 )
µG,λ (ξ0 ) + µG,λ (ξ1 )
=
=
λn(ξ1 )
λn(ξ0 ) + λn(ξ1 )
=
=
λ
.
λ+1
∗
IP(X(v) = 1 | X(w) = ξ (w) ∀ w 6= v) =
λn(ξ1 )
ZG,λ
λn(ξ0 )
ZG,λ
+
λn(ξ1 )
ZG,λ
λn(ξ1 )−n(ξ0 )
1 + λn(ξ1 )−n(ξ0 )
Fall 2: Es existiert ein Nachbar w von v mit ξ ∗ (w) = 1:
In diesem Fall ist die Konfiguration ξ0 zulässig (und damit µG,λ (ξ0 ) 6= 0), da nach der obigen
Annahme ξ ∗ ∈ {0, 1}V \{v} war. ξ1 ist jedoch nicht zulässig (und damit µG,λ (ξ1 ) = 0), was uns
die Behauptung liefert:
IP(X(v) = 1 | X(w) = ξ ∗ (w) ∀ w 6= v) =
µG,λ (ξ1 )
µG,λ (ξ0 ) + µG,λ (ξ1 )
= 0.
b) Den zugehörigen MCMC–Algorithmus konstruiert man analog zum klassischen Hard Core
Modell. Damit ist die Konstruktion einer Markovkette (X0 , X1 , . . .) mit Zustandsraum S und
invarianter Verteilung µG,λ gemeint, wobei der Übergang von n nach n+1 wie folgt vonstatten
geht:
1. Wähle v ∈ V rein zufällig (d.h. mit Gleichverteilung auf V ).
2. Wir betrachten die Realisierung einer Zufallsvariablen U mit Gleichverteilung auf (0, 1)
und setzen
(
λ
und alle Nachbarn von v den Wert 0 in Xn haben,
Xn+1 (v) := 1 , falls 0 < U ≤ λ+1
Xn+1 (v) := 0 , sonst.
3. Für alle w 6= v setzen wir Xn+1 (w) := Xn (w).
Damit diese Rechenvorschrift ein gültiger MCMC–Algorithmus ist, muß noch gezeigt werden,
daß die Markovkette (X0 , X1 , . . .) irreduzibel und aperiodisch ist und µG,λ als invariante Verteilung besitzt.
Dabei zeigt man ersteres wie im klassischen Hard Core Modell. (X0 , X1 , . . .) ist irreduzibel,
da man von jeder zulässigen Konfiguration aus mit positiver Wahrscheinlichkeit in endlich
vielen Schritten die Referenzkonfiguration“, die nur aus Nullen besteht, erreichen kann (siehe
”
Vorlesung).
(X0 , X1 , . . .) ist des weiteren aperiodisch, da man von jeder Konfiguration ξ aus mit positiver Wahrscheinlichkeit in einem Schritt zu ξ zurückkehren kann: Findet der Übergang in
einer Ecke v mit ξ(v) = 1 statt, so haben wegen der Zulässigkeit von ξ alle Nachbarn von
21
λ
v den Wert 0, und die Übergangswahrscheinlichkeit ist λ+1
> 0. Findet der Übergang hingegen in einer Ecke v mit ξ(v) = 0 statt und haben alle Nachbarn von v den Wert 0, so
1
ist die Übergangswahrscheinlichkeit gleich λ+1
> 0, und hat schließlich bei einem Übergang
in v mit ξ(v) = 0 einer der Nachbarn den Wert 1, so ist die Übergangswahrscheinlichkeit
nach Definition gleich 1. Für die durch den oben vorgeschlagenen Algorithmus beschriebene
Übergangswahrscheinlichkeit Pξ,ξ von der Konfiguration ξ zu sich selbst gilt damit
X 1 λ
· 1{Übergang in v, ξ(v) = 1} +
Pξ,ξ =
kλ+1
v∈V
1 1
· 1{Übergang in v, ξ(v) = 0, ∀ w Nb von v: ξ(w) = 0} +
kλ+1
1
· 1{Übergang in v, ξ(v) = 0, ∃ w Nb von v: ξ(w) = 1}
> 0.
k
Schließlich besitzt die Markovkette (X0 , X1 , . . .) die invariante Verteilung µG,λ . Dies zeigt
man wie im klassischen Hard Core Modell durch den reversiblen Ansatz
µG,λ (ξ)Pξ,ξ ′
= µG,λ (ξ ′ )Pξ ′ ,ξ
(11)
für zwei beliebige Konfigurationen ξ und ξ ′ . In den Fällen ξ = ξ ′ und daß ξ und ξ ′ sich
um mehr als zwei Ecken unterscheiden, ist (11) trivial. Falls ξ und ξ ′ in genau einer Ecke v
differieren, müssen allen Nachbarn von v aus Zulässigkeitsgründen die Belegung 0 in ξ und ξ ′
haben. Ist o.B.d.A. ξ(v) = 0 und ξ ′ (v) = 1, so verifiziert man (11) durch die Überlegung
µG,λ (ξ)Pξ,ξ ′
=
λn(ξ) 1 λ
ZG,λ k λ + 1
=
λn(ξ)+1 1 1
ZG,λ k λ + 1
′
=
λn(ξ ) 1 1
ZG,λ k λ + 1
= µG,λ (ξ ′ )Pξ ′ ,ξ .
Aufgabe 16 (5 Punkte)
Es stehen n unabhängige und identisch verteilte Zufallsvariablen U1 , . . . , Un mit Gleichverteilung
auf [0, 1] zur Verfügung. Geben Sie einen Algorithmus an, der eine daraus zufällige Permutation
der Zahlen {1, . . . , n} mit der Gleichverteilung auf der Menge aller Permutationen von {1, . . . , n}
erzeugt (und mit möglichst wenigen Schritten auskommt).
Lösung zu Aufgabe 16
Prinzipiell verwenden wir eine auf [0, 1] gleichverteilte Zufallsvariable U dazu, um aus den Zahlen
{1, . . . , k} (k ∈ {1, . . . , n}) rein zufällig eine auszuwählen (d.h. jede Zahl soll mit Wahrscheinlichkeit
1
k gezogen werden). Dies realisiert man z.B. dadurch, daß man das Intervall [0, 1] in die k gleichen
Teile
1 2 3
k−2 k−1
0, , , , . . . ,
,
,1
k k k
k
k
unterteilt und sagt, die Zahl j sei hgezogeni worden (j ∈ {1, . . . , k}), wenn die Realisierung der
j
Zufallsvariablen U in das Intervall j−1
k , k fällt. Da U gleichverteilt auf [0, 1] ist, geschieht dies
mit der Wahrscheinlichkeit
modelliert.
1
k,
und wir haben das gewünschte Laplace–Experiment auf {1, . . . , k}
Ein möglicher Algorithmus, um anhand von n unabhängigen und identisch verteilten Zufallsvariablen U1 , . . . , Un mit Gleichverteilung auf [0, 1] eine zufällige Permutation der Zahlen {1, . . . , n}
22
nach der Gleichverteilung auf der Menge aller Permutationen von {1, . . . , n} zu erzeugen, ist der
folgende:
Schrittweises Einsortieren der Zahlen:
Schritt 1: Starte mit der 1 (die Zufallsvariable U1 wird eigentlich nicht gebraucht):
|1|
Schritt 2: Verwende U2 , um die Zahl 2 mit Wahrscheinlichkeit 12 rechts oder links von der 1 einzusortieren (die beiden möglichen Plätze sind durch senkrechte Striche markiert): z.B.
|2|1|
Schritt 3: Verwende U3 , um die Zahl 3 mit Wahrscheinlichkeit
senkrechte Striche markierten Plätzen einzusortieren: z.B.
1
3
an den drei möglichen, durch
|2|1|3|
Schritt k: Verwende Uk , um die Zahl k mit Wahrscheinlichkeit
einzusortieren.
1
k
an den k möglichen Plätzen
Dieses Vorgehen (Schritt 1 bis Schritt n) liefert die Realisierung π = (π1 , . . . , πn ) einer zufälligen
Permutation R = (R1 , . . . , Rn ) der Zahlen 1, . . . , n. Aufgrund der Unabhängigkeit der Zufallsvaria1
auf (d.h. R besitzt die
blen U1 , . . . , Un tritt jede dieser Realisierungen mit Wahrscheinlichkeit n!
Gleichverteilung auf der Menge aller Permutationen von {1, . . . , n}):
IP(R1 = π1 , . . . , Rn = πn ) = 1 ·
1
1 1
· · ... ·
2 3
n
=
1
.
n!
Alternativ kann man den folgenden Algorithmus wählen:
Schrittweises Belegen der Plätze mit Zahlen:
Schritt 1: Wähle anhand von U1 eine der n möglichen Zahlen aus, um den ersten Platz der Permutation zu belegen.
Schritt 2: Wähle anhand von U2 eine der verbleibenden n−1 möglichen Zahlen aus, um den zweiten
Platz der Permutation zu belegen.
Schritt k: Wähle anhand von Uk eine der verbleibenden n − k + 1 möglichen Zahlen aus, um den
k–ten Platz der Permutation zu belegen.
Auch dieser Algorithmus realisiert die Gleichverteilung auf der Menge aller Permutationen von
{1, . . . , n} und benötigt wie der erste Vorschlag n Schritte, wobei in jedem Schritt ein Zufallsexperiment (Realisierung von Uk ) durchgeführt werden muß.
Aufgabe 17 (4 Punkte)
Es seien X0 , . . . , Xn (n ∈ IN) auf einem Wahrscheinlichkeitsraum (Ω, A, IP) definierte IN0 –wertige
Zufallsvariablen, A ⊆ Ω ein Ereignis und α > 0.
23
a) Es gelte
IP(A | X0 = x0 , . . . , Xn = xn ) ≤ α
für alle x0 , . . . , xn ∈ IN0 . Zeigen Sie, daß daraus IP(A) ≤ α folgt.
b) An welcher Stelle beim Beweis von Satz 8.1 wurde das Argument aus a) gebraucht?
Lösung zu Aufgabe 17
Es seien X0 , . . . , Xn (n ∈ IN) auf einem Wahrscheinlichkeitsraum (Ω, A, IP) definierte IN0 –wertige
Zufallsvariablen, A ⊆ Ω ein Ereignis und α > 0.
a) Unter der Voraussetzung
IP(A | X0 = x0 , . . . , Xn = xn ) ≤ α
für alle x0 , . . . , xn ∈ IN0 ist IP(A) ≤ α zu zeigen. Dies folgt aus der Überlegung
X
IP(A ∩ {X0 = x0 , . . . , Xn = xn })
IP(A) =
x0 ,...,xn ∈IN0
X
=
x0 ,...,xn ∈IN0
≤ α
X
IP(A | X0 = x0 , . . . , Xn = xn ) · IP(X0 = x0 , . . . , Xn = xn )
IP(X0 = x0 , . . . , Xn = xn )
x0 ,...,xn ∈IN0
= α,
wobei sich die Summation jeweils über alle x0 ∈ IN0 , . . . , xn ∈ IN0 erstreckt.
b) Das Argument aus a) wurde im Beweis von Satz 8.1 implizit gebraucht, und zwar beim
Übergang von Gleichung (8.3) zu Gleichung (8.4). Dort wurde die Konvergenzgeschwindigkeit
des systematischen Gibbs–Samplers (X0 , X1 , . . .) zum Färben eines Graphen G = (V, E),
V = {v1 , . . . , vk }, mit q Farben betrachtet. Für jede Ecke v ∈ V wurde mit den Bezeichnungen
F0 : Farben aus {1, . . . , q}, die weder in Xn noch in Xn′ bei einem Nachbarn von v angenommen werden
F1 : Farben aus {1, . . . , q}, die entweder in Xn oder in Xn′ bei einem Nachbarn von v angenommen werden
F2 : Farben aus {1, . . . , q}, die sowohl in Xn als auch in Xn′ bei einem Nachbarn von v
angenommen werden
sowie B0 := |F0 |, B1 := |F1 |, B2 := |F2 | in Gleichung (8.3) gezeigt:
IP(Xn (v) 6= Xn′ (v) | F0 , F1 , F2 ) ≤
B1
B0 + B1
≤
2d
,
q
wobei d die maximale Anzahl von Nachbarn einer Ecke angibt und die obere Schranke 2d
q nicht
mehr von dem bedingenden Ereignis abhängt. In der darauffolgenden Gleichung (8.4) wurde
implizit verwendet, daß sich diese Abschätzung auf die nicht mehr bedingte Wahrscheinlichkeit
überträgt:
IP(Xn (v) 6= Xn′ (v)) ≤
24
2d
.
q
Aufgabe 18 (5 Punkte)
Für zwei Zufallsvariablen X bzw. Y mit den Verteilungen µ und ν auf der endlichen Menge S gelte
IP(X 6= Y ) ≤ δ mit 0 < δ < 1. Zeigen Sie, daß für den Abstand von µ und ν in totaler Variation
die Abschätzung
kµ − νk ≤ δ
gilt. (Hinweis: Dasselbe Argument wurde im Beweis von Satz 8.1 verwendet.)
Lösung zu Aufgabe 18
X und Y seien zwei Zufallsvariablen mit Werten in der endlichen Menge S und den Verteilungen
µ bzw. ν, für die zusätzlich gelte
IP(X 6= Y ) ≤ δ
mit einem δ ∈ (0, 1).
Es soll gezeigt werden, daß dann auch die Abschätzung kµ − νk ≤ δ gilt. Wegen
kµ − νk = max |µ(A) − ν(A)| = max |IP(X ∈ A) − IP(Y ∈ A)|
A⊆S
A⊆S
untersuchen wir zunächst die Differenz IP(X ∈ A) − IP(Y ∈ A) für beliebiges A ⊆ S. Wie man an
dem Diagramm
(Ω, A, IP)
X∈A
Y ∈A
erkennt, gilt unter Berücksichtigung der Voraussetzungen
IP(X ∈ A) − IP(Y ∈ A) = IP(X ∈ A, Y ∈
/ A) − IP(X ∈
/ A, Y ∈ A) ≤ IP(X ∈ A, Y ∈
/ A)
≤ IP(X 6= Y ) ≤ δ .
Durch Vertauschen der Rollen von X und Y erhält man analog
IP(Y ∈ A) − IP(X ∈ A) ≤ IP(Y 6= X) ≤ δ
und daraus insgesamt für den Betrag der Differenz
|IP(X ∈ A) − IP(Y ∈ A)| ≤ δ .
Da A ⊆ S beliebig war, folgt
kµ − νk = max |IP(X ∈ A) − IP(Y ∈ A)| ≤ δ .
A⊆S
25
Aufgabe 19 (6 Punkte)
Wir nennen eine Permutation der Zahlen {1, . . . , q} zulässig, wenn sich keine benachbarten Ziffern
um 1 unterscheiden. So ist z.B. die Permutation (1, 3, 5, 2, 4) der Zahlen {1, . . . , 5} zulässig, die
Permutation (5, 3, 2, 4, 1) hingegen nicht.
a) Wie viele zulässige Permutationen gibt es für q = 5?
b) Um die Gleichverteilung π auf der Menge S der zulässigen Permutationen zu erzeugen, konstruieren wir die folgende Metropolis–Kette: Der zugrundeliegende Graph habe als Ecken
genau die Elemente aus S. Die Kanten werden dadurch definiert, daß zwei Ecken (d.h. zwei
zulässige Permutationen) si und sj genau dann benachbart sind, wenn si aus sj durch eine
der folgenden Operationen entsteht:
• Ansetzen der letzten Ziffer vorne oder der ersten Ziffer hinten
(z.B. wird aus (1, 3, 5, 2, 4) entweder (4, 1, 3, 5, 2) oder (3, 5, 2, 4, 1)),
• Vertauschen der letzten beiden Ziffern
(z.B. wird aus (2, 4, 1, 3, 5) die Permutation (2, 4, 1, 5, 3)),
• Spiegelung
(z.B. wird aus (1, 3, 5, 2, 4) die Permutation (4, 2, 5, 3, 1)).
Die Übergangsmatrix der zugehörigen Metropolis–Kette

n
o
π j Ni
1

min
,
1

Ni
π i Nj



0
Pi,j =
X

1
π l Ni


1 −
min
,1


Ni
π i Nl
ist per definitionem gegeben durch
, si , sj benachbart, i 6= j,
, si , sj nicht benachbart,
, i = j,
l : sl Nb von si
wobei Ni die Anzahl der Nachbarn von si bezeichnet.
i) Ist der so konstruierte Graph zusammenhängend (und damit die zugehörige Metropolis–
Kette irreduzibel)?
ii) Berechnen Sie für q = 5 und si = (1, 3, 5, 2, 4) die i–te Zeile der Übergangsmatrix Pi,j .
Lösung zu Aufgabe 19
Eine Permutation der Zahlen {1, . . . , q} heiße zulässig, wenn sich keine benachbarten Ziffern um 1
unterscheiden.
a) Für q = 5 gibt es 14 zulässige Permutationen, wie man durch simples Aufzählen herausfindet:
(1, 3, 5, 2, 4)
(1, 4, 2, 5, 3)
(2, 4, 1, 3, 5)
(2, 4, 1, 5, 3)
(2, 5, 3, 1, 4)
(3, 1, 4, 2, 5)
(3, 1, 5, 2, 4)
(3, 5, 1, 4, 2)
(3, 5, 2, 4, 1)
(4, 1, 3, 5, 2)
(4, 2, 5, 1, 3)
(4, 2, 5, 3, 1)
(5, 2, 4, 1, 3)
(5, 3, 1, 4, 2)
26
b)
i) Für q = 5 ist der zugehörige Graph zusammenhängend, wie man an der Graphik am Ende von ii) sieht. Im allgemeinen ist dies jedoch nicht der Fall, wie man an dem folgenden
Gegenbeispiel für q = 6 erkennt:
Die Permutationen (3, 6, 2, 5, 1, 4) und (4, 1, 5, 2, 6, 3) gehen aus einander durch Spiegelung hervor und bilden eine eigene, vom Rest des Graphen abgeschnittene Zusammenhangskomponente. Denn alle anderen auf den beiden Permutationen durchgeführten
erlaubten Operationen (Ansetzen oder Vertauschen von Ziffern) führen nicht auf eine
zulässige Permutation. Insbesondere ist von dieser Zusammenhangskomponente aus die
Permutation (1, 3, 5, 2, 4, 6) nicht erreichbar.
ii) Nach den Überlegungen in a) gibt es für q = 5 genau 14 zulässige Permutationen.
Bezeichnet man diese mit {s1 , . . . , s14 }, so ergibt sich für die Gleichverteilung π:
1
1
π = (π1 , . . . , π14 ) =
,...,
.
14
14
Bezeichnet Ni die Anzahl der Nachbarn von si , so
der zugehörigen Metropolis–Kette also zu

n
o
Ni
1

min
,
1

Ni
Nj



0
Pi,j =
X

1
Ni


1 −
min
,1


Ni
Nl
berechnet sich die Übergangsmatrix
, si , sj benachbart, i 6= j,
, si , sj nicht benachbart,
,
, i = j,
l : sl Nb von si
und anhand der Fallunterscheidung Ni ≤ Nj bzw. Ni > Nj schließlich zu
Pi,j =





1
max{Ni ,Nj }
0



 1 −
, si , sj benachbart, i 6= j,
X
l : sl Nb von si
1
max {Ni , Nl }
, si , sj nicht benachbart,
.
, i = j,
Für die Übergangswahrscheinlichkeiten, die von si = (1, 3, 5, 2, 4) ausgehen, ergibt sich
dementsprechend
P(1,3,5,2,4),(3,5,2,4,1) = P(1,3,5,2,4),(4,1,3,5,2) =
P(1,3,5,2,4),(1,3,5,2,4) = 1 −
1 1 1
− −
3 3 4
=
1
,
3
P(1,3,5,2,4),(4,2,5,3,1) =
1
,
4
1
12
und P(1,3,5,2,4),sj = 0 für alle übrigen Zustände, wie man an dem nachfolgenden Nachbarschaftsgraphen abliest.
27
31425
53142
52413
24135
24153
35142
35241
41352
14253
25314
13524
42531
42513
31524
Aufgabe 20 (3 Punkte)
Es sei G ein Graph mit k isolierten Ecken (d.h. Ecken ohne Nachbarn) und l Paaren von Ecken, so
daß jedes Paar durch genau eine Kante verbunden ist und keine weiteren Nachbarn besitzt:
Zeigen Sie, daß die Anzahl der q–Färbungen von G gleich q k+l (q − 1)l ist.
28
Lösung zu Aufgabe 20
Für jede der k isolierten Ecken hat man q Möglichkeiten, sie einzufärben, da die Belegung einer
Ecke ohne Nachbarn mit einer Farbe keiner Einschränkung unterworfen ist. Für alle isolierten Ecken
zusammen ergibt dies q k Möglichkeiten.
Für ein durch genau eine Kante verbundenes und vom Rest des Graphen isoliertes Paar von Ecken
hat man q(q − 1) Möglichkeiten, die beteiligten Ecken einzufärben, da für die erste Ecke q Farben
zur Verfügung stehen und für die zweite nur noch q − 1. Für die l Paare von Ecken zusammen ergibt
dies [q(q − 1)]l Möglichkeiten.
Die Gesamtzahl der Möglichkeiten ergibt sich durch Multiplikation:
q k · [q(q − 1)]l
= q k+l (q − 1)l .
Aufgabe 21 (8 Punkte)
a) Für jede der unabhängigen Zufallsvariablen X1 , . . . , Xm (m ∈ IN) gelte IP(Xi ∈
/ [a, b]) = p
1
mit einem Intervall [a, b] ⊂ IR und einem p ∈ 0, 2 . Für ungerades m sei Ym der Median von
X1 , . . . , Xm (d.h. man ordnet die X1 , . . . , Xm der Größe nach und nimmt den m+1
2 –ten Wert
dieser Aufzählung). Zeigen Sie:
IP (Ym ∈
/ [a, b]) ≤
1
.
m(1 − 2p)2
Hinweis: Das Ereignis {Ym ∈
/ [a, b]} impliziert, daß mindestens
X1 , . . . , Xm außerhalb von [a, b] liegen.
m+1
2
der Zufallsvariablen
b) Gegeben sei ein randomisiertes Approximationsschema in polynomialer Zeit, das zu ε > 0
und einer Eingabe der Größe k in höchstens n(ε, k) Schritten eine zufällige Näherung X für
eine unbekannte Größe N liefert, die mit einer Wahrscheinlichkeit von mindestens 43 zwischen
(1 − ε)N und (1 + ε)N liegt. Nachdem der Algorithmus n(ε, k) Schritte gelaufen ist, gilt also
IP ((1 − ε)N ≤ X ≤ (1 + ε)N ) ≥
3
.
4
Konstruieren Sie darauf aufbauend für ein beliebig kleines δ > 0 ein randomisiertes Approximationsschema in polynomialer Zeit, das nach höchstens ⌊ 4δ +2⌋n(ε, k) Schritten eine Ausgabe
Y liefert, die mit Wahrscheinlichkeit 1 − δ zwischen (1 − ε)N und (1 + ε)N liegt, d.h. es soll
gelten:
IP ((1 − ε)N ≤ Y ≤ (1 + ε)N ) ≥ 1 − δ .
Lösung zu Aufgabe 21
a) Es seien X1 , . . . , Xm (m ∈ IN ungerade) unabhängige Zufallsvariablen mit IP(Xi ∈
/ [a, b]) =
p ∈ 0, 12 . Für jedes ω ∈ Ω bezeichne
Ym (ω)
den
m+1
2 –größten
Wert von X1 (ω), . . . , Xm (ω).
Um die Wahrscheinlichkeit des Ereignisses {Ym ∈
/ [a, b]} abzuschätzen, stellen wir fest, daß
m+1
Ym ∈
/ [a, b] impliziert, daß mindestens 2 der Zufallsvariablen X1 , . . . , Xm außerhalb von
[a, b] liegen.
29
Aufgrund der Voraussetzungen ist die Anzahl der Xi , die außerhalb von [a, b] liegen, d.h. die
Summe
Sm :=
m
X
i=1
1{Xi ∈[a,b]}
∼ Bin(m, p)
/
binomialverteilt mit den Parametern m und p, und für die ersten beiden Momente von Sm
ergibt sich
IE[Sm ] = mp ,
V ar(Sm ) = mp(1 − p) .
Insgesamt folgt unter Beachtung von p ∈ 0, 12 , mit Anwendung der Chebychev–Ungleichung
und unter Berücksichtigung von p(1 − p) ≤ 41 für alle p (Kurvendiskussion!)
!
m+1
1
1
IP (Ym ∈
/ [a, b]) ≤ IP Sm ≥
−p +
= IP Sm − mp ≥ m
2
2
2
|
{z
}
>0
1
−p
≤ IP |Sm − mp| ≥ m
2
V ar(Sm )
mp(1 − p)
≤
=
2
m2 14 (1 − 2p)2
m2 12 − p
1
.
≤
m (1 − 2p)2
b) Sei ε > 0 fest. Das gegebene randomisierte Approximationsschema in polynomialer Zeit liefert
zu einer Eingabe der Größe k in höchstens n(ε, k) Schritten eine zufällige Näherung X für
eine unbekannte Größe N , so daß gilt:
IP ((1 − ε)N ≤ X ≤ (1 + ε)N ) ≥
3
.
4
Um eine zufällige Näherung Y zu konstruieren, die mit einer Wahrscheinlichkeit beliebig
nahe an 1 zwischen (1 − ε)N und (1 + ε)N liegt, verwenden wir Teil a) dieser Aufgabe
mit [a, b] := [(1 − ε)N, (1 + ε)N ]. Denn lassen wir das randomisierte Approximationsschema
eine ungerade Anzahl m von Malen laufen und bezeichnen die in den einzelnen Durchläufen
erhaltenen Näherungen mit X1 , . . . , Xm , so gilt nach Voraussetzung
IP (Xi ∈
/ [(1 − ε)N, (1 + ε)N ]) = p ≤
1
.
4
Für den Median Ym dieser m Näherungen folgt nach a)
IP (Ym ∈
/ [(1 − ε)N, (1 + ε)N ]) ≤
1
m(1 − 2p)2
Um die Anforderung
IP ((1 − ε)N ≤ Y ≤ (1 + ε)N ) ≥ 1 − δ
also
≤
1
m 1−2·
1 2
4
=
4
.
m
IP (Ym ∈
/ [(1 − ε)N, (1 + ε)N ]) ≤ δ
4
zu erfüllen, setzen wir δ := m
, also m := 4δ und addieren noch zwei weitere Schritte samt
Gaußklammerbildung, um sicher zu gehen, daß die Abschätzung eine ganze ungerade Zahl
beinhaltet.
30
Fassen wir das gesamte Procedere zu einem neuen randomisierten Approximationsschema
zusammen, so haben wir ein Verfahren in polynomialer Zeit konstruiert, das in höchstens
4
⌊ + 2⌋ · n(ε, k)
δ
Schritten eine Ausgabe Ym liefert, die mit Wahrscheinlichkeit 1 − δ zwischen (1 − ε)N und
(1 + ε)N liegt.
Aufgabe 22 (9 Punkte)
P
Gegeben seien ein Vektor a = (a1 , . . . , am ) ∈ INm und eine Zahl b ∈ IN mit m
i=1 ai ≥ b. Gesucht
m
ist die Anzahl N der Tupel y = (y1 , . . . , ym ) ∈ {0, 1} mit
ha, yi :=
m
X
ai yi
i=1
≤
b.
Falls z.B. a1 , . . . , am die Größen von m Gegenständen beschreiben, ist N die Anzahl der Möglichkeiten,
die a1 , . . . , am in einen Rucksack der Größe b zu packen. Dabei wird yi = 1 interpretiert als Ge”
genstand ai wird eingepackt“ und yi = 0 als Gegenstand ai bleibt draußen“.
”
Die Menge
S := {y ∈ {0, 1}m | ha, yi ≤ b}
beschreibt gerade die gesuchten Tupel, d.h. es gilt N = |S|. Bezeichnet k · k die Euklidnorm, so
definieren wir eine Übergangsmatrix P auf S durch

1

, ky − ỹk = 1

2m
Py,ỹ :=
,
y, ỹ ∈ S .
0
, ky − ỹk > 1

 1−P
z∈S,z6=y Py,z , y = ỹ
a) Zeigen Sie: Die Gleichverteilung ̺S auf S ist reversibel für P .
b) Wir ordnen die Elemente von a der Größe nach und bezeichnen das j–kleinste mit a(j) , d.h.
a(1) ≤ a(2) ≤ . . . ≤ a(m) .
Ferner setzen wir b0 := 0, S0 := {(0, . . . , 0)} und mit der Notation ∧ für Minimum


i
X
a(j)  ∧ b
bi := 
sowie
Si := {y ∈ {0, 1}m | ha, yi ≤ bi }
j=1
(jeweils 1 ≤ i ≤ m); insbesondere ist bm = b und Sm = S. Zeigen Sie: Für 0 ≤ i ≤ m − 1 gilt
|Si | ≤ |Si+1 | ≤ (m + 1)|Si | .
m
Y
|Si |
. Um N zu approximieren, kann man also die Faktoren
|Si−1 |
i=1
1
|Si−1 |
für N konstruieren.
|Si | durch ein β̂i schätzen und daraus einen Schätzer N̂ :=
β̂1 · . . . · β̂m
|
Geben Sie (algorithmische) Verfahren an, die als Ausgabe jeweils einen Schätzer β̂i für |S|Si−1
i|
c) Offensichtlich ist N = |S| =
liefern, indem Sie den Quotienten
Si interpretieren.
|Si−1 |
|Si |
als Wahrscheinlichkeit bzgl. der Gleichverteilung auf
31
Lösung zu Aufgabe 22
a) Um zu zeigen, daß die Gleichverteilung ̺S auf
S = {y ∈ {0, 1}m | ha, yi ≤ b}
reversibel für P mit
Py,ỹ =
ist, muß die Gleichung



1
2m
0

 1−P
z∈S,z6=y Py,z
, ky − ỹk = 1
, ky − ỹk > 1
, y = ỹ
̺S (y)Py,ỹ = ̺S (ỹ)Pỹ,y
für alle y, ỹ ∈ S überprüft werden. Dies ist jedoch aufgrund von
̺S (y) = ̺S (ỹ) =
1
|S|
=
1
N
und der Symmetrie von P (d.h. Py,ỹ = Pỹ,y ) trivial.
b) Wegen S0 := {(0, . . . , 0)} und bi ≤ bi+1 , also
Si = {y ∈ {0, 1}m | ha, yi ≤ bi } ⊆ {y ∈ {0, 1}m | ha, yi ≤ bi+1 } = Si+1
für i = 1, . . . , m − 1, ist die erste Ungleichung |Si | ≤ |Si+1 | (0 ≤ i ≤ m − 1) trivial.
Zum Beweis der zweiten Ungleichung |Si+1 | ≤ (m + 1)|Si | zeigen wir in einem ersten Schritt,
daß man zu jedem y ∈ Si+1 durch Umwandeln der größten“ 1 in eine 0 (d.h. der 1, die zu
”
dem größten aj gehört; in Worten: Auspacken des größten aj aus dem Rucksack) ein Element
aus Si erhält. In einem zweiten Schritt überlegt man sich dann die eigentliche Behauptung.
1. Schritt: Jedes y ∈ Si+1 liegt nach Umwandeln der größten“ 1 in eine 0 in Si :
”
Sei y ∈ Si+1 beliebig. Wir bezeichnen mit
a() := a(1) , a(2) , . . . , a(m)
bzw. mit
y() :=
y(1) , y(2) , . . . , y(m)
den zu a gehörigen aufsteigend sortierten Vektor bzw. den zu y gehörigen, entsprechend der
Permutation von a mitsortierten“ Vektor aus Nullen und Einsen. Insbesondere gilt ha, yi =
”
ha() , y() i. Wir bezeichnen nun mit j0 den größten Index in y() , an dem eine 1 steht, d.h.
y() = (y(1) , y(2) , . . . , y(j0 −1) , 1, 0, . . . , 0)
und erklären ỹ() durch
ỹ() := (y(1) , y(2) , . . . , y(j0 −1) , 0, 0, . . . , 0) .
Beh.:
Für die zu ỹ() gehörige ursprüngliche Sortierung ỹ gilt: ỹ ∈ Si :
Bew.:
Nach Voraussetzung und Konstruktion gilt
ha, yi =
j0
X
j=1

a(j) y(j) = ha, ỹi + a(j0 ) ≤ 
32
i
X
j=1

a(j) + a(i+1)  ∧ b ,
(12)
∧ b. Dabei ist die Ungleichung ha, ỹi ≤ b klar nach
a
(j)
j=1
P
Voraussetzung und wegen a(j0 ) ≥ 0. Zum Beweis der zweiten Ungleichung ha, ỹi ≤ ij=1 a(j)
unterscheiden wir zwei Fälle:
und zu zeigen ist ha, ỹi ≤
P
i
Ist j0 ≤ i + 1, so gilt offensichtlich
jX
0 −1
ha, ỹi =
j=1
i
X
a(j) y(j) ≤
a(j) .
j=1
Im zweiten Fall j0 > i + 1 folgt die Behauptung aus (12) und a(j0 ) ≥ a(i+1) .
2. Schritt: Herleiten der gesuchten Ungleichung:
Für die Menge M aller Vektoren aus {0, 1}m , die aus Elementen von Si durch Verändern von
höchstens einer Komponente hervorgehen, gilt
|M | ≤ (m + 1) |Si | .
Ferner gilt nach dem Ersten Schritt Si+1 ⊆ M , also insgesamt
|Si+1 | ≤ |M | ≤ (m + 1) |Si | .
c) Es soll die Gesamtanzahl N anhand der Darstellung
N
m
Y
|Si |
= |S| =
|Si−1 |
=
i=1
m
Y
βi−1
i=1
gechätzt werden, wobei zunächst unabhängige Schätzer β̂i für die einzelnen Faktoren
βi :=
|Si−1 |
|Si |
,
i = 1, . . . , m ,
zu konstruieren sind. Aus diesen erhält man dann durch Produktbildung einen Schätzer
N̂
:=
m
Y
β̂i−1
i=1
für N . Aufgrund technischer Vorteile betrachten wir im folgenden anstelle von N̂ den Schätzer
Q
Qm
−1 =
N̂ −1 = m
i=1 β̂i für N
i=1 βi .
1. Schritt: Reduktion des Problems:
Wir formulieren Bedingungen an die einzelnen Schätzer β̂i (i = 1, . . . , m), um eine untere
Schranke für die Wahrscheinlichkeit
IP (1 − ε)N −1 ≤ N̂ −1 ≤ (1 + ε)N −1
(ε > 0 beliebig) zu erhalten. Hierzu bemerken wir, daß die gesuchten Ungleichungen
Qm
β̂i
−1
−1
−1
(1 − ε)N
≤ N̂
≤ (1 + ε)N
⇐⇒ 1 − ε ≤ Qi=1
≤ 1+ε
m
i=1 βi
nach Lemma 9.3 der Vorlesung von den Ungleichungen
β̂i
ε ε ≤
≤ 1+
1−
2m
βi
2m
33
⇐⇒
−
ε
ε
βi ≤ β̂i − βi ≤
βi
2m
2m
für alle i = 1, . . . , m impliziert werden. Diese wiederum werden wegen βi ≥
nach b) impliziert von
ε
ε
−
≤ β̂i − βi ≤
.
2m(m + 1)
2m(m + 1)
1
m+1
für alle i
Unter Berücksichtigung der geforderten Unabhängigkeit der Schätzer β̂1 , . . . , β̂m erhalten wir
also die Abschätzung
IP (1 − ε)N −1 ≤ N̂ −1 ≤ (1 + ε)N −1
ε
ε
≤ β̂i − βi ≤
≥ IP ∀ i ∈ {1, . . . , m} : −
2m(m + 1)
2m(m + 1)
m
Y
ε
IP β̂i − βi ≤
=
(13)
2m(m + 1)
i=1
und achten bei der folgenden Konstruktion der β̂i darauf, daß der Ausdruck in (13) nahe bei
1 liegt.
2. Schritt: Konstruktion von β̂i für festes i ∈ {1, . . . , m}:
Nach den Überlegungen in b) gilt
Si−1 = {y ∈ Si | ha, yi ≤ bi−1 } ⊆ Si ,
|
der Elemente von Si , die sogar in Si−1 liegen, als
und wir können den Anteil βi = |S|Si−1
i|
Wahrscheinlichkeit bzgl. der Gleichverteilung ̺Si auf Si interpretieren:
βi = ̺Si ({y ∈ Si | ha, yi ≤ bi−1 }) .
Zur Approximation dieser Wahrscheinlichkeit (d.h. zur Konstruktion eines β̂i ) verwenden wir
einen MCMC–Algorithmus, der eine Markovkette (Xni )n≥0 mit der in der Aufgabenstellung
angegebenen Übergangsmatrix

1

, ky − ỹk = 1

2m
,
y, ỹ ∈ Si
Py,ỹ :=
0
, ky − ỹk > 1

 1−P
z∈Si ,z6=y Py,z , y = ỹ
auf Si realisiert. Diese Markovkette startet z.B. in dem immer zulässigen Zustand X0i :=
i
wählt man eine der m Komponenten von
(0, . . . , 0) ∈ Si . Beim Übergang von Xni nach Xn+1
i
Xn gleichverteilt aus und wirft eine Münze. Zeigt diese Kopf, ändert man die ausgewählte
Komponente (von 0 zu 1 und umgekehrt) und läßt alle anderen Komponenten unverändert,
i
:= Xni .
sofern der entstehende Vektor in Si liegt. In allen anderen Fällen setzt man Xn+1
Dieses Übergangsgesetz entspricht gerade der Übergangsmatrix P und hat nach a) die Gleichverteilung ̺Si auf Si als reversible, also invariante Verteilung. Da die Markovkette außerdem
aperiodisch (wegen Pyy > 0) und irreduzibel (zwei Zustände aus Si kommunizieren über
(0, . . . , 0) ∈ Si miteinander) ist, konvergiert die Verteilung µ(n) von Xni nach Theorem 5.2 in
totaler Variation gegen die Gleichverteilung ̺Si auf Si .
Wir simulieren diese Markovkette nun t–mal in unabhängiger Folge jeweils n Schritte lang,
wobei t und n groß“ und noch genauer zu bestimmen sind. Als Ergebnisse erhält man die
”
unabhängigen Kopien
i
i
i
Xn,1
, Xn,2
, . . . , Xn,t
34
i.i.d.
∼
µ(n)
und nimmt als Schätzer für βi den Durchschnitt der Werte, die in Si−1 liegen:
t
1X
1{X i ∈Si−1 } .
n,j
t
β̂i :=
j=1
Dabei ist die Summe
tβ̂i =
t
X
j=1
1{X i
n,j ∈Si−1 }
∼
Bin(t, pn )
binomialverteilt mit Parametern t und
i
pn := IP Xn,1
∈ Si−1
= µ(n) ({y ∈ Si | ha, yi ≤ bi−1 }) .
Beider Wahl
von t und n
ist zu berücksichtigen, daß die Wahrscheinlichkeit aus Gleichung (13)
ε
IP β̂i − βi ≤ 2m(m+1) nahe bei 1 liegen muß. Da nach der Dreiecksungleichung
IP β̂i − βi ≤
ε
2m(m + 1)
≥ IP β̂i − pn ≤
ε
ε
, |pn − βi | ≤
4m(m + 1)
4m(m + 1)
gilt, ist dies gewährleistet, sobald die beiden Forderungen
(i)
(ii)
erfüllt sind.
ε
|pn − βi | ≤
4m(m + 1)
ε
IP β̂i − pn ≤
4m(m + 1)
nahe bei 1“
”
Forderung (i) ist erfüllt, wenn man n hinreichend groß wählt, d.h. wenn man die Markovketten
(n)
i nur lange genug laufen läßt. Denn aus der Darstellung µ(n) − ̺ = max
Xn,j
(A) − ̺Si (A)
Si
A⊆S µ
des Variationsabstandes erhalten wir die obere Schranke
|pn −βi | = µ(n) ({y ∈ Si | ha, yi ≤ bi−1 }) − ̺Si ({y ∈ Si | ha, yi ≤ bi−1 }) ≤ µ(n) − ̺Si für die zu untersuchende Größe, die nach Theorem 5.2 gegen 0 strebt. Wir wählen also n so
ε
gilt.
groß daß µ(n) − ̺Si ≤ 4m(m+1)
Zur Untersuchung von Forderung (ii) verwenden wir die Identität V ar(tβ̂i ) = tpn (1 − pn ),
die Chebychev–Ungleichung und die Tatsache pn (1 − pn ) ≤ 14 (Kurvendiskussion!), um die
folgende Ungleichungskette herzuleiten:
εt
ε
= 1 − IP tβ̂i − tpn >
IP β̂i − pn ≤
4m(m + 1)
4m(m + 1)
≥ 1− V ar(tβ̂i )
2
εt
4m(m+1)
4 m2 (m + 1)2
ε2 t
≥ 1−δ .
= 1−
16 m2 (m + 1)2 tpn (1 − pn )
ε2 t2
≥ 1−
(14)
Wählt man die Anzahl t der unabhängigen Kopien groß genug, so ist die untere Schranke
für unsere abzuschätzende Wahrscheinlichkeit beliebig nahe bei 1, oder anders ausgedrückt
35
größer als jeder Wert 1 − δ (δ > 0 beliebig klein).
3. Schritt: Fazit:
Kombinieren wir die Ungleichungen (13) und (14) mit den Forderungen (i) und (ii), so erhalten
wir insgesamt, daß für hinreichend großes n und t die Abschätzung
m
Y
−1
−1
−1
IP β̂i − βi ≤
≥
IP (1 − ε)N ≤ N̂ ≤ (1 + ε)N
i=1
ε
2m(m + 1)
≥ (1 − δ)m
gilt. Für hinreichend kleines δ liegt unsere gesuchte Wahrscheinlichkeit also beliebig nahe
bei 1.
Aufgabe 23 (6 Punkte)
Diese Aufgabe illustriert die Bedeutung der Wahl der Anpassungsfunktion für den Propp–Wilson–
Algorithmus. Sei hierzu (X0 , X1 , . . .) eine homogene Markovkette mit Zustandsraum S = {s1 , s2 }
und Übergangsmatrix
!
0.5 0.5
P =
,
0.5 0.5
d.h. mit dem Übergangsgraphen
0.5
0.5
........................................................
......................
..............................
..............
..........
........
......
.......
.....
..........
........
......
....
....
...
.......
........
....
............................
...
...................................
.
...
.
.
.
.
.
...
.
.
.
.
.
...
...
..
...
.
.
..
.
.
....
.
.
..
..
..
..
..
..
.
.
.
.
.
...
...
.
..
.
.
...
.
.
...
...
...
.
..
..
.
.
.
....
.
...
.
.....
..
.
.
.........................
.
.
.
...
.
.
.
.
.
.
.......
...... ............ .....
.
..
.
....
.
.
.
.
.
.
.
.
.
.
........
.....
.
.
.....
........
..........
.....
.......
.....
.......
..............
..........
...........................
..........................
......................................................
s1
s2
0.5
0.5
für die wir einen Propp–Wilson–Algorithmus mit den Startpunkten (−N1 , −N2 , −N3 , −N4 , . . .) =
(−1, −2, −4, −8, . . .) laufen lassen.
a) Zeigen Sie, daß der Propp–Wilson–Algorithmus mit der zulässigen Anpassungsfunktion
(
s1 , für x ∈ [0, 0.5)
φ(si , x) =
(i = 1, 2)
s2 , für x ∈ [0.5, 1]
mit Wahrscheinlichkeit 1 anhält, und zwar unmittelbar nach dem ersten Durchlauf der Markovketten mit Start in −N1 = −1.
b) Zeigen Sie, daß der Propp–Wilson–Algorithmus mit der zulässigen Anpassungsfunktion
(
(
s1 , für x ∈ [0, 0.5)
s2 , für x ∈ [0, 0.5)
φ(s1 , x) =
und
φ(s2 , x) =
s2 , für x ∈ [0.5, 1]
s1 , für x ∈ [0.5, 1]
nie anhält.
36
Lösung zu Aufgabe 23
Wir betrachten eine homogene Markovkette mit Zustandsraum S = {s1 , s2 } und Übergangsmatrix
P
=
0.5 0.5
0.5 0.5
!
,
für die wir einen Propp–Wilson–Algorithmus mit den Startpunkten (−N1 , −N2 , −N3 , −N4 , . . .) =
(−1, −2, −4, −8, . . .) laufen lassen. Dieser besteht in unserem Fall aus den Schritten
1. Setze m = 1.
2. Simuliere zwei Markovketten, die zur Zeit −Nm in s1 bzw. s2 starten, bis zur Zeit 0 anhand
der Anpassungsfunktion φ und mit Zufallszahlen U−Nm +1 , U−Nm +2 , . . . , U−1 , U0 .
3. Falls beide Markovketten zur Zeit 0 in demselben Zustand enden, stoppe. Sonst erhöhe m um
1 und mache weiter mit Schritt 2.
a) Wählt man die zulässige Anpassungsfunktion
(
s1 , für x ∈ [0, 0.5)
φ(si , x) =
s2 , für x ∈ [0.5, 1]
(i = 1, 2)
,
so hält der Propp–Wilson–Algorithmus mit Wahrscheinlichkeit 1 an, und zwar unmittelbar
nach dem ersten Durchlauf der beiden Markovketten mit Start in −N1 = −1. Denn wie man
leicht sieht, enden beide Markovketten zur Zeit 0 in demselben Zustand, und zwar für alle
möglichen Werte der Zufallszahl U0 :
1. Fall: U0 ∈ [0, 0.5) ⇒ φ(si , U0 ) = s1
2. Fall: U0 ∈ [0.5, 1] ⇒ φ(si , U0 ) = s2
s1
s1
s1
s1
s2
s2
s2
s2
-1
0
-1
0
b) Wählt man hingegen die ebenfalls zulässige Anpassungsfunktion
(
(
s1 , für x ∈ [0, 0.5)
s2 , für x ∈ [0, 0.5)
φ(s1 , x) =
und φ(s2 , x) =
s2 , für x ∈ [0.5, 1]
s1 , für x ∈ [0.5, 1]
,
so hält der Propp–Wilson–Algorithmus nie an. Die Gründe hierfür sieht man z.B. an den
ersten beiden Schritten: Nach einem Durchlauf des Algorithmus gibt es je nach Wert von U0
die beiden Möglichkeiten:
37
1. Fall: U0 ∈ [0, 0.5)
2. Fall: U0 ∈ [0.5, 1]
s1
s1
s1
s1
s2
s2
s2
s2
-1
0
-1
0
d.h. die Markovketten mit Startzuständen s1 bzw. s2 enden zur Zeit 0 jeweils in zwei verschiedenen Zuständen. Läßt man den Propp–Wilson–Algorithmus eine Stufe weiter laufen, so
ergibt sich je nach Werten von U1 dasselbe Bild:
1. Fall: U0 ∈ [0, 0.5)
U1 ∈ [0, 0.5)
2. Fall: U0 ∈ [0.5, 1]
U1 ∈ [0.5, 1]
U1 ∈ [0, 0.5)
U1 ∈ [0.5, 1]
s1
s1
s1
s1
s1
s1
s1
s1
s1
s1
s1
s1
s2
s2
s2
s2
s2
s2
s2
s2
s2
s2
s2
s2
-2
-1
0
-2
-1
0
-2
-1
0
-2
-1
0
Mit anderen Worten: Die gewählte Anpassungsfunktion φ bewirkt, daß in jedem Zeitschritt
für alle x ∈ [0, 1] gilt:
φ(s1 , x) 6= φ(s2 , x) .
Damit können die in s1 bzw. s2 gestarteten Markovketten nie in denselben Zustand gelangen,
insbesondere nicht zum Zeitpunkt 0.
Aufgabe 24 (14 Punkte)
Es seien G = (V, E) ein endlicher zusammenhängender Graph, S := {+1, −1}V der Raum der
Spinkonfigurationen auf G und β > 0. Die Größe
X
1{ω(x)6=ω(y)}
H(ω) := 2 β
x,y∈V
x,yNachbarn
heißt Energie von ω ∈ S. Das Ising–Maß auf S mit inverser Temperatur β und dem Normierungsfaktor
X
β
ZG
:=
e−H(ω)
ω∈S
38
ist gegeben durch
β
νG
(ω) :=
1
β
ZG
e−H(ω) .
Wir definieren eine Halbordnung auf S durch
ω ω̃ : ⇐⇒
ω(v) ≤ ω̃(v)
für alle v ∈ V .
a) ω und ω̃ seien Konfigurationen, die sich nur in einer Ecke unterscheiden, d.h. es existiert ein
v ∈ V , so daß ω(v) = −1, ω̃(v) = +1 und ω(w) = ω̃(w) für alle w ∈ V \ {v} ist. Berechnen
β
Sie den Eintrag Pω,ω̃ der Übergangsmatrix P des Gibbs–Samplers zu νG
.
b) Eine Wahrscheinlichkeitsverteilung π auf S heißt monoton, falls für alle Konfigurationen ξ, ξ̃ ∈
S mit ξ ξ˜ gilt:
π(ω(v) = +1 | ω(w) = ξ(w) ∀ w 6= v) ≤ π(ω(v) = +1 | ω(w) = ξ̃(w) ∀ w 6= v)
β
monoton ist.
für alle v ∈ V . Zeigen Sie, daß νG
c) Zeigen Sie: Man kann die Anpassungsfunktion φ : S × [0, 1] → S für den Gibbs–Sampler zu
β
νG
so wählen, daß für ω, ω̃ ∈ S mit ω ω̃ die Beziehung φ(ω, u) φ(ω̃, u) für alle u ∈ [0, 1]
gilt.
d) Es sei ω ω̃. Zeigen Sie, daß für gekoppelte“ Markovketten X und X̃ mit derselben
”
Übergangsmatrix P nach a), derselben Anpassungsfunktion φ nach c), denselben Zufallsi.i.d.
zahlen U0 , U1 , . . . ∼ U(0, 1) und den Startzuständen X0 = ω, X̃0 = ω̃ die Beziehung
Xn X̃n
für n = 1, 2, 3, . . .
gilt.
e) Die Konfigurationen η+ , η− ∈ S seien definiert durch η+ (v) = +1 bzw. η− (v) = −1 für alle
β
v ∈ V . Folgern Sie aus d), daß es genügt, den Propp–Wilson–Algorithmus für νG
mit den
Startzuständen η+ und η− laufen zu lassen.
Lösung zu Aufgabe 24
Ziel der Aufgabe ist es, den Propp–Wilson–Algorithmus zur Simulation des Ising–Maßes
β
νG
(ω) =
1
β
ZG
e−H(ω)
mit
β
ZG
=
X
e−H(ω)
,
H(ω) = 2 β
ω∈S
X
x,y∈V
x,yNachbarn
1{ω(x)6=ω(y)} ,
auf dem Raum S := {+1, −1}V der Spinkonfigurationen auf einem endlichen zusammenhängenden
Graphen G = (V, E) zu vereinfachen. Bevor dies im Teil e) geschehen kann, sind einige Vorbereitungen nötig. Insbesondere verwenden wir die Halbordnung
ω ω̃ : ⇐⇒
ω(v) ≤ ω̃(v)
für alle v ∈ V
auf S.
β
β
a) Der Gibbs–Sampler zu νG
simuliert eine Markovkette (Xn )n≥0 zur Approximation von νG
und definiert den Übergang von Xn nach Xn+1 durch die Vorschrift
39
1. Wähle gleichverteilt ein v ∈ V .
β
2. Wähle Xn+1 (v) nach der bedingten Verteilung von νG
gegeben die Werte Xn (w) für
w ∈ V \ {v}.
3. Setze Xn+1 (w) := Xn (w) für alle w ∈ V \ {v}.
Um den Eintrag Pω,ω̃ der Übergangsmatrix P dieses Gibbs–Samplers zu bestimmen, setzen
wir für ein festes v ∈ V und eine feste Konfiguration ω ∗ ∈ {+1, −1}V \{v}
(
(
−1
, w = v,
+1
, w = v,
ω(w) :=
und
ω̃(w) :=
∗
∗
ω (w) , w 6= v,
ω (w) , w 6= v,
und definieren ferner die Größe
C(v, ω ∗ ) := H(ω̃) − H(ω) = 2 β
= 2β
X
1{ω̃(w)6=+1} − 2 β
w Nb von v
X
w Nb von v
X
w Nb von v
1{ω(w)6=−1}
1{ω∗ (w)=−1} − 1{ω∗ (w)=+1}
(man beachte, daß die Summen in der Definition von H aufgrund der Übereinstimmung
von ω und ω̃ außerhalb von v zusammenschrumpfen). Schreiben wir schließlich X für eine
β
Zufallsvariable mit Verteilung νG
:
β
X : (Ω, A, IP) → {+1, −1}V , P({+1, −1}V ), νG
(beachte: der zugrundeliegende Wahrscheinlichkeitsraum Ω hat nichts zu tun mit den Konfigurationen ω!), so ergibt sich für die Übergangswahrscheinlichkeiten unter Punkt 2. der
Definition des Gibbs–Samplers
IP(X(v) = 1 | X(w) = ω ∗ (w) ∀ w 6= v)
=
IP(X(v) = 1, X(w) = ω ∗ (w) ∀ w 6= v)
IP(X(w) = ω ∗ (w) ∀ w 6= v)
=
1 −H(ω̃)
β e
ZG
1 −H(ω)
+ 1β e−H(ω̃)
β e
ZG
ZG
=
=
IP(X = ω̃)
IP(X = ω) + IP(X = ω̃)
1
1+
eH(ω̃)−H(ω)
=
1
1+
eC(v,ω∗ )
und
∗
IP(X(v) = −1 | X(w) = ω (w) ∀ w 6= v) = 1 −
=
∗
1
1 + eC(v,ω∗ )
1
∗) .
−C(v,ω
1+e
=
eC(v,ω )
1 + eC(v,ω∗ )
Damit sind die Übergängswahrscheinlichkeiten zwischen ω und ω̃ unter dem Gibbs–Sampler
gegeben durch
Pω,ω̃ =
1
1
∗)
C(v,ω
|V | 1 + e
und
Pω̃,ω
=
1
1
∗) .
−C(v,ω
|V | 1 + e
β
b) Um die Monotonie von νG
zu zeigen, ist für feste Konfigurationen ξ, ξ˜ ∈ S mit ξ ξ˜ und für
festes v ∈ V die Ungleichung
β
β
νG
(ω(v) = +1 | ω(w) = ξ(w) ∀ w 6= v) ≤ νG
(ω(v) = +1 | ω(w) = ξ̃(w) ∀ w 6= v)
40
β
zu überprüfen. Diese Größen lassen sich anhand der Zufallsvariablen X ∼ νG
aus a) ausdrücken und wurden dort bereits berechnet:
β
(ω(v) = +1 | ω(w) = ξ(w) ∀ w 6= v) = IP(X(v) = +1 | X(w) = ξ ∗ (w) ∀ w =
6 v)
νG
1
=
,
1 + eC(v,ξ ∗ )
β
νG
(ω(v) = +1 | ω(w) = ξ̃(w) ∀ w 6= v) = IP(X(v) = +1 | X(w) = ξ̃ ∗ (w) ∀ w =
6 v)
1
=
.
1 + eC(v,ξ̃ ∗ )
Dabei bezeichnen ξ ∗ bzw. ξ̃ ∗ die Einschränkungen von ξ bzw. ξ˜ auf V \ {v}, für die nach
Voraussetzung ξ ∗ ξ̃ ∗ gilt, und
X C(v, ξ ∗ ) = 2 β
1{ξ ∗ (w)=−1} − 1{ξ ∗ (w)=+1}
w Nb von v
ist analog zu a) definiert. Letztendlich ist also nur die Ungleichung
1
1 + eC(v,ξ ∗ )
≤
1
1 + eC(v,ξ̃
∗)
zu zeigen, die sich in Anbetracht der Monotonie der e–Funktion aus der folgenden Behauptung
1
für x > 0 wohldefiniert und streng monoton fallend ist.
ergibt, da die Funktion f (x) := 1+x
Beh.: Für festes v ∈ V ist C(v, ξ ∗ ) monoton fallend in ξ ∗ ∈ {+1, −1}V \{v} , d.h. aus ξ ∗ ξ˜∗
folgt C(v, ξ ∗ ) ≥ C(v, ξ̃ ∗ ).
Bew.: Aufgrund der Voraussetzung ξ ∗ ξ̃ ∗ gilt für alle w ∈ V \ {v}: ξ ∗ (w) ≤ ξ˜∗ (w), also
1{ξ̃ ∗ (w)=−1} ≤ 1{ξ ∗ (w)=−1}
und
− 1{ξ̃ ∗ (w)=+1} ≤ − 1{ξ ∗ (w)=+1} ,
und damit
C(v, ξ˜∗ ) = 2 β
X
w Nb von v
h
1{ξ̃ ∗ (w)=−1} − 1{ξ̃ ∗ (w)=+1}
≤ 2β
X
w Nb von v
i
1{ξ ∗ (w)=−1} − 1{ξ ∗ (w)=+1}
= C(v, ξ ∗ ) .
c) Wir definieren im folgenden die Anpassungsfunktion φ : S ×[0, 1] → S für den Gibbs–Sampler
β
zu νG
so, daß die Ordnungsrelation auf S erhalten bleibt, d.h. daß für ω ω̃ und jedes
feste u ∈ [0, 1] die Relation φ(ω, u) φ(ω̃, u) gilt.
Zunächst wissen wir nach a), daß der Gibbs–Sampler von einem Zustand ω mit positiver
Wahrscheinlichkeit nur in einen Zustand übergehen kann, der sich von ω an höchstens einer
Ecke unterscheidet. Genauer gesagt, wählt der Gibbs–Sampler eine Ecke v ∈ V mit Gleichverteilung und setzt den Wert des Nachfolgezustandes in v auf
(
1
+1 mit Wahrscheinlichkeit 1+eC(v,ω
∗) ,
1
−1 mit Wahrscheinlichkeit 1+e−C(v,ω∗ ) ,
wobei ω ∗ die Restriktion von ω auf V \ {v} bezeichnet.
Um dieses Vorgehen durch eine explizite Anpassungsfunktion nachzubilden, numerieren wir
41
die Ecken des Graphen durch, setzen also V = {v1 , . . . , vk }, und unterteilen das Intervall
1 2
1
k−1
[0,
h 1] ink = |V | Teilintervalle der Länge k , also [0, 1] = 0, k , k , . . . , k , 1 . Ein Wert u ∈
j−1 j
k ,k
ersten
repräsentiert eine Änderung an der Ecke vj , und zwar nach -1, falls u unter den
1
1
k 1+e−C(v,ω ∗ )
1
1
k 1+eC(v,ω ∗ )
Werten dieses Teilintervalls liegt und nach +1, falls unter den letzten
Werten. Es ist also für alle w ∈ V
φ(ω, u)(w) =











−1 , w = vj ,
u∈
+1 , w = vj ,
u∈
ω(w) , w 6= vj .
h
h
j−1 j−1
k , k
j−1
k
+
+
1
1
k 1+e−C(v,ω ∗ )
j
1
1
k 1+e−C(v,ω ∗ ) , k
,
,
Es ist nun zu zeigen, daß für beliebige Konfigurationen ω ω̃ und hu ∈ [0,1] die Relation
j
φ(ω, u) φ(ω̃, u) erhalten bleibt. Hierzu nehmen wir an, daß u ∈ j−1
gilt, daß also
k ,k
sowohl bei ω als auch bei ω̃ eine Änderung in der Ecke vj stattfindet. Da dann für alle w 6= vj
φ(ω, u)(w) = ω(w) ≤ ω̃(w) = φ(ω̃, u)(w) gilt, ist nur noch die Beziehung
φ(ω, u)(vj ) ≤ φ(ω̃, u)(vj )
nachzuweisen. Da nach Voraussetzung für die Restriktionen ω ∗ bzw. ω̃ ∗ von ω bzw. ω̃ auf
V \ {v} ebenfalls ω ∗ ω̃ ∗ gilt und da C(v, ·) nach b) monoton fallend ist, folgt mit denselben
Überlegungen wie in b)
1
1+
≤
e−C(v,ω̃∗ )
d.h. wir haben die Aufteilung des Intervalls
I1
I2
I3
h
1
1+
j−1 j
k ,k
e−C(v,ω∗ )
,
= I1 + I2 + I3 in die Teilintervalle
1
j−1 j−1 1
,
+
=
k
k
k 1 + e−C(v,ω̃∗ )
j−1 1
1
1
j−1 1
,
+
+
=
k
k 1 + e−C(v,ω̃∗ )
k
k 1 + e−C(v,ω∗ )
j−1 1
j
1
=
+
.
∗) ,
−C(v,ω
k
k1+e
k
Damit gilt
für u ∈ I1 :
für u ∈ I2 :
für u ∈ I3 :
φ(ω, u)(vj ) = −1 ≤ −1 = φ(ω̃, u)(vj ) ,
φ(ω, u)(vj ) = −1 ≤ +1 = φ(ω̃, u)(vj ) ,
φ(ω, u)(vj ) = +1 ≤ +1 = φ(ω̃, u)(vj ) .
d) Wir betrachten gekoppelte Markovketten X und X̃ mit derselben Übergangsmatrix P nach
i.i.d.
a), derselben Anpassungsfunktion φ nach c), denselben Zufallszahlen U0 , U1 , . . . ∼ U(0, 1)
und den Startzuständen X0 = ω ω̃ = X̃0 . Die Behauptung Xn X̃n für alle n ∈ IN0 zeigt
man durch Induktion.
Denn für n = 0 ist die Beziehung nach Voraussetzung (Startzustände) richtig. Gilt Xn X̃n
für ein bestimmtes n, so folgt nach c) punktweise auf dem zugrundliegenden Wahrscheinlichkeitsraum:
Xn+1 = φ(Xn , Un+1 ) φ(X̃n , Un+1 ) = X̃n+1 .
42
β
e) Der Propp–Wilson–Algorithmus für νG
mit den Startpunkten (−N1 , −N2 , −N3 , −N4 , . . .) besteht aus den Schritten
1. Setze m = 1.
2. Simuliere |S| Markovketten, die zur Zeit −Nm in allen verschiedenen ω ∈ S starten, bis
zur Zeit 0 mit Hilfe der Anpassungsfunktion φ und der Zufallszahlen U−Nm +1 , . . . , U−1 , U0 .
3. Falls alle Markovketten zur Zeit 0 in demselben Zustand enden, stoppe. Sonst erhöhe m
um 1 und mache weiter mit Schritt 2.
Anhand von d) soll begründet werden, warum es genügt, den Algorithmus mit dem minima”
len“ Startzustand η− und dem maximalen“ Startzustand η+ laufen zu lassen.
”
Bezeichnen Xn− bzw. Xn+ die zugehörigen Markovketten mit Startzustand η− bzw. η+ , so
ist das folgende zu zeigen: Enden diese beiden Markovketten zum Zeitpunkt 0 in demselben
Zustand ω ∈ S, so befinden sich zur Zeit 0 auch alle anderen Markovketten Xn des Propp–
Wilson–Algorithmus mit den übrigen Startzuständen η aus S in diesem Zustand ω.
Dies sieht man leicht ein, da nach der Definition von η− und η+ für alle übrigen Startzustände
η aus S die Relation
η− η η+
gilt und damit nach d) zum Zeitpunkt 0 für alle Markovketten Xn mit Startzustand η:
ω = Xn− Xn Xn+ = ω .
Aufgabe 25 (10 Punkte)
Sei (X0 , X1 , . . .) eine homogene Markovkette mit Zustandsraum S = {s1 , s2 } und Übergangsmatrix
!
0.5 0.5
P =
.
1
0
Die zugehörige Anpassungsfunktion φ : S × [0, 1] → S sei gegeben durch
(
s1 , für u ∈ [0, 0.5)
φ(s1 , u) =
und
φ(s2 , u) = s1
s2 , für u ∈ [0.5, 1]
für alle u ∈ [0, 1]
(vgl. Beispiel 10.3 in der Vorlesung). Ferner seien (−N1 , −N2 , −N3 , . . .) = (−1, −2, −3, . . .) die
Folge der Startpunkte und Y die Ausgabe des zugehörigen Propp–Wilson–Algorithmus sowie
M
:= max{m | der Propp–Wilson–Algorithmus geht zurück bis −Nm } .
a) Zeigen Sie:
IP (M = k) =
1
2k
,
k = 1, 2, 3, . . .
und
IP (Y = s1 | M = k) =
43
(
1 , M ungerade,
0 , M gerade.
b) Schließen Sie aus a), daß für die Verteilung der Ausgabe Y gilt:
IP (Y = s1 ) =
2
3
,
IP (Y = s2 ) =
1
.
3
Lösung zu Aufgabe 25
Wir untersuchen den Propp–Wilson–Algorithmus für eine Markovkette mit Zustandsraum S =
{s1 , s2 } und Anpassungsfunktion
(
s1 , für u ∈ [0, 0.5)
φ(s1 , u) =
bzw.
φ(s2 , u) = s1 für alle u ∈ [0, 1] .
s2 , für u ∈ [0.5, 1]
Bezeichnen (−N1 , −N2 , −N3 , . . .) = (−1, −2, −3, . . .) die Startpunkte des Verfahrens und
M
:= max{m | der Propp–Wilson–Algorithmus geht zurück bis −Nm } ,
so hält der Algorithmus genau nach dem in −NM gestarteten Lauf mit der Ausgabe Y an.
i.i.d.
Ferner bezeichnen wir mit U0 , U−1 , U−2 , . . . ∼ U(0, 1) die in die Anpassungsfunktion φ eingesetzten
Zufallsvariablen, wobei U0 beim Übergang vom Zeitpunkt −1 nach 0, U−1 zwischen Zeitpunkt −2
und −1 und allgemein U−k beim Übergang vom Zeitpunkt −k − 1 nach −k verwendet wird.
Um den Propp–Wilson–Algorithmus in unserem Spezialfall zu verstehen, sehen wir uns die ersten
drei Iterationsstufen von Hand“ an. Je nach Wert der Zufallsvariablen U0 ergibt sich für die in
”
den Zuständen s1 bzw. s2 gestarteten Markovketten nach der ersten Iteration das folgende Bild:
1. Fall: U0 ∈ [0, 0.5)
2. Fall: U0 ∈ [0.5, 1]
s1
s1
s1
s1
s2
s2
s2
s2
-1
0
-1
0
Im Fall U0 ∈ [0, 0.5) befinden beide Markovketten zum Zeitpunkt 0 in demselben Zustand s1 , und
der Algorithmus terminiert. Im Fall U0 ∈ [0.5, 1] hingegen ergibt sich je nach Wert der Zufallsvariablen U−1 ein sehr ähnliches Bild (man beachte, daß der Wert von U0 wiederverwendet wird):
1. Fall: U−1 ∈ [0, 0.5)
2. Fall: U−1 ∈ [0.5, 1]
s1
s1
s1
s1
s1
s1
s2
s2
s2
s2
s2
s2
-2
-1
0
-2
-1
0
44
Im Fall U−1 ∈ [0, 0.5) terminiert der Propp–Wilson–Algorithmus, diesmal im Zustand s2 . Für
U−1 ∈ [0.5, 1] hingegen wurde wiederum keine Einigung erzielt, und so wird der nächste Versuch ab
−N3 = −3 in Angriff genommen (man beachte, daß auch hier die früheren Werte U0 , U−1 ∈ [0.5, 1]
wiederverwendet werden):
1. Fall: U−2 ∈ [0, 0.5)
2. Fall: U−2 ∈ [0.5, 1]
s1
s1
s1
s1
s1
s1
s1
s1
s2
s2
s2
s2
s2
s2
s2
s2
-3
-2
-1
0
-3
-2
-1
0
Insgesamt stellt man fest, daß der Propp–Wilson–Algorithmus genau dann in der bei −Nk startenden Iterationsstufe terminiert, wenn der Wert der Zufallsvariablen U−k+1 im Intervall [0, 0.5) liegt
und alle früheren Zufallsvariablen ≥ 21 waren.
a) Nach den bisherigen Überlegungen gilt aufgrund der Unabhängigkeit und U(0, 1)–Verteilung
der U−j für alle k ≥ 1
IP (M = k)
= IP (der Propp–Wilson–Algorithmus terminiert bei der in −Nk gestarteten Iteration)
1
1
1
1
1
= IP U−k+1 < , U−k+2 ≥ , U−k+3 ≥ , . . . , U−1 ≥ , U0 ≥
2
2
2
2
2
k−2
1
1 Y
IP U−j ≥
= IP U−k+1 <
2
2
j=0
=
1
.
2k
Zum Beweis der zweiten Behauptung
IP (Y = s1 | M = k) =
(
1 , M ungerade,
0 , M gerade,
ist zu zeigen, daß bei Terminierung des Propp–Wilson–Algorithmus in der bei −Nk = −k
gestarteten Iterationsstufe für die Ausgabe Y gilt:
(
Y = s1 mit Wahrscheinlichkeit 1 , falls k ungerade ist,
Y = s2 mit Wahrscheinlichkeit 1 , falls k gerade ist.
Dies ist jedoch klar aufgrund der obigen Überlegungen: Wenn der letzte Durchlauf des Propp–
Wilson–Algorithmus zur Zeit −k startet, so muß U−k+1 < 12 gelten, und die beiden in s1 und
s2 gestarteten Markovketten treffen sich
zur Zeit −k + 1 im Zustand s1 .
Von dort aus bewegen sie sich parallel auf einem Zickzack–Kurs“ zwischen s2 und s1 , denn
”
nach Voraussetzung liegen alle Zufallsvariablen U−k+2 , U−k+3 , . . . U−1 , U0 im Intervall [0.5, 1].
45
Zwischen −k + 1 und 0 sind also genau k − 1 Schritte
zurückzulegen, wobei der Zustand der Markovketten in jedem Schritt zwischen s2 und s1 hin–
und herwechselt. Folglich befinden sie sich zur Zeit 0 mit Wahrscheinlichkeit 1
(
im Zustand s1 , falls k ungerade, also k − 1 gerade ist, und
im Zustand s2 , falls k gerade, also k − 1 ungerade ist.
b) Verwendet man zuerst die Formel von der totalen Wahrscheinlichkeit, setzt dort die Ergebnisse
von a) ein und berechnet anschließend den Wert der dadurch entstehenden geometrischen
Reihe, so erhält man:
IP (Y = s1 ) =
∞
X
IP (Y = s1 | M = k) IP (M = k) =
| 8
{z
} | {z }
k=1
= 1k
< 1, M ung.
2
=
: 0, M ger.
∞
X
l=0
1
22l+1
=
∞
1X
2
l=0
l
1
=
4
2
.
3
Damit gilt auch für das Gegenereignis
IP (Y = s2 ) = 1 − IP (Y = s1 ) = 1 −
2
3
=
1
.
3
Aufgabe 26 (10 Punkte)
Es sei X = (X (1) , X (2) , . . . , X (k) ) ein System gekoppelter Markovketten mit demselben Zustandsraum S = {s1 , . . . , sk }, derselben Anpassungsfunktion φ, denselben Zufallszahlen U0 , U1 , U2 , . . . und
(i)
den Startwerten X0 = si (i = 1, . . . , k). Die Zufallsvariable
o
n
N X := min n ≥ 1 | Xn(1) = Xn(2) = . . . = Xn(k)
bezeichne den ersten Zeitpunkt der Übereinstimmung der k Markovketten.
Ferner sei Y = (Y (1) , Y (2) , . . . , Y (k) ) eine unabhängige Kopie des obigen Systems mit der analogen
Bezeichnung
o
n
N Y := min n ≥ 1 | Yn(1) = Yn(2) = . . . = Yn(k) .
X heißt Gewinner, falls N X < N Y gilt, und Verlierer im Fall N X > N Y . Im Fall N X = N Y wird
der Gewinner durch den Wurf einer fairen Münze bestimmt.
(i)
(i)
a) Zeigen Sie: Für alle xj , yj ∈ S (1 ≤ i ≤ k, j ∈ IN) gilt:
(i)
(i)
(i)
(i)
(i)
(i)
(i)
(i)
IP Xj = xj , Yj = yj , 1 ≤ i ≤ k, j ∈ IN = IP Xj = yj , Yj = xj , 1 ≤ i ≤ k, j ∈ IN
b) Z = (Z (1) , Z (2) , . . . , Z (k) ) bezeichne den Gewinner zwischen X und Y . Zeigen Sie, daß für alle
(i)
Werte von zj die Ereignisse
n
o
(i)
(i)
Zj = zj , 1 ≤ i ≤ k, j ∈ IN
stochastisch unabhängig sind.
46
und
{Z = X}
c) Zeigen Sie, daß die bedingte Verteilung von X, gegeben das Ereignis {X ist der Gewinner},
gleich der Verteilung von Z ist.
Lösung zu Aufgabe 26
(i)
(i)
a) Da die Systeme X = (Xj )1≤i≤k,j∈IN und Y = (Yj )1≤i≤k,j∈IN stochastisch unabhängig
(i)
und identisch verteilt sind, gilt für alle k–dimensionalen Folgen x = (xj )1≤i≤k,j∈IN und
(i)
y = (yj )1≤i≤k,j∈IN
IP (X = x, Y = y) = IP (X = x) IP (Y = y) = IP (X = y) IP (Y = x) = IP (X = y, Y = x) .
(i)
b) Wie in a) schreiben wir abkürzend Z = (Zj )1≤i≤k,j∈IN für das System des Gewinners zwi(i)
schen X und Y sowie z = (zj )1≤i≤k,j∈IN für eine Realisierung von Z. Mit dieser Notation ist
für beliebige z die stochastische Unabhängigkeit der Ereignisse
{Z = z}
und
{Z = X}
zu zeigen, d.h. die Gleichung
IP (Z = z, Z = X) = IP (Z = z) · IP (Z = X)
zu verifizieren.
Hierzu stellt man zunächst fest, daß aus Symmetriegründen (Unabhängigkeit und identische
Verteilung von X und Y , Münzwurf im Fall N X = N Y ) jedes der Systeme X bzw. Y von
Markovketten dieselbe Chance hat, zu gewinnen, daß also die Ereignisse {Z = X} und {Z =
Y } dieselbe Wahrscheinlichkeit besitzen. Formal sieht man das z.B. durch die Überlegung
IP (Z = X) = IP N X < N Y
= IP N Y < N X
+ IP Z = X | N X = N Y IP N X = N Y
|
{z
}
= 12
+
1
IP N Y = N X
= IP (Z = Y )
2
ein. Da sich ihre Wahrscheinlichkeiten ferner zu 1 aufaddieren, folgt
IP (Z = X) = IP (Z = Y ) =
1
.
2
Des weiteren gilt ebenfalls aus Symmetriegründen
IP (Z = z, Z = X) = IP (Z = z, Z = Y ) ,
was man formal wie folgt einsieht: Schreiben wir analog zu der Notation bei Zufallsvariablen
(i)
(i)
für Systeme y = (yj )1≤i≤k,j∈IN bzw. z = (zj )1≤i≤k,j∈IN
o
o
n
n
N y = min n ≥ 1|yn(1) = yn(2) = . . . = yn(k) bzw. N z = min n ≥ 1|zn(1) = zn(2) = . . . = zn(k) ,
so ergibt sich nach der Substitutionsregel, der Unabhängigkeit und identischen Verteilung von
47
X und Y sowie nach den Überlegungen in a)
IP (Z = z, Z = X) = IP (X = z, Z = X)
X
=
IP (X = z, Z = X, Y = y) +
X
y:N y >N z
X
=
X
IP (X = z, Y = y) +
y:N y >N z
y:N y =N z
X
X
=
IP (X = y, Y = z) +
y:N y >N z
=
X
y:N y =N z
IP (Z = X|X = z, Y = y) IP (X = z, Y = y)
|
{z
}|
{z
}
= 12
=IP(X=y,Y =z)
IP (Z = Y |X = y, Y = z) IP (X = y, Y = z)
X
IP (X = y, Z = Y, Y = z) +
y:N y >N z
IP (X = z, Z = X, Y = y)
y:N y =N z
IP (X = y, Z = Y, Y = z)
y:N y =N z
= IP (Z = z, Z = Y ) .
Folglich ist
IP (Z = z) = IP (Z = z, Z = X) + IP (Z = z, Z = Y ) = 2 IP (Z = z, Z = X) ,
und wir erhalten die Behauptung:
IP (Z = z, Z = X) =
1
· IP (Z = z) = IP (Z = X) · IP (Z = z) .
2
c) Nach b) gilt wiederum durch Anwenden der Substitutionsregel für alle Realisierungen z =
(i)
(zj )1≤i≤k,j∈IN
IP (Z = z) =
IP (Z = z, Z = X)
IP (Z = X)
=
IP (X = z, Z = X)
IP (Z = X)
= IP (X = z | Z = X) ,
d.h. die Verteilung von Z ist gleich der bedingten Verteilung von X, gegeben das Ereignis
{X ist der Gewinner}.
Aufgabe 27 (5 Punkte)
a) Geben Sie die Kontraktionskoeffizienten für die folgenden Übergangsmatrizen an:

1
3

(i) P (1) =  1
1
2
1
3
0
1
2
1
3


0 
0


(ii) P (2) = 
3
4
2
3
0

0

0 
0 1
1
4
1
3


(iii) P (3) =  0
b) Für welche Übergangsmatrizen P gilt c(P ) = 0?
Lösung zu Aufgabe 27
Nach Definition gilt für den Kontraktionskoeffizienten einer Übergangsmatrix P :
c(P ) =
sup kPx· − Py· k =
x,y∈S
48
X
1
|Pxz − Pyz | .
sup
2 x,y∈S
z∈S
1
2
1
2
0
1
2
1
2
1
2
1
2
0


.
a) Spezialisiert man diese Formel auf die drei angegebenen Matrizen, so erhält man
1
1
1
1 1 1 1 1
1
(1)
c(P ) =
sup − 1 + − 0 + − 0 , − + − + − 0 ,
2
3
3
3
3 2
3 2
3
1 − 1 + 0 − 1 + |0 − 0|
2 2
1
4 2
2
=
sup
, ,1
=
,
2
3 3
3
3 2 1 1
3
1
1
(2)
sup − + − + |0 − 0| , − 0 + − 0 + |0 − 1| ,
c(P ) =
2
4 3
4 3
4
4
2
1
− 0 + − 0 + |0 − 1|
3
3
1
1
=
sup
, 2, 2
= 1,
2
6
1
1 1
1 1 1 1 1 1
(3)
,
+
,
+
+
sup
−
0
−
−
−
0
0
−
+
0
−
c(P ) =
2
2
2
2 2
2 2
2
2
0 − 1 + 1 − 1 + 1 − 0
2
2 2
2
1
1
sup {1, 1, 1} =
.
=
2
2
b) Aufgrund der Äquivalenzkette
c(P ) = 0
⇐⇒
sup kPx· − Py· k =
x,y∈S
⇐⇒
∀ x, y ∈ S :
⇐⇒
∀ x, y ∈ S :
X
z∈S
X
1
|Pxz − Pyz | = 0
sup
2 x,y∈S
z∈S
|Pxz − Pyz | = 0
∀z ∈ S :
Pxz = Pyz
gilt c(P ) = 0 genau für die Matrizen P , deren Zeilen alle identisch sind.
Aufgabe 28 (6 Punkte)
Zeigen Sie, daß für zwei Übergangsmatrizen auf einer endlichen Menge S gilt:
c(P (1) P (2) ) ≤ c(P (1) )c(P (2) )
Hinweis: Verwenden Sie die in der Vorlesung hergeleiteten Formeln
X
X
X
X
kµ − νk = sup f (x)(µP )(x) =
(P f )(x)µ(x) .
f (x)µ(x) −
f (x)ν(x) und
f : δ(f )≤1 x
x
x
x
Lösung zu Aufgabe 28
Wir zeigen zunächst für jedes x ∈ S die Hilfsbehauptung
X
z∈S
f (z) P (1) P (2)
xz
=
X
(1)
P (2) f (z)Pxz
.
z∈S
49
(15)
Diese sieht man anhand der Definition
X
(2)
P (2) f (y) =
f (z)Pyz
z∈S
leicht durch Einsetzen der Matrixmultiplikation von P (1) mit P (2) , Umsummieren und Umbenennen
der Summationsvariablen ein:
X
X
X
X
X
X
(2)
(1)
(1) (2)
(1)
P (2) f (y)
f (z)Pyz
=
Pxy
f (z) P (1) P (2)
=
f (z)
Pxy
Pyz =
Pxy
z∈S
xz
z∈S
y∈S
y∈S
z∈S
y∈S
=
X
(1)
P (2) f (z)Pxz
.
z∈S
Damit gestaltet sich der eigentliche Beweis recht übersichtlich. Setzt man zunächst die Definition des Kontraktionskoeffizienten von P (1) P (2) , dann die im Hinweis angegebene Darstellung der
Variationsnorm und schließlich die obige Bemerkung (15) ein, so erhält man:
(1) (2) (1) (2)
(1) (2)
− P P
c(P P ) = sup P P
x·
y· x,y∈S
X
X
= sup sup f (z) P (1) P (2)
−
f (z) P (1) P (2)
xz
yz x,y∈S f : δ(f )≤1 z∈S
z∈S
X X
(1)
(1) = sup sup P (2) f (z)Pxz
−
P (2) f (z)Pyz
x,y∈S f : δ(f )≤1 z∈S
z∈S
|
{z‚
}
‚
‚ (1)
(1) ‚
≤ δ(P (2) f ) ‚Px· −Py· ‚
wobei in der letzten Ungleichung die Aussage (ii)
X
X
f (x)µ(x) −
f (x)ν(x) ≤ δ(f ) kµ − νk
x∈S
x∈S
von Lemma 11.1 der Vorlesung anzuwenden ist. Berücksichtigt man ferner die Ungleichung
δ P (2) f
≤ c P (2) δ (f )
von Lemma 11.2 der Vorlesung und setzt ein weiteres Mal die Definition des Kontraktionskoeffizienten ein, gelangt man schließlich zu der gewünschten Behauptung:
(1)
(1) c(P (1) P (2) ) ≤ sup sup δ P (2) f Px· − Py· x,y∈S f : δ(f )≤1
≤
sup
sup
x,y∈S f : δ(f )≤1
(1)
(1) c P (2) δ (f ) Px· − Py· (1)
(1) (2)
sup Px· − Py· ≤ c P
x,y∈S
= c P (1) c P (2) .
Aufgabe 29 (9 Punkte)
(X0 , X1 , . . .) sei eine zeitlich inhomogene Markovkette mit Zustandsraum S = {0, 1} und Übergangsmatrizen
!
1
1
1
−
2
2
n
n
P (n) =
, n = 1, 2, 3, . . .
1
1
1
−
2
n
n2
Zeigen Sie:
50
a) Hat X0 die Verteilung µ =
1 1
2, 2
, so gilt für alle n ∈ IN
IP (Xn = 0) = IP (Xn = 1) =
1
.
2
b) Für jede Startverteilung ν von X0 gilt


\ [
IP 
{Xm 6= Xm+1 } = 0 .
n≥1 m≥n
Hinweis: Lemma von Borel–Cantelli.
c) Falls X0 ≡ 1 ist, gilt
1
.
2
lim IP (Xn = 0) >
n→∞
Insbesondere konvergiert die Verteilung von Xn nicht gegen
1 1
2, 2
Hinweis: Diagonalisieren Sie die Matrizen P (n) .
.
Lösung zu Aufgabe 29
(0) (0)
(0) (0)
Wir bezeichnen im folgenden allgemein mit µ(0) = (µ1 , µ2 ) bzw. ν (0) = (ν1 , ν2 ) die Startvertei(n)
(n)
(n)
(n)
lung der Markovkette, d.h. die Verteilung von X0 , und mit µ(n) = (µ1 , µ2 ) bzw. ν (n) = (ν1 , ν2 )
die Verteilung von Xn .
a) Es ist zu zeigen, daß aus µ(0) = 12 , 12 für alle n ∈ IN die Identität µ(n) = 21 , 12 folgt. Dies
zeigt man z.B. durch Induktion über n. Der Induktionsanfang für n = 0 ist klar, und wenn
die Behauptung für n − 1 gilt, so folgt sie auch für n:
!
1
1
1
1 1
1
1
−
2
2
(n)
(n−1) (n)
n
n
,
,
.
=
µ
= µ
P
=
1
2 2
2 2
1 − n12
n2
b) Das Lemma von Borel–Cantelli besagt, daß für eine beliebige Folge (An )n≥1 von Ereignissen
auf einem Wahrscheinlichkeitsraum (Ω, A, IP) die Implikation


∞
\ [
X
Am  = 0
IP(An ) < ∞
⇒
IP 
n=1
n≥1 m≥n
gilt.
Wenden wir diese Aussage auf die Ereignisse
An := {Xn 6= Xn+1 }
,
(0)
n = 1, 2, 3, . . . ,
(0)
an, so ist bei beliebiger Startverteilung ν (0) = (ν1 , ν2 ) wegen
IP (An ) = IP (Xn 6= Xn+1 )
= IP (Xn = 0, Xn+1 = 1) + IP (Xn = 1, Xn+1 = 0)
= IP (Xn+1 = 1|Xn = 0) IP (Xn = 0) + IP (Xn+1 = 0|Xn = 1) IP (Xn = 1)
|
{z
}|
{z
}
{z
}|
{z
}
|
=
=
1
(n+1)2
(n)
=ν1
h
i
1
(n)
(n)
ν
+
ν
=
1
2
(n + 1)2
51
1
(n + 1)2
=
1
(n+1)2
(n)
=ν2
die Bedingung
∞
X
∞
X
IP(An ) =
n=1
n=1
∞
X
IP (Xn 6= Xn+1 ) =
n=1
1
(n + 1)2
< ∞
des Lemmas von Borel–Cantelli erfüllt, und wir erhalten die zu zeigende Behauptung:


\ [
IP 
{Xm 6= Xm+1 } = 0 .
n≥1 m≥n
c) Im folgenden gelte X0 ≡ 1, d.h. µ(0) = (0, 1). Daraus erhält man unmittelbar durch Multiplikation mit P (n)
3 1
(1)
(1)
(1)
(2)
,
µ
=
µ1 , µ2
= (1, 0)
und
µ
=
,
4 4
d.h. für die ersten Glieder X1 , X2 der Markovkette gilt IP (Xn = 0) > 12 .
Ferner liefert eine elementare Rechnung, daß die Matrix
P̃
(n)
2
= n P
(n)
n2 − 1
1
2
1
n −1
=
!
1 zum Eigenwert n2 und den Eigenvektor −1
zum Eigenwert n2 − 2
o
n
1 . Damit ergibt sich
besitzt, also die Orthonormalbasis von Eigenvektoren √12 11 , √12 −1
den Eigenvektor
1
1
für die Matrix P (n) die Basistransformation
!
!
2
1
1
1
1
1
n
0
√
P (n) = √
2
2
n
1 −1
0 n −2
2
2
|
{z
} |
{z
} |
=: A
=: D (n)
mit der zu P (n) gehörigen Diagonalgestalt
D
(n)
=
n2
0
0 n2 − 2
1
n2
!
!
1
1
1 −1
{z
}
= A−1
1
0
0 1 − n22
=
,
!
.
Schreiben wir
cN
:=
N Y
n=2
2
1− 2
n
bzw.
c :=
lim cN
N →∞
=
∞ Y
n=2
2
1− 2
n
für das Produkt der relevanten Einträge von D (n) bzw. für ihren Grenzwert, so ergibt sich für
das Produkt der Matrizen P (n) die folgende Darstellung:
P (2) · P (3) · . . . · P (N ) = AD (2) A−1 · AD (3) A−1 · . . . · AD (N ) A−1 = AD (2) . . . D(N ) A−1


1
0
N
 A−1
Q
= A
0
1 − n22
n=2
=
=
1
√
2
1
1
1 −1
1+cN
2
1−cN
2
!
1−cN
2
1+cN
2
52
1 0
0 cN
!
.
!
1
√
2
1
1
1 −1
!
Ausgehend von µ(1) =
berechnen zu
µ
(N )
= µ
(1)
P
(2)
·P
(1)
(1)
µ1 , µ2
= (1, 0) läßt sich damit die Verteilung µ(N ) von XN
(3)
· ... · P
(N )
1+cN
2
1−cN
2
= (1, 0)
1−cN
2
1+cN
2
!
=
=
1+c
2
1 + cN 1 − cN
,
2
2
,
also
lim IP (XN = 0) =
N →∞
(N )
lim µ1
N →∞
=
1 + cN
N →∞
2
lim
>
1
,
2
da nach Aussagen der Vorlesung c > 0 gilt.
Aufgabe 30 (6 Punkte)
Sei P eine Übergangsmatrix auf einer endlichen Menge S mit c(P ) < 1. Zeigen Sie:
a) Für je zwei Wahrscheinlichkeitsverteilungen µ und ν auf S gilt
lim sup
n→∞
1
log kµP n − νP n k < 0 ,
n
d.h. kµP n − νP n k geht exponentiell schnell gegen 0.
b) Es gibt eine invariante Verteilung zu P , und diese ist eindeutig.
Hinweis: Verwenden Sie das Cauchy–Kriterium zum Nachweis der Existenz.
Lösung zu Aufgabe 30
Es sei P eine Übergangsmatrix auf einer endlichen Menge S mit c(P ) < 1.
a) Für zwei Wahrscheinlichkeitsverteilungen µ und ν auf S gilt nach dem Kontraktionslemma 11.2
kµP − νP k ≤ c(P ) kµ − νk
und durch n–faches Iterieren dieser Abschätzung
kµP n − νP n k ≤ c(P )n kµ − νk ≤ c(P )n
für alle n ∈ IN
(die Variationsnorm ist stets ≤ 1). Folglich ist wegen c(P ) < 1
1
≤ log (c(P )) < 0
log kµP n − νP n k = log kµP n − νP n k1/n
n
für alle n ∈ IN und somit
1
lim sup log kµP n − νP n k < 0 .
n→∞ n
Für hinreichend großes n gilt also mit einem ε > 0
1
log kµP n − νP n k ≤ −ε ,
n
also
kµP n − νP n k ≤ e−nε
d.h. kµP n − νP n k geht exponentiell schnell gegen 0.
53
n→∞
−→
0,
b) Zum Nachweis der Existenz einer invarianten Verteilung zu P zeigen wir zunächst, daß die Folge (µP n )n≥1 der Verteilungen nach n Iterationsstufen eine Cauchy–Folge im Raum der Wahrscheinlichkeitsverteilungen auf S, versehen mit der Variationsnorm, ist. Dies sieht man z.B.
daran, daß sich die Differenz kµP n − νP m+n k nach dem Kontraktionslemma 11.2 abschätzen
läßt durch
n
µP − νP m+n = k(µ − µP m ) P n k ≤ c(P )n kµ − µP m k ≤ c(P )n
(die Variationsnorm ist stets ≤ 1) und daß die obere Schranke wegen c(P ) < 1 für n →
∞ gegen 0 strebt. Folglich besitzt nach dem Cauchy–Kriterium die Folge (µP n )n≥1 einen
Grenzwert, nämlich eine Wahrscheinlichkeitsverteilung auf S, die wir π nennen:
π :=
lim µP n .
n→∞
Wegen
πP
ist π invariant für P .
=
lim µP n P
n→∞
=
lim µP n+1 = π
n→∞
Zum Nachweis der Eindeutigkeit nehmen wir an, daß es zwei invariante Verteilungen π1 und
π2 von P gibt. Für diese gilt π1 = π1 P n bzw. π2 = π2 P n für alle n ∈ IN, und nach a) folgt
kπ1 − π2 k = kπ1 P n − π2 P n k
n→∞
−→
0,
d.h. es ist π1 = π2 .
Aufgabe 31 (7 Punkte)
Zu I := {(i, j) | 0 ≤ i, j ≤ K}
6
K •
•
.. •
.
•
1 •
0 •
0
•
•
•
•
•
•
1
•
•
•
•
•
•
•
•
•
•
•
•
...
•
•
•
•
•
•
•
•
•
•
•
•K
(K > 0 fest) sei S = {1, . . . , q}I die Menge der Bilder mit q Farben auf den Rasterpunkten I“.
”
U : S → IR sei eine reelle Funktion, und P (β) bezeichne die Übergangsmatrix des Gibbs–Samplers
zur Boltzmann–Verteilung π (β) mit
π (β) (x) =
1 −βU (x)
e
Zβ
(x ∈ S) ,
Zβ =
X
e−βU (x) .
x∈S
a) Geben Sie den Gibbs–Sampler zu π (β) explizit an.
(β)
b) Berechnen Sie den Grenzwert für β → ∞ von einem Eintrag Pxy der Übergangsmatrix für
den Fall, daß sich x und y in genau einem Rasterpunkt v unterscheiden.
54
Lösung zu Aufgabe 31
Zu dem Gitterausschnitt I := {(i, j) | 0 ≤ i, j ≤ K}
6
K •
•
.. •
.
•
1 •
0 •
0
•
•
•
•
•
•
1
•
•
•
•
•
•
•
•
•
•
•
•
...
•
•
•
•
•
•
•
•
•
•
•
•K
(auch als Graph interpretierbar) betrachten wir die Menge
S = {1, . . . , q}I
= {x : I → {1, . . . , q} }
der Bilder mit q Farben auf den Rasterpunkten I“, im folgenden auch Konfigurationen genannt.
”
Man beachte die Analogie zu den q–Färbungen eines Graphen, nur daß jetzt keine Bedingungen an
eine zulässige“ Färbung gestellt werden.
”
Ziel der Aufgabe ist es, für bekanntes U : S → IR den Gibbs–Sampler zur Boltzmann–Verteilung
π (β) mit
X
1 −βU (x)
e
(x ∈ S) ,
Zβ =
e−βU (x) ,
π (β) (x) =
Zβ
x∈S
zu untersuchen. Dieser simuliert eine Markovkette (Xn )n≥0 zur Approximation von π (β) und definiert den Übergang von Xn nach Xn+1 durch die Vorschrift
1. Wähle gleichverteilt ein v ∈ I.
2. Wähle Xn+1 (v) nach der bedingten Verteilung von π (β) gegeben die Werte Xn (w) für w ∈
I \ {v}.
3. Setze Xn+1 (w) := Xn (w) für alle w ∈ V \ {v}.
Die Übergangsmatrix dieses Gibbs–Samplers bezeichnen wir im folgenden mit P (β) , ihre Einträge
(β)
mit Px,y (x, y ∈ S). Ferner sei X eine Zufallsvariable auf einem (für uns uninteressanten) Wahrscheinlichkeitsraum (Ω, A, IP) mit Verteilung π (β) :
X : (Ω, A, IP) →
S, P(S), π (β) .
Schließlich schreiben wir zu einer Konfiguration x ∈ S und einem festen Punkt v ∈ I
x∗ := x
I\{v}
für die Restriktion von x auf I \ {v} und
(
x∗ (w) , w =
6 v
x∗v,j (w) :=
j
, w=v
,
w∈S ,
für die q möglichen Fortsetzungen von x∗ in dem Punkt v (eine davon stimmt mit dem ursprünglichen x überein).
55
(β)
a) Um den Eintrag Px,y der Übergangsmatrix P (β) dieses Gibbs–Samplers zu bestimmen, berechnen wir zunächst für ein festes v ∈ I und eine Konfiguration x∗ ∈ {1, . . . , q}I\{v} die in
Schritt 2 des Gibbs–Samplers benötigte Übergangswahrscheinlichkeit, daß im Punkt v der
Wert j0 ∈ {1, . . . , q} angenommen wird:
IP(X(v) = j0 | X(w) = x∗ (w) ∀ w 6= v)
=
=
IP(X(v) = j0 , X(w) = x∗ (w) ∀ w 6= v)
IP(X(w) = x∗ (w) ∀ w 6= v)
π (β) (x∗v,j0 )
q
P
π (β) (x∗v,j )
−βU (x∗v,j )
=
j=1
e
q
P
0
1
=
q
P
∗
e−βU (xv,j )
j=1
(β)
h
i
−β U (x∗v,j )−U (x∗v,j )
e
0
j=1
Damit gilt für die Wahrscheinlichkeit Pxy , daß der Gibbs–Sampler zu π (β) von einer Konfiguration x in eine Konfiguration y übergeht:

0
, falls sich x und y in mehr als einem Punkt un




terscheiden,


1
1

,
falls
sich x und y in genau einem Punkt v ∈ I
·
q
(β)
P −β [U (x∗v,j )−U (y)]
|I|
Pxy
=
e
unterscheiden,


P 1 j=1


1

,
im
Fall x = y.
·
q

∗

 v∈I |I| P e−β [U (xv,j )−U (x)]
j=1
b) Seien nun x und y zwei Konfigurationen, die sich in genau einem Punkt v ∈ I unterscheiden.
(β)
Es gelte y(v) = j0 , d.h. mit der oben eingeführten Notation ist y = x∗v,j0 . Der Eintrag Pxy
1
wird bis auf den Faktor |I|
durch die bedingte Wahrscheinlichkeit aus a) bestimmt, die wir
im folgenden weiter umformen, mit dem Ziel, ihre Asymptotik für β → ∞ zu untersuchen.
Hierzu bezeichnen wir mit
Lx∗ ,v := {x∗v,j | j = 1, . . . , q}
,
|Lx∗ ,v | = q ,
die Menge der möglichen Fortsetzungen von x∗ im Punkt v ∈ I und mit
Mv,y := {j ∈ {1, . . . , q} | U (x∗v,j ) = U (y)}
die Menge aller derartigen Fortsetzungen, auf denen die Funktion U denselben Wert annimmt
wie in y. Damit ergibt sich
IP(X(v) = j0 | X(w) = x∗ (w) ∀ w 6= v) =
1
q
P
e−β [U (xv,j )−U (y)]
∗
j=1
1
=
|Mv,y | +
P
β [U (y)−U (x∗v,j )]
e
P
+
e−β [U (xv,j )−U (y)]
∗
,
j:U (x∗v,j )>U (y)
j:U (x∗v,j )<U (y)
wobei beim Grenzübergang β → ∞ der Ausdruck |Mv,y | nicht berührt wird und für die
anderen beiden Terme gilt:
X
∗
β→∞
eβ [U (y)−U (xv,j )] −→ ∞ ,
j:U (x∗v,j )<U (y)
X
e−β [U (xv,j )−U (y)]
∗
j:U (x∗v,j )>U (y)
56
β→∞
−→
0
(man beachte, daß die Ausdrücke [U (y) − U (x∗v,j )] bzw. [U (x∗v,j ) − U (y)] nach Konstruktion jeweils positiv sind). Die zu den Indizes j mit U (x∗v,j ) > U (y) gehörigen Terme verschwinden also beim Grenzübergang auf jeden Fall, und es kommt lediglich darauf an, ob
noch Indizes j mit U (x∗v,j ) < U (y) vorhanden sind. Mit anderen Worten: Der Grenzwert der
Übergangswahrscheinlichkeit hängt davon ab, ob y eine Minimalstelle von U auf der Menge
Lx∗ ,v ist, oder nicht:


0 , ∃ j ∈ {1, . . . , q} : U (x∗v,j ) < U (y)



β→∞
IP(X(v) = j0 | X(w) = x∗ (w) ∀ w 6= v) −→
1
∗


|Mv,y | , U (y) = min{U (xv,j ) | j = 1, . . . , q}


= min{U (z) | z ∈ Lx∗ ,v }
Der Grenzwert der bedingten Verteilung IP(X(v) = · | X(w) = x∗ (w) ∀ w 6= v) ist also die
Gleichverteilung auf der Menge der Minima von U auf Lx∗ ,v , und wir erhalten insgesamt:


0
, ∃ j ∈ {1, . . . , q} : U (x∗v,j ) < U (y) ,
(∞)
Pxy
=
1

U (y) = min{U (z) | z ∈ Lx∗ ,v } .
|I|·|Mv,y | ,
Aufgabe 32 (2 Punkte)
Es seien S = {s1 , s2 , . . .} eine abzählbare Menge und P bzw. Q Übergangskerne auf S, d.h. es gelten
Pi,j ≥ 0 bzw. Qi,j ≥ 0 ∀ i, j ∈ IN ,
∞
X
und
Pi,j =
∞
X
Qi,j = 1
j=1
j=1
∀ i ∈ IN .
Das Produkt P Q ist gegeben durch
(P Q)i,j :=
∞
X
Pi,k Qk,j .
k=1
Zeigen Sie, daß P Q wieder ein Übergangskern auf S ist.
Lösung zu Aufgabe 32
Offensichtlich gilt (P Q)i,j ≥ 0 für alle i, j ∈ IN. Der Nachweis der Summationseigenschaft erfolgt
durch direkte Rechnung:
∞
X
j=1
(P Q)i,j =
∞ X
∞
X
j=1 k=1
Pi,k Qk,j
=
∞
X
Pi,k
∞
X
Qk,j
j=1
k=1
| {z }
=
∞
X
Pi,k
k=1
= 1 ∀ k∈IN
Aufgabe 33 (5 Punkte)
Es seien S = IN und 0 < p < 21 . Der Übergangskern P sei gegeben durch


, j =i+1 ,
 p
Pi,j :=
1 − p , j = i − 1, i > 0 ∨ i = j = 0 ,

 0
, sonst.
57
= 1 ∀ i ∈ IN .
a) Berechnen Sie P 2 .
b) Gibt es eine invariante Wahrscheinlichkeitsverteilung π zu P , d.h. einen (unendlichen) Vektor
π = (π0 , π1 , π2 , . . .) mit nichtnegativen Komponenten,
∞
X
πi = 1
i=0
und
πj =
∞
X
πi Pij
∀ j ∈ IN0 ?
i=0
Wenn ja, berechnen Sie π.
Lösung zu Aufgabe 33
a) Um P 2 zu berechnen, kann man die Definition von P in die Formel
P2
=
i,j
∞
X
Pik Pkj
k=0
einsetzen und diverse Fallunterscheidungen vornehmen. Oder man schreibt P als unendliche
”
Matrix“


1−p
p
0
0
0
0
0 ...


0
p
0
0
0
0 ... 
 1−p


 0
1−p
0
p
0
0
0 ... 


 0
0
1−p
0
p
0
0 ... 


P = (Pi,j )i,j≥0 =  0

0
0
1
−
p
0
p
0
.
.
.




 0
0
0
0
1−p
0
p ... 


 0

0
0
0
0
1
−
p
0
.
.
.


..
..
..
..
..
..
..
.
.
.
.
.
.
.
und erhält durch Multiplikation von zwei solchen Matrizen

1 − p p(1 − p)
p2
0
0
0
0

2
2
0
p
0
0
0
 (1 − p) 2p(1 − p)

2
 (1 − p)2
0
2p(1 − p)
0
p
0
0

2
2

0
(1
−
p)
0
2p(1
−
p)
0
p
0

2
Pi,j
=

2
i,j≥0
0
0
(1 − p)
0
2p(1 − p)
0
p2



0
0
0
(1 − p)2
0
2p(1 − p)
0

2

0
0
0
0
(1 − p)
0
2p(1 − p)

..
..
..
..
..
..
..
.
.
.
.
.
.
.
oder anders ausgedrückt
P2
i,j

p2





2p(1 − p)


 (1 − p)2
=

1−p




p(1 − p)



0
58
,
,
,
,
,
,
j =i+2 ,
j=i>0,
j = i − 2 ∨ j = 0, i = 1 ,
j=i=0,
j = 1, i = 0 ,
sonst.
...
...
...
...
...
...
...















b) Zur Berechnung einer invarianten Verteilung π = (π0 , π1 , π2 , . . .) von P machen wir wie
in Beispiel 6.3 der Vorlesung (Geburts– und Todesprozeß) bzw. wie in Aufgabe 12 einen
reversiblen Ansatz:
!
πi Pi,j = πj Pj,i .
Mit P0,0 = 1 − p, P10 = P21 = P32 = . . . = 1 − p und P01 = P12 = P23 = . . . = p ergeben sich
π1 =
P0,1
π0 =
P1,0
p
π0
1−p
,
P1,2
π1 =
P2,1
π2 =
P1,2 P0,1
π0 =
P2,1 P1,0
p
1−p
und allgemein
πi =
i−1
Y
Pl,l+1
l=0
Pl+1,l
π0 =
p
1−p
i
π0 .
Die Normierung auf Komponentensumme 1 führt zu der Bedingung
∞
X
πi
i=0
i
∞ X
p
!
= π0
=1
1−p
i=0
und mit
i
∞ X
p
=
1−p
i=0
1
p
1 − 1−p
=
1−p
1 − 2p
zu
π0 =
1 − 2p
.
1−p
Insgesamt ergibt sich die reversible, also invariante Verteilung
π = (π0 , π1 , π2 , π3 , . . .) =
1 − 2p
1−p
59
p
1,
,
1−p
p
1−p
!
2 3
p
,
,... .
1−p
2
π0
Herunterladen