1.Teil

1
Markoff-Ketten
1.1
Definition und Beispiele
In der Stochastik haben wir uns hauptsächlich mit unabhängigen Ereignissen und
unabhängigen Zufallsgrößen beschäftigt. Andrej Andrejewitsch Markoff (1856–1922)
hat erstmalig in einer Arbeit 1906 Zufallsexperimente analysiert, bei denen die einfachste Verallgemeinerung der unabhängigen Versuchsfolge betrachtet wurde. Man
spricht bei diesen Versuchsfolgen heute von Markoff-Ketten. Wir werden sehen,
dass sehr viele Modelle Markoff-Ketten sind. Man kann sie anschaulich wie folgt
beschreiben: Ein Teilchen bewegt sich in diskreter Zeit auf einer höchstens abzählbaren Menge I. Befindet es sich auf einem Platz i ∈ I, so wechselt es mit gewissen
Wahrscheinlichkeiten (die von i abhängen) zu einem anderen Platz j ∈ I. Diese
Übergangswahrscheinlichkeiten hängen aber nicht weiter von der ,,Vorgeschichte“
ab, das heißt von dem Weg, auf dem das Teilchen zum Platz i gekommen ist.
Definition 1.1 Es sei I eine nichtleere, höchstens abzählbare Menge. Eine Matrix
IP = (pij )i,j∈I heißt
P stochastische Matrix (stochastic matrix), wenn pij ∈ [0, 1] für alle i, j ∈ I und j∈I pij = 1 für alle i ∈ I gelten. Die Komponenten pij heißen Übergangswahrscheinlichkeiten (transition probabilities). Eine stochastische Matrix wird
im Zusammenhang mit Markoff-Ketten auch Übergangsmatrix (transition matrix)
genannt. Eine auf einem Grundraum (Ω, F, P ) definierte Zufallsgröße X : Ω → I
nennt man I-wertige Zufallsgröße.
Definition 1.2 Eine endlich oder unendlich lange Folge X0 , X1 , X2 , . . . I-wertiger
Zufallsgrößen heißt (zeitlich homogene, time homogeneous) Markoff-Kette (Markov
chain) mit stochastischer Matrix IP, wenn für alle n ≥ 0 und alle i0 , i1 , . . . , in , in+1 ∈
I mit P (X0 = i0 , . . . , Xn = in ) > 0
P ( Xn+1 = in+1 | X0 = i0 , X1 = i1 , . . . , Xn = in ) = pin in+1
gilt.
Die Startverteilung (initial distribution) ν einer Markoff-Kette ist definiert durch
ν(i) = P (X0 = i) für alle i ∈ I. Oft schreibt man Pν , um die Startverteilung zu
betonen. Ist die Startverteilung auf einen Punkt konzentriert, d. h. gilt ν(i) = 1 für
ein i ∈ I, so schreiben wir meist Pi anstelle von Pν .
Satz 1.3 Sei {Xn }n∈IN0 eine Markoff-Kette mit Startverteilung ν.
a) Für alle n ∈ IN0 und i0 , i1 , . . . , in ∈ I gilt
P (X0 = i0 , X1 = i1 , . . . , Xn = in ) = ν(i0 )pi0 i1 pi1 i2 . . . pin−1 in .
1
b) Es seien n < m und in ∈ I sowie A ⊂ I {0,1,...,n−1} und B ⊂ I {n+1,...,m} . Falls
P ((X0 , X1 , . . . , Xn−1 ) ∈ A, Xn = in ) > 0 ist, so gilt
P ( (Xn+1 , . . . , Xm ) ∈ B | (X0 , . . . , Xn−1 ) ∈ A, Xn = in )
= P ( (Xn+1 , . . . , Xm ) ∈ B | Xn = in ).
Beweis. (a) folgt durch Induktion nach n: Definitionsgemäß gilt die Behauptung
für n = 0. Gelte die Behauptung für ein n ∈ IN0 und seien i0 , i1 , . . . , in+1 ∈ I. Ist
P (X0 = i0 , . . . , Xn = in ) = 0, so gilt die behauptete Formel ebenfalls für n + 1: Ist
P (X0 = i0 , . . . , Xn = in ) > 0, so folgt aus Definition 4.2
P (X0 = i0 , . . . , Xn = in , Xn+1 = in+1 ) = P (Xn+1 = in+1 | X0 = i0 , . . . , Xn = in )
×P (X0 = i0 , . . . , Xn = in )
= ν(i0 )pi0 i1 . . . pin−1 in pin in+1 .
(b) Sei P ((X0 , X1 , . . . , Xn−1 ) ∈ A, Xn = in ) > 0. Mit der Definition der bedingten
Wahrscheinlichkeit und Teil (a) folgt
P ( (Xn+1 , . . . , Xm ) ∈ B | (X0 , . . . , Xn−1 ) ∈ A, Xn = in )
P ( (Xn+1 , . . . , Xm ) ∈ B, Xn = in , (X0 , . . . , Xn−1 ) ∈ A )
=
P ( (X0 , . . . , Xn−1 ) ∈ A, Xn = in )
P
P
(in+1 ,...,im )∈B
(i0 ,...,in−1 )∈A ν(i0 )pi0 i1 . . . pim−1 im
P
=
(i0 ,...,in−1 )∈A ν(i0 )pi0 i1 . . . pin−1 in
X
=
pin in+1 pin+1 in+2 . . . pim−1 im .
(in+1 ,...,im )∈B
Dieser Ausdruck hängt nicht von A ab, insbesondere führt also die obige Rechnung
für A = I {0,1,...,n−1} zum gleichen Resultat. Aber für A = I {0,1,...,n−1} gilt die in (b)
behauptete Formel.
2
Bemerkung 1.4 Die Aussage von (b) heißt Markoff-Eigenschaft (Markov property). Sie spiegelt genau die eingangs erwähnte Eigenschaft wieder, daß in einer MarkoffKette die Wahrscheinlichkeit, zur Zeit n+1 in einen beliebigen Zustand zu gelangen,
nur vom Zustand zur Zeit n abhängt, aber nicht davon, in welchem Zustand die Kette früher war. Nicht jede Folge von I-wertigen Zufallsgrößen mit dieser Eigenschaft
ist eine homogene Markoff-Kette in unserem Sinn: Die Übergangswahrscheinlichkeiten können nämlich noch von der Zeit abhängen. Genauer: Sei X0 , X1 , . . . eine Folge
I-wertiger Zufallsgrößen, die die Eigenschaft aus Satz 4.3 b) hat. Dann existiert eine
Folge {IPn }n∈IN0 von stochastischen Matrizen IPn = (pn (i, j))i,j∈I mit
P (X0 = i0 , . . . , Xn = in ) = ν(i0 )p0 (i0 , i1 ) . . . pn−1 (in−1 , in )
für alle n ∈ IN0 und i0 , . . . , in ∈ I. Der Beweis sei dem Leser überlassen. Man
spricht dann von einer (zeitlich) inhomogenen Markoff-Kette. Wir werden jedoch nur
(zeitlich) homogene Ketten betrachten, ohne dies jedesmal besonders zu betonen.
2
Satz 1.5 Es seien IP = (pij )i,j∈I eine stochastische Matrix, ν eine Verteilung auf
I und N ∈ IN0 . Dann gibt es eine abzählbare Menge Ω, eine Wahrscheinlichkeitsverteilung p auf Ω und Abbildungen Xi : Ω → I für alle i ∈ {0, 1, . . . , N }, so dass
X0 , . . . , XN eine homogene Markoff-Kette mit Startverteilung ν und Übergangsmatrix IP ist.
Beweis. Es sei Ω := I {0,...,N } und p(i0 , . . . , iN ) := ν(i0 )pi0 i1 . . . piN −1 iN sowie Xn (i0 , . . . , iN ) =
in für alle n ∈ {0, 1, . . . , N } und (i0 , . . . , iN ) ∈ Ω. Da die Summe der Komponenten der stochastischen Matrix IP in jeder Zeile gleich eins ist, gilt für alle n ∈
{0, 1, . . . , N } und (i0 , . . . , in ) ∈ I {0,...,n}
X
P (X0 = i0 , . . . , Xn = in ) =
P (X0 = i0 , . . . , XN = iN )
(in+1 ,...,iN )∈I {n+1,...,N }
=
X
(in+1 ,...,iN
ν(i0 )pi0 i1 . . . piN −1 iN
)∈I {n+1,...,N }
= ν(i0 )pi0 i1 . . . pin−1 in .
Dieses Produkt ist größer als Null genau dann, wenn jeder Faktor größer als Null
ist. Ist dies der Fall, so ist offenbar
P ( Xn+1 = in+1 | X0 = i0 , . . . , Xn = in ) = pin in+1 .
2
Bemerkung. Nachfolgend soll stets von einer unendlich langen Markoff-Kette ausgegangen werden, dies jedoch nur wegen einer bequemeren Notation. Alle nachfolgenden Überlegungen benötigen die Konstruktion einer unendlichen Markoff-Kette
nicht, sondern kommen damit aus, dass für jedes N eine Kette gemäß Satz 4.5 konstruiert werden kann.
Beispiel 1.6
a) Sei pij = qj für alle i, j ∈ I, wobei
P
j∈I
qj = 1 ist. Dann gilt
P (X0 = i0 , X1 = i1 , . . . , Xn = in ) = ν(i0 )qi1 . . . qin .
Man sieht leicht, dass qj = P (Xm = j) für m ≥ 1 ist. Somit gilt
P (X0 = i0 , . . . , Xn = in ) = P (X0 = i0 )P (X1 = i1 ) . . . P (Xn = in ),
d. h., die X0 , X1 , . . . , Xn sind unabhängig. Satz 4.5 liefert also als Spezialfall
die Konstruktion von unabhängigen, I-wertigen Zufallsgrößen.
b) Irrfahrt auf Z: Es sei Y1 , Y2 , . . . eine Folge unabhängiger, {1, −1}-wertiger Zufallsgrößen mit P (Yj = P
1) = p und P (Yj = −1) = 1 − p, wobei p ∈ [0, 1] ist.
Sei X0 := 0 und Xn := nj=1 Yj für n ≥ 1. Dann ist X0 , X1 , . . . eine MarkoffKette auf Z. Die Übergangsmatrix IP = (pij )i,j∈Z ist durch pi,i+1 = p und
pi,i−1 = 1 − p eindeutig festgelegt, und die Startverteilung ist in 0 konzentriert.
3
c) Symmetrische Irrfahrt auf Zd : Hier ist I = Zd und p(i1 ,...,id ),(j1 ,...,jd ) = 1/(2d),
falls ik = jk für alle bis auf genau ein k ∈ {1, 2, . . . , d}, für das |ik − jk | = 1 ist.
Alle anderen Übergangswahrscheinlichkeiten müssen dann gleich Null sein.
d) Ehrenfests Modell der Wärmebewegung: Es seien n Kugeln auf zwei Schachteln verteilt. Zu einem bestimmten Zeitpunkt seien r Kugeln in der rechten
Schachtel und l := n − r in der linken. Mit Wahrscheinlichkeit 1/2 tun wir
nun überhaupt nichts (dass diese auf den ersten Blick unsinnige Annahme begründet ist, werden wir zu einem späteren erkennen). Im anderen Fall wird
mit Wahrscheinlichkeit 1/2 eine der n Kugeln nun zufällig ausgewählt, wobei
jede dieselbe Chance hat, und in die andere Schachtel gelegt. Wir können für
I die Anzahl der Kugeln in der rechten Schachtel nehmen, also I = {0, . . . , n}.
Die Übergangswahrscheinlichkeiten sind gegeben durch
pr,r−1 = r/2n, r ∈ {1, 2, . . . , n},
pr,r+1 = 1/2 − r/2n, r ∈ {0, 1, . . . , n − 1}.
e) Polyas Urnenschema: In einer Urne liegen rote und schwarze Kugeln. Eine wird
zufällig gezogen und zusammen mit einer neuen gleicher Farbe zurückgelegt.
Hier ist I = { (r, s) | r, s ∈ IN } sowie p(r,s),(r+1,s) = r/(r + s) und p(r,s),(r,s+1) =
s/(r + s) für alle r, s ∈ IN.
f) Galton-Watson-Prozess: Sei (qj )j∈IN0 die Verteilung der Anzahl der Nachkommen eines Individuums. I ist gleich IN0 , und für jedes i ∈ IN ist der i-te
Zeilenvektor (pij )j∈IN0 der stochastischen Matrix IP gerade die i-fache Faltung
der Verteilung (qj )j∈IN0 . Für i = 0 gilt p0j = 1, falls j = 0 ist, und p0j = 0,
falls j ≥ 1 ist.
g) Irrfahrt auf I = {0, . . . , n} mit Absorption ( random walk with absorbing
barriers): 0 und n seien absorbierend, also p00 = 1 und pnn = 1. Für i ∈
{1, 2, . . . , n − 1} geschehe ein Schritt nach rechts mit Wahrscheinlichkeit p ∈
(0, 1) und ein Schritt nach links mit Wahrscheinlichkeit q := 1−p, also pi,i+1 =
p und pi,i−1 = q. Die stochastische Matrix hat somit die Form


1 0 0

 q 0 p




.
.
.
.
.
.
IP = 
.
.
.
.



q
0 p 
0 0 1
h) Irrfahrt mit Reflexion (reflecting barriers): Das gleiche Modell wie in Beispiel
(e) mit der änderung, dass p01 = pn,n−1 = 1 sein soll.
i) Wettervorhersage: Wenn wir annehmen, dass die Wahrscheinlichkeit für Regen
am folgenden Tag nur von Bedingungen von heute abhängt und unbeeinflusst
ist vom Wetter der vergangenen Tage, so liefert dies eine ganz einfache MarkoffKette. Ist α die Wahrscheinlichkeit, dass es morgen regnet, wenn es heute
4
geregnet hat, und β die Wahrscheinlichkeit, dass es morgen regnet, wenn es
heute nicht geregnet hat, so hat die stochastische Matrix die Form
α 1−α
IP =
.
β 1−β
Auf Grund der Vielzahl von Beispielen für Markoff-Ketten könnte man vermuten,
dass Markoff selbst aus angewandten Fragestellungen heraus die Ketten analysiert
hat. Markoff hatte jedoch bei seinen Untersuchungen primär im Sinn, Gesetze der
großen Zahlen und zentrale Grenzwertsätze für die Ketten zu studieren. Er hatte
nur ein Beispiel vor Augen: er analysierte die möglichen Zustände ,,Konsonant“ und
,,Vokal“ bei der Buchstabenfolge des Romans ,,Eugen Onegin“ von Puschkin. Die
Zufallsgröße Xn soll hier den n-ten Buchstaben des Textes angeben.
Eine stochastische Matrix IP = (pij )i,j∈I kann man stets ohne Probleme potenzieren:
(n)
(0)
Für n ∈ IN0 definiert man die n-te Potenz IPn = (pij )i,j∈I rekursiv durch pij = δij
und
X (n)
(n+1)
pik pkj
=
pij
k∈I
n
für alle i, j ∈ I, das heißt, IP ist das n-fache Matrixprodukt von IP mit sich selbst.
Aus der rekursiven Definition folgt, dass IPn selbst eine stochastische Matrix ist. Es
gelten die aus der linearen Algebra bekannten Rechenregeln für Matrizen, insbesondere gilt IPm IPn = IPm+n , das heißt
X (m) (n)
(m+n)
pik pkj = pij
, i, j ∈ I.
k∈I
Diese Gleichungen nennt man auch Chapman-Kolmogoroff-Gleichungen.
(n)
(n)
Definition 1.7 Die Komponenten pij der Übergangsmatrix IPn = (pij )i,j∈I heißen
n-stufige Übergangswahrscheinlichkeiten (n th order transition probabilities).
Bemerkung 1.8 Sei X0 , X1 , X2 , . . . eine Markoff-Kette mit stochastischer Matrix
IP = (pij )i,j∈I . Sind m, n ∈ IN0 und i, j ∈ I mit P (Xm = i) > 0, so gilt
(n)
P (Xm+n = j | Xm = i) = pij .
Beweis. Es gilt
P ( Xm+n = j | Xm = i )
X
=
P ( Xm+1 = im+1 , . . . ,
im+1 ,...,im+n−1 ∈I
Xm+n−1 = im+n−1 , Xm+n = j | Xm = i )
5
und mit der Definition 4.2 folgt
P ( Xm+1 = im+1 , . . . , Xm+n−1 = im+n−1 , Xm+n = j | Xm = i )
= P ( Xm+n = j | Xm = i, Xm+1 = im+1 , . . . , Xm+n−1 = im+n−1 )
n−1
Y
×
P (Xm+k = im+k | Xm = i, Xm+1 = im+1 , . . . , Xm+k−1 = im+k−1 )
k=1
= piim+1 pim+1 im+2 . . . pim+n−1 j .
Somit gilt
P ( Xm+n = j | Xm = i ) =
X
(n)
piim+1 . . . pim+n−1 j = pij .
im+1 ,...,im+n−1 ∈I
2
(m+n)
Lemma 1.9 Für alle m, n ∈ IN0 und i, j, k ∈ I gilt pij
(m) (n)
≥ pik pkj .
Beweis. Dies ergibt sich sofort aus den Chapman-Kolmogoroff-Gleichungen.
2
Lemma 1.10 Es sei X0 , X1 , X2 , . . . eine Markoff-Kette mit Startverteilung ν und
Übergangsmatrix IP. Dann gilt
Pν (Xn = j) =
X
(n)
ν(i)pij
i∈I
für alle n ∈ IN0 und j ∈ I. Ist die Startverteilung ν auf i ∈ I konzentriert, so gilt
(n)
Pi (Xn = j) = pij .
Beweis. Aus Satz 4.3 a) folgt
Pν (Xn = j) =
X
Pν (X0 = i0 , . . . , Xn−1 = in−1 , Xn = j)
i0 ,...,in−1 ∈I
=
X
ν(i0 )pi0 i1 . . . pin−1 j =
i0 ,...,in−1 ∈I
X
(n)
ν(i)pij .
i∈I
2
Definition 1.11 Es sei IP = (pij )i,j∈I eine stochastische Matrix. Man sagt, j ∈ I
sei von i ∈ I aus erreichbar (can be reached from), wenn ein n ∈ IN0 existiert mit
(n)
pij > 0. Notation: i
j.
6
Die in Definition 4.11 definierte Relation auf I ist reflexiv und transitiv. Wegen
(0)
pii = 1 > 0 gilt i
i für alle i ∈ I. Falls i
j und j
k gelten, so gibt es
(m)
(n)
(m+n)
(m) (n)
m, n ∈ IN0 mit pij > 0 und pjk > 0, und dann ist pik
≥ pij pjk > 0 nach
Lemma 4.9.
Die durch i ∼ j ⇔ (i
j und j
i) für alle i, j ∈ I definierte Relation ist offenbar
eine äquivalenzrelation auf I. Wir werden i ∼ j für den Rest dieses Kapitels stets
in diesem Sinne verwenden.
Sind A, B ⊂ I zwei äquivalenzklassen der obigen äquivalenzrelation, so sagen wir,
B ist von A aus erreichbar und schreiben A
B, wenn i ∈ A und j ∈ B existieren
mit i
j. Offensichtlich hängt dies nicht von den gewählten Repräsentanten in A
und B ab.
Definition 1.12 Es sei IP eine stochastische Matrix.
a) Eine Teilmenge I 0 von I heißt abgeschlossen (closed), wenn keine i ∈ I 0 und
j ∈ I \ I 0 existieren mit i
j.
b) Die Matrix IP und auch eine Markoff-Kette mit Übergangsmatrix IP heißen
irreduzibel (irreducible), wenn je zwei Elemente aus I äquivalent sind.
Bemerkung 1.13 Es sei IP = (pij )i,j∈I eine stochastische Matrix.
a) Ist I 0 ⊂ I abgeschlossen, so ist die zu I 0 gehörige Untermatrix IP0 := (pij )i,j∈I 0
eine stochastische Matrix für I 0 .
b) Ist IP irreduzibel, so existieren keine abgeschlossenen echten Teilmengen von
I.
Beispiel 1.14
a) Die symmetrische Irrfahrt auf Zd ist irreduzibel.
b) Polyas Urnenschema: Keine zwei Elemente von I = { (r, s) | r, s ∈ IN } sind
äquivalent. Es gibt aber sehr viele abgeschlossene Teilmengen von I, zum Beispiel ist für jede Wahl von r0 , s0 ∈ IN die Menge { (r, s) | r ≥ r0 , s ≥ s0 }
abgeschlossen.
c) Bei der Irrfahrt auf {0, . . . , n} mit absorbierenden Rändern gibt es drei äquivalenzklassen, nämlich {0}, {1, . . . , n−1} und {n}. Die Mengen {0} und {n} sind
abgeschlossen, und es gelten {1, . . . , n − 1}
{n} und {1, . . . , n − 1}
{0}.
d) Eine symmetrische Irrfahrt auf einem Graphen G ist offenbar genau dann irreduzibel, wenn der Graph zusammenhängend ist. (Ein Graph heißt zusammenhängend, wenn je zwei Knoten über einen endlichen Zug verbunden werden
können.)
7
e) Es sei I = {0, 1, 2} und die stochastische Matrix gegeben durch


1/2 1/2 0
IP =  1/2 1/4 1/4  .
0 1/3 2/3
Dann ist die Markoff-Kette irreduzibel.
f) Es sei I = {0, 1, 2, 3} und die stochastische Matrix gegeben durch


1/2 1/2 0
0
 1/2 1/2 0
0 

IP = 
 1/4 1/4 1/4 1/4  .
0
0
0
1
Dann gibt es drei äquivalenzklassen: {0, 1}, {2} und {3}. Der Wert 0 ist von 2
aus erreichbar, aber nicht umgekehrt. Der Wert 3 hat absorbierendes Verhalten; kein anderer Wert ist von 3 aus erreichbar.
1.2
Der Ergodensatz
Es sei X0 , X1 , X2 , . . . eine Markoff-Kette mit Übergangsmatrix IP = (pij )i,j∈I und
Startverteilung ν. Die wichtigste Frage, die uns für einen Großteils des Kapitels
beschäftigen wird, ist die Diskussion der Verteilung von Xn für große n, also
X
(n)
Pν (Xn = j) =
ν(i)pij , j ∈ I.
i∈I
Zu diesem Zwecke werden wir annehmen, dass der Zustandsraum I endlich ist. Aus
obigen Überlegungen erhält man dann, dass die Frage der asymptotischen Verteilung von Xn äquivalent ist zur Frage, wie sich große Potenzen von stochastischen
Matrizen verhalten. Im dem Falle, in dem I nur aus zwei Elementen besteht, kann
man sich das noch recht leicht überlegen.
Beispiel 1.15 Sei |I| = 2 und
IP =
1−α
α
β
1−β
.
Dann ist für α = β = 0 IPn = Id für jedes n (wobei Id bei uns immer die Identität
bezeichnet, egal auf welchem Raum sie lebt). Im Falle von α = β = 1 ist offenbar
IPn = IP für jedes ungerade n und IPn = Id für alle geraden n.
Im Falle von 0 < α + β < 2 (dem interessanten Fall) diagonalisieren wir IP, um seine
Potenzen zu berechnen. Es ist
IP = RDR−1 ,
8
wobei
R=
und
D=
1
α
1 −β
1
0
0 1−α−β
ist. Daher ist
IPn = RDn R−1 .
Nun konvergiert aber
n
D =
1
0
0 (1 − α − β)n
−→
n→∞
1 0
0 0
π1 π2
π1 π2
.
Eingesetzt ergibt das
n
lim IP = R
n→∞
mit
π1 =
1 0
0 0
R
β
α+β
−1
=
π2 =
,
α
.
α+β
Im allgemeinen, d.h. für |I| > 2 sind wir leider ziemlich schnell am Ende unserer
Weisheit, wenn es um die Berechnung der Eigenwerte von IP und damit um das
Diagonalisieren von IP geht. Die obige Methode taugt also nicht, um allgemein Erkenntnisse über das Langzeitverhalten von Markoff-Ketten zu gewinnen. Der Effekt,
den wir aber im Beispiel 4.15 gesehen haben, dass nämlich die Limesmatrix aus
lauter identischen Zeilen besteht – und das bedeutet, dass die Markoff-Kette asymptotisch ihren Startort “vergißt” – werden wir in dem allgemeinen Limesresultat
wiederfinden. Um dieses zu beweisen, müssen wir zunächst den Begriff der Entropie,
den wir schon in Kapitel 4 und 6 für zweielementige Grundräume kennengelernt
haben, auf größere Räume übertragen.
Definition 1.16 Es sei I eine endliche, mindestens zweielementige Menge und ν, %
seinen Wahrscheinlichkeiten auf I mit %(i) > 0 für alle ı ∈ I. Dann heißt
X
ν(i)
H(ν|%) :=
ν(i) log
%(i)
i∈I
die relative Entropie (relative entropy) von ν bezüglich %. Hierbei setzen wir 0 log 0 =
0.
Wir sammeln ein paar Eigenschaften der Entropiefunktion
9
Proposition 1.17 In der Situation von Definition 4.15 ist H(·|%) positiv und strikt
konvex und es ist H(ν|%) = 0 ⇔ ν = %.
Beweis. Sei die nicht–negative, strikt–konvexe Funktion ψ(t) gegeben durch ψ(t) =
t log t − t + 1 (und wieder ist ψ(t) = 0 ⇔ t = 1). Dann ist
X
ν(i)
ν(i)
ν(i)
H(ν|%) =
%(i)
log
−
+1
%(i)
%(i)
%(i)
i∈I
X
ν(i)
,
=
%(i)ψ
%(i)
i∈I
2
woraus die Behauptungen folgen.
Wir kommen nun zu einem Satz, der das aymptotische Verhalten einer großen Gruppe von Markoff-Ketten klärt. Dieser Satz ist gewissermassen ein Gesetz der großen
Zahlen für Markoff-Ketten; er wird in der Literatur häufig auch als Ergodensatz für
Markoff-Ketten bezeichnet.
Satz 1.18 Ergodensatz (ergodic theorem) Sei IP eine stochastische Matrix über einem endlichen Zustandsraum I und ν irgendeine Anfangsverteilung. Weiter existiere
ein N , so dass IPN nur strikt positive Einträge hat. Dann konvergiert
νIPn →n→∞ %,
wobei % eine Wahrscheinlichkeit auf I ist, die der Gleichung
%IP = %
genügt.
Bemerkung 1.19 Die Bedingung “es existiere ein N , so dass IPN nur strikt positive Einträge hat” impliziert natürlich, dass IP irreduzibel ist (man kann nach
spätestens N Schritten jeden Punkt von jedem anderen aus erreichen). Umgekehrt
ist die Bedingung aber nicht äquivalent zur Irreduzibilität von IP. Beispielsweise ist
die Matrix
0 1
IP =
1 0
irreduzibel, aber natürlich ist keine ihrer Potenzen strikt positiv. Man kann sich
überlegen, dass obige Bedingung äquivalent ist zur Irreduzibilität von IP plus einer weiteren Bedingung, die Aperiodizität von IP heisst. Unter letzterem wollen wir
verstehen, dass der ggT über sämtliche Zeiten, zu denen man mit positiver Wahrscheinlichkeit in den Punkt i zurückkehren kann, wenn man in i gestartet ist, und
über sämtliche Startpunkte i eins ist. Wir werden diese äquivalenz hier nicht beweisen und nur bemerken, dass irreduzible und aperiodische Markoff-Ketten manchmal
auch ergodisch (ergodic) heißen.
10
Satz 4.18 enthält offenbar unter anderem eine unbewiesene Existenzaussage. Diese
werden wir getrennt beweisen. Wir zeigen also zunächst, dass es eine Wahrscheinlichkeit % mit
%IP = %
gibt. Die Existenz eines beliebigen %, das obiger Gleichung genügt, ist ziemlich offensichtlich, denn offenbar ist 1 Eigenwert jeder stochastischen Matrix (die konstanten
Funktionen sind rechte Eigenvektoren) – also muss es auch linke Eigenvektoren zum
Eigenwert 1 geben; ein solcher ist %. Auch ist es nicht schwierig, ein solches % so zu
normieren, dass die Summe seiner Einträge 1 ist. Was aber a priori überhaupt nicht
klar ist, ist, warum ein solches % eigentlich nicht-negativ sein sollte. Wer in der linearen Algebra ein wenig Perron-Froebenius Theorie betrieben hat, wird dies schon
wissen. Wir werden es hier mit Hilfe eines anderen, mehr stochastischen Arguments
herleiten.
Satz 1.20 Sei Q eine stochastische r × r Matrix. Dann existiert
k
1X j
Q =: H
lim
k→∞ k
j=1
und es gilt
H 2 = H.
HQ = QH = H
Beweis. Zunächst bemerken wir, dass mit Q auch Qn stochastisch ist (es ist z.B.
r
X
f =1
2
Q (e, f ) =
r
r X
X
Q(e, d)Q(d, f ) = 1;
f =1 d=1
für beliebiges n geht das analog.) Damit ist dann auch
k
1X j
Pk :=
Q
k j=1
2
stochastisch. Darüber sind die Pk ∈ IRr und als solche beschränkt. Nach dem Satz
von Bolzano–Weierstraß besitzt somit die Folge der Pk einen Häufungspunkt H. Wir
wollen im folgenden sehen, dass es genau einen Häufungspunkt dieser Folge gibt.
Dazu betrachten wir eine Teilfolge (Hl ) der Folge (Pk ), die gegen H konvergiert.
Damit erhalten wir
l
QHl = Hl Q =
1 X j+1
Q
l j=1
1
1
= Hl − Q + Ql+1 .
l
l
Da die letzten beiden Terme für l → ∞ verschwinden, ergibt sich
QH = HQ = H.
11
(1)
Ist nun H 0 ein weiterer Häufungspunkt und (Hm ) eine Folge die gegen H 0 konvergiert,
dann erhalten wir aus (44) einerseits
H 0 H = HH 0 = H.
Andererseits folgert man analog zu oben
H 0 Pk = Pk H 0 = H 0
für alle k und somit
H 0 H = HH 0 = H 0 .
2
Daher ist H 0 = H und H 2 = H.
Was haben wir nun damit gewonnen? Nun, die Gleichung HQ = H impliziert doch,
dass für jede Zeile % von H gilt, dass
%Q = %,
jede Zeile (und jede konvexe Kombination von Zeilen) von H ist also ein linker
Eigenvektor von H zum Eigenwert eins. Darüber hinaus ist die Menge der stochas2
tischen Matrizen abgeschlossen in IRr . Das sieht man, indem man einerseits die
Abgeschlossenheit aller nicht-negativen Matrizen erkennt (das ist nicht schwer) und
andererseits sieht, dass die Menge aller Matrizen mit Zeilensumme eins für alle Zeilen
abgeschlossen ist (die Menge der stochastischen Matrizen ist dann der Durchschnitt
dieser beiden abgeschlossenen Mengen). Letzteres ist wahr, denn die Funktionen fi ,
die die i’te Zeilensumme bilden sind stetig, und die Menge der Matrizen mit Zeilensumme 1 ist dann das Urbild der (abgeschlossenen) Menge (1, . . . , 1) unter der
stetigen Abbildung f = (f1 , . . . , fr ).
Somit ist H als Limes stochastischer Matrizen wieder stochastisch, seine Zeilen
sind also Wahrscheinlichkeiten auf dem Grundraum. Dies beweist die Existenz einer
Wahrscheinlichkeit % mit
%Q = %.
Solche Wahrscheinlichkeiten heißen auch stationär (stationary) bzgl. Q. Nun sind
wir in der Lage Satz 4.17 zu beweisen.
Beweis von Satz 4.17 Wie wir eben gesehen haben, existiert eine stationäre Verteilung % bzgl. IP, nämlich beispielsweise eine Zeile des entsprechend Satz 4.19 gebildeten Cesaro-Limes der Potenzen von IP. Ein solches % besitzt nur strikt positive
Einträge. Wäre z.B. %(i) = 0, so ergäbe das
0 = %(i) =
X
%(j)IPN (j, i)
j∈I
im Widerspruch dazu, dass IPN strikt positiv ist und
12
P
%(j) = 1 ist.
Darüber hinaus gibt es nur eine Verteilung %, die stationär zu IP ist (insbesondere
besteht H aus lauter identischen Zeilen). Gäbe es nämlich %, %0 , die beide stationär
bzgl. IP wären, so gälte für jedes a ∈ IR und n ∈ IN
% − a%0 = (% − a%0 )IPn .
Wir wählen
a = min
i∈I
%(i)
%(i0 )
=: 0
.
0
% (i)
% (i0 )
Damit ist
0 = (% − a%0 )(i0 ) =
X
(% − a%0 )(j)IPN (j, i0 ).
j∈I
Aus der strikten Positivität von IPN folgt somit, dass %(j) = a%0 (j) für alle j ∈ I
gelten muss. Da % und %0 Wahrscheinlichkeiten sind, impliziert das, dass a = 1 ist
und folglich % = %0 . Die im Satz behauptete Konvergenz ist also die Konvergenz
gegen einen Punkt im klassichen Sinne.
Um diese Konvergenz schließlich zu zeigen, verwenden wir die Entropiefunktion aus
Definition 4.15 in der Schreibweise
X
ν(i)
,
H(ν|%) =
%(i)ψ
%(i)
i∈I
wobei ψ wieder die strikt konvexe Funktion
ψ(t) = t log t − t + 1
ist. Daher ist
H(νIP|%) =
=
=
≤
=
νIP(i)
%(i)ψ
%(i)
i∈I
P
X
j∈I ν(j)IP(j, i)
%(i)ψ
%(i)
i∈I
!
P
X
j∈I %(j)IP(j, i) ν(j)
%(i)ψ
%(i)
%(j)
i∈I
XX
ν(j)
%(j)IP(j, i)ψ
%(j)
i∈I j∈I
X
ν(j)
%(j)ψ
%(j)
j∈I
X
= H(ν|%),
P
wobei das “≤”-Zeichen aus der Tatsache, dass
j∈I
ν(j)
%(j)
%(j)IP(j,i) ν(j)
%(i)
%(j)
eine konvexe Kom-
bination der
ist, folgt, zusammen mit der Konvexität von ψ und das vorletzte
Gleichheitszeichen eine Konsequenz der Stochastizität von IP ist. Somit ist
H(νIP|%) ≤ H(ν|%)
13
mit Gleichheit genau dann, wenn νIP = ν, also ν = % ist. Anwenden von IP verkleinert also die Entropie und damit eine Art Distanz zum invarianten Maß.
Somit ist insbesondere die Folge H(νIPn |%) n monoton fallend und zwar strikt,
solange νIPn 6= % ist.
Wir wollen abschließend sehen, dass dies schon impliziert, dass die Folge %n := νIPn
gegen % konvergiert. Da %n beschränkt ist, besitzt die Folge zumindest im IR|I| einen
Häufungspunkt %0 und es existiert eine Teilfolge (%nl )l , die gegen %0 konvergiert.
Wir zeigen, dass %0 = % ist (und sind dann fertig, da die Argumentation für jeden
Häufungspunkt gilt und die Folge %n damit gegen % konvergiert).
Nun ist einerseits
H(%0 |%) ≥ H(%0 IP|%).
Andererseits haben wir
(%0 IP)(j)
H(% IP|%) =
%(j)ψ
%(j)
j∈I
X
(νIPnl )IP(j)
= lim
%(j)ψ
l→∞
%(j)
j∈I
X
(νIPnl +1 )(j)
= lim
%(j)ψ
.
l→∞
%(j)
j∈I
0
X
Nun ist (nl )l eine Teilfolge und daher nl + 1 ≤ nl+1 . Dies ergibt mit der vorher
gezeigten Monotonie
X
(νIPnl +1 )(j)
lim
%(j)ψ
l→∞
%(j)
j∈I
X
(νIPnl+1 )(j)
%(j)ψ
≥ lim
= H(%0 |%).
l→∞
%(j)
j∈I
Insgesamt ist also
H(%0 |%) = H(%0 IP|%)
und daher
%0 = %.
2
Beispiel 1.21
1. Irrfahrt auf dem Kreis
Für n ∈ IN sei Cn der n-Kreis, d.h. der Graph, der entsteht, wenn man n
Punkte durchnummeriert und den Punkt k mit den Punkten k − 1 und k +
1 verbindet (Punkt 1 wird mit 2 und n verbunden). Auf Cn definiert man
eine Markoff-Kette vermöge der Übergangsvorschrift pii = 1/2 und pi,i+1 =
14
pi,i−1 = 1/4 (dabei ist die Addition modulo n zu verstehen). Offenbar ist für
die zugehörige stochastische Matrix IP und jedes r > n/2 + 1, IPr strikt positiv.
Also sind die Voraussetzungen des Ergodensatzes erfüllt und für jede beliebige
Startverteilung ν konvergiert νIPn gegen das invariante Maß der Kette, was
offensichtlich die Gleichverteilung auf allen Zuständen ist.
2. Ehrenfests Urnenmodell
In der Situation von Beispiel 4.6 d) rechnet man wieder nach, dass die Bedingungen des Ergodensatzes erfüllt sind. Die Kette konvergiert daher gegen ihre
Gleichgewichtsverteilung, d.h. die Binomialverteilung.
1.3
Boltzmann-Gleichung und H-Theorem
Wie in der Einleitung erwähnt, gehen die Anfänge der statistischen Mechanik auf
Boltzmanns Analyse der thermodynamischen Gesetzmäßigkeiten zurück. Wir wollen
zunächst seine Ergebnisse betrachten: Boltzmanns Grundannahme ist, dass Materie, in diesem Fall ein Gas, aus kleinsten Teilchen besteht, Atomen oder Molekülen,
über deren individuelle Bewegungen man zwar nichts aussagen kann, die aber gewissen statistischen Annahmen genügen. Genauer nehmen wir an, dass es zu jedem
Zeitpunkt t und an jedem Ort r unseres Gasbehälters sowie zu jedem Impuls p eine
Dichte
f (r, p, t)
gibt, die die relative Anzahl der Teilchen zur Zeit t in r mit Impuls p beschreibt. Nun
ist es möglich, mittels Impuls- und Energieerhaltung auszurechnen, welchen Impuls
zwei Teilchen mit Anfangsimpuls p1 und p2 nach einem Stoß haben. Berechnet man
zudem, wie viele solcher Stöße innerhalb eines kleinen Zeitintervalls dt bei gegebener Dichte f (r, p, t) stattfinden, so kommt man zu einer Differentialgleichung für f ,
der sogenannten Boltzmann-Gleichung, die die Änderungen der Dichtefunktion
über die Zeit beschreibt. Das Erstaunliche an dieser unschuldig aussehenden Differentialgleichung ist nun der folgende Sachverhalt: Ist f (r, p, t) ≡ f (p, t), also die
Dichte nicht mehr abhängig vom Ort, so impliziert die Boltzmann-Gleichung, dass
d
d
H(t) :=
dt
dt
Z
− f (p, t) log f (p, t)dp ≥ 0
gilt. Die Größe H(t) stimmt bis auf eine additive Konstante mit der thermodynamischen Entropie überein, wir werden auch sie in der Folge mit Entropie bezeichnen.
Die Boltzmann-Gleichung impliziert also ein Anwachsen der Entropie. Das sogenannte Boltzmannsche H-Theorem stellt eine Brücke zwischen der klassischen Mechanik
und der Thermodynamik dar.
Trotz dieser wichtigen Rolle, die Boltzmanns Überlegungen in der Physik spielen,
gab es von Beginn an Einwände gegen sie (und es gibt bis heute Spielraum für
Interpretationen). Die beiden wichtigsten Einwände gegen das H-Theorem sind:
15
1. Das H-Theorem widerspricht der Mechanik. In der Tat sind alle Gesetze der
Mechanik invariant unter der Zeitumkehr t → −t: Beobachtet man die Bewegung eines einzelnen Teilchens, so lässt sich an ihr nicht ablesen, ob “der Film
vorwärts oder rückwärts läuft”. Dagegen zeichnet das H-Theorem eine Zeitrichtung aus. Loschmidt formulierte diesen Einwand schon 1876 so: Wenn ein
Gas sich aus einem Anfangszustand S0 nach t Zeiteinheiten in einen Zustand
St bewegt hat, dann folgt nach Boltzmann
Ht ≥ H0 .
Wenn man nun alle Geschwindigkeiten umkehrt, dann wird das System nach
weiteren t Schritten wieder in S0 sein, wohingegen das H-Theorem
H0 ≥ Ht
impliziert, also ändert sich H überhaupt nicht. Boltzmanns Einwand darauf
(“Bitte, drehen Sie die Geschwindigkeit um.”) ist zwar wichtig, hilft aber nicht
so recht weiter.
2. Ein weiterer, vielleicht noch wesentlicherer Einwand stammt von Zermelo, der
bemerkte, dass aufgrund des Poincaréschen Wiederkehrsatzes ein abgeschlossenes dynamischen System beliebig nahe an seinen Ausgangspunkt zurückkehrt.
Wenn H also nur von der Dynamik abhängt, kann es nicht immer steigen.
Boltzmann versuchte herauszuarbeiten, dass die Zeiten bis zu einer Rückkehr
enorm lang sind (und entgegnete: “Bitte, warten Sie darauf.”).
Wir wollen dies genauer betrachten.
1.4
Der Poincarésche Wiederkehrsatz
Mathematisch lässt sich die Situation wie folgt beschreiben: Das Gas mit N Teilchen
ist beschrieben durch 2N Koordinaten (also typischerweise einem Element aus dem
R6N )
q1 , . . . , q N , p 1 , . . . , p N ,
wobei die qi die Ortskoordinaten und die pi die Impulskoordinaten des i-ten Partikels
beschreiben. Das Verhalten des Systems wird durch die Hamiltonfunktion
H(q1 , . . . , qN , p1 , . . . , pN )
(die t nicht explizit enthält) und die Bewegungsgleichungen
∂H
dqi
=
,
dt
∂pi
dpi
∂H
=−
dt
∂qi
festgelegt. Es folgt, dass H (das man nicht mit der Entropie H verwechseln sollte)
eine Konstante der Bewegungen des Systems ist (Energieerhaltungssatz) und wir
nehmen weiter an, dass die “Energiefläche”
E = {(q, p) : H(q1 , . . . , qN , p1 , . . . , pN ) = E}
16
eine beschränkte Menge ist.
Nun angenommen, wir starten unser System im Punkte
0
, p01 , . . . , p0N ).
P0 = (q10 , . . . , qN
Die Position des Teilchens i zur Zeit t ist eine Funktion (fi , gi ), die man aus der
Lösung der Bewegungsgleichung erhält:
0
qi (t) = fi (q10 , . . . , qN
, p01 , . . . , p0N ),
0
pi (t) = gi (q10 , . . . , qN
, p01 , . . . , p0N ).
Die Gesamtheit all dieser Funktionen definiert eine einparametrige Familie (Tt )t∈R+
von Transformationen des Zustandsraums des Systems – dieses heißt Γ – in sich
selbst:
Pt = Tt P0 .
Der berühmte Satz von Liouville besagt nun, dass das Lebesguemaß λ6N unter T
invariant ist, also
λ6N (A) = λ6N (Tt A)
für alle messbaren Mengen A ⊆ R6N und alle t ∈ R+ .
Wenn wir uns nun auf E beschränken, impliziert der Satz von Liouville das folgende:
Falls wir auf E das Maß µ vermöge
Z
k 5 Hk−1 dσ
µ(A) =
A
(wobei wir annehmen, dass k 5 Hk > c > 0 auf E gilt, so dass µ(E) < +∞ ist),
wobei σ ein Oberflächenelement ist und
2
k 5 Hk =
2
N X
∂H
i=1
∂pi
+
∂H
∂qi
2
,
dann gilt
µ(Tt (A)) = µ(A).
All dies nur zur Einleitung.
Abstrakt sind wir in der folgenden Situation: Wir haben auf einer Menge Ω eine
σ-Algebra und ein endliches Maß µ gegeben, wir können o.B.d.A. annehmen, dass
µ(Ω) = 1
gilt. Darüber hinaus haben wir eine einparametrige Familie (Tt )t∈R+ maßerhaltender,
bijektiver Abbildungen von Ω in sich gegeben (die Tatsache, dass die Abbildungen
in unserem Beispiel bijektiv sind, folgt trivial aus den Bewegungsgleichungen). Wir
nehmen an, dass die (Tt )t∈R+ eine Halbgruppe sind, d. h. dass Tt ◦ Ts = Tt+s gilt.
Der Poincarésche Wiederkehrsatz lautet nun:
17
Theorem 1.22 Sei A eine meßbare Teilmenge von Ω mit µ(A) > 0. Dann gibt es
für fast alle ω ∈ A beliebig große Werte t ∈ R+ , so dass
Tt (ω) ∈ A
gilt.
Beweis: Es genügt, diskrete Zeiten T1 , T2 , . . . zu betrachten. Offensichtlich gilt
T2 = T12 , T3 = T13 , etc.
Sei
A1 = {ω ∈ A : T1 ω ∈ A}
und iterativ
An := {ω ∈ A : T1 ω ∈
/ A, . . . , Tn−1 ω ∈
/ A, Tn ω ∈ A}.
Sei für eine Menge B
χB (ω) =
1 ω∈B
.
0 ω∈
/B
Dann gilt
χAn (ω) = χA (ω)(1 − χA (T1 (ω)) . . . (1 − χA (T1n−1 (ω)))χA (T1n (ω))
und daher
Z
χA (ω)(1 − χA (T1 (ω))) . . . (1 − χA (T1n−1 (ω))χA (T1n (ω))dµ.
µ(An ) =
Ω
Setzen wir nun
Z
fn =
(1 − χA (ω))(1 − χA (T1 (ω)) . . . (1 − χA (T1n−1 (ω)))dµ.
Ω
Dann lässt sich µ(An ) ausdrücken als
µ(An ) = fn−1 − 2fn + fn+1
unter der Randbedingung f0 = 1. Tatsächlich folgt diese Formel aus der Tatsache,
dass T maßerhaltend ist, z. B. für µ(A3 ):
Z
µ(A3 ) =
χA (ω)(1 − χA (T1 (ω)))(1 − χA (T12 (ω)))χA (T13 (ω))dµ
ZΩ
=
(1 − χA (T1 (ω))(1 − χA (T12 (ω)))dµ
ZΩ
−
(1 − χA (ω))(1 − χA (T1 (ω)))(1 − χA (T12 (ω)))dµ
ZΩ
−
(1 − χA (T1 (ω))(1 − χA (T12 (ω)))(1 − χA (T13 (ω)))dµ
ZΩ
+
(1 − χA (ω))(1 − χA (T1 (ω)))(1 − χA (T12 (ω)))(1 − χA (T13 (ω)))dµ.
Ω
18
In der Tat ergeben sich die ersten beiden Integrale zu
Z
χA (ω)(1 − χA (T1 (ω)))(1 − χA (T12 (ω)))dµ
Ω
und die beiden letzten zu
Z
− χA (ω)(1 − χA (T1 (ω)))(1 − χA (T12 (ω)))(1 − χA (T13 (ω)))dµ,
Ω
also in der Summe µ(A3 ). Da nun T maßerhaltend ist, sind die beiden mittleren
Integrale einander gleich und zwar exakt gleich f3 . Also
µ(A3 ) = f2 − 2f3 + f4 .
Für allgemeines n geht dies ebenso. Der Clou ist nun, dass in der Summe
die meisten Terme verschwinden:
n
X
Pn
k=1
µ(Ak )
µ(Ak ) = 1 − f1 − (fn − fn+1 ).
k=1
Nun ist nach Konstruktion (fn ) eine fallende und (durch 0) von unten beschränkte
Folge. Also existiert lim fn , und somit gilt
lim (fn − fn+1 ) = 0.
n→∞
Also ergibt sich
∞
X
µ(Ak ) = 1 − f1 = µ(A).
k=1
Da die (Ak ) konstruktionsgemäß paarweise disjunkt sind, gilt für fast jedes ω ∈ A,
dass wenigstens eine der iterierten Abbildungen T1 (ω), T2 (ω), . . . in A ist. Dies
impliziert sofort, dass unendlich viele Iterationen in A landen. In der Tat: Sei D` die
Menge aller ω, so dass ω ∈ A und T n ω ∈
/ A für alle n ≥ `. Wendet man dann das
`
soeben gezeigte auf T1 anstelle von T1 an, so ergibt sich
µ(D` ) = 0
und somit auch
µ(
[
D` ) = 0.
`≥1
Somit kehrt beinahe jeder Punkt aus A unter iterativer Abbildung durch T unendlich oft nach A zurück.
2
Eine sehr naheliegende Frage, die, wie oben erwähnt, auch durch Boltzmann aufgeworfen wurde, ist die nach der durchschnittlichen Zeit, die eine solche Rückkehr
benötigt (diese Zeit heißt auch die Länge eines Poincaré-Zyklus).
Für diskrete Zeit t = 1, 2, . . . ist diese definiert als
∞
Θ∗1
1 X
=
kµ(Ak ).
µ(A) k=1
19
Misst man allgemeiner alle τ Zeiteinheiten und ersetzt so T1 durch Tτ , so ist die
mittlere Rückkehrzeit definiert als
∞
Θ∗τ
τ X
=
k · µ(Aτk ),
µ(A) k=1
wobei
Aτk = A ∩ (Tτ−1 (A))c ∩ . . . ∩ (Tτ−k−1 (A))c ∩ Tτ−k (A)
ist. Nun gilt nach dem eben gezeigten:
n
X
kµ(Ak ) =
k=1
n
X
k(fk−1 − 2fk + fk+1 ) = 1 − fn − n(fn − fn+1 ).
k=1
Nun ist die Summe links offenbar wachsend in n, also ist fn + n(fn − fn+1 ) fallend.
Außerdem ist diese Folge offensichtlich durch 0 von unten beschränkt, denn fn ≥ 0
und fn ≥ fn+1 . Somit existiert der Grenzwert
lim fn + n(fn − fn+1 ),
n→∞
also auch der Grenzwert
lim n(fn − fn+1 ).
n→∞
Um den Grenzwert zu bestimmen, beobachten wir, dass
∞
X
(fn − fn+1 ) < +∞,
n=1
da (fn ) konvergiert. Dies kann aber nur sein, wenn die einzelnen Summanden schneller als n1 gegen 0 konvergieren, also
lim n(fn − fn+1 ) = 0.
n→∞
Also ergibt sich
∞
X
kµ(Ak ) = 1 − lim fn .
n→∞
k=1
Ähnliches gilt für Aτk und ein geeignet definiertes fnτ . Nun nehmen wir an, dass T
zu allen geforderten Eigenschaften auch ergodisch ist.
Erinnerung: T heißt ergodisch, falls aus
T (A) = A
folgt, dass
µ(A) ∈ {0, 1}
ist.
20
Wir wollen zeigen, dass in diesem Fall
lim fn = 0
n→∞
gilt. In der Tat ist ja
/ A}).
fn = µ(Bn ) = µ({ω : ω ∈
/ A, Tτ (ω) ∈
/ A, . . . , Tτn−1 (ω) ∈
Da Bn fällt existiert
B=
\
Bn .
n≥1
Nun betrachte Tτ B. Gilt
ω ∈ Tτ B,
so ist
Tτ−1 (ω) ∈ B,
also
Tτ−1 (ω) ∈
/ A, ω ∈
/ A, Tτ ω ∈
/ A, . . . ,
also ist ω ∈ B, d. h.
Tτ B ⊆ B.
Ebenso zeigt man, dass auch
Tτ2 B ⊆ Tτ B ⊆ B
gilt. Sei
C = lim Tτn B.
n→∞
Offenbar gilt
Tτ C = C.
Aus der Ergodizität von T ergibt sich, dass
µ(C) ∈ {0, 1}
gilt. Da nun
µ(Tτn B) = µ(B) und Tτn+1 B ⊆ Tτn B
gilt, folgt
µ(B) = µ(C) ∈ {0, 1}.
Nun impliziert aber µ(B) = 1, dass auch µ(B1 ) = 1 ist, also µ(ω ∈
/ A) = 1, also
µ(A) = 0 im Widerspruch zu unseren Annahmen. Somit ist µ(B) = 0, aber das
heißt auch, dass
lim fn = µ(B) = 0
n→∞
ist. Somit haben wir den folgenden Satz bewiesen.
Satz 1.23 (Kac): Für bijektive, maßerhaltende, ergodische Abbildungen T gilt
Θ∗τ =
τ
µ(A)
für alle τ > 0.
21
Der Nachteil dieser Formel wird offenkundig, wenn man den Limes τ → 0 betrachtet,
d. h. zu kontinuierlichen Systemen Übergeht, dann erhalten wir stets
lim Θ∗τ = 0.
τ →0
Dies ist natürlich deshalb der Fall, weil
{ω ∈ A, Tτ ω ∈ A}
als eine Rückkehr zur Zeit τ gewählt wird (obschon dies für sehr kleine τ vermutlich
keine echte Rückkehr sondern ein Verharren in A ist) und die Wahrscheinlichkeit
dieses Ereignises für τ → 0 nahe bei 1 liegt. Einen Ausweg bietet eine Formel von
Smoluchowski, der vorschlug, die mittlere Rückkehrzeit als
P
τ ∞
k=1 kµ(Ak+1 )
Θτ = P∞
k=1 µ(Ak+1 )
zu definieren. Dies soll hier jedoch nicht weiter betrachtet werden.
1.5
Das Ehrenfestsche Urnenmodell
Durch die in Abschnitt 1.3 erwähnten Einwände von Loschmidt und Zermelo ist
offenkundig, dass die naive Formulierung des Boltzmannschen Gesetzes, dass die
Entropie stets wächst, unhaltbar ist. Boltzmann selbst sah, dass die Herleitung dieses Satzes auf statistischen Aussagen über die mittlere Anzahl von Kollisionen gewisser Art beruht (dem sogenannten “Stoßzahlansatz”) und schlug daher vor, das
Wachstum der Entropie als eine rein statistische Aussage zu betrachten.
1911 unterzogen P. und T. Ehrenfest in einem sehr lesenswerten Artikel (Enc. Math.
Wiss.) die Boltzmannsche Argumentation einer tiefgründigen Analyse. Grob gesprochen stellen sich zwei Fragen:
1. Ist es möglich, dass sich zeitliche Reversibilität und Rekurrenz auf der Mikroebene mit einem zeitlich irreversiblen Verhalten im Großen vereinbaren lassen?
2. Ist diese Vereinbarkeit im Rahmen der klassischen Mechanik möglich?
Problem 2 ist bis heute nicht wirklich gelöst, während Problem 1 zunächst rein logischer Natur ist. Es ist (im positiven Sinne) gelöst, wenn man ein Modell findet, dass
die geforderten Eigenschaften aufweist. Ein solches Modell ist das Ehrenfestsche
Urnenmodell. Dies lässt sich folgendermaßen beschreiben:
2R Kugeln, die von 1 bis 2R nummeriert sind, werden in eine Schachtel A gelegt. Zu
diskreten Zeitpunkten t = 1, 2, . . . tut man mit Wahrscheinlichkeit 12 gar nichts (dies
nur, um die resultierende Markovkette aperiodisch zu machen) und mit Wahrscheinlichkeit 21 zieht man eine Kugel und legt sie in eine zweite Schachtel B. So fährt man
22
fort, wobei man jeweils mit Wahrscheinlichkeit 12 nichts tut und mit Wahrscheinlichkeit 12 eine Kugel von 1, . . . , 2R zieht und in die jeweils andere Schachtel legt.
Intuitiv ist klar, was geschieht. So lange die Anzahl der Kugeln in A – sagen wir
nA – sehr viel größer ist als R, sollten wir einen “Fluss” von Schachtel A nach
Schachtel B beobachten; die Wahrscheinlichkeit, dass eine Kugel von A nach B
wandert ist überwältigend viel größer als die Wahrscheinlichkeit, dass eine Kugel
den umgekehrten Weg von B nach A nimmt. Wir haben somit global eine “beinahe
irreversible” Bewegung.
Betrachten wir das ganze mathematisch: Sei nA (t) die Anzahl der Kugeln in A zur
Zeit t. Um die zeitliche Reversibilität des Systems zu diskutieren, berechnen wir
P(nA (t + 1) = n|nA (t) = m) und
P(nA (t − 1) = n|nA (t) = m).
Die erste Wahrscheinlichkeit berechnet sich als
P(nA (t + 1) = n|nA (t) = m) =
1
1
1
mδ{n=m−1} +
(2R − m)δ{n=m+1} + δ{n=m}
4R
4R
2
(wobei δ das Kronecker-Symbol ist). Die zweite ist etwas umständlicher herzuleiten.
P(nA (t − 1) = n, nA (t) = m)
P(nA (t) = m)
P(nA (t − 1) = n)
= P(nA (t) = m|nA (t − 1) = n) ·
P(nA (t) = m)
2R − n
1
n
P(nA (t − 1) = n)
δ{m=n−1} +
δ{m=n+1} + δ{n=m} ·
.
=
4R
4R
2
P(nA (t) = m)
P(nA (t − 1) = n|nA (t) = m) =
Nun hängen die Wahrscheinlichkeiten P(nA (t−1) = n) und P(nA (t) = m) sowohl von
t als auch von der anfänglichen Anzahl n0 von Kugeln in A ab. Es ist jedoch plausibel
und eine Konsequenz aus dem Ergodensatz für Markovketten, den wir gleich in
Erinnerung rufen werden, dass diese Abhängigkeit für große t verschwindet. Hierzu
rufe man sich vor Augen, dass nA (t) in t eine Markovkette ist, also ein stochastischer
Prozess in diskreter Zeit mit Übergangswahrscheinlichkeiten
P(nA (t) = n|nA (t − 1) = m, nA (t − 2) = nt−2 , . . . , nA (0) = n0 )
m
2R − m
1
= P(nA (t) = n|nA (t − 1) = m) =
δ{n=m−1} +
δ{n=m+1} + δ{n=m}
4R
4R
2
:= Q(m, n).
(Q(m, n))2R
m,n=0 heißt die zu der Markovkette gehörige stochastische Matrix. Wie wir
schon festgestellt haben, genügen Markovketten dem Ergodensatz.
Wir wollen nun feststellen, dass die Markovkette nA (t) aus dem Ehrenfestschen
Urnenmodell den Anforderungen des Ergodensatzes genügt.
Satz 1.24 nA (t) genügt dem Ergodensatz.
23
Beweis: Zunächst sei bemerkt, dass die Markovkette irreduzibel ist, d. h. für
n, m ∈ {0, . . . , 2R}
existiert t, so dass
P(nA (t) = n|nA (0) = m) > 0
gilt (in der Tat kann man t ≤ 2R wählen). Wegen der positiven Wahrscheinlichkeit,
dass die Kette stehen bleibt, gilt sogar
P(nA (t) = n|nA (0) = m) > 0
für alle t ≥ 2R und alle n, m ∈ {0, . . . , 2R}. Dies aber ist gleichbedeutend mit
QN 0
2
für alle N ≥ 2R.
Das im Ergodensatz auftretende Limesmaß berechnet sich wie folgt:
Satz 1.25 Sei ρ das invariante Maß der Markovkette nA (·). Dann gilt
2R −2R
ρ(m) =
2 .
m
2
Beweis: Das rechnet man nach.
Das Interessante daran ist, dass sich für dieses ρ die Identität
Q(n, m)ρ(n) = Q(m, n)ρ(m)
ableiten lässt. Vergegenwärtigen wir uns noch einmal, dass
Q(n, m) = P(nA (t) = m|nA (t − 1) = n)
(und eine analoge Formel für Q(m, n)) gilt und für große Zeiten t
ρ(n) = P(nA (t) = n) = P(nA (t − 1) = n)
(und eine analoge Identität für ρ(m)), so lässt sich aus dieser Identität
n
2R − n
1
ρ(n)
δ{n=m+1} +
δ{n=m−1} + δ{n=n}
P(nA (t − 1) = n|nA (t) = m) =
ρ(m) 4R
4R
2
= P(nA (t + 1) = n|nA (t) = m)
folgern.
In der Tat ist das Modell also (auf lange Sicht) zeitlich reversibel. Andererseits besagt der Ergodensatz für nA (·), dass die Entropie als relative Entropie bezüglich
24
ρ stets fällt. Schließlich folgt aus der Irreduzibilität der Kette, dass sie jeden Zustand
unendlich oft besucht. Wir haben also ein System gefunden, das den Anforderungen
der ersten der aufgeworfenen Fragen genügt.
Bemerkung: In der Tat birgt das vorgestellte Modell allerdings eine kleine Falle:
Die Berechnung der zeitlichen Reversibilität benutzte den Ergodensatz und vor allem
die Approximation
P(nA (t) = m) ≈ ρ(m) ∀ m.
Dies aber stimmt exakt nur, wenn sich das Modell im Gleichgewicht befindet, die
Approximation also eine Gleichheit ist. Dann jedoch ist die relative Entropie konstant.
Wir wollen das Ehrenfestsche Urnenmodell hier verlassen und uns anderen Fragestellungen zuwenden, obschon es auch zu diesem Modell noch viel zu sagen gäbe.
Bemerkung: Eine letzte Bemerkung zum Boltzmannschen Argument, dass eine
Rückkehr in einen unwahrscheinlichen Anfangszustand wesentlich länger dauert als
die Beobachtungszeiträume, in denen ein Anwachsen der Entropie beobachtet wird.
In der Tat kann man die folgende Überschlagsrechnung anstellen: Zöge man statt
immer einer Kugel immer R Kugeln und ließe diese die Urnen tauschen, so wäre die
Wahrscheinlichkeit, in einem Sprung von nA (t) = R zu nA (t + 1) = 2R zu kommen,
√
1
R
R!
≈
≤ 2R .
R
R
(2R)
(2e)
2
Die Rückkehrzeit von einer mit der Hälfte der Kugeln gefüllten Urne zu einer vollen
Urne sollte also mindestens 22R betragen. Bedenkt man, dass R für realistische
Systeme von der Ordnung
R ≈ 1023
ist, so ist das gigantisch viel länger als jeder für natürliche Prozesse relevante Zeitraum.
2
Gittergase und Spinsysteme
Die ersten Objekte, die man Studien der statistischen Mechanik unterzog, waren sogenannte freie Gase, also Gase, bei denen man annimmt, dass die einzelnen Moleküle
nicht miteinander wechselwirken. Dies entspricht auf der wahrscheinlichkeitstheoretischen Seite Systemen unabhängiger Zufallsvariablen. Ihr Studium verläuft recht
ähnlich den Prinzipien großer Abweichungen, die wir schon in der Stochastik kennengelernt haben sowie einigen Schritten aus dem letzten Kapitel.
Wir werden uns daher auf etwas realistischere Systeme stürzen, die auch Wechselwirkungen zwischen den Teilchen ermöglichen. Um umgekehrt die Systeme nicht
zu kompliziert werden zu lassen, beschränken wir die Anzahl ihrer Freiheitsgrade
25
und lassen die Teilchen nur auf den Knoten eines Gitters leben. Dieses wird für die
Zwecke dieser Vorlesung stets Zd , d ≥ 1, sein.
2.1
Gittergase
Sei Λ ⊆ Zd eine endliche Teilmenge. Wir identifizieren Λ mit seinen Knoten und
stellen uns vor, dass in den Knoten von Λ Teilchen in verschiedenen Zuständen leben.
Diese Zustände können z. B. “anwesend” = 1 und “abwesend” = 0 sein oder z. B.
verschiedenen Magnetisierungen “spin up” = +1 und “spin down”=−1 entsprechen.
Wir werden annehmen, dass nur Paare von Teilchen miteinander wechselwirken. Die
Wechselwirkungsenergie zwischen Teilchen xi an der Stelle i ∈ Λ und Teilchen xj an
der Stelle j ∈ Λ sei durch die Funktion
ϕi,j (xi , xj )
beschrieben. Die Gesamtenergie des Systems bestimmt sich dann als
X
ϕi,j (xi , xj ).
HΛ (x1 , . . . , xN ) =
i6=j∈Λ
Ein physikalisches Prinzip besagt, dass Systeme stets Zustände niedriger Energie
aufsuchen und dass Zustände hoher Energie exponentiell unwahrscheinlich sind. Dem
entspricht der Ansatz eines Gibbs-Maßes für die Partikelkonfiguration (x1 , . . . , xN ), N =
|Λ|, als
e−βHV (x1 ,...,xN )
.
µΛ,β (x1 , . . . , xN ) =
ZΛ,β
Hierbei ist β > 0 die inverse Temperatur, also β = T1 und die bei den Physikern
auftretende Boltzmann-Konstante k haben wir k ≡ 1 gesetzt. ZΛ,β heißt die Zustandssumme und muss sich als
X
ZΛ,β =
e−βHN (x1 ,...,xN )
x1 ,...,xN ∈Λ
schreiben lassen, um µΛ,β zu einem Wahrscheinlichkeitsmaß zu machen. Dies ist
(im wesentlichen) die Standardform eines Gittergases. Allerdings sei hier erwähnt,
dass man zumeist von Gittergasen im engeren Sinne nur dann spricht, wenn die
Wechselwirkung von der Form
ϕi,j (xi , xj ) = f (i, j)δxi δxj
ist. Hierbei ist f (i, j) eine Funktion der Gitterplätze i und j und
1 xi = 1
δx i =
0 xi = 0
und die xi nehmen Werte 0 und 1 ein. Man stellt sich also die jeweiligen Gitterplätze
als “belegt” oder “frei” vor. Oft benötigt man noch einen “Korrekturfaktor”, die
chemische Energie, damit nicht die günstigsten Zustände diejenigen sind, in denen
26
entweder xi = 1 ∀ i ∈ Λ oder xi = 0 ∀ i ∈ Λ gilt. Die Gesamtenergie nimmt dann
die Form
X
µX
HV (x1 , . . . , xN ) =
xi , µ ∈ R,
f (i, j)xi xj −
β
i∈Λ
i6=j∈Λ
an.
2.2
Spin-Systeme
Im Gegensatz zu Gittergasen stellen wir uns bei Spin-Systemen alle Plätze von Λ als
“belegt” vor, allerdings können die Teilchen dort in verschiedenen Zuständen sein.
Der Prototyp dieses Modells wurde 1924 von E. Ising in seiner Dissertation unter
Anleitung von Lenz untersucht. Es ist ein Spielzeugmodell zur Erklärung magnetischer Phänomene. Eine fundamentale Erklärung solcher Phänomene müsste eine
quantenmechanische Ableitung liefern und entsprechend Systeme von 1023 gekoppelten Schrödingergleichungen untersuchen.
Das sogenannte Ising-Modell wählt einen einfachen Ansatz: Es sei Λ ⊆ Zd eine
endliche Menge und S = {−1, +1}. Eine Spinkonfiguration σ ist ein Element
σ ∈ {−1, +1}Λ = S Λ .
Im Ising-Modell wird einem solchen σ ∈ S Λ die Wechselwirkungsenergie
X
X
σi
HΛ,h (σ) = −
σi σj − h
i6=j∈Λ
<i,j>
i∈Λ
zugeordnet. Hierbei ist h > 0 die sogenannte Stärke des magnetischen Feldes und
σ ∈ S Λ hat die Komponenten σi , i ∈ Λ und < i, j > bedeutet i und j sind Nachbarn.
Es ist offensichtlich, dass sich das Ising-Modell in ein Gittergas übersetzen lässt
vermöge der Transformation
σi + 1
.
xi =
2
Wählt man statt S = {−1, +1} eine andere Menge oder eine andere Interaktionsenergie, so erhält man ein allgemeines Spinsystem.
Eine wesentliche Größe bei all diesen Spinsystemen ist die sogenannte Magnetisierung
1 X
mΛ =
σi .
|Λ| i∈Λ
Da sie, insbesondere im Fall des Ising-Modells, ein Maß für die Ordnung des Systems
ist, spricht man auch von einem Ordnungsparameter. Analog zum Gittergas definiert
man das Gibbs-Maß
e−βHΛ,h (σ)
µΛ,β,h (σ) =
ZΛ,β,h
mit
X
0
ZΛ,β,h =
e−βHΛ,h (σ ) .
σ 0 ∈S Λ
27
Eine wesentliche Größe bei der Untersuchung solcher Systeme stellt die freie Energie dar:
1
FΛ,β,h = − log ZΛ,β,h .
β
Wie A. Bovier in seinem Buch beschreibt, stellt das Ising-Modell einen Wendepunkt
in der statistischen Mechanik dar, da es zum einen erstmals versucht, andere Phänomene zu erklären als die der Thermodynamik (nämlich den Ferromagnetismus) und
zum anderen bereit ist, eine sehr komplizierte Ausgangssituation (elektromagnetische und quantenmechanische Wechselwirkung) durch einfachere Annahmen zu
ersetzen. Beides kann man auch heute noch beobachten. Die Prinzipien der statistischen Mechanik finden heute Anwendung bei der Erklärung so verschiedenartiger
Phänomene wie Gehirnleistung oder soziologischem Verhalten. Dabei setzt man oft
auf sehr vereinfachte Modelle, in der Hoffnung, dass diese archetypisch sind für komplexere Modelle. Diese Annahmen nennt man Universalitätshypothese.
Wir werden in dieser Vorlesung zunächst verschiedene magnetische Modelle diskutieren. Diese Diskussion beginnen wir mit einer kurzen Untersuchung der freien
Energie.
2.3
Die Existenz der freien Energie
Wir wollen in diesem kurzen Abschnitt zeigen, dass im Ising-Modell (und vielen
anderen Modellen) die freie Energie pro Punkt
−
1
log ZΛ,β,h
β|Λ|
für |Λ| → ∞ in einem geeigneten Sinne existiert. Genauer beweisen wir
Satz 2.1 Falls die freie Energie FΛ,β,h eines Systems subadditiv ist, d. h. falls
−FΛ,β,h ≤ −FΛ1 ,β,h − FΛ2 ,β,h
für Λ = Λ1 ∪ Λ2 und Λ1 ∩ Λ2 = ∅, Λ1 , Λ2 ⊆ Zd endlich gilt, so existiert für jede
Folge von Rechtecken Λ1 ⊆ Λ2 ⊆ Λn ⊆ . . . mit Λn ↑ Zd , d. h. für jede beschränkte
Menge A ⊆ Zd existiert ein n mit A ⊆ Λn , der Limes
1
FΛn ,β,h = fβ,h .
n→∞ |Λn |
lim
Ist ferner
supσ HΛ (σ)
≥ C > −∞
|Λ|
für alle endlichen Λ ⊆ Zd , so ist fβ,h endlich.
Beweis: Dies folgt aus dem folgenden Lemma (bzw. einer einfachen mehrdimensionalen Fassung), das wir schon aus der Wahrscheinlichkeitstheorie I kennen.
2
28
Lemma 2.2 Ist (an ) eine Folge mit
an+m ≤ an + am ,
dann existiert lim n1 an und es gilt
1
1
lim an = inf an .
n
n
Korollar 2.3 Die freie Energie pro Punkt fβ,h existiert im Ising-Modell. Sie ist
endlich.
Beweis: Wir behandeln nur den Fall periodischer Randbedingungen, d. h.
X
X
HΛ (σ) = −
σi σj − h
σi .
<i,j>
i∈Λ
wobei < i, j > jetzt bedeutet, dass i und j in dem periodisch fortgesetzten Gitter Λ
Nachbarn sind. Definiere
X
1 X
(σi − σj )2 − h
σi .
H̄(σ) = H̄Λ (σ) =
2 i,j∈Λ
i∈Λ
<i,j>
Dann gilt
H(σ) − H̄(σ) = −2d|Λ|,
da zu jedem Punkt ein 4dσi2 hinzukommt, wobei d die Dimension des Systems ist.
Also gilt für die zugehörigen freien Energien F und F̄
F − F̄ = −2d|Λ|.
Ist also F̄ subadditiv, so auch F . F̄ aber ist subadditiv, denn für seine Zustandssumme Z̄ gilt:
X X
X
Z̄Λ,β,h =
exp −β(H̄Λ1 (σ) + H̄Λ2 (τ )) × exp(−β
(σi − τj )2 ),
σi ,i∈Λ1 τj ,j∈Λ2
i∈Λ1 ,j∈Λ2
<i,j>
wenn Λ = Λ1 ∪ Λ2 und Λ1 ∩ Λ2 = ∅ ist. Also ist
Z̄Λ,β,h ≤ Z̄Λ1 ,β,h Z̄Λ2 ,β,h
und somit
−F̄Λ,β,h ≤ −F̄Λ1 ,β,h − F̄Λ2 ,β,h ,
was zu zeigen war. Schließlich ist fβ,n endlich, weil
HΛ (σ) ≥ −4|Λ|
2
für alle σ.
Bemerkung: Man kann sogar auf die strenge Subadditivität verzichten. Dies wird
z. B. in Simons Buch gut erklärt.
29
2.4
Das eindimensionale Ising-Modell
Wir kommen nun zur Diskussion des Ising-Modells in einer Dimension. Dies war
der zentrale Untersuchungsgegenstand von Isings Dissertation. Er fand (richtigerweise), dass dieses Modell in d = 1 keine magnetische Phase aufweist und übertrug
dieses Argument (fälschlicherweise) auf höhere Dimensionen. Es ist gewissermaßen
eine Ironie der Geschichte, dass Ising nicht nur für diese nur halbrichtige Arbeit
promoviert wurde, sondern dass dieses Modell auch heute noch seinen Namen trägt.
Betrachten wir noch einmal das Ising-Modell bzw. das zugehörige Gibbs-Maß
P
β
µΛ,β,h (σ) =
e
σi σj +βh
<i,j>∈Λ
P
σi
i∈Λ
.
ZΛ,β,h
Mit ein wenig Nachdenken sieht man, warum dieses Modell überhaupt ein interessantes Modell für Magnetismus sein kann: Es hat die Chance sich für große β (kleine
Temperaturen) grundsätzlich anders zu verhalten als für kleine β (hohe Temperaturen). In der Tat bevorzugt der Energieterm im Gibbs-Maß Zustände mit möglichst
viel gleichgerichteten Spins. Andererseits gibt es davon auch nur exponentiell wenig (aus Entropiegründen). Wir haben es also mit einer Art Wettkampf zwischen
Energie und Entropie zu tun. Da erstere einen Faktor β mit sich führt, letztere aber
nicht, könnte es sein, dass manchmal die Energie gewinnt (Zustände großer Ordnung
haben große Wahrscheinlichkeit) und manchmal die Entropie (Zustände hoher Unordnung sind am wahrscheinlichsten). Wir würden daher für genügend große β einen
Sprung der Magnetisierung für h = 0 und h 6= 0 erwarten. Einen solchen Sprung
nennt man Phasenübergang. Leider tritt er im eindimensionalen Ising-Modell nicht
auf. Wir schreiben in einer Dimension
HN (σ) = −
N
X
σi σi+1 − h
i=1
N
X
σi ,
i=1
wobei es ein kleines Problem mit den Punkten i = 1 und i = N gibt, da diese als
einzige nur einen Nachbarn besitzen. Wir werden in höher dimensionalen Modellen
noch sehen, dass dies in der Tat einen wesentlichen Punkt berührt. Hier werden wir
die einfachste Lösung wählen und die Punkte 1, . . . , N auf einem Kreis anordnen,
so dass die Addition in der Berechnung von HN “modulo N ” zu nehmen ist. Dann
berechnet sich
ZN,β,h =
X
e
β
P
σi σi+1 +βh
P
σi
=
σi =±1
i=1,...,N
N
X Y
σi =±1
i=1,...,N
eβσi σi+1 +βhσi .
i=1
Schreiben wir für s, s0 ∈ {−1, +1}
0
L(s, s0 ) = eβss +βhs
und fassen dies als eine 2 × 2 Matrix auf, die wir L nennen, so ist
X
ZN,β,h =
L(σ1 , σ2 ), L(σ2 , σ3 ) . . . L(σN , σ1 ) = trLN .
σi=±1
i=1,...,N
30
Aber die Spur von LN lässt sich berechnen: Hat L die Eigenwerte λ1 und λ2 , so ist
N
trLN = λN
1 + λ2 .
Nun berechnen sich λ1 und λ2 als
λ1
λ2
q
= e cosh(βh) + e2β sinh2 (βh) + e−2β
q
β
= e cosh(βh) − e2β sinh2 (βh) + e−2β .
β
Da λ1 > λ2 , folgt
q
1
2
β
lim
log ZN,β,h = log λ1 = log e cosh(βh) + e2β sinh (βh) + e−2β
N →∞ N
q
2
= β + log cosh(βh) + sinh (βh) + e−4β .
Also
fβ,h
q
1
2
= −1 − log cosh(βh) + sinh (βh) + e−4β .
β
Nun ist nach dem Satz von der majorisierten Konvergenz
P ∂ β P σi ,σi+1 +βh P σi
∂
1
σ ∂h e
− fβ,h = lim
N →∞ βN
∂h
ZN,β,h
X
1
= lim Eµ
σi =: m,
N →∞
N
wobei Eµ den Erwartungswert bzgl. µβ,N,h bezeichnet. Wir wollen diese Größe die
asymptotische Magnetisierung nennen. Nun ist aber im eindimensionalen IsingModell
sinh(βh)
∂fβ,h
=q
.
m=−
∂h
2
−4β
sinh (βh) + e
Diese Größe ist für alle 0 ≤ β < ∞ differenzierbar und monoton in h. Ein magnetisches Verhalten für h → 0 ist daher nicht erkennbar. Daraus folgerte Ising (und
folgern auch wir), dass das Ising-Modell in einer Dimension nicht die gewünschten Effekte zeigt. Bevor wir nun höherdimensionale Versionen des Ising-Modells studieren,
wollen wir ein Modell vorführen, das die gewünschten Effekte sehr wohl aufweist.
2.5
Das Curie-Weiss-Modell
1896 entdeckte Pierre Curie, dass Ferromagnetismus ein Tieftemperaturphänomen
ist: oberhalb einer gewissen Temperatur, der sogenannten Curie-Temperatur, verschwindet das Phänomen. Auf Basis dieser Entdeckung entwickelte Weiss 1907 eine
Theorie des Ferromagnetismus. Vom Gesichtspunkt des Ising-Modells lässt es sich
folgendermaßen beschreiben: Ein “natürliches” Modell des Ferromagnetismus würde
nicht nur eine nächste Nachbarschaftswechselwirkung wie im reinen Ising-Modell in
31
Betracht ziehen, sondern eine Wechselwirkung von σi mit allen anderen σj , wobei
die Stärke der Wechselwirkung von |i − j| abhinge und beispielsweise quadratisch
mit |i − j| abnähme. Dies ist jedoch ziemlich komplex – bislang haben wir ja noch
nicht einmal das Ising-Modell in d ≥ 2 gelöst. Daher könnte man auf die Idee kommen, die Wechselwirkung von σi mit allen anderen
P Spins durch die Wechselwirkung
von σi mit einem Spin der Magnetisierung N1
σj zu ersetzen. Dies führt zu der
Energie- bzw. Hamiltonfunktion
1
HN (σ) = −
2N
X
σi σj − h
1≤i,j≤N
N
X
σi .
i=1
Hierbei ist σ ∈ {−1, +1}N . Zu beachten ist, dass man dieses Modell zwar auf Zd
definieren kann, dass aber die Geometrie von Zd hier keine Rolle mehr spielt: Die
Nachbarschaftsstruktur von i und j ∈ Zd ist im Curie-Weiss-Modell bedeutungslos.
Wir kommen zu einem besonderen Vorteil des Curie-Weiss-Modells. Schon im vorigen Kapitel haben wir die Bedeutung der Magnetisierung gesehen. Wir definieren:
mN (σ) =
N
1 X
σi .
N i=1
Der große Vorteil des Curie-Weiss-Modells ist, dass die Energiefunktion eine Funktion des Ordnungsparameters mN ist
HN (σ) = −
N
[mN (σ)]2 − hN mN (σ).
2
Diese Hamiltonfunktion hängt also von der mittleren Magnetisierung ab, man spricht
auch von einem meanfield-Modell, einem Mittelwertmodell. Das zugehörige GibbsMaß ist von der Form
µN,β,h (σ) =
e
X
m2N (σ)+N βhmN (σ)
ZN,β,h
mit
ZN,β,h =
βN
2
e
βN
2
m2N (σ)+N βhmN (σ)
.
σ
Um das Gibbs-Maß und die Zustandssumme berechnen zu können, erinnern wir an
die Theorie großer Abweichungen.
Definition 2.4 Eine Folge Rd -wertiger Zufallsvariablen X1 , X2 , . . . genügt einem
Prinzip der großen Abweichungen mit Geschwindigkeit N und Ratenfunktion I, falls
• I von unten halbstetig ist und 0 ≤ I ≤ +∞, I 6≡ 0.
• I kompakte Niveaumengen hat, d. h.
NL = {x : I(x) ≤ L}
ist kompakt für alle L > 0.
32
• Für alle A ∈ B 1 gilt:
− inf◦ I(x) ≤ lim inf
◦
x∈A
x∈A
◦
1
1
log P(XN ∈A) ≤ lim sup log P(XN ∈ Ā) ≤ − inf I(x).
N
X∈Ā
X∈Ā N
◦
Hierbei bezeichnen A resp. Ā das topologisch Innere bzw. den topologischen
Abschluss der Menge A.
Beispiel: Ein erstes Beispiel für ein Prinzip der großen Abweichungen (LDP) haben
wir schon in der Stochastikvorlesung kennengelernt. Ist X1 , X2 , . . . eine Folge von
i.i.d. Zufallsvariablen mit
P(X1 = 0) = 1 − p = 1 − P(X1 = 1),
so genügt die Folge der Mittelwerte
n
1X
Xi
Sn =
n i=1
einem LDP mit Geschwindigkeit n und Ratenfunktion
H(x|p) = x log
x
1−x
+ (1 − x) log
.
p
1−p
Der Beweis dieses Sachverhalts beruht i. w. auf der Anwendung der Stirling-Formel
auf die Fakultäten der Binomialverteilung. Konzentriert man sich auf den Fall p = 12 ,
so hat die Rate die Form
p
1−p
1
+ (1 − p) log
= p log p + (1 − p) log(1 − p) + log 2.
H(x| ) = log
2
1/2
1/2
Betrachtet man anstelle der (Xi ) eine Folge (Yi ) mit
1
P(Yi = 1) = P(Yi = −1) = ,
2
so entspricht dies einer Transformation
Yi = 2Xi − 1.
Somit erhalten wir
Pn
Yi
y+1
P( i=1 = y) = P(2Sn − 1 = y) = P(Sn =
).
n
2
Wir sehen also, dass mit Sn auch
Pn
i=1
n
Yi
einem LDP genügt und zwar mit Rate
y+1 1
y+1
y+1 1−y
1−y
| )=
log
+
log
+ log 2
2 2
2
2
2
2
(1 + y)
1 + y (1 − y)
=
log
+
log(1 − y).
2
2
2
I(y) = H(
Hinter dieser Überlegung steckt sogar ein allgemeines Prinzip, das ebenso elementar
zu beweisen wie (oft) nutzlos ist.
33
Satz 2.5 (Kontraktionsprinzip) Es sei (Xn ) eine Folge von Zufallsvariablen im Rd ,
die einem LDP mit Geschwindigkeit n und Rate I(·) genüge. Es sei
f : Rd → Rm
stetig. Dann genügt auch die Folge
Yn = f (Xn )
einem LDP mit Geschwindigkeit n und Ratenfunktion
J(y) =
inf
I(x).
x:f (x)=y
Beweis: Es sei A = Ā ⊆ Rm . Dann ist
lim sup
1
1
log P(Yn ∈ Ā) = lim sup log P(Xn ∈ f −1 [Ā]) ≤ − inf I(x).
n
n
x∈f −1 [Ā]
2
Eine untere Abschätzung geht analog.
Eine weit wichtigere Konsequenz aus einem LDP ist das sogenannte Varadhansche
Lemma, das es erlaubt, gewisse Integrale asymptotisch zu berechnen.
Satz 2.6 (Varadhan): Es sei (Xn )n eine Folge von Zufallsvariablen in Rd , die einen
LDP mit Geschwindigkeit n und Rate I genügt und
f : Rd → R
sei stetig und beschränkt. Dann gilt
lim
1
log Eenf (Xn ) = sup[f (x) − I(x)]
n
x
(wobei die Existenz des Limes gleich mitbehauptet wird).
Der Beweis dieses Satzes ist recht instruktiv:
Beweis: Da f stetig und beschränkt ist, lässt sich eine Überdeckung des Rd durch
endlich viele abgeschlossene Mengen A1 , . . . , AM finden, so dass f auf jede dieser
Mengen höchstens um ein vorgegebenes δ > 0 variiert, also
sup f (x) − inf f (x) ≤ δ
x∈Ai
x∈Ai
34
∀ i = 1, . . . , M.
Dann folgt
Z
nf (Xn )
e
dP ≤
Rd
M Z
X
j=1
≤
≤
M
X
e
n supy∈Aj f (y)
dPXn (y)
Aj
M Z
X
j=1
=
Aj
M Z
X
j=1
enf (Xn ) dP
en(inf y∈Aj f (y)+δ) dPXn (y)
Aj
en(inf y∈Aj f (y)+δ) P(Xn ∈ Aj ).
j=1
Also
lim sup
n→∞
1
log Eenf (Xn ) ≤
n
≤
sup [ inf f (y) + δ − inf I(y)]
1≤j≤M y∈Aj
y∈Aj
sup [ sup (f (y) − I(y)) + δ]
1≤j≤M y∈Aj
= sup (f (y) − I(y)) + δ.
y∈Rd
Lässt man δ gegen 0 gehen, ergibt sich die obere Schranke. Für die untere Schranke
argumentiert man, wie oft in der Theorie der großen Abweichungen, lokal. Da f
stetig ist, gibt es zu jedem y0 ∈ Rd und ε > 0 eine offene Umgebung Uε (y0 ), so dass
für alle y ∈ Uε (y0 ) gilt
f (y) ≥ f (y0 ) − ε.
Somit folgt
Ee
nf (Xn )
Z
enf (Xn ) dP ≥ en(f (y0 )−ε) P(Xn ∈ Uε (y0 )).
≥
Uε (y0 )
Mit Hilfe des LDP ergibt sich
lim inf
n→∞
1
log Eenf (Xn ) ≥ f (y0 ) − ε − inf I(y) ≥ f (y0 ) − I(y0 ) − ε.
y∈Uε (y0 )
n
Da dies für alle y0 stimmt, folgt
lim inf
n→∞
1
log Eenf (Xn ) ≥ sup[f (y) − I(y)].
n
y
2
Ganz analog zu Varadhans Lemma lässt sich der folgende Satz über große Abweichungen beweisen:
Satz 2.7 Die Folge von Zufallsvariablen (Xn ) im Rd genüge einem LDP mit Geschwindigkeit n und Ratenfunktion I. Für eine stetige beschränkte Funktion F :
Rd → R setze
Z
Jn (S) =
enF (x) dPXn (x), S ⊆ Rd Borelsch.
S
35
Definiere weiter
PFn (S) =
Jn (S)
; S ∈ Bd
Jn (Rd )
die PFn sind Wahrscheinlichkeitsmaße. Dann genügt die Folge der (PFn )n einem LDP
mit Geschwindigkeit n und Ratenfunktion
I F (x) = −[F (x) − I(x)] + sup [F (y) − I(y)].
y∈Rd
Beweis: Es ist
lim sup
1
1
1
log PFn (S) = lim sup log Jn (S) − lim sup log Jn (Rd )
n
n
n
und Analoges für liminf. Nun wissen wir aus dem vorhergehenden Satz schon, dass
lim
1
log Jn (Rd ) = sup[F (y) − I(y)]
n
y
gilt. Somit bleibt zu zeigen, dass für alle offenen Mengen G und alle abgeschlossenen
Mengen A gilt
1
lim inf log Jn (G) ≥ − inf [F (x) − I(x)]
x∈G
n
und
1
lim sup log Jn (A) ≤ − inf [F (x) − I(x)].
x∈A
n
Dies aber geht genau wie im Beweis des Varadhanschen Lemmas.
2
Mit diesen beiden Sätzen gerüstet, können wir nun das Curie-Weiss-Modell eingehender studieren.
Satz 2.8 Für jede inverse Temperatur β > 0 und jedes magnetische Feld h gilt
fβ,h
m2
1
inf [−
− hm − (log 2 − I(m))]
m∈[−1,+1]
2
β
2
m
1
+ hm + (log 2 − I(m))].
= − sup [
β
m∈[−1,+1] 2
1
:= lim −
log ZN,β,h =
N →∞
βN
Hierbei ist
I(m) =
1+m
1−m
log(1 + m) +
log(1 − m).
2
2
Beweis: Es ist
ZN,β,h =
X
σi ∈{±1}
∀ i=1,...,N
e
βN
2
(
PN
PN
i=1 σi )2 +N βh( i=1 σi )
N
N
1
=2 N
2
36
N
X
σi ∈{±1}
∀ i=1,...,N
e
βN
2
(
PN
PN
i=1 σi )2 +N βh( i=1 σi )
N
N
.
(Dies ist der Grund für das Auftreten des log 2-Terms
im Ausdruck für fβ,h ). Nun
P
N
σ
i
haben wir schon in einem Beispiel geklärt, dass i=1
unter dem Produktmaß einem
N
LDP mit Geschwindigkeit N und Ratenfunktion I(·) genügt. Nun ist
F (x) =
βx2
+ βhx
2
PN
σ
i
natürlich im allgemeinen zwar stetig, aber nicht beschränkt. Nun lebt i=1
aber auf
N
[−1, +1]. Dort ist F (·) sehr wohl beschränkt. Eine Anwendung des Varadhanschen
Lemmas ergibt somit
lim
βm2
1
log(2−N ZN,β,h ) = sup [
+ βhm − I(m)].
N
2
m∈[−1,+1]
2
Dies ist äquivalent zu unserer Behauptung.
Ebenso lässt sich zeigen, dass die Magnetisierung
N
1 X
mN :=
σi
N i=1
unter dem Gibbs-Maß
µN,β,h (σ) =
e−βHN (σ)
ZN,β,h
einem LDP genügt.
Satz 2.9 mN (·) genügt unter dem Gibbs-Maß µN,β,h einem LDP mit Geschwindigkeit N und Ratenfunktion
J(x) = −
βx2
βy 2
− βhx + I(x) + sup [
+ βhy − I(y)],
2
y∈[−1,1] 2
wobei wieder
I(x) =
1+x
1−x
log(1 + x) +
log(1 − x)
2
2
ist.
Beweis: Dies folgt direkt aus den Sätzen über große Abweichungen, die wir zuvor
bewiesen haben, da µN,β,h genau die dortige exponentielle Struktur besitzt.
2
Das Schöne an Prinzipien der großen Abweichungen ist, dass sie auch Gesetze der
großen Zahlen implizieren. Dieses Faktum haben wir schon in Wahrscheinlichkeitstheorie II kennengelernt. Es soll hier kurz wiederholt werden.
37
Satz 2.10 Eine Folge von Zufallsvariablen (Xn )n in Rd genüge einem LDP mit
Rate I(·) und Geschwindigkeit n. Dann gilt für die Menge der Nullstellen
N = {x ∈ Rd : I(x) = 0}
der Ratenfunktion und jedes ε > 0
∞
X
P(Xn ∈ Nεc ) < +∞.
n=1
Hierbei ist
Nε = {x : kx − N k < ε}.
Ist insbesondere N einelementig, so folgt für ν ∈ N
P(Xn → ν) = 1.
Beweis: Da Nεc abgeschlossen ist, I von unten halbstetig und N die Menge der
globalen Minima von I ist, folgt
a := inf c I(x) > 0.
x∈Nε
Aus der oberen Abschätzung der großen Abweichungen folgt, dass für hinreichend
große n
P(Xn ∈ Nεc ) ≤ e−na/2
gilt. Somit ist
X
P(Xn ∈ Nεc ) < +∞.
n
Die fast sichere Konvergenz ist eine unmittelbare Konsequenz dieser Summierbarkeit und des Borel-Cantelli-Lemmas.
2
Wir müssen uns somit, um die Minima von
J(x) = −
βy 2
βx2
− βhx + I(x) + sup [
+ βhy − I(y)]
2
y∈[−1,+1] 2
mit
1−x
1+x
log(1 + x) +
log(1 − x)
2
2
kümmern. Diese Minima erfüllen also
1
1+x
I 0 (x) = log
= β(x + h),
2
1−x
I(x) =
also
1+x
.
1−x
Durch langes Hinschauen erkennt man, dass dies äquivalent ist zu
e2β(x+h) =
e2β(x+h) − 1
x = 2β(x+h)
= tanh(β(x + h)).
e
+1
Man unterscheidet nun verschiedene Fälle:
38
• Ist h > 0, hat diese Gleichung zwei Lösungen, von denen aber nur die positive
ein Minimum von J(·) liefert (die andere ein Maximum).
• Für h < 0 gibt es ebenfalls zwei Lösungen, von denen aber nur die negative
ein Minimum, die positive aber ein Maximum ist.
• Für h = 0 ist die Situation symmetrisch zum Ursprung. Für β ≤ 1 ist x = 0
die einzige Lösung dieser Gleichung und liefert somit ein Minimum von J(·).
Für β > 1 hat die Gleichung allerdings drei Lösungen, von denen die Lösung
x = 0 diesmal ein Maximum von J(·) liefert, die Lösungen, die verschieden
sind von 0 aber Minima.
Zusammen erhält man:
Satz 2.11 Im Curie-Weiss-Modell gelten für die Magnetisierung mN die folgenden
Grenzwertsätze unter µN,β,h .
1. Ist h > 0, so konvergiert mN exponentiell schnell gegen die positive Lösung
von
x = tanh(β(x + h)).
2. Ist h < 0, so konvergiert mN exponentiell schnell gegen die negative Lösung
von
x = tanh(β(x + h)).
3. Ist h = 0 und β ≤ 1, so konvergiert mN exponentiell schnell gegen 0.
4. Ist h = 0 und β > 1, so konvergiert mN exponentiell schnell gegen die beiden
von Null verschiedenen Lösungen von
x = tanh(βx).
5. Insbesondere erhält man
lim lim µN,β,h ◦ m−1
N ⇒ δm∗ (β) ,
h↓0 N →∞
wobei m∗ (β) die größte Lösung von
x = tanh(βx)
ist.
5. ist in der physikalischen Literatur auch als “spontane Magnetisierung” bekannt:
Ein Material, das in ein Magnetfeld gehalten wird, merkt sich dies bei genügend
tiefen Temperaturen und wird selbst magnetisch. Bei hohen Temperaturen bleibt
dieses Phänomen aus.
39
Auf der Ebene der Gesetze der großen Zahlen ist hiermit eigentlich alles gesagt.
Als Wahrscheinlichkeitstheoretiker kann man sich fragen, ob mN auch einem Zentralen Grenzwertsatz genügt und ob sich das kritische Verhalten bei β = 1 auch
hier widerspiegelt. Wir werden der Einfachheit halber hierfür nur den Fall h = 0
betrachten. Der erste Trick besteht nun darin, dass man gar nicht betrachtet, was
einen eigentlich interessiert, nämlich µN,β,0 ◦ m−1
N , sondern eine “geglättete” Version
hiervon.
Lemma 2.12 Betrachte das Maß
χN,β,a = QN ∗ N (0,
a2
),
βN
also die Konvolution des Maßes
QN := µN,β,0 (amN )−1
a
. Hierbei ist a =
mit einer Normalverteilung mit Erwartungswert 0 und Varianz βN
aN möglicherweise abhängig von N . Dann hat QN eine Dichte bezüglich λ1 der Form
x
e−N βΦβ ( a )
fN,β,a (x) = R −N βΦ ( x ) .
β a
e
R
Hierbei ist
Φβ (x) =
1
x2
− log cosh(βx).
2
β
Beweis: Sei A ∈ B 1 . Dann ist
a2
1 X
N (0,
)(A − mN (σ))µN,β,0 (σ)
χN,β,a (A) = N
2
βN
N
σ∈{±1}
r
Z
1 X
βN
− βN2 (x−a2 mN (σ))2
2a
= N
e
dxµN,β,0 (σ)
2 σ
2πa2 A
r
Z
βN
βN
1
1 X − βN2 (x−amN (σ))2
2
=
e 2a
× e 2 mN (σ) dx
2
N
ZN,β,0 2πa A 2 σ
r
Z
1
βN
1 X β x PNi=1 σi
− βN2 x2
2a
e
+
dx
=
ea
ZN,β,0 2πa2 A
2N σ
r
Z
1
βN
− βN2 x2 +N log cosh( βx
)
a dx
2a
=
e
2
ZN,β,0 2πa A
r
Z
1
βN
−N βΦβ ( x
)
a dx.
e
=
2
ZN,β,0 2πa A
Da χN,β,a als Faltung zweier Wahrscheinlichkeitsmaße wieder ein Wahrscheinlichkeitsmaß ist, folgt
r
Z
x
βN
ZN,β,0
=
e−N βϕβ ( a ) dx.
2
2πa
R
40
2
Wir werden nun zunächst einen Zentralen Grenzwertsatz für χN,β,a beweisen, wobei
wir a geeignet wählen. Tatsächlich fällt die Wahl von a nicht schwer: Die Vermutung,
dass√
der Limes von einem geeignet skalierten mN Gaußsch verteilt ist und man mN
mit N skalieren muss, liegt nahe. Betrachten wir also χN,β,√N .
1
)-Verteilung.
Satz 2.13 Für β < 1 konvergiert χN,β,√N gegen eine N (0, β(1−β)
Beweis: Die Dichte hat schon die gewünschte Exponentialstruktur, allerdings muss
noch gezeigt werden, dass nur quadratische Terme im Exponenten überleben. Betrachten wir die Taylor-Entwicklung des log cosh(·), so erhalten wir
log cosh(x) =
x2
+ O(x4 ).
2
Somit hat der Exponent von fN,β,√N (x) die Entwicklung:
x
Nβ x 2
x2
x4
x2
x4
−N β Φβ ( √ ) = −
( √ ) − N β 2 + N βO( 2 ) = − (β(1 − β)) + O( 3 ).
2
N
N
2
N
N
N
Mit Hilfe des Satzes von der majorisierten Konvergenz folgt somit für A ∈ B 1
x2
R
lim χN,β,
N →∞
√
N (A)
A
= R
e− 2 β(1−β) dx
x2
e− 2 β(1−β) dx
R
.
Da limN →∞ χN,β,√N wieder ein Wahrscheinlichkeitsmaß ist, muss
Z
2
− x2 β(1−β)
e
r
dx =
R
β(1 − β)
2π
gelten.
r
β(1 − β) − x2 β(1−β)
e 2
2π
2
1
ist aber die Dichte der N (0, β(1−β)
)-Verteilung.
Aus diesem Satz lässt sich nun auch die Grenzverteilung von
bestimmen.
Satz 2.14 Für alle β < 1 gilt
√
µN,β,0 ◦ ( N mN )1 ⇒ N (0,
41
1
).
1−β
√
N mN unter µN,β,0
Beweis: Das Maß χN,β,√N muss nur noch “entfaltet” werden. Das geschieht so: Ist
√
Y ∼ N (0, β1 )-verteilt, so besagt der vorhergehende Satz gerade, dass Y + N mN ⇒
1
). Ist für eine Zufallsvariable X, ϕX definiert als
N (0, β(1−β)
ϕX (t) = EeitX ,
so folgt
ϕXn +Y → ϕX+Y = ϕX · ϕY
für eine geeignete Zufallsgröße X. Da aber Xn und Y unabhängig sind, und ϕY (t) 6= 0
für alle t, erhalten wir
ϕXn → ϕX .
Der Rest ist eine einfache Varianzberechnung.
2
Satz 3.14 kann für β = 1 offenbar nicht richtig bleiben, denn eine Normalverteilung
mit unendlicher Varianz ist unsinnig. Da β = 1 auch die kritische Temperatur ist,
bei der die Menge der Limespunkte im Gesetz der großen Zahlen von einer einelementigen in eine zweielementige Menge übergeht, sieht man, dass dieses kritische
Verhalten auch auf der Ebene der Fluktuation widergespiegelt wird. Tatsächlich leben die Fluktuationen auf einer ganz anderen (kleineren) Skala. Das lässt sich am
besten an einer Analyse des Maßes χN,1,· erkennen. Da sich bei β = 1 die 2. Ordnungsterme gegenseitig auslöschen, wird der 4. Ordnungsterm in der Entwicklung
des log cosh(·) den
√ liefern. Damit dieser nicht einfach verschwindet,
√ Hauptbeitrag
muss statt aN = N , aN = 4 N gewählt werden.
4
Satz 2.15 χN,1, √
N konvergiert schwach gegen ein Maß χ̄. χ̄ hat eine Lebesguedichte
der Form
1 4
e− 12 x
¯
f (x) = R − 1 x4 .
e 12 dx
R
Beweis: Wieder entwickeln wir die log cosh(·):
log cosh(x) =
x2 x4
+
+ O(x6 ).
2
12
x
) die Entwicklung
Damit ergibt sich für −N Φ1 ( √
4
N
x
x4
x6
−N Φ1 ( √
)
=
−
+
O(N
).
4
12
N 3/2
N
Die Behauptung folgt nun wieder mit Hilfe des Satzes von der majorisierten Konvergenz.
2
4
Im Falle von β = 1 ist das Limesmaß χ̄ der χN,1, √
N auch schon das Limesmaß der
Magnetisierung.
42
Satz 2.16 Bei β = 1 konvergiert
√
4
µN,1,0 ◦ ( N mN )−1
schwach gegen die Verteilung χ̄ aus dem letzten Satz.
√
4
4
Beweis: χN,1, √
ist
die
Verteilung
der
Summe
von
N mN (unter dem Gibbs-Maß
N
1
√
bei Temperatur 1) und einer N (0, N )-verteilten Zufallsvariablen, die davon unabhängig ist. Die letzte geht im Limes N → ∞ in Wahrscheinlichkeit gegen
0. Da
√
4
0 eine Konstante ist folgt daraus die Verteilungskonvergenz von µN,1,0 ◦ ( N m0 )−1
gegen χ̄.
2
Wir haben somit ein Bild davon gewonnen, wie sich der Phasenübergang im CurieWeiss-Modell auf der Ebene
der zentralen Grenzwertsätze widerspiegelt. Tatsächlich
√
lassen sich CLTs für N mN auch für h 6= 0 und für β > 1 beweisen. Hierbei ist
es notwendig, die Maße richtig zu zentrieren und im Falle h = 0, β > 1, darauf
zu bedingen, dass man sich “in der Nähe” von m∗ (β) bzw. −m∗ (β) befindet. Wir
werden dies nicht ausführlicher betrachten, sondern zum Studium des Ising-Modells
übergehen.
3
3.1
Das Hopfield-Modell
Die Zugänge zum Hopfield-Modell
a) Der Spinglaszugang
Eine Erweiterung der Spinsysteme wurde in dem 1970er Jahren entwickelt. Um
amorphe Substanz zu modellieren, modelierte man auch die Verbindungsstärke zwischen zwei Spins als eine zufällig Variable, die vorab und unabhängig von den Spins
realisiert wird. Dies führte 1973 zum sogenannten SK-Modell von Sherrington und
Kirkpatrick. Dieses Modell ist auch heute erst ansatzweise mathematisch verstanden.
Fünf Jahre nach der Entwicklung des SK-Modells durch Sherrington und Kirkpatrick
stellten Pastur und Figotin in drei Arbeiten eine andere Version eines Spinglases vor.
Während im SK-Modell die Hamiltonfunktion die Form
1 X
HNSk (σ) = − √
σi σj Jij
N i<j
mit Jij i.i.d. und standardnormalverteilt, schlagen Pastur und Figotin als Hamiltonfunktion
M
X
1 X
HN (σ) = −
σi σj
ξiµ ξjµ
N i<j
µ=1
vor. Hierbei sind die ξiµ i.i.d. Zufallsvariable mit
1
P(ξiµ = +1) = P(ξiµ = −1) = .
2
43
Dass N1 die “richtige” Skalierung ist, sieht man, wenn man M = M (N ) = N wählt.
In diesem Fall wäre
N
N
X
1 X
1 X
1 X µ µ
µ µ
HN (σ) = −
σi σj
ξi ξj = − √
σi σj √
ξi ξj .
N i<j
N
N
µ=1
µ=1
i<j
Für festes (i, j) sind die (ξiµ , ξjµ ), µ = 1, . . . , N i.i.d. Zufallsvariablen mit ErwarP
tungswert 0 und Varianz 1. Nach dem CLT konvergieren die √1N µ ξiµ ξjµ also gegen
(unkorrelierte) N (0, 1)-verteilte Zufallsvariablen Jij . Zumindest in diesem Limes haben wir also in Verteilung ein SK-Modell. Der Vorteil des soeben skizzierten Modells
liegt u. a. darin, dass sich mit dem Parameter M die Komplexität des Modells bestimmen lässt, je größer M ist, desto komplexer ist das Modell. Fijohn und Postur
untersuchten das Modell für endliches M und fanden dort allerdings nicht die spinglasartigen Strukturen, sondern nur eine Art “Überlagerung” von M Curie-WeißModellen.
b) Der Zugang über neuronale Netzwerke
1983 beschäftigte sich John Hopfield, ein Physiker vom Caltech, mit der Modellierung neuronaler Aktivitäten und entdeckte dabei das später nach ihm benannte
Modell zum zweiten Mal.
Ein Gehirn ist an sich ein chaotisch wirkendes System, bei dem ca. 109 bis 1010
Neuronen miteinander verbunden sind und wechselwirken. Diese Wechselwirkungen
werden über sogenannte Synopsen ausgetaucht. Über diese Synopsen tauschen die
Neuronen elektrische Signale aus. Dabei hängen die von einem Neuron ausgesandten Signale (komplex) von den empfangenen Signalen ab. Da selbst ein einzelnes
Neuron schon bio-chemisch sehr komplex ist, ist die Frage, wie sich ein System sehr
vieler solcher Neuronen analysieren lässt. Der Schlüssel ist zunächst ein Modell, das
verschiedene Vereinfachungsschritte vorsieht. Zunächst werden die Signale der Neuronen in zwei Klassen eingeteilt: “schnell” und “langsam”. Dies bedeutet, dass man
einem Neuron einen Ising-artigen Zustandsraum S = {+1, −1} zuweist. Darüber
hinaus war schon zu Hopfields Zeiten bekannt, dass das Ausgangssignal von dem
gemeinsamen, gewichteten Eingangssignal abhängt. Dies kann modelliert werden
als
hi = fi ({σj }, j ∈ (N (i))).
Hierbei ist (N (i)) die Menge aller Neuronen, die auf Neuron i feuern und fi ist
eine (lokale) Funktion, die die Art der Abhängigkeit des Ausgangssignals vom Eingangssignal bestimmt. Die einfachste Art, die fi zu wählen, ist sicherlich eine lineare
Funktion:
X
fi ({σj }, j ∈ N (i)) =
Jij σj .
j∈N (i)
Da die Jij Neuronen i sowohl dazu bewegen können sollen zu feuern als auch nicht
zu feuern, sollten sie beide Vorzeichen annehmen können. Natürlich müssen die Jij
irgendwie mit der zu speichernden Information zusammenhängen. Wir verfolgen
hierbei ein Konzept, das schon D. Hebb 1949 vorschlug. Die Idee hierbei ist, dass
das Netzwerk “autoassoziativ” sein soll, d. h. falls das Netzwerk sich nahe einer
44
gelernten Eingabe befindet, wird dieses gelernte Muster verstärkt. Hierzu stellen wir
uns vor, dass das Netzwerk die Muster ξ 1 , . . . , ξ M lernen soll. Diese stellen wir uns
schon in der Form vor, in der sie vom Netzwerk rezepiert werden, also
ξ n = (ξiµ )N
i=1
mit ξiµ ∈ {−1, +1} für alle i = 1, . . . , N, µ = 1, . . . , M.
Wir sehen, dass in diesem Fall
M
X X
hi =
ξiµ ξjµ σj ,
j∈N (i) µ=1
d. h. in dem Fall, dass wir uns in einem gelernten Muster befinden, d. h. z. B.
σ = ξ1,
so ist
hi =
M
X X
d. h. σi = ξi1
ξiµ ξjµ ξj1
=
|N (i)|ξi1
j∈N (i) µ=1
∀ i,
M
X X
+
ξiµ ξjµ ξj1 ,
j∈N (i) µ=2
das “lokale Feld” hi , hat also eine das gelernte Muster ξ 1 verstärkende Wirkung.
Schließlich nehmen wir aus Gründen der Einfachheit auch an, dass alle Neuronen
untereinander kommunizieren, d. h., dass N (i) = {1, . . . , N } für alle i gilt. Dann ist
hi =
N X
M
X
ξiµ ξjµ σj .
j=1 µ=1
Wir folgen nun Hopfield und nehmen an, dass die Dynamik des Netzwerkes durch
eine Markov-Kette in kontinuierlicher Zeit gegeben ist. Genauer statten wir alle
Neuronen mit einer Uhr aus, deren Alarm nach einer exp(1)-verteilten Zeit klingelt
(und alle diese Uhren seien unabhängig). Wenn der Alarm von Neuron i losgeht, so
wechselt σi sein Vorzeichen und zwar mit Wahrscheinlichkeiten:
P(σi (t)) = ±1) =
e±βhi /N
.
eβhi /N + e−βhi /N
Es ist leicht nachzurechnen, dass das stationäre Maß dieser Markov-Kette ein GibbsMaß
e−βHN (σ)
µN (σ) = P −βH (σ0 )
N
σ0 e
mit
N
M
N
X
1 X
1 X
µ µ
HN (σ) = −
σi σj
ξi ξj =: −
σi σj Jij
N i,j=1
N
µ=1
i,j=1
ist. Genau diese Hamiltonfunktion haben wir schon eben kennengelernt.
c) Ein Zugang über ein sozio-ökonomisches Modell
Eine Bevölkering bestehend aus N Individuen soll bezüglich ihrer Meinungsbildung
modelliert werden. Hierbei gebe es a priori nur zwei Meinungen “dafür” (= +1)
45
oder “dagegen” (= −1), wobei “für oder gegen was” keine Rolle spielt. Hierbei
ist wieder jedes Individuum i mit einer exp(1)-Uhr ausgestattet und wenn deren
Alarm klingelt, entscheidet sich i erneut. Hierbei ist seine Entscheidung, nennen wir
sie σi , a priori unvoreingenommen, d. h. er oder sie entscheidet sich a priori mit
gleichen Wahrscheinlichkeiten für +1 oder für −1. Allerdings ist jedes Individuum
einem Gruppendruck ausgesetzt. Im einfachsten Fall ist i versucht, sich eher der
Mehrheit als der Minderheit anzuschließen (wir nehmen an, dass diese Meinungen
beispielsweise durch Massenmedien publik gemacht werden). Dies führt zu einem
Curie-Weiß-artigen Model. In einer verfeinerten Version teilen wir die Bevölkering in
soziale Klassen ein. Diese seien der Einfachheit halber binär und paritätisch verteilt
gewählt (dies ist nicht zwingend notwendig, erleichtert aber die Arbeit und soll
für die Zwecke der Vorlesung so angenommen werden). Man habe also M soziale
Kategorien, etwa
∧
ξi1 = +1 = i ist männlich
∧
ξi1 = −1 = i ist weiblich
∧
ξi2 = +1 = i ist reich
∧
ξi2 = −1 = i ist arm
etc. Wenn Individuum i sich entscheiden muss, wird er/sie nun versuchen sich ähnlich zu den Menschen zu entscheiden, mit denen er in vielen sozialen Kategorien
übereinstimmt. D. h. er wichtet die Meinung von Individuum j bei seiner Meinungsbildung, je nachdem in wievielen Faktoren i und j übereinstimmen. Eine Art, den
äußeren Einfluss auf i dann zu messen ist
h̄i =
N M
1 XX µ µ
ξ ξ σj .
N j=1 µ=1 i j
Nimmt man wieder eine Markovsche Dynamik mit
P(σi (+) = ±1) =
e±βhi
eβhi + e−βhi
an, so ist das invariante Maß wiederum das Gibbs-Maß
e−βHN (σ)
µN,β (σ) = P −βH (σ)
N
σ0 e
mit
N
M
1 XX
HN (σ) = −
σi σj ξiµ ξjµ ,
N i,j=1 µ=1
und wir erhalten wieder dasselbe Modell.
3.2
Die Speicherkapazität des Hopfield-Modells
In diesem Abschnitt werden wir uns auf den Aspekt des Hopfield-Modells als neuronales Netz konzentrieren. Hierbei hatten wir gesehen, dass das Hopfield-Modell als
46
autoassoziativer Speicher fungieren soll, d. h. wenn ihm ein “gelerntes” Muster
ξ µ vorgelegt wird, soll das Netzwerk dies wiedererkennen. Nehmen wir für den Beginn M = 1 an, so funktioniert diese Idee in der Tat: Dann ist nämlich in ξ 1 das
lokale Feld
N
X
1
hi (ξ ) =
ξi1 ξj1 ξj1 = N ξi1 .
j=1
Nehmen wir nun an, dass die Temperatur T = 0, d. h. β = +∞ ist, so ist
1
e±βN ξi
P(σi (+) = ±1) = βN ξ1
1.
e i + e−βN ξi
Dies ist 1 oder 0, je nachdem, ob ξi1 = +1 oder ξi1 = −1 ist. M.a.W.: Startet man in
σ = ξ 1 , so behält man exakt dieses Muster bei, das Netzwerk erkennt dieses Muster
wieder. Startet man mit M > 2 Mustern (und sagen wir wieder in σ = ξ 1 ) und
nimmt zusätzlich an, dass diese orthogonal sind, d. h., dass
< ξ µ , ξ ν >=
N
X
ξiµ ξiν = N δµ,ν
i=1
gilt, so kommen ähnliche Ideen zum Tragen. In diesem Fall ist
1
hi (ξ ) =
N X
M
X
ξiµ ξjµ ξj1
j=1 µ=1
=
N ξi1
=
N ξi1
+
M
X
µ=1
ξiµ
N
X
ξjµ ξj1
j=1
und wieder werden die Muster wiedererkannt. In der Regel werden aber zu lernende
Muster nicht orthogonal sein (und sie zu orthogonalisieren ist aufgrund der Grundannahmen für neuronale Netze verboten). In der Literatur der neuronalen Netze
hat es sich bewährt anzunehmen, dass die ξ µ unabhängig und identisch verteilt sind
und aus i.i.d. Komponenten ξiµ mit
P(ξiµ = +1) = P(ξiµ = −1) =
1
2
bestehen. Eine Realisierung solcher ξ 1 , . . . , ξ M erfüllt natürlich in der Regel nicht
die Orthogonalitätskriterien, allerdings gilt
N
1 X µ ν
1
µ ν
< ξ , ξ >=
ξ ξ → δµ,ν
N
N i=1 i i
P-f.s.
für alle µ, ν. Wir fragen uns, ob dies genügt, um das Netzwerk die (ξ µ ) speichern zu
lassen und wie groß M in diesem Fall sein kann. Hierfür ist zum einen zu bemerken,
dass die zu erwartenden Aussagen nur wahrscheinlichkeitstheoretischer Natur sein
können, da die (ξ µ ) ja zufällig sind. Zum anderen wollen wir unter “wiedererkennen”
47
das folgende verstehen: Wir wählen wieder T = 0, d. h. β = +∞. Wir haben
schon gesehen, dass die Dynamik in diesem Fall den Spin σi einfach in die Richtung
des Vorzeichens des lokalen Feldes hi klappt, d. h. die Dynamik ist gegeben durch
T = (Ti )i=1,...,N mit
N X
M
X
Ti (σ) = sgn(
ξiµ ξjµ σj ).
j=1 µ=1
Die Mindestanforderung, die wir nun an das Netzwerk für das “Wiedererkennen”
stellen wollen ist, dass ein gespeichertes Muster ξ µ stabil ist unter T . Die ersten
diesbezüglichen Resultate sind
Satz 3.1 Es sei M = c logNN .
a) Ist c < 12 , so gilt für jedes feste µ
P(Ti (ξ µ ) = ξiµ
∀ i = 1, . . . , N ) → 1,
wenn N → ∞.
b) Ist c ≤ 14 , so gilt
P(Ti (ξ µ ) = ξiµ
∀ i = 1, . . . , N, ∀ µ = 1, . . . , M ) → 1,
wenn N → ∞.
c) Ist c < 16 , so gilt
P(lim inf{Ti (ξ µ ) = ξiµ
∀ i = 1, . . . , N }) → 1.
Beweis: Der Satz folgt im wesentlichen aus der exponentiellen Chebyshev-Ungleichung.
In der Tat genügt es ja zunächst, die Stabilität von ξ 1 zu betrachten. Hierzu kann
wiederum angenommen werden, dass
ξi1 = 1 ∀ i = 1, . . . , N
gilt, da man sonst den i-ten Spin “dreht”, d. h. mit ξi1 multipliziert. Nun ist
Ti (ξ 1 ) = ξi1
N X
M
X
⇔ sgn(
ξiµ ξjµ ξj1 ) = 1
j=1 µ=1
⇔
N X
M
X
ξiµ ξjµ ≥ 0
j=1 µ=1
(der Fall “= 0” erfordert eigentlich noch eine gesonderte Betrachtung, kann hier aber
fortgelassen werden, da er mit einer Wahrscheinlichkeit auftritt, die für N → ∞
48
P PM µ µ
verschwindet). Nun hat N
µ=1 ξi ξj aber die Tendenz, positiv zu sein, da der
PN j=1
1 1
Summand für µ = 1 j=1 ξi ξj = N ist. Ergo
P(Ti (ξ 1 ) 6= ξi1 )
N X
M
X
= P(
ξiµ ξjµ ≤ −N )
j=1 µ=2
P
PM
µ µ
t N
−tN
j=1
µ=2 ξi ξj
≤ e Ee
µ µ
= e−tN (etξi ξj )N M .
Hierbei ist t > 0 und wir haben ausgenutzt, dass die ξiµ ξjµ für j = 1, . . . , N und
µ = 1, . . . , M i.i.d. Bernoulli-Variablen sind (hierfür ist die Struktur der ξiµ wichtig).
Da
2
cosh(x) ≤ ex /2
gilt, folgt
2 N M/2
P(Ti (ξ 1 ) 6= ξi1 ) ≤ e−tN (cosh(t))N M ≤ e−tN et
,
also
2 /2N M
P(∃ i = 1, . . . , N : Ti (ξ 1 ) 6= ξi1 ) ≤ N e−tN +t
Das optimale t ist durch t =
1
M
.
gegeben:
1
P(∃i : Ti (ξ 1 ) 6= ξi1 ) ≤ N e− 2 N M .
Wählt man nun M = c logNN , so sehen wir
1
P(∃i : Ti (ξ 1 ) 6= ξi1 ) ≤ N 1− 2c ,
was für c <
1
2
gegen 0 konvergiert. Ebenso sieht man
1
P(∃µ ∃i : Ti (ξ µ ) 6= ξiµ ) ≤ N M e− 2 N M .
Setzt man wieder M = c logNN , so konvergiert die rechte Seite für c ≤
beweist Teil b).
1
4
gegen 0, dies
Schließlich ist (wieder mit M = c logNN )
1
1
N M e− 2 N M ≤ cN 2− 2c
für c < 16 von der Form cN −κ mit κ > 1, somit summierbar und der letzte Teil des
Satzes folgt aus dem Borel-Cantelli-Lemma.
2
Nun ist natürlich das pure Wiedererkennen eines einmal gelernten Musters nicht
unbedingt das, was man eine assoziative Fähigkeit nennen würde (vielmehr zeigt
das Netzwerk nur, dass es kein Alzheimer hat). Wir wollen nun sehen, was passiert,
wenn ein Teil des Eingabemusters gestört ist:
49
Satz 3.2 Für jedes µ sei ξ˜µ ∈ SrN (ξ µ ), wobei
Sr (x) = {y ∈ {−1, +1}N : d(x, y) = r}
d(·, ·) der Haming-Abstand ist (also die Anzahl der unterschiedlichen Koordinaten),
0 ≤ r < 21 und wir der Einfachheit halber annehmen, dass rN eine ganze Zahl ist.
Dann gilt: Ist
N
M = c · (1 − 2r)2
log N
und
a) c < 21 , so gilt für jedes feste µ
P(Ti (ξ˜µ ) = ξiµ
∀ i = 1, . . . , N ) → 1
mit N → ∞.
b) c ≤ 41 , so gilt
P(Ti (ξ˜µ ) = ξiµ
∀ i = 1, . . . , N, ∀ µ = 1, . . . , M ) → 1,
wenn N → ∞.
c) c < 16 , so gilt
P(lim inf{Ti (ξ˜µ ) = ξiµ }) = 1.
Bemerkung: Da mit ξ µ auch −ξ µ gelernt wird, ist eine “Zerstörungsrate” von rN
mit r < 21 das beste, was wir für eine erfolgreiche Rekonstruktion noch erhoffen
können.
Beweis: Nun ist für festes ξ µ mit ξiµ = +1 ∀ i (o.B.d.A.)
N X
N X
M
X
X
µ
ν ν ˜µ
˜
ξi ξj ξj ) = N (1 − 2r) +
ξiν ξjν ξ˜jµ .
Ti (ξ ) = sgn(
j=1 ν=1
j=1 ν6=µ
Also für alle t > 0
P(Ti (ξ˜µ ) 6= ξiµ ) ≤ e−tN (1−2r) × Eet
P P
j
ν ν µ
ν6=µ ξi ξj ξ̃j
Der Rest des Beweises folgt nun dem vorhergehenden Beweis.
.
2
Bemerkung: Man kann zeigen, dass man die Speicherkapazität des Hopfield-Netzwerkes
N
N
N
wieder auf die bekannten Werte von 2 log
, 4 log
bzw. 6 log
anheben kann, wenn
N
N
N
mehrere Schritte der Dynamik T zulässt. Dies soll aber hier nicht weiter verfolgt
werden.
Wir wollen nun sehen, dass die jeweils unter a) gefundene Schranke in den letzten
N
beiden Sätzen schon optimal ist. Erhöht man M über 2 log
, so vergisst das Netzwerk
N
50
alles. Dieser Abschnitt ist auch methodisch interessant, weil wir das Konzept der
negativen Assoziertheit kennenlernen. Zu diesem Zweck nennen wir
f : Rn → Rx
steigend, falls es bezüglich der Partialordnung ≤ auf Rn steigend ist, wobei
(x1 , . . . , xn ) ≤ (y1 , . . . , yn ) ⇔ xi ≤ yi
∀i = 1, . . . , n.
Definition 3.3 Zufallsvariablen Y1 , . . . , Yn heißen negativ assoziiert, falls für
jedes Paar
A1 , A2 ⊆ {1, . . . , n} mit A1 ∩ A2 = ∅
und je zwei steigende Funktionen
f1 : R|A1 | → R
f2 : R|A2 | → R
gilt
Cov(f1 (Yi |i ∈ A1 ), f2 (Yj |j ∈ A2 )) ≤ 0.
Ein Vektor Y = (Y1 , . . . , Yn ) heißt negativ assoziiert, wenn seine Komponenten es
sind.
Wir sammeln (ohne Beweis) ein paar Fakten über negative Assoziiertheit. Zunächst
stellen wir fest, dass negative Assoziiertheit unter natürlichen Operationen erhalten
bleibt.
Proposition 3.4 Sind Y1 , . . . , Yn negativ assoziierte Zufallsvariablen und ist c ∈ R,
so sind auch cY1 , . . . , cYn negativ assoziiert.
Proposition 3.5 Eine Vereinigung unabhängiger Familien von negativ assoziierten
Zufallsvariablen ist wieder eine Familie negativ assoziierter Zufallsvariablen.
Für einen letzten Erhaltungssatz benötigen wir den Begriff der Permutationsverteilung.
Definition 3.6 Sei y = (y1 , . . . , yn ) ∈ Rn . Der Vektor
Y = (Y1 , . . . , Yn ) ∈ Rn
besitzt eine Permutationsverteilung bezüglich y, falls Y alle n! Permutationen der
Koordinaten von y mit gleicher Wahrscheinlichkeit n!1 annimmt.
Satz 3.7 Besitzt Y eine Permutationsverteilung bezüglich irgendeines y, so ist Y
negativ assoziiert.
51
Schließlich stellen wir fest, dass negative Assoziiertheit ein recht nützliches Konzept
ist.
Proposition 3.8 Seien A1 , . . . , Am ⊆ {1, . . . , n} paarweise disjunkt und f1 , . . . , fm
steigend und nicht-negativ. Dann gilt für negativ assoziierte Zufallsvariablen Y1 , . . . , Yn
E
m
Y
fi (Yj |j ∈ Ai ) ≤
i=1
m
Y
Efi (Yj |j ∈ Ai ).
i=1
Mit Hilfe dieses Konzepts (und einiger technischer Arbeit) lässt sich nun das folgende
Resultat beweisen.
Satz 3.9 Gilt im Hopfield-Modell für M = M (N )
M (N ) ≥ c
N
log N
mit c > 12 , dann gilt für jedes feste µ
lim P[∀ i = 1, . . . , N : Ti ξ µ = ξiµ ] = 0.
N →∞
N
Bemerkung: Dieser Satz stellt somit fest, dass sich das Speicherverhalten bei 2 log
N
drastisch ändert. Ähnliche Gegenpositionen zu Teil b) und c) des vorhergehenden
(positiven) Speicherresultats lassen sich leider (noch) nicht beweisen.
Beweis: Wir können wieder nur ein Muster ξ 1 betrachten und annehmen, dass
ξiµ = 1 für alle i = 1, . . . , N gilt. Damit ist dann zu zeigen, dass
N X
M
X
P[
ξiµ ξjµ ≥ −N
∀ i = 1, . . . , N ) → 0
j=1 µ=2
gilt. Die Hauptschwierigkeit, die uns im vorhergehenden Satz nicht weiter gestört
hat, ist die fehlende Unabhängigkeit der Zufallsvariablen
Xiµ
:=
ξiµ
N
X
ξjµ
j=1
für verschiedene i. Die negative Assoziiertheit wird uns hier einen Ausweg weisen.
Wir definieren
N
1 X µ
√
Wµ =
ξj .
N j=1
52
Dann gilt
N X
M
X
P[
ξiµ ξjµ ≥ −N
∀ i = 1, . . . , n]
j=1 µ=2
=
X
P[∀ i :
M
X
√
ξiµ wµ ≥ − N |Wµ = wµ ∀ µ] × P[Wµ = wµ ∀ µ].
µ=2
{wµ }µ=2,...,M
Hierbei erstreckt sich die Summe rechts über alle Werte wµ , die die Zufallsvariablen
Wµ annehmen können. Setze für w = (wµ )µ=2,...,M
Pw [·] = P[·|Wµ = wµ ∀ µ = 2, . . . , M ].
Dann gehorchen unter Pw die Zufallsvariablen ξiµ einer Permutationsverteilung, denn
da ihre Summe festgelegt ist und sie nur Werte ±1 annehmen können, ist jede
ihrer möglichen Permutationen gleichwahrscheinlich. Somit sind die (ξiµ )N
i=1 unter
Pw negativ assoziiert. Also auch alle
ξiµ , j = 1, . . . , N, µ = 2, . . . , M.
Wendet man nun die Eingangsüberlegung auf die (steigende, nicht-negative) Funktion
1l(−√N ,∞)
an, so erhalten wir
Pw [
M
X
√
ξiµ wµ ≥ − N ∀ i = 1, . . . , N ]
µ=2
N
Y
M
1 X µ
ξi wµ ≥ −1]
≤
Pw [ √
N µ=2
i=1
M
1 X µ
= (Pw [ √
ξ1 wµ ≥ −1])N .
N µ=2
Es bleibt also im wesentlichen
M
1 X µ
Pw [ √
ξi wµ ≥ −1]
N µ=2
zu kontrollieren. Nun sind die ξ1µ unter Pw immer noch unabhängig und, da
wµ ist und die ξjµ identisch verteilt sind, ist
P
ξjµ =
1
wµ
Pw [ξ1µ = ±1] − (1 ± √ ).
2
N
Damit berechnet sich dann
M
M
M
M
1 X µ
1 X
1 X
1
1 X 2
µ
√
√
√
√
Ew (
ξ1 wµ ) =
wµ Ew [ξ1 ] =
wµ
wµ =
w .
N µ=2 µ
N µ=2
N µ=2
N µ=2
N
53
Ähnlich sieht man, dass
M
M
wµ2
1 X µ
1 X 2
wµ (1 −
).
Vw ( √
ξ1 wµ ) =
N µ=2
N
N µ=2
Beide dieser Größen sind mit großer Wahrscheinlichkeit (in den ξiµ ) nahe bei α :=
M (N )
. In der Tat gilt:
N
Lemma 3.10 Für die oben definierten Zufallsvariablen Wµ gilt das folgende: Sei
Ωε,c,N ⊆ Ω die Menge aller Realisierungen von ξiµ = ξiµ (w), für die gilt
M
1 X 2
W e[1 − ε, 1 + ε]
M µ=2 µ
und
sup |Wµ | ≤
p
2c log M .
µ=2,...,M
Dann gilt für ε 1
2 M/8
P[Ωε,c,N ] ≥ 1 − 2e−ε
− M −c+1 .
Beweis: Der Beweis ist nicht weiter schwer. Man beachte, dass
EWµ2 = 1 + E
1 X µ µ
ξ ξ =1
N i6=j i j
ist und die Wµ für verschiedene µ i.i.d. sind. Nach dem Erwartungswert verhält sich
die Ratenfunktion aus den großen Abweichungen nahezu quadratisch mit Steigung
1
. Dies ergibt den einen Term. Der andere folgt aus einer Chebyschev-Ungleichung
8
zusammen mit Standardabschätzungen für log x.
2
Nun schreiben wir
M
M
1 X µ
1 X µ
Pw [ √
ξ1 wµ ≥ −1 + α] = 1 − Pw [ √
ξ1 wµ < −1].
N µ=2
N µ=2
Ist nun α klein, d. h. M N , so sollte
M
1 X µ
P2 [ √
ξ1 wµ < −1]
N µ=2
nahe bei 0 sein, das Ereignis ist untypisch. Es liegt daher nahe, Techniken aus den
großen Abweichungen zu verwenden (in diesem Fall das “Tilten”, die exponentielle
Maßtransformation). Für t ≤ 0 sei
Ptw (·)
:=
Ew [1l{0} et
Ew [et
54
P
µ
µ ξ1 wµ
P
µ
µ ξ1 wµ
]
]
.
Nun ist für jedes δ > 0
M
M
1 X µ
1 X µ
Pw [ √
ξ1 wµ < −1] ≥ Pw [−1 − δ < √
ξ1 wµ < −1]
N µ=2
N µ=2
µ
e−t
µ ξ1 wµ <−1}
P
µ
µ ξ1 wµ
P
µ
] × Ew [et µ ξ1 wµ ]
N
P µ
1 X µ
≥ e−t(−1−δ) Ew [et µ ξ1 wµ ]Ptw [−1 − δ < √
ξ1 wµ < −1].
N µ
= Etw [1l{−1−δ< √1
P
Wir wählen t = t∗ , so dass
8
1 X µ
∗
Etw [ √
ξ1 wµ ] = −1 − .
2
N µ
Eine kleine Rechnung zeigt, dass
Ew [et/
und
√
N ξ1µ wµ
wµ
twµ
twµ
] = cosh( √ ) + √ sinh( √ )
N
N
N
1
twµ
wµ
twµ
Ew [ √ ξ1µ wµ ] = sinh( √ ) + √ cosh( √ ).
N
N
N
N
Also
" wµ
#
tw
√ + tanh( √ µ )
X µ
X
1
1
N
N
ξ1 wµ ] = √
wµ
.
Etw [ √
twµ
1 + √wNµ tanh( √
)
N µ
N µ
N
√
Betrachtet man, dass auf Ωε,c,N die wµ höchstens const. log N sind, nimmt vorweg,
dass t∗ von Ordnung α1 sein wird, so machen wir höchstens einen Fehler der Ordnung
log
√ N , wenn wir den tanh() nur bis zum ersten Term entwickeln. Daher erhalten wir
M
M
X
1
Etw [ √
N
Somit – nimmt man c ≥
log
√ N
M
ξ1µ wµ ]
µ=2
M
1 X 2
=√
wµ (q + t).
N µ=2
vorweg –
1
δ
t∗ = − (1 + + 0(ε)).
α
2
Mit den gleichen Techniken sieht man, dass
e−t1∗(−1−δ) Ew [e
∗ (−1−γ)
= e−t
t∗ √1
π cosh
P
µ
µ ξ1 wµ
]
∗ t wµ
wµ t∗
t wµ
√
1 + √ tanh √
N
N
N
N
∗
1
≥ e− 2α (1+σδ+0(ε)) .
P
Bleibt Ptw [−1 − δ < √1N µ ξ1µ wµ < −1] abzuschätzen. Dies werden wir versuchen,
mittels Chebyschev-Ungleichung zu kontrollieren. Hierfür schätzen wir die Varianz
55
ab:
1 X µ
1 X µ
∗
∗
Ewt ( √
ξ1 wµ − Etw √
ξ1 wµ )2
N µ
N µ
1 X t∗ µ
∗
=
(Ew (ξ1 wµ )2 − (Ewt (xiµ1 wµ ))2 )
N µ


√
"
t∗ wµ #2
√
X
N
+
tanh(
w
/
)
µ
1
twµ
wµ
twµ
N
wµ2 cosh √

=
+ √ sinh √
+ wµ2
wµ
twµ
√
√
N µ
1 + N tanh( N )
N
N
N
= α(1 + 0(ε)).
Verwendet man nun die gewöhnliche Chebyshev-Ungleichung, erhält man damit
α(1 + 0(ε)
1 X µ
ξ1 wµ < −1] ≥ 1 −
.
Ptw [−1 − δ < √
γ2
N µ
Wählt man nun
√
δ = 2 α(→ 0 mit N → ∞),
so folgt
1 X µ
1
Ptw [−1 − δ < √
ξ1 wµ < −1] ≥ .
2
N µ
Somit gilt auf Ωε,c,N in der Tat:
M
1 X µ
ξi wn ≥ −1]
Pw [∀ i = 1, . . . , N √
N µ=2
(2)
1
≤ [1 − e− 2α (1+σδ+0(ε))/2 ]N
1
≤ e−N e− 2α (1+σδ+0(ε))/2 .
Ist nun M ≥
N
c log N
mit c > 12 , so ist
α≥
log N
2−γ
mit einem γ > 0
(wobei wir α → 0 annehmen), so können wir ε und δ wählen, so dass für hinreichend
großes N gilt
1
1
N e− 2α (1+σδ+0(ε)) > δ/4 ,
N
so dass die rechte Seite von (12.1) sehr schnell gegen 0 konvergiert. Da auf der
anderen Seite
P[Ωcε,c,N ] → 0
2
gilt, folgt die Behauptung.
Auf ähnlichen Argumenten (und gleichen Methoden) beruht der Beweis dessen, dass
auch eine der Schranken beim Speichern mit “Fehler” scharf war. Dies soll hier nicht
wiederholt werden, das entsprechende Resultat lautet
56
Satz 3.11 Gilt
M (N ) ≥
c(1 − 2r)2 N
,
log N
so gilt für jedes zufällig ausgewählte ξ˜µ ∈ SrN (ξ µ ) und jedes feste µ
P[Ti ξ˜µ = ξiµ
∀ i = 1, . . . , N ] → 0
mit N → ∞.
Diese Resultate ergeben ein ziemlich präzises Bild der Speicherkapazität des HopfieldModells. Interessanterweise stimmen diese Resultate nicht mit den Simulationen
Hopfields (und anderer) überein und auch die Physiker kamen mit der ReplicaMethode auf andere Ergebnisse: Alle erhielten eine Speicherkapazität von
M = αc N,
wobei αc ≈ 0, 14 war. Allerdings wurde ein Muster auch dann als gespeichert gewertet, wenn bei der Rekonstruktion kleinere Fehler auftraten (die stören im Prinzip
nicht weiter, da αN Muster, die zufällig gewählt werden (α < 1) typischerweise
einen Hamming-Abstand von N2 haben – Rekonstruktionen mit kleinen Störungen
sind also in der Regel eindeutig den Originalmustern zuzuordnen.
Eine mathematische Analyse dieses Sachverhalts geht auf Newman zurück. Verbesserungen seiner Techniken erzielten Lonkianova, Talagrand und Tirozzi.
Satz 3.12 Es gibt ein αc > 0, so dass für
M ≤ αc N,
ε > 0 und 0 < δ <
1
2
existieren, so dass
P[
M
\
hN (ξ µ , δ) > HN (ξ µ ) + εN ] → 1
µ=1
für N → ∞. Hierbei ist
M
1 XX
HN (σ) = −
σi σj ξiµ ξjµ
N i,j µ=1
der Standard-Hopfield-Hamiltonian und
hN (σ) =
min
σ 0 ∈SδN (σ)
HN (σ 0 ).
Bemerkung: Newmans Wert für αc war αc ≥ 0, 056. Dies wurde von Loukianova auf αc ≥ 0, 072 und von Talagrand auf αc ≥ 0, 08 verbessert. Der derzeitige
“Rekord” ist von Tirozzi: αc ≥ 0, 11. Die Simulationsschranke von αc ≥ 0, 14 zu
57
erreichen ist noch nicht gelungen. Insbesondere ist noch größtenteils unklar, was
jenseits dieser Schranke geschieht. Das Theorem besagt dabei grob gesprochen das
folgende: Startet man eine Rekonstruktion bei T = 0 in ξ µ , so erhält man zwar nicht
notwendig ξ µ zurück, aber aufgrund des Energiewalls um ξ µ eine Konfiguration, die
nicht weiter als δN von ξ µ entfernt ist.
Beweis: Wir betrachten das Gegenereignis:
1 − P[
M
\
{h(ξ µ , δ) > H(ξ µ ) + εN }]
µ=1
= P[
M
[
µ=1
≤
[
{H(ξIµ ) ≤ H(ξ µ ) + εN }]
I⊆{1,...,N }
(I)=δN
M
X
X
P[H(ξIµ ) ≤ H(ξ µ ) + εN ].
µ=1 I:|I|=δN
Hierbei ist
(ξIµ )i
=
ξiµ , falls i ∈
/I
.
−ξiµ , falls i ∈ I
Betrachten wir H(ξIµ ) − H(ξ µ ):
M
1 XX µ
(ξI )i (ξIµ )j ξiν ξjν
−
N ν=1 i,j
M
1 XX µ µ ν ν
ξ ξ ξ ξ
N ν=1 i,j i j i j
1 X µ µ µ µ
((ξI )i ξi (ξI )j ξj − ξiµ ξjµ ξjµ )
= −
N i,j
1 XX µ ν µ ν
(ξI )i ξi (ξI )j ξj − ξiµ ξiν ξjµ ξjν .
−
N i,j ν6=µ
+
Wieder können wir der Einfachheit halber annehmen, dass ξiµ ≡ 1 ∀ i = 1, . . . , N
gilt. Ferner sei I = {1, . . . , δN } (und δN eine ganze Zahl). Dann ist
1 X µ
(ξ )i (ξIµ )j − 1
HN (ξIµ ) − HN (ξ µ ) = −
N i,j I
1 XX µ ν µ ν
−
(ξ )i ξ (ξ )j ξ − ξiν ξjν .
N i,j ν6=µ I i I j
Wir sehen, dass ein Summand in der obigen Summe genau dann nicht 0 ist, wenn
i ∈ I und j ∈ I c oder i ∈ I c oder j ∈ I ist. In diesem Fall ergibt der Summand
gerade −2ξiν ξjν . Also
HN (ξIµ ) − HN (ξ µ ) = 4δ(1 − δ)N +
58
4 XXX ν ν
ξ ξ .
N i∈I j∈I c ν6=µ i j
Sonst ist zu zeigen, dass
P[
4 XXX ν ν
ξ ξ ≤ εN − 4δ(1 − δ)N ]
N i∈I j∈I c ν6=µ i j
für geeignetes ε und δ hinreichend schnell gegen 0 geht, denn es wird ja anschließend
N
noch mit M und δN
multipliziert (für die Auswahl der µ und der Mengen I). Mit
der üblichen exponentiellen Chebyshev-Ungleichung erhalten wir für alle t ≥ 0
P[
4 XXX ν ν
ξ ξ ≤ εN − 4δ(1 − δ)N ]
N i∈I j∈I c ν6=µ i j
≤ et(εN −4δ(1−δ)N ) Ee−
−t4
N
P
= etN (ε−4δ(1−δ)) (E exp(−
i∈I
P
j∈I c
P
ν ν
ν6=µ ξi ξj
4t X X 1 1 m−1
.
ξ ξ )
N i∈I j∈I c i j
Bedauerlicherweise kann man nun nicht der üblichen Chebyshev-Maschinerie folgen,
denn ξi1 ξj1 sind nicht unabhängig für i, j ∈ I × I c . Allerdings sind sie bedingt unabhängig, wenn man die ξi1 , i ∈ I bzw. ξj1 , j ∈ I c fest lässt. Bezeichnen wir mit EI
und EI c Erwartungswerte bezüglich von Variablen mit Indizes in I bzw. I c , so ist
4t
Ee− N
P
i∈I
P
j∈I c
ξi1 ξj1
4t
= EI EI c e− N
P
i∈I
P
j∈I c
ξi1 ξj1
= EI EI c .
Nun ist
EI c exp(−
Y
4t X X 1 1
4t X 1
ξi ξj ) =
ξi )
cosh(
N i∈I c j∈I c
N
c
i∈I
j∈I
P
1
Y
4t
i∈I ξi
√
)
=
cosh( √
N
N
j∈I c
P
1
Y
1 4t
i∈I ξi 2
√
≤
exp( ( √
))
2 N
N
j∈I c
P
Y
4tzj i∈I ξi1
√
).
=
(EZj exp( √
N
N
c
j∈I
Hierbei seien die zj unabhängige Gaußsche Zufallsvariable, N (0, 1)-verteilt, und wir
haben die bekannten Beziehungen
1 2
cosh(x) ⊆ e 2 x
und
e
x2 /2
1
=√
2π
Z
∞
1 2
+xz
e− 2 z
dz
−∞
ausgenutzt. Also
E exp(−
XX
4t X X 1 1
zj ξ 1
ξi ξj ) ≤ E(zj )j∈I c EI exp(
4t √ √i ).
N i∈I j∈I c
N N
i∈I j∈I c
59
Nun vertauschen wir die Rollen von I und I c und erhalten für weitere i.i.d. N (0, 1)verteilte Zufallsvariable
X zi X zj
4t X X 1 1
√
√ )
E exp(−
ξi ξj ) ≤ E(zj )j=1,...,N exp(4t
N i∈I j∈I c
N
N
c
i∈I
j∈I
X zi X
p
z
√
p j
= Ez exp(4t δ(1 − δ)
).
δN j∈I c (1 − δ)N
i∈I
P
Nun sind ( i∈I
√zi ,
δN
P
j∈I c
√
zj
(1−δ)N
) in Verteilung gleich einem Vektor (Z, Z̃), wo-
bei z und z̃ i.i.d. N (0, 1)-verteilt sind. Also
√
4t X X 1 1
2
ξi ξj ) ≤ Ez,z̃ e4t δ(1−δ )Z z̃ .
E exp(−
N i∈I j∈I c
Die rechte Seite existiert nur für hinreichend kleines t, lässt sich in dem Fall aber
explizit berechnen. In der Tat ist für genügend kleines γ
Z Z
1 2 1 2
1
γz z̃
eγzz̃− 2 z − 2 z̃ dzdz̃
Ez,z̃ e
=
2π
Z Z
γ 2 z̃ 2
1 2
1
2 2
2
=
e− 2 (z −2γzz̃+γ z̃ ) dz e 2 e−z̃ /2 dz̃
2π
Z
z̃ 2
1
1
2
= √
e− 2 (1−γ ) dz̃ = p
.
2π
1 − γ2
Nach einer Variablentransformation
p
t̃ = t δ(1 − δ)
ist also
1 XXX ν ν
ξ ξ ≤ εN − 4δ(1 − δ)N ]
N i∈I j∈I c ν6=µ i j
!
M
(εN −4δ(1−δ)) tN
1
√
≤ exp p
1 − 16t
δ(1 − δ)
P(
= exp
tN
p
δ(1 − δ)
!
(εN −4δ(1−δ))
−
M
log(1 − 16t) .
2
Nun lässt sich t so wählen, dass dieser Ausdruck im wesentlichen durch
p
exp(−const N δ(1 − δ))
gegeben ist. Nun ist
M
X
X
P(HN (ξIµ ) − HN (ξ µ ) ≤ εN )
µ=1 I:|I|=δN
p
N
≤ M
exp(−const. N δ(1 − δ))
δN
√
∼
= M eN (δ log δ+(1−γ) log(1−δ))−const.N δ(1−γ) ,
60
wobei man für die Abschätzung der Binomialkoeffizienten die Stirlingsche Formel
benutzt. Nun ist für δ 1
δ log δ + (1 − δ) log(1 − δ) ≈ δ log δ
und
p
δ(1 − δ) ≈
√
δ1.
Nun überprüft man schnell, dass
√
δ log δ|δ=0 = 0 und
δ 1 |δ=0 = 0
sowie
∂
∂√
δ
(δ log δ) = 1 + log δ <
∂δ
∂δ
für eine Umgebung von δ = 0, somit können wir ein hinreichend kleines δ finden, so
dass es für dieses δ eine Konstante C gibt mit
[[
P(
HN (ξIµ ) − HN (ξ µ ) ≤ εN ) ≤ M e−N c .
µ
I
Dies konvergiert exponentiell schnell gegen 0.
3.3
2
Die Thermodynamik des Hopfield-Modells
Die Thermodynamik des Hopfield-Modells kann wieder über verschiedene Zugänge
studiert werden. Der einfachste ist die Betrachtung der freien Energie. Dies wurde
z. B. von Vermet in seiner Dissertation durchgeführt. Eine andere ist die Analyse der
Gibbs-Maße, die im Regime M N sehr einer Überlagerung von Gibbs-Maßen im
Curie-Weiss-Modell ähnelt. Diese Analyse stammt i.w. aus einer Reihe von Arbeiten
von Bovier und Gayroid.
. Dann gilt:
Satz 3.13 Sei α = lim M
N
1. Ist β < 1, so folgt
1
log 2
α
α
lim f¯N,M,β = lim −
log EZN,M,β = −
+
log(1 − β) + .
N →∞
βN
β
2β
2
α≥0
N →∞
α≥0
2. Ist β > 1, so ist
lim f¯N,M,β = −∞
M,N →∞
und
p
log 2 m
x2
lim f¯N,M,β = −
+
inf { log cosh( βx)}
N →∞
β
β x∈R 2
endlich.
61
Beweis: Die zentrale Idee ist es, Gaußsche Hilfsvariablen einzuführen, um die quadratische Form in der Hamiltonfunktion zu linearisieren. Diese Idee haben wir schon
im Falle der Hubbard-Stratonovich-Transformation kennengelernt. Nun ist
X
Y β µ 2
ZN,M,β =
e 2N <ξ ,σ> ,
σ∈{−1,+1}N µ=1
0
wobei < ·, · > das Standardskalarprodukt im RN bezeichnet. Wegen
r Z
a 2
a
x2 /2a
e
=
e− 2 t +tx dt
2π R
folgt
ZN,M,β
N
= ( )M/2
2π
Z
X
RM
N
e− 2
PM
µ=1
√ P
PN
µ
x2µ + β M
µ=1 xµ
i=1 σi ξi
dx,
σ∈{±1}N
wobei x = (x1 , . . . , xM ) ist. Nun kann man (wie bei der Hubbard-StratonovichTransformierten) die Integration über die σi schnell ausführen und erhält mit Fubini
r Z
√
N x2
N
N
e− 2 +N log cosh( βx) ]M .
EZN,M,β = 2 [
2π R
Die Laplacesche Methode sagt nun, dass sich dieses Integral asymptotisch wie das
Maximum des Integranden verhält. Wir bekommen somit
p
log 2
M
N
M
x2
f¯N,M,β = −
−
log
−
inf { − log cosh βx} + RN
β
2βN
2π
β x∈R 2
mit RN → 0 für N → ∞. Nun kennen wir schon aus dem Studium des Curie-WeissModells, dass für β > 1
inf {
x∈R
p
x2
− log cosh( βx)} = cβ < 0
2
gilt. Also gilt für jede Wahl von M (N ) mit
lim M (N ) = +∞,
N →∞
dass
lim f¯N,M,β = +∞.
N →∞
M →∞
Ist umgekehrt M (N ) ≡ M endlich, so überleben die beiden äußeren Terme
p
log 2 M
M
x2
lim f¯N,M,β = −
−
−
inf { − log cosh βx}.
N →∞
β
β
β x∈R 2
Ist umgekehrt β < 1, so gilt
inf {
x∈R
p
x2
− log cosh( βx)} = 0
2
und somit
62
??
2
Dieses Resultat klärt das Verhalten der sogenannten “annealten” freien Energie.
Zuerst ist das Verhalten der “gequenchten” freien Energie
lim fN,M,β = lim −
N →∞
N →∞
1
log ZN,M,β
βN
bzw.
lim E fN,M,β = E lim −
N →∞
N →∞
1
log ZN,M,β
βN
interessanter und wichtiger. Wir zitieren hier nur ein Resultat von Bovier, Gayrard,
Picco bzw. Vermet.
Satz 3.14 Sei limN →∞
M (N )
N
= α ∈ [0, 1) und δ ∈ (0, 1), so dass
√
δ − 4 α(1 − δ) > 0.
Sei
Φδ : (0, ∞) × R → R
1
1−δ 2
(β, h) 7→ − log cosh(βh) +
h.
β
2
Definiere die Funktion ψ1 und ψ2 mittels
ψ1 (β, α, δ) = min Φδ (β, h) −
h∈R
√
log 2 α
+ log(δ − 4 α(1 − δ))
β
β
und
ψ2 (β, α) = min Φ0 (β, h) −
h∈R
log 2
.
β
Dann gilt für jedes β > 0:
1. Für P-fast alle (ξiµ )i,µ gilt
ψ1 (β, α, δ) ≤ lim inf fN,M,β ≤ lim sup fN,M,β ≤ ψ2 (β, α).
N →∞
M/N →α
N →∞
M/N →α
2. Es gilt
ψ1 (β, α, δ) ≤ lim inf E fN,M,β ≤ lim sup E fN,M,β ≤ ψ2 (β, α).
N →∞
M/N →α
N →∞
M/N →α
63
Aus diesm Resultat lässt sich durch α = 0 und δ ↓ 0 folgern, dass die freie Energie
im Hopfield-Modell für “kleine Ladyszahlen”, d. h. α = 0, gegen die freie Energie
des Curie-Weiss-Modells konvergiert.
Eine weitere wichtige Eigenschaft des Hopfield-Modells und vieler anderer Spingläser
ist die sogenannte Selbstmittlungseigenschaft bestimmter makroskopischer Größen.
Diese Eigenschaft besagt im wesentlichen, dass eine solche makroskopische Größe
fast sicher oder in Wahrscheinlichkeit gegen ihren Erwartungswert konvergiert –
ist also im wesentlichen ein Gesetz der großen Zahlen. Diese Resultate haben eine
lange Geschichte in der Spinglastheorie. Wir werden hier nur die Selbstmittlungseigenschaft der freien Energie im Hopfield-Modell und dies auch nicht unter den
best-möglichen Bedingungen. Dafür lernen wir aber eine Methode kennen, die sich
auch anderenorts beim Studium von Spingläsern bewährt hat.
Satz 3.15 Sei β > 0 und
√
M (N ) ≤ γ(N ) N
mit
γ(N ) −→ 0.
N →∞
Dann gilt
lim E[(fN,M,β − E fN,M,β )2 ] = 0.
N →∞
M →∞
Beweis: Wähle t ∈ [0, 1] und betrachte anstelle des Original-Hamiltonians
M
1 XX µ µ
ξ ξ σi σj
HN (σ) = −
N µ=1 i,j i j
den mofidizierten Hamiltonian
H̃N (σ, k, t) = −
M
N
M N
1 XX µ µ
t XX µ µ
ξi ξj σi σj −
ξ ξ σi σk .
N µ=1 i,j=1
N µ=1 i=1 i k
i,j6=k
Hier ist 1 ≤ k ≤ N . Offenbar ist
H̃N (σ, k, 1) = HN (σ).
Für die Hamiltonfunktion H˜N definieren wir die modifizierte Zustandssumme
X
Z̃N,M,β (h, t) =
exp(−β H̃N (σ, k, t)).
σ∈{±1}N
Die entsprechende freie Energie ist
1
f˜N,M,β (h, t) = −
log Z̃N,M,β (k, t)
βN
und das modifizierte Gibbs-Maß ist
P
µ̃N,M,β (·, k, t) =
2
e−βHN (σ,kt) 1l(·) (σ)
Z̃N,M,β (k, t)
64
.
Nun führen wir die σ-Algebra
Fk = σ(ξ1µ , . . . , ξkµ , µ = 1, . . . , M )
ein. Hierbei ist
F0 = {∅, Ω}.
Offenbar gilt
fN,M,β − E fN,M,β =
=
N
X
k=1
N
X
[E(fN,M,β |Fk ) − E(fN,M,β |Fk−1 )]
[E(f˜N,M,β (k, 1)|Fk ) − E(f˜N,M,β (k, 1)|Fk−1 )].
k=1
Man kann nachrechnen, dass die Summanden für verschiedene k orthogonal (im
L2 -Sinne) sind. Nun gilt trivialerweise für g ∈ e1 ([0, 1))
Z
1
g(1) = g(0) =
0
dg
(t)dt.
dt
Für die Anwendung folgern wir zunächst, dass
E(f˜N,M,β (k, 0)|Fk ) − E(f˜N,M,β (k, 0)|Fk−1 ) = 0,
weil der Anteil von f˜N,M,β (k, t), der messbar bezüglich Fk abr nicht bezüglich Fk−1
ist, durch
M
t XX µ µ
−
ξ ξ σi σk
N µ=1 i6=k i k
gegeben ist, also für t = 0 verschwindet. Also bleibt noch der Ableitungsterm zu
kontrollieren; dies ergibt
fN,M,β − E fN,M,β
M N
N Z
1 X 1XX
=
N k=1 0 µ=1 i=1
i6=k
[E(ξiµ , ξkµ µ̃N,M,β (σi σk , k, t)|Fk−1 )
− ξkµ E(ξiµ µ̃N,M,β (σi σk , k, t)|Fk ]dt.
Da trivialerweise
µ̃N,M,β (σi σk , k, t) ≤ 1,
folgt aus der Orthogonalität der Summanden
2
E[(fN,M,β − E fN,M,β
]≤
Dies konvergiert nach Voraussetzung gegen 0.
65
4M 2
.
N
2
Wir haben schon bei der Analyse der freien Energie gesehen, dass das HopfieldModell für kleine M Ähnlichkeit mit dem Curie-Weiss-Modell aufweist. Um dies
Ähnlichkeit noch weiter aufzuzeigen, führt man Schritte durch, die auch bei der Analyse des Curie-Weiss-Modells hilfreich waren, mit N ?? die Hubbard-StratonovichTransformation. Da die Beweise technisch entweder sehr ähnlich zu den Beweisen im
Curie-Weiss-Fall sind oder sehr aufwendig, geben wir hier nur die Resultate. Dazu
ist es zunächst wichtig zu bemerken, dass die Hamilton-Funktion im Hopfield-Modell
eine Funktion des Overlaps
mN (σ) = (mµN (σ))M
m=1
mit
mµN (σ)
N
1 X µ
σi ξi
=
N i=1
ist. In der Tat gilt ja
HN (σ) = −N kmN k22 ,
wobei k · k22 das Quadrat der Euklidischen Norm in Rµ ist. Daher ist die Verteilung
von mN unter µN,β für die Analyse des Modells relevant:
νN,β := µN,β ◦ (mN )−1 .
Weiter wollen wir auch die Verteilung des Overlaps mit einem äußeren Magnetfeld
in eine bestimmte Richtung studieren. Diese sei o.B.d.A. ξ 1 . Mathematisch drückt
sich dies in der Hamiltonfunktion als
HN,n (σ) = HN (σ) − h
N
X
σi ξi1
i=1
aus. Das zugehörige Gibbs-Maß ist
e−βHN,h (σ)
µN,β,h (σ) =
ZN,β,h
mit
ZN,β,h =
X
e−βHN,h (σ) .
σ∈{±1}
Schließlich ist die Verteilung von mN unter µN,β,h
νN,β,h = µN,β,h ◦ m−1
N .
Die Analyse der νN,β bzw. νN,β,h verläuft wieder über die Hubbard-StratonovichTransformierte. Für diese erhält man z. B. für νN,β :
Lemma 3.16 Sei
QN,β := νN,β ∗ N (0,
66
1
),
βN
1
wobei in diesem Fall N (0, βN
) eine M -dimensionale Gauß-Verteilung mit Erwartungswertvektor 0 und Kovarianzmatrix
1
C=
IdM
βN
ist. Dann ist QN,β stetig bezüglich λµ mit Dichte
fN,β (x) =
mit
exp(−N βΦβ,N (x))
ΞN,β
M
N
1 X
1X 2
x −
log cosh(β < ξi , x >),
Φβ,N (x) =
2 µ=1 µ βN i=1
wo < ·, · > das Skalarprodukt im RM ist.
2
Beweis: Der Beweis funktioniert wie im Curie-Weiss-Modell.
Für endliches, von M unabhängiges M konvergiert ΦN,β (x) fast sicher gegen:
1
1
Φβ (x) := kxk22 − E log cosh(β < ξ1 , z >),
2
β
wächst aber M , so müssen die Fluktuationen von ΦN,β (x) und Φβ (x) kontrolliert
werden. Danach kann man die Minima von Φβ (·) analysieren und versuchen, die
Varadhan-Laplace-Methode anzuwenden. (Hierbei ist eine Schwierigkeit, dass untypischerweise in diesem Fall die Dimension des Raumes mit N wächst – diese Schwierigkeit ist jedoch nicht unüberwindbar.) Auf diese Weise lassen sich viele Resultate
über das Hopfield-Modell erzielen (der interessierte Leser sei auf eine ganze Serie
von Arbeiten von Bovier und Gayrord verwiesen, ebenso etliche Arbeiten von Talagrand, daneben Arbeiten von Gentz, Löwe u. a.), unter anderem auch das folgende
Resultat, das sehr an den Phasenübergang im Curie-Weiss-Modell erinnert:
Satz 3.17 (Bovier, Gayrord, Picco): Sei M (N ) dergestalt, dass
∞. Dann gilt für reelles h:
M (N )
N
→ 0 mit N →
lim νN,β,h ⇒ δm∗ (β)e1 ,
h↓0
wobei e1 den ersten Einheitsvektor im RM bezeichnet und m∗ (β) die größte Lösung
der Curie-Weiss-Gleichung
m = tanh(βm).
Der relativ längliche Beweis soll hier nicht geführt werden.
Auf ähnliche Weise lassen sich zentrale Grenzwertsätze u.v.m. für M N auf das
Hopfield-Modell übertragen. Auch für M = αN für sehr kleines α sind noch Konvergenzaussagen erhältlich. Leider fehlen aber bis zum heutigen Zeitpunkt jedwede
Ergebnisse für den interessanten Spinglasfall
M = αN
und α “groß”, z. B. α = 1.
67

Zugehörige Unterlagen

Analysis II für Studierende der Ingenieurwissenschaften

1.Teil

Zugehörige Unterlagen

Produkte

Unterstützung

1.Teil

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können