Mathematische Modelle WS2011/12

Werbung
Mathematische Modelle WS2011/12
Michael Schmuckenschläger
INHALTSVERZEICHNIS
ii
Inhaltsverzeichnis
1
2
Diffusionshalbgruppen
1.1 Diffusions- und Schrödingeroperatoren . . . . .
1.2 Maximumprinzip für Diffusionsoperatoren . . .
1.3 Die Ornstein-Uhlenbeck Halbgruppe . . . . . . .
1.4 Die Ornstein-Uhlenbeck Halbgruppe auf L p (γn )
1.5 Log-Sobolev Ungleichung für γn . . . . . . . . .
Markovketten
2.1 Neuronale Netze und Markovketten . . . .
2.2 Markovsche Übergangsmatrizen . . . . . .
2.3 Markovoperatoren . . . . . . . . . . . . . .
2.4 CLT für Markovketten . . . . . . . . . . . .
2.5 Ein probabilistisches Modell der Diffusion .
2.6 PageRank . . . . . . . . . . . . . . . . . . . .
2.7 Hastings bzw. Gibbs Algorithmus . . . . .
2.8 Der Entropiesatz . . . . . . . . . . . . . . .
Literatur: [?], [?], [?], [?], [?], [?], [?], [?], [?], [?].
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
4
7
15
16
.
.
.
.
.
.
.
.
20
20
21
24
26
27
28
29
33
1
1 Diffusionshalbgruppen
1.1 Diffusions- und Schrödingeroperatoren
Im folgenden sei Ω ein Gebiet in Rn , d.h. Ω ist eine offene und zusammenhängende
Teilmenge von Rn . Weiters seien für j, k = 1, . . . , n glatte Funktionen a jk , b j : Ω →
R definiert – dann sind a jk und b j lokal beschränkt sind, d.h. sie sind auf jeder
kompakten Teilmenge von Ω beschränkt, so daß für alle x ∈ Ω die n × n-Matrix
A( x ): = ( a jk ( x )) symmetrisch und strikt positiv definit ist. Dann nennt man den
Operator
n
H f ( x ): = −
∑
a jk ( x )∂ j ∂k f ( x ) + ∑ b j ( x )∂ j f ( x )
j,k=1
(1)
j
einen Diffusionsoperator auf Ω. Unter dem Γ-Operator eines Diffusionsoperators H versteht man den Operator
Γ( f , g): = 21 (−H( f g) + f H g + gH f ) =
∑ a jk ∂ j f ∂k g .
(2)
j,k
Ferner ist für jede glatte Funktion u : R → R:
H u ◦ f = u′ ( f )H f − u′′ ( f )Γ( f , f )
(3)
Sei h : Ω → R+ und Hh f : = H( h f )/h die h-Transformierte des Operators H. Es
gilt:
Hh f = H f − 2Γ( f , log h) + (H h/h) f .
(4)
Hh ist i.a. kein Diffusionsoperator sondern ein sogenannter Schrödingeroperator.
Ist H ein Diffusionsoperator und V : Ω → R, so nennt man den durch HV f ( x ): =
H f ( x ) + V ( x ) f ( x ) definierten Operator einen Schrödingeroperator mit dem Potential V.
Unter einem Geschwindigkeitsmaß eines Diffusionsoperators H auf Ω versteht
man ein Maß µ mit der Dichte ρ, so daß für alle f , g ∈ Cc∞ (Ω):
Z
H f ( x ) g( x ) µ(dx ) =
Z
f ( x )H g( x ) µ(dx ) .
Dies bedeutet, daß der Diffusionsoperatorperator H ein symmetrischer linearer Operator auf dem Unterraum Cc∞ (Ω) des Hilbertraumes L2 (µ) ist. Das Geschwindigkeitsmaß des Schrödingeroperators HV ist dasselbe wie das Geschwindigkeitsmaß des Diffusionsoperators H. Ein solches Maß muß i.a. nicht existieren; wir betrachten im weiteren nur einen besonderen Fall, nämlich a jk ( x ) = δjk
und b j ( x ) = ∂ j U ( x ) mit einer glatten Funktion U : Ω → R.
1 DIFFUSIONSHALBGRUPPEN
2
Proposition 1.1.1 Sei U : Ω → R+ glatt und H ein Diffusionsoperator auf Ω mit
a jk ( x ) = δjk und b j ( x ) = ∂ j U ( x ). Dann ist für jede Konstante c > 0 durch ρ( x ) =
ce−U ( x) die Dichte eines Geschwindigkeitsmaßes von H gegeben. Ferner gilt für alle
f , g ∈ Cc∞ (Ω):
Z
Z
H f ( x ) g( x ) µ(dx ) =
Γ( f , g)( x ) µ(dx ) .
B EWEIS : Nach partieller Integration erhalten wir:
Z
H f ( x ) g( x ) µ(dx ) =
Z
=
Z
=
Z
=
Z
− ∑ ∂2j f gρ + ∑ b j ∂ j f gρ dλ
j
j
∑ ∂ j f ∂ j ( gρ) + ∑ bj ∂ j f gρ dλ
j
j
∑ ∂ j f ∂ j gρ + ∂ j f ∂ j ρg + ∑ bj ∂ j f gρ dλ
j
j
∑ ∂ j f ∂ j gρ + ∂ j f g(∂ j ρ + bj ρ) dλ
j
Nach Voraussetzung ist aber ∂ j ρ + b j ρ = ∂ j (e−U ) + ∂ j Ue−U = 0.
B EMERKUNGEN: 1. ρ: = e−U ist genau dann ein Geschwindigkeitsmaß des Diffisionsoperators 1, wenn
∑ a jk ∂k U = bj + ∑ ∂k a jk .
∀j :
k
k
Definieren wir die j-te Komponente von g : Ω → Rn durch g j : = ∑k ∂k a jk , so
ist die obige Beziehung genau dann erfüllt, wenn x 7→ A−1 ( x )(b( x ) + g( x )) ein
Gradientenfeld ist. Insbesondere folgt für n = 1: U ′ = (b + a′ )/a.
2. Die Matrix ( g jk ): = A−1 ist wie A eine strikt positiv definite symmetrische Matrix und definiert somit eine Riemannsche Metrik auf Ω. Der Laplace-Operator
der Riemannschen Mannigfaltigkeit M: = (Ω, ( g jk )) ist dann gegeben durch:
∆ M f = − ∑ a jk ∂ j ∂k f + ∑ b j ∂ j f ,
j,k
j
√
√
wobei b j : = −(∑k ∂k ( a jk G )/ G und G: = det( g jk ) = 1/ det A.
Proposition 1.1.1 zeigt u.a. auch den Grund für das negative Vorzeichen in der
Definition eines Diffusionsoperators (1): H wird dadurch zu einem positiven
Operator, d.h. für alle f ∈ Cc∞ (Ω) gilt:
Z
H f ( x ) f ( x ) µ(dx ) ≥ 0 .
1.1 Diffusions- und Schrödingeroperatoren
3
R
Wir nehmen weiters noch an, daß e−U dλ < ∞, dann können wir erstens die
Konstante c in Proposition 1.1.1 so wählen, daß µ ein Wahrscheinlichkeitsmaß auf
Ω ist, und zweitens ist Cc∞ (Ω) dicht in L2 (µ) (dazu reicht es, daß µ ein Radonmaß
ist)! Unter diesen Bedingungen existiert eine symmetrische Markovhalbgruppe
Pt , t ≥ 0, auf L2 (µ) mit dem Generator −H, d.h. Pt ist für alle t ≥ 0 ein selbstadjungierter Operator auf L2 (µ) mit folgenden Eigenschaften:
1. P0 = id und für alle s, t ≥ 0 gilt: Ps Pt = Ps+t – Halbgruppeneigenschaft!
2. Für alle t ≥ 0 gilt: k Pt k ≤ 1 – man sagt: Pt ist eine Kontraktionshalbgruppe.
3. Ist 0 ≤ f ≤ 1, so ist 0 ≤ Pt f ≤ 1.
4. Für alle Funktionen f ∈ Cc∞ (Ω) gilt:
lim 1t ( Pt f − f ) + H f = 0 .
(5)
t →0
Es ist genau diese Beziehung, die man meint, wenn man sagt, daß −H der Generator der Halbgruppe Pt ist.
Es folgt dann für alle f ∈ L2 (µ): limt→0 k Pt f − f k = 0 – man sagt: die Halbgruppe Pt ist stetig. Falls ferner noch Pt 1 = 1, dann nennt man die Halbgruppe Pt
konservativ.
Setzen wir für f ∈ Cc∞ (Ω): u(t, x ): = Pt f ( x ), so besagt die Gleichung (5) i.w., daß
u eine Lösung der sogenannten Wärmeleitungsgleichung: ∂t u = −H u ist mit
u(0, x ) = f ( x ).
Das wohl bekannteste Beispiel ist die Wärmeleitungsgleichung auf Rn : ∂t u =
−∆u mit der Lösung:
u(t, x ): = Pt f ( x ): = e
−t∆
f ( x ): = (4πt)
−n/2
Z
f (y)e−k x−yk
2
/4t
dy .
(6)
B EMERKUNG: In vielen Fällen ist eine konservative, symmetrische Markovhalbgruppe Pt auf z.B. L2 (Rn , µ) – µ ist hierbei das normierte Geschwindigkeitsmaß
– auch eine stetige Kontraktionshalbgruppe auf C0 (Rn ). Die duale Halbgruppe
Pt∗ : M (Rn ) → M (Rn ) auf dem Raum M (Rn ) aller endlichen, signierten Borelmaße mit der Norm kνk : = sup{|ν( A)| : A ∈ B(Rn )} ist zwar i.a. keine stetige Halbgruppe, sie hat aber erstens die Eigenschaft, daß sie ein Wahrscheinlichkeitsmaß auf ein Wahrscheinlichkeitsmaß abbildet und zweitens ist µ unter
ihr invariant, d.h.R für alle t ≥ 0 gilt: Pt∗ µ = µ, denn
R wegen HR1 = 0 gilt fRür alle
f ∈ C0 (Rn ): t 7→ Pt f dµ ist konstant; damit folgt: f dPt∗ µ: = Pt f dµ = f dµ,
also: Pt∗ µ = µ.
Diskretisierung: Wir betrachten der Einfachheit halber einen Diffusionsoperator
H auf dem Torus! Zu jedem N ∈ N sei für k ∈ Z N : zk = e2πik/N und yk (t): =
u(t, zk ), ak = a(zk ) und bk : = b(zk ). Setzen wir δ: = 2π/N, so wählen wir für
u′ (zk ) bzw. u′′ (zk ) folgende Näherungen:
y k +1 − y k −1
2δ
bzw.
yk+1 − 2yk + yk−1
δ2
1 DIFFUSIONSHALBGRUPPEN
4
Die Gleichung ∂t u = −H u lautet dann
y′k (t) = ak (yk+1 − 2yk + yk−1 )/δ2 − bk (yk+1 − yk−1 )/2δ
∀k :
Dies ist eine lineare Differentialgleichung y′ (t) = Ay(t) für y = (y1 , . . . , y N ),
wobei die k-te Zeile der Matrix A in der (k − 1)-ten, der k-ten und der (k + 1)-ten
Spalte die Einträge
ak /δ2 + bk /2δ,
−2ak /δ2 und ak /δ2 − bk /2δ
besitzt und sonst nur die Einträge 0. Zunächst bemerken wir, daß jede Zeilensumme 0 ergibt. Ferner können wir wegen sup b < ∞ und inf a > 0 die Zahl δ so
klein wählen, daß |bk | < 2ak /δ; dann sind alle Einträge außerhalb der Diagonale
strikt positiv.
Lemma 1.1.2 Sei A ∈ M(n, R), so daß erstens jede Zeilensumme 0 ergibt und zweitens
alle Einträge außerhalb der Diagonale strikt positiv sind. Dann ist für alle t > 0 die
Matrix etA eine stochastische Matrix, genauer, sie besitzt nur strikt positive Einträge
und jede Zeilensumme ergibt 1.
B EWEIS : Sei b1 ∈ Rn der Vektor, der in jeder Komponente den Eintrag 1 besitzt.
b1 ist denn ein Eigenvektor zum Eigenwert 0 und somit ist nach Definition von
etA der Vektor b1 ein Eigenvektor von etA zum Eigenwert 1.
Sei l > max{2ak /δ2 : k }, dann besitzt die Matrix A + λ nur strikt positive Einträge, also besitzt auch e−tλ et( A+λ) = etA nur strikt positive Einträge.
1.2 Maximumprinzip für Diffusionsoperatoren
Cf. e.g. [?]: Sei weiterhin Ω ein Gebiet in Rn und H der durch (1) definierte Diffusionsoperator. Da die Matrix ( a jk ( x )) in jedem Punkt von Ω strikt positiv definit
und stetig ist, ist H auf jeder kompakten Teilmenge von Ω gleichmäßig elliptisch, d.h. zu jeder kompakten Teilmenge K von Ω gibt es eine positive Konstante
λK , so daß für alle x ∈ K und alle ζ ∈ Sn−1 :
∑ a jk ( x)ζ j ζ k ≥ λK .
(7)
j,k
Angenommen für eine Funktion u ∈ C2 (Ω) gilt für alle x ∈ Ω: H u( x ) < 0 –
wir schreiben hierfür einfach: H u < 0. Falls u in x0 ∈ Ω ein lokales Maximum
besitzt, dann ist H u( x0 ) ≥ 0, denn ∂ j u( x0 ) = 0 und −Hess u( x0 ) ist positiv definit; da auch A( x ): = ( a jk ( x )) positiv definit ist, folgt – wir benötigen hierzu eine
einfaches Ergebnis aus der linearen Algebra, nämlich, daß die Spur des Produkts
zweier positiv definiter Matrizen nicht negativ ist:
n
−
∑
j,k=1
a jk ( x0 )∂ j ∂k u( x0 ) = tr ( A( x0 )(−Hess u( x0 ))) ≥ 0 .
1.2 Maximumprinzip für Diffusionsoperatoren
5
Dieser Fall kann also niemals eintreten.
Wir verstehen im weiteren unter einem relativen Maximum von u im Punkt x0 ,
daß zu einer Zusammenhangskomponente Z von [u = u( x0 )] in Ω eine offene
Umgebung U existiert, so daß für alle x ∈ U \ Z: u( x ) < u( x0 ).
Beispiel 1.2.1 Sei h( x ): = exp(−hCx, x i/2) mit einer symmetrische Matrix C. Dann
gilt:
H h( x ) = (−h A( x )Cx, Cx i + tr ( A( x )C ) − hCx, b( x )i) h( x ) .
Sei f ( x ) = hCx, x i/2, dann ist h = e− f und nach der Beziehung (3) erhalten wir:
H h = −e− f H f − e− f Γ( f , f )
Die behauptete Beziehung folgt nun aus: Γ( f , f )( x ) = h A( x )Cx, Cx i und H f ( x ) =
−tr ( A( x )C )/2 + hCx, b( x )i.
Satz 1.2.2 (Hopf) Genügt u auf Ω der Ungleichung H u ≤ 0, so nimmt u in keinem
Punkt x0 von Ω ein relatives Maximum M an.
B EWEIS :
Br/2 ( x0 )
Z
x0
b
b
x1
Br ( x1 )
U
Sei Z eine Zusammenhangskomponente von [u = M ] und U ⊆ Ω eine offene
Umgebung von Z, so daß für alle x ∈ U \ Z: u( x ) < M. Wir wählen einen Punkt
x1 ∈ U \ Z, so daß für r: = d( x1 , Z ) gilt: Br ( x1 ) ∪ Br/2 ( x0 ) ⊆ U und es gibt genau
einen Punkt x0 ∈ Z mit k x0 − x1 k = r – falls diese Bedingungen für x1 nicht
erfüllt sind, dann wähle einen neuen Punkt x1 auf der Strecke zwischen x0 und
dem alten Punkt x1 !
1 DIFFUSIONSHALBGRUPPEN
6
Dann gibt es ein δ > 0, so daß für alle x ∈ Br ( x1 ) \ Br/2 ( x0 ): u( x ) ≤ M − δ.
Definieren wir nun
2
2
h( x ): = e−ck x− x1 k /2 − e−cr /2 ,
dann ist h| Br ( x1 )c < 0 und aufgrund der gleichmäßigen Elliptizität sowie Beispiel 1.2.1, folgt für λ: = λ B( x0 ,r/2) :
2
H h( x ) = ce−ck x−x1 k /2 − ch A( x )( x − x1 ), x − x1 i + 21 tr A( x ) − hb( x ), x − x1 i
≤ ce−ck x−x1 k
2
/2
(−cλ k x − x1 k2 + 12 tr A + kbk k x − x1 k) .
Wir können daher c > 0 so groß wählen, daß für alle x ∈ B( x0 , r/2) gilt: H h < 0.
2
Zu ε < δ/(1 − e−cr /2 ) sei schließlich v: = u + εh, dann folgt:
2
1. Für x ∈ Br ( x1 ) ∩ ∂Br/2 ( x0 ): v( x ) ≤ M − δ + ε(1 − e−cr /2 ) < M.
c
2. Für x ∈ Br ( x1 ) ∩ ∂Br/2 ( x0 ): v( x ) < u( x ) ≤ M.
3. Für alle x ∈ Br/2 ( x0 ): H v < 0.
Nach 1. und 2. ist v|∂Br ( x0 ) < 0; da aber v( x0 ) = M, muß v auf Br/2 ( x0 ) ein
Maximum besitzen, was unmöglich ist.
Folgerungen: 1. Ist Ω beschränkt, u auf Ω stetig, und gilt auf Ω: H u ≤ 0. dann
gilt: max{u( x ) : x ∈ Ω} = max{u( x ) : x ∈ ∂Ω}.
2. Die obige Voraussetzung der Beschränktheit des Gebietes ist notwendig, denn
die Funktion u(z): = ℜ exp(ez ) ist harmonisch, d.h. ∆u = 0, sie ist weiters auf
dem Rand von Ω: = [|ℑz| < π/2] beschränkt, aber sie ist auf Ω unbeschränkt.
3. Ist u eine Lösung der PDE H u = 0, so nimmt u in keinem Punkt von Ω ein relatives Extremum an. Insbesondere gibt es für beschränkte Gebiete Ω höchstens
eine stetige Lösung u : Ω → R der PDE H u = f , die auf ∂Ω mit einer vorgegebenen Funktion g übereinstimmt.
Korollar 1.2.3 (Zaremba Prinzip) u ≤ M genüge auf Ω der Ungleichung H u ≤ 0
und es existiere ein x0 ∈ ∂Ω und eine Kugel Br ( x1 ) ⊆ Ω, so daß x0 ∈ ∂Br ( x1 ),
u( x0 ) = M, u auf Br ( x1 ) stetig und die Ableitung von u in Richtung der äußeren
Normalen N in x0 existiert. Dann gilt: ∂ N u( x0 ) > 0, falls u nicht konstant ist.
B EWEIS : Sei v wie im Beweis zu Satz 1.2.2, nur daß wir hier Z durch ∂Ω ersetzen.
∂Ω
x0
b
Br/2 ( x1 )
Ω
b
x1
Br ( x1 )
1.3 Die Ornstein-Uhlenbeck Halbgruppe
7
Für v gilt auf Br ( x1 ) \ Br/2 ( x1 ): H v < 0, also nimmt sie ihr Maximum auf diesem
Gebiet entweder auf ∂Br ( x1 ) oder auf ∂Br/2 ( x1 ) an. Auf letzterer Menge gilt aber
für ein δ > 0: u ≤ M − δ und folglich können wir in der Definition von v die
Zahl ε > 0 so klein wählen, daß auf ∂Br/2 ( x1 ) gilt: v < M. Andererseits liegt
x0 auf ∂Br ( x1 ) und es gilt v( x0 ) = M und h|∂Br ( x1 ) = 0; somit folgt, daß v auf
Br ( x1 ) \ Br/2 ( x1 ) ihr Maximum im Punkt x0 annimmt.
Dies bedeutet aber, daß ∂ N v( x0 ) = ∂ N u( x0 ) + ε∂ N h( x0 ) ≥ 0 und daher genügt es
zu zeigen, daß ∂ N h( x0 ) < 0:
2
2
∂ N h( x0 ) = −2ce−cr h N, x0 − x1 i = −2cre−cr .
Korollar 1.2.4 Sei V : Ω → R0+ ein nicht negatives (glattes) Potential. Erfüllt die
(glatte) Funktion u : Ω → R die Beziehung (H + V )u ≤ 0, so nimmt u in keinem
Punkt ein nicht negatives relatives Maximum an.
Stabilität der Wärmeleitung: Seien u1 , . . . , u N : (0, T ) × Ω → R und ζ : R N →
R N von der Klasse C2 . Ferner sei C eine abgeschlossene, konvexe Teilmenge von
R N , so daß für alle x ∈ ∂C: ζ ( x ) ∈ Tx C, i.e. ζ ( x ) ist tangential zu ∂C im Punkt x.
Satz 1.2.5 (R. Hamilton) Falls unter den oben stehenden Voraussetzungen gilt:
∀ k = 1, . . . , N :
∂t uk = −H uk + ζ (u1 , . . . , u N )
und falls für alle x ∈ Ω: (u1 (0, x ), . . . , u N (0, x )) ∈ C, dann gilt für alle t > 0:
(u1 (t, x ), . . . , u N (t, x )) ∈ C.
Für ζ = 0 folgt z.B., daß für jede Lösung der Wärmeleitungsgleichung ∂t u =
−H u die Funktionen t 7→ sup{u(t, x ) : x ∈ Ω} bzw. t 7→ inf{u(t, x ) : x ∈ Ω}
monoton fallend bzw. monoton steigend sind.
Beispiele: 1. Sei C = [0, 1] und ζ : [0, 1] → R mit ζ (0) = ζ (1) = 0 und u(0, x ) ∈
[0, 1], dann folgt: u(t, x ) ∈ [0, 1] falls ∂t u = −H u + ζ (u).
2. Sei C = {(y1 , y2 ) : y21 + y22 ≤ 1 und ζ : C → R mit ζ 1 (y1 , y2 )y1 + ζ 2 (y1 , y2 )y2 =
0 und (u(0, x ), u2 (0, x )) ∈ C, dann folgt: u1 (t, x )2 + u2 (t, x )2 ≤ 1 falls ∂t u1 =
−H u1 + ζ (u1 , u2 ) und ∂t u2 = −H u2 + ζ (u1 , u2 ).
3. Sei U (0, x ) = (u jk (0.x )) eine positiv definite Matrix. Falls für alle j, k: ∂t u jk =
−H u jk , dann ist U (t, x ): = (u jk (t, x )) eine positiv definite Matrix.
1.3 Die Ornstein-Uhlenbeck Halbgruppe
Die Hermite-Polynome auf R: Die Hermite-Polynome hn : R → R, n ∈ N0 auf R
sind definiert durch die erzeugende Funktion – cf. Wikipedia: 1
1 http://en.wikipedia.org/wiki/Hermite
polynomials
1 DIFFUSIONSHALBGRUPPEN
8
exp xy − 12 y2 =
yn
∑ n! hn ( x)
n ≥0
Mit γ1 bezeichnen wir im weiteren das standardisierte Gaußmaß auf R, also:
γ1 (dx ) = (2π )−1/2 e− x
2 /2
dx .
Lemma 1.3.1 1. Die Polynome bilden einen dichten Teilraum von L2 (γ1 ).
2. Für y ∈ R sei ϕy ( x ) = exp( xy − y2 /2). Dann ist [ ϕy ; y ∈ R] ein dichter Teilraum
von L2 (γ1 ).
B EWEIS : 2. Angenommen dieser Raum ist nicht dicht, dann gibt es eine Funktion
g ∈ L2 (γ1 ) mit k gk = 1, so daß für alle y ∈ R:
Z
R
e xy g( x ) γ1 (dx ) = 0 .
R
Definieren wir u : C → C durch u(z): = R e xz g( x ) γ1 (dx ), so ist u eine ganze Funktion auf C – d.h. u ist als Potenzreihe darstellbar und dies besitzt den
Konvergenzradius +∞. Andererseits verschwindet: u auf R nach Voraussetzung;
eine ganze Funktion, die auf R verschwindet muß aber auf ganz C verschwinden,
also: u = 0.
Insbesondere verschwindet y 7→ u(−iy), dies ist aber die Fourier-Transformierte
2
von ge: = g( x )e− x /2 ; da die Fourier-Transformation eine Isometrie von L2 (R) in
L2 (R) ist – cf. Wikipedia 2 , folgt schließlich: ge = 0 und damit: g = 0.
1. Falls
eine Funktion g ∈ L2 (γ1 ) existiert mit
R
R k gk2 = 1, so daß für alle Polynome
p: pg dγ1 = 0, dann folgt für alle y ∈ R: ϕy g dγ1 = 0 – wir benutzen hier, daß
die Funktionen hn tatsächlich Polynomfunktionen sind, also nach 2.: g = 0.
Beispiel 1.3.2 Sei u(z): =
u(n) ( z ) =
Z
R
R
R
e xz g( x ) γ1 (dx ). Zeigen Sie:
x n e xz g( x ) γ1 (dx )
und
√
|u(n) (z)|1/n ≤ C (z) n
2
Ähnlich kann man zeigen, daß der von den Funktionen x 7→ ϕy ( x )e− x /2 aufgespannte Unterraum E ein dichter Unterraum von C0 (R) ist – dies folgt z.B. nicht
unmittelbar aus dem Satz von Stone-Weierstraß, denn E ist keine Unteralgebra
von C0 (R).
2 http://en.wikipedia.org/wiki/Fourier
transform
1.3 Die Ornstein-Uhlenbeck Halbgruppe
9
Proposition 1.3.3 1. hn sind monische Polynome des Grades n, d.h. hn ( x ) = x n + · · ·,
genauer:
(−1)k n!
x n−2k .
hn ( x ) = ∑
k
n−2k≥0 2 k! ( n − 2k ) !
√
2. Die Polynome hn / n!, n ∈ N0 , bilden eine orthonormale Basis von L2 (γ1 ).
2
3. Die Funktion p( x ): = e− x /2 ist eine Eigenfunktion
√ der Fourier-Transformation zum
Eigenwert 1. Allgemeiner: die Funktion x 7→ hn ( x 2) p( x ) ist eine Eigenfunktion der
Fourier-Transformation
(−i )n .
R zum Eigenwert
4. Es gilt: hn ( x ) = ( x + iy)n γ1 (dy).
B EWEIS : Nach Definition ist
exp xy − 21 y2 =
m
ym 1
y
x
−
∑
2
m=0 m!
∞
∞
=
m
1
x m−k 2−k (−1)k yk+m
k!
(
m
−
k
)
!
m =0 k =0
∑ ∑
∞
(−1)k
∑ ∑ k!(n − 2k)! xn−2k 2−k yn
n=0 n−2k≥0
∞
yn (−1)k n!
n−2k
x
.
= ∑
∑ k
n=0 n! n−2k≥0 2 k! ( n − 2k ) !
=
2. Aus den Identitäten
exp xy − 21 y2 exp xz − 21 z2 =
und
folgt:
Z
yn zm
hn ( x ) hm ( x )
∑
n,m≥0 n!m!
exp xy − 21 y2 exp xz − 12 z2 γ1 (dx ) = exp(yz)
yn zn
yn zm
h hn , hm i = ∑
n≥0 n!
n,m≥0 n!m!
∑
Also h hn , hm√
i = n!δn,m und da nach Lemma 1.3.1 die Polynome dicht in L2 (γ1 )
sind, ist hn / n!, n ∈ N0 eine orthonormale Basis von L2 (γ1 ).
R
2
3. Wir benutzen im folgenden die Beziehung e−( x+z) /2 dx = (2π )1/2 , die für
alle z ∈ C gilt. Die Fourier-Transformierte einer Funktion f ∈ L1 (R) ist definiert
R
durch: F f (t): = fb(t): = (2π )−1/2 f ( x ) exp(−ixt) dx.
F ( p)(t) = (2π )
−1/2
Z
e
− x2 /2−ixt
dx = (2π )
−1/2
Z
e−( x+it)
2 /2− t2 /2
dx = p(t) .
1 DIFFUSIONSHALBGRUPPEN
10
Allgemeiner
erhalten wir nach
Funktion mit e
hn ( x ) =
√
√ Definition der erzeugenden
2
√
hn ( 2x ) und ψy ( x ): = ϕ 2y ( 2x ) = exp(2xy − y ):
√
Z
2
2
1
( 2y)n e
∑ n! F (hn p)(t) = F (ψy p)(t) = √2π e2xy−y −ixt−x /2 dx
n ≥0
Z
2
2
2
1
e−( x+(it−2y)) /2−y +(it−2y) /2 dx
= √
2π
Z
2
2
2
1
e−( x+(it−2y)) /2+y −t /2−2ity dx
= √
2π
= ey
2 − t2 /2−2ity
2
= p(t)e−2ity+y = p(t)ψ−iy (t)
√
(−i 2y)n e
= ∑
(hn p)(t)
n!
n ≥0
4. Wiederum folgt nach Definition der erzeugenden Funktion:
yn
∑
n≥0 n!
Z
n
( x + it) γ1 (dt) =
Z
yn ( x + it)n
γ1 (dt)
∑
n!
n ≥0
1
= √
2π
Beispiel 1.3.4 Für alle z ∈ C gilt:
R
Z
ey( x+it)−t
e−( x+z)
2 /2
2 /2
dt = ϕy ( x ) =
yn
∑ hn (y) .
n≥0 n!
dx = (2π )1/2 .
Proposition 1.3.5 1. h0 ( x ) = 1, h1 ( x ) = x und hn+1 ( x ) = xhn ( x ) − nhn−1 ( x ).
2. Sei H : C ∞ (R) → C ∞ (R) der Operator H f ( x ) = − f ′′ ( x ) + x f ′ ( x ), dann gilt:
Hhn = nhn . Die Hermite-Polynom bilden also ein vollständiges Orthogonalsystem von
Eigenfunktionen des Diffusionsoperators H.
B EWEIS : 1. Sei ϕ( x, y) = ϕy ( x ) = exp( xy − y2 /2), dann gilt einerseits: ∂y ϕ( x, y) =
xϕ( x, y) − yϕ( x, y) und andererseits
∂y
yn
∑ n! ( xhn−1 ( x) − (n − 1)hn−2 ( x) = xϕ( x, y) − yϕ( x, y) .
n =1
∞
2. In diesem Fall haben wir erstens
yn
∑ n! nhn ( x) = y∂y ϕ( x, y) = ( xy − y2 ) ϕ( x, y)
n
und zweitens:
yn
∑ n! Hhn ( x) = H ϕy ( x) = −y2 ϕy ( x) + xyϕy ( x) = ( xy − y2 ) ϕ( x, y)
n
1.3 Die Ornstein-Uhlenbeck Halbgruppe
11
Die Hermite-Polynome auf Rn : Sei A: = Nn ; α = (α j ) ∈ A, |α|: = ∑ α j , α!: =
α1 ! . . . αn !. Für x, y ∈ Rn , α ∈ A sei hα ( x ) definiert durch
exp h x, yi − 21 k x k2 =
yα
∑ α! hα ( x)
α∈ A
Weiters bezeichne γn das standardisierte Gaußmaß auf Rn , i.e.
1
2
γn (dx ) = (2π )−n/2 e− 2 k xk dx
Analog zum eindimensionalen Resultat folgt, daß hα ein Polynom des Grades
|α| ist und daß jedes Polynom als Linearkombination der Hermite-Polynome hα ,
√
2
α ∈ Nn , darstellbar ist. Ferner sind die Funktionen hα ( x 2)e−k xk /2 die Eigenfunktionen der Fourier-Transformation F : L2 (Rn ) → L2 (Rn ):
F ( f )(y): = (2π )−n/2
∀ f ∈ L1 ( R n ) :
Z
f ( x )e−ih x,yi dx .
zum Eigenwert (−i )|α| oder: für jedes Polynom q : Cn → C gilt:
Z
Rn
q( x )e−k xk
2
/2 −i h x,yi
e
dx = q(−iy)(2π )n/2 e−kyk
2
/2
also
ist z.B. jedes homogene Polynom eine Eigenfunktion Ferner gilt: hα ( x ) =
R
( x + iy)α γn (dy).
√
Proposition 1.3.6 1. ( hα / α!)α∈ A ist eine orthonormale Basis von L2 (γn ).
2. Bezeichnet H n (k ) die abgeschlossene lineare Hülle von { hα : |α| = k } und Qk : L2 →
H n (k ) die orthogonale Projektion, so definieren wir für alle |ε| ≤ 1:
T (ε) f : =
∑ εk Qk f
k ≥0
also insbesondere: T (1) = id und T (0) f =
T (ε)( ϕy ) = ϕεy und für alle ε ∈ [−1, 1]:
T (ε) f ( x ) =
Z
f (εx +
R
p
f dγn . Es gilt dann für alle y ∈ Rn :
1 − ε2 y) γn (dy)
3. Sei H der Diffusionsoperator H f ( x ): = − ∑ ∂2j f ( x ) + x j ∂ j f ( x ), so ist hα eine Eigenfunktion zum Eigenwert |α|.
4. Die durch Pt : = T (e−t ) definierte Halbgruppe heißt die Ornstein-Uhlenbeck Halbgruppe; sie besitzt den Generator − H.
1 DIFFUSIONSHALBGRUPPEN
12
B EWEIS : 1. Aus den Identitäten
exp h x, yi − 21 kyk2 exp h x, zi − 12 kzk2 =
yα z β
∑ α!β! hα ( x)hβ ( x)
α,β
und
Z
1
2
exp h x, yi − kyk
2
1
2
exp h x, zi − kzk
2
γn (dx ) = exp(hy, zi)
folgt:
yα z β
1
hy, zin
h
h
,
h
i
=
∑ α!β! α β ∑ n! = ∑ ∑ yα zα α!
n ≥0
n≥0 |α|=n
α,β
Also h hα , h β i = α!δα,β .
2. Da
∑ h h α , ϕ y i h α k h α k −2
Qk ( ϕy ) =
yα
k h α k2
α!
und
h hα , ϕy i =
ε|α|
=
α!
(εy)|α|
∑ α! hα = ϕεy
α∈ A
|α|=k
folgt:
∑
εk Qk ( ϕy ) =
∑
α∈ A
k ≥0
hα
k hα k
h h , ϕy i
2 α
Definieren wir andererseits einen linearen Operator S(ε) durch S(ε) f ( x ) =
√
1 − ε2 y) γn (dy), so gilt:
Z
R
p
ϕy (εx + 1 − ε2 z) γn (dz)
Z
p
=
exp εh x, yi + 1 − ε2 hz, yi − 12 kyk2 γn (dz)
= (2π )−n/2 exp εh x, yi − 21 kεyk2
Z
p
2
2
2
1
1
2
exp − 2 kzk + 1 − ε hz, yi − 2 (1 − ε ) kyk dz
Z
2 p
− n2
1
2
exp − 2 z − 1 − ε y
= ϕεy ( x )(2π )
dz = ϕεy ( x )
S ( ε ) ϕ y ( x ): =
f (εx +
Da sowohl T (ε) wie S(ε) beschränkte lineare Operatoren auf L2 (γn ) sind (warum?),
folgt aufgrund der Dichtheit des von den Funktionen ϕy , y ∈ Rn , aufgespannten
Raumes: S(ε) = T (ε).
3. Es gilt einerseits mit ϕ( x, y) = ϕy ( x ):
yα
∑ α! Hhα ( x) = H ϕy ( x) = (− kyk2 + h x, yi) ϕ( x, y)
α
1.3 Die Ornstein-Uhlenbeck Halbgruppe
13
Andererseits ist wegen y j ∂y j yα = α j yα :
∑
α
|α|yα
hα ( x ) =
α!
1
∑ α! (∑ y j ∂yj )yα hα ( x)
α
= (∑ y j ∂y j ) ϕ( x, y) = (− kyk2 + h x, yi) ϕ( x, y)
4. Zunächst ist Pt Qk f = e−tk Qk f , also
Ps Pt f = T (e−s ) ∑ e−tk Qk f =
∑ e−tk T (e−s )Qk f
= Ps+t f
i.e. Pt ist eine Halbgruppe. Da t 7→ Pt f stetig ist und k Pt f k ≤ k f k, ist Pt eine
stetige Kontraktionshalbgruppe. Schließlich gilt für alle α ∈ A mit k: = |α|:
Pt hα = T (e−t ) hα = e−kt hα
und damit: limt→0 ( Pt hα − hα )/t = −khα = − Hhα .
2
B EMERKUNGEN: 1. Sei für p( x ): = e−k xk /2 : M : L2 (γn ) → L2 (Rn ) der Multiplikationsoperator: f 7→ f p, dann ist MT (−i ) M−1 i.w. die Fourier-Transformation.
2. Für f ∈ L2 (γn ) ist u(t, x ): = Pt f ( x ) die Lösung der PDE ∂t u(t, x ) = − Hut ( x ) =
+
n
−∆ut ( x ) − h x, gradx ut i mit
√ u(0, x ) = f ( x ); ferner ist u : R × R glatt! – nach
Substitution y = (z − εx )/ 1 − ε2 , folgt:
2
Pt f ( x ) = (2π (1 − ε ))
−n/2
Z
f (z) exp(− kz − εx k2 /2(1 − ε2 )) dy
und damit ist der Integrand eine glatte Funktion (von x).
3. Ist En , n ∈ N0 , eine orthonormale Zerlegung eines (komplexen) Hilbertraumes
E und Qn : E → En die orthogonalen Projektionen, so ist T : D → L( E), z 7→
∑n≥0 zn Qn eine auf D: = [|z| < 1] analytische Funktion und Pt : = T (e−t ) ist eine stetige, selbstadjungierte Kontraktionshalbgruppe mit dem Generator − Hx: =
− ∑ nQn , d.h. für x ∈ dom ( H ): = { x ∈ E : ∑ n k Qn x k2 < ∞} ist u : t 7→ Pt x die
Lösung der Wärmeleitungsgleichung u′ (t) = − Hu(t).
Ein weiteres bedeutendes Beispiel dieser Konstruktion ist die Poisson-Halbgruppe:
E = L2 (Sd−1 ) mit dem normalisierten Haarmaß σ, und En der von den Kugelfunktionen des Grades n aufgespannte Unterraum; in diesem Falls ist
2
T (r ) f ( ζ ) = (1 − r )
Z
f (ξ )
S d −1
krζ − ξ kd
σ (dξ ) =
Z
S d −1
f (ξ ) P(rζ, ξ ) σ (dξ )
wobei P( x, ξ ): = (1 − k x k2 )/ k x − ξ kd den sogenannten Poisson-Kern von B2d
bezeichnet; da P ≥ 0 ist auch in diesem Beispiel T (r ) positiv, d.h. T (r ) bildet
positive Funktionen auf positive Funktionen ab. Wir erhalten also wiederum eine symmetrische Markovhalbgruppe T (e−t ). Der wesentlichen Unterschied zur
1 DIFFUSIONSHALBGRUPPEN
14
Ornstein-Uhlenbeck Halbgruppe ist, daß der Generator − H kein Diffusionsoperator ist!
q
1
H = − 2 (d − 2) + 14 (d − 2)2 + ∆Sd−1
4. Für x ∈ dom ( H ) ist u : t 7→ Pt x die Lösung der Wärmeleitungsgleichung
u′ (t) = − Hu(t) mit u(0) = x und ψ : t 7→ St x: = T (e−it ) x ist die Lösung der
zeitabhängigen Schrödingergleichung ψ′ (t) = −iHψ(t) mit ψ(0) = x.
Der harmonische Oszillator: Das Geschwindigkeitsmaß des Diffusionsoperators
H ist nach Proposition 1.1.1: γn und somit ist die Ornstein-Uhlenbeck Halbgruppe eine symmetrische, konservative Markov Halbgruppe auf L2 (γn ) mit dem ΓOperator:
Γ( f , g): = ∑ ∂ j f ∂ j g = h∇ f , ∇ gi .
j
Setzen wir insbesondere log h( x ) = k x k2 /4, dann ist nach (4) Hh + n/2 der
Schrödingeroperator:
− ∑ ∂2j f + 41 k x k2 f
j
Man nennt diesen Operator auch den n-dimensionalen harmonischen Oszillator.
Er besitzt die Eigenfunktionen hα ( x ) exp(− k x k2 /4) zum Eigenwert |α| + n/2.
Wir benötigen im weiteren folgende Eigenschaften der Ornstein-Uhlenbeck Halbgruppe, die alle aus Proposition 1.3.6 bzw. Proposition 1.1.1 für beschränkte, glatte Funktionen f , g, . . . : Rn → R folgen:
1. Pt besitzt den Generator − H, d.h. es gilt:
d
dt Pt f
= − HPt f .
2. ∇ Pt f = e−t Pt ∇ f – wobei Pt ∇ f komponentenweise definiert ist.
3. Für alle f , g gilt: Γ( f , g) = h∇ f , ∇ gi und
Z
f .Hg dγn =
Z
Z
H f .g dγn = Γ( f , g) dγn
R
R
R
insbesondere folgt hieraus mit 1.: Hg dγn = 0 und Pt f dγn = f dγn .
4. Nach (3) gilt für alle glatten Funktionen u : R → R:
Hu( f ) = −u′′ ( f )Γ( f , f ) + u′ ( f ) H f .
5. Ist ϕ eine konvexe Funktion, so gilt: ϕ( Pt f ) ≤ Pt ( ϕ ◦ f ) – dies folgt aus der
Jensen-Ungleichung sowie der in Proposition (1.3.6.2) gegebenen Darstellung von Pt = T (e−t ).
6. Die Cauchy-Schwarz Ungleichung: Für f , g ∈ L2 (γn ) gilt:
q
Pt ( f g) ≤ Pt ( f 2 ) Pt ( g2 )
dies folgt wiederum aus der in Proposition 1.3.6.2 gegebenen Darstellung.
1.4 Die Ornstein-Uhlenbeck Halbgruppe auf L p (γn )
15
1.4 Die Ornstein-Uhlenbeck Halbgruppe auf L p (γn )
Das folgende elementare Resultat zeigt, daß die Ornstein-Uhlenbeck Halbgruppe
Pt eine Kontraktionshalbgruppe auf L p (γn ) ist:
Proposition 1.4.1 Für alle 1 ≤ p ≤ ∞ gilt:
k T (ε) : L p (γn ) → L p (γn )k = 1 .
B EWEIS : Wir beschränken uns auf den Fall p < ∞. Da T (ε) die konstante Funktion 1 auf sich abbildet, ist die Norm ≥ 1. Nach der Jensen-Ungleichung gilt andererseits:
p
Z Z
p
p
′
′
f (εx + 1 − ε2 x ) dγn ( x ) dγn ( x )
k T (ε) f k p =
Z Z
p
≤
| f (εx + 1 − ε2 x ′ ))| p dγn ( x ′ ) dγn ( x )
Z
=
| f ( X )| p dγn ⊗ γn
wobei X : Rn × Rn → Rn die Abbildung ( x, x ′ ) 7→ εx +
γn ⊗ γn ( X ∈ A) = γn ( A) (warum?), folgt:
Z
p
| f ( X )| dγn ⊗ γn =
Z
√
1 − ε2 x ′ bezeichnet. Da
| f ( x )| p dγn ( x ) = k f k pp
Weniger elementar ist die sogenannte Hyperkontraktivität der Ornstein-Uhlenbeck
Halbgruppe – wir folgen im anschließenden Abschnitt dem Beweis von L. Gross,
der die Hyperkontraktivität mit sogenannten Log-Sobolev Ungleichungen in Beziehung bringt.
Satz 1.4.2 [E. Nelson, L. Gross: Hyperkontraktivität] Sei 1 < p < q < ∞. Dann gilt:
q
T ( ε ) : L p ( γn ) → L q ( γn ) ≤ 1 .
∀ | ε | ≤ ( p − 1) / ( q − 1) :
B EWEIS : Cf. Satz 1.5.1 und Satz 1.5.2.
Da T (ε) Qk = εk Qk impliziert die Hyperkontraktivität:
|ε|k k Qk f kq ≤ k Qk f k p
i.e.
k Qk f kq ≤
q − 1 k/2
p−1
k Qk f k p .
Dies bedeutet, daß auf jedem der Räume H n (k ) die von L p (γn ) und die von
Lq (γn ) induzierten Normen äquivalent sind und zwar unabhängig von der Dimension n.
1 DIFFUSIONSHALBGRUPPEN
16
[K. Babenko, W. Beckner]: Sei 1 < p ≤ 2 und 1/p + 1/q = 1. Dann gilt:
F : L p (Rn ) → Lq (Rn ) ≤ ( p1/p /q1/q )n/2 (≤ 1) .
Da MT (−i ) M−1 i.w. die Fourier-Transformation
auf Rn ist, ist die
Babenko
Beckner-Ungleichung eine Aussage über T (−i ) : L p (γn ) → Lq (γn ).
1.5 Log-Sobolev Ungleichung für γn
Satz 1.5.1 Für alle beschränkten differenzierbaren Funktionen f : Rn → R gilt die
logarithmische Sobolev Ungleichung:
Z
f 2 log f 2 dγn −
Z
f 2 dγn log
Z
f 2 dγn ≤ 2
Z
k∇ f k2 dγn .
(8)
B EWEIS : Sei f > 0 und u(Rx ) = x log x – diese Funktion ist, nebenbei bemerkt, auf
R+ konvexR und F (t): = u( Pt f ) dγn , dann istR nach dem Hauptsatz: − F (∞) +
∞
F (0) = − 0 F ′ (t) dt. Nun ist aber F ′ (t) = − u′ ( Pt f ) HPt f dγn und nach 3. ist
R ′′
dies u ( Pt f ) k∇ Pt f k2 dγn , also wegen u′′ ( x ) = 1/x und 2.:
−u
Z
f dγn +
Z
u( f ) dγn =
=
Z ∞Z
e−2t
≤
Z ∞Z
e−2t
0
0
Z ∞Z
k∇ Pt f k2
0
Pt f
dγn dt
( Pt ∂ j f )2
∑ Pt f dγn dt
j =1
n
n
∑ Pt
j =1
( ∂ f )2 j
dγn dt =
f
1
2
Z
k∇ f k2
dγn .
f
p
Wobei wir die Cauchy-Schwarz Ungleichung (cf. 6.) mit X = ∂ j f und Y =
f
2
2
2
2
wie folgt nutzten: ( Pt X ) = ( Pt (Y ( X/Y ))) ≤ Pt (Y ) Pt ( X/Y ) ! Die Behauptung
folgt nun nach Substitution f → f 2 .
1. Der Beweis zeigt, daß die Gleichheit in der Log-Sobolev Ungleichung (8) genau
dann eintritt, wenn f ( x ) = exp(h a, x i) für ein a ∈ Rn .
2. Setzen wir u( x ) = x2 , so folgt aus demselben Beweis wegen u′′ ( x ) = 2 unmitR
R
R
telbar die Poincaré Ungleichung: f 2 dγn − ( f dγn )2 ≤ k∇ f k2 dγn – Gleichheit gilt in diesem Fall nur für konstante Funktionen.
Zum Nachweis der Hyperkontraktivität der Halbgruppe Pt benötigen wir nun
nur noch folgends: Ist µ ein (σ-endliches) Maß, f ∈ L1 (µ) ∩ L∞ (µ) nicht negativ
und G ( p): = log k f k p , so gilt:
G′ ( p) = −
1
p2
Z
. Z
1Z
f p dµ .
f p log f dµ
f p dµ +
p
1.5 Log-Sobolev Ungleichung für γn
17
Ferner ist f 7→ log k f k p differenzierbar mit der Ableitung (im Punkt f 6= 0):
g 7→
Z
f p−1 g dµ/
Z
f p dµ .
Satz 1.5.2 (Gross) Folgende Bedingungen sind äquivalent.
1. Hyperkontraktivität: ∀ p ≥ 1, t ≥ 0, 1 ≤ q ≤ 1 + ( p − 1)e2t :
k Pt : L p (γn ) → Lq (γn )k ≤ 1 .
2. Es gilt die logarithmische Sobolev Ungleichung
Z
2
2
f log f dγn −
Z
2
f dγn log
Z
2
f dγn ≤ 2
Z
k∇ f k2 dγn .
B EWEIS : Die Substitution f → f q/2 zeigt, daß die logarithmische Sobolev Ungleichung gleichbedeutend ist mit
Z
q
q
f log f dγn −
Z
q
f dγn log
Z
q
f dγn ≤
q2
2
Z
f q−2 k∇ f k2 dγn .
(9)
Nun definiere q(t): = 1 + ( p − 1)e2t und F (t): = k Pt f kq(t) . Falls (9) gilt, dann
folgt: F ′ (t) ≤ 0. Andererseits folgt aus F ′ (0) ≤ 0 die Gültigkeit von
R (9).
′
Zur Berechnung von F setzen wir der Einfachheit halber h f i: = f dγn ; definieren wir nun ϕ(t, q) = h( Pt f )q i1/q , dann ist F (t): = ϕ(t, q(t)). Da
h− HPt f , ( Pt f )q−1 i
hΓ( Pt f , ( Pt f )q−1 )i
∂1 log ϕ(t, q) =
=
h( Pt f )q i
h( Pt f )q i
1 h( Pt f )q log Pt f i
1
,
∂2 log ϕ(t, q) = − 2 logh( Pt f )q i +
q
h( Pt f )q i
q
und
folgt mit h: = Pt f wegen Γ( h, hq−1 ) = (q − 1) hq−2 k∇ hk2 und q′ = 2(q − 1):
′
′
F (t) = F (t) ∂1 log ϕ(t, q(t)) + q (t)∂2 log ϕ(t, q(t))
(q − 1)hhq−2 k∇hk2 i
= F (t) −
+
h hq i
F (t)(q − 1) =
− hhq−2 k∇hk2 i +
q
hh i
q′ qh hq log hi q
− loghh i +
h hq i
q2
2
q
q
q
q
−
h
h
i
log
h
h
i
+
h
h
log
h
i
.
q2
F ′ (t) ist also genau dann kleiner oder gleich 0, wenn die Log-Sobolev Ungleichung (9) gilt.
1 DIFFUSIONSHALBGRUPPEN
18
Proposition 1.5.3 (Concentration of Measure) Für alle 1-Lipschitz-Funktionen f :
R
2
Rn → R und alle ε > 0 gilt: γn (| f − f dγn | > ε) ≤ 2e−ε /2 .
R
R
B EWEIS : (Herbst). SeiRo.B.d.A. f dγn = 0. Definiere für t > 0: F (t): = et f dγn .
Dann folgt: tF ′ (t) = t f et f dγn und nach der Log-Sobolev Ungleichung 8 – mit
der Substitution f → et f /2 wegen k∇ f k ≤ 1:
tF ′ (t) − F (t) log( F (t)) ≤ t2 F (t)/2 .
Mit G (t): = log( F (t)) heißt dies: tG ′ − G ≤ t2 /2 oder ( G/t)′ ≤ 1/2 und wegen
limt↓0 G (t)/t = 0 erhalten wir: G (t) ≤ t2 /2, also: F (t) ≤ exp(t2 /2).
Aus der Chebychev-Ungleichung folgt schließlich für alle t > 0:
γn ( f > ε ) = γn ( e
t f −tε
> 1) ≤
und für die Wahl: t = ε: γn ( f > ε) ≤ e−ε
2 /2
Z
et f −tε dγn ≤ et
2 /2− τε
.
Beispiel: Für ∞ > p ≥ 2 gilt z.B. k.k p ≤ k.k2 und M p : =
also: γn (| k.k p − M p | > n1/p /2) ≤ 2 exp(−n2/p /8).
R
k x k p γn (dx ) ∼ n1/p ,
Satz 1.5.4 (D. Bakry, M. Ledoux) Für jede differenzierbare Funktion mit Werten in
[0, 1] gilt:
Z
p
2
2
2t
k f k2 − k f k p(t) ≤ arctan e − 1 k∇ f k dγn ,
wobei p(t) = 1 + e−t .
B EWEIS : Zunächst ist mit F (s): = Ps ( Pt−s f )2 nach Definition von Γ( f , f ) sowie der
Beziehung: k∇ Pt f k2 = k∇ Ps Pt−s f k2 = e−2s k Ps ∇ Pt−s f k2 ≤ e−2s Ps k∇ Pt−s f k2 :
2
Pt f − ( Pt f )
2
=
Z t
= 2
≥ 2
also: k∇ Pt f k2 ≤
Z
k f k2∞
0
′
F (s) ds =
Z t
Z t
0
− HPs ( Pt−s f )2 + 2Ps ( Pt−s f HPt−s f )) ds
Z t
Ps (k∇ Pt−s f k2 ) ds
0
Ps Γ( Pt−s f , Pt−s f ) ds = 2
0
e2s dsk∇ Pt f k2 = (e2t − 1)k∇ Pt f k2 ,
Z t
0
/(e2t − 1). Sei nun f : Rn → [0, 1] differenzierbar, dann ist
f ( f − Pt f ) dγn =
≤
Z Z t
0
Z tZ
0
Z t
√
f HPs f ds dγn =
Z tZ
0
h∇ f , ∇ Ps f i dγn ds
k∇ f kk∇ Ps f k dγn ds
1
Z
k∇ f k dγn
e2s − 1
Z
p
2t
≤ arctan e − 1 k∇ f k dγn .
≤
0
ds k f k∞
1.5 Log-Sobolev Ungleichung für γn
19
Andererseits ist nach Satz 1.5.2 wegen 1 + ( p(t) − 1)et = 2:
Z
f ( f − Pt f ) dγn =
Z
2
f dγn −
Z
f Pt f dγn
= k f k22 − k Pt/2 f k22 ≥ k f k22 − k f k2p(t) .
Die voranstehende Ungleichung ist eine sogenannte isoperimetrische Ungleichung
für den Gaußraum mit der Schar (1
p < p < 2) von isoperimetrischen Funktio2/p
nen: U p ( x ) = ( x − x )/ arctan( p(2 − p)/( p − 1)), also z.B. für p = 3/2:
√
√
U3/2 ( x ) = ( x − x4/3 )/ arctan( 3) oder für p = 4/3: U4/3 ( x ) = ( x − x3/2 )/ arctan( 8).
Offensichtlich ist sup{U p ( x ) : 1 < p < 2} ebenfalls eine isoperimetrische Funktion für den Gaußraum.
2 MARKOVKETTEN
20
2 Markovketten
2.1 Neuronale Netze und Markovketten
Sei ψ : R → [0, 1] eine Funktion, X eine endliche Menge (z.B. Zellen, Computer, etc.), N ∈ N, R eine symmetrische Relation auf X und p : R → R - das
Paar ( X, p) nennt man ein neuronales Netz. Sei J0 : X → [0, 1] eine weitere
Funktion (Zustandsfunktion der Zellen zum Zeitpunkt 0), dann definieren wir
für n ∈ {0, 1, . . . , N } Funktionen Jn : X → [0, 1] (Zustandsfunktion der Zellen
zum Zeitpunkt n) durch
Jn+1 (y) = ψ
p
(
x,
y
)
J
(
x
)
.
(10)
n
∑
x ∈ R(y)
Seien I, O ⊆ X (Input- bzw. Outputmenge). Unter einer Input- bzw. Outputfunktion versteht man Funktionen F : I → [0, 1] bzw. G : O → [0, 1]. Ist F eine
Inputfunktion so setzen wir J0 | I: = F und J0 | I c = 0, bestimmen G: = JN |O und
nennen G die von dem Netz ( X, p) in N Schritten produzierte Outputfunktion
zur Inputfunktion F.
I.a. hat man das Problem zu einer vorgegebenen Menge von Input- und Outputfunktionen ein möglichst “einfaches”Netz ( X, p) zu bestimmen, das aus den
Inputfunktionen nach N Schritten Outputfunktionen produziert, die die vorgegebenen Outputfunktionen möglichst “genau”wiedergeben.
Falls ψ( x ) = x, p( x, y) ≥ 0 und für alle x ∈ X: ∑y∈X p( x, y) = 1, dann nennt
man p eine Markovsche Übergangsfunktion. Ein besonders instruktives Beispiel
ist in diesm Zusammenhang die sogenannte Irrfahrt auf einem einfachen Graph:
Sei (V, E) ein einfacher endlicher Graph mit den Ecken V und den Kanten E. Wir
starten zum Zeitpunkt 0 in einer vorgegebenen Ecke x0 , wählen mit Wahrscheinlichkeit 1/ deg( x0 ) eine der Ecken aus, die mit x0 durch eine Kante verbunden
sind - etwa x1 - und begeben uns in die ausgewählte Ecke, so daß wir uns zum
Zeitpunkt 1 in x1 befinden. Erneut wählen mit Wahrscheinlichkeit 1/ deg( x1 ) eine der Ecken aus, die mit x1 durch eine Kante verbunden sind - etwa x2 - und
begeben uns in die ausgewählte Ecke, so daß wir uns zum Zeitpunkt 2 in x2 befinden; u.s.w. Man bezeichnet diesen Prozeß als eine Irrfahrt auf dem einfachen
Graph (V, E).
Satz 2.1.1 Starten wir zum Zeitpunkt 0 in x ∈ V eine Irrfahrt auf dem einfachen zusammenhängenden Graph (V, E), so ist
∑y∈V deg(y)
deg( x )
bzw.
deg(y)
deg( x )
die mittlere Zeit, die wir benötigen um zum ersten Mal zu x zurückzukehren bzw. die
mittlere Anzahl der Male da wir vor der ersten Rückkehr zu x die Ecke y besuchen.
2.2 Markovsche Übergangsmatrizen
21
In einer Ecke eines ansonsten leeren Schachbretts befinde sich ein Springer; führt
der Springer seine Züge zufällig aus, so benötigt er im Mittel 168 Sprünge um in
jene Ecke zurückzukehren, von der aus er seine Irrfahrt gestartet hat. Ferner hat
er dann jedes Feld im Mittel mindestens einmal besucht. Startet der Springer in
einem der mittleren Felder, so benötigt er im Mittel nur 42 Sprünge um zu diesem
Feld zurückzukehren.
2.2 Markovsche Übergangsmatrizen
Sei Ω eine i.a. endliche oder abzählbare Menge von sog. “Zuständen”eines “Systems”, also Ω = { x1 , . . . , x N }. Jede Funktion µ : Ω → [0, 1], so daß ∑ x∈Ω µ( x ) =
1 nennt man eine Verteilung auf Ω. Sei nun µ eine vorgegebene Verteilung auf
Ω; wir interpretieren µ( x ) als die Wahrscheinlichkeit dafür, daß das System zum
Zeitpunkt t = 0 im Zustand x ist: man sagt auch, daß µ die Verteilung des Systems zum Zeitpunkt 0 ist.
Die Zustandsänderungen des Systems sind wie folgt mit gewissen Wahrscheinlichkeiten verbunden: mit p( x, y) bezeichnen wir die Wahrscheinlichkeit, daß das
System zum Zeitpunkt t = 1 im Zustand y ist, nachdem es zum Zeitpunkt 0 im
Zustand x war. Da das System in irgendeinen Zustand übergehen muß, erhalten
wir folgende
Definition 2.2.1 Unter einer Markovschen Übergangsmatrix (oder einer stochastischen Matrix) auf Ω verstehen wir eine N × N- Matrix P = ( p( x, y)) x,y∈Ω mit folgenden Eigenschaften:
1. ∀ x, y ∈ Ω p( x, y) ≥ 0.
2. ∀ x ∈ Ω ∑y∈Ω p( x, y) = 1.
Die Wahrscheinlichkeit, daß sich das System zum Zeitpunkt 1 im Zustand x befindet ist gegeben durch ∑y∈Ω µ(y) p(y, x ) - oder in Matrizenschreibweise: µP mit
der 1 × N-Matrix µ = (µ( x1 ), . . . , µ( x N )): µ1 : = µP ist also die Verteilung des Systems zum Zeitpunkt 1.
Der Übergang während der nächsten Zeiteinheit soll nun unabhängig von aller
Vorgeschichte durch dieselbe Übergangswahrscheinlichkeit geregelt sein, folglich ist die Übergangsmatrix, die die Verteilung µ zum Zeitpunkt 0 mit der Verteilung µ2 zum Zeitpunkt 2 in Beziehung setzt gegeben durch P2 , i.e. in Matrizenschreibweise: µ2 = µP2 (µ2 und µ sind hierbei wiederum als 1 × N Matrizen
geschrieben!). Die Matrix, die den Übergang vom Zeitpunkt 0 zum Zeitpunkt n
beschreibt ist dann gegeben durch Pn =: ( pn ( x, y)).
Diffusionsmodell von Bernoulli-Laplace: Angenommen wir haben zwei Behältnisse A und B, von denen jedes genau N Kugeln enthält. n Kugeln seien schwarz
und 2N − n Kugeln weiß. Wir sagen, daß sich die Kugeln im Zustand j, j =
0, . . . , n, befinden, wenn das Behältnis A j schwarze Kugeln enthält. Wählen wir
22
2 MARKOVKETTEN
“zufällig”je eine Kugel aus den Behältnissen und vertauschen sie, so ist Wahrscheinlichkeit dafür, daß die Kugeln im Zustand k sind, wenn sie vorher im Zustand j waren:

( N − j)(n− j)

falls k = j + 1 und k ≤ n

2


 j(n− j)+( N −Nj)( N −(n− j))
falls k = j
N2
p( j, k ) =
j
(
N
−(
n
−
j
))


falls k = j − 1 und k ≥ 0

N2


0
sonst
Ehrenfest Kette: In zwei Kammern A und B befinden sich insgesammt N Moleküle; wir wählen “zufällig”eines dieser Moleküle aus und geben es in die andere Kammer: Sei Ω = {0, 1, . . . , N } und p( j, j + 1) = ( N − j)/N - dies ist die
Wahrscheinlichkeit, daß in der Kammer A j Moleküle sind und wir ein Molekül
aus Kammer B ausgewählt haben (sich die Anzahl der Moleküle in Kammer A
also um 1 erhöht) p( j, j − 1) = j/N und sonst p( j, k ) = 0. Zustand j bedeutet in
diesem Modell: j Moleküle befinden sich in der Kammer A.
Irrfahrt auf einem einfachen Graph: Sei G = (V, E) ein einfacher Graph, V die
Menge der Ecken und E die Menge der Kanten. Bezeichnen wir mit d( x ) den
Grad einer Ecke x, d.h. d( x ) = |{y ∈ V : ( x, y) ∈ E}|, so ist durch p( x, y) =
1/d( x ) falls ( x, y) ∈ E und 0 sonst eine stochastische Matrix definiert.
Genetische Ketten: Aus einer Serie von j Einsen und N − j Nullen wählten wir
“zufällig”eines ihrer Elemente und kopieren es, danach wiederholen wir diesen
Kopiervorgang bis wir eine Serie von Einsen und Nullen der Länge N erhalten;
die Wahrscheinlichkeit k Einsen und N − k Nullen zu erhalten (wir nennen dies
den Zustand k) ist binomialverteilt:
N
p( j, k ) =
( j/N )k (1 − j/N ) N −k
k
Zellteilung: Ein jede Zelle eines Organismus bestehe aus N Teilchen, die entweder des Typs A oder des Typs B sind. Wir sagen, daß sich eine Zelle im Zustand
j ∈ {0, . . . , N } = Ω befindet, wenn sie genau j Teilchen des Typs A enthält.
Die Bildung einer Tochterzelle verläuft nun wie folgt: zunächst replizieren sich
sämtliche Teilchen einer Zelle, die Tochterzelle bildet sich dann durch “zufällig”Auswahl
von N Teilchen aus den vorhandenen 2j Teilchen des Typs A und 2N − 2j Teilchen des Typs B. Die Wahrscheinlichkeit, daß die Tochterzelle im Zustand k ist,
ist durch die hypergeometrische Verteilung gegeben:
2j
2N − 2j
2N
p( j, k ) =
/
.
k
N−k
N
2.2 Markovsche Übergangsmatrizen
23
Lineare Irrfahrt: Sei ∆x > 0, Ω: = R und p( x, x + ∆x ) = p( x, x − ∆x ) = 1/2
und p( x, y) = 0 falls y 6= x ± ∆x. Starten wir im Punkt x, so ist p2n ( x, x + 2k∆x )
die Wahrscheinlichkeit, daß wir nach 2n Schritten im Punkt x + 2k∆x: p2n ( x, x +
−2n .
2k∆x ) = (n2n
+ k )2
Definition 2.2.2 Sei P eine Markovsche Übergangsmatrix auf Ω. Eine Verteilung µ auf
Ω heiß stationär (bzgl. P) oder P-invariant , wenn µ = µP, i.e. wenn für alle x ∈ Ω:
µ( x ) = ∑ µ(y) p(y, x ).
Die Verteilung µ ∈ M(1, N ) ist genau dann P-invariant, wenn µt ∈ M( N, 1) ein
Eigenvektor der transponierten Matrix Pt zum Eigenwert 1 ist.
Satz 2.2.3 Sei P eine Markovsche Übergangsmatrix auf der endlichen Menge Ω und ν
eine beliebige Verteilung auf Ω.
1. P besitzt stets eine stationäre Verteilung µ, diese ist i.a. jedoch nicht eindeutig.
2. Gibt es für alle x, y ∈ Ω ein m ∈ N, so daß pm ( x, y) > 0 – man nennt dies die
sogenannte Positivitätsbedingung, dann existiert der Limes
µ( x ): = lim
n
1
n+1
n
∑ νPn ( x)
j =0
für alle x ∈ Ω und es gilt:
i. ∀ x ∈ Ω: µ( x ) > 0, ii. µ ist unabhängig von ν und iii. µ ist die einzige P-invariante
Verteilung auf Ω.
B EWEIS : 1. Sei für n ∈ N: An : = n−1 (1 + P + · · · + Pn−1 ), Q ein Häufungspunkt
von An und Ak(n) eine gegen Q konvergierende Teilfolge von An . Dann gilt:
Ak(n) − Ak(n) P = k (n)−1 (1 − Pk(n) ), also: Q = QP. Jede Zeile von Q ist dann
eine stationäre Verteilung.
2. Wir nehmen an, daß für alle x, y ∈ Ω gilt p( x, y) > 0 und zeigen, daß unter
dieser Voraussetzung der Limes Q = limn Pn existiert und daß die Matrix Q
identische Zeilen µ: = (µ( x1 ), . . . , µ( x N )) mit µ( x ) > 0 besitzt; somit ist µ das
einzige invariante Wahrscheinlichkeitsmaß.
Für 1 ≤ k ≤ N seien mn (y): = minx pn ( x, y) ≥ ε und Mn (y): = maxx pn ( x, y).
Dann gilt:
pn+1 ( x, y) =
∑
z∈Ω
p( x, z) pn (z, y) ≥
∑
p( x, z)mn (y) = mn (y) .
z∈Ω
Daher ist mn+1 (y) ≥ mn (y). Analog gilt: Mn+1 (y) ≤ Mn (y). Zu jedem y ∈ Ω sei
nun x (y) so bestimmt, daß Mn (y) = pn ( x (y), y), dann ist
pn+1 ( x, y) =
∑
p( x, z) pn (z, y)
z∈Ω
n
= εM (y) + ( p( x, x (y)) − ε) pn ( x (y), y) +
∑
z6= x (y)
p( x, z) pn (z, y)
2 MARKOVKETTEN
24
≥ εMn (y) + mn (y) p( x, x (y)) − ε +
= εMn (y) + mn (y)(1 − ε)
∑
p( x, z)
z6= x (y)
Folglich ist mn+1 (y) ≥ εMn (y) + mn (y)(1 − ε). Analog gilt wiederum Mn+1 (y) ≤
εmn (y) + Mn (y)(1 − ε) und somit
Mn+1 (y) − mn+1 (y) ≤ (1 − 2ε)( Mn (y) − mn (y)) .
Sind alle Einträge von Pm strikt positiv, so konvergiert Pmk gegen Q und für alle
l = 1, . . . , m − 1 gilt: limn Pmk+l = QPl = Q.
Ein verwandtes Beispiel ist folgendes Resultat von 0. Perron (c.f. e.g. Wikipedia 3
Beispiel 2.2.4 Sei A = ( a jk ) ∈ M(R, n) eine n × n-Matrix, so daß für alle j, k: a jk > 0.
Dann besitzt A einen strikt positiven Eigenwert λ zu einem Eigenvektor x mit strikt
positiven Komponenten. Ferner ist dim ker( A − λ) = 1 und λ ist der einzige positive
Eigenwert von A.
2.3 Markovoperatoren
Sei µ eine unter der Markovschen Übergangsmatrix P invariante Verteilung auf
Ω, so daß für alle x ∈ Ω: µ( x ) > 0. Auf der Menge aller Funktionen f : Ω → R
definieren wir ein inneres Produkt
h f , g i: =
∑
f ( x ) g( x )µ( x )
x ∈Ω
mit der entsprechenden Norm
k f k2 : =
q
hf, fi =
∑
x ∈Ω
| f ( x )|2 µ( x )
1/2
und bezeichnen den entsprechenden euklidischen Raum mit L2 (µ). Für alle f ∈
L2 (µ) sei
P f ( x ): = ∑ p( x, y) f (y) .
(11)
y∈Ω
Dann heißt der durch f 7→ P f definierte linearere Operator P : L2 (µ) → L2 (µ)
der Markovoperator (wir verwenden sowohl für die Markovschen Übergangsmatrix
als auch für den Markovoperator denselben Buchstaben, weil aus dem Kontenxt
onehin ersichtlich sein sollte, welcher Begriff gemeint ist). Da µ P-invariant ist,
folgt für alle x ∈ Ω: ∑y µ(y) p(y, x )/µ( x ) = 1, d.h. die durch p∗ ( x, y): = µ(y) p(y, x )/µ( x )
3 http://en.wikipedia.org/wiki/Perron-Frobenius
theorem
2.3 Markovoperatoren
25
definierte Matrix ist wiederum eine Markovschen Übergangsmatrix Q und µ ist
Q-invariant.
Für f , g ∈ L2 (µ) seien P, Q : L2 (µ) → L2 (µ) die entsprechenden Markov Operatoren, also
P f ( x ): =
∑ p( x, y) f (y)
und
Q f ( x ): =
∑ p∗ ( x, y) f (y) .
x
y
Dann folgt:
h P f , gi =
=
∑ P f ( x) g( x)µ( x) = ∑ f (y) g( x) p( x, y)µ( x)
x,y
x
∑ f (y) g( x ) p
∗
(y, x )µ(y) = ∑ f (y) Qg(y)µ(y) = h f , Qgi
y
x,y
i.e. P∗ = Q, Q ist also der adjungierte Operator zu P und somit ist P genau dann
selbstadjungiert, wenn
∀ x, y ∈ Ω :
µ( x ) p( x, y) = µ(y) p(y, x ) .
(12)
Ist nun P = ( p( x, y)) eine beliebige Markovsche Übergangsmatrix auf Ω und existiert eine Verteilung µ auf Ω, die die Bedingung (12) erfüllt, so nennt man µ eine
reversible Verteilung für P; reversible Verteilungen (für P) sind stets stationäre
Verteilungen (bzgl. P).
Satz 2.3.1 (Ergodensatz) Sei P eine Markovsche Übergangsmatrix auf einer endlichen
Menge Ω. Falls P der Positivitätsbedingung genügt, dann gilt für alle f ∈ L2 (µ):
1
lim
n n+1
n
∑ f (xj ) = ∑
j =0
f ( x )µ( x )
x ∈Ω
wobei wir die Folge x j ∈ Ω wie folgt wählen: x0 ist beliebig; haben wir xn ∈ Ω gewählt,
so wählen wir xn+1 ∈ Ω mit Wahrscheinlichkeit p( xn , xn+1 ).
Zyklische, tridiagonale Markovsche Übergangsmatrizen: Sei Ω = {0, . . . , N −
1} = Z N , p( j, j + 1) = p( j), p( j, j) = r ( j) und p( j, j − 1) = q( j). In diesem Fall
reduziert sich die Bedingung (12) auf µ( j) p( j) = µ( j + 1)q( j + 1). P besitzt genau
dann eine reversible Verteilung, wenn
N −1
∏
j =1
p ( j − 1)
=1.
q( j)
Dann ist
∀n ∈ Ω :
n −1
µ(n) = c ∏
j =0
p( j)
,
q ( j + 1)
(13)
die reversible Verteilung (c > 0 ist so zu wählen ist, daß ∑nN=−01 µ(n) = 1). Falls
z.B. p( N − 1) = q(0) = 0, dann besitzt P eine reversible Verteilung. Beachtenswert ist, daß die Diagonalwerte r ( j) für µ keine Rolle spielen.
2 MARKOVKETTEN
26
Irrfahrt mit Barriere und Drift: Ω = N0 , p( j, j + 1) = p( j), p( j, j − 1) = q( j)
mit q0 = 0, q( j + 1) = e−U ( j) und p( j) = e−U ( j+1) . Die reversible Verteilung ist
gegeben durch
e −U ( j )
(14)
µ ( j ) = ∞ −U ( k )
∑ k =0 e
Also z.B. für U ( j) = j log 2: µ( j) = 2− j /2.
Diffusionsmodell von Bernoulli-Laplace: Die reversible Verteilung ist die hypergeometrische Verteilung:
n
2N − n
2N
µ( j) =
/
.
j
n−j
n
i.e. die Wahrscheinlichkeit aus einer Stichprobe des Umfangs n aus 2N genau j
schwarze Kugeln auszuwählen.
Die Bedingung für eine reversible Verteilung reduziert sich auf die Rekursion:
µ( j) p( j, j + 1) = p( j + 1, j)µ( j + 1), i.e.:
N · · · ( N − j + 1) n · · · ( n − j + 1)
j!( N − n + j) · · · ( N − n + 1)
N!n!( N − n)!
n
N!( N − n)!
=
=
j ( N − j)!( N − n + j)!
( N − j)!(n − j)!j!( N − n + j)!
n
N!( N − n)!(2N − n)!
N!( N − n)! n
2N − n
=
=
j ( N − j)( N − n + j)!(2N − n)!
(2N − n)! j
n−j
µ( j) =
Ehrenfest Kette: Die reversible Verteilung ist die Binomialverteilung µ( j) = ( Nj )2− N ,
dann aus der Rekursion: µ( j) p( j, j + 1) = p( j + 1, j)µ( j + 1), folgt:
p( j, j + 1)
N−j
( N − j) · · · N
µ( j) =
µ( j) =
µ (0)
p( j + 1, j)
j+1
( j + 1) !
N
N!
µ (0) =
µ (0) .
=
( j + 1) ! ( N − j − 1)
j+1
µ ( j + 1) =
Irrfahrt auf einem einfachen Graph (V, E): Die reversible Verteilung ist gegeben
durch
deg( x )
.
∀ x ∈ V : µ( x ) =
∑y∈V deg(y)
2.4 CLT für Markovketten
Sei Xn eine Markovkette auf dem endlichen Zustandsraum Ω mit der Übergangsmatrix P. Ferner erfülle P die Positivitätsbedingung. Dann gibt es nach Satz 2.1.1
2.5 Ein probabilistisches Modell der Diffusion
27
ein eindeutig bestimmtes stationäres Wahrscheinlichkeitsmaß µ auf Ω. Sei für
f : Ω → R: h f i: = ∑ x f ( x )µ( x ).
Satz 2.4.1 Für alle Funktionen f : Ω → R mit h f i = 0 konvergiert
1 n −1
√ ∑ f (Xj )
n j =0
in der Verteilung gegen eine normalverteilte Zufallsvariable mit dem Mittelwert 0 und
der Varianz σ2 = h P f 2 − ( P f )2 i.
Beispiel: Sei Ω = Z N und p( x, y) = 1/2 falls y = x − 1 oder y = x + 1. Dann
ist die stationäre Verteilung die Gleichverteilung auf den N Punkten von Ω. Sei
f : Ω → R mit h f i = 0, dann ist
P f ( x ) = 21 ( f ( x − 1) + f ( x + 1))
und
P f 2 ( x ) = 12 ( f ( x − 1)2 + f ( x + 1)2 )
und damit: P f 2 ( x ) − ( P f )2 ( x ) = 14 ( f ( x + 1) − f ( x − 1))2 , also: σ2 = 14 ∑ x ( f ( x +
1) − f ( x − 1))2 . Insbesondere folgt z.B. für f ( x ) = cos(2πx/N ): σ2 = N sin2 (2π/N )/2,
also für z.B. N = 3, 4, 6: σ2 = 9/8, 2, 9/4.
2.5 Ein probabilistisches Modell der Diffusion
Seien ∆x, ∆t > 0 und b : R → R. Ein Teilchen (oder was auch immer) bewege
sich auf R, nach folgender Vorschrift:
1. Zum Zeitpunkt t = 0 befindet sich das Teilchen im Punkt y ∈ R.
2. Ist das Teichen zum Zeitpunkt t = 0, ∆t, 2∆t, . . . im Punkt x, so ist es zum
Zeitpunkt t + ∆t mit Wahrscheinlichkeit 1/2 entweder im Punkt x − b( x )∆t + ∆x
oder im Punkt x − b( x )∆t − ∆x.
Dies ist nichts anderes als eine Markovkette mit dem Zustandsraum S = R und
dem Markovoperator
∀ f ∈ C ∞ (R) : P∆t f ( x ): = 21 ( f ( x − b( x )∆t + ∆x ) + f ( x − b( x )∆t − ∆x )) . (15)
Die Funktion b heißt die Drift der Diffusion; für b = 0 ist dies eine einfache
n und u ( t, x ): = P f ( x ); dann gilt
lineare Irrfahrt. Seien n ∈ N0 , t = n∆t, Pt : = P∆t
t
nach dem Satz von Taylor:
u(t + ∆t, x ) − u(t, x ) = P∆t Pt f ( x ) − Pt f ( x )
= 12 (u(t, x − b( x )∆t + ∆x ) − 2u(t, x ) + u(t, x − b( x )∆t − ∆x ))
=
1
2 ( u ( t, x
− b( x )∆t + ∆x ) − 2u(t, x − b( x )∆t) + u(t, x − b( x )∆t − ∆x ))
+u(t, x − b( x )∆t) − u(t, x )
= 12 ∂2x u(t, x − b( x )∆t)(∆x )2 − ∂ x u(t, x )b( x )∆t + o((∆x )2 ) + o(∆t) .
2 MARKOVKETTEN
28
Wählen wir nun (∆x )2 = ∆t, so erhalten wir für ∆t → 0 die partielle Differentialgleichung:
(16)
∂t u(t, x ) = 21 ∂2x u(t, x ) − b( x )∂ x u(t, x ) .
Ist b = 0, so nennt man dies die Wärmeleitungsgleichung auf R. Für alle y ∈ R
ist die Funktion
py (t, x ): = √ 1 exp − 2t1 ( x − y)2
(17)
2πt
die einzige Lösung der partiellen Differentialgleichung (16) (für b = 0) mit folgenden Eigenschaften:
py (t, x ) ≥ 0,
Z
R
py (t, x ) dx = 1 und ∀ r > 0 : lim
t ↓0
Z y +r
y −r
py (t, x ) dx = 1 .
(18)
Die ersten beiden Eigenschaften besagen, daß x 7→ py (t, x ) die Dichte einer
Wahrscheinlichkeitsverteilung ist: die Wahrscheinlichkeit das Teilchen zum Zeitpunkt t im Intervall (α, β) anzutreffen ist
Z β
a
py (t, x ) dx .
(19)
Die dritte Eigenschaft spiegelt die Startbedingung wider: Zum Zeitpunkt t = 0
befindet sich das Teilchen im Punkt y, d.h. die Wahrscheinlichkeit das Teilchen in
einer beliebig Umgebung von y zu finden ist 1.
2.6 PageRank
Cf. [?] p.367-p.370: Folgendes Bewertungsverfahren von Seiten kommt bei der
Suchmaschine Google zum Einsatz: Die Links von n Seiten beschreibt man durch
die Adjazenzmatrix A = ( a jk ) des entsprechenden Graphs, also a jk = 1, falls es
einen Link von Seite j auf Seite k gibt und a jk = 0 falls es keinen Link von Seite
j auf Seite k gibt (a jj setzt man stets gleich 0). Eine der einfachsten Formen einer
Bewertung besteht nun darin einer Seite k die Anzahl der Seiten zuzuordnen, die
auf sie verweisen, also ordnet man der Seite k die Bewertung
µk : =
∑ a jk
j
zu. Will man Seiten, die auf wenige andere Seiten verweisen, mehr Gewicht geben als stark verlinkten Seiten, so definiert man
µk : =
∑ a jk /n j
j
wobei
n j : = deg− ( j) =
∑ a jk .
k
Das Problem dieser Festlegung ist nun, daß ein Betreiber einer Seite beliebig viele
andere Seiten erstellen kann, die nur auf seine Seite verweisen. Dies umgeht man
2.7 Hastings bzw. Gibbs Algorithmus
29
i.w. dadurch, daß man jeder Seite j nicht das Gewicht 1/n j zuweist, sondern das
Gewicht µ j /n j ; wir erhalten somit für die Bewertungen das lineare Gleichungssystem
µk = ∑ µ j a jk /n j
j
oder mit P = ( p jk ), p jk : = a jk /n j : µ = µP, wobei µ = (µ1 , . . . , µn ). µ ist also ein
stationäres Maß der stochstischen Matrix P. Erfüllt P die Positivitätsbedingung,
so ist µ eindeutig bestimmt und kann i.w. durch Iteration berechnet werden. Gibt
es aber z.B. zwei Seiten, die nur gegenseitig aufeinander verweisen, so konvergiert Pn , n ∈ N, nicht – die Folge der Mittelwerte n−1 (ν + νP + . . . + νPn−1 ) kann
hingegen konvergieren. Man weist daher jeder Seite nur einen Teil α ∈ (0, 1) an
Bewertung zu, die durch ihre Vernetzung bestimmt ist und der restliche Bewertungsanteil kommt jeder Seite für sich genommen zu. Sei also ν = (1, . . . , 1), dann
erfüllt µ das lineare Gleichungssystem
µ = (1 − α)ν + αµP
i.e.
µ = (1 − α)(1 − αP)−1 ν
d.h. µ = (1 − α)(1 + αP + α2 P2 + · · ·)ν.
2.7 Hastings bzw. Gibbs Algorithmus
Hastings: 4 Sei Ω eine diskrete Menge und µ ein Wahrscheinlichkeitsmaß auf Ω
mit µ( x ) > 0 für alle x ∈ Ω. Sei Xn eine Markovkette in Ω mit der irreduziblen
Markovschen Übergangsmatrix p( x, y). Wir definieren nun eine weitere Markovsche Übergangsmatrix q( x, y) durch
∀ x 6= y :
q( x, y) = p( x, y) ∧
µ(y)
p(y, x ) = p( x, y) ∧ p∗ ( x, y) .
µ( x )
(20)
und q( x, x ) = 1 − ∑y q( x, y). Das Maß µ ist dann nach der Beziehung (12) ein
reversibles Maß für q( x, y):
µ( x )q( x, y) = µ( x ) p( x, y) ∧ µ(y) p(y, x ) = µ(y)q(y, x ) .
Ferner hängt q nur von dem Verhältnis µ(y)/µ( x ) ab, das i.a. viel leichter zu
bestimmen ist als die absoluten Werte µ( x ), x ∈ Ω. Ist p selbst symmetrisch, also
p( x, y) = p(y, x ), so folgt:
∀ x 6= y :
q( x, y) = (1 ∧ µ(y)/µ( x )) p( x, y) .
4 http://en.wikipedia.org/wiki/Metropolis-Hastings
algorithm
2 MARKOVKETTEN
30
Wie realisiert man – ausgehend von der Markovkette Xn – eine Markovkette
Yn mit der Markovschen Übergangsmatrix q( x, y), also P(Yn+1 = y|Yn = x ) =
q( x, y)? Sei Yn = x, Xn+1 = y mit Wahrscheinlichkeit p( x, y) und
p: =
q( x, y)
µ(y) p(y, x )
= 1∧
p( x, y)
µ( x ) p( x, y)
Sei β n+1 eine unabhängige Bernoulli Variable mit P( β n+1 = 1) = p und P( β n+1 =
0) = 1 − p. Falls β n+1 = 1, dann setze Yn+1 = Xn+1 = y, andernfalls setzen wir
Yn+1 = Xn = x. Es gilt dann
P(Yn+1 = y|Yn = x ) = P( β n+1 = 1)P( Xn = y| Xn = x ) = q( x, y),
i.e. Yn ist eine Markovkette mit der Markovschen Übergangsmatrix q( x, y).
Im folgenden Beispiel ist weder Ω noch das invariante Maß endlich!
Beispiel: Sei Ω = Z, p( x, x ± 1) = 1/2 – dann ist das invariante Maß das Zählmaß.
2
Ferner sei µ( x ) = Ze− x . In diesem Fall ist q( x, x + 1) = 1/2 für x ≤ −1 und
e−2x−1 /2 für x ≥ 0, q( x, x − 1) = 1/2 für x ≥ 1 und e2x−1 /2 für x ≤ 0 q( x, x ) =
1 − q( x, x + 1) − q( x, x − 1) (cf. tridiagonale Markovsche Übergangsmatrizen).
Der Hastings Algorithmus funktioniert auch in einem viel abstrakteren Rahmen:
Sei λ ein Borelmaß auf dem Polnischen Raum S, Xn eine reversible
Markovkette
R
mit Werten in S – also P( x, A): = P( Xn+1 ∈ A| Xn = x ) und B P( x, A) λ(dx ) =
R
R −U
−1
e dλ <
A P ( x, B ) λ ( dx ) – und U : S → R eine meßbare Funktion, so daß Z : =
−
U
(
x
)
∞ – dann ist µ(dx ): = Ze
λ(dx ) ein Wahrscheinlichkeitsmaß. Sei Yn = x; wir
wählen Xn+1 entsprechend der Verteilung P( x, .). Falls U ( Xn+1 ) < U ( x ), dann
setzen wir: Yn+1 = Xn+1 , andernfalls wählen wir eine unabhängige 0, 1-wertige
Zufallsvariable β mit P( β = 1) = eU ( x)−U ( Xn+1 ) und setzen Yn+1 = Xn+1 falls
β = 1 und Yn+1 = x falls β = 0.
Beispiel: Sei Ω = [0, 1], Xn eine Folge unabhängig und gleichverteilter Zufallsvariablen mit Werten in [0, 1]. Sei Yn = x Zunächst wählen wir ‘zufällig’– i.e.
entsprechend der Gleichverteilung auf [0, 1] – einen Punkt y ∈ [0, 1] und setzen Yn+1 = y falls U (y) < U ( x ); falls U (y) ≥ U ( x ), dann wählen wir eine unabhängige 0, 1-wertige Zufallsvariable β mit P( β = 1) = eU ( x)−U (y) und setzen
Yn+1 = y falls β = 1 und Yn+1 = x falls β = 0.
Beispiel: Sei B ein konvexer, symmetrischer Körper (i.e. B ist kompakt, konvex,
symmetrisch und B◦ 6= ∅) in Rn , Xn eine Folge unabhängig und gleichverteilter
Zufallsvariablen mit Werten in B und K eine konvexer Körper in Rn . Sei Yn = x
und Xn+1 = y ein ‘zufällig’ gewählter Punkt in B. Wir setzen Yn+1 = x + y falls
x + y ∈ K und sonst Yn+1 = x. Das normalisierte Lebesguemaß auf K ist dann
das reversible Wahrscheinlichkeitsmaß.
Wie erzeugt man die Gleichverteilung auf z.B. B = B2n oder B = B1n ?
2.7 Hastings bzw. Gibbs Algorithmus
31
1. Seien Z1 , . . . , Zn unabhängig und normalverteilt und R eine von Z1 , . . . , Zn unabhängige Zufallsvariable auf dem Wahrscheinlichkeitsraum ((0, 1), λ) mit R(t) =
t1/n , dann gilt λ( R ≤ r ) = r n und
X: =
R( Z1 , . . . , Zn )
q
∑ Z2j
ist gleichverteilt auf B2n .
2. Seien Z1 , . . . , Zn unabhängig und Laplace-verteilt, i.e. Z1 besitzt die Dichte
1 −| x |
und R wie oben, dann ist
2e
X: =
R( Z1 , . . . , Zn )
∑ | Zj |
gleichverteilt auf B1n .
Gibbs: 5 Dies ist i.w. eine vereinfachte Form des Hastings-Algorithmus’: Sei S
eine diskrete Menge, N ∈ N, U eine Zufallsvariable mit Werten in S N und µ( x ) =
P(U = x ). Für ω, η ∈ S N schreiben wir ω ∼ j η, wenn für alle k 6= j gilt: ωk = ηk
(ω und η unterscheiden sich daher höchstens in der j-ten Komponente). Definiere
q(ω, η ): =
(
µ(η )
N ∑ζ ∼ ω µ(ζ )
j
0
falls η ∼ j ω
sonst
so ist µ ein reversibles Maß für q, denn unterscheiden sich ω und η nur in der
j-ten Komponente, so gilt ζ ∼ j ω genau dann, wenn ζ ∼ j η
µ(ω )q(ω, η ) =
µ(ω )µ(η )
µ(ω )µ(η )
=
= µ(η )q(η, ω ) .
∑ζ ∼ j x µ(ζ )
∑ζ ∼ j y µ(ζ )
Der Quotient µ(η )/ ∑ζ ∼ j ω µ(ζ ) ist die bedingte Wahrscheinlichkeit
P(Uj = η j |U1 = ω1 , . . . , Uj−1 = ω j−1 , Uj+1 = ω j+1 , . . . , UN = ω N )
denn dies ist
P(Uj = η j , U1 = ω1 , . . . , Uj−1 = ω j−1 , Uj+1 = ω j+1 , . . . , UN = ω N )
P(U1 = ω1 , . . . , Uj−1 = ω j−1 , Uj+1 = ω j+1 , . . . , UN = ω N )
=
P (U = η )
.
P(U ∈ {ζ : ζ ∼ j ω })
Die der Übergangsmatrix q entsprechende Markovkette Yn auf S N realisiert man
auf folgende Weise: sei Yn = x, dann wählen wir mit Wahrscheinlichkeit 1/N
5 http://en.wikipedia.org/wiki/Gibbs
sampling
2 MARKOVKETTEN
32
eine der Komponenten aus; haben wir etwa j ausgewählt so setzen wir mit Wahrscheinlichkeit q( x, y): Yn+1 = y; Yn und Yn+1 unterscheiden sich dann nur in der
j-ten Komponente.
Ein Modell eines ferromagnetischen Metalls nach Ising: Cf. e.g. Wikipedia 6 Sei
A ⊆ Z3 endlich mit | A| = N und Ω = {−1, +1} A = {−1, +1} N – in diesem Fall
ist also S = {±1}. Wir interpretieren A als die Menge der Positionen von Atomen
eines kubischen Kristalls und für ω ∈ Ω und x ∈ A ω ( x ) = ±1 als den Spin des
Atoms in der Position x. Ist die Energie eines Zustandes ω ∈ Ω gegeben durch
H ( ω ): = α
∑ ω ( x) − 21 β ∑
x∈ A
ω ( x ) ω ( y ),
(21)
( x,y)∈ R
wobei ( x, y) ∈ R genau dann, wenn für ein j ∈ {1, 2, 3}: | x j − y j | = 1, Dann
ist nach dem Entropiesatz die Wahrscheinlichkeit den Zustand ω vorzufinden
gleich µ(ω ): = Z exp(− H (ω )/T ). Die Bestimmung der Normierungskonstante Z
erfordert jedoch die Berechnung aller möglichen 2 N Werte von H (ω ); also selbst
für die sehr geringe Anzahl von N = 100 Atomen ist diese Aufgabe nicht zu
bewältigen. Will man z.B. den Mittelwert einer Funktion F : Ω → R bestimmen,
so ist z.B. der Gibbs Algorithmus von Vorteil, der auf der Konstruktion einer
Markovkette beruht: sei ω ∼ x η, d.h. für alle y 6= x gelte ω (y) = η (y) und
η ( x ) = −ω ( x ); dann ist
q(ω, η ) =
e− H (η )/T
N (e− H (η )/T + e− H (ω )/T )
und
q(ω, ω ) =
e− H (ω )/T
.
N (e− H (η )/T + e− H (ω )/T )
In Nenner und Zähler von beiden Ausdrücken kürzen sich alle Summanden von
H, in denen x nicht vorkommt, also bleibt in H (ω )/T:
T −1 ω ( x ) α − β ∑ ω ( y ) .
z∈ R( x )
Setzen wir nun p( x ): = exp(−ω ( x )(α − β ∑z∈ R( x) ω (y))/T ), so erhalten wir:
q(ω, η ) =
1/p( x )
N ( p( x ) + 1/p( x ))
und
q(ω, ω ) =
p( x )
.
N ( p( x ) + 1/p( x ))
Wir wählen daher die Folge ω0 , ω1 , . . . von Zuständen auf folgende Weise:
1. Zum Zeitpunkt 0 setzen wir ω0 ( x ) = ±1 beliebig.
2. Sei ωn der Zustand zum Zeitpunkt n, dann wählen wir mit Wahrscheinlichkeit
1/N eine Position – etwa x – aus, bestimmen
p( x ): = exp(−ωn ( x )(α − β
6 http://en.wikipedia.org/wiki/Ising
model
∑
z∈ R( x )
ωn (y))/T )
2.8 Der Entropiesatz
33
und ändern den Spin des Atoms in Position x mit Wahrscheinlichkeit 1/( p( x )2 +
1).
3. Da µ die reversible (also stationäre) Verteilung dieser Markovkette ist gilt nach
Satz 2.3.1:
n
1
lim
∑ F (ω j ) = ∑ F (ω )µ(ω )
n→∞ n + 1
ω ∈Ω
j =0
2.8 Der Entropiesatz
Wir bezeichnen von nun an die Elemente des Zustandsraumes Ω mit {1, . . . , d}
und die Verteilungen auf der Menge Ω mit x; M1 (Ω): = { x ∈ R+d : x1 + · · · +
xd = 1} ist dann die Menge der Verteilungen auf Ω. Ferner sei H : Ω → R eine
beliebige Funktion. Für ( x1 , . . . , xd ) ∈ M1 (Ω) interpretieren wir wie oben xk als
die Wahrscheinlichkeit für den Zustand k (cf. Abschnitt 15.2). Ist F : Ω → R, so
nennt man ∑k F (k ) xk den Mittelwert von F bezüglich der Verteilung x1 , . . . , xd .
Die Funktionen n, e, Ent : M1 (Ω) → R seien schließlich definiert durch
d
n ( x ): =
∑
d
kxk ,
e ( x ): =
k =1
∑
d
H (k ) xk ,
k =1
Ent( x ): = −
∑ xk log xk ,
(22)
k =1
i.e. n( x ) und e( x ) sind Mittelwerte bezüglich der Verteilung x (n( x ) ist i.a. die
mittlere Teilchenzahl, d.h. der Zustand k beschreibt ein Teilchensystem mit k Teilchen; H (k ) ist dann i.a. die Energie dieses Zustands). Da −Ent strikt konvex und
n, e : M1 (Ω) → R linear sind erhalten wir den sogenannten Entropiesatz: Unter den Bedingungen n( x ) = N und e( x ) = E gibt es genau eine Verteilung
( p1 , . . . , pd ) ∈ M1 (Ω) in der Ent ihr Maximum annimmt.
Sei M ( x ): = ∑ x j und
f ( x, λ1 , λ2 , λ3 ): = Ent( x ) − λ1 ( M ( x ) − 1) − λ2 (n( x ) − N ) − λ3 (e( x ) − E) .
In der Thermodynamik ist es üblich die Lagrange Multiplikatoren wie folgt zu
bezeichnen: 1/T: = λ3 , µ/T: = −λ2 und U/T: = −1 − λ1 . Es gilt dann für alle
k = 1, . . . , d:
pk = e(U +µk− H (k))/T wobei U = − T log ∑ e(µk− H (k))/T .
(23)
k
Die Werte von µ und T sind durch die Nebenbedingungen eindeutig festgelegt:
U, T und µ sind Funktionen von E und N. Im Punkt p nimmt die Funktion Ent
den Wert S an:
S = Ent( p) = − ∑ pk log pk
k
= − ∑ pk (U + µk − H (k))/T = −(U + µN − E)/T
k
(24)
2 MARKOVKETTEN
34
Dies ist eine der Grundgleichungen der Thermodynamik. Wir betrachten nun T
und µ als freie Variablen und U, N, S bzw. E als Funktionen von T und µ. Partielle
Differentiation der Beziehung ∑ pk = 1 nach µ bzw. T ergibt nach (23) und (24):
0 =
0 =
∑(∂µ U + k ) pk = ∂µ U + N
∑(−(U + µk − Hk )/T2 + ∂T U/T ) pk
= (−U + µN − E)/T 2 + ∂ T U/T = (S + ∂ T U )/T .
und damit:
∂µ U ( T, µ) = − N ( T, µ)
bzw.
∂ T U ( T, µ) = −S( T, µ) .
(25)
Ersetzt man die Konstanten H (k ) durch Funktionen H (k )(V ) eines Parameters
V, so ändern sich diese Beziehungen nur insofern als U, E, N und S dann auch
von V abhängen. Definiert man P: = −∂V U, so folgen die Grundgleichungen der
Thermodynamik
dU = − N dµ − S dT − P dV
und
E = U − µ∂µ U − T∂ T U .
(26)
Kennt man also die Funktion U (als Funktion von T, µ und V), so erlauben diese
Gleichungen die Bestimmung der übrigen thermodynamischen Größen. In der
Thermodynamik heißen V, T, µ, U, E, N, S bzw. P das Volumen, die Temperatur,
das chemische Potential, das thermodynamische Potential, die Energie, die Teilchenzahl, die Entropie bzw. der Druck. Ferner nennt man die durch F: = E − TS,
H: = E + PV und G: = H − TS definierten Funktionen die freie Energie, die Enthalpie und die freie Enthalpie.
Beispiel: Unter allen Verteilungen auf Ω: = {1, . . . , d} besitzt die Gleichverteilung
pk = 1/d maximale Entropie.
Beispiel: Wir wollen unter allen Verteilungen auf Ω: = N0 jene Verteilung p ∈
M1 (N0 ) finden, die unter der Bedingung ∑n nxn = N ∈ R+ maximale Entropie
besitzt. Nach (23) gilt für alle n ∈ N0 mit s: = U/T und t: = µ/T:
pn = es+tn
mit
s = − log( ∑ etj ) = log(1 − et )
j ≥0
also
es = 1 − et
Aus der Bedingung ∑ npn = N folgt:
N=
∑ jes+tj = es ∑ ∂t etj = es ∂t (1 − et )−1 = (1 − et )−2 es+t = e−2s+s+t .
j ≥0
j ≥0
Woraus folgt: t = s + log N. Aus et = 1 − es folgt dann: t = log(1 − es ) =
s + log N, also: 1 − es = Nes , d.h. es = ( N + 1)−1 und et = N ( N + 1)−1 . Damit
erhalten wir: pn = N n /( N + 1)n+1 – man nennt dies die geometrische Verteilung
auf N0 mit dem Mittelwert N.
2.8 Der Entropiesatz
35
Beispiel: Bestimmen Sie jene Verteilungen auf Ω: = Z die unter den Bedingungen
∑ kpk = 0 und ∑ k2 pk = 2E maximale Entropie besitzt. Dies ist ein Modell einer Geschwindigkeitsverteilung: die möglichen Geschwindigkeiten sind der Zustandsraum Z, die mittlere Geschwindigkeit soll verschwinden und die mittlere
Energie soll E sein!
Thermodynamische Prozeße: Bisher betrachteten wir V, T, µ als freie Variablen
und alle weiteren Größen als Funktionen dieser drei Variablen. Man kann jedoch
unter all diesen Größen drei beliebige als freie Variablen auswählen und alle weiteren als Funktion dieser drei betrachten. Wählt man z.B. T, V und N als freie
Variablen, so folgt aus den Grundgleichungen 26:
∂ T U dT + ∂V U dV + ∂ N U dN = dU = − N dµ − S dT − P dV
= − N (∂ T µ dT + ∂V µ dV + ∂ N µ dN ) − S dT − P dV
= (− N∂ T µ − S) dT + (− N∂V µ − P) dV + (− N∂ N µ) dN
d.h.: ∂ T U + N∂ T µ = −S, ∂V U + N∂V µ = − P und ∂ N U + N∂ N µ = 0 Mit F: =
E − TS und ST = −(U + µN − E) folgt: F = U + µN, also: ∂ T F = ∂ T U + N∂ T µ,
∂V F = ∂V U + N∂V µ und ∂ N F = ∂ N U + ∂ N µ + µ; also erhalten wir:
S = −∂ T F,
P = −∂V F,
µ = ∂N F .
(27)
In der Chemie wählt man häufig T, P und N als freie Variablen:
S = −∂ T G,
V = ∂ P G,
µ = ∂N G .
(28)
Wir betrachten der Einfachheit halber im weiteren N als konstant und T, V als
freie Variablen. Unter einem thermodynamischen Prozeß versteht man eine Kurve t 7→ ( T (t), V (t)); wir setzen:
E(t): = E( T (t), V (t)),
S(t): = E( T (t), V (t)),
P(t): = P( T (t), V (t)),
etc.
Seien t1 < t2 ; die Größen
−
Z t2
t1
′
P(t)V (t) dt
bzw.
Z t2
t1
T (t)S′ (t) dt .
heißen die am Körper durch den Prozeß verrichtete Arbeit bzw. die von ihm
aufgenommene Wärmemenge zwischen den Zeitpunkten t1 und t2 . Es ist wichtig darauf hinzuweise, daß beide Größen i.a. vom Prozeß, i.e. von der Kurve
abhängen.
Ein Prozeß t 7→ ( T (t), V (t)) heißt isotherm bzw. isochor bzw. isobar bzw. reversibel, wenn t 7→ T (t) bzw. t 7→ V (t) bzw. t 7→ P(t) bzw. t 7→ S(t) konstant
sind.
Herunterladen