1¨Ubersicht über die klassische Physik

9
1
Übersicht über die klassische Physik
1.1
1.1.1
Grundlegende Begriffe
Einige Begriffe
• GCPS Allgemeines Klassisches Physikalisches System
Eine überschaubare Menge von realen Objekten, dessen Verhalten uns als Gesamtheit
interessiert.
• Zustand
Zustand beschreibt das physikalische System vollständig. Wenn wir den Zustand kennen,
ist unser Interesse befriedigt. Es gibt verschiedene Möglichkeiten (wenigstens 2 Zustände)
Das ist immer das erste, worüber man sich Gedanken machen muß.
• Zustandsraum Menge aller möglicher Zustände
• Zustandsänderungen Wir betrachten Zustandsänderungen in der Zeit
• Massepunktes Objekt ohne innere Struktur, das sich in Raum und Zeit bewegen kann.
• Freiheitsgrad Sowas wie die “Dimension” des Zustandsraumes. Besser (weil eine Dimension eigentlich nur lineare Räume haben) zu verstehen als Anzahl der Parameter, die den
Zustand bestimmen.
• Modell Vollständige Beschreibung des physikalischen Systems, so wie wir es verstehen.
Beinhaltet die Beschreibung von: Zustand, Zustandsänderung, Beobachtungen, abgeleiteten Größen (), ...
•
• Aufgabenklasse
Direkte, inverse, Steuerungsaufgabe,
• Modellanalyse
Definition der Aufgabenklasse, Lösung der Aufgabe
1.1.2
Zustand und Zustandsraum. Beispiele
Beispiele:
• Zwei Zustände (Schalter), weniger geht nicht (z.B. Molekül)
• Drei Zustände: Eine Kugel, Rot, Blau oder Grün (z.B. Molekül)
• Endlich viele Zustände
• Abzählbar viele Zustände (Teilchenzahl, diskretes Gitter)
• Koordinaten von Objekten, Brownsche Bewegung
• (v, x) oder (P, x) eines Massepunktes
•
• Zusammengefaßt: Drei Beispiele: Zustandraum ist als Menge endlich, abzählbar oder ein
Kontinuum.
10
1 ÜBERSICHT ÜBER DIE KLASSISCHE PHYSIK
1.2
Übersicht über Modelle der klassischen Physik
In der Physik werden verschieden Modellstufen betrachtet. Die entsprechenden Modelle unterscheiden sich insbesondere in den mathematischen Methoden, die verwendet werden. Ich werde
eine kurze Übersicht über übliche Modelle geben. Diese Klassifizierung ist nicht allgemeingebräuchlich, aber doch sehr verbreitet.
Um ein Modell für eine interessierendes physikalisches Problem aufzustellen ist folgendes erforderlich:
• Zustand und Zustandsraum
• Aufgabenklasse
• Gleichungen u.ä.
1.2.1
Mikroskopische, deterministische Modelle
Ein mikroskopisches deterministisches Modell ist ein Modell, dessen Zustände und Zustandsänderungenvollständig beschrieben werden. Man kann stationäre Probleme und instationäre Probleme unterscheiden.
• Stationäre Probleme:
– Beispiel: Massen und Federn. Zustand sind die Koordinaten x. Freiheitsgrade!
– Lösung liefert das Prinzip der minimalen potentiellen Energie
– Massen spielen nur als schwere Massen eine Rolle. Wenn wir die Massen auf eine
wagerechte Ebene legen, wird das Gleichgewicht nur von den Federn bestimmt.
– Gleichungen: min Φ(z), F (z) = ∂Φ(z) = 0.
• Instationäre (dynamische) Probleme:
– Der Zustand ändert sich mit der Zeit: z(t). Es gibt eine Trajektorie im Zustandsraum, die man ermitteln möchte. Unter bestimmten Zusatzbedingungen an diese
Trajektorie (Markowannahme) kann man zeigen, daß sie sich durch Lösung einer
Gleichung mit einer Anfangsbedingung ż(t) = G(z), z(t) = 0 bestimmen läßt.
Das nennt man dynamisches System mit kontinuierlicher Zeit.
– Beispiel: Massen und Federn. Zustand sind die Koordinaten und die Geschwindigkeit
(oder der Impuls): (v, x)
Die Trajektorie läßt sich durch Lösung der Newtonschen Gleichung ẍ(t) = m1 F (x, ẋ)
bestimmen. Das ist ein dynamisches System, wenn man eine neue Variable v = ẋ
einführt. Dan erhält man
1
F (x, v)
v̇(t) =
m
ẋ(t) = v
Hier sind x und v Vektoren und 1/m eine inverse Matrix.
– Weitere Stichworte zu solchen Promlemen sind Lagranggleichung, Hamiltonsystem,
Hamilton-Jacobi-Gleichung, Prinzip der kleinsten Wirkung.
– Weiters Beispiel: Sonnensystem mikroskopisch, aber nicht klein
– Weiters Beispiel: Endlich viele Zustände. Rot, Blau, Grün,
• Hiermit beschäftigen wir uns im nächsten Semester.
1.2 Übersicht über Modelle der klassischen Physik
1.2.2
11
Allgemeine (statistische) mikroskopische Modelle
Es kann sein, daß es sinnvoll ist, nicht einen einzelnen Zustand zu betrachten, sondern alle
Zustände des Zustandsraumes. Das kann zwei Gründe haben:
• Die eigentlichen Zustände sind uns eigentlich nicht zugänglich. Wir erhalten Informationen über sie indirekt, indem wir sie beobachten. Eine Beobachtung ist eine Abbildung
der Zustände in die reellen Zahlen. Man kann sich das als Meßprozeß vorstellen.
• Die Zustände sind uns zwar zugänglich, wir können den Zustand aber nicht eindeutig
zuordnen, z.B. weil bei jedem Experiment sich das System in einem anderen Zustand
befindet, oder weil wir die Zustandsänderung nicht exakt angeben können. Man weiß
zwar, in welchem Zustand sich das System befindet, aber mann kann seine Trajektorie
nicht eindeutig vorhersagen.
Das System befindet sich in einem gemischten Zustand. Oder es befindet sich nur mit
einer gewissen Wahrscheinlichkeit in einem Zustand.
– Ein typisches Beispiel ist die Brownsche Bewegung. Man kann den Ort des Teilchens
nur mit einer gewissen Wahrscheinlichkeit vorhersagen. Es gibt keine Trajektorie
x(t), sondern eine zeitlich veränderliche Wahrscheinlichkeitsdichte f (x, t), die im
speziellen Fall der Diffusionsgleichung
∂2
D
f
(x,
t)
∂x2
genügen. Hier ist f (x, t) die Wahrscheinlichkeit, daß sich das Teilchen zum Zeitpunkt
t in der Nähe des Punktes x aufhält.
– Wir wissen, daß der Zustand eines Teilchens tatsächlich ein Geschwindigkeits-OrtsPaar z = (v, x) ist, der der Newtonschen Gleichung (als System geschrieben) genügt.
ft =
v̇(t) = −av
ẋ(t) = v
Hier ist m = 1 gesetzt und lineare Reibungskraft angenommen worden. Dieses System beschreibt die Evolution der Trajektorie (v(t), x(t)). Nimmt man an, daß die
Trajektorie nicht deterministisch ist, z.B. weil der Anfangswert nicht eindeutig festgelegt ist, kann man zeigen, daß eine entsprechende Wahrscheinlichkeitsdichte f (v, x, t)
die Liouvillgleichung (eine PDE erster Ordnung) erfüllt:
∂
∂
∂
f (v, x, t) =
(avf ) − v f
∂t
∂v
∂x
Nimmt man an, daß nicht nur der Anfangswert unbestimmt ist, sondern auf das
Teilchen auch eine spezielle Zufallskraft von Seiten des Mediums wirkt, wir also ein
System der Form
v̇(t) = −av + cFr
ẋ(t) = v
haben, dann ist die Gleichung für f die Fokker-Planck Gleichung
∂
∂
∂2
∂
f (v, x, t) =
(avf ) − v f + 2 (cf )
∂t
∂v
∂x
∂v
12
1 ÜBERSICHT ÜBER DIE KLASSISCHE PHYSIK
– Mastergleichung
dPk X
=
(Tkℓ Pℓ − Tℓk Pk ).
dt
ℓ
– Chapman-Kolmogorow Gleichung oder Kolmogorow Vorwärts Gleichung
Z ∂
f (z, t) =
Q(z, z ′ )f (z ′ , t) − Q(z ′ , z)f (z, t) dz ′
∂t
Z
1.2.3
Mesoskopische Modelle
• Man hat keine Chance, den Zustand zu bestimmen, aber wir nehmen an, daß es ihn
gibt und das wir aus ihm Gleichungen für abgeleitete Größen herleiten können. (z.B., wir
nehmen an, daß wir ein Gas beschreiben könnten, wenn wir die Bewegung seiner 1024
Moleküle exakt beschreiben könnten)
• Diffusionsgleichung beschreibt Konzentration anstelle von Wahrscheinlichkeitsdichte. Das
gesamte Esemble bewegt sich wie ein Teilchen, von dem wir den Zustand nicht genau
kennen.
• Boltzmanngleichung
• Diffusionsgleichung
1.2.4
Makroskopische Modelle
Makroskopische Modelle sind mathematisch exakt hergeleitete Modelle, die aber ein mathemtaisches Verfahren – z.B. einen Grenzübergang – enthalten, die dazu führen, daß man eigentlich
einanders physikalisches Problem modelliert hat, von dem man annimmt, daß es richtig ist.
Beispiele sind:
• Herleitung der Diffusionsgleichung aus Hopping
• Homogenisierung
• Entwicklung in der Nähe vom Gleichgewicht
1.2.5
Phänomenologische Modelle
Phänomenologische Modelle sind nicht exakt hergeleitete Modelle. Man sieht, daß ein Prozeß
(z.B. der Fluß einer Flüssigkeit durch einen porösen Stoff) einem Diffusionsprozeß ähnelt. Man
nimmt also an, daß die Konzentration des Stoffes der Diffusionsgleichung genügt. Gibt es Abweichungen, versucht man das Modell anzufitten, indem man z.B. den Diffusionskoeffizient etwa
von der Konzentration abhängen läßt).
Das ist ein typisches Vorgehen. Man benutzt Modelle, die eigentlich in einem anderen Zusammenhang hergeleitet wurden und interpretiert sie um.
Die meisten in der Praxis verwendeten Gleichungen sind phänomenologische.
Solche Gleichungen kann man nicht herleiten. Man kann sie nur postulieren und sich dabei an
gewisse Prinzipien halten wie Massenerhaltung, Positivitätserhaltung und thermodynamische
Konsistenz.
Ausgangspunkt für diese Modelle sind meistens allgemeine mikroskopische Modelle, für die man
die geforderten Eigenschaften beweisen kann. In diesem Sinn ist die Untersuchung von allgemeinen mikroskopischen Modellen wichtig zum Verständnis der meisten phänomenologischen
Modelle.
11
2
Dualität extensiver und intensiver Größen
2.1
Erkenntnistheoretische Einführung
2.1.1
Das duale Produkt
Eine typische Konstruktion in der linearen Algebra ist
X = g1 P1 + ... + gn Pn
und wird meistens Skalarprodukt genannt. g = (g1 , ..., gn ) und P = (P1 , ..., Pn ) sind zwei
Vektoren aus Rn .
Zwischen gi und Pi gibt es mathematisch keinen Unterschied. Beides sind reelle Zahlen. Mit
beiden kann man rechnen wie mit Zahlen.
Der Grundzusammenhang ist hier folgender: Als erstes werden Produkte der Art Qi = gi Pi
gebildet und dann werden die Ergebnisse addiert. Wir haben also eigentlich einen weiteren
Vektor Q = (Q1 , ..., Qn ) und benutzen zwei Operationen: Multiplikation und Addition.
Hilbertraum
Banachraum
x, y ∈ Rn
g ∈ Rn , P, Q ∈ R∗n
(x, y) =
n
X
xi yi
hg, P i =
i=1
Z
x(ξ)y(ξ)dξ
Z
n
X
g i Pi =
i=1
Z
n
X
Qi
i=1
g(z)P (dz)
Z
Um zu demonstrieren, daß hier nicht alles klar ist, betrachten wir
2.1.2
Zwei Kopfrechenaufgaben
Erste Aufgabe: Wieviel sind 25% von 24.
Die Lösung verläuft meist so: 25% sind ein Viertel. Wir müssen also 24 durch 4 teilen. Das
Ergebnis ist 6.
Zweite Aufgabe: Wieviel sind 24% von 25.
An die Lösung dieser Aufgabe geht jeder anders heran. Einer berechnet 25% von 25 und subtrahiert dann 1%. Ein anderer multipliziert 0.24 mit 25. Am Ende kommen die meisten auch
auf das richtige Ergebnis 6. Dann wundern sich die meisten, daß das selbe herauskommt und
erinneren sich, daß die Multiplikation kommutativ ist.
Wir wissen, daß wir zur Berechnung von 25% die Menge durch 4 teilen müssen. Aber daß wir in
der zweiten Aufgabe die Prozentzahl durch 4 teilen müssen kommt uns nicht in den Sinn. Wir
wissen zwar, daß die Multiplikation kommutativ ist, aber es sträubt sich in uns etwas dagegen,
die Kommutativität hier zu benutzen. Die eigentlich kommutative Multiplikation fühlt sich
nicht kommutativ an. Dieses Gefühl ist ein Ausdruck davon, daß im Produkt beide Faktoren
nicht gleichberechtigt sind, wenn es sich um reale Größen handelt. Die Multiplikation ist zwar
kommutativ, aber gefühlt asymetrisch.
Diese Asymetrie tritt auch bei anderen Aufgaben auf. Angenommen wir planen eine Autofahrt.
Die Strecke ist bekannt: 400km. Wir wollen die Zeit abschätzen und rechnen: Bei einer Geschwindigkeit von 120km/h brauchen wir 3 Stunden und 7 Minuten. Klar ist, daß die 120km/h
12
2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN
ein Mittelwert sind. Wir fahren nicht die gesamte Strecke mit dieser Geschwindigkeit. Wir
könnten deshalb auch eine andere mittlere Geschwindigkeit nehmen, etwa 124.6 km/h. Dann
erhalten wir als Zeit exakt 3 Stunden. Aber so rechnet keiner. Für die Geschwindgkeit hat man
gern runde Zahlen, für die Dauer ist uns eine krumme Zahl eher recht als für die Geschwindgkeit. Dasselbe gilt für die Prozentaufgabe. Für Mengen ist uns jede Zahl recht, für Prozente
hätten wir aber gern gebrochene Zahlen mit kleinen Zählern und Nennern. Ein Viertel ist in
Ordnung, aber nicht 24 Hundertstel. Das sind ja eigentlich 6 25-stel und sind zur Multiplikation
mit 25 eigentlich noch viel besser geeignet.
Andererseits ist uns bei der Aufgabe: “Berechne den Flächeninhalt eines Rechtecks, daß 25cm
breit und 24cm lang ist”, egal, ob die Aufgabe so formuliert wurde oder ob die Zahlen vertauscht
sind. Hier entspricht die Kommutativität unserem Gefühl.
Die Asymetrie der Multiplikation sieht man auch in folgendem Beispiel: Wir fahren 3 Stunden
mit 120 km/h. Das ist etwas anderes als 120 Stunden mit 3 km/h zu fahren, obwohl es dieselbe
Gesamtstrecke ergibt. Mathematisch ist es dieselbe Aufgabe aber in der Realität ist es eine
völlig andere Aufgabe.
Um ein reale Problem adäquat zu beschreiben, müssen wir diese Asymetrie berücksichtigen,
ohne natürlich die Kommutativität der Multiplikation zu verletzen.
Woher kommt diese Asymmetrie zwischen unserem Gefühl und der Mathematik? Das kann
nicht an den Zahlen liegen, sondern muß mit den Eigenschaft der Größen zusammenhängen, die
diese Zahlen darstellen. Wir müssen uns also damit beschäftigen, welche Größen uns eigentlich
interessieren.
2.1.3
Extensive und intensive Größen
• Beispiele von Größen. Was für Größen interessieren uns eigentlich?
Alltag/
Chemie
Mechanik
E-Technik
Therm.dyn
Ökonomie
Anteil
Alkoholmenge
Weg
Impuls
Impuls
Arbeit
Auslenkung
Ladung
Ladung
Energie
Energie
Umsatz
Prozente
Alkoholgehalt
Geschwindigkeit
Geschwindigkeit
Kraft
Kraft
Kraft
Spannung
elektr. Strom
Druck
Temperatur
Preis
Gesamtmenge
Gesamtvolumen
Zeitintervall
Masse
Zeitintervall
Weg
1/Federkonstante
Kapazität
Zeitintervall
Volumen
Entropie
Stückzahl
• Was interessiert uns nicht?
–
–
–
–
Wurzel aus der Länge.
Energie hoch 3/7.
Wurzel aus der Länge. Energie hoch 3/7.
−10◦ C/10◦ C = −1?
Mit diesem Quotienten können wir nichts anfangen.
2.1 Erkenntnistheoretische Einführung
13
Mathematisch könnte man sich mit diesen Größen beschäftigen, aber es macht keiner. Was
haben diese Größen an sich, daß sie uns nicht und jene, daß sie uns doch interessieren?
2.1.4
Unterschiede zwischen den Größen
Wir haben ein Objekt vor uns, daß durch viele verschiedene Größen charakterisiert wird und
fragen uns nach den Eigenschaften dieser Größen und ihrem Verhalten, wenn sich die Objekte
verändern.
Das unterschiedliche Verhalten der verschiedenen Größen wird deutlich, wenn wir mehrere
Objekte betrachten, und beobachten, wie sich die Größen bei der Wechselwirkung verschiedener
Objekte verhalten.
• Volumen und Temperatur
Wenn wir zwei Gasvolumen mit verschiedener Temperatur zusammenbringen und einen
Wärmekontakt herstellen, dann addieren sich die Volumina, aber die Temperaturen gleichen sich aus.
• Alkoholgehalt, Alkoholmenge und Gesamtmenge
Bei alkoholischen Getränken haben wir es mit drei Größen zu tun. Wenn wir zwei alkoholische Getränke zusammenkippen und mischen, dann addieren sich die Gesamtmengen,
der Alkoholgehalt gleicht sich aus und die Menge an reinem Alkohol addiert sich auch.
Zwei Größen addieren sich, eine Größe mittelt sich.
• Geschwindigkeit, Masse und Impuls
Wir haben zwei Massen, die sich mit verschiedenen Geschwindigkeiten in die gleiche Richtung bewegen. Die schnellere Masse fliegt vor der langsameren. Wir koppeln beide Massen
durch ein Seil. Was passiert? Nach einer gewissen Einschwingphase, bei der die Elastizität des Seils überschüssige Energie dissipatiert, werden sich beide Massen mit derselben
Geschwindigkeit bewegen. Diese gemeinsame Geschwindigkeit liegt zwischen den beiden
ursprünglichen Geschwindigkeiten. Die Masse und der Impuls des Gesamtsystems ergeben
sich als Summe der ursprünglichen Teilmassen und Teilimpulse.
• Geschwindigkeit, Weg und Zeit
Wenn ein Gesamtweg aus Teilstücken besteht, die wir mit verschiedenen Geschwindigkeiten zurücklegen, dann ist für jedes Teilstück seine Länge, die benötigte Zeit und die
jeweilige Geschwindigkeit charakteristisch. Der Gesamtweg ist die Summe der Längen
der Teilstücke und die Gesamtzeit ist die Summe der Teilzeiten. Die Geschwindigkeiten
mitteln sich nicht in der Realität, aber in Gedanken ist die mittlere Geschwindigkeit eine
wichtige Größe. Sie liegt zwischen der größten und kleinsten Teilgeschwindigkeit.
Wenn wir z.B. die Strecke mit zwei Geschwindigkeiten 130 km/h und 60 km/h zurückgelegt haben, ist die Summe diese Geschwindigkeiten – 190 km/h – völlig uninteressant.
In beiden Beispielen verhält sich die Geschwindigkeit mittelnd.
• Kraft, inverse Federkonstante und Auslenkung
• Druck, Volumen
14
2.1.5
2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN
Zwei Typen von physikalischen Größen
Wir stellen fest, daß sich von uns als interessant empfundene Größen in zwei Typen einteilen
lassen, solche, die sich addieren und solche, die sich mitteln, wenn verschiedenen Objekte in
Kontakt gebracht werden. Dabei spielt sich das Addieren in Gedanken ab, wir fassen die Objekte
unter diesem Gesichtspunkt gedanklich zusammen. Das Mitteln der anderen Größen vollzieht
sich real. Dazu müssen allerdings geeignete Bedingungen geschaffen werden, wir müssen das
Ausgleichen der Größe ermöglichen. Das wurde erreicht durch das Beseitigen der Trennwand
zwischen den Körpern bein Ausgleich der Temperatur, das Ineinandergießen (Mischen) der
Mischgetränke oder das Aneinanderkoppeln der Massen.
Tatsächlich hängt die Eigenschaft, additiv oder mittelnd zu sein, nicht von den Objekten oder
der Situation sondern nur von der Größe selbst ab. Man kann also die Größen bezüglich dieser
Eigenschaft kategorisieren. Additive Größen werden extensiv, mittelnde Größen werden intensiv
genannt. Diese Bezeichnungen spielen heute eigentlich nur noch in der Thermodynamik eine
Rolle. Ursprünglich wurden sie aber als allgemeine Kategorien von Imanuell Kant 1781 in der
“Kritik der reinen Vernunft” (Kapitel ) eingeführt.
Beispiele für extensive Größen sind Zeitintervall, Länge (Breite, Höhe), Fläche, Volumen, Masse,
Ladung, Impuls, Energie, Äpfel, Birnen, Stückzahl, Geld
Beispiele für intensive Größen sind Temperatur, Alkoholgehalt, Geschwindigkeit, Kraft, elektr.
Strom, elektr. Spannung, Druck, Preise
Häufig ist die Zuordnung nicht leicht, da unter speziellen Bedingungen extensive Größen auch
mittlend und intensive Größen auch additiv auftreten können. Entscheidend ist, wie sich die
Größen in allgemeinen Situationan verhalten.
Ein Beispiel sind mit Wasser gefüllte Gefäße. Verbindet man solche durch einen Schlauch und
ermöglicht dem Wasser zu fließen, gleichen sich scheinbar die Höhen – als Länge eine extensive
Größe – aus. Tatsächlich gleicht sich der Druck (intensive Größe) in den Gefäßen aus, der in
diesem Fall aber zur Wasserhöhe proportional ist. Wenn man die Gefäße luftdicht verschließt,
sieht man sofort, daß es nicht die Höhe ist, die sich ausgleicht, sondern der Druck.
Hier ist allerdings zu erwähnen, daß die räumliche Wahrnehmung des Menschen sehr komplex ist, was dazu führt, daß räumliche Größen wie Länge oder Fläche eigentlich nicht ohne
weitere Erklärungen als extensive Größen gezählt werden können und auch tatsächlich als intensive Größen auftreten können. Das Verhalten räumlicher Größen wird in einem Extrapunkt
besprochen.
2.1.6
Zählen. Messen extensiver Größen
Die Fähigkeit zum Zählen ermöglicht es, auch anderen extensiven Größen – etwa Längen –
Zahlen zuzuordnen. Dazu wählt man sich ein gut bekanntes und jeder Zeit griffbereites Objekt
mit definierter Länge (Elle, Schritt, Daumenbreite, ...) als Normlänge (Normmaß) und stellt
fest, wie oft dieses Normmaß in einer gegebenen Länge aufgeht. Dazu muß man das Normmaß
lückenlos und parallel aneinanderlegen. Die zu messende Länge gibt dabei die Richtung an.
Hier ist wieder die Fähigkeit zu zählen erforderlich. Man erhält etwa: In die gegebene Länge
passen 5 Normlängen: L = 5 · L0 . Damit diese Methode funktioniert, ist erforderlich, daß die
zu messende Größe additiv – also intensiv – ist und beim Meßprozeß erhalten bleibt. Deshalb
wählt man Normängen etwa aus Holz und nicht aus Gummi.
15
2.1 Erkenntnistheoretische Einführung
2.1.7
Extensive Größe sind Erhaltungsgrößen
Es wurde schon mehrfach erwähnt, daß eine Voraussetzung dafür, daß man eine Größe messen
kann, ihre Erhaltung ist. Mit anderen Worten: Größen, die man messen kann bleiben erhalten.
Diese Tatsache macht Erhaltungssätze beinahe zu Tautologien. Deshalb gibt ea auch keine
Sätze der Erhaltung der Länge oder der Zeit. Das nicht triviale am Energieerhaltunssatz ist,
daß es gelingt, solche Experimente durchzuführen, daß man alle Energieanteile messen kann.
Daß sie sich dann zur Gesamtenergie addieren, ist trivial.
2.1.8
Intensive Größen kann man nicht messen
Letztlich wird das Messen der meisten extensiven Größen auf das Messen von Längen zurückgeführt (auch die Zeitmessung). Das hängt mit der starken Dominaz unserer visuellen Fähigkeiten gegenüber allen anderen Sinnen zusammen.
Intensive Größen kann man aber prinzipiell nicht direkt messen. Das liegt daran, daß sie sich
“beim Aneinanderlegen” nicht additiv verhalten und nicht erhalten bleiben. Das wird besonders
bei der Temperatur deutlich. Man kann nicht mehrere 1◦ C warme Körper geeignet zusammenlegen um eine höhere Temperatur zu erhalten.
Das selbe trifft für andere intensive Größen, etwa die Geschwindigkeit zu. Man erhält eben
keinen sich mit 20 km/h bewegenden Körper aus zweien, die sich mit 10 km/h bewegen. Hier
könnte man einwenden, daß man aus Erfahrung weiß, daß sich Geschwindigkeiten addieren.
Man könnte etwa auf einen sich mit 10 km/h bewegenden Wagen einen weiteren sich mit 10
km/h bewegenden Wagen stellen. Aber dieser weitere Wagen bewegt sihc eben nicht mit 10
km/h relativ zum zu messenden Objekt sondern mit 20 km/h.
Wie später noch besprochen wrid, tritt die “bekannte” Additivität der Geschwindigkeit nur
unter speziellen Bedingungen auf und widerspricht nicht ihrem intensiven Charakter.
2.1.9
Berechnung intensiver Größen
Man kann zu einer intensiven Größe x ein Paar extensive Größen P und Q betrachten und der
intensiven Größe den Quotienten der beiden extensiven Größen als Zahl zuordnen: Q/P −
→ x.
Das klassische Beispiel hierfür ist die Geschwindigkeit als Weg pro Zeit. Diese Definition ist
nicht eindeutig. Das sieht man insbesondere an den verschiedenen Temperaturskalen, die sich
in ihrer Skalierung und in ihrem “Nullpunkt” unterscheiden.
Es sei g = g(x) die, der intensiven Größe x zugeordnete reelle Zahl. Dann gilt
g=
Q
P
⇐⇒ Q = g · P
(1)
Das ist die Grundgleichung für extensive und intensive Größen: extensiv mal intensiv = extensiv
In den folgenden Tabellen sind Beispiele aufgeführt.
L=v·T
P =v·M
L=f ·D
U =c·K
A =%·M
L=h·F
Weg
Impuls
Auslenkung
Umsatz
Anteil
Licht
Wärmemenge
= Geschw.
= Geschw.
=
Kraft
=
Preis
= Prozente
= Helligkeit
= Heizwert
·
Zeit
·
Masse
· inv. Federkonstante
·
Stückzahl
·
Menge
·
Fläche
·
Masse
16
2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN
extensiv
Anteil
Alkoholmenge
Weg
Impuls
Impuls
Arbeit
Auslenkung
Ladung
Ladung
Energie
Energie
Umsatz
2.1.10
=
=
=
=
=
=
=
=
=
=
=
=
=
intensiv
Prozente
Alkoholgehalt
Geschwindigkeit
Geschwindigkeit
Kraft
Kraft
Kraft
Spannung
el. Strom
Druck
Temperatur
Preis
·
extensiv
·
Gesamtmenge
· Gesamtvolumen
·
Zeitintervall
·
Masse
·
Zeitintervall
·
Weg
· 1/Federkonstante
·
Kapazität
·
Zeitintervall
·
Volumen
·
Entropie
·
Stückzahl
Das endliche duale Produkt
Mit (1) wird dem Produkt einer extensiven und einer intensiven Größe wieder eine extensive
Größe zugewiesen. Diese kann man addieren. Das ergibt die häufig benutzte duale Paarung:
Extensiv = extensiv mal intensiv + extensiv mal intensiv + ...
Beispilesweise ist:
• Gesamtweg = Summe der Teilgeschwindigkeiten mal entsprechender Zeitintevalle
• Umsatz = Summe der Preise mal Stückzahlen
Im Grenzfall ergibt die duale Paarung das Lebesgueintegral:
Z
n→∞
−
Q(B) =
g(x)P (dx)
Q = g1 · P1 + ... + gn · Pn −→
B
2.1.11
Die scheinbare Additivität von Geschwindigkeiten und Kräften
Wenn intensive Größen additiv auftreten, dann bedeutet das, das man eigentlich, eine extensive
Größe betrachtet. Wenn man z.B. Geschwindigkeiten addiert, addiert man eigentlich die Wege
bei gleichem gegebenem Zeitintervall. Oft bemerkt man nicht, daß der Nenner konstant bleibt.
Beim Addieren von Kräften addiert man eigentlich die Arbeit (Arbeit ist Energie und extensiv),
die über dieselbe Weglänge wirkt.
Nimmt man andere Beispiele intensiver Größen, etwa den Preis, wird das noch offensichtlicher.
Wenn man n Stück X von etwas braucht und jedes Stück besteht aus einem A, einem B und
einem C, kann man die Preise von A, B und C addieren um den Preis eines Stücks X erhalten
will. Aber das ist eben ein sehr seltener Fall, daß man die selben Stückzahlen an Objekten
braucht. Keiner kommt auf die Idee, zum Berechnen des Preises eines Butterbrotes, den Preis
eines Brotes und den Preis einses Stück Butter zu addieren. Im Gegenteil, man bestimmt
genau die Mengen, die man benötigt und addiert dann. Das bedeutet letztlich, daß man den
Hauptnenner bildet. Auch das Addieren von gebrochenen Zahlen (intensive Größen) ist ohne
weiteres nicht möglich. Man muß erst den Hauptnenner (extensive Größe) bilden und kann
dann die Zähler (extensive Größe) addieren.
Der Unsinn mit der Addition von Geschwindigkeiten wird deutlich, wenn man z.B. den Weg
konstant läßt: Von Berlin nach München ist ein Auto 130 km/h schnell, ein ICE 300 km/h.
Wann könnte es sinnvoll sein, hier die Summe der Geschwindigkeiten zu bilden?
2.2 Mathematische Zusammenhänge physikalischer Größen
2.2
17
Mathematische Zusammenhänge physikalischer Größen
Wir untersuchen im weiteren einige mathematische Eigenschaften extensiver und intensiver
Größen. Dazu werden die empirisch gewonnen Erkenntnisse in mathematische Ausdrücke gefaßt. Insbesondere geht es hier darum, was es bedeutet, einer intensiven Größe eine reelle Zahl
zuzuordnen.
• Es seien Bi physikalische Objekte/Körper, mit denen wir wie mit disjunkten Mengen
arbeiten können. Alle diese Bi seien gedanklich Teil einer Menge Z. Das “in Kontakt
bringen” zweier Objekte B1 und B2 zum Objekt B bezeichnen wir mit der disjunkten
Vereinigung B = B1 ⊔ B2 . Wir betrachten nur das “in Kontakt bringen” von disjunkten
Objekten (Aristoteles: “Wo ein Körper ist, kann nicht ein anderer sein.”).
• Wir nehmen an – um uns die Betrachtungen nicht durch zusätzliche Fallunterscheidungen,
die das Wesen der Sache nur vernebeln, zu verkomplizieren – daß die Objekte/Körper
beliebig teilbar sind, wir also Objekte für beliebige Größen zur Verfügung haben.
• Wir nehmen an, daß wir jede extensive Größe P messen können, ihr also eine nichtnegative
reelle Zahl aus R+ zuordnen können. Es gibt also Abbildungen P : Z −
→ R+ , P (B) ∈ R+ .
Da P eine extensive Grüße ist, gilt bei Kontakt zweier Objekte
P (B1 ⊔ B2 ) = P (B1 ) + P (B2 ), B1 , B2 ∈ Z
(2)
Des weiteren nehmen wir an, daß wir für jedes α ∈ R+ ein B ∈ Z mit P (B) = α finden
können (beliebige Teilbarkeit der Objekte).
• Wir nehmen an, daß wir jede intensive Größe x wahrnehmen und verschiedene Wahrnehmungen vergleichen können. Es gibt also Abbildungen x : Z −
→ X, x(B) ∈ X, wobei
X eine linear geordnete Menge sei. Für zwei Objekte B1 und B2 , gelte x(B1 ) ≤ x(B2 ),
x(B1 ) ≥ x(B2 ) oder x(B1 ) = x(B2 ).
Da x eine intensive Grüße ist, gilt bei Kontakt zweier Objekte (o.B.d.A. sei x(B1 ) ≥
x(B2 ))
x(B1 ) ≤ x(B1 ⊔ B2 ) ≤ x(B2 ), B1 , B2 ∈ Z
(3)
Des weiteren nehmen wir an, daß wir für jedes ξ ∈ X ein B ∈ Z mit x(B) = ξ finden
können (beliebige Teilbarkeit der Objekte).
• Wir nehmen an, daß wir zu jeder intensiven Größe x zwei extensive Größen P und Q derart
finden können, daß Q für jedes Objekt eindeutig durch x und P bestimmt ist. Es gibt also
einen funktionellen Zusammenhang f : X × R+ −
→ R+ , sodaß Q(B) = f x(B), P (B) )
für alle B ∈ Z. Wir schreiben das als Q = f (x, B) und nenen Q den Zähler und P den
Nenner von x.
Die Frage ist: Wann und wie ist es möglich, ausgehend
von der Kenntnis von f , der intensiven
Größe x für jedes Objekt B eine reelle Zahl g x(B) zuzuordnen. Es stellt sich heraus, daß
die – physikalisch völlig plausiblen – Voraussetzungen (2) und (3) derart streng sind, daß die
empirische Definition
Q(B)
, B∈Z
g x(B) =
P (B)
die weitgehend einizige Möglichkeit dafür ist.
18
2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN
2.2.1
Ein bilinearer Zusammenhang
Grundlegend für die Möglichkeit, mathematische Aussagen in der Physik anzuwenden, ist intensiven Größen Zahlen zuzuordnen. Zwischen x, P und Q besteht ein funktioneller Zusammenhang
Q = f (x, P ). Im Weiteren soll untersucht werden, ob man näheres über diesen Zusammenhang
aussagen kann, insbesondere, ob es möglich ist, der intensiven Größe x eine reelle Zahl zuzuordnen.
Aussagen dazu liefert folgender
Satz: Es sei x eine intensive und P und Q extensive Größen. Dann existiert eine Funktion
C : X−
→ R, die jeder intensiven Größe streng monoton und damit eineindeutig eine reelle Zahl
zuordnet.
Im Laufe des Beweises wird klar werden, welche mathematischen Voraussetzungen an die physikalischen Größen gestellt werden müssen und in welchem Sinn die Funktion C einzig ist. Die
Voraussetzungen erfüllen intuitiv extensive und intensive Größen.
Beweis:
Wir setzen Q1 = Q(B1 ), Q2 = Q(B2 ), Q12 = Q(B1 ⊔ B2 ), P1 = P (B1 ), P2 = P (B2 ), P12 =
P (B1 ⊔ B2 ), x1 = x(B1 ), x2 = x(B2 ), x12 = x(B1 ∪ B2 ). OBdA sei x1 ≤ x2 .
Dann gilt einerseits und andererseits:
Q12 = Q1 + Q2 = f (x1 , P1 ) + f (x2 , P2 ) =
= f (x12 , P12 ) = f (x12 , P1 + P2 )
Es folgt
f (x12 , P1 + P2 ) = f (x1 , P1 ) + f (x2 , P2 )
(4)
Wegen x1 ≤ x12 ≤ x2 folgt aus x1 = x2 = x auch x12 = x und damit
f (x, P1 + P2 ) = f (x, P1 ) + f (x, P2 )
(5)
Für fixiertes x ist f (x, ·) eine reellwertige additive Funktion. Sie muß linear sein. Das folgt aus
folgendem
Lemma: Es sei h : R −
→ R eine stetige Funktion, die die Gleichung h(x + y) = h(x) + h(y)
erfüllt. Dann ist h(x) = cx für beliebiges aber festes c ∈ R.
Beweis des Lemmas: Unter Benutzung der Funktionalgleichung erhalten wir
y = x =⇒ h(2x) = 2h(x)
Induktion: =⇒ h(nx) = nh(x), n ∈ N
1
1
1
x=
= h(1), m ∈ N
=⇒ h
m
m
m
n
n
=⇒ h
= h(1), n, m ∈ N
m
m
Stetigkeit: =⇒ h(x) = xh(1) =: cx, x > 0, c bel.
x = 0 =⇒ h(0) = 0
x < 0 : y = −x =⇒ h(x) = −h(−x)
Damit ist eine notwendige Bedingung an h gefunden. Die Probe bestätigt, daß jede lineare
Funktion Lösung der Funktionalgleichung ist.
(Lemma)
Bemerkung 0: Diese Funktionalgleichung heißt Cauchysche Funktionalgleichung.
2.2 Mathematische Zusammenhänge physikalischer Größen
19
Bemerkung 1: Unter der Voraussetzung der Differenzierbarkeit folgt einfacher h′ (x + y) =
h′ (y) also h′ (x) = h′ (0) =: c. Hier wurde aber der allgemeinere Weg gegangen, weil Stetigkeit
eine topolgische Eigenschaft ist und Differentierbarkeit eine metrische, die wir eigentlich nicht
voraussetzen wollen.
Bemerkung 2: Die Voraussetzung der Stetigkeit kann abgeschwächt werden. Lokale Beschränktheit von h reicht aus.
Bemerkung 3: Es lassen sich nichtstetige Lösungen finden. Dazu stellt man R als unendlichdimensionalen linearen Raum über den rationalen Zahlen mithilfe einer sogenannten Hamel-Basis
dar. Die Existenz einer solchen Basis läßt sich nur mit dem Auswahlaxiom beweisen.
Folgerung: Analog lassen sich weitere Funktionalgleichung lösen:
h(x + y) = h(x) · h(y)
h(x · y) = h(x) + h(y)
h(x · y) = h(x) · h(y)
=⇒
=⇒
=⇒
h(x) = cx
h(x) = logc x
h(x) = xc
Damit erhalten wir aus (5) die Darstellung
Q = f (x, P ) = C(x) · P .
(6)
Aus (6) und (4) erhalten wir
C(x12 )(P1 + P2 ) = C(x1 )P1 + C(x2 )P2
oder
C(x12 ) =
C(x1 )P1 + C(x2 )P2
P1 + P2
Hieraus folgt C(x12 ) ∈ [C(x1 ), C(x2 )] (d.h., C(x1 ), C(x2 ) und C(x12 ) liegen auf einer Geraden.
Monotonie: Wir zeigen, daß C eineindeutig oder konstant ist. Es sei C(x1 ) = C(x2 ) = c
aber x1 6= x2 . Dann ist auch C(x12 ) = c. Damit ist C konstant. Diesen Fall können wir als
uninteressant ausschließen, denn dann hängt f (x, P ) nicht von x ab. Das heißt, P ist nicht der
Nenner von x. Damit ist C eineindeutig und wegen der linearen Ordnung von X monoton. Es
existiert also C −1 und es gilt
Q(B)
Q
−1
−1
, x(B) = C
x=C
P
P (B)
und
x12 = C
−1
C(x1 )P1 + C(x2 )P2
P1 + P2
(7)
Wir wählen zwei Objekte B1 und B2 mit P1 = P2 . Dann folgt aus x1 < x2 auch Q1 < Q2 .
Damit ist C monoton wachsend. Entscheident ist hier nur die Monotonie von C. Ob C wächst
oder fällt ist eine Frage der Definition der Ungleichung x1 < x2 (ob wir z.B. einer größeren
Länge eine größere oder eine kleinere Zahl zuordnen wollen).
Einzigkeit: Angenommen, wir haben zwei Funktionen C1 und C2 , die verschiedene Möglichkeiten einer Funktion C für (6) darstellen. Den Zusammenhang dieser beiden Funktionen liefert
folgendes
20
2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN
Lemma: Es seien C1 , C2 : X −
→ I ⊂ R zwei Abbildungen intensiver Größen in ein Intervall der
reellen Zahlen. Für alle P1 , P2 ≥ 0 und alle x1 , x2 ∈ X gelte
C1 (x1 )P1 + C1 (x2 )P2
C2 (x1 )P1 + C2 (x2 )P2
−1
−1
x12 = C1
= C2
P1 + P2
P1 + P2
dann gibt es reelle Zahlen α und β mit
C1 (x) = αC2 (x) + β
Beweis des Lemmas: Die Funktion h = C1 ◦ C2−1 : R −
→ R ist eine reelle Funktion. Es sei
C2 (xi ) = ξi also xi = C2−1 (ξi ). Dann folgt
C2 (x1 )P1 + C2 (x2 )P2
C1 (x1 )P1 + C1 (x2 )P2
−1
= C1 ◦ C2
P1 + P2
P1 + P2
−1
−1
ξ 1 P1 + ξ 2 P2
C1 ◦ C2 (ξ1 )P1 + C1 ◦ C2 (ξ2 )P2
−1
= C1 ◦ C2
P1 + P2
P1 + P2
Das ist eine Gleichheit zwischen konvexen Kombinationen und dem Funktionswert der konvexen
Kombination. Für solche Ausdrücke gilt die Jensensche Ungleichung. Hier gilt aber Gleichheit.
In der Jensensche Ungleichung gilt Gleichheit für alle Argumente, genau dann, wenn
die Funk
−1
tion sowohl konvex als auch konkav und damit affin ist. Es gilt also C1 ◦ C2 (ξ) = αξ + β
mit gewissen reellen Zahlen α und β. Setzen wir wieder C2−1 (ξ) = x folgt die Behauptung.
.
(Lemma)
(Satz)
Bemerkung 1: Die Eindeutigkeit bis auf affine Transformationen kennt man gut von der
Messung intensiver Größen, etwa der Temmperatur (Celsius- bzw. Fahrenheit-Skalen). Der
Zahlenwert kann sowohl verschoben als auch skaliert werden.
Bemerkung 2: Viele intensive Größen haben einen natürlichen Nullpunkt (keine Helligkeit =
0, kein Preis = 0, ...). In diesem Fall sollte man den natürlichen Nullpunkt der reellen Zahl 0
zuordnen. Die Skalierbarkeit bleibt erhalten.
Bemerkung 3: Sollte die intensive Größen nach oben und unten beschränkt sein, dann sind
α und β nicht mehr frei sondern bestimmen sich aus diesen Schranken.
Bemerkung 4: Die Eindeutigkeit bis auf affine Transformationen drückt sich bei der Geschwindigkeit durch das Galileische Relativitätsprinzip aus. Es läßt sich die Geschwindigkeit
eines Objektes nur relativ zum Beobachter bestimmen.
Bemerkung 5: Bei der Messung extensiver Größen gibt es die affine Freiheit nicht: Eine Länge
enthält z.B. 5 Normlängen. Das kann weder skaliert noch verschoben werden.
Bemerkung 6: Die fehlende Eindeutigkeit, mit der man intensiven Größen Zahlen zuordnen
kann, macht deutlich, daß alle Zahlenwerte in der Physik – im Gegensatz zu den Größen selbst
–, relativ sind. So etwa auch die Größe des Weltalls und Entfernungen zwischen den Sternen. Das wird manchmal als “Nichterkennbarkeit der Welt” interpretiert. Dabei wird implizit
unterstellt, daß Erkennbarkeit bedeutet, physikalischen Größen eindeutig Zahlen zuordnen zu
können. Siehe:
2.2.2
Definition des Zahl- und Mittelwertes intensiver Größen
Es sei im weiteren C eine feste Funktion entsprechend (6) und
g(B) = C(x(B)) =
Q(B)
P (B)
(8)
2.2 Mathematische Zusammenhänge physikalischer Größen
21
der Wert der intensiven Größe x mit Zähler Q und Nenner P . Damit haben wir eine Abbildung
g : Z−
→ R gefunden.
Die Größe des Objektes B ist für die Definition von g eigentlich unwichtig, hauptsache, x(B)
ändert sich nicht allzu sehr, je kleiner B wird.
Es sei B2 ⊂ B1 , dann gilt Q(B2 ) ≤ Q(B1 ) und P (B2 ) ≤ P (B1 ). Damit ist nicht klar, wie
sich g(B1) und g(B2 ) zueinander verhalten. Es kann sein, daß für eine Folge von Objekten
Bn ⊂ ... ⊂ B2 ⊂ B1 gilt
Q(B2 )
Q(Bn )
Q(B1 )
=
= ... =
P (B1 )
P (B2 )
P (Bn )
In so einem Fall können wir g auf dem kleinstmöglichen Objekt definieren.
Es sei {z} kleinstmögliche Objekt, das in den Bi enthalten ist. Wir nennen so ein Objekt
Zustand und definieren den Wert von x am Zustand z als
Q(B)
Q(B)
Q(B)
= inf
= sup
z∈B P (B)
B→{z} P (B)
z∈B P (B)
g(z) = lim
Diese Definition ist so zu verstehen: Der sup- und der inf-Ausdruck haben einen Sinn. Fall beide
gleich sind, nennen wir diese Größe Limes.
Diese Definition ist nur sinnvoll, wenn g stetig ist. Diese Definition läßt sich unter gewisse
Bedingungen durch den Satz von Radon und Nikodym verallgemeinern.
Es seien A und B disjunkte Objekte. Dann gilt
Q(A) + Q(B)
g(A)P (A) + g(B)P (B)
Q(A ⊔ B)
=
=
=
P (A ⊔ B)
P (A) + P (B)
P (A) + P (B)
P (B)
P (A)
+ g(B)
= g(A)
P (A) + P (B)
P (A) + P (B)
g(A ⊔ B) =
Der Wert der intensiven Größe einer Vereinigung ist also eine konvexe Kombination der einzelnen Werte.
Wir können eine besondere Addition definieren:
g(A ⊔ B) = g(A) ⊕ g(B) =
Q(A) Q(B)
Q(A) + Q(B)
⊕
=
P (A) P (B)
P (A) + P (B)
Diese Größe wird Mediant der beiden Brüche bezeichnet.
2.2.3
Fordkreise und Fareybrüche
Zu einer rationalen Zahl a/b sei der Fordkreis K(a/b) der Kreis der Ebene des zweidim. Koordinatensystems mit dem Mittelpunkt (a/b, 1/(2b2 ) und dem Radius 1/(2b2 ).
Eigenschaften von Fordkreisen:
• Ein Fordkreis berühert die x-Achse im Punkt a/b.
• Zwei Fordkreise können sich berühern, aber nie überlappen.
• Zwei Fordkreise K(a/b) und K(c/d) berühern sich genau dann, wenn bc und ad aufeinanderfolgende ganze Zahlen sind.
• Der dritte Kreis, der zwei sich berühernde Fordkreise K(a/b) und K(c/d) und die x-Achse
berühert, ist ebenfalls ein Fordkreis K(q/p). Die rationale Zahl q/p ist eindeutig durch
q = a + c und p = b + d bestimmt. q/p ist also der Mediant von a/b und c/d.
22
2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN
Eine Farey-Folge n-ter Ordnung Fn ist eine geordnete Menge von Brüchen pqii mit pi ≤ qi ≤ n,
p
i ∈ I, gcd(pi , qi ) = 1 mit I Indexmenge und pi , qi , n ∈ N, so daß pqii < qjj für alle i < j gilt.
Beispiele:
0 1
F1 =
,
1 1
0 1 1
, ,
F2 =
1 2 1
0 1 1 2 1
F3 =
, , , ,
1 3 2 3 1
0 1 1 1 2 3 1
F4 =
, , , , , ,
1 4 3 2 3 4 1
0 1 1 1 2 1 3 2 3 4 1
, , , , , , , , , ,
F5 =
1 5 4 3 5 2 5 3 4 5 1
0 1 1 1 1 2 1 3 2 3 4 5 1
F6 =
, , , , , , , , , , , ,
1 6 5 4 3 5 2 5 3 4 5 6 1
0 1 1 1 1 2 1 2 3 1 4 3 2 5 3 4 5 6 1
, , , , , , , , , , , , , , , , , ,
F7 =
1 7 6 5 4 7 3 5 7 2 7 5 3 7 4 5 6 7 1
Eigenschaften und Bemerkungen zu Fareybrüchen:
• Sind ab und dc aufeinanderfolgende Brüche mit ab ≤ dc in einer Farey-Folge, dann gilt
bc − ad = 1 oder bc = 1 + ad, d.h., bc und ad sind aufeinanderfolgende natürliche Zahlen.
• Die Länge |Fn | einer Farey-Folge ergibt sich rekursiv als |Fn | = |Fn−1 | + ϕ(n) und damit
|Fn | = 1 + ϕ(1) + ϕ(2) + ... + ϕ(n − 1) + ϕ(n). In einem Schritt wächst eine Farey-Folge
also besonders stark, wenn n Primzahl ist. Dann ist ϕ(n) = n − 1.
• Eine Farey-Folge oder einfach Farey-Brüche ist in der Zahlentheorie eine geordnete Menge
der vollständig gekürzten Brüche zwischen 0 und 1, deren jeweiliger Nenner den Index N
nicht übersteigt.
• Es gibt übrigens eine Aussage über Farey-Brüche, die der Riemanschen Vermutung äquivalent ist (siehe wikipedia).
Im Bild: Die Fordkreise zur 2. Hälfte der Farey-Folge F7 .
1
2
4
7
3
5
2
3
5
7
3
4
4
5
5
6
6
7
1
1
2.2 Mathematische Zusammenhänge physikalischer Größen
2.2.4
23
Satz von Benedetti
Eine einfache aber folgenschwere Anwendung der einfachsten Eigenschaften von extensiven und
intensiven Größen ist der Satz von Galilei-Benedetti: Wir betrachten eine extensive Größe
P und eine intensive Größe x und nehmen an, daß für zwei beliebige Objekte A und B mit
0 < P (A) ≤ P (B) auch x(A) ≤ x(B) gilt. Dann ist x konstant (hängt also von P nicht ab).
Beweis: Wir betrachten C = A ⊔ B. Da P extensiv ist, folgt
P (A) ≤ P (B) < P (C)
Aus der Intensivität von x folgt
x(A) ≤ x(C) ≤ x(B)
Da aber nach Voraussetzung aus P (B) ≤ P (C) auch x(B) ≤ x(C) folgen muß, muß x konstant
sein.
Dieser Satz hat eine erstaunlich Anwendung. Angenommen, die Geschwindigkeit (intensive
Größe) eines fallenden Objektes (z.B. zu einem festen Zeitpunkt) hängt von seiner Masse (extensive Größe) monoton ab (schwerer Körper fallen schneller), dann muß sie konstant sein. D.h.,
alle Körper fallen gleichschnell, wenn man die Bedingungen so gestaltet, daß die Geschwindigkeit nur von der Masse des Objektes abhängt.
Dieser Satz wurde zuerst von Giovanni Battista Benedetti (1530 – 1590) in einem Gedankenexperiment erwähnt, der damit zeigte, daß Aristoteles’ Idee, daß “doppelt so schwere Körper
doppelt so schnell fallen”, falsch sein muß. Galilei erwähnt dieses Gedankenexperiment in seinen
berühmten “Discorsi e dimostrazioni matematiche”.
25
3
Lineare Dualitätstheorie. Heuristik
3.1
Ein paar Vorbemerkungen
Ziel: Informationen über Z finden.
3.1.1
Die Grundobjekte der Funktionalanalysis
Mengen mit Struktur
Abbildungen
Funktionen
Funktionale
a ∈ A, b ∈ B
X = {f : A −
→ B}, b = f (a)
Operatoren
M : X−
→ X, g = Mf
Alles noch mal für reelle Zahlen
z ∈ Z, x ∈ R C(Z) = {g : Z −
→ R}, x = g(z) M : C(Z′ ) −
→ C(Z)
′
′
′
′
′
z ∈ Z , y ∈ R C(Z ) = {f : Z −
→ R}, y = f (z )
g = Mf
Die Funktionalanalysis beschäftigt sich mit drei Objekten: Mengen X und Y, Funktionen
f die zwischen diesen Mengen wirken und in einem Funktionenraum M(X, Y) liegen, in dem
Operatoren A Funktionen auf Funktionen abbilden, die wiederum in einem Operatorenraum
liegen können.
X
❄
f∈
Y
M(X, Y)
❄
A ∈ L(M, M′ )
M′ (X′ , Y′ )
✎☞
1
✍✌
✎☞
2
✍✌
✎☞
3
✍✌
Jede Zusammenfassung von neuen Objekten in Mengen erhöht einerseits die Abstraktionsstufe und damit den Kompliziertheitsgrad, läßt sich aber andererseits stets als
Wirken von Funktionen zwischen Mengen
betrachten. Da diese neuen Mengen meistens
aber mit anderen Methoden untersucht werden müssen ist es sinnvoll, zwischen Funktionen und Operatoren zu unterscheiden, obwohl das nicht prinzipiell ist. Die einzelnen
Teilgebiete der Funktionalanalysis unterscheiden sich darin, welche Strukturen in den Mengen
definiert oder welche Funktionen aus der Menge aller denkbaren Funktionen ausgewählt werden.
26
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
3.1.2
Mengen mit Strukturen. Kanonische Objekte
Werden Mengen aufeinander abgebildet, werden vorhandene Strukturen übertragen. Wir betrachten zwei Mengen A und B, und die Menge X = X(A, B) aller Abbildungen f : A −
→B
und untersuchen drei Typen von Strukturen:
• algebraische Struktur (B, ∗)
Man definiert eine binäre Abbildung B × B −
→ B.
• Ordnungsstruktur (B, ≤)
Man markiert eine Teilmenge des Kreuzproduktes ... ⊂ B × B.
• topologische Struktur (B, τB )
Man markiert eine Menge von Teilmengen und nennt sie offen OB ⊂ 2B .
Durch Funktionen f ∈ X werden diese Strukturen übertragen, d.h. es werden entsprechende
Strukturen induziert.
• algebraische Struktur: Von B nach X
(f ∗ g)(a) = f (a) ∗ g(a), a ∈ A
X sollte abgeschlossen sein bezüglich dieser Operation.
• Ordnungsstruktur: Von B nach X
f ≤ g ⇐⇒ f (a) ≤ g(a), a ∈ A
Sinnvoll ist es, Das schränkt die Menge X nicht ein. Wenn es aber bereits eine natürliche
Ordnungsstruktur auf X gibt, sollten beide Strukturen zusammenfallen.
• topologische Struktur: Von B nach A (Initialtopologie)
OA = {f −1 (U) | U ∈ OB , f ∈ X}
X ist dann die Menge der stetigen Abbildungen A −
→ B. Hier gibt es also zwei Möglichkeiten: Wir definieren in A und B eine Topologie und betrachten nur stetige Abbildungen,
oder wir gehen von einer Topologie in B aus und definieren uns eine Topologie in A mithilfe einer Menge von Funktionen, die wir für geeignet halten. Genau genommen wird so
nur eine Subbasis der Topologie in A definiert.
Eine häufig verwendete sehr erfolgreiche Idee in der Funktionalanalysis (und auch anderswo) ist
es, die Eigenschaften einer Menge unbekannter Elemente zu ermitteln, indem die Abbildungen
dieser Menge in eine Menge mit einer vielfältigen bekannten Struktur betrachtet werden. Eine
besonders vielfältige Struktur haben die reellen Zahlen (lineare Ordnung, zwei algebraische
Operationen und eine Topologie). Wir werden deshalb den Zustandraum mit Hilfe reellwertiger
Abbildungen untersuchen.
3.2 Der Zustandsraum Z als Menge
3.2
27
Der Zustandsraum Z als Menge
In den betrachteten Beispielen kamen verschiedene Varianten des Zustandsraumes vor. Als
Menge war der Zustandsraum
• eine endliche Mengen
• eine abzählbare Mengen
• ein Kontinuum
Oft hat der Zustandsraum bereits eine natürliche Struktur (z.B. wenn er ein Gebiet im Rn ist),
auf die zurückgegriffen werden sollte. Das sind aber spezielle Strukturen, die nur für spezielle
Aufgaben interessant sind. Wir werden im weiteren die lineare Dualitätstheorie rein formal so
entwickeln, wie sie sich kanonisch allein aus der Tatsache, daß wir ein physikalisches System
beschreiben wollen ergibt.
Wir werden keine neuen Definitionen einführen sondern nur die Eigenschaften der kanonischen
Objekte beschreiben. Das hat den Vorteil, daß man sich nicht mit technischen Problemen
aufhalten muß und sich ganz auf die Eigenschaften der Objekte konzentrieren kann.
Als Ergebnis erhält man einen mathematischen Rahmen, dem man einen physikalischen Sinn
geben. Allerdings werden wir feststellen, daß alles nur im Fall Z eine endliche Menge ist, mathematisch einwandfrei ist. Die nächste Aufgabe ist dann, künstlich Änderungen derart vorzunehmen, daß auch abzählbare Mengen und Kontinua in diesem Rahmen beschrieben werden
können.
Ist Z eine abstrakte Menge, gibt es in Z nichts kanonisches als die Menge der Teilmengen (auch
Potenzmenge genannt) von Z. Wir bezeichnen diese Potenzmenge mit 2Z .
In 2Z gibt es eine kanonische Ordnungsstruktur (⊂), eine algebraische Struktur (⊔ und ∩) und
eine Verbandstruktur (∪ und ∩).
3.3
3.3.1
Der duale Raum Z∗. Beobachtungen
Funktionen als Funktionale. Der duale Raum
Da es auf Z a-priori keine Struktur gibt, ist ein Funktional auf Z also erstmal eine beliebige
reellwertige Funktion auf Z, die für jedes z ∈ Z einen definierten Wert annimmt. Wir bezeichnen
diese Menge mit
Z∗ = {f : Z −
→ R}
Später werden wir in Z eine geeignete Struktur festlegen und nur solche Funktion betrachten,
die diese Struktur erhalten. Damit wird sich diese Menge einschränken.
Ein Element aus f ∈ Z∗ , angewendet auf z ∈ Z ist f (z). Z∗ wird der zu Z duale Raum genannt.
Meinstens wird für diese Objekte der Begriff “Funktion” und nicht der Begriff “Funktional”
verwendet.
3.3.2
Z∗ als linearer Raum
Die vielfältige Struktur von R überträgt sich auf Funktionen von Z nach R also auf Z∗ . Dank
der algebraischen Strukturen in R können wir endliche Linearkombinationen von Funktionen
bilden. Sind fi ∈ Z∗ , sind für alle reellen αi auch
n
X
f=
αi fi ∈ Z∗
i=1
28
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
da wohlPdefiniert ist, welchen Wert f an einer beliebigen Stelle z ∈ Z annimmt, nämlich
f (z) = ni=1 αi fi (z).
Wie in jedem linearen Raum ist die Funktion, die konstant 0 ist enthalten, 0 ∈ Z.
3.3.3
Ordnung und Positivität
Die Ordnungsstruktur in R generiert auf kanonische Weise eine Halbordnung in Z∗ :
f ≥ g ⇐⇒ f (z) ≥ g(z), z ∈ Z
Der Begriff der Ordnung in einem linearen Raum ist äquivalent mit dem Begriff der Positivität.
Wir schreiben f ≥ 0.
3.3.4
Z∗ als kommutative Algebra
Die Multiplikation in R generiert die Struktur einer kommutativen Algebra ist Z mit der punktweisen Multiplikation:
h = f · g ⇐⇒ h(z) = f (z) · g(z), z ∈ Z
3.3.5
Beschränkte Funktionen als konvexe Menge
Wir nennen eine Funktion f beschränkt, wenn es zwei reelle Zahlen α und β ≥ α mit
α1 ≤ f ≤ β 1
gibt. Zu so einer Funktion können wir eine skalierte Funktion
f˜ =
1
(f − α1)
β−α
definieren, die “affin äquivalent” ist zu f . Im weiteren sei
α = inf f (z), β = sup f (z)
z
z
Wenn wir alle beschränkten Funktionen mit derselben skalierte Funktion f˜ als identisch auffassen, reicht es Funktionen zu betrachten, die die Ungleichung
0≤f ≤1
erfüllen. Wir bezeichnen diese Menge mit
R = {f ∈ Z∗ | 0 ≤ f ≤ 1}
Offensichtlich ist R eine konvexe Menge.
Bemerkung: Die Funktion f˜ “berühert” die 0- und 1- Linie. In R liegen aber auch Funktionen,
die strikt zwischen 0 und 1 liegen.
3.3 Der duale Raum Z∗ . Beobachtungen
3.3.6
29
Niveaumengen (level sets)
Zu einer Funktion f : Z −→ R können wir den Wertebereich R(f ) ⊂ x auf die übliche Art
definieren.
Zu jeder Funktion läßt sich auf die übliche Weise eine “inverse Funktion” f −1 definieren:
f −1 (x) = {z ∈ Z|f (z) = x} ⊂ Z, x ∈ R(f )
f −1 (x) = ∅, x ∈ R(f )
Diese Funktion wird “inverse Funktion” genannt, obwohl ihr Wertebereich ein anderer ist als
der Definitionsbereich von f . Es ist f −1 : R −
→ 2Z . Eigentlich müßte hier ein anderes Symbol als
−1
f eingeführt werden. Wir verzichten darauf, weil das unüblich ist. f −1 (x) heißt Niveaumenge
von f zum Wert x.
f −1 ist auf R(f ) eineindeutig: x 6= y ⇐⇒ f −1 (x) 6= f −1 (y). Deshalb zerlegt jede Funktion
seinen Definitionsbereich Z in Äquivalenzklassen.
f −1 erhält die Mengenoperationen ∪ und ∩.
3.3.7
Charakteristische Funktionen
Die betrachteten Funktionen haben Werte im Zahlenkörper R. Anstelle von R könnte man andere Körper betrachten (was wir nicht tun werden). Deshalb sind besonders solche Funktionen
interessant, die es für jedem Körper gibt, daß sind Funktionen, die nur die Werte 0 und 1 annehmen (diese beiden Zahlen gibt es in jedem Körper). Solche Funktionen sind für gewisse Punkte
z einer Menge A gleich 1 und für alle anderen Werte 0. Das sind gerade die charakteristischen
Funktionen.
Jeder Teilmenge A ∈ 2Z können wir eine charakteristische Funktion 1A durch 1A (z) = 1 falls
z ∈ A, 1A (z) = 0 falls z ∈ Z \ A.
Umgekehrt können wir jeder Funktion g auf Z, die nur die Werte 0 oder 1 annimmt, mit
A = g −1 (1) eine Teilmenge aus Z zuordnen.
Damit haben wir eine 121-Abbildung (121 bedeutet eineindeutig, aus dem englischen: one-toone) der Teilmengen von Z in eine wohl definierte Teilmenge von Z∗ erhalten. Wir können
1A , die Bilder von A, mit A selbst dank dieser Einbettung identifizieren. Z∗ enthält also die
Teilmengen von Z. Wir können uns Z∗ damit als Verallgemeinerung des Begriffs der Teilmenge
vorstellen.
Die kanonische Struktur in 2Z überträgt sich auf die Menge der charakteristischen Funktionen.
Insbesondere sind Produkte, Summen und Suprema von charakteristische Funktionen Operationen mit Teilmengen von Z und ebenfalls Teilmengen.
Operationen und Relationen zwischen Mengen übertragen sich auf Operationen zwischen Zahlen
(A ⊔ B bedeutet Vereinigung disjunkter Mengen, also A ∪ B falls A ∩ B = ∅):
A⊂B
C =A∩B
C =A⊔B
C =A∩B
C =A∪B
⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
1A ≤ 1B
1C = 1A · 1B
1C = 1A + 1B
1C = inf{1A , 1B } = min{1A , 1B }
1C = sup{1A , 1B } = max{1A , 1B }
Die definierte 121-Abbildung
1A ←→ A ∈ 2Z ⊂ Z∗ = {f : Z −
→ R}
30
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
erhält also die Ordnungsrelation, die algebraischen Operationen und die Verbandstruktur.
Bei der speziellen charakteristischen Funktion 1Z lassen wir in Zukunft den Index weg und
schreiben einfach 1. Das ist die konstante 1-Funktion.
1∅ ist die konstante 0-Funktion.
3.3.8
Linearkombinationen charakteristischer Funktionen
Die vielfältige Struktur von R überträgt sich auf Funktionen von Z nach R also auf Z∗ . Dank der
algebraischen Strukturen in R können wir Linearkombinationen der charakteristischen Funktionen bilden, etwa
f=
n
X
αi 1Ai
(9)
i=1
Diese Funktionen sind aus der Theorie des Lebesgueintegrals gut bekannt und heißen einfache
Funktionen. Offensichtlich nimmt so eine Funktion nur endliche viele Werte an. Sie wird häufig
stückweise konstante Funktion genannt (genauer wäre es so eine Funktion als Funktion mit
endlichem Wertebereich zu bezeichnen). Es gilt
R(f ) = {f (z1 ), ..., f (zm )}
mit gewissen zi ∈ Z und m ≥ n. Die Mengen f −1 f (zi ) sind disjunkt und zerlegen Z. Wir
werden deshalb im weiteren stets Darstellungen der Form (9) betrachten, für die die Ai eine
disjunkte Zerlegung von Z bilden:
!
n
n
G
[
Ai = Z, heißt
Ai = Z, Ai ∩ Aj = ∅, i 6= j
i=1
i=1
und zi ∈ Ai liegt. Es gilt
Ai = f −1 f (zi )
(10)
Wir können die αi näher bestimmen: Wenden wir f in der Form (9) auf ein zj an, erhalten wir
f (zj ) =
n
X
αi 1Ai (zj ) =
i=1
n
X
αi δij = αj
i=1
mit dem Kroneckersymbol δij = 1Ai (zj ). Damit gilt
f=
n
X
i=1
f (zi )1Ai , zi ∈ Ai
(11)
Die Ai sind die Niveaumengen der Funktion f . Mit (10) erhalten wir aus (11)
f=
n
X
i=1
f (zi )1Ai =
n
X
i=1
f (zi )1f −1 (f (zi )) =
X
x∈R
x · 1f −1 (x)
(12)
wobei im letzten Schritt x = f (zi ) gesetzt wurde. Die Summe läßt sich über ganz R ausdehnen,
da 1f −1 (x) = 1∅ = 0 für x 6∈ R(f ).
3.3 Der duale Raum Z∗ . Beobachtungen
31
Diese Schreibweise ist für Funktionen mit endlich vielen Werten sogar exakt. Sie ist eine Darstellung, die sich auf allgemeinen Funktionen veralgemeinern läßt, wenn man der Summe in
(12) einen Sinn geben kann.
Die Darstellung (11) erinnert an die aus der linearen Algebra bekannte Zerlegung bezüglich
einer Basis. Hier wären die Basiselemente die charakteristischen Funktionen 1A . Die charakteristischen Funktionen könnte man als kanonische Basis bezeichnen. Ein einfaches Beispiel
zeigt, daß sie im allgemeinen nicht die Basis von Z∗ als linearer Raum sein können. Ist Z eine
endliche n-Menge, dann ist Z∗ = Rn . Die Basis besteht also aus n Elementen. Es gibt in Z aber
2n Teilmengen und damit auch 2n charakteristische Funktionen.
Die charakteristischen Funktionen sind allerdings genau die extremalen Elemente von R. Wir
bezeichnen sie mit
Re = 1A ∈ Z∗ | A ∈ 2Z
Die konvexe Kombination von Elementen aus Re ergeben Elemente aus R, im allgemeinen leider
nicht alle. Das wäre eine besonders wünschenswerte Eigenschaft der Menge R. Es würde
Re = extr R , Re ∼ 2Z
R = conv Re
gelten. Die charakteristischen Funktionen könte man damit als “Basis” für R bezeichnen,
bezüglich derer man alle Elemente der konvexen Menge als konvexe Kombination von “Basiselementen” darstellen kann. Wenn Z eine endliche Menge ist, gilt dieser Zusammenhang.
Allerdings ist diese Darstellung im allgemeinen nicht eindeutig (siehe die Beispiele weiter hinten).
3.3.9
Positivität charakteristischer Funktionen
Offensichtlich ist 1A ≥ 0. Hieraus folgt für endliche Linearkombinationen, daß f ≥ 0 ⇐⇒
fi ≥ 0.
3.3.10
Physikalische Bedeutung von Z∗
Jede Beobachtung hat eine physikalische Bedeutung. Z.B. bedeutet 1A (z), wir testen, ob z ∈ A,
d.h., ob sich das phys. System in einem Zustand aus A befindet.
P
Linearkombinationen von charakteristischen Funktionen i αi 1Ai kann man als verfeinerte Beobachtungen betrachten, die ermöglichen, die Zugehörigkeit des Zustandes zu Mengen gleichzeitig zu beobachten. Das erfordert aber, daß man die αi gut unterscheiden kann.
Beobachtungen verhalten sich wie intensive Größen. Von solchen Größen wissen wir, daß sie
sich nicht eindeutig reellen Zahlen zuordnen lassen. Zwei verschiedene Darstellungen sind aber
durch affine Transformation (Verschiebung und Skalierung) inneinander überführbar. Das heißt,
es reicht aus, Beobachtung aus der konvexen Menge
R = {f ∈ Z∗ | 0 ≤ f ≤ 1}
zu betrachten. Allerdings ist das keine echte Faktorisierung bezüglich affiner Transformationen,
da in R nach wie vor affin äquivalente Beobachtunen liegen, z.B. 1 und 12 1 .
32
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
Der biduale Raum Z∗∗. Statistische Zustände
3.4
Mit Z∗ könnte man sich zufriedengeben, wir haben Abbildungen unserer physikalischen Zustände
in die reellen Zahlen. Aber irgendein Mathematiker kam mal auf die Idee das ganze noch mal
zu machen. Vielleicht hat er gedacht: “Wenn ich mit Funktionen Information aus meiner Menge
ans Licht bringen kann, dann kann ich vielleicht mit weiteren Funktionalen Informationen über
die Funktionen ans Licht bringen.
Z∗ ist wieder eine Menge. Sie enthält aber die durch die algebraische Struktur der reellen
Zahlen induzierte Struktur eines linearen Raumes. Wir betrachten deshalb auf Z∗ nur lineare
Funktionale.
Wir bezeichnen mit
Z∗∗ = {p : Z∗ −
→ R}
die Menge der linearen Funktionale auf Z∗ und nennen Z∗∗ den zu Z bidualen Raum.
Die Wirkung eines Elementes p ∈ Z∗∗ auf ein Element f ∈ Z∗ nennen wir duale Paarung oder
duales Produkt und schreiben hf, pi, f ∈ Z∗ , p ∈ Z∗∗ .
Z∗∗ als linearer Raum linearer Funktionale
3.4.1
Nach Voraussetzung wollen wir nur linearer Funktionale betrachten, es gilt also für endliche
Summen
* n
+
n
X
X
αi fi , p =
αi hfi , pi
i=1
i=1
Außerdem induziert die algebraische Struktur in R eine lineare Struktur in Z∗∗ :
* n
+
n
X
X
f,
βj pj =
βj hf, pj i
j=1
3.4.2
j=1
Ordnung und Positivität
Die Ordnungsstruktur in R induziert eine Halbordnung in Z∗∗ . Dank der Linearität ist das
äquivalent zur Definition der Positivität. Wir nennen ein Element aus Z∗∗ , wenn seine Wirkung
auf alle positiven Elemente aus Z∗ positiv ist:
p ≥ 0 ⇐⇒ hf, pi ≥ 0, f ∈ Z∗ , f ≥ 0
3.4.3
Elemente in Z∗∗ als Funktionen von Mengen
Auf der Teilmenge 2Z ∼ Re ⊂ Z∗ kann man die die Funktionale p ∈ Z∗∗ als Funktionen auf
Mengen p : 2Z −
→ R betrachten. Wir benutzen dafür dasselbe Symbol und schreiben
p(A) := h1A , pi
Damit läßt sich die WirkungP
eines Funktional p ∈ Z∗∗ auf die Linearkombination von charakteristischen Funktionen f =
f (zi )1Ai auch als
+
* n
n
n
X
X
X
f (zi )h1Ai , pi =
f (zi )p(Ai )
(13)
hp, f i =
f (zi )1Ai , p =
i=1
i=1
i=1
3.4 Der biduale Raum Z∗∗ . Statistische Zustände
33
schreiben.
Offenbar gilt für positive p ≥ 0, p(A) ≥ 0. D.h., ein positives Element aus Z∗∗ ist auch positiv als Funktion auf Mengen. Da für eine Linearkombination charakteristischer Funktionen
Positivität äquivalent zur Positivität der f (zi ), folgt, daß – zumindest für endliche Linearkombinationen – die beiden kanonischen Halbordnungen, Positivität von p als Funktion auf Mengen
und Positivität von p als Funktion auf Funktionen identisch sind.
Für positive p gelten weiter folgende offensichtliche Eigenschaften:
P
P
• A = ⊔Ai ⇐⇒ 1A = 1Ai =⇒ p(A) = p(Ai ).
• p(∅) = 0
• A ⊂ B =⇒ 1A ≤ 1B
=⇒ p(A) ≤ p(B)
Das sind Eigenschaften, die von Maßen gefordert werden. Elemente des bidualen Raumes haben
also vieles gemeinsam mit Maßen.
3.4.4
Spezielle Elemente in Z∗∗
In Z∗∗ liegen abstrakte Objekte, Funktionale. Gibt es darunter welche, die wir verstehen? Man
Z
könnte meinen, daß eine Beziehung der Art 22 ⊂ Z∗∗ gilt, entsprechend der Beziehung 2Z ⊂ Z∗ .
Das ist aber nicht der Fall wie das Beispiel endlicher Mengen zeigt (siehe 3.4.7).
Wir können für festes z auch f (z) als Funktional auf Z∗ betrachten, denn das ist eine reelle
Zahl und offesichtlich ist das Funktional linear. Wir können also jedem Element z ∈ Z ein
Funktional δz ∈ Z∗∗ zuordnen durch
hf, δz i = f (z)
Dieses Funktional wird Punktmaß oder Diracmaß genannt. Ist diese Zuordnung injektiv? Es
könnte sein, daß für zwei Punkte z1 und z2 für alle f ∈ Z∗ gilt f (z1 ) = f (z2 ). Das bedeutet,
daß aus der Sicht der Funktionale die beiden Punkte z1 und z2 nicht zu unterscheiden wären.
Physikalisch bedeutet das, daß es keine Beobachtung gibt, die die beiden Zustände z1 und z2 des
physikalischen Systems unterscheiden kann. Dann sind für uns diese beiden Zustände identisch.
Dann hätten wir aber von Anfang an, bei der Definition von Z, überhaupt nicht auf die Idee
kommen können, daß die Zustände verschieden sind (Hausdorffeigenschaft).
Wir nehmen also an, daß dieser Fall nicht auftreten kann. Das nennt man: Die Funktionale
trennen die Punkte. Tatsächlich haben wir damit eine stillschweigende Faktorisierung vorgenommen, ein Verfahren, daß in der klassischen Physik Standard ist. Es gibt in der klassischen
Physik keine nichtunterscheidbaren Objekte.
Damit haben wir eine 121-Zuordnung zwischen Punkten z ∈ Z und Punktmaßen δz ∈ Z∗∗ und
können ab sofort diese Objekte Identifizieren δz ←→ z. Damit wird Z zu einer Teilmenge von Z∗∗
– genau wie wir jeder Teilmenge A ein Funktional – nämlich eine charakteristische Funktion
– auf Z zuordnen konnten. Z ist also in Z∗∗ eingebettet. Diese Einbettung heißt kanonische
Einbettung eines Raumes in seinen bidualen.
Das besondere an dieser Konstruktion ist, daß wir in Z keine oder wenig Struktur haben, in Z∗∗
dagegen – das sind ja Abbildungen in die reellen Zahlen – alle Strukturen der reellen Zahlen.
Wir erhalten somit in Z eine Fülle von Strukturen, die kanonisch entstanden sind, ohne daß
wir sie definieren mußten.
Die Funktionale aus Z∗∗ müssen auf alle Elemente aus Z∗ angewendet werden können, also auch
auf charakteristische Funktionen die wir mit Teilmengen identifiziert haben. Funktionale aus
Z∗∗ sind also unter anderem Funktionen von Teilmengen p(A).
34
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
Insbesondere wirken die Punktmaße auf charakteristischen Funktionen wie folgt:
δz (A) = h1A , δz i = 1A (z)
Das ist = 1, falls z ∈ Z ansonsten = 0.
3.4.5
Eine Basis in Z∗∗ ?
Genau wie in Z∗ , liegen – als Abbildungen in die reellen Zahlen – auch Linearkombinationen
von Punktmaßen in Z∗∗ .
n
X
p=
βj δzj
j=1
Es seien Ai disjunkte Mengen, die jeweils nur zi enthalten, es gelte also 1Ai (zj ) = δij . Dann
folgt
n
n
n
X
X
X
βj δij = βi
p(Ai ) =
βj δzj (Ai ) =
βj 1Ai (zj ) =
j=1
j=1
j=1
und damit
n
X
p(Aj )δzj .
p=
j=1
Zu beachten ist, daß die Ai zwar disjunkt sein müssen, aber keine Zerlegung von Z bilden
müssen. Wir können also äquivalent auch
n
X
p({zj })δzj .
p=
j=1
schreiben.
3.4.6
Z∗∗ als Algebra?
Man könnte den Wunsch verspüren, auch die Multiplikativität p(f · g) = p(f ) · p(g) zu fordern,
aber das kann man schon für charakteristische Funktionen nicht gewährleisten. Es müßte dann
nämlich
p(A ∩ B) = p(1A · 1B ) = p(1A ) · p(1B ) = p(A) · p(B)
gelten, was für B = A zu p(A) = p2 (A) führt für alle A. Diese Forderung führt also auf konstante
Funktionale p.
Man kann Multiplikativität also nicht für alle Maße und Funktionen (oder Teilmengen) fordern.
Trotzdem spielt die Multiplikativität oft eine wichtige Rolle, u.a.:
• Multiplikativität für spezielle Funktionale auf allen Funktionen: Das gilt für Punktmaße
und nur für diese:
hf · g, δz i = (f · g)(z) = f (z) · g(z) = hf, δz i · hg, δz i
• Multiplikativität für ein gegebenes Funktional und gewisse Mengen: p(A ∩ B) = p(A) ·
p(B) Das gilt in der Wahrscheinlichkeitstheorie für unabhängige Ereignisse (so heißen die
Borelmengen der Maßtheorie in der W-Theorie).
3.4 Der biduale Raum Z∗∗ . Statistische Zustände
35
Z
Es ist 22 6⊂ Z∗∗
3.4.7
Man könnte annehmen, daß analog zum Übergang von Z zu Z∗ , für den 2Z ⊂ Z∗ folgte, sich
Z
beim Übergang von Z∗ zu Z∗∗ die Zahl der Elemente derart erhöht, daß 22 ⊂ Z∗∗ gilt. Das ist
aber nicht der Fall. Der Grund hierfür ist, daß in Z∗∗ nicht alle Funktionen sondern nur lineare
Z
Funktionen liegen sollen. Das führt dazu, daß man zwischen 22 und Elementen aus Z∗∗ keine
Eineindeutige Abbildung finden kann, was Voraussetzung für eine Einbettung wäre. Das sieht
man am einfachsten daran, daß sowohl die leere Menge ∅ als auch die Menge {0} auf die 0 des
Raumes Z∗∗ abgebildet werden. ∅ −
→ 0 ist klar und {0} −
→ 0 folgt aus {0} = 0 · {1}, d.h., egal
wohin 1 abgebildet wird, wegen der Linearität muß {0} auf das 0-fache dieser Zahl abgebildet
werden.
Physikalische Bedeutung von Z∗∗
3.4.8
Jetzt wollen wir untersuchen, wie man Linearkombinationen von Punktmaßen interpretieren
könnte. Dazu betrachten wir die Rolle von Wahrscheinlichkeiten in der Physik.
Die Berücksichtigung von Wahrscheinlichkeiten kann wenigstens aus zwei Gründen nötig sein.
Die Ursache ist in beiden Fällen Mangel an Information. Es kann sein, daß 1) nicht mit Sicherheit feststellbar ist, in welchem Zustand sich das System befindet und 2) nicht mit Sicherheit
vorherzusagen ist welcher Zustand nach einer Veränderung angenommen wird. Wir betrachten
vorläufig der ersten Fall.
Wir führen m mal ein Experiment durch und stellen fest, daß sich unser System ki mal im
Zustand zi befunden hat mit m = k1 + k2 + k3 + .... Dann können wir sagen, daß sich das
System mit Wahrscheinlichkeit (genauer Häufigkeit) βi = ki /m im Zustand zi befunden hat
und die Größe
′ ′
z
=
k1 ′ ′ k2 ′ ′ k3 ′ ′
z1 +
z2 +
z3 + ... = β1 ′z1′ + β2 ′z2′ + β3 ′z3′ + ...
m
m
m
können wir als statistischen Zustand des Systems bezeichnen. Das ist eine konvexe Kombination
von Zuständen, eine spezielle Linearkombinationen. Soetwas können wir mit Punkten aus Z aber
nicht bilden, wohl aber aus Elementen aus Z∗∗ . Wir können das Funktional
p=
n
X
j=1
βj δzj ,
n
X
j=1
βj = 1, βj ≥ 0
als statistischen – oder gemischten – Zustand des Systems bezeichnen. Der Fall p = δz würde
bedeuten, daß sich das System mit Sicherheit im – reinen – Zustand z befindet.
Die gemischten Zustände sind also konvexe Kombinationen reiner Zustände. Und umgekehrt, die
reinen Zustände sind die Zustände, die sich nicht gemischt darstellen lassen, also die extremalen
Elemente der konvexen Menge der gemischten Zustände.
Wir können also einem Teil der Funktionale aus Z∗∗ einen physikalischen Sinn geben. Wir
können die konvexen Kombinationen von Punktmaßen als Wahrscheinlichkeiten interpretieren.
Bemerkung: Es ist wichtig zu verstehen, daß die konvexe Kombination von Zuständen selbst
kein Zustand ist, auch wenn Z einen lineare Menge ist. Befindet sich das System z.B. mit
halber Wahrscheinlichkeit in den Zuständen z1 und z2 , so befindet es sich nicht im Zustand
z = 21 z1 + 12 z2 . Das wäre auch ein reiner und kein gemischter Zustand. Es ist ein Unterschied,
ob sich das System im Zustand z oder mit gleicher Wahrscheinlichkeit in den Zuständen z1 und
2
z2 befindet. Der Wunsch, anstelle von z.B. 21 δz1 + 21 δz2 lieber z1 +z
als statistischen Zustand zu
2
36
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
betrachten, ist ein weitverbreiteter Fehler, der Folgefehler nach sich zieht, die die mathematische
Analyse des Problems sehr erschweren können.
Die konvexen Kombinationen von Punktmaßen haben die offensichtlichen Eigenschaften p ≥ 0
und h1, pi = 1. Wir nennen solche Maße Wahrscheinlichkeitsmaße und bezeichnen sie mit
P = p ∈ Z∗∗ | p ≥ 0, h1, pi = 1
Die Punktmaße
Pe = δz ∈ Z∗∗ | z ∈ Z}
liegen in dieser Menge und bilden ihre extremalen Elemente.
Wie im Falle der charakteristischen Funktionen lassen sich im Falle endlicher Mengen Z alle
Elemente aus P als konvexe Kombinationen ihrer extremalen Elemente darstellen.
Pe = extr P , Pe ∼ Z
P = conv Pe
Diese Darstellung ist – im Gegensatz zu R – eindeutig. Das liegt daran, daß die n extremalen
Elemente δz affin unabhängig sind. Sie spannen eine n−1 dimensionale Hyperebene auf, aus der
die konvexen Kombinationen der δz einen n−1 dimensionalen Simplex ausscheiden. Die eindeutig bestimmten Koeffizienten zu einem p ∈ P sind gerade seine baryzentrischen Koordinaten in
diesem Simplex.
3.4.9
Baryzentrische Koordinaten
Im Rn heißen k ≤ n Punkte P1 , P2 , ..., Pk affin unabhängig, wenn die k Vektoren P2 −
P1 , ..., Pk −P1 linear unabhängig sind (hier ist egal, welcher Punkt subtrahiert wird). Die Punkte
P1 , P2 , ..., Pk spannen dann einen k − 1-dimensionalen Simplex auf. Die Eckpunkte Pi dieses
Simplex sind die extremalen Elemente des Simplex als konvexe Menge. Jeder Punkt P0 im
Inneren dieses Simplex läßt sich eindeutig als konvexe Kombination
P0 = α1 P1 + ... + αk Pk , αi ≥ 0, α1 + ... + αk = 1
der Eckpunkte darstellen. Die Koeffizienten αi heißen baryzentrische Koordinaten und
lassen sich explizit als
αi =
S(P1 , ..., Pi−1 , P0 , Pi+1 , ..., Pk )
S(P1 , ..., Pk )
berechnen, wobei S(P1 , ..., Pk ) das Volumen des Simplexes mit den Eckpunkte Pi ist.
Baryzentrische Koordinaten bestehen aus einer Koordinate mehr als lineare Koordinaten. Sie
ermöglichen es, Punkte in einem Simplex zu beschreiben, unabhängig davon wo der Simplex
im Koordinatensystem liegt und wie das Koordinatensystem skaliert ist. Beispielsweise hat
der Schwerpunkt in jedem Dreieck die baryzentrischen Koordinaten ( 13 , 31 , 31 ). Absolute lineare
Koordinaten des Schwerpunktes lassen sich natürlich nicht angeben.
Bemerkung: Im Dreieck gibt es neben baryzentrischen Koordinaten auch noch trilineare Koordinaten, die anders definiert sind und keine konvexe Kombination bilden.
37
3.5 Die duale Paarung
3.5
3.5.1
Die duale Paarung
Extensive und intensive Größen
Die duale Paarung für endliche Linearkombinationen (13)
hp, f i =
n
X
f (zi )p(Ai )
i=1
läßt sich interpretieren als Summ von Produkten intensiver Größen (mittelnde Funktionen von
Punkten f ) mit extensiven Größen (additive Funktionen von Mengen p).
Die mittelnde Eigenschaft von f wird beim Zusammenfassen von Objekten deutlich: Aus
f (z)p(A1 ⊔ A2 ) = f (z) p(A1 ) + p(A2 ) = f (z1 )p(A1 ) + f (z2 )p(A2 )
folgt
f (z) =
p(A1 )
p(A2 )
f (z1 )p(A1 ) + f (z2 )p(A2 )
=
f (z1 ) +
f (z2 )
p(A1 ) + p(A2 )
p(A1 ) + p(A2 )
p(A1 ) + p(A2 )
Wir betrachten eine Menge A, die nicht Z sein soll, eine Zerlegung von A = ⊔i Ai , ein f ∈ Z∗
und den Ausdruck
n
X
q(A) =
f (zi )p(Ai )
(14)
i=1
Wir können dadurch auf Pe ein Funktional q durch
h1A , qi = q(A) =
n
X
f (zi )p(Ai )
i=1
definieren. Damit läßt sich q auf Linearkombinationen ausweiten. Es sei g =
Wir betrachten hg, qi. Dazu müssen wir q auf 1Bj anwenden. Es sei
q(Bj ) = h1Bj , qi =
mit zji ∈ Aji und
hg, qi =
=
m
X
i
i,j=1
j=1
g(zj )1Bj .
f (zji )p(Aji )
i=1
Aji = Bj . Das ergibt
g(zj )h1Bj , qi =
j=1
n,m
X
S
n
X
Pm
m
X
j=1
g(zj )
n
X
f (zji )p(Aji ) =
i=1
n,m
X
g(zj )f (zji )p(Aji ) =
i,j=1
g(zji )f (zji )p(Aji ) = hg · f, pi
Im vorletzten Schritt wurde verwendet, daß g auf Bj und damit auch auf allen Aji konstant
ist. Es gilt also g(zj ) = g(zji ).
Im letzten Schritt wurde
S die Summe als Linearkombination von charakteristischen Funktionen
auf der Zerlegung Z = ij Aji betrachtet.
Formal gilt diese Darstellung nur für endliche Linearkombinationen, aber die rechte Seite ist
für alle Elemente f, g ∈ Z∗ definiert, da Z∗ eine Algebra ist.
Wir können also die durch (14) definierte Größe als Element aus Z∗∗ betrachten. Diese Darstellung läßt sich als Darstellung einer extensiven Größe q als duale Paarung einer intensiven
f und einer extensiven Größe p interpretieren.
38
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
3.5.2
Verallgemeinerungen
Im allgemeinen wären folgende Darstellungen wünschenswert:
X
X
X
X
x · 1f −1 (x)
p {z} δz
p=
pj δzj =
f=
fi 1Ai =
j
z∈Z
X
x∈R
X
x∈R
x · p f −1 (x) = hf, pi =
Riemannintegral
z∈Z
f (z) · p {z}
Lebesgueintegral
Beweis der Gleichheit:
X
X
X
X
hf, pi =
x · p f −1 (x) =
x·
p {z} =
f (z) · p {z}
x∈R
x∈R
z∈Z
z|f (z)=x
Für f = 1 erhält man hieraus
X
p {z}
h1, pi = p(Z) =
z∈Z
3.6
Zusammenfassung
Z∗
Z∗∗
Typ der Welt
geistig
materiell
Typ der Größe
intensiv (mittelnd)
extensiv (positiv, additiv)
Funktionen von
Punkten
Mengen
kanonische Objekte, “Basis”
Re = {1A , A ∈ 2Z }
Pe = {δz , z ∈ Z}
Dualität
sinnvolle Elemente
extremale Elemente
konvexe Hülle
1A (z)
= =
δz (A)
R = {f : 0 ≤ f ≤ 1} P = {p : p ≥ 0, p(Z) = 1}
Re = extr R
Pe = extr P
R = conv Re
P = conv Pe
Re = 2Z
Pe = Z
Da Z in Z∗∗ erhalten ist, gibt es keinen Grund, sich weiter für Z zu interessieren. Wir haben
zwei lineare Räume Z∗ und Z∗∗ gefunden, mit denen sich alle relavanten Probleme beschreiben
lassen.
Wir können von Z∗∗ zu Z auf folgendem Weg gelangen:
Z∗∗ −
→ P−
→ extr P = Pe = Z
und analog
Z∗ −
→ R−
→ extr R = Re = 2Z .
Das sind Möglichkeiten, aus der Menge der Potenzmenge die Menge selbst und umgekehrt zu
erhalten.
39
3.7 Probleme
3.7
Probleme
An Beispielen haben wir gesehen, daß es sinnvol ist, für den Zustandsraum Z die Möglichkeiten
• Z ist eine endliche Menge
• Z ist eine abzählbare Menge
• Z ist ein Kontinuum
zuzulassen. Falls Z eine endliche Menge ist, ist die vorgestellt Konstruktion mathematisch
einwandfrei. Es ergibt sich Z∗ = Rn und Z∗∗ = R∗n .
Im Falle, daß Z eine abzählbare Menge ist, muß geklärt werden, wie die Summen zu verstehen
sind, wenn sie sich über unendlich viele Elemente erstrecken. Ohne den Begriff des Grenzwertes
ist hier eine einwandfreie mathematische Konstruktion nicht möglich. Mit diesen Problemen
werden wir uns später beschäftigen.
Im Falle, daß Z die Mächtigkeit eines Kontinuums hat, gibt es bereits bei der Definition von
Summen Probleme. Das ist vielleicht am offensichtlichsten an der wünschenswerten Gleichung
X
p {z}
h1, pi = p(Z) =
z∈Z
Es gilt folgender
Satz: Ist die Summe von einer gewissen Anzahl nichtnegativer reeller Zahlen endlich, können
höchstens abzählbar viele von ihnen echt positiv sein.
Beweis: Es sei M die Menge der gegebenen nichtnegativen reellen Zahlen. Wir bilden Bk =
1
{x ∈ M| k+1
< x ≤ k1 }, die Menge der Elemente aus M, die zwischen aufeinanderfolgenden
Stammbrüchen liegen. Diese Mengen sind disjunkt. Offensichtlich liegen in jeder Menge Ik nur
endlich viele Elemente, denn sonst wäre ihre Summe bereits ∞. Andererseits liegt jede strikt
positive Zahl in irgendeiner der Mengen Bk . Die Menge ∪k Bk enthält also alle strikt positiven
Zahlen. Sie ist als abzählbare Vereinigung endlicher Mengen abzählbar.
Eine analoge Frage ist, ob man eine Funktion f ∈ R als konvexe Kombination von extremalen
Elementen aus Re darstellen kann:
X
f=
αi 1Ai
i∈I
Es ist klar, daß es nur abzählbar viele echt positive αi geben kann. Damit erscheint es unmöglich,
eine Funktion f mit mehr als abzählbar vielen Freiheitsgraden derart darzustellen.
D.h., es ist prinzipiell sinnlos, von Summen über mehr als abzählbar viele positive Zahlen zu
sprechen. Das ist gut aus der Maßtheorie bekannt. Dazu dient der dort eingeführte Begriff der
σ-Additivität.
Als erstes sollte man überlegen, inwiefern der Begriff der Menge überhaupt der Realität entnommen ist. Eine Menge ist eine Zusammenfassung wohlunterscheidbarer Objekte der Natur
oder des Denkens. Das bedeutet u.a. auch, daß man von einem Objekt genau sagen kann, ob
es zur Menge gehört oder nicht.
Endliche diskrete Mengen sind deshalb sicher sinnvoll als Mengen zu betrachten. Auch Mengen
mit abzählbar vielen Elementen kann man sich noch vorstellen. Allerdings haben sich nicht
40
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
ohne Grund – wie wir noch sehen werden – die antiken griechischen Mathematiker selbst mit
solchen Mengen schwer getan.
Aber bei Kontinua hört der Spaß endgültig auf. Wir wollen dazu ein paar Probleme betrachten.
3.7.1
Paradoxa mit Kontinua, reellen Zahlen und Beobachtungen
Kontinua werden u.a. in folgenden Situationen benutzt:
• Gebiete im euklidischen Raum, der als physikalischer Raum interpretiert wird
• Beliebig teilbare Wahrnehmungen (Helligkeit, Alk.gehalt, ..)
• reelle Zahlen als Beobachtungsergebnisse (Meßwerte)
An die ersten beiden Punkte haben wir uns dermaßen gewöhnt, daß wir darauf nicht verzichten
wollen.
Dabei wollen wir das Problem, was das physikalische intuitive Kontinuum mit dem mathematischen (reelle Zahlen) zu tun hat nicht untersuchen. Meistens wird in der Physik eine Größe
dann als kontinuierlich bezeichnet, wenn zwischen zwei Werten auch alle Zwischenwerte möglich
sind, d.h. wenn zu jedem Wert ein physikalisches Objekt existiert, für das die untersuchte Größe
diesen Wert annimmt. Diese Definition ist insofern unvollständi, da sie nicht erklärt, was für
Werte eine physikalische Größe annehmen kann. Implizit ist immer gemeint: jede reelle Zahl.
Das setzt per definitionem das physikalische und das mathematische Kontinuum gleich.
Einerseits ist klar, daß rationale Zahlen für physikalische Größen nicht ausreichen. Das wußten
schon die Griechen. Andererseits ist auch klar, daß niemals für jede reelle Zahl ein entsprechendes physikalisches Objekt gefunden werden kann, da es nur endlich viele und mit gutem
Vorstellungsvermögen vielleicht abzählbar viele Meßwerte geben kann.
3.7.2
Reelle Zahlen und Beobachtungen
Man benutzt zwar real nur die rationalen Zahlen, braucht aber die reellen Zahlen um eine
absolute Obermenge zu haben, in der alle Meßwerte bei beliebiger Meßgenauigkeit und alle
möglichen Lösungen von Gleichungen drinliegen.
Der Grund (und die Sinnhaftigkeit) der reellen Zahlen liegt in der Abgeschlossenheit. Der
Mittelwertsatz für beliebige stetige Funktionen funktioniert nur in den reellen Zahlen. Reelle
Zahlen kann man als Grenzwerte von Folgen rationaler Zahlen definieren. Das führt sofort zur
Überabzählbarkeit und damit zu einer Reihe von Paradoxa:
• Mit den reellen Zahlen lassen sich keine tatsächlichen Vorhersagen treffen. Angenommen,
wir vergleichen mit einer Balkenwaage die Massen dreier Kugeln m1 , m2 und m3 ist folgendes Ergebnis möglich: m1 = m2 , m2 = m3 . Werden die mi als reelle Zahlen interpretiert,
folgt m1 = m3 . In der Realität kann aber aufgrund der Meßgenauigkeit m1 6= m3 erhalten
werden (z.B. bei einer Meßgenauigkeit von 0.5g: m1 = 5.1g, m2 = 5.5g, m3 = 5.9g).
Meßergebnisse kann man praxisgerechter besser als “Enthaltensein in offenen Mengen”
interpretieren:
m1 m2 m3
m1 = m2 , m2 = m3 6=⇒ m1 = m3
Benutzt man natürliche Zahlen zum Messen der Masse, indem man etwa die Atome zählt,
tritt diese Paradoxon nicht auf.
41
3.7 Probleme
• Von zwei reellen Zahlen x und y, die als Dezimalbrüche gegeben sind, läßt sich x 6= y durch
sukzessive Stellenberechnung beweisen, x = y dagegen nicht. Als Beispiel betrachten wir
zwei reelle Zahlen x und y:
π
x = tan 7.5◦ = tan
√
√ 24
√
6+ 2− 3−2
y =
x = y = 0.131652497...
ÜA 4a: Entscheide of x = y oder x 6= y.
Beweis daß x = y: Wir gehen von der bekannten Tatsache tan π3 =
aus der Lösung der quadratischen Gleichung
tan 2α =
√
3 aus und erhalten
2 tan α
1 − tan2 α
sukzessive
π
3
π
tan
6
π
tan
12
π
tan
24
tan
Aus
2
p
q
=
=
√
3
1√
3
3
√
= 2− 3
p
√
q
√
√
1− 8−4 3
√
= (2 − 3) 8 − 4 3 =
=
3−2
q
q
√
√
√
√
= −2 − 3 + 2 8 − 4 3 + 3 8 − 4 3
√
q√
√
√
√
8 − 4 3 = ( 6 − 2)2 = 6 − 2 folgt
√
8−4 3+
√
3
q
√
√
√
√
√
√
√
8 − 4 3 = 2( 6 − 2) + 3 2 − 6 = 6 + 2
und damit die Behauptung.
Im Gegensatz dazu sind die beiden Zahlen
3
x = 640320
+ 744
√
π 163
= 262537412640768743.9999999999992500725971981856888...
y = e
ab der 31. Stelle tatsächlich verschieden. Hier ist die Verschiedenheit offensichtlich, weil
x ganz und y transzedent ist.
• Sind reelle Zahlen z.B. gleichverteilt (jede Verteilung ist geeignet) so kann es sein, daß die
Wahrscheinlichkeit, daß x genommen wird 0 ist für fast alle x. Trotzdem wird aber ein
ganz konkretes x angenommen.
• Keine Wahrscheinlichkeiten (Punkt auf der Kugel)
• Reelle Zahlen sind im allgemeinen Grenzwerte von Folgen rationaler Zahlen und als Grenzwerte prinzipiell nicht empirisch ermittelbar.
42
3.7.3
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
Die Potenzmenge ist zu groß
Neben der Menge Z an sich benötigen wir noch die Potenzmenge 2Z . Die Dualität der Mengen
Z∗ und Z∗∗ spiegelte sichgerade in der Dualität von Elementen und Teilmengen wieder. Neben
der möglichen Überabzählbarkeit von Z, die Probleme bereitet, ist 2Z bereits für abzählbare Z
überabzählbar, da sich die Kardinalität beim Übergang von einer Menge zu seiner Potenzmenge
erhöht.
Dieser Umstand spielt sogar bei endlichen Mengen eine Rolle, obwohl man ihn erst bei praktischen, nicht bei theoretischen Problemen wahrnimmt. Hat man etwa ein numerisches Problem
für Mengen mit n Elementen gestellt, kann es sein, daß es seine Lösung erfordert alle Teilmengen (2n Stück) oder alle Funktionen in eine k-Menge (k n Stück) zu betrachten. Solche Problem
heißen NP-vollständig und sind de facto unlösbar, wenn es nicht gelingt einen Algorythmus mit
einer kleineren Komplexität zu finden.
43
3.8 Beispiel: Endliche Mengen. Übungsaufgaben
3.8
Beispiel: Endliche Mengen. Übungsaufgaben
3.8.1
Der Fall Z = {z1 , z2 , z3 }
Ist Z = {z1 , z2 , z3 } eine Mengen aus drei Elementen, dann ist eine Abbildung in die reellen
Zahlen eineindeutig gegeben, wenn klar ist, welcher reellen Zahl z1 , welcher reellen Zahl z2 und
welcher reellen Zahl z3 zugeordnet ist. Sind die drei reellen Zahlen g1 , g2 und g3 , so entspricht
jeder solchen Abbildung ein Tripel g = (g1 , g2 , g3 ). Es ist also
Z∗ = {(g1 , g2, g3 ) | gi ∈ R}
Damit ist Z∗ der dreidimensionale reelle Raum, ohne Berücksichtigung irgendeiner Norm (später
wird noch eine geeignete Norm dazu genommen). Wir nennen ihn R3 .
Charakteristische Funktionen sind Tripel g, mit gi = 1 oder gi = 0. Davon gibt es 23 = 8 Stück.
Das sind die extremalen Elemente des Würfels
R = {g ∈ R3 | 0 ≤ gi ≤ 1}
Den dualen Raum Z∗∗ zu Z∗ bezeichne wir mit R∗3 . Es ist ebenfalls der dreidimensionale reelle
Raum, allerdings wird er eine andere Norm erhalten.
Die Menge der statistischen Zustände ist der zweidimensionale Simplex
o
n
P =
p ∈ R∗3 p1 + p2 + p3 = 1, pi ≥ 0
Seine extremalen
Elemente sind die kanonischen

 
 

1
0

Pe = δz1 =  0  , δz2 =  1  , δz3 = 

0
0
Basisvektoren

0 
0 

1
Es bietet sich an, Vektoren aus R3 und R∗3 als Zeilen– bzw. Spaltenvektoren zu unterscheiden.
Die duale Paarung ist dann die übliche Matrizenmultiplikation


p1
hg, pi = (g1 , g2 , g3 )  p2  = g1 p1 + g2 p2 + g3 p3
p3
Re✏✏◗✉
✏✏
◗
✏✏
◗
✏
✏
◗
✏
✉✏
◗
◗
◗
◗
◗
◗
◗◗✉
◗
✏
✏
◗
✏✏
◗
✏
✏
◗
✏✏
◗◗✏
✏
✉
✶
✏
✏✏
✏✏ z2
✉
✏
✏✏ ◗◗
✏✏
✏
◗
✏✏
◗
✏✏
✉
◗
◗
◗
◗
◗
◗
◗◗✉
◗
✏✏
◗
✏
◗
✏✏
◗
✏✏
✏
◗ ✏
✏
◗✉
◗
◗
◗ z1
◗
◗
s
◗
✻
z3
✻ z3
1 ✉
R
✔
✔
✔✔❚❚
❚
0
Pe
❚
❚
❚
❚
❚
❚
✑◗
❚
✑
◗
✔
❚
✑
◗
✑
◗
✔
❚
◗
✔ ✑✑
◗ ❚
◗❚
✔✑
✑
◗❚✉
✉
✔
◗
z1 ✑✑1
1 ◗ z2
✑
◗
✰
✑
s
◗
✔
✔
✔
✔
✔
✔
P
44
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
3.8.2
Berechnung von konvexen Kombinationen in R2
ÜA 5a) Es sei R2 das Quadrat im R2 mit den Eckpunkten (0, 0), (1, 0), (0, 1), (1, 1). Finde
die allgemeine Darstellung eines Punktes x = (x1 , x2 ) innerhalb dieses Quadrates als konvexe
Kombination der Eckpunkte.
Lösung: Die allgemeine Lösung ist
1
1
0
0
x1
+ (x1 + x2 − t)
+ (t − x2 )
+ (t − x1 )
= (1 − t)
1
0
1
0
x2
wobei an den Parameter t die Bedingungen min{1, x1 + x2 } ≥ t ≥ max{x1 , x2 } gestellt werden
müssen (sonst bilden die Koeffizienten keine konvexe Kombination).
Spezielle (Rand-)Lösungen wären t = 1, t = x1 + x2 und t = x2 > x1
1
1
0
0
x1
+ (x1 + x2 − 1)
+ (1 − x2 )
+ (1 − x1 )
=0
1
0
1
0
x2
x1
x2
x1
x2
3.8.3
= (1 − x1 − x2 )
= (1 − x2 )
0
0
0
1
+ x1
+ (x2 − x1 )
0
1
0
0
+ x2
+0
1
0
1
0
1
1
+ x1
1
1
+0
Berechnung von konvexen Kombinationen in Rn
ÜA 5b) Es sei Rn der n-dim Würfel im Rn mit den 2n Eckpunkten (0, ..., 0), ..., (1, ..., 1).
Finde eine Darstellung eines allgemeinen Punktes x = (x1 , x2 , ..., xn ) innerhalb dieses Würfel
als konvexe Kombination seiner extremalen Elemente.
Lösung: Es sei x = (x1 , x2 , ..., xn ) ein beliebiger gegebener Vektor. O.B.d.A. kann x1 ≤ x2 ≤
... ≤ xn angenommen werden. Das kann durch Umnummerierung der Zustände z1 stets erreicht
werden.
Wir schreiben die Darstellung für R4 auf:
 
 

 

0
0
0
x1
 0 
 0 
 0 
 x2 
 
 

 

 x3  = (1 − x4 )  0  + (x4 − x3 )  0  + (x3 − x2 )  1  +
1
1
0
x3
 
 
1
0
 1 
 1 

 
+ (x2 − x1 ) 
 1  + x1  1 
1
1
Nach Voraussetzung ist xk ≥ xk−1 , x1 ≥ 0 und 1 ≥ x4 . Deshalb sind alle Koeffizienten nichtnegativ. Offensichtlich ist auch die Summe 1.
Die allgemeine Lösung kann leicht hieraus gefolgert werden.
x = (1 − xn )P0 +
n−1
X
k=1
(xn+1−k − xn−k )
k
X
i=0
Pk + x1
n
X
k=1
Pk
3.8 Beispiel: Endliche Mengen. Übungsaufgaben
45
oder kompakter, wenn man xn+1 = 1 und x0 = 0 setzt:
!
n
k
X
X
x =
(xn+1−k − xn−k )
Pk =
i=0
k=0
= (xn+1 − xn )P0 + (xn − xn−1 )(P0 + P1 ) +
+ (xn−1 − xn−2 )(P0 + P1 + P2 ) + ... + (x2 − x1 )(P0 + P1 + ... + Pn−1 ) +
+ (x1 − x0 )(P0 + P1 + ... + Pn )
Hier ist P0 = ∅ der Koordinatenursrpung
und Pi = {zi }.
P
Für kleine Koordinaten mit i xi ≤ 1 wäre auch
!
n
n
X
X
x= 1−
xi P0 +
xi Pi
i=1
i=1
eine Lösung.
3.8.4
Der Satz des Pythagoras im Simplex
ÜA 5c) Ein rechtwinkliger Simplex im Rn sei gegeben durch die n Schnittpunkte einer Ebene
mit den Koordinatenachsen und dem Koordinatenursprung. Dabei entstehen n + 1 “Seitenflächen” der Dimension n − 1. Es sei Ai der Flächeninhalt der Seitenfläche senkrecht auf der
i-ten Koordinatenachse und A der Flächeninhalt der Grundfläche (gebildet von den Koordinatenachsenschnittpunkten). Beweise den Satz des Pythagoras im Simplex:
A2 = A21 + A22 + ... + A2n
Beweis:
4.3 Mathematische Grundlagen. Topologie
4.3
61
Mathematische Grundlagen. Topologie
• offene Mengen: O: Z, ∅ ∈ O,
S
α
Uα ∈ O, U1 ∩ U2 ∈ O
• O1 ⊂ O2 , 2 ist stärker (feiner) als 1 (gröber).
• abgeschlossene Mengen: F = {F ∈ 2Z : Z \ F ∈ O}
• kompakte Mengen: K
• Z = Z1 × Z2 , O1 × O2 ist Basis von O
• f : X−
→ Y stetig, falls f −1 (BX ) ∈ OY , ∀ BX ∈ OX
• f : Z−
→ X × Y; f (z) = (g(z), h(z)) stetig, falls g : Z −
→ X und h : Z −
→ Y stetig sind.
• f : Z−
→ X, f = g ◦ h, f (z) = g(h(z)) stetig, falls g : Y −
→ X und h : Z −
→ Y stetig sind.
• Initialtoplogie: Es sei ein Raum Z und eine Abbildungsfamilie {hi : Z −
→ Xi }i∈I (hier sei
I eine beliebige Indexmenge) in topologische Räume Xi mit offenen Mengen Oi gegeben.
Wir definieren in Z die Basismengen einer Topologie als
Z O(Z) = h−1
(U
)
⊂
2
U
∈
O
(X
)
i
i
i
i
i
Die so auf Z induzierte Topologie heißt Initialtoplogie bezüglich der Abbildungsmenge
{hi }. Die ist die gröbste Topologie auf Z, bezüglich derer alle Abbildungen hi stetig sind.
Ein topologischer Raum ist vollständig regulär, genau dann, wenn seine Topologie die
Initialtoplogie bezüglich der beschränkten reellwertigen Funktionen auf Z ist.
Hat man eine Menge an Funktionen gegeben, die stetig sein sollen, so ist das eine Möglichkeit, eine geeignete Topologie in Z zu definieren. Das ist der kanonische Weg zur Definition
einer Topologie, wenn man von einer Menge an interessierenden Beobachtungen (reellwertige Funktionen auf Z) ausgeht.
Bemerkung zur Stetigkeit: Diese angeführte Definition der Stetigkeit von Funktionen f :
Z1 −
→ Z2 ist üblich, setzt aber einen nicht offensichtlichen Zusammenhang zwischen f und der
Funktion f −1 : 2Z2 −
→ 2Z1 voraus. An den Mengen, zwischen denen f und f −1 abbilden, sieht
man, daß f −1 eigentlich nicht dieselbe Funktion ist, die üblicherweise betrachtet wird, wenn f
bijektiv wäre. Dazu folgende
ÜA 6: Es seien zwei Mengen Z1 und Z2 und eine Abbildung g : 2Z2 −
→ 2Z1 gegeben. Welche
Voraussetungen müssen an g gestellt werden, damit eine eindeutig definierte Funktion f existiert
mit g = f −1 (hier ist die inverse Funktion im Mengensinne gemeint)?
Die Lösung liefert folgender Satz:
62
4 DER ZUSTANDRAUM ALS KOMPAKTER HAUSDORFFRAUM
4.4
Definition des Zustandraumes Z
Zustandsraum heißt ein topologischer Raum, der
• kompakt ist, (kompakt = jede minimale Überdeckung ist endlich)
• Hausdorff ist und (Hausdorff = Punkte haben disjunkte Umgebungen)
• das 1. Abzähllbarkeitsaxiom erfüllt. (1.AA = Punkt hat abzählbare Basis)
Diese Eigenschaften lassen sich physikalisch motivieren:
Die Hausdorffeigenschaft bedeutet, daß sich Zustände unterscheiden lassen, was bedeutet, daß
wir nichtunterscheidbare Zustände identifizieren.
Das 1. Abzähllbarkeitsaxiom bedeutet, daß es nicht zuviele verschiedene Zustände gibt. Das
entspricht der Annahme, daß abzählbar viele Beobachtungen ausreichen um das physikalische
System vollständig zu erkennen.
Die geforderte Kompaktheit ist physikalisch leicht zu verstehen, wirkt aber als starke mathematische Einschränkung. Kompaktheit bedeutet soviel wie prinzipielle Endlichkeit. Es werden
zwar unendlich viele Zustände – sogar Kontinua – betrachtet, aber bei gegebener “Auflösung”
spielen nur endlich viele verschiedene Zustände eine Rolle. Das entspricht dem natürlichen Ansatz, daß eigentlich nur endliche Probleme betrachtet werden können, in dem Sinne, daß nur
endlich viele Beobachtungen real verarbeitet werden können.
Mathematisch vereinfacht die Forderung der Kompaktheit die Lösung von konkreten Aufgaben
außerordentlich. Viele Theorem können als notwendige und hinreichende Bedingungen formuliert werden. Das ist natürlich sehr angenehm und zeigt, daß Kompaktheit zu einer gewissen
Abrundung der Theorie führt. Es kann aber der Eindruck entstehen, daß die Forderung der
Kompaktheit die Menge an realen behandelbaren Problemen zu sehr einschränkt. Es gibt eine Fülle von mathematischen Untersuchungen physikalischer Probleme, die keinen kompakten
Zustandraum voraussetzen. Ist das tatsächlich erforderlich? Oder erschweren sich diese Mathematiker und Physiker das Leben grundlos. Es wird sicgh zeigen, daß es nicht nur ausreicht,
kompakte Zustandräume zu betrachten sondern daß eine vollständige Beschreibung eines klassischen physikalischen Problems einen kompakten Zustandraum erzwingt. Die Frage ist nicht,
ob es ausreicht sich auf kompakte Zustandraum zu beschränken, sondern daß eine richtige Modellierung jedes Problems das Finden einer geeigneten kompakten Topologie im betrachteten
Zustandsraum voraussetzt.
4.4.1
Weitere Eigenschaften des Zustandraumes
Ein topologischer Zustandraum Z hat weitere Eigenschaften, die aus den drei Voraussetzungen
folgen. Wir führen sie hier ohne Beweis an. Beweise können in jedem Standardwerk zur Topologie gefunden werden. Des weiteren werden einige Eigenschaften, die wir formal in vorigen
Kapitel benutzt haben, nicht mehr erfüllt sein.
Z ist:
• vollständig regulär (T3) = uniform, normal (T4)
• metrisierbar (Das bedeutet nicht metrisch. Es muß nicht sinnvoll sein, eine Metrik einzuführen. z.B. in endlichen Mengen)
• K=F
• folgenkompakt (jede Folge hat Häufungspunkt)
• O(Z) ist die Initialtopologie bezügl. C(Z).
63
4.4 Definition des Zustandraumes Z
• erfüllt das 2. Abzähllbarkeitsaxiom
Weitere Eigenschaften:
def
• Def. Folgenkonvergenz: zn −
→ z ⇐⇒ für alle Uz gilt: fast alle zn liegen in Uz .
• Def. Folgenstetigkeit: Eine Funktion f : Z1 −
→ Z2 heißt folgenstetig, wenn zn −
→ z =⇒
f (zn ) −
→ f (z)
• Für die uns interessierenden Fälle an Funktionen f : Z −
→ Z2 oder f : Z −
→ R, wobei Z
und Z2 Zustandsräume sind, gilt: f ist stetig ⇐⇒ f istfolgenstetig
• Z ist endlich ⇐⇒ diskr. Topologie in Z.
Das ist so zu verstehen: Wenn Z endlich ist, erfüllt die diskr. Topologie alles Voraussetzungen. Jede andere Topologie (die weniger offenen Mengen zuläßt) erfüllt nicht die
Hausdorffeigenschaft.
In unendlichen Mengen ist das nicht so. Da gibt es verschiedene Topologien für die Z
kompakt ist. Welche davon die richtige ist, hängt von der konkreten Aufgabe ab, insbesondere davon, wie wir unendlich viele Zustände beobachten können. Im endlichen Raum
gibt es nur die eine Variante: Alle Zustände sind gleichberechtigt und unterscheidbar.
Insbesonder gibt es keinen kanonischen Weg, Zustände zu nummerieren, zuordnen oder
irgendwie anders zu strukturieren.
4.4.2
Physikalischer Hintergrund
Eigentlich nehmen wir immer nur endlich viel wahr, sowohl im kleinen als auch im großen.
Wir können uns aber vorstellen, daß die Welt unendlich groß in beide Richtungen ist. Zumindest sollte unsere Vorstellung von der Welt die Möglichkeit eines prinzipiell möglichen tieferen
Verstehens offenlassen.
Unendlich im Großen bedeutet hier, daß wir immer mehr Zustände als mögliche Zustände –
genennt unendlich viele – zulassen.
Unendlich im Kleinen bedeutet hier, daß wir jeder einzelne Zustand noch weiter unterteilbar
ist, daß es möglich ist, immer mehr Freiheitsgrade – letztlich auch unendlich viele – zulassen.
Aber diese Unendlichkeiten dürfen nicht zu kompliziert sein.
Außerdem nehmen wir an, daß wir Zustände prinzipiell unterscheiden können.
Aus dieser Sicht stellt das an den toplogischen Raum drei entscheidende Voraussetzungen. Z
muß sein:
• Hausdorff:
Diese Voraussetzung bedeutet, daß man zwei Punkte unterscheiden kann. Diese Eigenschaft ergibt sich automatisch, wenn man ununterscheidbare Zustände als identisch annimmt. Dinge, die ich sowieso nicht ununterscheiden kann, brauche ich auch nicht zu
unterscheiden. Hier gibt es eine Besonderheit.
In der Physik gibt es die Begriffe “identische Teilchen” und “nichtunterscheidbare Teilchen”. In der klassischen Physik nimmt man an, daß Teilchen identisch sein können (z.B.
zwei Massepunkte im Raum, die Seiten eines Würfels oder die Seiten einer Münze), sich
aber unterscheiden lassen. Das heißt, sie verhalten sich unter denselben Bedingungen
genauso, ich kann sie aber z.B. nummerieren und verwechsele sie deshalb nicht.
64
4 DER ZUSTANDRAUM ALS KOMPAKTER HAUSDORFFRAUM
Diese Annahme ist in der Quantenmechanik falsch. Zwei identische Teilchen sind dann
auch nichtunterscheidbar, was bedeutet, daß bereits das “nummerieren” dazu führt, daß
die Teilchen nicht mehr identisch sind.
Der Unterschied macht sich auch tatsächlich bemerkbar. So treten beim Werfen von zwei
klassischen Münze die drei Varianten: 1) nur Kopf, 2) nur Zahl, 3) Verschiedenes mit
den Wahrscheinlichkeiten 1/4, 1/4 bzw 1/2 auf. Bei Werfen von zwei “Quantenmünzen”
ergibt sich stets die Wahrscheinlichkeit 1/3.
• Kompaktheit: Kompaktheit kann man sich als Endlichkeit im Großen und im Kleinen
vorstellen.
• 1. Abzählbarkeitsaxiom: Das bedeutet Abzählbarkeit im Großen.
65
5
Der Beobachtungsraum C(Z) als
Banachverband stetiger Funktionen
Es sei Z ein kompakter, metrisierbarer Raum und C(Z) die Menge aller stetigen beschränkten
reellwertigen Funktionen auf Z.
o
n
Z∗ = C(Z) = f : Z −
→ R f −1 (U) ∈ O, ∀U ∈ OR
Diese Definition ist rein algebraisch, nicht metrisch!
Es ist sinnvoll, alle Beweise durchzuprobieren.
Da endliche Linearkombinationen stetiger Funktionen wieder stetig und auch beschränkt sind,
ist C(Z) ein linearer Raum. Mit einer geeigneten Norm (sup-Norm), Multiplikation (punktweise)
und Ordnung (punktweise) wird C(Z) ein B-Raum, eine B-Algebra und ein B-Verband.
• 1∈C
• 1A ∈ C ⇐⇒ A ist offen und abgeschlossen (Zusammenhangskomponente)
• Sinnvoll sind Überdeckungen statt Zerlegung. Der Raum zerfällt nicht mehr.
• linearer Raum (d.h. αf + βg ist stetig)
• ∃ gmin , gmax , d.h., R(g) ist abgeschlossen und beschränkt ∃ zmin , zmax
Genauer: g −1(x) ∈ F für alle x ∈ R(g) und nicht leer.
Insbesondere gibt es zmin ∈ g −1 (gmin ), zmax ∈ g −1 (gmax )
• Intervall: C[a,b] = g ∈ C : [gmin , gmax ] ⊂ [a, b]
• R = C[0,1] . Diese Menge spielt etwa die Rolle der “Einheitskugel”. Sie ist konvex aber
nicht kompakt (in der starken Topologie, die später noch definiert wird).
• Extremale Elemente von R: Die extremalen Elemente sind die charakteristischen Funktionen, also nur die Funktionen 1A , wobei A eine Zusammenhangskomponente ist.
ÜA 7: Beweise die letzte Aussage. D.h.: Es sei Z ein zusammenhängender Raum. Beweise,
daß sich zu jedem g ∈ R mit g 6= 0 und g 6= 1 solche f 6= h ∈ R finden lassen, daß
g = 21 f + 21 h.
Beweis:. Es sei g ∈ R und h = 2g−g 2 und f = g 2 . Dann ist g = 12 f + 21 h und offensichtlich
f = g 2 ∈ R und h = 2g − g 2 = 1 − (1 − g)2 ∈ R. f 6= g ist für g 6= 1 erfüllt.
• Satz von Urysohn: Es seien A, B ∈ F, A ∩ B = ∅. Dann existiert eine stetige Funktion
f : Z−
→ [0, 1] mit f (A) = 0 und f (B) = 1.
Beweis: Zum eigentliche Beweis wird eine ineinandergeschachtelte Folge von offenen und
abgeschlossenen Mengen konstruiert, die mit rationalen Zahlen indexiert werden. Zum
Beweis der Stetigkeit, wird ein folgendes Lemma benutzt.
Lemma: Es sei C ∈ [0, 1] eine dichte Menge. Wir betrachten eine Abbildung C −
→ O(Z),
a−
→ Ua mit der Eigenschaft: a < b =⇒ Ua ⊂ Ub . Dann ist die Funktion f : Z −
→ [0, 1],
definiert als
f (z) = inf {a ∈ C}
z∈Ua
66
5 DER BEOBACHTUNGSRAUM C(Z)
stetig. Erläuterung: Die Ua sind ineinandergeschachtelt. Mit zunehmendem a werden die
Ua größer. f (z) wird das kleinste a (im inf-Sinne) zugeordnet, für das z gerade noch in
Ua ist.
Beweis des Lemmas: Wir zeigen, daß die Urbilder der offenen Mengen [0, x), (x, 1] ⊂
[0, 1] unter f offen sind. Da diese Mengen eine Subbasis in [0, 1] bilden, ist das der Beweis.
Es ist
[
Ua
f −1 [0, x) = {z|f (z) < x} =
a<x
als Vereinigung offener Mengen offen. Des weiteren ist
[
(Z \ Ub )
f −1 (x, 1] = {z|f (z) > x} =
b>x
eine Vereinigung abgeschlossener Mengen, über die man ersteinmal nichts aussagen kann.
Wir zeigen, daß
[
a>x
(Z \ Ua ) =
[
(Z \ Ua )
a>x
S
S
Die Inklusion a>x (Z \ Ua ) ⊃ a>x (Z \ Ua ) ist offensichtlich, da Ua ⊂ Ua =⇒ (Z \ Ua ) ⊃
S
(Z \ Ua ). Zum Beweis der Rückrichtung betrachten wir ein z ∈ a>x (Z \ Ua ). Es gibt also
ein a > x mit z ∈ (Z \ Ua ). Gilt z ∈ (Z \ Ua ) ist alles bewiesen. Es sei z 6∈ (Z \ Ua ). Wir
betrachten ein b ∈ C mit a > b > x, daß es wegen der Dichtheit von C stets gibt. Nach
Voraussetzung
ist Ub ⊂ Ua und damit z ∈ Z \ Ua ⊂ Z \ Ub . Wegen b > x ist dann auch
S
z ∈ a>x (Z \ Ua ).
.
Bemerkungen:
– Es werden die rationalen Zahlen als Ordinalzahlen verwendet, die für die Mengen
zwischen A und Z \ B eine Ordnung herstellen:
A ⊂ U0 ⊂ ... ⊂ Ub ⊂ ... ⊂ Ua ⊂ ... ⊂ U1 ⊂ Z \ B
– Es gibt also ein stetiges f mit f −1 (0) ⊃ A und f −1 (1) ⊃ B. Gleichheit der Menge
ist genau dann zu erreichen, wenn A und B (die abgeschlossen sein müssen) als
Durchschnitt abzählbar vieler offener Mengen dargestellt werden können.
– Da es nur noch offene und abgeschlossene Mengen als sinnvolle Mengen gibt, spielen
keine Zerlegungen mehr eine Rolle, dafür aber Überdeckungen.
– 1A ist nicht stetig.
• Fortsetzungssatz:
• Lemma (Zerlegung der 1):
n
Es sei (Ui )ni=1 eine endliche, minimale offene Überdeckung von Z. Es existieren
S (ϕi)i=1 ∈
C(Z) mit ϕi (z) ∈ [0, 1], ϕi (z) = 0, z ∈ Z \ Ui , ϕi (z) = 1, z ∈ Ui \
und
j6=i Ui
Pn
i=1 ϕi = 1.
67
5.1 C(Z) ist Banachraum
•
• Ideal: A ∈ F, IA = {f ∈ C|f (z) = 0, z ∈ A}
• Satz von Heine: Eine stetige Funktion ist gleichmäßig stetig.
• Satz von Dini: Wenn eine monotone Folge stetiger Funktionen punktweise gegen eine
stetige Funktion konvergiert, dann ist die Konvergenz gleichmäßig.
• Folgenstetigkeit: zn −
→ z =⇒ f (zn ) −
→ f (z)
• Zwei kompakte Hausdorff-Räume Z1 und Z2 sind genau dann homöomorph, wenn ihre Ringe von stetigen reell-wertigen Funktionen C(Z1 ) und C(Z2 ) isomorph sind. Siehe
auch Semadeni. (Wie ist das gemeint?) Vermutlich muß der Isometrie-Operator auch die
Multiplikativität erhelten, d.h. ein invertierbarer deterministischer Markowoperator sein.
• f ist stetig und bijektiv =⇒ f −1 ist stetig.
Es stellt sich heraus, daß die natürlichen Eigenschaften des Raumes stetiger Funktionen (metrische, algebraische, Ordungseigenschaft) in perfekter Weise zusammenpassen, was diesen Raum
zum idealen Startobjekt für die weiteren Untersuchungen macht.
Z − topologischer Raum
(kompakt, Hausdorff,
1. AA)
w
w

Menge der Beobachtungen
Z∗ = C(Z)
w
w

linearer Raum
Metrik (Norm) =⇒
5.1
normierter Raum
=⇒
Banach-Raum
Halb-Gruppe
=⇒
Algebra
=⇒ Banach-Algebra
Ordnung
Verband
=⇒
=⇒
Riesz-Raum
=⇒ Banach-Verband
C(Z) ist Banachraum
Ein Banachraum ist ein vollständiger (d.h., jede Cauchyfolge konvergiert) normierter linearer
Raum.
C(Z) ist linearer Raum, d.h., Summe, Produkt mit Skalar sind auch stetige Funktionen.
Wir können in C(Z) eine Norm definieren:
kgk = sup |g(z)|
z∈Z
Mit dieser Norm C(Z) ein normierter Raum.
Die Norm definiert eine Metrik und damit eine Topologie in C(Z). In dieser Topologie ist:
• Vollständigkeit: In der definierten Norm ist C(Z) vollständig und damit ein Banachraum.
Beweis: Der Raum C(Z −
→ E) ist genau dann vollständig, wenn E vollständig ist.
Der Beweis vollzieht sich in drei Schritten:
68
5 DER BEOBACHTUNGSRAUM C(Z)
1. Aus der Cauchy-Eigenschaft der Folge (fn ) folgt die Existenz eines punktweisen
Grenzwertes f .
2. Es wird gezeigt, daß f stetig ist. Dazu wird die Differenz zweier Funktionswerte in
vier Summanden zerlegt, die aus verschiednene Gründen klein werden:
f (z1 ) − f (z2 ) ≤ f (z1 ) − fn1 (z2 )
klein wegen punktweiser Konvergenz
+ fn1 (z1 ) − fn2 (z1 ) klein wegen Cauchy-Eigenschaft
+ fn2 (z1 ) − fn2 (z2) klein wegen Stetigkeit
+ fn2 (z2 ) − f (z2 )
klein wegen punktweiser Konvergenz
3. Es wird gezeigt, daß fn −
→ f in der Norm konvergiert.
• Konvergenz = Folgenkonvergenz
• ÜA 8: Beweise explizit, daß auf C([0, 1]) die Funktionenfolge fn (z) = z n keine Cauchyfolge
ist.
Beweis: Wir konstruieren eine Teilfolge, die nicht gleichmäßig konvergiert. Es sei n > m
und gmn (z) = z m − z n . Diese Funktion hat auf [0, 1] ihr Maximum bei z0 mit mz0m−1 =
nz0n−1 oder z0 = (m/n)1/(n−m) . An dieser Stelle ist gmn (z0 ) = (m/n)m/(n−m) −(m/n)n/(n−m) .
Wählt man jetzt n = 2m, ergibt sich gm,2m (z0 ) = (1/2)1 − (1/2)2 = 1/4. Diese Folge konvergiert nicht gegen 0.
5.2
C(Z) ist Banachalgebra
Ein linearer Raum wird zu einer (kommutativen) Algebra, wenn in ihm eine (kommutative)
Multiplikation definiert ist. Gibt es ein neutrales Element bezüglich dieser Multiplikation, so
heißt die Algebra “Algebra mit Eins”.
Ein Banachraum wird zu einer (kommutativen) Banachalgebra, wenn in ihm eine (kommutative) Multiplikation definiert ist, bezüglich der die Norm submultiplikativ ist.
• Wir definieren eine Multiplikation f · g in C(Z) durch (f · g)(z) = f (z) · g(z) (punktweise
Multiplikation).
• Da das Produkt stetiger Funktionen wieder stetig ist, ist C(Z) abgeschlossen bezüglich
dieser Operation. Das macht C(Z) zu einer kommutativen Algebra.
• Die Multiplikation ist submultiplikativ, d.h. es gilt kf · gk ≤ kf k kgk. Daher ist C(Z) eine
Banachalgebra.
• Da 1 ∈ C und 1 · f = f , ist C(Z) eine Banachalgebra mit Eins.
5.3 Mathematische Grundlagen: Verbände, Rieszräume
5.3
5.3.1
69
Mathematische Grundlagen: Verbände, Rieszräume
Geordnete Mengen
Eine Menge heißt geordnet, wenn zwischen einigen ihrer Elemente eine Ordnungsrelation ≤
definiert ist. Diese Ordnungsrelation läßt sich mit verschiedener Schärfe definieren.
Eine Ordnungsrelation ϕ ist eine Teilmenge der Produktmenge X × X mit folgenden Eigenschaften:
1.
2.
3.
4.
5.
Für alle x ∈ X gilt (x, x) ∈ ϕ. (Reflexivität)
(x, y) ∈ ϕ, (y, z) ∈ ϕ =⇒ (x, z) ∈ ϕ (Transitivität)
(x, y) ∈ ϕ, (y, x) ∈ ϕ =⇒ x = y (Antisymmetrie)
∀ x, y ∈ X gilt (x, y) ∈ ϕ oder (y, x) ∈ ϕ (Totalität)
∀X: ∅=
6 X ⊆ X ∃ x ∈ X : x ≤ x′ , ∀ x′ ∈ X
Der Zusammenhang zur üblichen Ordnungsrelation besteht in (x, y) ∈ ϕ ⇐⇒ x ≤ y. Eine
Menge X mit einer Ordnungsrelation ≤ ist eine geordnete Menge und wird mit (X, ≤) bezeichnet. Ohne Totalität heißt eine Ordnung Halbordnung.
Je nachdem, welche Bedingungen erfüllt sind, heißt X
•
•
•
•
teilgeordnet, wenn 1) und 2)
geordnet, wenn 1), 2) und 3)
total geordnet, wenn 1), 2), 3) und 4)
linear geordnet, wenn 1), 2), 3) und 4) (äquivalent zu total geordnet, intuitiver, aber
weniger gebräuchlich)
• wohl geordnet, wenn 1), 2), 3), 4) und 5)
Uns interessieren im Weiteren nur die reellen Zahlen (linear geordnet) und punktweise geordnete
Mengen von Funktionen (geordnet oder halbgeordnet). Für letztere sind nur die Eigenschaften
1), 2) und 3) von Interesse.
Im Gegensatz zu Ordnungsrelationen werden für eine Äquivalenzrelation die Eigenschaften 1)
und 2) und anstelle der Eigenschaft 3) die Eigenschaft 3’) (x, y) ∈ ϕ =⇒ (y, x) ∈ ϕ (Symmetrie),
gefordert. Das führt dazu, daß eine Ordnungsrelation die Menge X zusammenhält, wogegen
eine Äquivalenzrelation die Menge X zerfallen läßt. Macht man aus einer Ordnungsrelation ϕ
eine Äquivalenzrelation durch symmetrisieren: (x, y) ∈ ϕ =⇒ (y, x) ∈ ϕ, dann stimmen die
Äquivalenzklassen mit Ketten überein.
Eine Majorante bezüglich der Teilmenge X ∈ P(X) ist ein Element x ∈ X, für das gilt x′ ≤ x,
∀ x′ ∈ X.
Das Supremum einer Teilmenge X ∈ P(X) ist eine Majorante x+ ∈ X, für die gilt x+ ≤ x für
alle Majoranten x von X. x+ = sup X.
x+ = sup X ⇐⇒ (∀ x ∈ X : x ≤ x+ ) und (∀ x ∈ X : x ≤ x′ =⇒ x+ ≤ x′ )
In einem geordneten Raum (im Gegensatz zum teilgeordneten) ist das Supremum einer Teilmenge eindeutig, falls es existiert. ◮Es sei x1 = sup X und x2 = sup X. Dann gilt nach Definition
für alle x ∈ X: x ≤ x1 und x ≤ x2 . Betrachtet man x1 als Supremum und x2 als x′ in der
Definition, muß also x1 ≤ x2 gelten. Im umgekehrten Fall x2 ≤ x1 . Da der Raum geordnet ist,
folgt x1 = x2 . ◭
Analog werden Minorante und Infimum definiert, wobei das Infimum im geordneten Raum
eindeutig bestimmt ist (falls es existiert).
Die fehlende Eindeutigkeit des Infimum und Supremum machen den teilgeordenten Raum uninteressant.
70
5 DER BEOBACHTUNGSRAUM C(Z)
5.3.2
Boolesche Algebren und Boolesche Ringe
Eine Boolesche Algebra B = (X, ∨, ∧,′ , 00, 1) ist eine nichtleere Menge mit zwei binären und
einer unitären Operation und zwei neutralen Elementen, die gewissen Axiomen genügen. Es ist
sinnvoll, sich parallel dazu die Mengenoperationen als Beispiel vorzustellen. Ist Z eine Menge,
dann bildet die Potenzmenge mit den bekannten Mengenoperationen eine Boolesche Algebra:
B(2Z , ∪, ∩,′ , ∅, Z). Hier ist A′ = Z \ A das Komplement. Die Operationen werden deshalb auch
Vereinigung, Durchschnitt, Komplement genannt.
Es sollen folgende Axiome gelten:
•
•
•
•
Kommutativität: x ∧ y = y ∧ x, x ∨ y = y ∨ x
Neutralität: x ∨ 00 = x, x ∧ 1 = x
Distributivität: x ∨ (y ∧ z) = (x ∨ y) ∧ (x ∨ z), x ∧ (y ∨ z) = (x ∧ y) ∨ (x ∧ z)
Komplement: x ∨ x′ = 1, x ∧ x′ = 00
Dieses Axiomensystem ist selbstdual. Die Axiome gehen ineienadnre über, wenn man ∨ ⇐⇒ ∧
und 1 ⇐⇒ 00 vertauscht. Aus diesem Grund gibt es auch immer ein Paar Sätze, von denen man
nur einen zu beweisen braucht.
Aus diesen Axiomen folgen weitere Eigenschaften:
• Assoziativität: x ∨ (y ∨ z) = (x ∨ y) ∨ z, x ∧ (y ∧ z) = (x ∧ y) ∧ z
• Absorptionsgesetze: x ∨ (x ∧ y) = x, x ∧ (x ∨ y) = x
Ein Ring R = (X, +, ·, 1) heißt Boolescher Ring, wenn er eine 1 enthält und wenn x2 = x für
alle x ∈ X gilt.
Die Definitionen von Booleschen Algebren und Booleschen Ringe erscheinen auf den ersten
Blck nichts miteinander zu tun zu haben. Tatsächlich besteht zwischen beiden Klassen einen
Bijektion, die durch folgende Zusammenhänge vermittelt wird:
Angenommen, wir haben eine Boolesche Algebra gegeben, dann können wir die Operationen in
einem Booleschen Ring folgendermaßen definieren:
x + y := (x ∧ y ′) ∨ (x′ ∧ y)
x · y := x ∧ y
(15)
(16)
Angenommen, wir haben einen Booleschen Ring gegeben, dann können wir die Operationen in
einer Booleschen Algebra folgendermaßen definieren:
x∧y
x∨y
x′
00
:=
:=
:=
:=
x·y
x + y+x · y
1+x
1′
(17)
(18)
(19)
(20)
ÜA 9a: Beweise, daß durch (15)–(16) ein Boolescher Ring definiert wird.
ÜA 9b: Beweise, daß durch (17)–(20) eine Boolesche Algebra definiert wird.
ÜA 9c: Beweise, daß durch (17)–(20), wenn man + durch − ersetzt, eine Boolesche Algebra
definiert wird.
Ein – neben der Potenzfunktion und den Mengenoperationen – weiteres Beispiel für eine Boolesche Algebra könnte C(Z) sein, wenn man ∧ = inf und ∨ = sup setzt. Dann ist 00 = −∞ und
1 = +∞. Allerdings gibt es kein Komplement. Es gibt kein g ′ mit sup(g, g ′) = +∞.
5.3 Mathematische Grundlagen: Verbände, Rieszräume
5.3.3
71
Verbände
In einer linear geordnete Menge umfaßt die Ordnungsrelation alle Elemente der Menge. Eine
(Teil-)Ordnungsrelation kann man für eine beliebige Teilmenge einer Menge definieren. Oft
ist es aber sinnvoll, wenn die Menge eine gewisse Mindestgröße hat und z.B. ausreichend viele
Suprema und Infima enthält. Zu diesem Zweck kann man in Mengen algebraische Operationenen
definieren bezüglich derer die Menge abgeschlossen ist und die mit der Ordnungsrelation im
Zusammenhang steht. Eine solche Struktur ist eine Verbandsstruktur.
Ein Verband V (es sei x, y, z ∈ V) ist eine Menge mit zwei Operationen ∨ und ∧, die kommutativ
x ∧ y = y ∧ x, x ∨ y = y ∨ x
und assoziativ
x ∧ (y ∧ z) = (x ∧ y) ∧ z, x ∨ (y ∨ z) = (x ∨ y) ∨ z
sind und außerdem noch sogenannte Absorptionsgesetze
• x ∨ (x ∧ y) = x
• x ∧ (x ∨ y) = x
erfüllen.
Der Zusammenhang mit einer Halbordnung ist folgender:
x ≤ y ⇐⇒ x ∧ y = x ⇐⇒ x ∨ y = y
Das ist so zu verstehen:
Falls eine Verbandsstruktur definiert ist, definieren wir x ≤ y falls x ∧ y = x gilt (der Ausdruck
x ∨ y = y folgt aus den Absorptionsgesetzen).
Falls eine Ordnungsstruktur definiert ist, definieren wir x ∨ y = sup{x, y}, x ∧ y = inf{x, y}.
Es läßt sich leicht nachprüfen, daß die geforderten Gesetze erfüllt sind.
ÜA 10: Beweise diesen Zusammenhang.
Eine geordnete Menge ist somit ein Verband, wenn eine zweielementige Menge (und damit folgt
induktiv die Eigenschaft für beliebige endliche Mengen) ein Supremum und ein Infimum hat.
In diesem Sinn ist die Ordnungsrelation in einem Verband abgeschlossen.
Wir interessieren uns im weiteren vor allem für Räume von Funktionen in die reellen Zahlen,
bei denen die Ordnungsstruktur die von den reellen Zahlen induzierte punktweise Ordnung ist.
sup und inf sind dann die punktweisen Extrema.
Zusätzlich kann man Distributivgesetze fordern
x ∨ (y ∧ z) = (x ∨ y) ∧ (x ∨ z)
x ∧ (y ∨ z) = (x ∧ y) ∨ (x ∧ z)
dann heißt der Verband distributiver Verband. Wir werden im weiteren stets distributive
Verbände betrachten.
Eigenschaften:
• Es gilt (Idempotenz) x ∧ x = x, x ∨ x = x.
• Falls es ein kleinstes Element in der Menge gibt (genannt 00), dann ist es bezüglich ∨
neutral. Es gilt x ∨ 00 = x und x ∧ 00 = 00.
72
5 DER BEOBACHTUNGSRAUM C(Z)
• Falls es ein größtes Element in der Menge gibt (genannt 1), dann ist es bezüglich ∧
neutral. Es gilt x ∧ 1 = x und x ∨ 1 = 1.
• Ein Element x heißt Komplement zu x, falls x∨x = 1 und x∧x = 00. Das Komplement muß
nicht einzig sein. Ein Verband heißt beschränkt, falls es zu jedem Element ein Komplement
gibt.
• In einem beschränkte, distributiven Verband ist das Komplement einzig.
Manchmal ist des sinnvoll, neutrale Elemente künstlich einzuführen, obwohl sie eigenlich nicht
zur Menge gehören und mit den anderen Strukturen in der Menge nicht verträglich sind. Wir
nennen solche Elemente −∞ (das kleinste Element) und +∞ (das größte Element).
Es kann sein, daß in einem Verband eine weitere Operation ⊕ definiert ist, die mit den Verbandsoperationen in folgendem Zusammenhang steht
(x ∨ y) ⊕ (x ∧ y) = x ⊕ y = (x ∨ 00) ⊕ (y ∧ 1)
(21)
Dieser Zusammenhang heißt Satz von Sylvester oder Inklusions-Exklusions-Prinzip oder Siebverfahren. In der folgenden Tabelle sind einige Beispiele aufgeführt. Sie zeigen außerdem alle
interessanten Objekte in speziellen Verbänden.
Verband (x ∨ y) ⊕ (x ∧ y)
Menge
(A ∪ B) ⊔ (A ∩ B)
N>0
[x, y]
·
(x, y)
C
sup(x, y) + inf(x, y)
=
=
=
=
x⊕y
A⊔B
x · y
x+y
=
(x ∨ 00)
⊕
(y ∧ 1)
=
(A ∪ ∅)
⊔
(B ∩ Z)
=
[x, 1]
·
(y, 0)
= sup(x, −∞) + inf(y, +∞)
Das Symbol ⊔ bedeutet die “disjunkte Vereinigung”. Sie entspricht der üblichen Vereinigung,
falls die Mengen disjukt sind und erzeugt Kopien der Elemente, die in beiden Mengen vertreten
sind. So ist {x, y} ⊔ {x, z} = {x1 , x2 , y, z}. Die disjunkte Vereinigung wird verwendet, wenn
spezielle Operationen, wie z.B. die Kardinalität oder das Maß additiv sein sollen. Es ist |A∪B| ≤
|A| + |B| aber |A ⊔ B| = |A| + |B|. Als Gesamtmenge ist dann anstelle von Z die Menge N · Z.
Formel (21) läßt sich auf endlich viele Objekte verallgemeinern und hat im Falle dreier Objekte
die Form
(x ∨ y ∨ z) ⊕ (x ∧ y) ⊕ (y ∧ z) ⊕ (z ∧ x) = x ⊕ y ⊕ z ⊕ (x ∧ y ∧ z)
Analog gibt es eine Variante für n Objekte (geschrieben für Mengenoperationen):
n
n
n
n
n
\
X
[
X
X
n+1 A
A
=
|A
|
−
|A
∩
A
|
+
|A
∩
A
∩
A
|
−
+...(−1)
i
i
i
i
j
i
j
k
i=1
i=1
i<j
i<j<k
i=1
ÜA 11: Die Euler-ϕ-Funktion gibt für jede natürliche Zahl n an, wie viele zu n teilerfremde
natürliche Zahlen es gibt, die nicht größer als n sind.
ϕ(n) := {a ∈ N | 1 ≤ a ≤ n ∧ ggT(a, n) = 1}
Beweise:
ϕ(n) =
Y
p|n
p
kp −1
(p − 1) = n
Y
p|n
1
1−
p
5.3 Mathematische Grundlagen: Verbände, Rieszräume
5.3.4
73
Riesz-Räume
Ein linearer Raum mit Ordnungsstruktur, der auch ein Verband ist (d.h. sup und inf zweier
Elemente müssen im Raum liegen) heißt Riesz-Raum, wenn folgende Verträglichkeitsbedingungen gelten:
• Für alle f, g, h ∈ X gilt: f ≤ g ⇒ f + h ≤ g + h
• Für alle f, g ∈ X und a ∈ R+ gilt: f ≤ g ⇒ a · f ≤ a · g
In einem Riesz-Raum kann man positiven Teil, negativen Teil und den Betrag eines Elementes
definieren:
• x+ = x ∨ 0
• x− = (−x) ∨ 0 = −(x ∧ 0)
• |x| = x+ + x− = x ∨ (−x)
Für x, y, z ∈ X und α ∈ R gelten folgende Rechenregeln:
•
•
•
•
•
•
•
•
•
•
•
•
•
(x + z) ∨ (y + z) = (x ∨ y) + z
(x + z) ∧ (y + z) = (x ∧ y) + z
(αx) ∨ (αy) = a(x ∨ y)
(αx) ∧ (αy) = α(x ∧ y)
(−x) ∨ (−y) = −(x ∧ y)
(−x) ∧ (−y) = −(x ∨ y)
x ∨ y = 21 (x + y + |x − y|)
x ∧ y = 21 (x + y − |x − y|)
(x ∨ y) + (x ∧ y) = x + y
(x ∨ y) − (x ∧ y) = |x − y|
(x ∨ y) ∧ z = (x ∧ z) ∨ (y ∧ z)
(x ∧ y) ∨ z = (x ∨ z) ∧ (y ∨ z)
x = x ∧ y + 0 ∨ (x − y)
ÜA 12: Beweise die (nichtoffensichtlichen) Rechengesetze.
Die Menge X+ = {x ∈ X|x ≥ 0} heißt positiver Kegel.
Man kann – umgekehrt – eine Ordnung mithilfe eines Kegels definieren: Ein Kegel C ⊂ X ist
eine Teilmenge eines lin. Raumes, die neben x auch alle λx mit λ ≥ 0 enthält. Es ist f ≥ g falls
f − g ∈ C.
5.3.5
Normierte Riesz-Räume. Banachverbände
Ist der Riesz-Raum ein normierter Raum und die Norm erfüllt die Verträglichkeitsbedingung
|x| ≤ |y| =⇒ kxk ≤ kyk
so heißt die Norm Riesznorm. Hieraus folgt, daß Elemente mit selbem Betrag – insbsondere
x und |x| – dieselbe Norm haben.
ÜA 13: Beweise folgende Ungleichungen:
kx ∧ z − y ∧ zk ≤ kx − yk
kx ∨ z − y ∨ zk ≤ kx − yk
Ein Riesz-Raum mit Riesznorm, der vollständig ist, heißt Banach-Verband.
74
5 DER BEOBACHTUNGSRAUM C(Z)
5.3.6
AM- und AL-Räume
Üblicherweise wird bei der Definition der Norm in Funktionenräumen (z.B. der sup-Norm in
C) explizit verwendet, daß die Elemente Funktionen sind. Riesz-Räume sind abstrakte lineare
Räume, deren Elemente nicht Funktionen auf einer Menge sein müssen. Trotzdem lassen sie
sich häufig normieren. Sinnvoll ist es natürlich, wenn die Norm mit der Ordnung in Einklang
steht. Das erreicht man, wenn man die Norm mit Hilfe der Ordnung definiert. So eine Norm
heißt Ordnungsnorm.
In Rieszräumen gibt es dazu zwei ganz besondere Normen.
Ein positives Element 1 ∈ V+ heißt Einheit (oder Einheit bezüglich der Ordnung oder Ordnungseinheit um sie von einer algebraischen Einheit zu unterscheiden), wenn für alle f ∈ V ein
λ ∈ R+ mit −λ1 ≤ f ≤ λ1 existiert. Sind die Elemente von V Funktionen und ist V+ der Kegel
der positiven Funktionen, dann kann jede Funktion, die keine Nullstelle hat, eine Einheit sein.
Mit Hilfe der Einheit kann man Extrema und Norm (genannt Riesz-Norm) definieren. Es seien
gmax = inf{λ : λ1 ≥ g}
gmin = sup{λ : λ1 ≤ g}
die obere und untere Grenze von g und
kgk = inf{λ : λ1 ≥ |g|} = inf{λ : −λ1 ≤ g ≤ λ1}
die Norm. (Es läßt sich leicht zeigen, daß das tatsächlich eine Norm ist.)
Es gelten folgende Eigenschaften:
• k 1k = 1
• Aus der Norm-Konvergenz folgt die Ordnungs-Konvergenz
• Die folgende Eigenschaft verbindet die Norm mit der Ordnung:
ka − bk ≤ ε ⇐⇒ b − ε1 ≤ a ≤ b + ε1
Die Norm hat eine besondeer Eigenschaft. Sie läßt sich mit dem Supremum vertauschen:
ka ∨ bk = max{kak, kbk}, a, b ∈ V+
Das ist auch die Definition eines AM-Raumes (ein normierter Riesz-Raum mit dieser Eigenschaft heißt AM-Raum).
Es gibt eine weitere ausgezeichnete Norm in Rieszräumen. Ein normierter Riesz-Raum, dessen
Norm sich mit der Addition vertauschen läßt
ka + bk = kak + kbk, a, b ∈ V+
heißt AL-Raum. Es wird sich herausstellen, daß AM- und AL-Räume in einem besonderen
Verhältnis zueinander stehen.
5.4 C(Z) ist Banachverband
5.4
75
C(Z) ist Banachverband
Wir zeigen im Weiteren, daß C(Z) ist Banachverband ist und daß die übliche sup-Norm und die
Ordnungsnorm inihm identisch sind, wenn als Ordnungseinheit die algebraische Einheit gewählt
wird.
• Definition der Ordnung: f ≤ g ⇐⇒ f (z) ≤ g(z), z ∈ Z
• Der positive Kegel C+ sind die positiven Funktionen.
• Definition der Verbandsoperationen:
(f ∨ g)(z) = max{f (z), g(z)}, (f ∧ g)(z) = min{f (z), g(z)}
• Da f ∨ g und f ∧ g stetige Funktionen sind, ist C(Z) ein Riesz-Raum.
• Wie üblich definieren wir g+ = sup{g, 0}, g− = sup{−g, 0}, |g| = g+ + g− .
• Wegen |f | ≤ |g| =⇒ kf k ≤ kgk ist C(Z) Banachverband.
• Da alle stetigen Funktionen beschränkt sind, kann man 1 (die algebraische Einheit) als
Ordnungseinheit wählen. Es ist
gmax = inf{λ : λ1 ≥ g}
gmin = sup{λ : λ1 ≤ g}
• Es sei kgks die Supremumsnorm und kgko die Ordnungsnorm. Es gilt kgks = kgko.
ÜA 14: Beweise das.
77
6
Der Raum der statistischen Zustände P(Z)
Der Raum C∗ ist der abstrakte Raum der beschränkten linearen Funktionale auf C. Als dualer
Raum eines Banachverbandes ist C∗ wieder ein Banachverband mit der kanonischen Norm
und Ordnung. Nach dem Satz von Riesz ist C∗ imomorph zum Raum der Radonmaße auf der
Borelalgebra B(Z), die von den offenen Mengen in Z generiert wird.
6.1
Mathematische Grundlagen: Lineare Dualitätstheorie
Es sei (X, ≤) ein Banachverband mit Eins 1 der Ordnunsnorm k · k bezüglich derer (X, ≤) ein
AM-Raum ist. Wir untersuchen hier die Eigenschaften seines dualen Raumes.
6.1.1
Duale Räume
Es sei
X∗ =
n
o
x∗ : X −
→ R x∗ (ax + by) = ax∗ (x) + bx∗ (y), sup |x∗ (x)| < ∞, ∀x ∈ X
kxk≤1
die Menge aller beschränkten linearen Funktionale auf X. Die x∗ sind als lineare bschränkte
Abbildungen zwischen topologischen Räumen stetig.
Wir schreiben im weiteren x∗ (x) = hx∗ , xi = hx, x∗ i und nennen das duale Paarung oder duales
Produkt.
• Lineare beschränkte Funktionale sind stetige Abbildungen. (Zum Beweis siehe Stetigkeit
linearer beschränkter Operatoren).
• X∗ wird durch die Norm: kx∗ kX∗ = supkxk≤1 |hx∗ , xi| ein normierter Raum.
• X∗ ist ein Banachraum. Beweis der Vollständigkeit: Es sei (x∗n ) eine Cauchyfolge, d.h.,
für alle ε existieren n, m ≥ N(ε) mit kx∗n − x∗m k < ε. Aus
|hx, x∗n i − hx, x∗m i| = |hx, x∗n − x∗m i| ≤ kx∗n − x∗m k · kxk ≤ εkxk
folgt, daß die Folge (hx, x∗n i) eine Cauchyfolge reeller Zahlen ist. Da R vollständig ist,
existiert ein Grenzwert h(x) = lim hx, x∗n i. h(x) ist ein lineares beschränktes Funktional.
n→∞
Es existiert also ein x∗ mit h(x) = hx, x∗ i. Läßt man in der obigen Ungleichung m −
→∞
gehen, folgt
|hx, x∗n i − hx, x∗ i| = |hx, x∗n − x∗ i| ≤ εkxk
Betrachtet man nur x mit kxk = 1, erhält man
kx∗n − x∗ k = sup |hx∗n − x∗ , xi| ≤ ε
kxk≤1
• Es gilt die Hölderungleichung: |hx∗ , xi| ≤ kx∗ k · kxk
• Es gilt kxk = supkx∗ k≤1 |hx∗ , xi|. Die Ungleichung ≥ folgt aus der Hölderungleichung. Die
Existenz eines scharfen x∗ folgt aus dem Satz von Hahn-Banach. Im separablen Raum
(z.B. wenn X = C(Z) mit kompaktem, metrisierbarem Z) ist der Beweis des Satz von
Hahn-Banach ohne Auswahlaxiom möglich. In diesem Fall kann man ein scharfes x∗ konstruieren. Es ist z.B. x∗ ?δz , wobei z der Punkt ist, indem das Maximum angenommen
wird.
78
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
6.1.2
Die duale Ordnung
Ist X ein Verband mit Ordnungsrelation und positivem Kegel X+ , wird auch in X∗ eine Ordnungsrelation durch
x∗ ≤ y ∗ ⇐⇒ hx, x∗ i ≤ hx, y ∗ i, ∀x ∈ X+
induziert. Das entspricht der Definition der Positivität: Eine lineare Abbildung ist positiv, wenn
sie auf positiven Argumenten positive Werte annimmt:
x∗ ≥ 0 ⇐⇒ hx, x∗ i ≥ 0, ∀x ∈ X+
In C wurde die Ordnung punktweise definiert. Das ist in einem linearen Raum nicht sinnvoll,
da hx, x∗ i und −hx, x∗ i verschiedene Vorzeichen haben.
Satz: Es ist x∗ ≤ y ∗ ⇐⇒ hx, x∗ i ≤ hx, y ∗i, ∀x ∈ C[0,1] .
Beweis: Die =⇒ Richtung ist offensichtlich. Zum Beweis der Umkehrung nehmen wir an, daß
x∗ ≤ y ∗, es aber ein x ∈ C+ existiert, sodaß hx, x∗ i > hx, y ∗i. Dann ist aber auch hx/xmin , x∗ i >
hx/xmin , y ∗i aber x/xmin ∈ C[0,1] .
Für positive Elemente x∗ ∈ X∗+ läßt sich die Norm vereinfacht berechnen, wenn X ein AM-Raum
ist:
kx∗ k =
sup |hx, x∗ i| = sup hx, x∗ i =
kxk≤1
x∈C[0,1]
sup
kxk≤1,x∈X+
hx, x∗ i = h1, x∗ i
Beweis: Der Beweis folgt aus der Ungleichungskette
|hx∗ , xi| = |hx∗ , x+ i − hx∗ , x− i| ≤ |hx∗ , x+ i| + |hx∗ , x− i| = hx∗ , x+ i + hx∗ , x− i = hx∗ , |x|i
Hieraus folgt
kx∗ k =
sup |hx, x∗ i| ≤ sup |h|x|, x∗ i| = sup h|x|, x∗ i ≤ h1, x∗ i
kxk≤1
kxk≤1
kxk≤1
weil im AM-Raum |x| ≤ 1. Andererseits ist 1 in der ursprünglichen Menge, über der das
Supremum gebildet wird enthalten. Folglich gilt Gleichheit.
Hieraus folgt für x∗ , y ∗ ∈ X∗+ die Beziehung kx∗ + y ∗k = h1, x∗ + y ∗ i = h1, x∗ i + h1, y ∗i =
kx∗ k + ky ∗k. X∗ ist also ein AL-Raum.
Ein alternativer Beweis, der nicht die Existenz einer 1 voraussetzt, ist folgender
Satz: Ist X ein AM-Raum, dann ist X∗ ein AL-Raum.
Beweis: Wir zeigen, daß für alle ε > 0 und alle x∗ , y ∗ ∈ X∗+ gilt: kx∗ + y ∗ k ≥ kx∗ k + ky ∗ k − 2ε.
Aus der Definition der Norm in X∗ über das Supremum folgt, daß es für alle ε > 0 solche
x, y ∈ X mit kxk = kyk = 1 gibt, daß hx, x∗ i ≥ kx∗ k − ε und hy, y ∗i ≥ ky ∗ k − ε. Es sei z = x ∨ y.
Dann ist kzk = kx ∨ yk = max{kxk, kyk} = 1
kx∗ + y ∗k ≥ hz, x∗ + y ∗ i = hz, x∗ i + hz, y ∗ i ≥ hx, x∗ i + hy, y ∗i ≥ kx∗ k + ky ∗k − 2ε
Wegen hx, x∗ i = hx+ , x∗ i − hx− , x∗ i reicht für die Definition eines Funktionals x∗ ∈ X∗ seine
Definition auf positiven Elementen x ∈ X+ .
6.1 Mathematische Grundlagen: Lineare Dualitätstheorie
79
Weiter läßt sich beweisen, daß X∗ ein Banachverband ist, wenn man sup und inf folgendermaßen
definiert. Für x ∈ X+ sei
hx1 ∨ x2 , xi =
sup
hx1 , xi + hx2 , xi
x1 ,x2 ≥0,x1 +x2 =x
hx1 ∧ x2 , xi =
inf
hx1 , xi + hx2 , xi
x1 ,x2 ≥0,x1 +x2 =x
Das ist für uns nicht wichtig, da wir uns nur für eine Teilmenge von X∗ interesieren werden, die
nicht abgeschlossen bezüglich dieser Operationen ist.
6.1.3
Der Rieszsche Darstellungssatz
Oft ist es interessant und wichtigg, zu einem konkreten Raum X den dualen Raum X∗ zu
beschreiben und eine konkrete Darstellung für die duale Paarung zu besitzen, mit der man
“rechnen” kann.
Da wir uns nur für Räume der Form C(Z) mit kompaktem Z interessieren, wäre interessant,
eine Darstellung von C∗ (Z) zu finden. Tatsächlich gibt der Darstellungssatz von Riesz dazu eine
erschöpfende Antwort und zeigt einen Zusammenhang zwischen Maßen auf Z und Funktionalen auf C(Z), der intuitiv verständlich macht, daß Elemente aus C∗ (Z) als extensive Größen
aufgefaßt werden können.
Ausführliche Beschreibung siehe Abschnitt 6.6 auf Seite 93.
80
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
6.1.4
Die positive Einheitskugel
Im AM-Raum ist die positive Einheitskugel von Interesse. Im AL-Raum die sogenannte Base:
o
n
P = x∗ ∈ X∗+ | h1, x∗ i = 1
Diese Menge ist offensichtlich konvex und abgeschlossen.
Außerdem ist es sinnvoll, die Menge der mittelnden Funktionale zu definieren. Es sei das
n
o
P1 = x∗ ∈ X∗ | xmin ≤ hx, x∗ i ≤ xmax , x ∈ X
In P1 liegen alle die Funktionale, die – gepaart mit beliebigen Elementen aus X (nicht nur
positiven!) – Werte aus dem Wertebereich ergeben. Diese Menge kann man als physikalisch
real interpretieren. Das Ergebnis einer Beobachtung kann nicht außerhalb des Wertebereiches
liegen.
Es gilt folgender einfacher, aber wichtiger
Satz: P = P1 .
Beweis: 1) Es sei x∗ ∈ P1 . Wir setzen x = 1 und erhalten wegen 1min = 1max = 1: h1, x∗ i = 1.
Für alle x ≥ 0 ist xmin = sup{λ|x ≥ λ1} ≥ 0 (da in dieser Menge λ = 0 offensichtlich enthalten
ist) und damit hx, x∗ i ≥ 0. Also ist x∗ ∈ X∗+ und damit ist x∗ ∈ P.
2) Es sei x∗ ∈ P. Für alle x ∈ X ist x ≥ xmin 1. Damit folgt weil x∗ ∈ X∗+
0 ≤ hx − xmin 1, x∗ i = hx, x∗ i − hxmin 1, x∗ i = hx, x∗ i − xmin h1, x∗ i = hx, x∗ i − xmin
Hieraus folgt xmin ≤ hx, x∗ i. Die Ungleichung hx, x∗ i ≤ xmax beweist man analog mit dem
Element xmax 1 − x ∈ X∗+ .
Weiter sei Pe = ∂e P die Menge der extremalen Elemente von P.
Als nächstes muß geklärt werden, was Pe mit Z zu tun hat und in welchem Sinn (und ob
überhaupt) P die konvexe Hülle von Pe ist. Ziel war es, Sätze zu erhalten, die etwa folgendes
aussagen:
Pe = Z
P = conv extr P = conv Pe
Da Z als kompakt vorausgesetzt war, sollte Pe oder besser P kompakt sein. In diesem Zusammenhnag gibt es zwei wichtige Sätze:
Satz: Die Einheitskugel im Banachraum ist genau dann kompakt, wenn der Raum endlichdimensional ist.
Bemerkung: Diese Aussage gilt nicht nur für die Einheitskugel sondern auch für den Schnitt
der Einheitssphäre mit dem positiven Kegel, also für P.
Satz (Krein-Milman): Es sei K kompakt und konvex. Dann ist K = conv extr K .
Der Satz von Krein-Milman liefert genau die Aussage, die wir für P gern hätten (der Abschluß
der konvexen Hülle ist in derselben Topologie zu wählen, in der K kompakt ist!). Der vorhergehende Satz sagt aber, daß die starke Topologie dafür ungeeignet ist. Wir müssen also eine
Topologie für P finden, in der P kompakt ist.
81
6.2 Beispiel: endlich dimensionale Räume
6.2
Beispiel: endlich dimensionale Räume
Wir stellen hier ein paar Aussagen über verschiedene Normen in endlich dimensionalen Räumen
vor. Sie dienen vor allem einem besseren Verständnis des Zusammenhangs der fundamentalen
Räume C und C∗ mit AM- bzw. AL-Normen und von C abgeleitenen Räumen wie Lp -Räumen
und Hilberträumen.
Analoge Aussagen gelten für Folgenräume und andere unendlichdimensionalen Räume.
6.2.1
Ungleichungen zwischen Mitteln
Es seien x = (x1 , ..., xn ) ≥ 0, α = (α1 , ..., αn ) ≥ 0, α1 + ... + αn = 1 gegebene Vektoren im Rn
(zu verstehen als linearer Raum ohne festgelegte Norm). Weiter sei f : R+ −
→ R+ stetig, streng
monoton wachsend mit f (0) = 0.
Wir definieren drei Funktionen
St (x) =
Xn
xti
i=1
Xn
Mf (x, α) = f −1
Xn
Mt (x, α) =
i=1
1t
, t>0
αi f (xi )
i=1
1
t t
αi xi
, t>0
Offensichtlich ist Mt = Mf für f (x) = xt .
Mt und St lassen sich auf t < 0 für strikt positive Vektoren verallgemeinern (es sei 1/x =
(1/x1 , ..., 1/xn ):
St (x) = 1/S−t (1/x) , Mt (x, α) = 1/M−t (1/x, α) , t < 0
Die definierten Funktionen haben folgende Eigenschaften
• ∃! x∗ : Mf (x) = x∗ , d.h. f (x∗ ) =
P
αi f (xi ),
P
αi f (xi ) − f (x∗ ) = 0.
• Mf (λx) = λMf (x) =⇒ Mf = Mt .
• Mf (x) ≤ Mg (x) ⇐⇒ F = g ◦ f −1 ist konvex, d.h. g ist konvex bezüglich f .
• min x ≤ Ms (x) ≤ Mt (x) ≤ max x ⇐⇒ s ≤ t
• Spezialfälle: M1 = AM, M2 = QM, M−1 = HM, M0 = GM, M−∞ = min, M∞ = max
• min x ≥ Ss (x) ≥ St (x) ⇐⇒ s ≤ t ≤ 0
• Ss (x) ≥ St (x) ≥ max x ⇐⇒ 0 ≤ s ≤ t
Des weiteren
Pm hat St folgende Konvexitätseigenschaften (hier sind die ti gegebene reelle Zahlen
mit t0 = i=1 αi ti ):
Q
αi ti
• t log St (x) ist konvex in t =⇒ St0 ≤ m
i=1 Sti
Q
αi
• log St (x) ist konvex in t =⇒ St0 ≤ m
i=1 Sti
P
• St (x) ist konvex für t > 0 =⇒ St0 ≤ m
i=1 αi Sti
82
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
Ausgehend von diesen Funktionen lassen sich Normen im Rn definieren:
kxkc
kxkc∗
kxklp
kxklp (α)
=
=
=
=
S∞ (|x|)
S1 (|x|)
Sp (|x|) , 1 < p < ∞
Mp (|x|, α) , 1 ≤ p < ∞
Alle diese Normen machen aus Rn einen normierten Raum. Da er endlichdimensional ist, sind
alle Normen äquivalent und damit alle normierten Räume isomorph aber eben nicht isometrisch.
6.2.2
Einige Übungsaufgaben
Außerdem seien ∞ ≥ p, q ≥ 1 reelle Zahlen mit 1/p + 1/q = 1 (wir setzen 1/∞ = 0). In diesem
Zusammenhang stehen folgende Aufgaben:
ÜA 15 a) Beweise d/dt St (x) ≤ 0, t > 0 und t < 0
ÜA 15 b) Berechne limt→+0 St (x), limt→−0 St (x), limt→∞ St (x), limt→−∞ St (x) (falls existent).
ÜA 15 c) Beweise Mt (x, α) ist stetig differenzierbar in t (x und α fixiert und gutartig)
ÜA 15 d) Beweise d/dt Mt (x, α) ≤ 0
ÜA 15 e) Berechne limt→0 Mt (x, α), limt→∞ Mt (x, α), limt→−∞ Mt (x, α)
ÜA 15 f) Beweise: lp∗ = lq (im Sinne von Isometrie).
ÜA 15 g) Beweise: lp∗ (α) = lq (α), p > 1 (im Sinne von Isometrie).
ÜA 15 h) Beweise: l1∗ (α) = c, (c)∗ = c∗ (im Sinne von Isometrie).
∗
(α) sein?
ÜA 15 i) Wie ist l∞ (α) zu verstehen, was könnte l∞
ÜA 15 j) Zeichne die Einheitssphäre, d.h. die Menge {x | kxk = 1} im R2 für alle definierten
Normen (in einer Zeichung!).
Wie hängt die Zeichnung mit den Monotonieeigenschaften 15a) und 15d) zusammen?
6.2.3
Lösungen der Übungsaufgaben
p→∞
• Mn (x, α, p) −
→ maxn xn
Beweis (für n = 2): Es sei x ≥ y. Wir betrachten log Mn (x, α, p). Dann ist nach l’Hopital
log(αxp + βy p )
αxp log x + βy p log y
= lim
=
p→∞
p→∞
p
αxp + βy p
p
α log x + β xy log y
α log x
p
= log x
=
= lim
y
p→∞
α
αβ x
lim log Mn (x, α, p) =
p→∞
lim
• Berechnung der Norm in R∗n :
n
n
n
X
X
X
∗
∗ ∗
∗
|xi ||xi | ≤
|x∗i |
xi xi ≤ sup
kx k = sup |hx , xi| = sup kxk=1
kxk=1
kxk=1 i=1
i=1
Andererseits existiert ein scharfes x, nämlich xi = xi · sign xi
i=1
83
6.2 Beispiel: endlich dimensionale Räume
1
• Falls x+ = max{x1 , ..., xn }, gilt für t > 0: α+t ≤ Mt (x, α) ≤ x+
• Monotonie (Berechnung von
t2 xt1 + ... + xtn
d
dt
log S(t))
Ṡt (x)
=
St (x)
−
xt1 log(xt1 ) + ... + xtn log(xtn ) −
xt1 + ... + xtn log xt1 + ... + xtn =
xt1
xtn
t
log
= xt1 log t
+
...
+
x
≤0
n
x1 + ... + xtn
xt1 + ... + xtn
weil das Argument unter dem log kleiner als 1 ist. (Hier und im nächsten Punkt wird
t log x = log xt benutzt.)
• Monotonie (Berechnung von
t2 α1 xt1 + ... + αn xtn
d
dt
log M(t))
Ṁt (x, α)
=
Mt (x, α)
−
α1 xt1 log(xt1 ) + ... + αn xtn log(xtn ) −
α1 xt1 + ... + αn xtn log α1 xt1 + ... + αn xtn ≥ 0
Die Positivität folgt aus der Jensenschen Ungleichung für die konvexe Funktion F (x) =
x log x.
Im folgenden Bild sind die Funktionen St und Mt für xmax = 5 und xmin = 1 dargestellt.
10
8
St
6
max
4
Mt
2
min
St
-4
6.2.4
-2
2
4
6
t
Zusammenhänge von Normen und Unterräumen
Ist in einem linearen Raum Y eine Norm k·k gegeben, so kann es sein, daß nicht alle Elemente des
Raumes bezüglich dieser Norm beschränkt sind. Die Norm k · k definiert in Y einen Unterraum
X. Für x ∈ Y und x 6∈ X ist kxk = ∞.
Sind in Y zwei Normen gegeben, etwa k · k1 und k · k2 , so werden dadurch zwei Unterräume
X1 und X2 definiert. Sind beide Normen äquivalent, d.h., gibt es positive Konstanten c1 und
c2 mit kxk2 ≤ c1 kxk1 und kxk1 ≤ c2 kxk2 , so sind X1 = X2 . Gilt nur kxk1 ≤ kxk2 , so gilt
im allgemeinen nur die Inklusion X2 ⊂ X1 (es ist klar, daß ein Element, dessen Norm k · k2
84
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
beschränkt ist, in X2 liegt und erst recht auch in X1 . Umgekhert kann sein, daß zwar k · k1 aber
nicht k · k2 beschränkt ist.
3
Dieses Enthaltensein der Räume
mit verschiedenen Normen spiegelt sich im Enthaltensein der
Einheitskugeln wieder. Der Monotonie der Normen in den lt (α)und lt -Räumen entspricht dann
eine Schar ineinander enthaltender Einheitskugeln.
In der nebenstehenden Zeichnung
sind für einige Normen die Einheitssphären im R2 gezeichnet.
Es handelt sich um die Normen
von (von außen nach innen) l1 (α),
l4/3 (α), l2 (α), l4 (α), l∞ (α) = l∞ ,
l4 , l2 , l4/3 , l1 mit α = (1/3, 2/3)
2
1
0
-1
-2
-3
-3
6.2.5
-2
-1
0
1
2
3
Diskussion
• Die Monotonie von Mt beschreibt die bekannten Mittelungleichungen, wogegen die Monotonie von St “merkwürdige” Ungleichungen beschreibt: Im Fall n = 2 ist M
p2 ≥ M1 die bekannte Ungleichung zwischen quadratischem
und
arithmetischem
Mittel:
(x2 + y 2)/2 ≥
p
(x + y)/2 wogegen S2 ≤ S1 bedeutet: x2 + y 2 ≤ x + y.
• Die Ungleichung S∞ ≤ S1 suggeriert c∗ ⊂ c, was im allgemeinen natürlich Unsinn ist, ein
Raum kann seinen dualen nicht enthalten.
• Sinnvoll sind c und c∗ mit Normen.
• Was ist lp ?
• Es gibt Ungleichungen, die hängen mit Räumen zusammen.
• X∗ ⊂ X könnte mit X ⊂ X∗∗ zu X∗∗ ⊂ X∗ ⊂ X ⊂ X∗∗ führen.
• Die Hölderungleichung |hx, x∗ i| ≤ kxkkx∗ k ist sinnvoll. Eine Ungleichung der Form |hg, µi| ≤
kg p k1/p kµq k1/q mit g ∈ C und µ ∈ C∗ ist dagegen Unsinn, da Maße nicht potenziert werden
können.
• Mittel mit allgemeinen Funktionen f Orlisz-Räume
• Ausgehen von C können weitere Normen definiert werden, etwa die Norm in MarcinkiewiczRäumen:
kgkω = = sup µ(B)−ω h1B · |g|, µi
B∈B(Z)
85
6.3 Ein paar fundamentale Ungleichungen
6.3
6.3.1
Ein paar fundamentale Ungleichungen
Die Youngsche Ungleichung
Die Youngsche Ungleichung ist eine fundamentale Ungleichung, die zwei zueinander konvex
konjugierte Funktionen mit der dualen Paarung verbiny
det. Sind F : X −→ R und F ∗ : X∗ −→ R zwei solche
zueinander konvex konjugierter Funktionen, so gilt
y = ϕ(x)
hx, x∗ i ≤ F (x) + F ∗ (x∗ )
Die Gateuax-Ableitungen (Subdifferentiale) beider
Funktionen sind zueinander invers. Betrachtet man im
R die beiden zueinander inversen Funktionen y = xp−1
und x = y q−1 mit 1 = 1/p + 1/q, zu erhält man
b
F ∗ (b)
1
1
a · b ≤ ap + bq
p
q
F (a)
Siehe nebenstehendes Bild.
6.3.2
0
a
x
Die Hölderungleichung. Normen in Lp -Räumen
Abstrakt ist die Hölderungleichung hx, x∗ i ≤ kxk · kx∗ k eine Ungleichung zwischen der dualen
Paarung und den Normen in einem normierten linearen Raum und seinem dualen.
Die bekannte p, q-Hölderungleichung ist eigentlich eine Ungleichung für ein Pseudo-Skalarprodukt,
das in C mithilfe einer Norm definiert werden kann.
Im weiteren seien f, g ∈ C+ (Z), µ ∈ P(Z) und p, q ≥ 1, 1/p + 1/q = 1.
Wir betrachten folgende Aufgaben:
ÜA 16 a) Beweise die Hölderungleichung
hf · g, µi ≤ hf p , µi1/p · hg q , µi1/q
ÜA 16 b) Beweise die Minkowskiungleichung
h(f + g)p , µi1/p ≤ hf p , µi1/p + hg p, µi1/p
Diese Ungleichungen lassen sich einfach beweisen, ohne Benutzung der Darstellung der dualen Paarung als Lebesgueintegral nach dem Rieszschen Satz. Die Benutzung der Youngschen
Ungleichung setzt nur voraus, daß die Ordnungsrelation in C die punktweise Ordnung ist.
Lösungen:
• Die Hölderungleichung folgt aus der Youngschen Ungleichung für Potenzfunktionen:
1 p 1 q
a + b
p
q
p
f
g
1 f
1 gq
·
≤
+
kf kp kgkq
p kf kpp q kgkqq
1 hf p , µi 1 hg q , µi
1 1
1
hf · g, µi ≤
+ =1
p +
q =
kf kp · kgkq
p kf kp
q kgkq
p q
hf · g, µi ≤ kf kp · kgkq
a·b ≤
86
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
• Minkowskiungleichung folgt aus Hölderungleichung:
h(f + g)p , µi = h(f + g)(f + g)p−1, µihf (f + g)p−1, µi + hg(f + g)p−1, µi ≤
≤ hf p , µi1/p h(f + g)(p−1)q , µi1/q + hg p, µi1/p h(f + g)(p−1)q , µi1/q =
= hf p , µi1/p + hg p , µi1/p h(f + g)p , µi1/q
h(f + g)p , µi1/p ≤ hf p , µi1/p + hg p, µi1/p
Hier wurde benutzt: 1/p = 1 − 1/q und (p − 1)q = p.
Für die, denen der Beweis der Minkowski-Ungleichung mit Hilfe der Hölder-Ungleichung nicht
gefällt (woher wissen wir, daß wir neben p auch das q betrachten müssen), folgt hier ein Beweis
der Minkowski-Ungleichung mit Hilfe der Jensensche Ungleichung.
6.4 Der biduale Raum X∗∗
6.4
89
Der biduale Raum X∗∗
Völlig analog zur Definition von X∗ läßt sich der lineare Raum X∗∗ = (X∗ )∗ definieren. Er hat
folgende Eigenschaften
• X ⊂ X∗∗ .
• Falls X∗ ein AL-Raum ist, ist X∗∗ ein AM-Raum mit der Einheit 1∗∗ . Sie bestimmt sich
aus
h1∗∗ , x∗ i = kx∗+ k + kx∗− k
• Jedes x ∈ X induziert ein Jx ∈ X∗∗ : hx, x∗ i = hx∗ , Jxi. Aus kxk = supkx∗ k<1 |hx, x∗ i| folgt
kxk = sup |hx, x∗ i| = sup |hx∗ , Jxi| = kJxk∗∗
kx∗ k=1
kx∗ k=1
Hieraus folgt, daß die kanonische Einbettung J : X −
→ JX ein isometrischer Isomorphismus
ist.
• Ein linearer Raum, für den die kanonische Einbettung ein isometrischer Isomorphismus
zwischen X und X∗∗ ist, heißt reflexiv. Dann kann X∗∗ = X identifiziert werden. Dieser
Fall ist für uns nicht interessant.
6.4.1
Der Raum C∗∗ (Z)
Höhere Dualräume von Banachräumen sind immer schlechter zu beschreiben. Das trifft auch für
C∗∗ (Z) zu. Relativ einfach sind Teilmengen von C∗∗ (Z) zu beschreiben. In C∗∗ (Z) sind enthalten:
• Vage Grenzwerte von Folgen stetiger Funktionen (Satz von Goldstine).
• Die 1∗∗ in C∗∗ (Z) liegt in C(Z) und es ist 1∗∗ = 1.
• Charakteristische Funktionen von Borelmengen liegen in C∗∗ (Z).
Beweis: Setzt man vorraus, daß C∗ (Z) der Raum der Radonmaße und die duale Paarung
das Lebesgueintegral ist, dann gilt für Wahrscheinlichkeitsmaßee p
Z
Z
p(B) =
p(dz) = 1B (z)p(dz) = h1B , pi ≤ 1
B
Z
Die linke Seite ist der Wert des Wahrscheinlichkeitsmaßee p auf der Borelmenge B. Damit
ist also 1B für B ∈ B ein beschränktes Funktional auf P. Da sich jedes Maß µ ∈ C∗ (Z) als
µ = α1 p1 − α2 p2 mit geeigneten αi ∈ R+ und pi ∈ P darstellen läßt, ist 1B beschränktes
– und offensichtlich lineares – Funktional auf C∗ (Z).
• Damit ist die Menge aller endlicher linearer Kombinationen von charakteristische Funktionen von Borelmengen ein (nicht abgeschlossener) Unterraum in C∗∗ (Z)
• Die Elemente von C∗∗ (Z) können als verallgemeinerte Beobachtungen betrachtet werden.
• ÜA 17) Beweise ohne Benutzung des Rieszschen Satzes, daß 1B ∈ C∗∗ (Z) für B ∈ B.
Hinweis: Finde Folgen stetiger Funktionen, die punktweise (also schwach) gegen 1B
konvergieren. Beginne mit abgeschlossenen und offenen Mengen.
90
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
6.5
6.5.1
Topologien in dualen Räumen
Die schwache Topologien im allgemeinen B-Raum
• Definition: Eine Subbasis Õw der schwachen Topologie Ow in X wird definiert als Initialtopologie bezüglich aller Elemente aus X∗ (es sei ϕx∗ (x) = hx, x∗ i):
∗
x ∈ X∗ , U ∈ OR
(U)
⊂
X
Õw = ϕ−1
∗
x
Die Konvergenz in dieser Topologie nennen wir “schwach” und bezeichnen sie mit xn ⇀ x
w
oder xn ⇀ x.
• Der Raum X∗ mit der schwachen Topologie ist Hausdorff (folgt aus Hahn-Banach) und
lokalkonvex (Einheitskugeln sind konvex).
• Nach Definition der schwachen Topologie als Initialtopologie gilt offensichtlich
xn ⇀ x ⇐⇒ hxn , x∗ i −
→ hx, x∗ i∀x∗ ∈ X∗
• Im endlichdimensionalen Raum sind starke und schwache Topologien identisch.
• Aus schwach folgt stark: Der Beweis folgt aus der Hölderungleichung:
hxn , x∗ i − hx, x∗ i ≤ kxn − xk · kx∗ k
w
• Satz: xn ⇀ x =⇒ kxk ≤ lim inf n→∞ kxn k
w
• Satz: xn ⇀ x, x∗n −
→ x∗ =⇒ hxn , x∗n i −
→ hx, x∗ i
Alle von der Topologie abhängigen Begriffe wie:
offen, abgeschlossen, Abschluß, kompakt, dicht, vollständig,
gibt es mit dem Adjektiv “schwach”. Oft unterscheiden sich die “starken” und “schwachen”
Eigenschaften voneinander. Dazu gibt es folgende Sätze. Im weiteren seien B = {x ∈ X|kxk ≤
1} und S = {x ∈ X|kxk = 1} die stark abgeschlossene Kugel bzw. Sphäre. Nach Definition ist
B = B und S = S. Es gilt aber:
w
w
• Satz: B = B und S = B.
D.h., S ist nicht schwach abgeschlossen. Die stark offene Kugel ist nicht schwach offen.
Das Innere von B ist leer.
• Satz: Ist A ∈ X stark abgeschlossen und kompakt, dann ist A auch schwach abgeschlossen.
• Satz (Eberline-Smulian): B ist schwach kompakt, gdw. X = X∗∗ .
Das bedeutet, daß die schwache Topologie in C∗ für uns (wir möchten, daß P kompakt
ist) auch nicht geeignet ist, da C∗ nicht reflexiv ist.
• Satz (Mazur): Jede schwach konvergente Folge in einem normierten Vektorraum besitzt
eine stark konvergente Folge von Konvexkombinationen der Folgenglieder
91
6.5 Topologien in dualen Räumen
6.5.2
Die vage Topologien im dualen eines allgemeinen B-Raumes
Es sei X ein Banachraum und X∗ sein dualer. In X∗ gibt es die starke und schwache Topologie.
Eine Subbasis von letzterer ist (es sei ϕx∗∗ (x) = hx∗∗ , x∗ i):
∗∗ ∗∗
x ∈ X∗∗ , U ∈ OR
Õw = ϕ−1
x∗∗ (U) ⊂ X
Es ist die Initialtopologie bezüglich aller Elemente aus X∗∗ . Eine Möglichkeit, eine noch schwächere Topologie zu definieren ist, die Menge an stetigen Funktionen, beüglich derer die Initialtopologie gebildet wird, einzuschränken. Dazu bietet sich an, nicht ganz X∗∗ zu betrachten, sondern
nur JX ⊂ X∗∗ . Diese Topologie nennen wir “vage”. Dieser Begriff wurde von Bourbaki eingeführt. Er entspricht dem gebräuchlicheren Begriff “schwach-Stern” (geschrieben “schwach*”),
der schlecht in die gesprochene Rede paßt.
• Definition: Eine Subbasis Õv der vagen Topologie Ov in X∗ wird definiert als Initialtopologie bezüglich aller Elemente aus X (es sei ϕx (x) = hx, x∗ i):
∗ Õw = ϕ−1
x ∈ X, U ∈ OR
x (U) ⊂ X
v
Die Konvergenz in dieser Topologie bezeichnen wir mit xn ⇀ x.
• Der Raum X∗ mit der vagen Topologie ist Hausdorff (folgt aus Hahn-Banach) und lokalkonvex (Einheitskugeln sind konvex).
• Nach Definition der vagen Topologie als Initialtopologie gilt offensichtlich
x∗n ⇀ x∗ ⇐⇒ hx, x∗n i −
→ hx, x∗n i∀x ∈ X
v
• Im endlichdimensionalen Raum sind vage, starke und schwache Topologien identisch.
• Aus vage folgt nach Definition schwach.
v
• Satz: x∗n ⇀ x∗ =⇒ kx∗ k ≤ lim inf n→∞ kx∗n k
v
• Satz: x∗n ⇀ x∗ , xn −
→ x =⇒ hxn , x∗n i −
→ hx, x∗ i
Alle von der Topologie abhängigen Begriffe wie:
offen, abgeschlossen, Abschluß, kompakt, dicht, vollständig,
gibt es mit dem Adjektiv “vage”. Im weiteren sei B ∗ = {x∗ ∈ X∗ |kx∗ k ≤ 1} die stark abgeschlossene Kugel in X∗ und analog B ∗∗ ⊂ X∗∗ . Es gilt:
v
• Satz (Goldstine): J(B) = B ∗∗ (die Einheitskugel in X ist vage dicht in der Einheitskugel in X∗∗ ).
Das heißt, ein ξ ∈ X∗∗ läßt sich durch eine vage konvergente
• Satz: Ist A ∈ X stark abgeschlossen und kompakt, dann ist A auch schwach abgeschlossen.
• Satz (Banach-Alaoglu): B ∗ ist vage kompakt.
Dieser fundamentale Satz wird im allgemeinen mit dem Auswahlaxiom bewiesen, was
immer ein Warnsignal ist, für den Fall, daß man diesen Satz kontruktiv anwenden will.
Im Falle, daß X separabel ist, läßt sich diese Satz auch ohne das Auswahlaxiom beweisen.
Dazu wird folgendes verwendet:
Satz: Es sei X separabel, dann ist B ∗ vage metrisierbar (X∗ ist separabel aber nicht
metrisierbar, es sei denn X ist endlichdimensional). Hieraus folgt bekanntlich, daß für der
Beweis der Kompaktheit der Beweis der Folkgenkompaktheit ausreicht.
92
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
Satz (Banach-Alaoglu, separable Version): Es sei X separabel, dann ist B ∗ ist vage folgenkompakt.
Beweis: Es sei {xk } ⊂ X dicht in X und {x∗n } ⊂ B∗ also kx∗n k ≤ 1. Wir beweisen (mit dem
Cantorschen Diagonalverfahren), daß {x∗n } eine vage konvergente Teilfolge enthält.
Für jedes feste k ist {hx∗n , xk i}∞
n=1 eine beschränkte Folge reeller Zahlen. Daher existiert eine
i→∞
Unterfolge mk ⊂ N derart, daß hx∗i , xk ii∈mk −
→ y(xk ). Weiter gilt
|y(xk )| ≤ lim |hx∗i , xk ii∈mk | ≤ lim inf kx∗i k · kxk k ≤ kxk k
i→∞
−
i→∞
D.h., y(xk ) ist eine beschränkte und offensichtlich lineare Abbildung auf einer dichten Menge.
∗
∗
Folglich existiert ein y ∗ ∈ B ∗ mit limi→∞
− hxi , xk i = y(xk ) = hy , xk i.
∗
Nach Banach-Steinhaus ist y auf ganz X ein beschränktes lineares Funktional.
Bemerkung: Beschränkte vage Topologie
Bemerkung: Leonidas Alaoglu kanadischer Mathematiker griechischer Abstammung, 1914 –
1981, siehe auch Buch von Adam Bobrowski: Functional Analysis for Probability and Stochastic
Processes, S.186)
6.5.3
Schwache und vage Topologien im Rieszraum
Es sei X ein AM-Raum mit Einheit und X∗ sein dualer (ein AL-Raum). Es sei
P = B ∗ ∩ X∗+ ∩ {h1, x∗ i = 1|x∗ ∈ X∗ }
Da B ∗ vage kompakt ist, und die anderen Mengen vage abgeschlossen sind, ist P vage kompakt
und außerdem konvex.
Es sei Pe = extr P. Auch Pe ist vage kompakt, falls Pe vage abgeschlossen ist. Das läßt
sich beweisen, indem man zeigt, daß die Grenzwerte vage konvergenter Folgen aus Pe RieszHomomorphismen sind un dbenutzt, daß ein Element aus X∗ ein Riesz-Homomorphismus ist
gdw., es in Pe liegt (siehe Kaplan S.125).
Nach dem Satz von Krein-Milman gilt dann
P = conv Pe
v
Folglich ist die vage Topologie genau das, was gesucht wurde.
6.5.4
Schwache und vage Topologien in C∗
Als Riesz-Raum gelten in C∗ dieselben Aussagen wie eben. Darüber hinaus ist noch der Zusammenhang zwischen Pe und Z zu klären. Es gilt folgender
Satz: Zwischen (Pe , Ov ) und (Z, O) besteht ein Homomorphismus. Er wird über den Zusammenhang δz ∈ Pe ⇐⇒ z ∈ Z vermittelt (sie Abbildung δ : Z −
→ C∗ ist vage stetig).
Zum Beweis siehe Kaplan S.182, 33.1.
Dieser Satz besagt, daß Topologie von Z, mit der wir gestartet sind, gerade die vage Topologie
in C∗ ist.
Satz: Eind Folge gn konvergiert in C schwach, gdw. gn beschränkt ist und gn (z) für jedes z
konvergiert (punktweise Konvergenz).
Dieser Satz bedeutet, daß es für beschränkte Folgen ausreicht, punktweise Konvergenz, also die
schwache Konvergenz auf Pe zu testen.
Der Beweis läßt sich einfach über den Rieszschen Darstellungssatz und den Satz von Lebesgue
(Majorisierungssatz) führen.
99
7
The Kakutani-Krein-Stone theory (KKS)
7.1
Der Satz von Kakutani
Wir haben in den letzten Kapiteln parallel zwei Strukturen aufgebaut. Einerseits sind wir von
einem topologischen Raum (Z, O) ausgegangen und haben die dualen Räume dazu betrachtet.
Das ergab folgendes Bild:
top.dual
lin.dual
(Z, O) −
→ C(Z) −
→ C∗ (Z)
W-Maße
⊃
extr
P ⊃ (Pe , Ov ) = (Z, O)
Es hat sich herausgestellt, daß diese Konstruktion zu ihrem Ausgangspunkt zurückkehrt.
Andererseits haben wir allgemeine Riesz-AM-Räume und ihre dualen betrachtet. Dabei war es
unerheblich, was die Elemente des Riesz-Raumes für Objkete sind. Das ergab folgendes Bild:
lin.dual
X −
→ X∗
W-Maße
⊃
extr
P ⊃ (Pe , Ov )
top.dual
→ C(Pe , Ov )
−
?
=X
Es bietet sich die Frage an, was der Raum stetiger Funktionen auf dem kompakten topologischen
Raum (Pe , Ov ) ist und in welcher Beziehung dieser Raum zum Ausgangsraum X steht. Die
Antwort darauf gibt folgender fundamentaler
Satz (Kakutani): Jeder vollständige AM-Raum X mit Einheit ist ein C(Z), wobei insbesondere
Z = extr P(X∗ ) mit der vagen Topologie gewählt werden kann.
Der Beweis vollzieht sich in folgenden Schritten (ausführlich siehe Kaplan S.187).
• Es sei Z = extr P(X∗ ) mit vager Topologie. D.h, wir definieren Z ∋ z := δ ∈ extr P(X∗ ).
Z ist kompakt (nach dem Satz von Banach-Alaoglu) und Hausdorff.
• Wir definieren eine Abbildung H : X −
→ C(Z) auf Z gemäß
(Hg)(z) = hg, δi , g ∈ X, z ∈ Z
und untersuchen ihre Eigenschaften. Diese Darstellung ist so zu verstehen: (Hg)(z) ist
der Wert der Funktion Hg ∈ C(Z) im Punkt z ∈ Z. hg, δi ist zu verstehen als die duale
Paarung zwischen g ∈ X und δ ∈ extr P(X∗ ) ⊂ X∗ .
• H≥0
• H1X = 1C
• H ist eine Isometrie und deshalb eineindeutig.
• H ist ein Verbandshomomorphismus
• HX separiert Punkte auf Z, weil X separierend ist.
• HX = C(Z) (folgt aus dem Satz von Stone-Weierstraß).
100
7.1.1
7 THE KAKUTANI-KREIN-STONE THEORY (KKS)
Bemerkungen
• Der Raum Z wird Kakutani-Stone-Raum des AM-Raumes X genannt.
• Ein Rieszhomomorphismus H : X −
→ Y zwischen zwei Rieszräumen ist eine lineare Abbildung, für die H(x ∨ y) = H(x) ∨ H(y) und H(x ∧ y) = H(x) ∧ H(y) gilt.
• Es läßt sich zeigen, daß x∗ ∈ X∗ ein Rieszhomomorphismus ist x∗ : X −→ R ist, gdw.
x∗ ∈ Pe (zum Beweis siehe Kaplan S.121).
x∗ als Rieszhomomorphismus ist zu verstehen als Abbildung zwischen den beiden Rieszräumen X und R, d.h., x∗ : X −
→ R und hx∗ , x ∨ yi = max{hx∗ , xi, hx∗ , yi} und hx∗ , x ∧ yi =
∗
∗
min{hx , xi, hx , yi}.
• Der Satz von Stone-Weierstraß lautet üblicherweise:
Jede Unteralgebra A der Algebra C(Z) der stetigen reellen Funktionen auf einem kompakten Hausdorff-Raum Z, die dessen Punkte separiert, d.h. ∀x 6= y ∈ M ∃g ∈ P : g(x) 6= g(y)
und in keinem Punkt verschwindet, d.h. ∀x ∈ M ∃g ∈ P : g(x) 6= 0 liegt bezüglich der Topologie der gleichmäßigen Konvergenz dicht in C(Z).
Es gibt auch eine Verbands-Version.
7.2
7.2.1
Folgerungen des Satzes von Kakutani
Mathematische Folgerungen
Wir führen hier ein paar Erklärungen des Satzes an und betrachten einige interessante “Gegenbeispiele” für den Fall, daß wir von einem X ausgehen, der bereits ein Raum stetiger Funktionen
ist.
• Die Hauptaussage ist, daß jeder Raum stetiger Funktionen auf einem topologischen Raum
(der ja ein AM-Raum ist) als ein Raum stetiger Funktionen auf einem Hausdorff-Kompaktum
betrachtet werden kann.
• Geht man von einem abstrakten AM-Raum aus, sind dessen Elemente “Punkte”, die nicht
Funktionen also Abbildungen von irgend einer Menge in eine andere sein müssen. Es stellt
sich aber heraus, daß man diese “Punkte” als stetige Funktionen von einem topologischen
Raum in die reellen Zahlen betrachten kann.
• Ist X = C(Z0 ) mit einem kompakten Hausdorffraum Z0 , so ist Z = Z0 .
• Ist X = C(Z0 ) mit einem kompakten aber nichtmetrisierbaren (also kein 1.AA) Hausdorffraum Z0 , so ist X nicht separabel und umgekehrt: Startet man mit einem nicht
separablen X, so ist Z nicht metrisierbar.
D.h., wenn wir wollen, daß Z metrisierbar ist (was sinnvoll ist), müssen wir mit einem
separablen X starten (was auch sinnvoll ist).
• Ist X nicht vollständig, dann ist C(Z) = X.
• Ist X = C(Z0 ) mit einem kompakten Raum Z0 , der nicht Hausdorff ist, dann ist Z der
Faktorraum von Z0 bezüglich der “sets of constanty” der Elemente aus X.
Beispielsweise könnte man mit allen Vektoren im Rn starten, für die xn = xn−1 . Das
sind gerade die stetigen Funktionen auf der n-Menge {z1 , z2 , ..., zn }, aber nicht mit der
diskreten Topologie sondern der Topologie, die erzeugt wird von den offenen Mengen
7.2 Folgerungen des Satzes von Kakutani
101
{z1 }, {z2 }, ..., {zn−2}, {zn−1 , zn }. Das Ergebnis ist Z = {z1 , z2 , ..., zn−1 }. Die beiden letzten
Koordinaten werden identifiziert.
• Der besonders interessante Fall, daß X = C(Z0 ) mit einem nichtkompakten Hausdorffraum
Z0 ist, betrachten wir in einem Extrapunkt.
• Ein weiterer interessanter Fall wäre ein nichtkompakter Raum Z0 derart, daß X = C(Z0 )
separabel ist. Das würde dazu führen, daß βZ0 metrisierbar ist. Eine solche Variante ist
dem Autor (und vielen anderen) nicht bekannt.
7.2.2
Nicht kompakte Zustandsräume
Ist X = C(Z0 ) mit einem nichtkompakten Hausdorffraum Z0 , so ist Z trotzdem kompakt und
zwar ist Z = βZ0 die Stone-Cech-Kompaktifizierung von Z0 . D.h., X = C(βZ0 ). Die Elemete
von X können als stetige “Funktionen” auf βZ0 betrachtet werden. Allerdings haben diese
Funktionen intuitiv nichts mit den stetige Funktionen zu tun, mit denen man als C(Z0 ) gestartet
ist.
Das hat weitreichende Konsequenzen.
Den Übergang von Z0 zu Z = βZ0 kann man nicht als bequeme “Kompaktifizierungsmethode”
für Z0 verwenden. Die Stone-Cech-Kompaktifizierung ist der kleinste topologische Raum, der
alle Kompaktifizierungen enthält. Er wird gebildet, indem das Kreuzprodukt aller Kompaktifizierungen mit der Tichonov-Topologie ausgestattet wird. Diese Konstruktion ist nicht trivial
und erfordert das Auswahlaxiom. βZ0 ist kompakt aber nicht metrisierbar.
Im Ergebnis enthält βZ0 viel mehr Punkte als Z0 . Geht man z.B. von Z0 = N aus, so ist
|N|
die Kardinalzahl von |βN| = 22 (Sprung von ℵ0 zu ℵ2 ). Hatte der ursprüngliche Raum Z0
als Zustandraum einen physikalischen Sinn, weil seine Punkte als Menge aller physikalisch
sinnvoller Zustände verstanden werden konnten (in dem Sinn, daß es weiter keine Zustände
gibt), so hat die Stone-Cech-Kompaktifizierung den Zustandraum mit einer Riesenmenge von
sinnlosen Zuständen angefüllt.
Es ist also wichtig, gleich mit einem geeignet kompaktifizierten Raum zu starten. Das Finden
der richtigen Kompaktifizierung hängt vom konkreten Problem ab, ist ein kreativer Prozeß und
kann nicht “von der Mathematik übernommen” werden.
Man könnte meinen, daß dieser Sachverhalt nicht wichtig ist, da man nicht gezwungen ist βZ0
anstelle von Z0 zu betrachten. Das ist nur richtig, wenn man sich nicht für Wahrscheinlichkeitsmaße interessiert. Denn in P sind nicht nur die konvexen Kombinationen von Punktmaßen aus
Z0 enthalten, sondern alle konvexen Kombinationen von Punktmaßen aus βZ0 . Betrachtet man
Wahrscheinlichkeitsmaße und möchte ihnen einen physikalischen Sinn geben, muß man also
Sorge dafür tragen, daß man nur konvexe Kombinationen von Punktmaßen aus Z0 betrachtet.
Wenn man Folgen von Maßen betrachtet, ist es deshalb nur mit großem technischen Aufwand
(Betrachtung von straffen Maßen u.ä.) zu sichern, daß aucgh die Grenzwerte von solchen Folgen in dieser Menge bleiben. Betrachtet man von Anfang an geeignet kompaktifizierte Räume
erübrigen sich diese Probleme.
Als Beispiel betrachten wir
7.2.3
Kompakte und nichtkompakte Folgenräume
Wir wollen hier die Unterschiede zwischen C(N) und C(N) betrachten, wobei N die Einpunktkompaktifizierung der natürlichen Zahlen sei. Zu den Beweisen der Details siehe den Abschnitt
6.4 über Folgenräume.
102
7 THE KAKUTANI-KREIN-STONE THEORY (KKS)
1) Es sei X der Raum der konvergenten Folgen. Wir bestimmen X∗ . Dazu setzen wir als bekannt
voraus. daß der duale Raum zu c0 (Nullfolgen) der Raum l1 ist. Folglich ist X∗ = l1 ⊕ R · 1. Der
Raum X enthält mehr Funktionale als c∗0 , da der Grenzwert der Folge auch ein Funktional ist.
Das ist gerade der Zusatz R· 1. Damit ist Z = {δj }∞
j=1 ∪δ∞ . Das sind die üblichen Punktmaße auf
N und ein weiteres Punktmaß, welches dem Grenzwert der Folge entspricht. Die vage Topolgie
ist gerade die Einpunktkompaktifizierung von N. Stetige Funktionen g auf Z sind konvergente
Folgen. In jedem j wird der Wert gj = g(δj ) angenommen. Allerdings sind nicht alle Folgen
stetige Funktionen sondern nur die konvergenten. Funktionswert auf δ∞ ist g(δ∞ ) = lim gn .
n→∞
2) Es sei X der Raum der beschränkten Folgen, also X = l∞ . Wir bestimmen X∗ . Das ist
∗
l∞
= l1 ⊕ c00 wobei c00 der Annullator des Unterraumes c0 in l∞ ist. In l1 sind die üblichen
∗
Punktmaße δj (ohne δ∞ natürlich, das gibt es in l∞
nicht). Im “Rest” c00 sind alle “sonstigen
Punktmaße” von Punkten aus βN enthalten. Der Satz von Kakutani sagt nun aus, daß sich jede
beschränkte Folge als stetige Funktion über βN darstellen läßt. Wie das konkret zu verstehen
ist, ist unklar. Der Satz ist hier ein reiner Existenzsatz, zu dessen Beweis das Auswahlaxiom
benötigt wird.
7.2.4
Physikalische Folgerungen
Die Kakutani-Krein-Stone Theorie zeigt einen Weg, wie man ausgehend von einer abstrakten
Menge von Beobachtungen sowohl die Zustände als auch die Wahrscheinlichkeiten automatisch
erzeugen kann. Das ist der natürliche Weg aus metaphysischer Sicht, da auch die Zustände
selbst eigentlich nicht im Voraus gegeben sind sondern erst durch Beobachtung erhalten werden
müssen. Diese Theorie hat vor allem theoretischen Wert, da sie zeigt, daß auch die Zustände
letztlich das Ergebnis von Beobachtungen sind.
Die Konstruktion von Z geht von einer frei gewählten Menge von Beobachtungen aus und
vollzieht sich in folgenden Schritten:
1) Wir definieren eine Menge X von Beobachtungen. Diese Menge muß ein linearer Raum
über den reellen Zahlen mit einer Ordnungsrelation sein – ein Riesz-Raum. Bei der Wahl
dieser Menge sind wir frei. Das ist die Menge an Fragen, die wir der Natur stellen wollen.
Aus mathematischer Sicht sind das Testfunktionen.
2) Wir definieren unter den Beobachtungen eine Einheit 1. So eine Beobachtung sollte es
geben. Sie bedeutet physikalisch, daß eigentlich nicht beobachtet wird, d.h., sie liefert
keine Information.
3) Jede Beobachtung g hat ein Minimum gmin und ein Maximum gmax . Das sind reelle Zahlen.
Es gilt gmin 1 ≤ g ≤ gmax 1.
4) Wir definieren eine Verbands-Norm als kgk = max{|gmin|, |gmax |} und vervollständigen X
in dieser Norm. Die Norm macht X zu einem AM-Raum. Die Vervollständigung macht X
zu einem Banach-Raum. Das sei X.
5) Wir betrachten den dualen Raum X∗ und definieren alle mittelnden Funktionale P ⊂ X∗
als physikalische Zustände. (Ein Funktional p mittelt, wenn für alle g gilt: gmin ≤ hg, pi ≤
gmax .)
6) Die mittelnden Funktionale P bilden eine konvexe Menge. Diese Menge ist in der vagen
Topologie kompakt und Hausdorff.
7.2 Folgerungen des Satzes von Kakutani
103
7) Es sei Pe = extP die Menge der extremalen Elemente der Zustände (heißt in der Mathematik Kakutani-Stone-Raum von X). Pe ist ebenfalls kompakt in der vagen Topologie.
Wir nennen die extremalen Elemente Pe “reine Zustände”, den Rest aus P “gemischte
Zustände”. Diese Bezeichnung ist vernünftig, weil sich die extremalen Elemente nicht als
konvexe Kombinationen von Zuständen darstellen lassen (nicht mischen lassen).
Das besondere an dieser Konstruktion ist der folgende fundamentale
Satz: X = C(Pe ).
Das heißt, die ursprünglich definierte Menge X an Beobachtungen (nach Vervollständigung) ist
nicht eine abstrakte Menge sondern läßt sich als Menge von stetigen Funktionen über einem gewissen topologischen Raum Pe betrachten. Dieser Raum ist natürlicherweise als Zustandsraum
zu interpretieren, es ist also Z = Pe zu setzen.
Des weiteren ist P – die Menge der mittelnden Funktionale – identisch mit der Menge der
positiven und normierten Funktionale, die man natürlicherweise nach dem Rieszschen Darstellungssatz als W-Maße interpretieren kann. Es gilt (einfacher Beweis, siehe Punkt 6.1.4)
gmin ≤ hg, pi ≤ gmax , g ∈ C ⇐⇒ p ≥ 0, h1, pi = 1
7.2.5
Bemerkungen. Anwendung
• In DSI steht als Aufgabe (Kapiel V, Aufgabe 7) formuliert:
Beweise: Wenn Z ein normaler topologischer Raum ist und C(Z) ist separabel, dann ist
Z kompakt, und umgekehrt.
Leider ist dem Autor ein Beweis dieser Aussage nicht bekannt.
• Abzählbarkeit bedeutet, daß das physikalische System nicht zuviele Freiheitsgrade haben
darf, d.h., daß wir nicht zuviele Freiheitsgrade unterscheiden können. Abzählbarkeit von
Z entspricht der Separabilität von C(Z).
7.4 Zusammenfassung der Topologien in Z, Z∗ , Z∗∗ und Z∗∗∗
7.4
109
Zusammenfassung der Topologien in Z, Z∗, Z∗∗ und Z∗∗∗
In jedem Raum gibt es verschiedene Topologien, die starke, schwache und vage. Davon sind nur
einige im weiteren interessant. Das hängt z.B. damit zusammen, daß es für manche Topologien
nur uninteressante konvergente Folgen gibt.
Vergleich der Konvergenzen:
Z∗
Z
zn −
→ z
gn
zn −
→ z
kgn − gk
g(zn ) −
→ g(z) hgn − g, pi
gn (z)
=
→
−
→
−
→
−
→
−
C
Z∗∗
g
pn
0
kpn − pk
0
hξ, pn − pi
g(z) hg, pn − pi
pn (B)
=
→
−
→
−
→
−
→
−
→
−
C∗
p
0
0
0
p(B)
Z∗∗∗
ξn
= C∗∗
→ ξ
−
stark
schwach
vage
p(Bn ) −
→ p(B)
Im weiteren sind nur folgende Konvergenzen von Interesse:
• Starke Konvergenz in C
• Schwache Konvergenz in C (entspricht der vagen in C∗ ).
• Vage Konvergenz in P.
7.4.1
Übungsaufgaben
ÜA 22 a) Beweise, daß Pe in der starken Topologie ein diskreter topologischer Raum ist.
ÜA 22 b) Entscheide, ob Pe in der schwachen Topologie ein diskreter topologischer Raum
ist.
ÜA 23 a) Die Folge zn konvergiere in Z gegen z. Untersuche ob und wie (stark, schwach,
vage) die Folge δzn gegen δz in C∗ konvergiert.
ÜA 23 b) Die Folge zn konvergiere in Z gegen z. Untersuche ob und wie (stark, schwach,
vage) die Folge 1{zn } gegen 1{z} in C∗∗ konvergiert.
7.4.2
Bemerkungen, Gegenbeispiele und Lösungen der Übungsaufgaben
Die Unterschiede zwischen den Konvergenzen erkennt man besonders deutlich durch Gegenbeispiele.
• Die Funktionen gn (z) = z n in C([0, 1]) konvergieren schwach oder – äquivalent – punktweise gegen g = 1{1} , aber natürlich nicht stark, da g 6∈ C. gn konvergiert auch nicht stark
in C∗∗ , da kgn − gk = 1. Aber gn konvergiert gegen g vage (punktweise) in C∗∗ .
• Die Konvergenz zn −
→ z in Z (im Sinne von: Jede Umgebung von z enthält ∞-viele Punkte
aus der Menge (zn )) ist äquivalent zur schwachen Konvergenz in Z also zu g(zn ) −
→ g(z).
• Pe ist vage total (der span ist dicht) in P. Das bedeutet, daß es für die schwache Konvergenz in C ausreicht, die Konvergenz auf Punktmaßen zu testen. Das heißt wiederum, daß
die punktweise Konvergenz in C – die man als vage Konvergenz bezeichnen kann – zur
schwachen Konvergenz äquivalent ist, wenn die Folge der Funktionen in C beschränkt ist.
110
7 THE KAKUTANI-KREIN-STONE THEORY (KKS)
• Man könnte fragen, ob es nicht sinnvoll ist, in Pe andere Topologien, etwa die starke
Topologie zu betrachten. Es stellt sich heraus, daß in Pe die starke Topologie die diskrete
ist. Hieraus folgt dann, daß jede konvergente Folge konstant (bis auf endlich viele Glieder)
sein muß. Das wiederum hat zur Folge, daß jede stark stetige Halbgruppe in C∗ auch
uniform stetig ist und es somit in C∗ nur beschränkte Generatoren gibt.
Satz: In der starken Topolgie in Pe sind alle Mengen offen.
Beweis: (Lösung von ÜA 22a) Wir beweisen, daß die Mengen {δz } offen sind, indem
wir zeigen, daß mit jedem Punkt dieser Menge auch eine Umgebung in Pe enthalten ist.
Für zwei z1 6= z2 gilt kδz1 − δz2 k = 2. Es sei ε < 2. Dann enthält jede offene Kugel um δz
mit dem Radius ε nur δz . Wegen δz ∈ {δz } folgt die Behauptung.
.
• Die Folge pn (dz) = (1 + sin(nz))dz in C∗ ([−1, 1]) konvergiert bezüglich aller charakteristischer Funktionen (vermutlich äquivalent zu schwach), aber nicht stark.
• Lösung von ÜA 23a)
• Lösung von ÜA 23b)
7.4.3
Zusammenhang der Konvergenzen in der FunkA und W-Theorie
Die duale Paarung zwischen einer stetigen Funktion g und einem W-Maß p heißt in der WTheorie Erwartungswert oder Mittelwert von g bezüglich p oder g-Moment von p oder nur
Erwartungswert/Moment von g, wenn p durch den W-Raum (Z, B, p) fixiert ist. Der Wert
eines Maßes p auf einer Borelmenge B, also p(B) ist die duale Paarung zwischen p und der
char. Funktion von B, also 1B ∈ C∗∗ .
Da in die Wahrscheinlichkeitstheorie in erster Linie W-Maße in Rn betrachtet werden, orientieren sich die Konvergenzbegriffe daran und unterscheiden insbesondere auch Konvergenz
bezüglich Funktionen mit kompaktem Träger oder ohne.
Während die funktionalanlytischen Begriffe systematisch und allgemeingültig sind, unterscheiden sich die entsprechenden Begriffe in der W-Theorie davon.
Die vage Konvergenz in der Funktionalanalysis heißt schwache Konvergenz in der W-Theorie.
Die starke Konvergenz in der Funktionalanalysis heißt Konvergenz in totaler Variation in der
W-Theorie.
Des Weiteren werden Konvergenzen der Art pn (B) −→ p(B) und p(Bn ) −→ p(B) betrachtet.
Aus funktionalanlytischer Sicht sind das Konvergenzen bezüglich der Topologie σ(C∗ , C∗∗ ), da
p(B) = h1B , pi mit 1B ∈ C∗∗ . Die Konvergenzen pn (B) −
→ p(B) wird in der Wahrscheinlichkeitstheorie starke Konvergenz von Maßen genannt (hier schwache).
Die σ(C∗ , C∗∗ )-Topologie ist “sehr diskret”, was dazu führt, daß es kaum konvergente Folgen
gibt. Um trotzdem Aussagen treffen zu können, wann pn (B) −→ p(B) oder p(Bn ) −→ p(B)
stattfindet, werden Spezialfälle betrachtet, wann diese Konvergenzen mit Konvergenzen in der
σ(C∗ , C)-Topologie übereinstimmen.
Dazu gibt es den Portmanteau-Satz (von Alexandrow):
Folgende Konvergenzen sind äquivalent
•
•
•
•
•
pn −
→ p vage
pn −
→ p vage auf C[0,1]
lim supn→∞ pn (F ) ≤ p(F ) für alle F ∈ F
lim inf n→∞ pn (U) ≥ p(U) für alle U ∈ O
limn→∞ pn (B) = p(B) für alle B ∈ B und p(∂B) = 1
7.4 Zusammenfassung der Topologien in Z, Z∗ , Z∗∗ und Z∗∗∗
111
Der Beweis des Satzes (die Umkehrung, daß aus der Konvergenz auf Borelmengen die vage
Konvergenz folgt) ist nicht einfach und wird über sogenannte level-sets (Niveaumengen) geführt,
mit denen es möglich ist, anstelle von Lebesgue-Integralen über Z Riemann-Integrale über dem
Wertebereich von g zu betrachten. Nähers hierzu kann im WIAS-Preprint 1896 nachgelesen
werden.
Für die anderen Teile des Beweises werden Folgen von Funktionen gn ∈
C[0,1] betrachtet, mit
T∞
−1
−1
gn (1) = F ∈ F und gn (0) = Z \ Un , Un ∈ O und F ⊂ Un , Un+1 ⊂ Un , n=1 Un = F . Es ist
p(F ) = inf p(Un ) ≥ hgn , pi ≥ p(F )
Un ⊃F
Konvergenzen der Art p(Bn ) −
→ p(B) hängen mit der Regularität von p zusammen:
p(B) = sup p(F ) , p(B) =
F ⊂B∈B
inf p(U)
U ⊃B∈B
Es gilt:
S
• ∞
→ 1A vage in C∗∗ .
i=1 Ai = A =⇒ 1Ai −
S
• An ↑ A =⇒ p(An ) −
→ p(A), An ↑ A bedeutet An ⊂ An+1 , ∞
An = A
Ti=n
∞
• An ↓ A =⇒ p(An ) −
→ p(A), An ↓ A bedeutet An ⊃ An+1 , i=n An = A
7.6 Der mathematische Rahmen. Das Z − C − P Dreieck
7.6
113
Der mathematische Rahmen. Das Z − C − P Dreieck
state space (compact, Hausdorff, 1 Axiom of count.)
Z = extr P(Z)
dual
weak*
∗∗
C (Z) ⊃ C(Z)
functions of points
✛
✲
P(Z) ⊂ C∗(Z)
weak
functions of sets
continuous functions
intensive values
❅
❅
bidual
❅
❅
❅
❅
Radon measures
hg, pi
extensive values
observables
statistical states
potentials, densities
test functions
probability measures
information
• Wichtig ist, daß der Zusammenhang der Objekte Z −→ C −→ P −→ Pe = Z immer
erhalten bleibt. Dann ist die Theorie anwendbar und viele der Sätze bleiben notwendig
und hinreichend.
Ist z.B. die gewählte Menge an Beobachtungen nicht zufriedenstellen, so kann mann sie
ändern. Das bedeutet unter Umständen, daß man die Topologie ändern muß, damit die
neue Menge an Beobachtungen stetige Funktionen sind. Das wiederum verändert die
Menge an Wahrscheinlichkeitsmaßen.
• Bei der mathematischen Modellierung ist entscheidend, daß man einen mathematischen
Rahmen findet, der einerseits nach Möglichkeit jedes interessierende Problem beeinhaltet
und andererseits eine physikalische Interpretation jedes Objektes des Rahmen ermöglicht.
Das unterscheidet den vorgestellten Zugang von anderen Zugängen, bei denen ein mathematischer Rahmen postuliert wird und Probleme betrachtet werden, die im Rahmen
dieses Rahmens behandelt werden können. Dabei gibt es meistens keinen physikalischen
Grund, warum man gewisse Probleme, die nicht in den Rahmen passen, nicht behandeln
kann.
• Es gibt bei der Beschreibung von Problemen zwei zueinander duale Seiten, einerseits die
physikalische, die unabhängig vom Beobachter existiert und durch Größen wie Wahrscheinlichkeitsdichten und Trajektorien beschrieben werden kann, und andererseits die
Beobachtungsseite, auf der aus den physikalischen Größen Daten abgeleitet werden. Üblicherweise werden an die physikalischen Größen Bedingungen gestellt, die das Problem
einschränken. Das ist unphysikalisch. Die physikalischen Größen sind wie sie sind. Möglich
ist nur eine geeignete Manipulation der Menge der Beobachtungen. Das ist z.B. wichtig
114
7 THE KAKUTANI-KREIN-STONE THEORY (KKS)
bei der Herleitung von makroskopischen Gleichungen aus mikroskopischen und bei der
Entwicklung von Näherungsverfahren.
• Der mathematische Rahmen ist für jedes klassische Problem geeignet. Was das bedeutet,
wird klar, wenn man untersucht, was für Systeme mit diesem mathematischen Rahmen
nicht beschrieben werden können. Solche Systeme sind nicht-klassisch. Das ist z.B. ein
Quantensystem. Zwei entscheidende Eigenschaften eines Quantensystems bewirken, daß
sie in den betrachteten Rahmen nicht passen:
– Zustandraum ist nicht kompakt
Axiomatisch wird ein Quantensystem folgendermaßen beschrieben: Es wird ein Hilbertraum H postuliert. Der Zustand eines Quantensystems ist ein Punkt ψ (genannt
Wellenfunktion) der Einheitssphäre in H. Die Einheitssphäre im Hilbertraum ist im
allgemeinen nicht kompakt in der starken Topologie in H. Die schwache Topologie
ist nicht geeignet, weil man dann keine Evolutionsgleichungen der Form i~ψ̇ = Hψ
(Schrödingergleichung) aufstellen kann. Hier ist H der Hamiltonoperator.
– Beobachtungen kommutieren nicht
Eine Beobachtung wird in der Quantenmechanik definiert durch einen selbstadjungierten Operator A in H. Das Ergebnis der Beobachtung ist (Aψ, ψ). Im allgemeinen
gilt AB 6= BA (Heisenbergsche Unschärferelation) für zwei Beobachtungen A und
B. Die Algebra der Beobachtungen ist nicht kommutativ. Für klassische Systeme
ist die Algebra der Beobachtungen (punktweise Multiplikation stetiger Funktionen)
kommutativ.
Damit erhält man eine Definition, wann ein physikalisches System klassisch ist: Wenn der
Zustandsraum kompakt ist und Beobachtungen kommutieren.
Bemerkung: Beschränkt man sich auf separable Hilberträume und kommutierende Beobachtungen (dann gibt es eine abzählbare Basis Basis (ψi ) bezüglich der alle Beobachtungen diagonalisierbar sind), kann man anstelle der Einheitssphäre einen kompakten Raum
betrachten (der l2 auf (ψi )). In diesem Fall ist auch ein Quantensystem im klassischen
Rahmen beschreibbar.
137
8
Zustandsänderungen
Bis jetzt haben wir beschrieben, in welchem Rahmen man ein klassisches physikalisches System
beschreiben sollte, was die richtigen mathematischen Räume für Beobachtungen und Zustände
sind.
Im weiteren wollen wir untersuchen, wie Zustandsänderungen beschrieben werden sollten. Eine Zustandsänderung findet statt, wenn das betrachtete physikalische System in verschiedenen Zuständen vorliegen kann. Ein typisches Beispiel sind zwei verschiedene Zeitpunkte. Der
Übergang von einem Zeitpunkt zum anderen ist dann eine Zustandsänderung. Wir werden im
weiteren stets zeitliche Zustandsänderungen betrachten.
Wir wissen aus der Betrachtung extensiver und intensiver Größen, daß Zeitintevalle additiv sind
und gemessen werden können. Ein Zeitintevall ist also eine extensive Größe. Typisch für die
mathematische Beschreibung von zeitabhängigen Prozessen ist, daß “Zeitpunkte” betrachtet
werden, die sich durch reelle Zahlen darstellen lassen. Die physikalische Größe “Zeitintervall”
∆t wird dann als Differenz zweier Zeitpunkte t, t′ ∈ R dargestellt, etwa ∆t = t′ − t > 0. Dabei
wird t < t′ angenommen, was bedeutet, daß sich Zeitpunkte eindeutig ordnen lassen. Diese
völlig intuitive Eigenschaft der Zeit (wir erinnern uns an die Vergangenheit, nicht an die Zukunft) läßt sich nicht physikalisch “herleiten”. Wir nehmen im weiteren an, daß die Zeitrichtung
eines physikalischen Prozesses eindeutig definiert ist, d.h., wir nehmen an, daß bei der Untersuchung der Zustände eines physikalischen Systems völlig klar ist, welcher Zustand “vorher” und
“welcher” nachher vorlag. Es gibt also eine Ordnung der physikalischen Prozesse die identisch
mit der Ordnung der Zeitpunkte ist. Per Definition sagen wir, daß die physikalischen Prozesse
so geordnet sind, daß das was wir intuitiv als Zeit interpretieren, vorwärts läuft.
Mathematisch beschreiben wir Zeitpunkte als Abbildung von N oder Z nach R. Wir nummerieren Zeitpunkte. Diese Form der Beschreibung der Zeit wird “diskret” genannt.
Daneben wird in der Mathematik häufig auch eine “kontinuierliche Zeit” betrachtet und durch
R oder R+ beschrieben. Dabei wird häufig angenommen, daß sich die kontinuierliche Zeit als
Grenzwert immer kleiner werdender Zeitintervalle beschreiben läßt. Das führt zu verschiedenen
Paradoxa. Wir werden deshalb die kontinuierliche Zeit im Newtonschen Sinn als Parameter betrachten, der die Trajektorie eines physikalischen Objektes parametrisiert. Das betrachten wir
als Postulat. Wir nehmen an, daß wenn wir von einer kontinuierlichen Trajektorie (einer kontinuierliche Abfolge von Zuständen) sprechen, daß sich diese Trajektorie im physikalischen Sinne
vorwärts durch einen kontinuierlichen Parameter parametrisieren läßt, den wir Zeit nennen.
Ebenso wie es reine und gemischte Zustände gibt, kann man “reine” und “gemischte” Zustandsänderungen unterscheiden, die hier deterministische und nicht-deterministische Zustandsänderungen genannt werden. Reine Zustände sind Punkte in Z, die man als extremale Elemente
Pe in der Menge aller Zustände P wiederfindet. Der Übergang von Z zu C∗ (Z) war erforderlich,
wenn man neben reinen auch gemische Zustände betrachten möchte. Dabei hat sich herausgestellt, daß es erforderlich ist, als Zwischenschritt Beobachtungen zu betrachten. Mehr noch, die
Beobachtungen haben sich als die primären Objekte herausgestellt.
Sehr ähnlich werden wir Zustandsänderungen betrachten. Ausgehend von deterministischen
Zustandsänderungen, deren Betrachtung in Z möglich ist, werden wir im Bild Pe der kanonischen Einbettung von Z die Objekte suchen, die den deterministischen Zustandsänderungen in
Z entsprechen. Das werden lineare Operatoren in C∗ . Um die zu definieren werden wir als erstes
Beobachtungsänderungen in C beschreiben müssen. Allgemeine Zustandsänderungen werden
dann die lineare Operatoren sein, die physikalische Zustände in ebensolche abbilden.
Den Wertebereich der Zeit werden wir je nach vorliegendem Problem mit T bezeichnen und die
138
8 ZUSTANDSÄNDERUNGEN
Fälle T = N, Z, R+ , R betrachten. Abstrakt, werden wir zwei oder drei Zeitpunkte unterscheiden, die wir mit t, t′ , t′′ bezeichnen und setzen t < t′ < t′′ .
8.1
8.1.1
Deterministische Zustandsänderungen
Definitionen
• Es seien Z, Z′ , Z′′ die Zustandsräume (Kompakt, Hausdorff, 1.AA) zu den Zeitpunkten
t, t′ , t′′ . Meistens werden die Zustandsräume zu verschiedenen Zeitpunkten identisch sein.
Trotzdem wollen wir sie auch in diesem Fall formal durch einen Index unterscheiden. Das
ist wichtig um stets im Bild zu sein, zu welchem Zeitpunkt wir ein mathematisches Objekt
betrachten.
• Eine stetige Abbildung ϕ : Z −
→ Z′ heiße deterministische Zustandsänderung. Wir schrei′
ben ϕ ∈ C(Z, Z ). Manchmal wird C(Z, Z′ ) auch als Hom(Z, Z′ ) – Menge der Homomorphismen – bezeichnet. Hier ist die physikalische Zeitrichtiung festgelegt. Es ist z ∈ Z der
Zustand vor der Zustandsänderung und z ′ = ϕ(z) ∈ Z′ der Zustand danach.
• Die Forderung der Stetigkeit von ϕ bedeutet hier nicht, daß sich die Zustände nur wenig
ändern dürfen. Sie bedeutet, daß sich ähnliche Zustände ähnlich ändern. Es ist klar, daß
sich Zustände, die wir aus gutem Grund als ähnlich, d.h. schlecht unterscheidbar, festgestellt haben auch nach einer Zustandsänderung schlecht unterscheidbar sind. Das bedeutet
nicht, daß die Zustandsräume Z und Z′ homöomorph sein müssen. Es kann durchaus sein,
daß nah beieinander liegende Punkte in Z sich als weit auseinaderliegende Punkte in Z′
herausstellen. Diese Punkte sind in Z′ gut unterscheidbar, ihre Urbilder waren in Z dagegen schlecht unterscheidbar. Aber die Fähigkeit von Z′ , die Punkte gut zu unterscheiden
muß Z′ eben schon bei seiner Definition gehabt haben bzw. hätte berücksichtigt werden
müssen.
• Sind ϕ ∈ C(Z, Z′ ) und ψ ∈ C(Z′ , Z′′ ) deterministische Zustandsänderungen, dann ist
auch ψ ◦ ϕ ∈ C(Z, Z′′ ) eine deterministische Zustandsänderung, weil die Komposition die
Stetigkeit erhält.
• Setzt man die Zustandsräume gleich Z′ = Z, dann ist ϕ ∈ C(Z, Z) = End(Z) ein Endomorphismus.
• Endomorphismen bilden eine Halbgruppe mit id als Einheit.
• Eine Untergruppe der Endomorphismen ist die Gruppe der Automorphismen Aut(Z) also
der Homöomorphismen.
• Ist Z = {z1 , ..., zn }, so besteht End(Z) aus nn diskreten Elementen. Aut(Z) besteht aus
n! Elementen. Das sind gerade die Permutationen.
8.1.2
Diskrete dynamische Systeme
• Ein Paar (Z, ϕ) mit ϕ ∈ End(Z) definiert einen Homomorphismus N −
→ End(Z) durch
0
1
n+1
n
ϕ = id, ϕ = ϕ, ϕ
= ϕ ◦ ϕ . Hier ist N als additive Halbgruppe der natürlichen
Zahlen zu verstehen. Dieser Homomorphismus oder auch das Paar (Z, ϕ) wird zeitdiskretes
dynamisches System genannt.
n
• Für ein gegebenes z0 ∈ Z heißt (zn )∞
n=0 mit zn = ϕ (z0 ) die Trajektorie von z0 .
∞
• Die Folge ϕn n=0 heißt auch diskreter Halbfluß.
8.1 Deterministische Zustandsänderungen
139
n −1
• Ist ϕ ∈ Aut(Z), so kann man auch ϕ−n := (ϕ
) definieren. ϕ definiert dann einen
n ∞
Homomorphismus Z −
→ Aut(Z). Die Folge ϕ n=−∞ heißt diskreter Fluß. Hier ist Z als
additive Gruppe der ganzen Zahlen zu verstehen.
• Ein typisches Beispiel eines diskreten Halbflusses ist die Poincare-Abbildung eines zeitkontinuierlichen dynamischen Systems.
8.1.3
Kontinuierliche dynamische Systeme
• Ein stetiges dynamisches System auf Z ist ein Homomorphismus der additiven Halbgruppe
R+ in die Endomorphismen ϕ : R+ −
→ End(Z). ϕ muß stetig sein. Das heißt, jedes ϕt (z)
ist stetig als Funktion von t und als Funktion von z.
• (ϕt ), t ∈ R mit ϕt2 ◦ ϕt1 = ϕt2 +t1 heißt Halbfluß.
• (zt , t ≥ 0) heißt Trajektorie (oder auch Orbit).
• Es kann sein, daß für spezielle Z und unter zusätzlichen Regularitätsbedingungen an
ϕt , von einer Zeitableitung
żt der Trajektorie gesprochen werden kann und der Größe
d
a(z) = dt ϕt (z) t=0 – genannt Vektorfeld des dynamischen Systems – ein Sinn gegeben
werden kann. Dann heißt żt = a(zt ) mit dem Anfangswert z0 Evolutionsgleichung des
dynamischen Systems.
• Die analogen Objekte mit T = R statt T = R+ heißen Fluß.
• Allgemeiner kann man auch zweiparametrische dynamische Systeme (ϕt′ ,t ), t′ > t ≥ 0 mit
ϕt3 ,t2 ◦ ϕt2 ,t1 = ϕt3 ,t1 betrachten.
8.1.4
Was stehen für Aufgaben?
Zu beachten ist, daß jedes ϕ ∈ End(Z) ein diskretes dynamisches System generiert, wogegen
es eine zu klärende Aufgabe ist, wann ein a(z) ein dynamisches System generiert und ob es in
einem gegebenen Raum überhaupt kontinuierliche dynamische Systeme gibt.
Man hat ein physikalisches System, das kann sich in gewissen Zuständen aufhalten. Hierbei
sind folgende Aufgaben denkbar:
• Herleitung einer Evolutionsgleichung für ein gegebenes dynamisches System. Für ein
kontinuierliches dynamisches System bedeutet das folgendes: Die Funktionalgleichung
ϕt2 ◦ ϕt1 = ϕt2 +t1 , der jedes dynamische System genügen muß, ist eine so starke Forderung, daß es bereits durch die Vorgabe eines Vektorfeldes – und damit einer Evolutionsgleichung – eindeutig bestimmt ist. Unter “Herleitung einer Evolutionsgleichung” ist
dann die Bestimmung des Vektorfeldes für das dynamische System zu verstehen.
• Lösung einer gegebenen Evolutionsgleichung. D.h., Bestimmung von (ϕt )t≥0 für gegebenes
Vektorfeld a(z).
• Hat das dynamische System stationäre Zustände? Das sind Zustände, die sich in der Zeit
nicht ändern.
• Hat eine Trajektorie einen Gleichgewichtszustand, d.h, konvergiert sie in irgendeinem Sinn
für t −
→ ∞ gegen einen Zustand?
• Wie verhält sich die Annäherung der Trajektorie an den Gleichgewichtszustand? Kann
man die Geschwindigkeit dieser Annäherung abschätzen?
140
8.1.5
8 ZUSTANDSÄNDERUNGEN
Motivation
Eine Zustandsänderung kann auch nicht deterministisch sein. Dann ist das Problem im Rahmen
von dynamischen Systemen nicht zu betrachten. Es gibt keine Trajektorie im Zustandsraum Z
mehr. In unserem Rahmen, der reine und gemischte Zustände gemeinsam betrachtet, spielt das
aber keine Rolle.
Es stellt sich heraus, daß der Übergang von der deterministischen Beschreibung in Z zur allgemeinen Beschreibung in C − P nicht nur den Kreis der beschreibbaren Probleme vergrößert
sondern auch die analytischen Schwierigkeiten bei der Behandlung stark vereinfacht. Das nennt
man in der Mathematik Regularisierung. Die Probleme, die bei einer deterministischen Beschreibung allgemein waren, werden jetzt linear, kompakt und konvex. Diese Eigenschaften bedingen Folgerungen, die für jedes physikalische System zutreffen: Es existieren stets
stationäre Zustände und Trajektorien können nie divergieren. Genau wie wir die reinen
Zustände in P wiedergefunden haben (das waren Pe , die extremalen Elemente von P), sollten
wir auch die deterministischen Zustandsänderungen in unserer linearen Welt wiederfinden.
Umgekehrt sollte auch jedes stochastische Problem als Grenzfall ein deterministisches Problem
beinhalten. Das folgt aus dem physikaliischen Verständnis von Wahrscheinlichkeiten als Modell
für die Realität unter Informationsmangel. Gibt es diesen Informationsmangel nicht, ist das
Modell deterministisch.
8.2
Heuristik
• Wir gehen von einem ϕ : Z −
→ Z′ aus und fragen, wie sich diese Abbildung in den bidualen
Räumen widerspiegelt. Es ist klar, daß ϕ eine entsprechnde Abbilung Φ : Pe −→ P′e
induziert mit
z ′ = ϕ(z) ⇐⇒ δz ′ = Φ(δz )
• Die stetige Abbildung ϕ : Z −
→ Z′ erzeugt kanonisch einen Kompositionsoperator Mϕ :
C(Z′ ) −
→ C(Z), der zeitlich in die Rückwärtsrichtung abbildet. Mϕ ist ein positiver Operator und hat die Eigenschaft Mϕ 1′ = 1.
• Sein adjungierter Operator M∗ϕ : C∗ (Z) −
→ C∗ (Z′ ) bildet wieder vorwärts in der Zeit ab.
Tatsächlich erfüllt er die Rolle des gesuchten Φ, denn es gilt
hg, M∗ϕ δz i = hMϕ g, δz i = hg ◦ ϕ, δz i = hg, δz ◦ ϕ−1 i = hg, δϕ(z)i = hg, δz ′ i
Da g ∈ C(Z′ ) beliebig ist, ist also M∗ϕ δz = δz ′ .
• Außerdem gilt M∗ϕ P ⊂ P′ . M∗ϕ bildet also physikalisch sinnvoll Zustände auf ebensolche
ab. Man kann ihn also als Zustandsänderung interpretieren.
Beweis: Als adjungierter eines positiven Operators ist M∗ϕ positiv und damit ist M∗ϕ p ≥ 0
für alle p ≥ 0. Außerdem gilt
h1′ , M∗ϕ pi = hMϕ 1′ , pi = h1, pi = 1
P
• Es sei M = ni=1 αi Mϕi eine konvexe Kombination von adjungierten von Kompositionsoperatoren. Auch sie sind positiv und erfüllen M1′ = 1 und damit gilt auch M∗ P ⊂ P′ .
• Die beiden Eigenschaften M ≥ 0 und M1′ = 1 implizieren M∗ P ⊂ P′ . Solchen Operatoren
kann man also einen physikalischen Sinn als Zustandsänderungen geben.
8.3 Mathematische Grundlagen: Beschränkte lineare Operatoren
8.3
8.3.1
141
Mathematische Grundlagen: Beschränkte lineare Operatoren
Definitionen
• Es sei L(X, Y) die Menge der linearen beschränkten Abbildungen zwischen X und Y. Sie
bildet einen linearen Raum.
• X∗ = L(X, R)
• L(X) := L(X, X) (Endomorphismen).
• Es sei A : X −
→ Y eine lineare Abbildung zwischen Banachräumen. Dann ist äquivalent
(siehe z.B. [4, S.71ff]):
–
–
–
–
T ist überall stetig
T ist stetig in einem Punkt
supkxk≤1 kAxk ist beschränkt
Es existiert ein c mit kAxk ≤ ckxk
• Es kann eine Norm kAk = supkxk≤1 kAxk definiert werden. In dieser Norm ist L(X, Y) ein
Banachraum (wenn Y einer ist).
Damit wird L(X) eine Banachalgebra (lineare Operatoren bilden eine Halbgruppe).
• Positive Operatoren: AX+ ⊂ Y+ . Bilden auch einen Verband.
• Ein umkehrbar eindeutiger Operator, dessen inverser auch beschränkt ist heißt invertierbarer. Es ist A−1 : Y −
→ X.
• A ∈ L(X, Y), B ∈ L(Y, Z), (BA)−1 = A−1 B−1
8.3.2
Adjungierte Operatoren
Es sei A : X −
→ Y ein linearer beschränkter Operator und X∗ und Y∗ die zu X bzw. Y dualen
Räume. hAx, y ∗i ist für festes x eine lineare beschränkte Abbildung nach R. D.h. ein Funktional
auf X. Es existiert also ein x∗ sodaß hAx, y ∗i = hx, x∗ i. Wir nennen die Abbildung y ∗ −
→ x∗
∗ ∗
∗
adjungierten Operator und schreiben x = A y .
Der adjungierte Operator hat folgende Eigenschaften:
• Eindeutig definiert, linear, beschränkt
• A∗ ∈ L(Y∗ , X∗ ), d.h., A∗ : Y∗ −
→ X∗ .
Zu beachten ist, daß der adjungierte Operator die dualen Räume in umgekehrter Richtung
abbildet.
• kA∗ k = kAk.
• A ∈ L(X, Y), B ∈ L(Y, Z), dann ist (BA)∗ = A∗ B∗
• A∗∗ = A
X
• Ein Operator in L(Y∗ , X∗ ) muß keinen prädualen besitzen. Im weiteren betrachten wir
nur Operatoren in L(Y∗ , X∗ ), die einen prädualen besitzen.
• ∃ A−1 ⇐⇒ ∃ (A∗ )−1 , (A∗ )−1 = (A−1 )∗
142
8 ZUSTANDSÄNDERUNGEN
• Im Hilbertraum wird häufig von symmetrischen oder selbstadjungierten Operatoren gesprochen, wenn A = A∗ gilt. Es ist klar, daß man in allgemeinen Banachräumen für zwei
Operatoren A : X −
→ Y und A∗ : Y∗ −
→ X∗ Gleichheit nur im Falle von X = Y∗ und Y = X∗ ,
also in reflexiven Banachräumen, definieren kann.
In nichtreflexiven Banachräumen definieren wir Symmetrie folgendermaßen:
Ein Operator A : X −
→ X∗ heißt symmetrisch, wenn die Einschränkung von A∗ : X∗∗ −
→ X∗
auf X mit A übereinstimmt. Dann gilt hx1 , Ax2 i = hx2 , Ax1 i für x1 , x2 ∈ X.
Ist X ein Hilbertraum, dann ist diese Definition mit der im Hilbertraum gebräuchlichen
identisch. Analoges gilt für reflexive Räume.
Der Begriff selbstadjungierter Operator wird im allgemeinen verwendet für symmetrische
unbeschränkte Operatoren mit zusätzlichen Einschränkungen. Ein beschränkter symmetrischer Operator ist immer selbstadjungiert.
• Im endlich dimensionalen Raum bedeutet der Übergang zum adjungierten Operator das
Transponieren der Matrix. Man sieht, daß die transponierte Matrix zwischen anderen
Räumen abbildet als die Matrix selbst, wenn man rechteckige Matrizen betrachtet.
8.3.3
Weitere Eigenschaften. Bemerkungen
• Definitionsbereich ist immer ein linearer Raum, auch wenn wir uns nur für eine konvexe
Menge interessieren.
• Topologien in L(X, Y) siehe DS I S.512ff
• Konvexe Teilmengen in L(X, Y) haben den selben starken und schwachen Abschluß (DS
I S.514 Nr.5)
• Unterräume
• Kern, Image, Definitionsbereich eines Operators.
• Abgeschlossene Operatoren (DS I S.524). Bei beschränkten Operatoren bedeutet Abgeschlossenheit, daß der Wertebereich abgeschlossen ist.
• AX = {y | A∗ y ∗ = 0 =⇒ hy, y ∗i = 0}
• Die Umkehrung: A∗ Y∗ = {x∗ | Ax = 0 =⇒ hx, x∗ i = 0} Stimmt im Allgemeinen nicht.
Aber es gilt: AX = AX ⇐⇒ A∗ Y∗ = A∗ Y∗
• Kompakte Operatoren (DS I S.522)
• Schwach kompakte Operatoren (d.h., sie bilden abgeschlossene beschränkte Mengen in
kompakte ab): A ist schwach kompakt ⇐⇒ A∗∗ X∗∗ ⊂ X (siehe DS I S.519)
• A ist stetig bedeutet, daß aus xn −
→ x folgt Axn −
→ Ax.
• ÜA 24 a) A stetig =⇒ A schwach stetig. Beweis:
• ÜA 24 b) A stetig =⇒ A∗ vage stetig. Beweis:
8.3 Mathematische Grundlagen: Beschränkte lineare Operatoren
8.3.4
143
Darstellung beschränkter Operatoren in C und seinen dualen
Aus der Theorie der Operatoren im endlichdimensionalen Raum ist bekannt, daß man Operatoren durch Matrizen darstellen kann. Diese Darstellung hängt von den gewählten Basen ab.
Es sei A : Rn −
→ Rm ein Operator und (ei ) ⊂ Rn , (ej ) ⊂ Rm , (e∗i ) ⊂ R∗n , (e∗j ) ⊂ R∗m Basen.
Dann ist bekannt, daß man dem Operator A eine Matrix (aij )n,m
i,j=1 zuordnen kann. Diese Matrix
erhält man als Wirkung des Operators in dieser Basis in der dualen Paarung. Es ist
aij = hAei , e∗j i
Mit dieser Matrix läßt sich die Wirkung des Operators als Summe darstellen:
(Ax)j =
n
X
aij xi .
i=1
Der adjungierte Operator A∗ : R∗m −
→ R∗n hat wegen aij = hAei , e∗j i = hei , A∗ e∗j i dieselbe Matrix.
Seine Wirkung läßt sich wieder als Summe
∗ ∗
(A y )i =
m
X
aij yj∗
j=1
darstellen. Die Summation läuft über den anderen Index. Das heißt, die Matrix des adjungierten
Operators ist die transponierte des ursprünglichen Operators.
Meistens wählt man in Rm und R∗m dieselbe Basis – die kanonische Basis ej = (0, ..., 0, 1, 0, ..., 0)
mit einer 1 an der j-ten Stelle. Aus dem Kapitel 3, Punkt 3.3.8 (Seite 30) ist bekannt, daß diese
Vektoren zwar die kanonische Basis in R∗m sind, aber es in Rm natürlicher ist, die Darstellungen
von Teilmengen (und nicht von Punkten) zu betrachten. Sie bilden zwar keine Basis, ergaben
sich aber kanonisch als Einbettung 2Z ⊂ Z∗ = C(Z). Im endlichdimensionalen Raum wird das
nicht gemacht, eben weil die Teilmengen keine Basis bilden. Dieser prinzipielle Unterschied
zwischen Rm und R∗m läßt sich ignorieren.
Im unendlichdimenionalen Raum ist das nicht mehr möglich. Es gibt in C(Z) keine kanonische
Basis. In C∗ (Z) gibt es eine kanonische Basis – nämlich Pe – allerdings ist das eine vage Basis.
Definition: Eine Menge (xn ) heißt starke/schwache/vage Basis in P
X, wenn es zu jedem x ∈ X
eine eindeutig bestimmte Folge (an ) von Skalaren derart gibt, daß ni=1 ai xi mit n −
→ ∞ gegen
x stark/schwach/vage konvergiert. Spricht man allgemein von “Basis”, meint man eine starke
Basis.
In C(Z) und C∗ (Z) gibt es im allgemeinen keine kanonischen starken Basen. Trotzdem läßt sich
auch im allgemeinen Fall für jeden beschränkten linearen Operator A : C(Z′ ) −
→ C(Z) soetwas
wie eine “Matrix” finden. Sie wird Integralkern genannt. Man findet ihn formal, wenn man
den Operator A∗∗ : C∗∗ (Z′ ) −
→ C∗∗ (Z) (das ist der zu A∗ : C∗ (Z) −
→ C∗ (Z′ ) adjungierte Operator)
auf die “kanonische Basis” (1B′ ) ⊂ C∗∗ (Z′ ), B ′ ∈ B(Z′ ) anwendet (das entspricht (ei ) ∈ Rn )
und mit der kanonischen Basis (δz ) ⊂ C∗ (Z) (das entspricht (e∗j ) ∈ R∗m ) paart. Das ergibt
a(B ′ , z) = hA∗∗ 1B′ , δz i
Die Wirkung des Operators A : C(Z′ ) −→ C(Z) läßt sich dann nach dem Satz von Riesz als
Lebesgueintegral mit dem Integralkern a(B ′ , z) darstellen
Z
(Ag)(z) =
g(z ′ )a(dz ′ , z) .
(25)
Z′
144
8 ZUSTANDSÄNDERUNGEN
In dieser Darstellung ist a(·, z) als Schar von Maßen mit dem Scharparameter z zu verstehen.
Für festes z ist a(·, z) ein Maß, das auf Borelmengen
definiert ist, d.h. der Ausdruck a(B ′ , z) mit
R
B ′ ∈ B(Z′ ) hat Sinn. Das
g(z ′ )a(dz ′ , z) ist dann genauso zu verstehen wie
Z′
R Lebesgueintegral
das Lebesgueintegral Z′ g(z ′ )p(dz ′ ) mit einem Maß p ∈ C∗ (Z′ ), für das p(B ′ ) mit B ′ ∈ B(Z′ )
Sinn hat. p(dz ′ ) ist soetwas wie “das Maß p ausgewertet auf einer Infinitesimalen Borelmenge
dz ′ ∈ B(Z′ )”.
R
Bemerkung: Hier sieht man, daß für das Lebesgueintegral
die
Notation
g(z)p(dz) intuiP
tiv verständlich ist alsR Grenzwert von Summen
g(z
)p(B
)
mit
“B
−
→
{z
i
i
i
i }”. Die häufig
i
verwendete
Notation g(z)dp(z) ist intuitiv eigentlich als Grenzwert von Summen der Form
P
g(z
)(p(z
i
i ) − p(zi−1 )) zu verstehen und ist damit nicht für das Lebesgue- sondern für das
i
Stieltjesintegral (eine Verallgemeinerung des Riemannintegrals) geeignet.
Tatsächlich ist die Darstellung (25) nicht nur formal richtig. Ag ist ein Element aus C(Z), also
eine stetige Funktion Z −
→ R. Diese Funktion kann also am Punkt z ausgewertet werden. Das
sei (Ag)(z). Offensichtlich ist das für festes z ∈ Z und beliebiges g ∈ C(Z′ ) ein lineares (weil A
linear ist) und beschränktes (weil A beschränkt ist) Funktional, also ein Element aus C∗ (Z′ ).
Wir nennen es az , wobei der Index z den festgehaltenen Parameter z ∈ Z bezeichnet. Es ist also
(Ag)(z) = haz , gi. Das ist gerade die Darstellung (25) (unter Berücksichtigung des Rieszschen
Satzes) mit az = a(·, z).
Und umgekehrt, jede Schar (az )z∈Z ⊂ C∗ (Z′ ) definiert durch (Ag)(z) = haz , gi einen linearen Operator, der allerdings nur dann ein beschränkter Operator ist, wenn die Schar (az )z∈Z
bezüglich des Parameters z vage stetig ist.
Es gilt folgender
Satz: (siehe DS I, S.527ff, Semadeni S.323) Zu jedem A ∈ L(C(Z′ ),C(Z)) existiert eine Abbildung a : B(Z′ ) × Z −
→ R mit a(·, z) ∈ C∗ (Z′ ), die als Schar a(·, z) z∈Z vage stetig ist, derart,
daß (Ag)(z) = hg, a(·, z)i und kAk = supz∈Z ka(·, z)k.
Und umgekehrt: Jede vage stetige Schar a(·, z) z∈Z ⊂ C∗ (Z′ ) definiert einen beschränkten
linearen Operator aus L(C(Z′ ), C(Z)).
Bemerkung: Der Begriff “Integralkern” eines Operators (häufig auch einfach “Kern” des Operators) genannt, darf nicht mit dem Begriff “Kern” des Operators im Sinne von Nullraum (die
Punkte, die in die 0 abgebildet werden) verwechselt werden.
Der adjungierte zu A Operator A∗ : C∗ (Z) −→ C∗ (Z′ ) läßt sich ebenfalls als Integraloperator
darstellen. Es sei p ∈ C∗ (Z), dann ist A∗ p ∈ C∗ (Z′ ) ebenfalls ein Maß, das sich auf Borelmengen
B ′ ∈ B(Z′ ) auswerten läßt. Wir berechnen (A∗ p)(B ′ ): Wegen
Z
Z Z
Z
∗
′
′
′
′
hg, A pi = hAg, pi =
g(z )a(dz , z) p(dz) =
g(z )
a(dz , z)p(dz)
Z
Z′
Z′
Z
ist (A∗ p)(dz ′ ) = Z a(dz ′ , z)p(dz) und damit
Z
∗
′
(A p)(B ) = a(B ′ , z)p(dz)
R
Z
Dieser Ausdruck ist folgendermaßen zu verstehen: Wir fixieren B ′ ∈ B(Z′ ). Dann ist a(B ′ , ·)
eine stetige Funktion in C(Z). Wir können sie dual mit einem p ∈ C∗ (Z) paaren. Das Ergebnis
ist (A∗ p)(B ′ ).
8.4 Markowoperatoren
8.4
137
Markowoperatoren
Im Gegensatz zu dynamischen Systemen, bei denen ϕ : Z −
→ Z′ eine beliebige stetige, vorwärts
in der Zeit abbildende Abbildung war, sind im C − P-Kontext nur lineare Abbildungen (lineare Operatoren) als Zustandsänderung von Interesse. Mit den heuristischen Betrachtungen
im Abschnitt 8.2 auf Seite 130 haben wir uns klargemacht, daß physikalsich sinnvolle Zustandsänderungen lineare Operatoren sind, die P(Z) nach P(Z′ ) abbilden. Diese Eigenschaft
haben Operatoren M∗ , die adjungierte von Operatoren M : C(Z′ ) −
→ C(Z) mit den Eigenschaften M ≥ 0 und M1′ = 1, sind. Solche Operatoren heißen Markowoperatoren.
Es zeigt sich, daß auch die Umkehrung in folgendem Sinne gilt: Falls ein Operator der adjungierte eines Operators ist und P(Z) nach P(Z′ ) abbildet, dann ist er der adjungierte eines
Markowoperators.
Es gibt Operatoren, die P(Z) nach P(Z′ ) abbilden und nicht adjungierte Operatoren sind (also
keinen präadjungierten besitzen). Es ist aus verschiedenen Gründen sinnvoll, solche Operatoren
nicht zu betrachten. Im weiteren werden
wir stets ohne es explizit zu erwähnen,
annehmen, daß
ein Operator aus L C∗ (Z), C∗ (Z′ ) einen präadjungierten aus L C(Z′ ), C(Z) besitzt.
8.4.1
Definition und wichtigste Eigenschaften
Markowoperatoren sind positive und 1 erhaltende Operatoren. Wir bezeichen die Menge der
Markowoperatoren mit
M Z′ ), Z = M ∈ L C(Z′ ), C(Z) | M ≥ 0, M1′ = 1
Im Falle Z′ = Z bezeichnen wir die Menge der Markowoperatoren mit M(Z). Wo klar
ist,
′
zwischen welchen Räumen die Operatoren wirken, schreiben wir M anstelle von M Z ), Z oder
M(Z).
Wir fassen die wichtigsten Eigenschaften von Markowoperatoren zusammen und beweisen sie
anschließend in einzelnen Sätzen, die zum Teil allgemeiner sind und insbesondere Umkehrungen
enthalten.
•
•
•
•
•
M ∈ M ⇐⇒ M∗ P ⊂ P
|Mg| ≤ M|g|
kMk = 1
M ist konvex.
M(Z) bildet eine Halbgruppe. Die Identität I ist die Einheit.
Satz: M ≥ 0 ⇐⇒ M∗ ≥ 0.
Beweis(=⇒): Es sei p ≥ 0, es ist zu zeigen, daß hg, M∗pi ≥ 0 für alle g ≥ 0. Es sei g ≥ 0 beliebig.
Dann ist auch Mg ≥ 0, da M ≥ 0. Es folgt hMg, pi ≥ 0, weil p ≥ 0. Aber hMg, pi = hg, M∗ pi.
Beweis(⇐=): Analog.
Satz: M1′ = 1 ⇐⇒ h1, pi = 1 =⇒ h1, M∗ pi = 1, p ∈ P .
Beweis(=⇒): Es sei M1′ = 1 und h1, pi = 1. Dann gilt
1 = h1, pi = hM1, pi = h1, M∗ pi
Beweis(⇐=): Sei umgekehrt h1, pi = 1 und h1, M∗ pi = 1 für p ∈ P. Dann folgt hM1 − 1, pi = 0
für alle p ∈ P. Da P total in C∗ ist, folgt M1 − 1 = 0.
Folgerung: M ≥ 0, M1 = 1 ⇐⇒ M∗ P ⊂ P′ .
138
8 ZUSTANDSÄNDERUNGEN
Satz: (1184 S.135) |Mg| ≤ M|g| ⇐⇒ M ≥ 0
Beweis(=⇒): g ≥ 0, 0 ≤ |Mg| ≤ M|g| = Mg
Beweis(⇐=): |Mg| = |M(g+ − g− )| = |Mg+ − Mg− | ≤ |Mg+ | + |Mg− | = Mg+ + Mg− =
M(g+ + g− ) = M|g|.
Die Positivität wurde im Schritt |Mg± | = Mg± benutzt.
Satz: (siehe 1184 S.169) Es sei M1 = 1. Dann
ist M ≥ 0 ⇐⇒ kMk ≤ 1
Beweis(=⇒): M ≥ 0 =⇒ |Mg| ≤ M|g| ≤ Mkgk · 1 = kgk =⇒ supg |Mg| ≤ kgk =⇒ kMk ≤ 1.
Tatsächlich gilt kMk = 1, wenn man g = 1 setzt.
Beweis(⇐=): Zum Beweis benutzen wir die Äquivalenz
kg − f k ≤ r ⇐⇒ f − r 1 ≤ g ≤ f + r 1
Es sei 0 ≤ g ≤ 2 =⇒ −1 ≤ g − 1 ≤ 1 =⇒ kg − 1k ≤ 1 Jetzt gilt
kMg − 1k = kMg − M1k = kM(g − 1)k ≤ kg − 1k ≤ 1
=⇒ −1 ≤ Mg − 1 ≤ 1 =⇒ 0 ≤ Mg ≤ 2.
Satz: M ist konvex.
Beweis: Es sei M1 , M2 ∈ M und α1 , α2 ∈ R mit α1 ≥ 0, α2 ≥ 0 und α1 + α2 = 1. Wir beweisen
α1 M1 + α2 M2 ∈ M:
Da α1 ≥ 0, α2 ≥ 0 und die Menge der positiven Operatoren einen Kegel bilden, ist auch
α1 M1 + α2 M2 ≥ 0.
Weiter gilt (α1 M1 + α2 M2 )1′ = α1 M1 1′ + α2 M2 1′ = α1 1 + α2 1 = (α1 + α2 )1 = 1.
Satz: M(Z) bildet eine Halbgruppe. Die Identität I ist die Einheit.
Beweis: Es sei M1 , M2 ∈ M(Z). Wir beweisen M2 M1 ∈ M(Z).
Es sei g ≥ 0, dann ist M1 g ≥ 0 und M2 (M1 g) ≥ 0, weil M1 , M2 positive Operatoren sind.
Es sei Mi 1 = 1. Dann ist M2 M1 1 = M2 1 = 1.
Zum Beweis, daß I die Einheit ist, ist zu zeigen, daß I Markowoperator ist, was wegen Ig = g
für alle g ∈ C(Z) offensichtlich ist.
8.4.2
Beispiele
→ R eine stetig differenzierbare, monoton nicht
ÜA 28) Es sei Z = Z′ = [0, 1]. und h : [0, 1] −
fallende Funktion mit h(0) = 0 und h(z) > 0 für z > 0. Wir definieren einen Operator
M : C(Z′ ) −
→ C(Z) durch
Z z
1
(Mg)(z) =
h′ (z ′ )g(z ′ )dz ′
h(z) 0
Beweisen Sie, daß es sich um einen Markowoperator handelt. Bestimmen Sie den adjungierten Operator.
ÜA 29) Es sei (Z, C, P) (Z′ , C′ , P′ ) gegeben. Es seien h1 , ..., hn ∈ C. Weiter seien A1 , ..., An
disjunkte abgeschlossene Teilmengen von Z′ und p1 , ..., pn W-Maße aus P′ mit pi (Ai ) = 1.
Welche Eigenschaften müssen die hi haben, damit der Operator
Xn
hg, pi ihi
Mg =
i=1
ein Markovoperator M : C(Z′ ) −
→ C(Z) ist? Wann ist M ein Projektor?
139
8.4 Markowoperatoren
8.4.3
Darstellung von Markowoperatoren. Bedeutung des Integralkerns
Wie jeder beschränkten Operator kann man auch Markowoperatoren auf eindeutige Weise als
Integraloperatoren mit einem Integralkern ω(B ′ , z) darstellen. Es gilt
Z
(Mg)(z) =
g(z ′ )ω(dz ′ , z) = hg, ω(·, z)i
(26)
′
Z
Z
∗
′
(M p)(B ) =
ω(B ′ , z)p(dz) = hω(B ′, ·), pi
(27)
Z
Der Integralkern ω hat folgende speziellen Eigenschaften, die aus den Eigenschaften von Markowoperatoren folgen.
• ω(B ′ , z) ≥ 0 (folgt aus M ≥ 0)
• ω(Z′ , ·) = 1 (folgt aus M1′ = 1)
• ω : B′ × Z −
→ [0, 1]
• ω(·, z) ∈ P(Z′ )
• ω(B ′ , ·) ∈ C(Z)
Offenbar ist ω(B ′ , z) = (M∗ δz )(B ′ ). Die Funktion ω(B ′, z) läßt sich für festes z als Wahrscheinlichkeit interpretieren, nämlich als Wahrscheinlichkeit, daß sich das System nachher (nach der
Zustandsänderung) in einem Zustand aus B ′ befindet, wenn es sich vorher im Zustand z befand.
Daher wird der Integralkern ω(B ′, z) oft auch als Übergangswahrscheinlichkeit bezeichnet.
Die Menge der Markovoperatoren M(Z) ist eine konvexe Untermenge der Algebra L(C) und
bildet eine nichtkommutative Halbgruppe weil M = M2 M1 wieder Markovoperator ist.
Hieraus folgt, daß für die Kerne (das seien entsprechend ω, ω2, ω1 )
Z
ω(B, z) = ω2 (B, ·), ω1 (·, z) = ω2 (B, z ′ )ω1 (dz ′ , z)
Z
gilt. Diese Eigenschaft heißt manchmal auch Markowbedingung. Hier ist sie eine Folge davon,
daß M eine Halbgruppe ist und keine zu fordernde Bedingung.
8.4.4
Ungleichungen mit Markowoperatoren
Markowoperatoren genügen einer Vielzahl von fundamentalen Ungleichungen, die relativ einfach
zu beweisen sind.
• |Mg| ≤ M|g| (siehe Satz auf S. 148).
• gmin ≤ (Mg)(z) ≤ gmax
Beweis: Folgt aus gmin 1 ≤ g ≤ gmax 1 nach Anwendung von M auf diese Ungleichung.
Bemerkung: Diese Ungleichung wird häufig “Maximumprinzip” genannt und bezeichnet
die Eigenschaft von gewissen Differentialgleichungen, daß der Wertebereich der Lösung innerhalb gewisser Grenzen bleibt. Das hängt damit zusammen, daß die Lösungsoperatoren
dieser Differentialgleichungen Markowoperatoren sind.
• MC[a,b] ⊂ C[a,b] (ist einen andere Formulierung des Maximumprinzips).
140
8 ZUSTANDSÄNDERUNGEN
• (M − I)g (zmax ) ≤ 0 ≤ (M − I)g (zmin ).
Beweis: Folgt aus gmin = g(zmin ) ≤ (Mg)(zmin ) und (Mg)(zmax ) ≤ g(zmax ) ≤ gmax
Des weiteren gibt es viele Ungleichungen, die für reelle Zahlen bekannt sind und sich wörtlich auf
Markowoperatoren übertragen lassen. Der Beweis kann häufig nach der selben Methode ablaufen, die gleich für die Tschebyschew-Ungleichung demonstriert wird. Der Beweis basiert darauf,
daß zwischen Ungleichungen für reelle Zahlen wie g(z) ≥ 0 und Ungleichungen für Funktionen
g ≥ 0 hin- und hergesprungen wird, indem man die Argumente fixiert bez. beweglich läßt.
Das ist möglich, weil Markowoperatoren positive Operatoren sind und deshalb auf Ungleichungen angewendet werden können. Außerdem bewirkt die 1-Erhaltung, daß Markowoperatoren
Skalare nicht verändern, indem Sinn, daß M(c1) = cM1 = c1 gilt.
• Tschebyschew-Ungleichung:
Es seien f und g gleichsinnig monoton, dann gilt Mg · Mf ≤ M(g · f ).
Beweis: Zwei Funktionen f und g heißen gleichsinnig monoton, wenn für alle z, z ′ ∈ Z
gilt (beachte, daß die Funktionen selbst nicht monoton sein müssen):
f (z) − f (z ′ ) g(z) − g(z ′ ) ≥ 0
In dieser Ungleichung fixieren wir als erstes z ′ und wenn dann M auf die Ungleichung mit
beweglichem z an. Anschließend wird dasselbe nochmal für z durchgeführt. Das ergibt
folgende Ungleichungskette:
0 ≤ f (z) − f (z ′ ) g(z) − g(z ′ ) = f (z)g(z) − f (z ′ )g(z) − g(z ′ )f (z) + f (z ′ )g(z ′ )
0 ≤ f · g − f (z ′ ) · g − g(z ′ ) · f + f (z ′ )g(z ′ ) · 1
0 ≤ M(f · g) − f (z ′ ) · Mg − g(z ′ ) · Mf + f (z ′ )g(z ′ ) · 1
0 ≤ M(f · g) (z) − f (z ′ ) · (Mg)(z) − g(z ′ ) · (Mf )(z) + f (z ′ )g(z ′ )
0 ≤ M(f · g) (z) · 1 − (Mg)(z) · f − (Mf )(z) · g + f · g
0 ≤ M(f · g) (z) · 1 − (Mg)(z) · (Mf ) − (Mf )(z) · Mg + M(f · g)
0 ≤ M(f · g) · 1 − (Mg) · (Mf ) − (Mf ) · (Mg) + M(f · g)
0 ≤ 2 M(f · g) − 2(Mg) · (Mf )
• Cauchy-Bunjakowski-Schwarz-Ungleichung:
2
M(f · g) ≤ Mf 2 · Mg 2
Beweis: Wie eben erhalten wir ausgehend von einer offensichtlichen Ungleichung für
reelle Zahlen eine Ungleichung für Markowoperatoren:
2
0 ≤ f (z)g(z ′ ) − f (z ′ )g(z) = f 2 (z)g 2 (z ′ ) + f 2 (z ′ )g 2 (z) − 2f (z)g(z)f (z ′ )g(z ′ )
0 ≤ g 2 (z ′ ) · f 2 + f 2 (z ′ ) · g 2 − 2f (z ′ )g(z ′ ) · f · g
0 ≤ g 2 (z ′ ) · Mf 2 + f 2 (z ′ ) · Mg 2 − 2f (z ′ )g(z ′ ) · M(f · g)
0 ≤ g 2 (z ′ ) · (Mf 2 )(z) + f 2 (z ′ ) · (Mg 2 )(z) − 2f (z ′ )g(z ′ ) · M(f · g) (z)
0 ≤ (Mf 2 )(z) · g 2 + (Mg 2 )(z) · f 2 − 2 M(f · g) (z) · f · g
0 ≤ (Mf 2 )(z) · (Mg 2 ) + (Mg 2 )(z) · (Mf 2 ) − 2 M(f · g) (z) · M(f · g)
0 ≤ 2(Mf 2 ) · (Mg 2 ) − 2 M(f · g) · M(f · g)
8.4 Markowoperatoren
141
Bemerkung:
Im endlich dimensionalen Fall sind das Ungleichungen für Matrizen, die man explizit beweisen
kann. Dabei wird deutlich, wie die Beweise “im Inneren” ablaufen.
8.4.5
Die Jensensche Ungleichung in C × P
Im weiteren sei stets F : R −
→ R ∪ {+∞} eine konvexe Funktion.
Satz: Es sei g ∈ C(Zn ) und p ∈ P(Zn ). Dann gilt
!
n
n
X
X
pi F (zi ) ≥ F
pi zi
i=1
i=1
Satz: Es sei z1 , ..., zn ∈ Z und p ∈ P(Zn ). Dann gilt
hF (g), pni ≥ F (hg, pni)
(28)
Satz: Es sei g ∈ C(Z) und p ∈ P(Z). Dann gilt
hF (g), pi ≥ F (hg, pi)
(29)
Satz: Es sei g ∈ C(Z) und M ∈ M(Z). Dann gilt
MF (g) ≥ F (Mg)
(30)
Satz: Es sei g ∈ C(Z), p ∈ P(Z) und M ∈ M(Z). Dann gilt
hF (g), M∗ pi = hMF (g), pi ≥ hF (Mg) , pi
(31)
Die letzte Ungleichung heißt Karamata-Ungleichung und kann auch äquivalent als
hF (g ′ ), p′i ≥ hF (g), pi
mit p′ = M∗ p und g = Mg ′ , geschrieben werden.
8.4.6
Markowketten
Findet in jedem Zeittakt dieselbe Zustandsänderung statt, erhält man eine Folge von Zuständen,
die Markowkette genannt wird.
• Definition 1: Eine Folge von Maßen (p0 , p1 , ...) heißt Markowkette, falls es einenMarkowoperator M gibt, sodaß pn+1 = M∗ pn .
• Definition 2: Eine Markowkette ist ein Paar (M, p0 ). Die Trajektorie der Markowkette
heißt die Folge (p0 , M∗ p0 , (M∗ )2 p0 , ...)
• Wir sagen einfach: Ein Markowoperator generiert eine M-Kette und interessieren uns für
die Folge der Potenzen eines gegebenen Markowoperators. Insbesondere interessiert uns,
ob es ein M∞ = lim Mn gibt.
n→∞
142
8.4.7
8 ZUSTANDSÄNDERUNGEN
Beispiel. Der Fall n = 2
Für Z = {1, 2} gibt es vier mögliche Funktionen ϕ : Z −
→ Z. Ihnen entsprechen die 4 deterministischen M-Operatoren
0 1
1 0
0 1
1 0
, M11 =
, M10 =
, M01 =
M00 =
1 0
1 0
0 1
0 1
Invertierbar sind M00 und M11 .
Ein allgemeiner Markowoperator hat die Matrix
1−a
a
1 0
−a
a
M=
=
+
=I+B
b
1−b
0 1
b −b
mit a, b ∈ [0, 1]. D.h., jedem Punkt aus [0, 1] × [0, 1] kann eineindeutig ein Markowoperator
zugeordnet werden. Die deterministischen Markowoperatoren sind die extremalen Elemente
dieser Menge.
Wie berechnen Mn . Dazu zerlegen wir M. Es ist
1
1 −a
1
0
1−a
a
b a
−1
−1
, C =
C , C=
=C
M=
1
b
0 1−a−b
b
1−b
a + b −1 1
Hieraus folgt
1
b + a(1 − a − b)n a − a(1 − a − b)n
1
0
−1
n
C =
M =C
0 (1 − a − b)n
a + b b − b(1 − a − b)n a + b(1 − a − b)n
Man sieht, daß genau im Fall |1 − a − b| = β < 1 ein Grenzwert
1
b a
∞
P=M =
a+b b a
existiert. Es ist
1
p1
b b
∗
=
P p=
p2
a+b a a
b
a+b
a
a+b
=µ
P∗ ist ein Projektor auf den von µ aufgespannten Unterraum.
Die Gleichung, die zu M∗ = I∗ + B∗ gehört ist
p1 (n + 1) = p1 (n) − ap1 (n) + bp2 (n)
p2 (n + 1) = p2 (n) + ap1 (n) − bp2 (n)
Man kann diese Gleichung auf zwei Weisen interpretieren:
• Es wird mit Wahrscheinlichkeit a vom Zustand 1 in den Zustand 2 und mit Wahrscheinlichkeit b vom Zustand 2 in den Zustand 1 gewechselt. Die Komplemente 1 − a und 1 − b
bedeuten, daß kein Zustandswechsel stattfindet.
• Es findet zwischen den beiden Zuständen 1 und 2 ein Austausch statt. Zu dem Anteil,
der schon da ist, wird der a-te Anteil 1 −
→ 2 und der b-te Anteil 2 −
→ 1 transportiert.
143
8.4 Markowoperatoren
8.4.8
Ereignisketten und Markowketten
Änderungen im Raum der physikalischen Zustände P werden durch adjungierte von Markowoperatoren beschrieben. Die Trajektorie eines physikalischen System, das im Zustand p0 startet,
kann dann beschrieben werden durch eine Abfolge von Operatoren, die von einer diskreten
(Zeitsprünge t0 → t1 , t1 → t2 , t3 → t4 ) oder kontinuierlichen Zeit (t2 ≤ t ≤ t3 ) abhängen:
p0
M∗ (t0 →t1 )
→
−
p1
M∗ (t1 →t2 )
→
−
p2
M∗ (t2 ≤t≤t3 )
→
−
p3
M∗ (t3 →t4 )
→
−
p4 ...
Ziel ist es, bei gegebenen Operatoren (Zustandsänderungen) die möglichen Zustände zu berechnen.
Die einfachsten solchen Ketten mit diskreter Zeit sind Markowketten.
8.4.9
Markowprozesse
Wir hatten Markowketten als Folgen von Maßen (p0 , p1 , p2 , ...) ⊂ P mit pn+1 = M∗ pn definiert
mit einem Markowoperator M. Betrachtet man seine Potenzen als Funktion des Exponentes
T(n) = Mn , dann ist T : N −
→ M wegen T(n + m) = T(n)T(m) = T(m)T(n) und T(0) = I
ein Homomorphismus der kommutativen Halbgruppe N bezüglich der Addition.
Analog kann man Homomorphismen der kommutativen Halbgruppe R+ bezüglich der Addition
betrachten: T : R −
→ M. T(t) ist eine Operatorenhalbgruppe mit den Eigenschaften
T(0) = I
T(t1 + t2 ) = T(t1 )T(t2 ) = T(t2 )T(t1 )
Die Trajektorie p(t) = T∗ (t)p0 in P wird Markowprozeß genannt.
Analog dazu, wie ein Markowoperator M (als erster Schritt) zusammen mit eimen Anfangswert p0 eine gesamte Markowkette T(n) = Mn definiert, definiert der Operator A (genannt
Generator) durch die Differentialgleichung
ṗ(t) = A∗ p(t), p(0) = p0
einen Markowprozeß T(t) = eAt .
Während bei Markowketten M = T(1) gilt, gilt bei Markowprozessen A = T′ (0). Allerdings
ist der Zusammenhang zwischen Generator, Differentialgleichung und Halbgruppe nicht trivial
(im Gegensatz zu Markowketten) und wird durch relativ komplizierte Theoreme hergestellt.
Damit beschäftigen wir uns im Kapitel 11.
Ist eine Operatorhalbgruppe T(t) gegeben, so ist für alle t2 > t1 ≥ 0 der Operator T(t2 − t1 )
ein Markowoperator und beschreibt durch
p(t2 ) = T∗ (t2 − t1 )p(t1 )
eine Zustandsänderung.
Die Logik ist folgende: Wenn ich annehme, daß meine Trajektorie aus irgendeinem Grund eine
Halbgruppe ist, stellt sich heraus, daß sie mit eine Diffgl. beschrieben werden kann. Es ist nicht
so, daß diese Gleichung die einzig sinnvolle ist und deshalb alle Trajektorien Halbgruppen sind.
Wenn heute häufig solche Gleichungen untersucht werden, dann liegt das nicht an ihrer physikalischen Unversalität sondern daran, daß sich diese Gleichung besonders einfach behandeln
läßt und es eine ausgearbeitet Theorie dazu gibt. Und die Grundlagen dieser Theorie liegen
gerade in der Halbgruppeneigenschaft.
144
8.4.10
8 ZUSTANDSÄNDERUNGEN
Generatoren von Ketten ⇐⇒ Generatoren von Prozessen
Kette
Prozeß
B
A
Halbgruppe
M(n) = (I + B)n
T(t) = exp(At)
Anfangswert
M(0) = I
T(0) = I
Generator
B = M(1) − M(0)
A = T′ (0)
Gleichung
g(n) − g(n − 1) = Bg(n − 1)
g ′ (t) = Ag(t)
Generator
g(n) = Mg(n − 1)
Gleichung
Reihe
Resolvente
M(n) − M(n − 1) = BM(n − 1)
n
P
M(n) =
Bk
k=0
∞
P
F(x) = (1 − x)
n
k
xn M(n)
T′ (t) = AT′(t)
T(t) =
k=0
S(λ) = λ
n=0
= (1 − x)(I − x − xB)−1
= (I −
∞
P
=
x
B)−1
1−x
k=0
x=
∞
P
R∞
k
Ak tk!
e−λt T(t)dt
0
= λ(λ − A)−1
= (I − λ1 A)−1
xB k
1−x
=
∞
P
k=0
1
1+λ
λ=
A k
λ
1−x
x
F(x) = (1 − x)(I − xM)−1
=I+
∞
P
xn BMn−1
n=1
Randwerte
F(0) = I
S(∞) = I
F(1) = M(∞)
S(0) = T(∞)
Hilbert-
F(x)F(y)(x − y) =
S(λ)S(µ)(µ − λ) =
Identität
= x(1 − y)F(x) − y(1 − x)F(y)
= µS(λ) − λS(µ)
Spektrum
Kreis C−1 (1)
linke Halbebene
W-Dichte
p(n) = (1 − x)xn
p(t) = λe−λt
Moment
∞
P
n=0
n
k
p(n) =
xk
(1−x)k
R∞
0
tk p(t) =
k!
λk
8.5 Deterministische Markowoperatoren
8.5
145
Deterministische Markowoperatoren
M ist eine konvexe Menge. Da ist es sinnvoll, sich für die Menge ihrer extremalen Elemente
Me = extr M
zu interessieren. Wenn Markowoperatoren allgemeine Zustandsänderungen sind, dann könnte
man annehmen, daß die extremalen Elemente sowas wie deterministische Zustandsänderungen
sind. Anderererseits wissen wir, daß adjungierte von Kompositionsoperatoren reine Zustände
in reine Zustände überführen. Auch dieses Verhalten kann man als deterministisch bezeichnen.
Schön wäre es, wenn beide Mengen miteinander zusammenhängen würden. Das ist tatsächlich
der Fall. Die extremalen Elemente Me spielen unter den Markowoperatoren eine ausgezeichnete
Rolle. Das zeigt folgender
8.5.1
Hauptsatz über deterministische Markowoperatoren
Satz: Es sei M ∈ M ein Markowoperator. Dann sind folgende Aussagen äquivalent:
i) Es existiert eine stetige Funktion ϕ : Z −
→ Z′ mit M = Mϕ .
ii) M ∈ Me
iii) M∗ Pe ⊂ P′e
iv) M(g · f ) = Mg · Mf , f, g ∈ C (M ist ein algebraischer Homomorphismus)
v) |Mg| = M|g|, g ∈ C (M ist ein Verbandshomomorphismus)
vi) MF (g) = F (Mg), g ∈ C für strikt konvexe F : R −
→R
8.5.2
Wirkung von deterministischen Markowoperatoren
Die Eigenschaft, die deterministische Markowoperatoren aus praktischer Sicht am besten charakterisiert, ist die, ein Kompositionsoperator zu sein. Wir werden daher im weiteren deterministische Markowoperatoren stets als Mϕ bezeichnen.
Die Menge der Kompositionsoperatoren bezeichnen wir mit
K = {A ∈ L C(Z′ ), C(Z) : ∃ ϕ ∈ End(Z) : Ag = g ◦ ϕ}
Offensichtlich sind Kompositionsoperatoren beschränkte lineare Operatoren.
Mϕ g (z) = (g ◦ ϕ)(z) = g ϕ(z)
Es gilt M∗ϕ δz = δϕ(z) Das folgt aus
hg, M∗ϕ δz i = hMϕ g, δz i = hg ◦ ϕ, δz i = g ϕ(z) = hg, δϕ(z)i
Die Wirkung des adjungierten eines Kompositionsoperators ist
M∗ϕ p (B) = p ϕ−1 (B) = (p ◦ ϕ−1 )(B)
Das folgt aus
−1
M∗ϕ p (B) = h1B , M∗ϕ pi = hM∗∗
ϕ 1B , pi = h1B ◦ ϕ, pi = h1ϕ−1 (B) , pi = p ϕ (B)
Die Gleichheit 1B ◦ ϕ = 1ϕ−1 (B) folgt aus ϕ(z) ∈ B ⇐⇒ z ∈ ϕ−1 (B).
146
8 ZUSTANDSÄNDERUNGEN
Die Gleichung für die Definition des adjungierten eines deterministischen M-Operators hMϕ g, pi =
hg, M∗ϕ pi als Integral geschrieben
Z
Z
g ϕ(z) p(dz) =
g(z ′ )p ϕ−1 (dz ′ )
Z
Z′
ist also einfach die Formel für die Variablentransformation im Lebesgue-Integral. Zu beachten
ist, daß es hier keine Jakobideterminante gibt. Die tritt nur auf, wenn man Dichten bezüglich
des Lebesgue-Maßes betrachet (siehe Beispiel in Punkt 8.5.7).
8.5.3
Weitere Eigenschaften deterministischer Markowoperatoren
Weiter gelten folgende weitgehend offensichtliche Eigenschaften:
• Mϕ2 Mϕ1 = Mϕ2 ◦ϕ1 (Unterhalbgruppe)
• Mϕ2 = Mϕ1 ⇐⇒ ϕ2 = ϕ1
• Mϕ ist surjektiv, gdw. ϕ ist injektiv.
• Mϕ ist injektiv, gdw. ϕ ist surjektiv.
• Das Spektrum von deterministischen Markowoperatoren liegt auf dem Einheitskreis (auf
der Peripherie).
Markowoperatoren können invertierbar sein. Im allgemeinen ist der inverse eines Markowoperators nicht wieder ein Markowoperator. Sollte das doch der Fall sein, muß der Markowoperator
ein deterministischer sein. Das kann man sich leicht mit der Jensenschan Ungleichung klar
machen. Es sei N = M−1 und M, N ∈ M. Dann gilt mit einer konvexen Funktion F sowohl
MF (g) ≤ F (Mg) als auch NF (g) ≤ F (Ng). Setzt man in letzteren f = Ng, g = Mf , erhält
man M−1 F (Mf ) ≤ F (f ) oder F (Mf ) ≤ MF (f ). Zusammen mit der ersten Ungleichung folgt
Gleichheit und damit, daß M ein deterministischer Markowoperator ist.
Weiter gilt der
Satz: ∃M−1 ⇐⇒ ∃ ϕ ∈ Aut(Z) mit M = Mϕ und M−1 = Mϕ−1 .
8.5.4
Ein Lemma über extremale Elemente
Vor dem Beweis des Hauptsatzes über deterministische Markowoperatoren formulieren wir ein
Lemma, daß den Umgang mit extremalen Elementen vereinfacht.
Es sei C ⊂ X eine konvexe Menge in einem linearen Raum. Ein Element x ∈ C heißt extremal,
wenn x = αx1 + (1 − α)x2 , x1 , x2 ∈ C, 0 < α < 1 folgt: x1 = x2 .
Das ist so zu verstehen: Die Annahme, daß sich x als konvexe Kombination zweier verschiedener
Elemente darstellen läßt, schlägt fehl.
Lemma: Folgende Aussagen sind äquivalent:
i) x ∈ C ist ein extremales Element.
ii) Aus der Annahme, daß es x1 , x2 ∈ C mit x = 12 x1 + 21 x2 gibt, folgt x1 = x2 = x.
iii) Aus x + x′ ∈ C und x − x′ ∈ C folgt x′ = 0.
Beweis: ÜA 30)
8.5 Deterministische Markowoperatoren
8.5.5
147
Der Beweis des Hauptsatzes
Zum Beweis werden folgende Schritte ausgeführt:
i
i
ii
i
i
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
→ iii
−
→ iv
−
→ iv
−
→
−
v
(9)
→ vi
−
→
−
i
→ iii
−
→
−
→
−
ii
ii
(10)
→ iii
−
Beweis von (1): Es sei M = Mϕ , dann gilt für alle g ∈ C
hM∗ϕ δz , gi = hδz , Mϕ gi = hδz , g ◦ ϕi = g(ϕ(z)) = hδϕ (z), gi
Folglich ist M∗ϕ δz = δϕ (z) ⊂ Pe .
Beweis von (3): Es sei M = Mϕ , dann gilt
Mϕ (g · f ) = (g · f ) ◦ ϕ = (g ◦ ϕ) · (f ◦ ϕ) = Mϕ g · Mϕ f
Beweis von (7): Es sei M = Mϕ , dann gilt Mϕ |g| = |g| ◦ ϕ = |g(ϕ(z))| = |Mϕ g|.
Beweis von (9): Es sei M = Mϕ , dann gilt:
Mϕ F (g) = Mϕ (F ◦ g) = F ◦ g ◦ ϕ = F (g ◦ ϕ) = F (Mϕ g) .
Beweis von (2): Konstruktiv: Es sei M∗ δz = δz ′ . Wir definieren ϕ als ϕ(z) = z ′ . Die Stetigkeit
von ϕ folgt aus der Stetigkeit von M und damit M∗ .
Beweis von (5): (siehe Semadeni S. 83).
Angenommen, M ist extremaler Punkt. Für fixiertes h definieren wir Ag := M(g ·h)−Mg ·Mh.
Sollten M + A als auch M − A Markowoperatoren sein, liegen sie in der konvexen Menge M.
Dann ist aber nach dem Lemma über extremale Elemente A = O, was den Beweis liefert.
Wir beweisen, daß M ± A ∈ M:
Offensichtlich ist (M ± A)1 = 1, weil A1 = 0.
Zum Beweis der Positivität sei g ≥ 0 und h ∈ C[0,1] . Dann gilt
(M + A)g = Mg + M(g · h) − Mg · Mh = (1 − Mh) · Mg + M(g · h) ≥ 0
(M − A)g = Mg − M(g · h) + Mg · Mh = M g · (1 − h) + Mg · Mh ≥ 0
Beweis von (6): Es sei M(g · h) = Mg · Mh, also auch Mg 2 = (Mg)2 . Wir setzen M =
1
M1 + 12 M2 mit M1 , M2 ∈ M und beweisen M1 = M2 . Es ist
2
1
(M1 g)2 +
4
1
=
(M1 g 2) +
2
(Mg)2 =
Mg 2
1
1
(M2 g)2 + (M1 g) · (M2 g)
4
2
1
1
1
(M2 g 2 ) ≥ (M1 g)2 + (M2 g)2
2
2
2
Im letzten Schritt wurde die Jensensche Ungleichung mit der konvexen Funktion F (x) = x3
verwendet. Aus Mg 2 = (Mg)2 folgt
1
1
1
1
0 ≥ (M1 g)2 + (M2 g)2 − (M1 g) · (M2 g) = (M1 g − M2 g)2
4
4
2
4
148
8 ZUSTANDSÄNDERUNGEN
Hieraus folgt M1 g = M2 g und da g beliebig ist M1 = M2 .
Beweis von (10): Let η = M∗ δz . Of course, η ∈ P. We get from MF (g) = F (Mg)
F hg, ηi = F hg, M∗ δz i = F hMg, δz i = F (Mg)(z) = (MF (g))(z) =
= MF (g), δz = F (g), M∗δz = F (g), η .
(32)
We will show that η ∈ Pe . Assuming the opposite, η 6∈ Pe . Then η can be represented as a
convex combination, i.e., there are η1 , η2 ∈ P with η1 6= η2 and η = 21 η1 + 12 η2 . We have from
inequality (29) that
F (g), η1 ≥ F hg, η1i , F (g), η2 ≥ F hg, η2 i .
(33)
Using (32) and (33), we get
1
1
1 1
hg, η1i + hg, η2i = F hg, η1 + η2 i = F hg, ηi = F (g), η =
F
2
2
2
2
1
1
1
1
= F (g), η1 + F (g), η2 ≥ F hg, η1 i + F hg, η2 i ,
2
2
2
2
i.e., with x = hg, η1 i and y = hg, η2i, we get F 12 (x + y) ≥ 21 F (x) + 21 F (y). But F is strictly convex. Therefore, x = y. It follows that hg, η1i = hg, η2i, g ∈ C(Z), hence η1 = η2 , a
contradiction.
Beweis von (8): Analog zu (6)
Beweis von (4): Analog zu (10)
8.5.6
Bemerkungen
• Deterministische Markowoperatoren spielen in der Menge aller Markowoperatoren dieselbe Rolle wie Punktmaße in der Menge der Wahrscheinlichkeitsmaße. Das ist in folgender
Tabelle zusammengetragen:
1)
M ∈ Me
2)
M ∈ extM
3) M(g · f ) = Mg · Mf
4)
|Mg| = M|g|
5)
M∗ Pe ⊂ Pe
p ∈ Pe
p ∈ extP
hg · f, pi = hg, pihf, pi algebraischer Homomorphismus
|hg, pi| = h|g|, pi
Verbands-Homomorphismus
• Anstelle von |Mg| = M|g| gilt auch äquivalent eine der folgenden Bedingungen:
M(g ∨ f ) = Mg ∨ Mf
M(g ∧ f ) = Mg ∧ Mf
• Die Forderungen, daß ein Operator M ein algebraischer oder ein Verbandshomomorphismus ist, ist so stark, daß die Voraussetzung, daß er Markowoperator sein soll, nicht
gebraucht wird. Beim Verbandshomomorphismus ist allerdings eine Normierung, etwa
kMk = 1 zu fordern.
• Neben den offensichtlichen Analogien zwischen M und P bzw. Me und Pe gibt es auch
prinzipielle Unterschiede:
8.5 Deterministische Markowoperatoren
149
– Es ist z −
→ δz die kanonische Einbettung von Z in seinen bidualen C∗ . Es gibt zu
End(Z) keinen dualen und damit auch keinen bidualen Raum. Daher ist auch Mϕ
nicht soetwas wie das Bild der kanonische Einbettung von ϕ.
v
– Des weiteren gilt zwar P = conv(Pe ) , aber nicht ein Analogon zu M, weil nicht klar
ist, in welcher Topologie der Abschluß zu betrachten ist. Selbstverständlich gilt aber
conv(Me ) ⊂ M.
• Falls ϕ unstetig ist, kann man Mϕ – wenn überhaupt – nicht auf ganz C definieren. Ist
etwa Z = [0, 1] und ϕ(z) = z/4 für z < 1/2 und ϕ(z) = z/4 + 1/2 für z > 1/2, dann kann
Mϕ nur auf Funktionen g mit g(1/4) = g(3/4) angewendet werden damit Mϕ g stetig ist.
Das heißt, Mϕ ist nur auf einem abgeschlossenen Unterraum von C definiert. Damit läßt
u.a. auch der adjungierte nicht eindeutig definieren.
• Kann man doch eine geeignete Topologie auf M definieren, eine mit der M kompakt ist?.
Was ergeben die vielen Operatortopologien?
Ist der Abschluß von conv(Me ) in C∗∗ ?
• Neben stetigen ϕ lassen sich auch Borelfunktionen ϕ∗ betrachten:
ϕ−1
→ B(Z)
∗ : B(Z) −
M∗ϕ∗ hat auch Sinn, weil ϕ−1
∗ (B) wieder eine Borelmenge ist. Es gibt aber keinen beschränkten überall auf C(Z) definierten Operator N mit N∗ = M∗ϕ∗ .
8.6 Fixpunktsätze
8.6
151
Fixpunktsätze
Per Definition hat jeder Markowoperator M ∈ M(Z) einen Fixpunkt, nämlich 1, wegen M1 =
1. Mit anderen Worten hat jeder Markowoperator den Eigenwert 1 mit der dazugehörigen
Eigenfunktion 1. Damit hat auch der adjungierte Operator M∗ den Eigenwert 1 und es gibt ein
dazugehörigen Eigenmaß µ ∈ C∗ mit M∗ µ = µ (folgt aus dem Satz von Hahn-Banach). Damit
hat also auch jeder adjungierte eines Markowoperators einen Fixpunkt. Da ein allgemeines
Maß µ ∈ C∗ keine besondere physikalische Bedeutung hat, ist dieser Fakt nicht von besonderem
Interesse.
Es stellt sich aber heraus, daß jeder adjungierte eines Markowoperators sogar einen Fixpunkt
µ ∈ P besitzt. Das ist eine nichttriviale Aussage. Sie bedeutet, daß es für jede Zustandsänderung stets (wenigstens) einen Zustand gibt, der sich nicht ändert. Eine entsprechende Aussage
gibt es in der deterministischen Welt. Offensichtlich hat für Z = {z1 , z1 } die Zustandsänderung, die die Zustände z
1 und z2vertauscht, keinen Fixpunkt. Der zugehörige deterministische
0 1
hat den Fixpunkt µ = ( 12 , 21 ).
Markowoperator M∗ =
1 0
Ein weiters Beispiel ist die Drehung des Einheitskreises (nur die Peripherie) um einen Winkel
ϕ. Diese Drehung hat keinen Fixpunkt. Der M-Operator M∗ϕ hat einen Fixpunkt, nämlich das
uniforme Maß (Lebesgue-Maß). Man kann sich das so vorstellen, daß die konstante Funktion
bei einer Drehung auf sich selbst überführt wird.
Die Existenz eines Fixpunktes µ ∈ P zu jedem adjungierten eines Markowoperators folgt aus
dem Fixpunktsatz von Schauder-Tichonow, der für allgemeine stetige Abbildungen (nicht unbedingt lineare) anwendbar ist.
Im Zusammenhang mit Markowoperatoren wird zur Existenz eines Fixpunktes des adjungierten
meist der Satz von Krein-Rutman herangezogen, der noch weitergehende aussagen über den
Spektralradius eines Markowoperators macht. Im endlich dimensionalen Fall (für Matrizen) ist
dieser Satz als Satz von Frobenius-Perron bekannt.
Darüber hinaus stellt sich heraus, daß auch die adjungierten von Scharen von kommutierenden
Markowoperatoren einen gemeinsamen Fixpunkt haben. Diese Aussage liefert der Fixpunktsatz
von Markow-Kakutani.
Dieser Fixpunktsatz kann insbesondere zum Beweis dafür verwendet werden, daß jede Halbgruppe T(t) einen Fixpunkt hat. Genauer: Zu jeder Halbgruppe von Markowoperatoren T(t)
gibt es ein µ ∈ P, sodaß T∗ (t)µ = µ. Hierbei hängt µ nicht von t ab.
Im Gegensatz zum Banachschen Fixpunktsatz, der die Existenz eines einzigen Fixpunktes beweist und zudem auch noch konstruktiv ist, trifft das für die erwähnten Fixpunktsätze nicht
zu. Das ist kein Mangel der Methode, denn die untersuchten Abbildungen – etwa die identische
Abbildung – haben im allgemeinen keinen eindeutigen Fixpunkt. Es können nur allgemeine
Aussagen, wie die Konvexität und Kompaktheit der Fixpunktmenge getroffen werden. Die oft
interesierende Einzigkeit des Fixpunktes muß mit anderen Methoden (meistens Kontraktionsmethoden, die auf dem Banachschen Fixpunktsatz beruhen) bewiesen werden.
8.6.1
Definitionen
Im Zusammenhang mit Markowketten und Markowprozessen gibt es für Fixpunkte andere
Bezeichnungen.
• Ein stationärer Punkt einer Markowkette ist der Fixpunkt des adjungierten des zugehörenden Markowoperators. Es gilt T∗ (n)µ = µ für alle n ∈ N.
152
8 ZUSTANDSÄNDERUNGEN
• Ein stationärer Punkt eines Markowprozesses ist der Fixpunkt der adjungierten der zugehörenden Markowhalbgruppe (nach dem Satz von Markow-Kakutani). Es gilt T∗ (t)µ =
µ für alle t ∈ R+ .
• Ein Gleichgewichtspunkt einer Markowkette mit Anfangswert p0 ist der Grenzwert
p∞ = lim T∗ (n)p0 , falls er existiert. Ein Gleichgewichtspunkt ist stets ein stationärer
n→∞
Punkt. Die Umkehrung gilt nicht, was offensichtlich ist, da es mehrere stationäre Punkte
aber zu einem Anfangswert p0 nur einen Gleichgewichtspunkt (wenn überhaupt) geben
kann.
• Ein Gleichgewichtspunkt eines Markowprozesses mit Anfangswert p0 ist der Grenzwert
p∞ = lim T∗ (t)p0 , falls er existiert. Ein Gleichgewichtspunkt ist stets ein stationärer
t→∞
Punkt. Die Umkehrung gilt nicht.
Die Bestimmung von stationären Punkten ist im allgemeinen einfacher als der Beweis der
Existenz eines Gleichgewichtspunkt
Im Zusammenhnag mit stationären Punkten und Gleichgewichtspunkten stehen folgende Aufgaben, die im speziellen Fall sehr schwer sein könen.
• Bestimmung der stationären Punkte (im allgemeinen die einfachste der Aufgaben).
• Gibt es einen einzigen stationären Punkt?
• Beweis der Konvergenz zum Gleichgewichtspunkt für einen Anfangswert.
• Falls es einen einzigen stationären Punkt gibt, kann man beweisen, daß alle Trajektorien
(d.h. für alle Anfangswerte) gegen diesen Punkt konvergieren?
• Welche stationären Punkte sind auch Gleichgewichtspunkte für spezielle (oder alle) Anfangswerte?
• Kann man die Geschwindigkeit der Bewegung zum Gleichgewichtspunkt abschätzen?
8.6.2
Der Fixpunktsatz von Schauder-Tichonov
Satz: Sei X ein hausdorffscher, topologischer Vektorraum und C ⊂ X eine nichtleere, kompakte
und konvexe Teilmenge. Dann besitzt jede stetige Abbildung ϕ : C −
→ C einen Fixpunkt.
Beweis: Siehe ...
Wir betrachten die Menge P ⊂ C∗ . C∗ ist mit der vagen Topologie ein Hausdorffraum. Die
Menge P ist konvex und kompakt (in der vagen Topologie). Es sei M∗ der adjungierte eines
Markowoperators. Er bildet die Menge P auf sich selbst ab. Da M stark stetig ist, ist M∗ vage
stetig. Damit sind die Voraussetzungen für die Anwendung des Fixpunktsatz von SchauderTichonov erfüllt.
8.6.3
Der Satz von Krein-Rutman
Satz: Es sei X ein Banachverband und A ein positiver Operator mit positivem Spektralradius
1 ≤ r(A) > 0. Dann gibt es ein positives (nicht triviales) Element x ∈ X+ mit Ax = r(A)x.
Mit anderen Worten: für positive Operatoren ist der Spektralradius ein Eigenwert zu dem
positver Eigenvektor gehört.
Beweis: Siehe ...
8.6 Fixpunktsätze
8.6.4
153
Der Fixpunktsatz von Markow-Kakutani
Bevor wir den Satz formulieren führen wir zwei Definitionen ein (X sei ein Vektorraum und
C ⊂ X eine konvexe Teilmenge):
Eine Abbildung f : C −
→ C heißt auf C affin, wenn für α ∈ [0, 1] und x, y ∈ C gilt:
f (αx + (1 − α)y) = αf (x) + (1 − α)f (y)
Offensichtlich sind lineare Abbildungen affin. Die Umkehrung gilt nicht, denn lineare Abbildungen bilden die 0 in die 0 ab, was für affine Abbildungen nicht der Fall sein muß.
Zwei Abbildungen f, g : C −
→ C kommutieren, falls f ◦ g = g ◦ f .
Satz: Sei X ein hausdorffscher, topologischer Vektorraum und C ⊂ X eine nichtleere, kompakte
und konvexe Teilmenge. Weiter sei Γ eine Menge stetiger, kommutierender affiner Abbildungen
von C nach C. Dann existiert ein Fixpunkt x ∈ C mit f (x) = x für alle f ∈ Γ.
Beweis: Der Unterschied in den Voraussetzungen zum Fixpunktsatz von Schauder-Tichonov
besteht in der viel schärferen Forderung der Affinität der Abbildungen.
Es sei F (f ) ⊂ C die Menge aller Fixpunkte von f . F (f ) hat eine Reihe wichtiger Eigenschaften:
• F (f ) 6= ∅, da nach dem Satz von Schauder-Tichonov wenigstens ein Fixpunkt existiert.
• F (f ) ist konvex, da f affin ist.
• F (f ) ist abgeschlossen
• F (f ) ist kompakt, da sie eine abgeschlossene Teilmenge einer kompakten Menge ist.
Wir betrachten f, g ∈ Γ. Es sei x ∈ F (f ). Da f und g kommutieren gilt f (g(x)) = g(f (x)) =
g(x). Folglich ist auch g(x) ∈ F (f ). Die Einschränkung von g auf die konvexe und kompakte
Menge F (f ) hat nach dem Schauder-Tichonov einen Fixpunkt. D.h., es existiert ein Punkt
x0 ∈ F (f ), der auch Fixpunkt von g ist. Also ist F (f ) ∩ F (g) 6= ∅.
Analog kann man zeigen, daß endliche Teilmenge aus Γ einen gemeinsamen Fixpunkt hat:
\n
F (fi ) 6= ∅
(35)
i=1
Hieraus folgt, daß auch
\n
F (f ) 6= ∅
f ∈Γ
da C kompakt ist.
Der letzte Schluß ist als “finite intersection
S folgt einfach aus der DefiT property” bekannt und
nition der Kompaktheit: Angenommen, nf∈Γ F (f ) = ∅, dann ist nf∈Γ (Z \ F (f )) = Z. Das ist
eine offene Überdeckung von Z. Aus ihr kann
Z eine endliche
S man wegen der Kompaktheit von T
offene Überdeckung auswählen. Das sei ni=1 (Z \ F (fi )) = Z. Aber das ist zu ni=1 F (fi ) = ∅
äquivalent, was ein Widerspruch zu (35) ist.
Für Halbgruppen T(t) läßt sich diese Aussage noch einfacher beweisen: (siehe 1184 S.167):
T∗ (t0 )p = p =⇒R ∃ q ∈ D(A∗ ) ∩ P: A∗ q = 0 und supp p ⊂ supp q
Rt
t
Beweis: q := t10 0 0 T(s)pds, T∗ (t)q = q, p ≥ 0 =⇒ q ≥ 0, hq, 1i = t10 0 0 hp, 1ids = tt00 = 1
159
9
Multiplikationsoperatoren. Dichten. Lebesgueräume
Wir haben festgestellt, daß die eigentlich interessanten Größen Maße sind. Gleichungen, die
physikalische Größen beschreiben sollten also Gleichungen sein, dessen Lösungen Maße sind.
Wenn wir uns die üblichen Gleichungen anschauen, stellen wir fest, daß sie immer Funktionen
beschreiben, keine Maße. Auch werden die Gleichungen selten in C und nie in C∗ betrachtet. Man
betrachtet Gleichungen in Lebesgueräumen oder Sobolevräumen. Wie hängt das mit unserem
mathematischen Rahmen zusammen? Die zugrunde liegenden physikalischen Probleme sind ja
weitestgehend dieselben. Die Funktionen, nach denen in Lebesgue- oder Sobolevräumen gesucht
wird sind Dichten von Maßen.
Das ist eine sehr gute Idee, denn Dichten sind Funktionen von Punkten, mit denen man viel
besser arbeiten kann als mit Maßen. Wie immer in der Mathematik, wenn man denkt, man
erleichtert sich das Leben, hat das eine Kehrseite. Deshalb ist es wichtig, genau zu untersuchen,
was der Übergang von Maßen zu Dichten bedeutet.
Formal gesprochen ist eine Dichte der Quotient zweier Maße. Aus physikalischer Sicht bedeutet
das, man betrachtet anstelle zweier extensiver Größen eine intensive Größe, ihren Quotient. Hier
sieht man schon, daß man zur Definition einer Dichte zwei Maße braucht. Mathematisch sagt
man auch, man betrachtet die Dichte eines Maßes bezüglich eines anderen, gegebenen Maßes.
Wenn man Dichten betrachtet, muß man also als erstes ein Maß wählen bezüglich dessen man
Dichten von anderen Maße finden will. Es ist – wie immer in der Mathematik – sinnvoll, wenn
diese Wahl kanonisch erfolgt, wenn also das betrachtete Problem die Wahl vornimmt.
9.1
9.1.1
Multiplikationsoperatoren
Der Operator Pg und sein adjungierter
Die Multiplikation reeller Zahlen induziert in C(Z) die Struktur einer kommutativen Banachalgebra: (f · g)(z) = f (z)g(z). Folglich hat der Ausdruck
hf · g, pi, f, g ∈ C, p ∈ C∗
einen Sinn. Je nach dem welches Element man festhält lassen sich die anderen als Wirkung dieses
Elements auf ein anderes betrachten. Damit lassen sich verschiedene Multiplikationsoperatoren
definieren.
Es sei
Pg : C(Z) −
→ C(Z), Pg f = f · g, (Pg f )(z) = f (z) · g(z)
Dieser Operator hat folgende weitgehend offensichlichen Eigenschaften:
• Pg f = Pf g
• Pg ≥ 0 ⇐⇒ g ≥ 0
• kPg k = kgk
• Pg 1 = g
Im endlichdimensionalen Fall entspricht Pg eine Diagonalmatrix.
Zu Pg läßt sich der adjungierte und biadjungierte definieren:
P∗g : C∗ (Z) −
→ C∗ (Z)
P∗∗
: C∗∗ (Z) −
→ C∗∗ (Z)
g
160
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
Es ist
hPg f, pi = hf, P∗g pi = hP∗∗
g f, pi
Auf der rechten Seite ist die stetige Funktion f als Element aus C∗∗ (Z) aufzufassen. Offensichtlich ist Pg = P∗∗
g auf C.
P∗∗
ist
auf
ganz
C∗∗ (Z) definiert und wirkt auf charakteristischen Funktionen auch als Multig
plikationsoperator:
P∗∗
g 1B = g · 1B
was die Einschränkung von g auf B bedeutet. Damit kann man die Wirkung von P∗g beschreiben.
Es sei q = P∗g p, dann ist
Z
∗
∗
∗∗
q(B) = (Pg p)(B) = h1B , Pg pi = hPg 1B , pi = hg · 1B , pi =
g(z)p(dz)
B
Dieser Ausdruck wird formal auch häufig q = g · p geschrieben. Er definiert ein neues Maß als
Produkt eines Maßes mit einer stetigen Funktion. Da P∗g ein beschränkter Operator auf C∗ ist,
liefert diese Konstruktion stets wieder ein Radonmaß.
g wird Dichte des Maßes q bezüglich des Maßes p genannt.
Es sei
Ip = q ∈ C∗ | ∃g ∈ C, q = P∗g p}
Ip ist die Menge aller Maße, die bezüglich des gegebenen Maßes p eine stetige Dichte haben.
ÜA 28) Bestimme das Spektrum von Pg in C.
9.1.2
Der Operator Qp und der Satz von Radon-Nikodym
Wir betrachten für gegebenes p ∈ C∗ den Operator
C(Z) −
→ C∗ (Z), Qp g = P∗g p
Z
(Qp g)(B) =
g(z)p(dz)
Qp
:
B
ÜA Als beschränkter Operator läßt sich Qp als Integraloperator darstellen:
Z
(Qp g)(B) =
g(z)a(B, dz)
B
Bestimme des Integralkern a(B, A).
Lösung: Es gilt
a(B, A) = (Q∗p 1A )(B) = h1A , Qp 1B i = h1A · 1B , pi = h1A∩B , pi = p(A ∩ B)
Dieser Operator hat folgende weitgehend offensichlichen Eigenschaften:
• Qp ≥ 0 ⇐⇒ p ≥ 0
• kQp k = kpk
• Qp 1 = p
161
9.1 Multiplikationsoperatoren
• Q∗p : C∗∗ (Z) −
→ C∗ (Z), Q∗p |C = Qp (weil f · g = g · f )
• p(B) = 0 =⇒ q(B) = (Qp g)(B) = 0, g ∈ Ip .
Von besonderem Interesse ist das umgekehrte Problem: Es sei ein Maß p gegeben. Wann hat
ein Maß q eine Dichte bezüglich p. Die letzte der eben betrachteten Eigenschaften zeigt, daß
das nicht für jedes Maß q der Fall ist sondern eine notwendige Bedingung ist, daß die Nullmengen bezüglich p auch Nullmengen bezüglich q sein müssen. Tatsächlich ist diese bedingung in
gewissem Sinne auch hinreichend. Es gilt der berühmte
Satz von Radon-Nikodym: Es seien p und q aus P (wir betrachten hier nur positive Maße)
mit der Eigenschaft p(B) = 0 =⇒ q(B)R = 0 für alle B ∈ B. Dann existiert eine eindeutig
definierte Funktion h ∈ L1 (p) mit q(B) = B h(z)p(dz).
Der Beweis des Satzes läßt sich in DS I nachlesen. Er ist nicht konstruktiv und benutzt das
Auswahlaxiom. Darauf wird in vielen Büchern nicht explizit hingewiesen, weshalb der Beweis
in DS I sehr empfehlenswert ist.
Bemerkungen:
• Die Dichte wird auch Radon-Nikodym Ableitung genannt und mit h = q/p oder h = dq/dp
bezeichnet.
• Gilt die Beziehung p(B) = 0 =⇒ q(B) = 0, so sagt man auch, daß q absolut stetig
bezügl. p ist und schreibt q ≪ p.
• Aus der Integraldarstellung folgt
h(z) =
q(B)
, z∈B
p(B)
falls h auf B konstant ist. Damit erinnert diese Formel stark an die Definition einer
intensiven Größe als Quotient zweier extensiven Größen.
• Hat q bezüglich p die Dichte h und r bezüglich q die Dichte g, so hat r bezüglich p die
Dichte g · h. Es gilt
Z
Z
r(B) =
h(z)q(dz) =
h(z)g(z)p(dz)
B
B
• Die Eindeutigkeit der Dichte bezieht sich nur auf Dichten in L1 (p). Auf Nullmengen von
p ist es egal, welchen Wert die Dichte annimmt.
Der Satz von Radon-Nikodym ist ein reiner Existenzsatz und hilft oft nicht weiter, wenn man
eine Dichte aus zwei gegebenen Maßen tatsächlich berechnen möchte. Der Satz behauptet die
eindeutige Existenz einer Dichte im Lebesgueraum L1 (p). Wir sind allerdings an stetigen Dichten interessiert, worüber der Satz keine Auskunft gibt. Die Stetigkeit ist einerseits wichtig,
damit das Konzept der Dichte in unseren mathematischen Rahmen paßt und andererseits, da
wir ausgehend von physikalischen Überlegungen wissen, daß eine intensive Größe sinnvollerweise
ststig sein soll.
Wir betrachten im weitern nur solche Maße p, q ∈ P mit einer stetigen Dichte g = q/p ≥ 0.
Ausgehend von der Gleichung q = P∗g p = Qp g ist es natürlich, die Dichte g formal als
g = Q−1
p q
162
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
zu definieren. Um diese Darstellung zu rechtfertigen ist der Definitionsbereich von Q−1
p zu be−1
schreiben (er ist offensichtlich eine Teilmenge von Ip ) und zu untersuchen, wann Qp überhaupt
eindeutig definiert ist. Es ist klar, daß auf offenen Mengen U mit p(U) = 0 auch q(U) = 0 gilt
und deshalb g auf dieser Menge unbestimmt ist. Das ist für Funktionen aus L1 irrelevant, für
stetige Funktionen auf Z aber wichtig.
Andererseits ist klar, daß im endlichdimensionalen Fall Q−1
p stets auf dem ganzen raum eindeutig definiert ist, falls alle Komponenten von p echt positiv sind. Eine Verallgemeinerung hierfür
wäre die Forderung, daß für alle U ∈ O, p(U) > 0 gilt. In diesem Fall läßt sich die Dichte auch
am Punkt z definieren.
Es sei Un eine Folge offener Mengen mit den Eigenschaften
• p(Un ) > 0.
• Un+1 ⊂ Un
T
• ∞
n=1 Un = {z}
dann definieren wir g(z) als
q(Un )
n→∞ p(Un )
g(z) = lim
Es sei A die Menge aller Punkte, für die dieser Grenzwert existiert. Wie schreiben g = Q−1
p q,
falls sich g von A zu einer stetigen Funktion auf Z fortsetzen läßt.
Die entscheidende Voraussetzung ist hier, daß man die abgeschlossene Menge {z} als Durchschnitt offener Mengen darstellen kann. Das ist stets der Fall, da Z metrisierbar ist. In einem
metrisierbaren Raum ist jede abgeschlossene Menge eine Gδ -Menge.
Wir werden uns mit der Frage der Definition von Q−1
p nicht weiter beschäftigen. Es stellt sich
heraus, daß wir die Probleme, in der wir den Operator Q−1
p eigentlich benötigen würden, auch
−1
formulieren können, ohne die Verwendung von Qp .
163
9.2 Lebesgueräume
9.2
Lebesgueräume
Wir betrachten für ein reelles r mit 1 < r < ∞ und ein µ ∈ P den Ausdruck
Z
r1 D
E 1r
r
r
= |f | , µ
|f (z)| µ(dz)
kf kr := kf kLr := kf kLr (µ) :=
Z
Dieser Ausdruck ist für alle f ∈ C definiert und ist ein Norm. Wir bezeichnen den Banach-Raum,
der durch die Vervollständigung von C in dieser Norm entsteht als Lr (µ)-Raum (Lebesgueraum).
Der zu Lr duale Raum ist der Lr′ mit 1r + r1′ = 1. Die duale Paarung zwischen Lr (µ)- und
Lr′ (µ)-Räumen bezeichnen wir mit runden Klammern
Z
(f, g)µ = hf · g, µi = f (z)g(z)µ(dz) .
Z
Die Elemente eines solchen Raumes werden üblicherweise als punktweise (bezüglich µ) gegebene
Funktionen interpretiert. Es ist konsistenter, sich die Elemente in Lr (µ)-Räumen als Grenzwerte
von Folgen stetiger Funktionen bezüglich dieser Norm vorzustellen. In diesem Sinn ist nicht klar,
ob sich die Grenzwerte auch als Funktionen auf Z betrachten lassen. Streng genommen sind die
Funktionen nur in solchen Punkten z definiert, für die µ({z}) 6= 0 gilt. Üblicherweise werden die
Elemente in Lr (µ)-Räumen deshalb als “Klassen von Funktionen” bezeichnet, deren Vertreter
– bis auf Werte auf Mengen vom Maß = 0 – übereinstimmen. In diesem Sinn ist nicht ganz
klar, was denn Lr (µ) ∩ C ist. Für uns sind stetige Funktionen aus Lr (µ) solche, die Grenzwerte
konstanter Folgen stetiger Funktionen sind.
Diese Vorstellung entspricht der, die man sich von den reellen Zahlen als Grenzwerte von Folgen
rationaler Zahlen macht. Diese Grenzwerte kann man sich natürlich nicht mehr als “rationale
Zahlen” vorstellen. Sie benötigen ein völlig andere Darstellung. Unter den Folgen rationaler
Zahlen gibt es natürlich auch solche, die gegen rationale Zahlen konvergieren, z.B. konstante
Folgen.
Es gelten folgende Eigenschaften:
• Für stetige f gilt kf kr ≤ kf kC . Das folgt aus der Ungleichung
r
kf krr = h|f |r , µi ≤ supz∈Z |f (z)|r h1, µi = supz∈Z |f (z)| · 1 = kf krC
• Konvergente Folgen in C konvergieren auch in Lr (µ)
• Eine dichte Menge in C ist auch dicht in Lr (µ).
• Die Fortsetzung eines in C dicht definierten Operators ist auch in Lr1 (µ) dicht definiert.
• Zwei Räume Lr1 (µ) ⊂ Lr2 (µ) sind ineinader eingebettet gdw. r1 ≤ r2 .
Wenn man ein Maß µ ausgezeichnet hat, dann kann man die Aufgabe in einem Lr (µ) betrachten
(wir beschränken uns im weiteren auf den Hilbertraum L2 (µ). C ist per Definition dicht in L2 (µ)
(er wurde ja als Abschluß definiert). Man kann die in C definierten Operatoren jetzt nach L2 (µ)
erweitern. Frage: Welcher L2 (µ) ist für ein gegebenen Operatoren besonders gut geeignet?
Natürlich der, indem der Operator besonders gute Eigenschaften hat. Was sind besonders gute
Eigenschaften:
• Beschränktheit, bzw, besonders kleine Norm. Wenn der Operator z.B. kontraktiv ist
(Norm kleiner gleich 1), dann kann man ihn mehrfach anwenden. Wenn das nicht der
Fall ist, besteht die Gefahr, daß das mehrfache Anwenden aus dem Raum herausführt.
164
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
• Symmetrie (Selbstadjungiertheit). Symmetrische Operatoren lassen sich diagonalisieren,
mit ihnen kann man gut rechnen.
• Falls Symmetrie prinzipiell nicht möglich ist (weil das Spektrum nicht reell ist), sollte der
Operator wenigstens normal sein. Ein Operator ist normal, wenn er mit seinem adjungierten kommutiert.
Es stellt sich heraus, daß der richtige Raum der über dem stationären Maß ist. Auf diese Idee
kann man folgendermaßen kommen:
Wir betrachten eine Trajektorie p(t) für 0 ≤ t ≤ ∞ und nehmen an, daß sie gegen einen
Gleichgewichtszustand p(∞) konvergiert. Weiter nehmen wir an, daß p(t) eine Dichte h(t)
bezüglich eines gegebenen Maßes µ hat.
Frage: Wann (für welches µ) liegt die Trajektorie der Dichte – oder wenigstens ein großer Teil
– in L2 (µ)? Es ist klar, daß h(∞) in L2 (µ) liegt, wenn µ das stationäre Maß ist, denn dann ist
h(∞) = 1 und das liegt überall. Wenn die Dichte im Gleichgewicht in L2 (µ) liegt, dann liegt
sie vielleicht auch kurz davon drin oder sogar insgesamt, wenn p0 entsprechend gewählt wurde.
9.2.1
Markowoperatoren in Lr
Satz: Die bekannte Kontraktivität von Markowoperatoren in C gilt auch für die Lr (µ)-Norm,
falls M∗ µ = µ.
Beweis: Das folgt aus der Karamata-Ungleichung (32) mit p = µ und der konvexen Funktion
F (x) = |x|r . Es sei g ∈ C, dann gilt
kMgkrLr = h|Mg|r , µi ≤ hM|g|r , µi = h|g|r , M∗ µi = h|g|r , µi = kgkrLr
Aus L1 = M1 = 1 und k1kLr = 1 folgt die Gleichheit. Das ergibt die gesuchte Gleichheit
1
1
kMgkLr = h|Mg|r , µi r = h|g|r , µi r = kgkLr
(37)
Wie bekannt lassen sich beschränkte Operatoren mit der selben Norm fortsetzen. Es gilt also
kLkLr = kMkLr = kMkC = 1
9.2.2
Der Raum L2 (µ)
Von besonderer Bedeutung ist der (reelle) Hilberraum L2 (µ). Das Skalarprodukt in diesem
Raum ist
Z
(g, f )µ = (f, g)µ = hf · g, µi = hf, Qµ gi = hg, Qµf i = f (z)g(z)µ(dz) .
Z
Die Fortsetzung eines Markowoperators M in L2 (µ) ist kontraktiv. Das folgt aus der Ungleichung (??) mit der speziellen konvexen Funktion F (x) = x2 . Es gilt
kMgk2L2 = (Mg)2 , µ ≤ Mg 2 , µ = g 2, M∗ µ = g 2, µ = kgk2L2
Damit ist bewiesen, daß die Fortsetzung eines Markowoperators M in L2 (µ) die Norm 1 hat
(weil neben der Ungleichung auch noch M1 = 1 und k1kL2 = 1 gilt.
9.2 Lebesgueräume
9.2.3
165
Operatoren in L2 (µ) und ihre adjungierten
Es sei M : C −→ C ein Markowoperator und L seine Fortsetzung in L2 (µ). Als Operator im
Hilberraum können wir seinen adjungierten Operator L∗ betrachten. Er ist durch die Gleichung
(Lf, g)µ = (f, L∗ g)µ, f, g ∈ L2 (µ)
definiert. Es seien f, g ∈ C. Für die linke Seite gilt dann
(Lf, g)µ = hg · Mf, µi, f, g ∈ C
Angenommen, auch L∗ ist die Fortsetzung eines beschränkten Operators X : C −
→ C, dann ist
L∗ g = Xg (im allgemeinen ist nicht klar, ob L∗ g ∈ C für g ∈ C) und auch das Skalarprodukt
auf der rechten Seite läßt sich als duale Paarung schreiben. Es gilt dann
(Lf, g)µ = hg · Mf, µi = hf · Xg, µi = (f, L∗ g)µ , f, g ∈ C
Sollte L = L∗ gelten, dann ist die Existenz eines entsprechenden X klar, es gilt X = M. Dieser
Fall, daß die Fortsetzung eines Markowoperators in einen L2 ein selbstadjungierter Operator
ist, ist ein besonderer Fall, was aus folgendem Satz klar wird:
Satz: Die Fortsetzung eines Markowoperators M in einen L2 (µ) sei selbstadjungiert, dann ist
das Maß, das den L2 -Raum gebildet hat, ein stationäres Maß von M∗ .
Beweis: Die Fortsetzung von M sei L. Da L = L∗ , gilt
hg · Mf, µi = hf · Mg, µi, f, g ∈ C
Wir setzen f = 1. Das ergibt
hg, µi = hMg, µi = hg, M∗µi, g ∈ C
Aus der Beliebigkeit von g folgt M∗ µ = µ.
Bemerkungen: Unter allen Operatoren in einem Hilbertraum spielen die selbstadjungierten
eine besondere Rolle. Sie haben z.B. reelles Spektrum und lassen sich diagonalisieren. Diese
besondere Eigenschaft erlangen Markowoperatoren also nur dann, wenn man sie in einem L2
über dem stationären Maß betrachtet. In allen anderen L2 -Räumen ist das nicht der Fall. Wenn
man also ein Problem in einem L2 -Raum betrachten will, muß der richtige gewählt werden,
nämlich der über einem stationären Maß.
Es ist klar, daß ein Operator, der in C kein rein reelles Spektrum hat, in keinem L2 -Raum
selbstadjungiert sein kann. Auch in diesem Fall, ist es sinnvoll den L2 -Raum über einem stationären Maß zu wählen. Der Operator kann sich dann als normal (kommutiert mit seinem
adjungierten) herausstellen.
Nicht jeder Operator mit rein reellem Spektrum ist selbstadjungiert in L2 (µ). Man kann sogar
diagonalisierbare Matrizen finden, die diese Eigenschaft nicht haben.
Der Fall, daß die Fortsetzung eines Markowoperators im L2 über einem seiner stationären Maße
selbstadjungiert ist, wird detailierte Balance genannt und spielt eine wichtige Rolle in der
Theorie der Markowprozesse und ihren physikalischen Anwendungen. Oft wird gerade dieser
Fall behandelt, da sich hier relativ einfach Aussagen erzielen lassen.
166
9.2.4
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
Der Operator X
Wir nehmen im weiteren an daß es zu einem Markowoperator M und einem seiner stationären
Maße µ einen beschränkten Operator X gibt, der die Gleichung
hg · Mf, µi = hf · Xg, µi, f, g ∈ C
(38)
erfüllt und wollen seine Eigenschaften untersuchen. Die Ausdrücke auf der linken und rechten
Seite von (38) lassen sich äquivalent umschreiben. Es gilt
hg · Mf, µi = hMf, Qµ gi = hf, M∗ Qµ gi
hf · Xg, µi = hXg, Qµ f i = hf, Qµ Xgi
Zusammen mit (38) ergibt das die zu (38) äquivalente Gleichung
hf, M∗ Qµ gi = hf, Qµ Xgi, f, g ∈ C
(39)
die wiederum zur Gleichung
M∗ Qµ g = Qµ Xg, g ∈ C
(40)
als Gleichung in C∗ und diese wiederum äquivalent zur Operatorgleichung
M∗ Qµ = Qµ X, ∈ L(C, C∗ )
(41)
ist. Eine formale Lösung dieser Gleichung wäre
∗
X = Q−1
µ M Qµ
(42)
Aus der letzten Darstellung lassen sich formal folgende Eigenschaften herleiten:
• X≥0
∗
Beweis: Folgt aus der Positivität jedes einzelnen der Operatoren Q−1
µ , M und Qµ .
∗
−1
∗
−1
• X1 = 1. Beweis: X1 = Q−1
µ M Qµ 1 = Qµ M µ = Qµ µ = 1
• X∗ µ = µ. Beweis:
∗
∗
∗
∗∗ −1
−1
X∗ µ = (Q−1
µ M Qµ ) µ = Qµ M Qµ µ = Qµ MQµ µ = Qµ M1 = Qµ 1 = µ
∗
X ist also ein Markowoperator, dessen adjungierter dasselbe stationäre Maß hat.
Diese Eigenschaften lassen sich streng aus (38) herleiten, wenn man folgende Bedingung an µ
stellt:
µ(U) > 0, U ∈ O(Z)
Diese Bedingung entspricht der Bedingung µi > 0 im endlichdimensionalen Fall.
ÜA 35) Beispiel: Es sei M = Mϕ ein deterministischer Markowoperator mit stetig invertierbarer Funktion ϕ. Berechne den entsprechenden Operator X.
169
9.3 Beispiele
9.3
Beispiele
9.3.1
Zwei Zustände
Im einfachsten Fall zweier Zustände Z = {z1 , z2 } lassen sich viele Größen explizit berechnen.
Die allgemeine darstellung eines Markowoperators (einer 2 × 2-Markowmatrix ist), seines adjungierten und des stationären Zustandes ist
b 1−a
b
1−a
a
∗
a+b
, µ=
, M =
M=
a
a
1−b
b
1−b
a+b
mit a, b ∈ [0, 1].
Es gibt hier zwei Spezialfälle, die wir ausschließen wollen:
1) a = b = 0. Dann ist M = I, jeder Zustand ist stationär und alle Markowketten sind
konstant
0 1
∗
und M∗ beschreibt den deterministischen
2) a = b = 1. Dann ist M = M =
1 0
1 ⇐⇒ z♠
2.
Wechsel der Zustände z♠
Das sind die beiden invertierbaren deterministischen Operatoren. In allen anderen Fällen sind
die Eigenwerte 1 und 1 − a − b. Für den zweiten Eigenwert gilt |1 − a − b| < 1. Das bedeutet,
daß alle Folgen von Potenzen gegen den Projektor auf den durch µ aufgespannten Unterraum
konvergieren:
b
a
n
a+b
a+b
lim M =
b
a
n→∞
a+b
a+b
Wir untersuchen die Symmetrie der “Fortsetzung” L von M L2 (µ) (wegen C = R2 gilt L2 (µ) =
R2 , aber mit anderer Norm und L = M). Der Operator Q−1
µ ist wegen a+b > 0 ein beschränkter
∗
∗
Operator und die Einschränkung X von L läßt sich explizit durch X = Q−1
µ M Qµ berechnen:
b
a+b
0
1
−
a
b
0
1
−
a
a
a+b
b
X=
=
=M
a
a
1−b
b
1−b
0 a+b
0 a+b
a
Alternativ läßt sich die Symmetrie auch durch Berechnung des Skalarproduktes zeigen:
ab
(f1 − f2 )(g1 − g2 )
a+b
Dieser Ausdruck ist offensichtlich symmtrisch bezüglich einer f ⇐⇒ g Vertauschung. Also ist
(Lf, g)µ = (Lg, f )µ .
Im zweidimensionalen ist also jeder Markowoperator selbstadjungiert, also ein detailierterBalance-Fall.
Die für eine Markowkette typische Gleichung p(n + 1) = M∗ p(n) bedeutet ausgeschrieben
(Lf, g)µ = hg · Mf, µi = −
p1 (n + 1) = (1 − a)p1 (n) + bp2 (n)
p2 (n + 1) = ap1 (n) + (1 − b)p2 (n)
Es ist also a die Wahrscheinlichkeit, daß der Zustand z1 in den Zustand z2 übergeht und
1 − a die Wahrscheinlichkeit, daß das nicht passiert. Analoges gilt für b. Wir schreiben das als
a
z♠
z♠
1
2.
b
⇄
170
9.3.2
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
Rotation dreier Zustände
Wir betrachten einen Zustandsraum mit drei Zuständen Z = {z1 , z2 , z3 } und
Markowoperator, seinen adjungierten und des stationären Zustand.
 1




c
1−c
c
0
1−c
0
b
 1
∗




M=
0
1−a
a
, M =
c
1−a
0
, µ= a
1
b
0
1−b
0
a
1−b
b
mit a, b, c ∈ (0, 1].
einen speziellen



1 1 1
+ +
c a b
−1
1
Dieser Operator beschreibt den Übergang der Zustände
z♠
1 =⇒ z♠
2 , z♠
2 =⇒ z♠
3 und z♠
3 =⇒ z♠
1 mit gewissen Wahrscheinlichkeiten. Alle anderen Übergänge sind
nicht erlaubt. Wir können diesen Prozeß als zyklisch in
positiven Drehsinn betrachten.
✓
✉
c ✓
2
✓
✓
✴
✓
✉
a
♦
❙
❙
❙
b
❙
❙
✲ ✉
3
−1
∗
Auch in diesem Fall ist der Operator Q−1
µ beschränkt. Wir erhalten für X = Qµ M Qµ (die
−1
kürzt sich weg).
Normierung 1c + a1 + 1b


 1
 

c 0 0
1−c
0
b
0 0
1−c
0
c
c
1−a
0   0 a1 0  =  a
1−a
0 
X =  0 a 0  c
1
0 0 b
0
a
1−b
0 0 b
0
b
1−b

1−c
a
0
1−a
b 
X∗ =  0
c
0
1−b

Offenbar ist hier X 6= M. Der Operator X∗ beschreibt
mit den selben Übergangswahrscheinlichkeiten einen zyklischen Prozeß im negativen Drehsinn.
1
✉
2
✼
✓ ❙
✓
c❙❙
✓ a
✓
✇
❙
b
✉ ✛
✉
3
Alle 4 Matrizen M, M∗ , X, X∗ haben dieselben Eigenwerte
λ1 = 1
√
1
2 − a − b − c + a2 − 2ab + b2 − 2ac − 2bc + c2
λ2 =
2
√
1
λ3 =
2 − a − b − c − a2 − 2ab + b2 − 2ac − 2bc + c2
2
Das zeigt, daß beide Prozesse – obwohl physikalisch invers zueinander – als Markowkette das
selbe zeitliche Verhalten zeigen. Es ist |λ2,3 | < 1. Deshalb konvergieren alle Markowketten gegen
den einzigen Gleichgewichtszustand µ.
171
9.3 Beispiele
9.3.3
Einfachste Erzeugungs/Vernichtungs-Aufgaben mit zwei Zuständen
Eint typische Aufgabe in der Theorie der Markowketten und -prozesse sind sogenannte Erzeugungs/Vernichtungs-Prozesse (oder Generations/Rekombinations-Prozesse oder birth-death-processes). Für diese Aufgaben ist es relativ einfach, explizite Ergebnisse zu erziehlen, was sie
für Anschungsbeispiele prädestiniert.
Hierbei geht es um folgende Aufgabe: Man hat ein Gefäß, in dem mit einer gewissen Wahrscheinlichkeit Teilchen erscheinen (generiert oder erzeugt) werden und wieder daraus verschwinden
(zu Nichts rekombinieren oder vernichtet werden). Die Natur der Teilchen (und des Gefäßes)
ist unerheblich. Man kann diese Aufgabe auf die verschiedenste Weise modellieren und durch
Erhöhung der Teilchenzahl, der Betrachtung verschiedener Teilchensorten oder der Berücksichtigung von Abhängigkeiten der Erzeugungs- und Vernichtungswahrscheinlichkeiten von Teilchenzahl oder -typ beliebig verkomplizieren.
Wir wollen den einfachsten Fall betrachten: Es gibt ein Teilchen, das außerhalb des Gefäßes
(Zustand z1 ) oder darin sein kann (Zustand z2 ). Es sei a die Erzeugungs- und b die Vernichtungswahrscheinlichkeit. Wir haben also genau den Fall des eben betrachteten Beispiels. Es
ist
!
b 1
1−a
a
1−a
b
a
∗
ab
a+b
M=
, M =
, µ=
= a+b
a
1
b
1−b
a
1−b
a+b
b
Wir wollen an diesem Beispiel verschiedene Modellierungsprobleme betrachten. Neben diesem
Prozeß wollen wir noch einen reinen Erzeugungsprozeß (b = 0)
0
1−a 0
1−a a
∗
, µ+ =
, M+ =
M+ =
1
a
1
0
1
und einen reinen Vernichtungsprozeß (a = 0)
1
1
0
1
b
∗
, µ=
M− =
, M− =
0 1−b
0
b 1−b
betrachten.
Das Produkt zwei Prozesse beschreibt die Hintereinanderausführung der beiden Prozesse. Folglich beschreiben die drei Operatoren M, M+ M− und M− M+ einen Erzeugungs/VernichtungsProzeß, bei dem nur die Reihenfolge geändert ist. Es ist
1−a
a
1 − a + ab a − ab
, M− M+ =
M+ M− =
b − ab 1 − b + ab
b
1−b
∗
(M+ M− ) =
M∗− M∗+
=
1 − a + ab
b
a(1 − b) 1 − b
1
2 ist a(1 − b) anstelle von a in M. Das
Die Wahrscheinlichkeitt des Übergangs z♠
=⇒ z♠
1 =⇒ z♠
2 stattfindet, wenn das Teilchen den Platz von außen
bedeutet, daß der Übergang z♠
nach innen wechselt und außerdem auch noch nicht von innen nach außen wechselt.
Neben λ1 = 1 hat M noch den Eigenwert λ2 = 1 − a − b. Die Matrizen M+ M− und M− M+
haben beide als zweiten Eigenwert λ2 = (1 − a)(1 − b). Die Eigenwerte sind also stets positiv.
Für M muß man für diese – wie sich herausstellen wird – wichtige Eigenschaft explizit a + b ≤ 1
fordern.
9.4 Die Umkehrung physikalischer Prozesse
9.4
171
Die Umkehrung physikalischer Prozesse
Aus dem täglichen Leben ist uns bekannt, daß sich physikalische Prozesse nicht problemlos umkehren lassen. Wir wollen jetzt untersuchen, wie sich das in unseren mathematischen Objekten
widerspiegelt.
9.4.1
Abbildung von Dichten
Es sei p ∈ P(Z) ein gegebener Zustand vorher, M∗ eine Zustandsänderung und p′ = M∗ p ∈
P(Z′ ) der Zustand nachher. µ ∈ P(Z) sei ein stationäres Maß von M∗ .
Wir nehmen an, daß p eine stetige Dichte h bezüglich µ hat, also Qµ h = p und fragen, ob
dann auch p′ eine Dichte bezüglich µ hat. Dazu nehmen wir an, daß es eine Lösung X ∈ M der
Gleichung
hf, M∗ Qµ gi = hf, Qµ Xgi
gibt und setzen h′ = Xh. Setzen wir hier g = h, erhalten wir
hf, Qµ Xhi = hf, M∗ Qµ hi = hf, M∗ pi = hf, p′ i
Da f beliebig ist, erhalten wir p′ = Qµ Xh = Qµ h′ . Das heißt, p′ hat eine Dichte bezüglich µ,
nämlich h′ . So, wie der Operator M∗ die Maße aufeinander abbildet, bildet also der Operator
X die entsprechenden Dichten aufeinander ab.
Aus physikalischer Sicht sind Dichten wie h = Q−1
µ p = p/µ Quotienten extensiver Größen, also
intensive Größen und damit Objekte, denen wir einen physikalischen Sinn geben können.
9.4.2
Physikalisch inverse Zustandsänderungen
Wir beginnen die Überlegungen mit einer Beispielaufgabe:
ÜA 35) Beispiel: Es sei M = Mϕ ein deterministischer Markowoperator mit stetig invertierbarer Funktion ϕ. Berechne den entsprechenden Operator X.
Lösung: Es ist die Gleichung (77) also hMϕ f, Qµ gi = hf, Qµ Xgi oder äquivalent hg ·Mϕ f, µi =
hf · Xg, µi bezüglich X zu lösen. Diese Gleichung bedeutet in Integralschreibweise
Z
Z
Z
f (z)(Xg)(z)µ(dz) =
g(z)f (ϕ(z))µ(dz) = g(ϕ−1(z))f (z)(µ ◦ ϕ−1 )(dz) =
Z
Z
ZZ
=
g(ϕ−1(z))f (z)µ(dz)
Z
Hier wurde im letzten Schritt (µ ◦ ϕ−1 )(B) = µ(B) für B ∈ B benutzt, was die Eigenschaft
von µ, stationäres Maß von M∗ϕ zu sein, widerspiegelt. Nimmt man weiter an, daß µ(U) > 0
für U ∈ O(Z), folgt aus der Beliebigkeit von f
(Xg)(z) = g(ϕ−1 (z))
also
X = g ◦ ϕ−1 = Mϕ−1 = M−1
ϕ
Der Operator X invertiert also die Wirkung des Operators Mϕ . Folglich entspricht dem Operator X∗ der zu M∗ϕ inverse physikalische Prozeß.
172
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
Allgemeine Markowoperatoren M sind nicht invertierbar, trotzdem kann ein entsprechender
Operator X existieren. Im Punkt 9.3.2 auf Seite 168 ist folgendes Beispiel betrachtet: M∗
beschreibt den im positiven Drehsinn zyklischen Übergang dreier Zustände ineinander. Der ensprechende Operator X∗ beschreibt auch den zyklischen Übergang dreier Zustände ineinander,
aber im negativen Drehsinn. Im deterministischen Prozeß, vermittelt durch Mϕ , war der inverse
physiklaische Prozeß Mϕ−1 dem zeitinversen Prozeß M−1
ϕ äquivalent.
Für allgemeine Markowoperatoren M existiert der zeitinversen Prozeß M−1 nicht. (Auch wenn
der Operator M invertierbar ist, ist der inverse genau dann ein auch ein Markowoperator, wenn
er ein deterministischer ist.)
Wir wollen jeden Operator X, der mit einem Operator M
und einem der stationären Zustände µ über die Gleichung
M∗ Qµ = Qµ X gekoppelt ist eine zu M inverse Zustandsänderung nennen.
Schauen wir uns an, wie die Operatoren wirken, so stellen
∗
→ C(Z′ ) vorwärts und
wir fest, daß X = Q−1
µ M Qµ : C(Z) −
∗
′
folglich X∗ = Qµ MQ−1
→ C∗ (Z) rückwärts in der
µ : C (Z ) −
Zeit wirken.
M
C(Z)
✛
✲
C(Z′ )
X
Qµ
Qµ
❄
❄
M∗
C∗ (Z)
✲
✛
C∗ (Z′ )
X∗
Wie hat man sich den inversen physikalischen Prozeß zusammen mit den Zeitpunkten vorzustellen? Wir starteten mit Z und Z′ als zwei verschiedenen Zustandsräume, die verschiedenen
Zeitpunkten entsprechen. Die Zeitrichtung t′ > t haben wir nach dem Operator M definiert.
Sein adjungierter wirkt M∗ : C∗ (Z) −→ C∗ (Z′ ). Da er einen realen physikalischen Prozeß beschreibt, der vorwärts in der Zeit stattfindet, gilt also t′ > t.
Aus mathematischer Sicht sind t und t′ nur zwei Indizes, mit denen wir die verschiedenen
Räume Z und Z′ indiziert haben. Von einer “physikalischen Zeitrichtung” wissen die Formeln
nichts.
Als nächstes haben wir die Operatoren X und X∗ definiert und festgestellt, daß X ein Markowoperator ist. Normalerweise bildet ein Markowoperator im Gegensatz zu seinem adjungierten
nicht physikalische Objekte aufeinander ab. Wir haben aber festgestellt, daß er die physikalische als intensive Größen interpretierbaren Dichten von p und p′ aufeinander – und zwar zeitlich
vorwärts abbildet, wie es sich für physikalische Objekte gehört – abbildet.
Als nächstes haben wir X∗ : C∗ (Z′ ) −
→ C∗ (Z) gebildet und versuchen diesen Operator als Zustandsänderung zu interpretieren. Das ist sinnvoll, da er der adjungierte eines Markowoperators
ist. Wir kommen zum Schluß, daß dieser Operator soetwas wie die umgekehrte Zustandsänderung bezüglich M∗ vermittelt, aber keine Zeitunkehr bedeutet. Auch er bildet vorwärts in der
Zeit ab. Für diesen Prozeß müssen also die Indizes t und ′ in anderer Richtung interpretiert
werden: t > t′ .
Aus mathematischer Sicht gibt es nur die verschiedenen Zustandsräume Z und Z′ , denen wir
Indizes t und t′ zuordnen. Zwischen den entsprechenden Banachräumen wirken Operatoren M,
M∗ , X und X∗ in verschieden Richtungen. Je nachdem, welchen Prozeß wir betrachten, führen
wir in den Indizes eine Ordnung ein. Dazu haben wir die Annahme “physikalische Zeit läuft
vorwärts” verwendet, die außerhalb der Mathematik liegt.
Den Zusammenhang zwischen zeitlicher und physikalischer Umkehr wollen wir weiter untersuchen.
9.4 Die Umkehrung physikalischer Prozesse
9.4.3
173
Läßt sich ein physikalischer Prozeß umkehren
Im weiteren sei stets
p′
q′
h
h′
=
=
=
=
M∗ p
M∗ q
p/q
p′ /q ′
Wir betrachten die Zustandsänderung p′ = M∗ p. Gibt es eine Zustandsänderung (also einen
Markowoperator) Y sodaß p = Y ∗ p′ .
Es sei
∗
Y = Q−1
p′ M Qp
Wir zeigen, daß dieser Operator die geforderten Eigenschaften hat. Offensichtlich ist Y positiv,
weil er das Produkt von drei positiven Operatoren ist. Außerdem ist
∗
−1
∗
−1 ′
Y 1 = Q−1
p′ M Qp 1 = Qp′ M p = Qp′ p = 1
Y ist also ein Markowoperator. Wir untersuchen, welche Abbildungseigenschaften sein adjungierter Y ∗ = Qp MQ−1
p′ hat. Seine Wirkung auf allgemeine Maße ist schwer zu berechnen. Aber
es ist einfach seine Wirkung auf p′ zu berechnen. Es ist
′
Y ∗p′ = Qp MQ−1
p′ p = Qp M1 = Qp 1 = p
Y ∗ beschreibt also einen physikalischen Prozeß, der die Wirkung von M auf dem Zustand p
umkehrt – also den inversen physikalischen Prozeß. Als adjungierter eines Markovoperators
bildet er natürlich vorwärts in der Zeit ab, aber kehrt die Wirkung von M∗ um.
Natürlicherweise stellt sich folgende Frage: Wenn es möglich ist, eine Zustandsänderung umzukehren, ist es möglich, zwei Zustandsänderungen umzukehren?
Wir betrachten p′ = M∗ p, q ′ = M∗ q Kann man eine Zustandsänderung (also einen Markowoperator) Y finden, sodaß p = Y ∗ p′ und q = Y ∗ q ′ .
Es stellt sich heraus, daß das im allgemeinen nicht möglich ist. Das läßt sich mit der Jensensche
Ungleichung zeigen.
9.4.4
Die Jensensche Ungleichung in P × P
Definition: We define a functional H on two arbitrary probability measures p and q as a
generalized Legendre transform of hF (g), qi
(44)
H[p, q] = sup hg, pi − hF (g), qi , p, q ∈ P
g∈C
Theorem: Then, for an arbitrary Markov operator M it holds
H[M∗ p, M∗ q] ≤ H[p, q] , p, q ∈ S∗ , M∗ ∈ M∗ .
(45)
Proof: Denoting the range of M by R(M) and using Jensen’s inequality (31) in Karamata’s
form, we get
H[M∗ p, M∗ q] = sup hg, M∗ pi − F (g), M∗ q = sup hMg, pi − MF (g), q ≤
g∈C
g∈C
≤ sup hMg, pi − F (Mg), q = sup hh, pi − F (h), q ≤
g∈C
h∈R(M)
≤ sup hh, pi − F (h), q = H[p, q] .
h∈C
174
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
Let us point out that equality H[M∗ p, M∗ q] = H[p, q] holds if
(1)
MF (g) = F (Mg), and
(2) R(M) = C(Z),
if M is a deterministic Markov operator with weakly dense range.
Remark: There are two places, involving the sign ≤. The first comes from Jensen’s inequality
(31) and the second from the enlargement of the set where the supremum was taken from
h ∈ R(M) to h ∈ C. Form this, it is clear that equality holds if M is a deterministic Markov
operator with weakly dense range.
Corollary: As a special case, for q we can choose the equilibrium measure µ of M∗ . Then, we
have M∗ µ = µ and (82) becomes
H[M∗ p, µ] ≤ H[p, µ], p ∈ P
9.4.5
(46)
Die duale Paarung bleibt konstant
hg ′, p′ i = hg ′, M∗ pi = hMg ′, pi = hg, pi
9.4.6
Irreversibilität zweier Zustandsänderungen
Die oben gestellt Frage nach der Existenz eines solchen Y ∗ kann man jetzt verneinen: So einen
Markovoperator gibt es nicht, es sei denn, M ist ein deterministischer Markovoperator (genauer:
M∗ wirkt auf die beiden p, q ∈ P wie ein deterministischer Markovoperator).
Das kann man folgendermaßen beweisen: Es sei F : R −→ R eine beliebige strikt konvexe
Funktion und
H ∗ [q, p] = supg∈C hg, qi − hF (g), pi
dann gilt für alle Markovoperatoren H ∗ [M∗ q, M∗ p] ≤ H ∗ [q, p] für alle p, q ∈ P, wobei Gleichheit
nur gilt, wenn M ein deterministischer Markovoperator ist. (Außerdem ist H ∗ nach unten beschränkt.) Für jeden nicht deterministischen Markovoperator gilt also H ∗ [M∗ q, M∗ p] < H ∗ [q, p]
oder H ∗ [q ′ , p′ ] < H ∗ [q, p]. Gäbe es einen Markovoperator Y mit der geforderten Eigenschaft,
wäre H ∗ [q ′ , p′ ] > H ∗ [q, p], was ein Widerspruch ist.
Bemerkung: Exakt ist die Nichtumkehrbarkeit nur für Zustände p, q gezeigt, auf denen M nicht
wie ein deterministischer Markovoperator wirkt. Ein Markovoperator, der auf keinem Zustand
wie ein deterministischer Markovoperator wirkt, also einer, der reine Zustände (Diracmaße)
immer in gemischte Zustände (keine Diracmaße) abbildet, heißt mischend.
Damit ist gezeigt: Ein mischender Markovoperator bilde zwei Zustände in zwei andere Zustände
ab. Dann gibt es keinen Markovoperator, der die Zustände zeitlich rückwärts abbildet.
Das heißt: Markovoperatoren sind – es sei denn, sie sind deterministisch – zeitlich irreversibel.
175
10
Markowoperatoren und kontinuierliche Zeit
In diesem Kapitel betrachten wir Zustandsänderungen unter sich kontinuierlich verändernder
Zeit. Im Kapitel zur Modellierung zeitanhängiger Prozesse, werden wir genauer auf die Probleme beim physikalischen Verständnis einer sich kontinuierlich veränderndernden Zeit eingehen.
Hier geht es rein mathematische Probleme so einer Beschreibung. Dazu nehmen wir an, daß wir
eine Schar von Zuständen p(t) gegeben haben, die sich durch einen Parameter t ∈ R+ parametrisieren lassen. Diesen Parameter nennen wir “Zeit” und die Zustandsschar (p(t)) Trajektorie.
Hier betrachten wir also die Zeit im Newtonschen Sinne als absolut und beliebig teilbar gegeben.
Unter allen solchen Trajektorien von Zuständen p(t), mit t ∈ R+ spielen die eine besondere
Rolle, die die sogenannte “Markoweigenschaft” haben. Grob gesagt bedeutet diese Eigenschaft,
daß die Zukunft der Trajektorie nur vom gegenwärtigen Zustand und nicht von der Vergangenheit abhängt. Mathematisch bedeutet die Markoweigenschaft, daß sich die Trajektorie durch
eine Halbgruppe beschreiben läßt.
Eine Halbgruppe von linearen beschränkten Operatoren T(t), t ∈ R+ ist eine Schar, die die
Funktionalgleichung
T(t1 + t2 ) = T(t1 )T(t2 ) = T(t2 )T(t1 ), t2 , t1 ∈ R+
(47)
erfüllt. Eine solche Halbgruppe ist also ein Homomorphismus der additiven Halbgruppe R+ in
die Menge der beschränkten Operatoren.
Diese Funktionalgleichung – zusammen mit gewissen Stetigkeitseigenschaften – stellt sich als
dermaßen streng heraus, daß die gesamte Schar bereits durch die Kenntnis eines einzigen Operators A (des Generators der Halbgruppe) definiert ist. Dieser Generator läßt sich als Richtung
der Tangente der Schar im Zeitpunkt t = 0 interpretieren. Wenn also zum Zeitpunkt t = 0
der Zustand in die “gewünschte Richtung” geschickt wurde, garantiert die Funktionalgleichung
ihre eindeutige Fortsetzung auf ganz bestimmte Weise.
Die Bestimmung der Trajektorie x(t) für einen gegebenen Generator A und einem Anfangswert
x(0) = x0 entspricht dann der Lösung der Differrentialgleichung
ẋ(t) = Ax(t), x(0) = x0
(48)
im Banachraum.
Die Kernfrage der Halbgruppentheorie ist die Frage nach dem Zusammenhang der Halbgruppe
T(t) und ihrem Generator A.
10.1
Die Theorie stetiger Halbgruppen im Banachraum
Im weiteren stellen wir einige allgemeine Aussagen der Theorie stetiger Halbgruppen in Banachräumen zusammen. Später werden wir uns auf die uns eigentlich interessierenden stetigen
Halbgruppen von Markowopertoren interessieren. Es sei X ein Bannachraum, X∗ sein dualer
und x bzw. x∗ Elemente darin. Des weiteren betrachten wir lineare Operatoren, die X nach X
abbilden und ihre adjungierten.
10.1.1
Operatortopologien
Wir betrachten eine Familie von Operatoren T(t) mit t ∈ [0, T ]. Für so eine Famile gibt es
verschiedene Stetigkeitsbegriffe. Wir betrachten den Grenzübergang s −
→ t:
• T(t) heißt gleichförmig stetig, falls kT(t) − T(s)k −
→ 0.
176
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
• T(t) heißt stark stetig, falls kT(t)x − T(s)xk −
→ 0 für alle x ∈ X.
• T(t) heißt schwach stetig, falls hT(t)x, x∗ i − hT(s)x, x∗ i −
→ 0 für alle x ∈ X und x∗ ∈ X∗ .
• T∗ (t) heißt vage stetig, falls hx, T∗ (t)x∗ i − hx, T∗ (s)x∗ i −
→ 0 für alle x ∈ X und x∗ ∈ X∗ .
Da wir nur Operatoren in einem dualen Raum betrachten, die einen präadjungierten
haben, ist eine Operatorfamilie vage stetig, gdw. die präadjungierte schwach stetig ist.
10.1.2
Stetige Halbgruppen beschränkter Operatoren
Die Theorie stetige Halbgruppen im Banachraum ist sehr gut in pazy beschrieben.
• Eine Familie beschränkter Operatoren heißt Halbgruppe, wenn
T(t1 + t2 ) = T(t1 )T(t2 ) = T(t2 )T(t1 ), t2 ≥ t1 ≥ 0
T(0) = I
(49)
(50)
• In Abhängigkeit von der Topologe gibt es gleichförmig, stark, schwach und vage stetige
Halbgruppen. Wir interessieren uns in erster Linie für stark stetige Halbgruppen und
setzen im weiteren diese Eigenschaft voraus. Der Grund dafür ist, daß nur stark stetige
Halbgruppen im Zusammenhang mit Differentialgleichungen im Banachraum stehen.
• Satz: T(t) ist stark stetig ⇐⇒ T(t) ist stark stetig für t = 0.
Das folgt aus der Halbgruppeneigenschaft und Beschränktheit der Halbgruppenoperatoren.
• Offensichtlich ist auch T∗ (t) eine Halbgruppe beschränkter Operatoren, falls T(t) eine
ist. Allerdings muß sie nicht stark stetig sein.
• Eine Halbgruppe zusammen mit einem Anfangswert x(0) generiert eine Trajektorie x(t) =
T(t)x(0).
• Ziel im weiteren ist, festzustellen, in welcher Beziehung eine Trajektorie x(t), generiert
von einer Halbgruppe, T(t) zur Gleichung ẋ(t) = Ax(t) steht.
• Normalerweise wird neben der Stetigkeit noch ein gewisses Verhalten der Halbgruppe
für große Zeiten verlangt, etwa kT(t)k ≤ Meωt für gewisses ω < ∞ und M > 0. Wir
beschränken uns hier auf kontraktive Halbgruppen. Das sind Halbgruppen mit der Eigenschaft kT(t)k ≤ 1 (für Halbgruppen von Markowoperatoren gilt sogar kT(t)k = 1).
Das ist keine prinzipielle Einschränkung, denn durch geeignete Skalierung und Verschiebung läßt sich aus einer Halbgruppe mit kT(t)k ≤ Meωt stets eine geeignete kontraktive
Halbgruppe konstruieren.
10.1.3
Unbeschränkte Operatoren
Neben beschränkten linearen Operatoren, also solchen, die auf dem ganzen Raum definiert sind
und eine beschränkte Norm haben, ist es sinnvoll auch andere lineare Operatoren zu betrachten,
unbeschränkte.
Dazu wird häufig folgende Definition verwendet:
Ein Operator A heißt unbeschränkt, wenn es eine Folge xn gibt mit kxn k = 1 und kAxn k −
→ ∞.
Ein unbeschränkter linearer Operator ist nicht stetig, da ein linearer Operator genau dann stetig
ist, wenn er beschränkt ist.
10.1 Die Theorie stetiger Halbgruppen im Banachraum
177
In C ist diese Definition unbefriedigend, da nicht die Unbeschränktheit der Norm hier das
entscheidende, sondern der Definitionsbereich ist. Wir werden deshalb einen linearen Operator
unbeschränkt nennen, wenn er nicht auf dem ganzen Raum definiert ist. In diesem Sinne werden
wir z.B. den Multiplikationsoperator mit einer unstetigen aber beschränkten Funktion auch als
unbeschränkt bezeichnen, da er sich nur – wenn überhaupt – auf einem echten Ideal in C
definieren läßt.
Ein unbeschränkter Operator A läßt sich nicht auf dem ganzen Raum X, sondern nur auf einer
Teilmenge D(A) ⊂ X, seinem Definitionsbereich, definieren.
Ein unbeschränkter Operator A heißt dicht definiert, falls D(A) = X.
Zwei unbeschränkte Operatoren zählen als verschieden, falls sie verschiedene Definitionsbereiche haben, auch wenn sie auf der Schnittmenge übereinstimmen. Diese Bemerkung ist wichtig,
weil man unbeschränkte Operatoren oft auf verschiedene Weise fortsetzen kann und die verschiedenen Fortsetzungen völlig verschiedene Eigenschaften haben können.
Ein linearer Operator A heißt abgeschlossen, falls aus (xn ∈ D(A), xn −
→ x, Axn −
→ y folgt
x ∈ D(A), Ax = y.
Ein linearer Operator A heißt abschließbar, falls er eine abgeschlossene Erweiterung hat (wird
bezeichnet mit A).
Bemerkungen:
• Beschränkte Operatoren sind stets abgeschlossen.
• Abgeschlossenheit bedeutet, der Graph kann unbschränkt sein, hat aber “keine Lücken”.
• Abgeschlossene Operatoren sind die “nächstschlechten” nach den beschränkten.
• Operatoren, die nicht abgeschlossen sind, sind weitgehend uninteressant. Z.B. ist ihre
Resolventenmenge leer.
• Ein Operator ist abschließbare, genau dann wenn aus xn ∈ D(A), xn −
→ 0, Axn −
→x
folgt x = 0.
Adjungierte Operatoren:
• Es sei A ein auf D(A) definierter Operator. Wir betrachten
hAx, x∗ i = hx, y ∗i, x ∈ D(A)
Es ist sinnvoll, die Abbildung y ∗ = A∗ x∗ den zu A adjungierten Operator zu nennen. Das
ist aber nur korrekt, wenn y ∗ eindeutig definiert ist. Das ist der Fall, wenn D(A) dicht in
X ist.
• Für unbeschränkte nicht dicht definierte Operatoren läßt sich ein adjungierter Operator
nicht definieren, der entsprechende Wert y ∗ nicht eindeutig festgelegt werden kann.
• Der adjungierte eines unbeschränkten Operators ist ebenfalls unbeschränkt, muß aber
nicht dicht definiert sein.
• Hieraus folgt: Unbeschränkte Operatoren haben im allgemeinen keinen doppelt adjungierten.
• Oft werden die Begriffe “dual” und “adjungiert” als Synonyme betrachtet. Für Generatoren von Halbgruppen werden die Begriffe dual und bidual allerdings in einem anderen
Sinn als “adjungiert” und “doppelt adjungiert” verwendet.
178
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
Zeitintegrale Im weiteren werden wir Zeitintegrale über Halbgruppen betrachten. Im allgemeinen ist die Definition von Integralen im Banachraum ein kompliziertes Problem. Handelt
es sich allerdings – wie bei uns – um stetige Funktionen, die integriert werden, so lassen sich
Integrale einfach als Grenzwerte der entsprechenden Riemannsummen definieren,die – aufgrund
der Stetigkeit – konvergieren.
10.1.4
Der Generator einer Halbgruppe
Es sei T(t) eine stark stetige Halbgruppe. Wir definieren die Menge
1
D(A) = x ∈ X | ∃ lim (T(t)x − x)
t→0 t
Die Menge D(A) ist stets nichtleer und linear. Auf D(A) definieren wir den Operator A durch
1
Ax = lim (T(t)x − x)
t→0 t
und nennen ihn Generator der Halbgruppe T(t). D(A) heißt Definitionsbereich des Generators.
10.1.5
Die Resolvente des Generators einer Halbgruppe
Für einen Operator A und einer komplexen Zahl λ betrachten wir die Gleichung
λx − Ax = y
(51)
und untersuchen die Lösbarkeit dieser Gleichung für gegebene rechte Seite y. Die Menge
̺(A) = λ ∈ C ∀y ∈ X, ∃!x ∈ D(A) : λx − Ax = y
D.h. in der Resolventenmenge liegen alle die komplexen Zahlen, für die die Gleichung (51)
eindeutige Lösung hür alle rechten Seiten hat.
Für ein λ ∈ ̺(A) definieren wir die Resolvente als
R(λ) = (λI − A)−1
Offensichtlich ist R(λ) ein linearer beschränkter Operator.
Eine Resolvente kann zu jedem Operator definiert werden. Für uns ist die Resolvente des Generators einer Halbgruppe von besonderem Interesse. Wir nennen sie Resolvente der Halbgruppe.
Das besondere der Resolvente ist ihr Zusammenhang mit der Gleichung (48). Man kann z.B.
die Frage stellen,wann hat diese Gleichung eine Lösung für alle Anfangswerte x0 ∈ X. Um das
zu untersuchen betrachten wir die Laplacetransformation der Lösung.
Es sei x(t) eine ausreichend reguläre Funktion. Dann ist
Z ∞
x̂(λ) =
e−λt x(t)dt
0
ihre Laplacetransformation.
Wir wenden diese Integral auf die Gleichung (48) an und erhalten nach partieller Integration
und unter der Annahme, daß sich das Integral und A vertauschen lassen
λx̂(λ) − x0 = Ax̂(λ)
oder äquivalent
λx̂(λ) − Ax̂(λ) = x0
Das ist gerade Gleichung (51). Die Laplacetransformation überführt also die Frage nach der
Lösbarkeit der Gleichung (48) auf die Frage nach der Existenz der Resolvente.
Tatsächlich ist Gleichung (48) in gewissem Sinne ursprünglicher als Gleichung (51).
10.1 Die Theorie stetiger Halbgruppen im Banachraum
10.1.6
179
Die Yosida-Approximation des Generators einer Halbgruppe
Neben der Resolvente ist auch der beschränkte Operator
A(λ) = λ2 R(λ) − λI, λ ∈ ̺(A)
von Interesse. Er wird Yosida-Approximation von A genannt.
10.1.7
Einige Zusammenhänge
Wir führen hier einige Zusammenhänge zwischen den Operatoren A, T(t), R(λ) und A(λ) an,
die im weiteren häufig verwendet werden.
Die Formeln sind geschrieben als Zusammenhänge zwischen Operatoren. Diese gelten in dieser
Form nur, wenn der Generator beschränkt ist. Im allgemeinen gelten sie im starken Sinn angewendet auf Elemente des Definitionsbereiches von A bzw. angewendet auf beliebige Elemente
für die Operatoren T(t) und R(λ). Alle Operatoren kommutieren.
Z ∞
Z ∞
−λt
λR(λ) = λ
e T(t)dt = λ
e−(λ−A)t dt = λ(λ − A)−1
(52)
0
0
−n
n n n
t
At
R
= lim I − A
(53)
T(t) = e = lim
n→∞
n→∞ t
t
n
1
(54)
A = T′ (0) = lim (T(t) − I) = lim A(λ)
t→0
− t
λ→∞
A(λ) = λ2 R(λ) − λI = AλR(λ) = λR(λ)A
(55)
Der Grenzwert (53) ist der Beweis der Konvergenz des impliziten Eulerverfahrens.
Asymptotisch gelten folgende Zusammenhänge zwischen den Grenzwerten der Resolvente und
der Halbgruppe:
lim λR(λ) = lim T(t) = T(0) = I
t→0
−
λ→∞
lim λR(λ) = lim T(t) = T(∞)
t→∞
−
λ→0
Insbesondere die zweite Zeile ist eine brauchbare Methode um die stationären Punkte einer
Halbgruppe zu berechnen. T(∞) ist der Projektor in den linearen Raum der stationären Punkte.
Für die Yosida-Approximation gilt außerdem
T(t)g =
=
−λt
lim e
λ→∞
k!
k=0
(λ2 R(λ)−λ)t
lim e
λ→∞
∞
X
(λt)k
k
2
λR(λ) g = lim e−λt eλ R(λ)t g =
λ→∞
g = lim eλAR(λ)t g = lim eAλ t g
λ→∞
λ→∞
Die Halbgruppeneigenschaft von T(t) führt auf eine analoge Beziehung zwischen verschiedenen
Resolventen (Hilbert-Identität)
T(t)T(s) = T(t + s)
R(λ) − R(µ) = (λ − µ)R(λ)R(µ)
aus der weitere Eigenschaften der Resolvente folgen:
R′ (λ) = −R2 (λ)
R(n) (λ) = (−1)n n!Rn+1 (λ)
(56)
(57)
180
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
Beweis von (57) aus (56): Es sei µ > λ
T(s)T(t) = T(t + s)
Z ∞
Z ∞
−λt
T(s)R(λ) =
e T(t + s)dt =
e−λt eλs T(t)dt =
0
Z ∞
Zs s
λs
−λt
−λt
= e
e T(t)dt −
e T(t)dt =
0
0
Z s
λs
λs
= e R(λ) − e
e−λt T(t)dt
0
Z ∞
Z ∞
Z ∞
Z s
−µs
−µs λs
−µs λs
R(λ)
e T(s)ds = R(λ)
e e ds −
e e
e−λt T(t)dt =
0
0
0
∞ 0
Z
R(µ)
e(λ−µ)s s −λt
R(λ)
−
e T(t)dt +
=
µ−λ
λ−µ 0
λ−µ
0
R(µ)
R(λ)
+
R(λ)R(µ) =
µ−λ λ−µ
10.1.8
Gleichmäßig stetige Halbgruppen
Es stellt sich heraus, daß die Generatoren von Halbgruppen prinzipiell ander Eigenschaften
haben, in Abhängigkeit davon, in welchem Sinne die Halbgruppe stetig ist. Die Generatoren
von gleichmäßig stetigen Halbgruppen sind beschränkt, die von stark stetigen Halbgruppen sind
unbeschränkt.
Die wichtigste Frage im Zusammenhang von Halbgruppen und Generatoren ist, wann ist ein
gegebener Operator der Generator einer Halbgruppe. Im Falle beschränkter Operatoren ist das
einfach. Sie sind stets Generatoren.
Satz: A ist Generator einer gleichmäßig stetigen Halbgruppe genau dann, wenn A beschränkt
ist.
Beweis:
⇐=: Es sei A ein beschränkter linearer Operator. Wir definieren
tA
T(t) = e
=
∞ n
X
t
n=0
n!
An
Diese Reihe konvergiert für alle komplexen t (wir interessieren uns nur für t ∈ R+ ), da die Norm
von A beschränkt ist.
Unter Benutzung dieser Darstellung läßt sich leicht zeigen, daß T(t) die Halbgruppenfunktionalgleichung erfüllt.
Aus der Ungleichung
kT(t) − Ik ≤ tkAketkAk
folgt die gleichmäßige Stetigkeit von T(t).
Aus der Ungleichung
1
T(t) − I − A ≤ kAk · max kT(s) − Ik
t
0≤s≤t
zusammen mit der gleichmäßigen Stetigkeit folgt, daß A der Generator von T(t) ist.
10.1 Die Theorie stetiger Halbgruppen im Banachraum
181
=⇒: Es sei T(t) eine gleichmäßig stetige Halbgruppe. Dann gilt
Z
1 t
T(s)ds = I
lim
t→0
t 0
Hieraus
folgt, daß es ein hinreichend kleines
sodaß der inverse Operator von
R
R τ τ > 0 gibt,
−1
1 τ
T(s)ds existiert. Damit existiert auch 0 T(s)ds
und aus der leicht nachzuprüfenden
τ 0
Indentität
Z τ
Z τ +t
Z
1
1 t
1
T(t) − I
T(s)ds =
T(s)ds −
T(s)ds
t
t τ
t 0
0
oder äquivalent
1
T(t) − I =
t
Z τ +t
Z τ
−1
Z
1
1 t
T(s)ds −
T(s)ds
T(s)ds
t τ
t 0
0
folgt die Existenz des beschränkten Operators
Z τ
−1
1
A := lim T(t) − I = T(τ ) − I
T(s)ds
t→0 t
0
Damit folgt die Behauptung.
Desweiteren läßt sich leicht zeigen, daß zwei Halbgruppen gleich sind, wenn sie denselben Generator haben.
Aus dem angegebenen Satz folgt:
Satz: Die Abbildung t −
→ T(t) als Abbildung R −
→ L(X) ist norm-differentierbar und es gilt
d
T(t) = AT(t) = T(t)A
dt
Angewendet auf ein Element x0 folgt hieraus mit x(t) = T(t)x0
ẋ(t) = Ax(t), x(0) = x0
Diese Gleichung ist lösbar. Seine Lösung ist
x(t) = etA x0
10.1.9
Hauptsatz der Halbgruppentheorie
Im Falle, daß die halbgruppe nicht gleichmäßig stetig sondern nur stark stetig ist, ist die Welt
wesentlich komplizierter. Es gilt folgender
Hauptsatz der Halbgruppentheorie: Es sei T(t) eine stark stetige kontraktive Halbgruppe
und A ihr Generator mit dem Definitionsbereich D(A). Dann gilt:
1. x ∈ D(A) =⇒ T(t)x ∈ D(A) für t > 0
2. Die Abbildung x(0) −
→ x(t) = T(t)x(0) ist stark differenzierbar gdw. x(0) ∈ D(A).
182
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
3. Es gilt
ẋ(t) =
d
x(t) = T(t)x(0) = AT(t)x(0) = T(t)Ax(0) = Ax(t)
dt
4. Für alle x, t > 0 ist
A
Z
0
t
Rt
0
(58)
T(s)xds ∈ D(A) und
T(s)xds = T(t)x − x
(59)
5. Für x ∈ D(A) gilt
T(t)x − x =
Z
t
AT(s)xds
0
6. D(A) = X (A ist dicht definiert)
7. A ist abgeschlossen
8. Für λ ∈ C mit ℜe λ > 0 existiert die Laplacetransformation
λ ∈ ̺(A) und
R(λ) = (λI − A)
−1
=
Z
R∞
0
e−λt T(t)xdt und es gilt
∞
e−λt T(t)xdt
0
Der Beweis kann in pazy eingesehen werden.
Bemerkungen:
• Der Satz stellt einen Zusammenhang zwischen der Funktionalgleichung (49), der Exponentialfunktion und der Diifferentialgleichung (58), der aus der eindimensionalen Theorie
gut bekannt ist.
Im unendlich-dimensionalen Raum treten Besonderheiten auf, weil A unbeschränkt sein
kann. Das äußert sich darin, daß die Differentialgleichung (58) nur für Elemente aus dem
Definitionsbereich von A gilt. Die allgemeine Gleichung ist (59).
• Die Zuordnung zwischen Generator und Halbgruppe ist eineindeutig: Falls zwei Halbgruppen denselben Generator haben (mit demselbe Definitionsbereich!), sind sie identisch (für
jedes t dieselben Operatoren).
• Sollte eine stetige Halbgruppe sogar gleichmäßig stetig sein, ist ihr Generator ein beschränkter Operator und umgekehrt.
10.1 Die Theorie stetiger Halbgruppen im Banachraum
10.1.10
183
Wann ist ein Operator ein Generator?
Aus Sicht der Anwendung ist natürlich die umgekehrte Frage von Interesse: Wann ist ein gegebener unbeschränkter Operator ein Generator einer Halbgruppe oder: Welche Eigenschaften
eines Operators sind hinreichend um ein Generator einer Halbgruppe zu sein.
Satz (Hille-Yosida): Es sei A ein dicht definierter abgeschlossener Operator, R+ ⊂ ̺(A) und
kλR(λ)k ≤ 1. Dann ist er Generator einer stetigen kontraktiven Halbgruppe.
Der Beweis dieses Satzes ist in pazy enthalten. Er ist konstruktiv. Kernpunkt ist die Benutzung
der Yosida-Approximation A(λ) (sie wurde im Zusammenhang mit diesem Satz definiert). Die
entscheidende Eigenschaft der Yosida-Approximation ist, daß ihre Werte auf D(A) stark gegen
die Werte von A konvergieren. Insbesondere gilt
lim λR(λ)x = x, x ∈ X
λ→∞
−
lim A(λ)x = Ax, x ∈ D(A)
tA(λ)
e
x − etA(µ) x ≤ tkA(λ)x − A(µ)xk
λ→∞
−
lim etA(λ) x = T(t)x, x ∈ X
λ→∞
−
Bemerkung zur Generator-Eigenschaft: Die Frage, ob ein Operator A ein Generator ist,
bedeutet letztlich, wann für einen gegebenen Operator A das Cauchyproblem
d
x(t) = Ax(t), x(0) = x0
dt
(60)
lösbar ist (wenn es lösbar ist, wird die Lösung von einer Halbgruppe generiert).
Der obige Satz sagt, daß das der Fall ist, wenn die Resolventenmenge nicht leer ist, wenn
also die Gleichung (λ − A)x = y für jedes y ∈ X eine Lösung x ∈ X besitzt. Tatsächlich ist
damit die Frage nach der Lösbarkeit einer zeitabhängigen Gleichung auf die Lösbarkeit einer
zeitunabhängigen, aber von einem komplexen Parameter abhängigen Gleichung geführt worden.
Das ist beinahe eine Tautologie. Beide Gleichungen gehen durch die Laplacetransformation
ineinander über.
Die richtige Definition eines unbeschränkten Operators kann eine schwere mathematische Aufgabe sein, die gleichbedeutend mit der Untersuchung der Lösbarkeit von Gleichungen ist. Das
ist gut bekannt in der Theorie partieller Differentialgleichungen. Dort müssen insbesondere für
Differentialoperatoren Randbedingungen richtig gestellt werden. Erst das definiert den Operator so, daß entsprechende Gleichungen lösbar werden.
Der Beweis der Lösbarkeit einer Gleichung läßt sich nicht automatisieren. Das hängt vom konkreten Operator ab und davon, wie wir ihn definiert haben. Wir können ungeschickt sein und
ihn so definieren, daß die Gleichung keine Lösung hat (z.B. zuviele oder zuwenige Randbedingungen).
10.1.11
Summen von Generatoren. Kommutativität. Störungstheorie
Eine wichtige Frage ist, wann die Summe A + B ein Generator ist, wenn beide Operatoren
für sich Generatoren sind. Das ist für unbeschränkte Operatoren im allgemeinen ein schweres
Problem.
184
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
Für beschränkte Generatoren A und B ist A+B auch beschränkt und folglich ebenfalls ein Generator. Im allgemeinen läßt sich die Halbgruppe et(A+B) aber nicht leicht aus den Halbgruppen
etA und etB bestimmen. Insbesondere gilt
et(A+B) 6= etA etB
wenn die Operatoren A und B nicht kommutieren. Approximativ kann man et(A+B) mit der
Trotter-Formel bestimmen.
Weiß man von einem Operator A, daß er ein Genrator ist, läßt sich das auch von anderen
Operatoren beweisen, die in gewissem Sinn von A dominiert werden. Dazu gibt es eine Reihe
von Störungssätzen, die man z.B. in pazy nachlesen kann. Insbsondere ist A + B Generator,
wenn B beschränkt ist.
Ist B unbeschränkt, dann ist – grob gesagt – A + B Generator, wenn D(B) ⊃ D(A) und eine
Abschätzung in der Art von
kBxk ≤ kAxk + ckxk
möglich ist.
10.1.12
Numerische Bestimmung der Halbgruppe
Üblicherweise führt die Approximation einer Gleichung vom Typ (48) zu einer ebensolchen
Gleichung in einem endlichdimensionelen Raum.
10.2 Halbgruppen von Markowoperatoren
10.2
185
Halbgruppen von Markowoperatoren
Uns interessieren in erster Linie Halbgruppen T(t) von Markowoperatoren in C(Z) und ihre
adjungierten in C∗ (Z). Nur solche Halbgruppen haben physikalischen Sinn, denn nur für sie
gilt T∗ (t)P ⊂ P. Diese Einschränkung schränkt auch die Menge der Generatoren ein. Die Verbandseigenschaften von C liefert eine strenge Bedingung dafür, daß ein Generator ein Generator
einer Halbgruppen von Markowoperatoren ist – das positve Minimumprizip. Die Frage, wann
ein Operator ein Generator ist, führt aber auch in diesem Fall auf die Frage nach der Lösbarkeit
einer entsprechenden Resolventengleichung.
10.2.1
Eigenschaften der Halbgruppen und Generatoren
Es sei T(t) ⊂ M eine Halbgruppe von Markowoperatoren, A ihr Generator (wir nennen ihn
Markowgenerator) und R(λ) die Resolvente mit λ > 0. Es gelten folgende offensichtliche Eigenschaften:
• kT(t)k = 1
• Die Resolvente existiert für alle λ mit ℜe λ > 0 (folgt aus kT(t)k = 1).
• T(t)1 = 1 =⇒ 1 ∈ D(A), A1 = 0. Das heißt 0 ist Eigenwert von jedem Markowgenerator.
• T(t) ≥ 0 =⇒ λR(λ) ≥ 0. Es gilt auch die Umkehrung. Beides folgt aus (52).
• λR(λ)1 = 1 (folgt aus (52)). Hieraus folgt λR(λ) ∈ M für λ > 0.
10.2.2
Das positive Minimumprinzip
Markowoperatoren sind mittelnde Operatoren. Das heißt, es gilt für jedes t ≥ 0
gmin = g(zmin) ≤ (T(t)g)(z) ≤ g(zmax ) = gmax
(zu den Definitionen siehe Abschnitt 5.3.6 auf Seite 74). Hieraus folgt
(T(t)g − g)(zmin) ≥ 0 ,
was die Ungleichung
(Ag)(zmin) ≥ 0, g ∈ D(A)
für A impliziert. D.h., falls T(t) eine Halbgruppe von Markowoperatoren ist, muß ihr Generator
diese Ungleichung erfüllen. Es stellt sich heraus, daß auch die Umkehrung richtig ist.
Das suggeriert, folgende Definition einzuführen:
Definition (positives Minimumprinzip): Ein Operator A mit A1 = 0 erfülle das positives
Minimumprinzip, wenn gilt
(Ag)(zmin) ≥ 0, g ∈ D(A)
wobei zmin der Punkt ist, in dem g sein Minimum annimmt.
Es gibt zwei weitere Definition, deren Äquivalenz offensichtlich ist:
Definition (negatives Maximumprinzip): Ein Operator A mit A1 = 0 erfülle das negative
Maximumprinzip, wenn gilt
(Ag)(zmax) ≤ 0, g ∈ D(A)
186
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
wobei zmax der Punkt ist, in dem g sein Minimum annimmt.
Definition (positives Minimumprinzip): Ein Operator A mit A1 = 0 erfülle das positive
Minimumprinzip, wenn für ein 0 ≤ g ∈ D(A) gilt
g(z) = 0 =⇒ (Ag)(z) ≥ 0
Es gilt folgender
Hauptsatz für Markowgeneratoren: Es sei T(t) eine stetige Halbgruppe und A ihr Generator. T(t) ist eine Halbgruppe von Markowoperatoren, genau dann, wenn ihr Generator das
positives Maximumprinzip erfüllt.
Beweis (=⇒) Es sei T(t) eine Halbgruppe von Markowoperatoren und g ∈ D(A). Dann gilt
1
(T(t)g − g)(zmin ) ≥ 0 =⇒ (Ag)(zmin) ≥ 0
t
(⇐=) Es sei D(A) ∋ g ≥ 0. Wir beweisen, daß für jedes λ > 0, R(λ) ≥ 0. Nach Formel(53) folgt
dann T(t) ≥ 0. Angenommen, R(λ) 6≥ 0. Dann existiert ein g und ein z0 mit R(λ)g (z0 ) < 0,
wobei wir annehmen können, daß
z0 der Punkt ist, wo R(λ)g sein Minimum annimmt. Nach
Vorausetzung ist dann AR(λ)g (z0 ) ≥ 0. Dann folgt für λ > 0
g(z0 ) = (λ − A)R(λ)g (z0 ) = λR(λ)g (z0 ) − AR(λ)g (z0 ) < 0
g(zmin) ≤ (T(t)g)(z) =⇒
was im Widerspruch zu g ≥ 0 steht.
Dieser Satz ermöglicht, ein etwas einfacheres hinreichendes Kriterium zu finden als das HilleYosida-Theorem.
Satz: Es sei A ein in C(Z) dicht definierter Operator, der das positives Maximumprinzip erfüllt
und desssen Resolventenmenge nicht leer ist. Dann ist A abschließbar, sein Abschluß erfüllt
ebenfalls das positive Maximumprinzip und ist Generator einer stetigen Halbgruppe von Markowoperatoren.
Der Beweis ist bis auf die Abschließbarkeit (hierzu siehe in 1184) bereits erbracht.
10.2.3
Stationäre Punkte
Die adjungierte T∗ (t) einer Halbgruppe T(t) ist offensichtlich wieder eine Halbgruppe. Allerdings muß sie nicht stark stetig sein. Das hat Folgen für die Formulierung von Evolutionsgleichungen (siehe Abschnitt 10.4 auf Seite 189).
Außerdem ist T∗ (t) ist eine kommutierende Familie von Operatoren und besitzt damit nach dem
Satz von Markow-Kakutani einen gemeinsamen stationären Punkt µ, d.h., es gilt T∗ (t)µ = µ
für t ∈ R+ .
Dieses µ liegt im Kern von A∗ . Es gilt folgender
Satz: Es sei T(t) eine stetige Halbgruppe und A ihr Generator. Dann gilt T∗ (t)µ = µ ⇐⇒
A∗ µ = 0.
Beweis:
=⇒ Aus T∗ (t)µ = µ folgt für alle g ∈ D(A):
1
1
1
hg, A∗ µi = hAg, µi = lim hT(t)g − g, µi = lim hg, T∗(t)µ − µi = lim 0 = 0
t→0 t
t→0 t
t→0 t
∗
Da D(A) dicht ist, folgt A µ = 0.
⇐= Der Beweis folgt aus Gleichung (59) gepaart mit µ und A∗ µ = 0.
10.3 Halbgruppen von deterministischen Markowoperatoren
10.3
Halbgruppen von deterministischen Markowoperatoren
10.3.1
Halbflüsse
187
Besondere Bedeutung haben Halbgruppen von deterministischen Markowoperatoren, also T(t) ⊂
Me . Ein deterministischer Markowoperator ließ sich eindeutig durch eine stetige Funktion
ϕ : Z −→ Z darstellen. Es lassen sich Halbgruppen von deterministischen Markowoperatoren
durch Halbflüsse darstellen. Es sei ϕt eine Schar stetiger Funktionen und T(t) = Mϕt eine
Schar deterministischer Markowoperatoren.
ϕt ist ein Halbfluß (siehe Abschnitt 8.1.3) genau dann, wenn T(t) eine Halbgruppe ist. Das
folgt aus der Identität
Mϕt2 ◦ϕt1 = Mϕt1 Mϕt2
Den Zusammenhang zwischen den Stetigkeiten von Halbfluß und Halbgruppe liefert folgender
Satz: Folgende drei Aussagen sind äquivalent:
• ϕ als Abbildung R+ × Z −
→ Z ist stetig in der Produkttopologie.
• ϕ(t, z) ist stetig bezüglich jeder Variablen
• T(t) = Mϕt ist stark stetig in C(Z)
Der Beweis kann in 1184 gefunden werden.
Nach dem Hauptsatz über deterministischen Markowoperatoren, sind sie äquivalent als algebraische Homomorphismen charakterisiert. D.h., Halbgruppen von deterministischen Markowoperatoren sind äquivalent als Operatorenfamilie T(t) mit
T(t)(f · g) = T(t)f · T(t)g
(61)
charakterisiert.
Es stellt sich heraus, daß sich die Generatoren solcher Halbgruppen auch algebraisch charakterisieren lassen.
10.3.2
Generatoren. Derivationen
Definition: Ein Operator A heißt Derivation, wenn D(A) eine Unteralgebra ist (d.h. mit
f, g ∈ D(A) auch f · g ∈ D(A) gilt), 1 ∈ D(A) und für alle f, g ∈ D(A)
A(f · g) = Af · g + f · Ag
gilt.
Offensichtlich gilt 1 ∈ D(A) =⇒ A1 = 0.
Satz: Es sei T(t) eine stetige Halbgruppe und A ihr Generator. T(t) ist eine Halbgruppe von
deterministischen Markowoperatoren, genau dann, wenn ihr Generator eine Derivation ist.
Beweis: (aus 1184) (=⇒) Angenommen, T(t) ist eine Halbgruppe von algebraischen Homomorphismen, also auch Markowoperatoren. Damit folgt T(t)1 = 1 und folglich 1 ∈ D(A). Es
seien f, g ∈ D(A). Dann gilt mit (61)
d d T(t)f · T(t)g = Af · g + f · Ag
A(f · g) = T(t)(f · g) = dt t=0
dt t=0
Folglich ist f · g ∈ D(A) und A eine Derivation.
188
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
(⇐=) Es sei f, g ∈ D(A) (das reicht, da D(A) dicht ist).
η(s) = T(t − s) T(s)f · T(s)g
Dann ist
η(0) = T(t)(f · g)
η(t) = T(t)f · T(t)g
Wir berechnen die Ableitung von η(s) und benutzen dabei T′ (s) = T(s)A:
η ′ (s) = −T′ (t − s) T(s)f · T(s)g + T(t − s) T′ (s)f · T(s)g +
+ T(t − s) T(s)f · T′ (s)g =
= −T(t − s)A T(s)f · T(s)g + T(t − s) T(s)Af · T(s)g +
+ T(t − s) T(s)f · T(s)Ag =
= −T(t − s) T(s)Af · T(s)g − T(t − s) T(s)f · T(s)Ag +
+ T(t − s) T(s)Af · T(s)g + T(t − s) T(s)f · T(s)Ag = 0
Folglich gilt η(0) = η(t).
10.3.3
Derivationen sind unbeschränkt
Satz: Derivations sind unbeschränkte Operatoren.
Beweis: Es sei A mit A(f g) = f Ag + gAf . Es gilt A1 = 0. Wir nehmen D(A) = C an
und beweisen, daß dann A = O sein muß. Es sei z0 und f beliebig (wir zeigen (Af )(z0 ) = 0,
hieraus folgt dann A = O). Es sei g = f − f (z0 ). Dann ist g(z0 ) = 0, g+ (z0 ) = 0, g− (z0 ) = 0,
1
1
g+2 (z0 ) = 0, g−2 (z0 ) = 0 und Af = Ag. Wegen g+ , g− ∈ D(A) gilt
(Af )(z0 ) = (Ag)(z0 ) = (A(g+ − g− ))(z0 ) = (Ag+ )(z0 ) − (Ag− )(z0 ) =
1
1
1
1
= (Ag+2 · g+2 )(z0 ) − (Ag−2 · g−2 )(z0 ) =
1
1
1
1
= 2g+2 (z0 )(Ag+2 )(z0 ) − 2g−2 (z0 )(Ag−2 )(z0 ) = 0
∂
= O. Das gilt nur, wenn
Das heißt, der Operator bildet f auf die 0 ab, es ist also A = a(z) ∂z
g = g+ − g− im Definitionsbereich zerlegt werden kann, was für differenzierbare Funktionen
nicht gilt. Das heißt, wenn f differenzierbar ist, kann ich so nicht beweisen, daß Af = 0 ist. Die Unbeschränktheit erkennt man auch so: Es sei kf k = 1. Es gilt
Af n
Af 1
Af 2
Af 3
Af n
=
=
=
=
=
A(f · f n−1 ) = Af · f n−1 + f · Af n−1
Af
2f · Af
3f 2 · Af
nf n−1 · Af
Damit wächst kAf n k wie n.
Bemerkung: Im endlich dimensionalen Raum sind alle linearen Operatoren beschränkt. Folglich gibt es keine Matrizen, die Derivationen sind und damit auch keine Halbgruppen deterministischer Markowoperatoren. Nimmt man an, daß jedes sinnvolle physikalische Problem einen
deterministischen Limit haben sollte (d.h., bei immer mehr zur Verfügung stehender Information im Prinzip deterministisch werden sollte), dann ist die Konsequenz: Probleme in einem
endlichen Zustandsraum kann man nicht mit kontinuierlicher Zeit beschreiben.
10.4 Evolutionsgleichungen
10.3.4
189
What is integration by parts?
The extension of the integration by parts rule to more general situations is a frequently investigated problem. Actually this is a problem of extending the notion of a derivative.
We propose the following extension – based on the algebraic definition of an abstract derivation.
Given an abstract derivation A, pairing with some µ ∈ P, we have
hf · Ag, µi + hg · Af, µi = hA(f · g), µi = hf · g, A∗µi
If µ is the stationary measure of the corresponding semigroup, we have A∗ µ = 0. Hence,
hf · Ag, µi = −hg · Af, µi. This is equivalent to (f, Bg)µ = −(g, Bf )µ and is the most general
form of the integration by parts rule. This is a pure algebraic formula and does not require any
metric structure in Z for the definition of a differential quotient.
Bemerkung: In der üblichen Formel für die partielle Integration kommen Randterme vor,
beispielsweise gilt
Z b
Z b
′
g(x)f (x)dx = −
g ′ (x)f (x)dx + g(b)f (b) − g(a)f (a)
a
a
′
Hier ist Af = f . Das Maß µ, das dieser Formel zugrunde liegt ist das Lebesguemaß. Aber A
ist kein Generator. Erst geeignete Randbedingungen, mit denen die Randterme wegfallen (z.B.
periodische g(b) = g(a), f (b) = f (a)), machen ihn zu einem Generator.
10.4
Evolutionsgleichungen
Die ursprüngliche Aufgabe war, durch Lösung einer geeigneten Gleichung die gesuchte Trajektorie zu ermitteln. Diese Trajektorie bei gegebenem Anfangswert ist
p(t) = T∗ (t)p0
(62)
eine Trajektorie in P. Sie ist Lösung der Gleichung
ṗ(t) = A∗ p(t), p(0) = p0
(63)
falls T∗ (t) eine stark stetige Halbgruppe in C∗ ist. Die starke Topologie in C∗ ist aber so
stark (sie ist auf Pe zur diskreten Topologie äquivalent), daß eine stark stetige Halbgruppe in
C∗ gleichmäßig stetig sein muß. Dann ist ihr Generator aber beschränkt. Gleichung (63) hat
folglich nur für beschränkte Operatoren A∗ Sinn, etwa für Matrizen im endlich dimensionalen
Raum.
Schon adjungierte von deterministischen Halbgruppen sind nicht stark stetig (sonst wären Derivationen beschränkt).
Im allgemeinen kann man die gesuchte Trajektorie p(t) also nicht durch Lösung der Gleichung
(63) ermitteln.
10.4.1
Starke Gleichungen in C
Wenn man die Halbgruppe T(t) kennt, kann man ihre adjungierte T∗ (t) durch Bestimmung
der adjungierten und dann p(t) nach Gleichung (62) ermitteln. Dazu sind folgende Schritte
erforderlich:
1. Bestimmung des Operators A (das kann im allgemeinen schwer sein, da man nur dem
Operator A∗ einen physikalischen Sinn geben kann).
190
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
2. Lösung der Gleichung
ġ(t) = Ag(t), g(0) = g0
(64)
für alle Anfangswerte g ∈ D(A). Löst man die Gleichung nur für einen Anfangswert g0 ,
bestimmt man g(t), was zur Kenntnis der Halbgruppe zu wenig ist.
3. Bestimmung der Trajektorie p(t) aus
hg, p(t)i = hT(t)g, p0 i
In der Praxis bedeutet die Bestimmung der Halbgruppe die Bestimmung des Integralkerns
des Integraloperators, dem die Halbgruppe entspricht. Dieser Integralkern wird häufig Greensche Funktion der Aufgabe oder Greensche Lösung genannt. Diese Methode bietet sich an,
wenn man die Gleichung (64) explizit (also in geschlossener Form) lösen kann, was ein seltener
Glücksumstand ist.
Die Lösung der Gleichung (64) wird “starke Lösung” genannt, Gleichung (64) heißt starke
Gleichung oder “Gleichung in starker Form.” Ursprünglich bedeutete die Lösung einer Gleichung stets das Finden der starken Lösung. Dieser Begriff trat erst auf im Zusammenhang mit
schwachen Lösungen.
10.4.2
Vage Gleichungen in C∗
Wenn man die Trajektorie nicht explizit finden kann, d.h., die Gleichung (64) nicht explizit
lösen kann, dann möchte man sie wenigstens numerisch lösen. Der Ausgangspunkt hierfür ist
Gleichung (64) dual gepaart mit dem Anfangswert p0 . Das ergibt (aus starker Differenzierbarkeit
folgt vage Differenzierbarkeit) für die linke Seite
hġ(t), p0 i =
d
d
d
d
hg(t), p0i = hT(t)g0 , p0 i = hg0, T∗ (t)p0 i = hg0 , p(t)i
dt
dt
dt
dt
und für die rechte Seite
hAg(t), p0i = hAT(t)g0, p0 i = hT(t)Ag0, p0 i = hAg0 , ø∗ T (t)p0 ihAg0, p(t)i
Das ergibt die Gleichung
d
hg0, p(t)i = hAg0 , p(t)i, g0 ∈ D(A)
dt
(65)
Diese Gleichung heißt – zusammen mit dem Anfangswert p(0) = p0 “vage Gleichung” und seine
Lösung “vage Lösung”.
Aus der Theorie der schwachen Gleichungen ist bekannt, daß eine Gleichung möglicherweise
keine starke, sondern nur eine schwache Lösung hat. Starke und schwache Gleichungen sind
also verschiedene Dinge. Was es damit auf sich hat untersuchen wir im nächsten Punkt.
Die hier betrachteten Gleichungen (64) und (65) sind im Gegensatz dazu völlig äquivalent. Hat
man Gleichung (65) für jeden Anfangswert p0 gelöst, hat man die Halbgruppe T∗ (t) bestimmt.
Ihre vage Ableitung für t = 0 ist A∗ . Dieser Operator hat offensichtlich einen präadjungierten A,
von dem wir in Gleichung (65) ausgegangen sind. Deshalb hat auch T∗ (t) eine präadjungierte
Halbgruppe T(t), die Lösung von Gleichung (64) ist.
10.4 Evolutionsgleichungen
191
Zur numerischen Lösung von (65) betrachtet man einen n-dimensionalen Unterraum von D(A),
aufgespannt von einer geeigneten Basis (g1 , ..., gn ) und zerlegt Agi in dieser Basis (entweder
approximativ P
oder exakt, wenn man einen invarianten Unterraum von A gefunden hat. Das
ergibt Agi = j aij gi . Man erhält aus (65) das Gleichungssystem
X
d
hgi , p(t)i =
aij hAgj , p(t)i, i = 1, ..., n
dt
j
(66)
Setzt man jetzt mi (t) = hgi , p(t)i, erhält man als zu lösendes Gleichungssystem
X
d
mi (t) =
aij mj (t), i = 1, ..., n
dt
j
(67)
Die Größen mi (t) heißen Momente der Maße p(t). Die approximative Berechnung von p(t)
aus mi (t) ist bei guter Wahl der Basis (g1 , ..., gn ) eine klassische Aufgabe und heißt “inverses
Momentenproblem” oder einfach “Momentenproblem”.
10.4.3
Schwache Gleichungen in L2 (µ)
Für eine gegebene Halbgruppe T(t) und ein stationäres Maß µ ihrer adjungierten T∗ (t) betrachten wir dem Hilbertraum L2 (µ) als Vervollständigung von C in der L2 (µ)-Norm und die
Erweiterung S(t) von T(t). Die weiteren Ausführungen sind für die anderen Lebesgueräume
analog, sofern nicht spezielle Begriffe aus dem Hilbertaum verwendet werden (Skalarprodukt,
Symmetrie, Selbstadjungiertheit).
Offensichtlich ist auch S(t) eine Halbgruppe.
Tatsächlich ist sie auch stark stetig. Das folgt aus der schon häufig für solche Abschätzungen
verwendeten Jensenschen Ungleichung für die konvexe Funktion F (x) = x2 .
Theorem: A Markov semigroup T(t) is a strong continuous semigroup in L2 (µ) if T∗ (t)µ = µ.
Proof: Let S(t) the extension of T(t) in L2 (µ). T(t) is strong continuous and therefore weak
continuous. We take f ∈ C, then, with F (x) = x2
kS(t)f − f k2L2 (µ) = (T(t)f − f )2 , µ = (T(t)f )2 , µ − 2 f · T(t)f, µ + f 2 , µ ≤
≤ T(t)f 2 , µ − 2 f · T(t)f, µ + f 2 , µ =
= 2 f 2 , µ − 2 f · T(t)f, µ =
t→0
= 2 f · (T(t)f − f ), µ ≤ 2kf kC |T(t)f − f |, µ −
→0
since T(t)f tends to f weakly.
Es ist leicht zu zeigen, daß der Generator der Fortsetzung einer stetigen Halbgruppe die Fortsetzung des Generators ist. Es sei B die Fortsetzung von A.
Wir leiten im Weiteren eine Gleichung in L2 (µ) für die Dichte h(t) der Trajektorie p(t) bezüglich
µ her.
Es habe p0 eine Dichte h0 bezüglich µ, wobei wir hier nicht fordern wollen, daß h0 stetig ist
sondern nur, daß h0 ∈ L2 (µ). Dann folgt ebenfals aus der Jensenschan Ungleichung, daß p(t)
für alle t ∈ R+ eine L2 (µ)-Dichte bezüglich µ besitzt. Das sei h(t). Jetzt folgt aus Gleichung
(65) und (g, h(t))µ = hg, Qµh(t)i = hg, p(t)i
d
d
(g0 , h(t))µ = hg0 , p(t)i = hAg0, p(t)i = (Bg0 , h(t))µ = (g0 , B∗ h(t))µ , g0 ∈ D(A)
dt
dt
192
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
In dieser Gleichung ist wegen der Dichtheit egal, ob man g0 ∈ D(A) oder g0 ∈ D(B) betrachtet.
Außerdem schreiben wir g anstelle von g0 . Schließlich erhalten wir die Gleichung
d
(g, h(t))µ = (g, B∗ h(t))µ , g ∈ D(B)
dt
(68)
Diese Gleichung wird “schwache Gleichung” oder Gleichung in “schwacher Form” oder Gleichung in “schwache Formulierung” und seine Lösung “schwache Lösung” genannt. Sie ist
schwach im Sinne des Hilbertraums L2 (µ) (in dem es wegen der Reflexivität keinen vagen
Begriff gibt).
Sie folgt aus der vagen Gleichung (65) unter zusätzlichen Annahmen: µ muß stationäres Maß
von T∗ (t) sein und p0 muß eine Dichte bezüglich dieses Maßes haben. Das ist eine starke
Einschränkung. Oft ist es nämlich erwünscht, die Lösung p(t) mit einem Punktmaß, etwa p0 =
δz0 als Anfangswert zu bestimmen. Vor allem Physikaer machen das gern, weil die Lösung dann
gerade die Greensche Funktion ist. δz0 hat aber nur bezüglich eines µ, das einen δz0 -Anteil
enthält eine Dichte. Das ist meistens ein uninteressanter Fall.
Interpretiert man Elemente aus L2 (µ) als Funktionen, die man punktweise verstehen kann, so
folgt, wenn h(t) ausreichend regulär ist aus (68) die Gleichung
d
h(t) = B∗ h(t)
dt
(69)
die “starke Gleichung” in L2 (µ) genannt wird. Offensichtlich ist jede Lösung von (69) auch
Lösung von (68). Die Umkehrung ist nicht wahr sondern erfordert zusätzliche Regularität von
h(t), die in konkreten Aufgaben nicht gegeben sein kann. Das ist ein prinzipieller Unterschied
zu den Begriffen “starke” und “vage” Lösung in C bzw. C∗ .
Historisch war die Entwicklung so: Man hat ursprünglich Gleichungen der Form (69) betrachtet. Dann hat man festgestellt, daß für spezielle Probleme dieser Lösungsbegriff nicht mehr
ausreichend ist und hat den Begriff der schwachen Lösung, also der Lösung von Gleichung (68)
entwickelt. Wir haben gesehen, daß der logische Weg gerade der umgekehrte war: Unter bestimmten weiteren Voraussetzungen (Existenz einer Dichte für den Anfangswert) konnte man
Gleichung (68) herleiten. Für deren Lösungsbegriff muß man Elemente aus L2 (µ) nicht selbst
als Funktionen, die im Punkt einen Wert haben betrachten, sondern nur als Grenzwerte von
Folgen stetiger Funktionen. Anschließend, unter weiteren Voraussetzungen (Regularität) kann
man auch eine Gleichung der Form (69) betrachten. Hierbei ist zu bemerken, daß sich das
Verständnis eines Elementes aus L2 (µ) als Funktion von Punkten – ohne dessen Gleichung
(69) überhaupt nicht zu verstehen wäre – für den Fall, daß µ das Lebesguemaß ist, entwickelt
hat. Für allgemeine Maße µ sollte man den Begriff der “starke Gleichung” in L2 (µ) überhaupt
vermeiden.
10.5 Darstellungen von Markowgeneratoren
10.5
Darstellungen von Markowgeneratoren
10.5.1
Markowgeneratoren in C({1, ..., n})
193
Ist Z = {1, ..., n} eine endliche Menge, dann ist C(Z) = Rn . Operatoren sind Matrizen. Markowhalbgruppen sind Familien von Markowoperatoren


ω11 (t) · · · ωn1 (t)


..
..
..
T(t) = 

.
.
.
ω1n (t) · · · ωnn (t)
mit der zusätzlichen Eigenschaft
T(t1 + t2 ) = T(t1 )T(t2 ) , T(0) = I
(70)
Die Operatoren T(t) und T∗ (t) haben die Form




ω11 (t) · · · ωn1 (t)
ω11 (t) · · · ω1n (t)




..
..
..
..
∗
..
..
T(t) = 
 , T (t) = 

.
.
.
.
.
.
ω1n (t) · · · ωnn (t)
ωn1 (t) · · · ωnn (t)
ωij (t) ist die Wahrscheinlichkeit, daß der i-te Zustand nach der Zeit t zum j-ten Zustand wird.
Es gilt
0 ≤ ωij (t) ≤ 1
n
X
ωij (t) = 1
(71)
(72)
i=1
Die Bedingung T(0) = I lautet hier
ωij (0) = δij
(73)
Aus der Funktionalgleichung folgt, daß die Funktionen ωij (t) differenzierbar sind. Zusammen
mit den Bedingungen (72) und (73) folgt hieraus, daß
aii := ωii′ (0) ≤ 0 , aij := ωij′ (0) ≥ 0 (i 6= j)
(74)
Außerdem gilt wegen (72)
aii = −
n
X
i=1
j6=i
aij ≤ 0
Das ist die bekannte Bedingung A1 = 0. Die allgemeine Darstellung eines Markowgenerators
ist deshalb

−a12 − . . . − a1n
a12
···
a1n

a21
−a21 − a23 − . . . − a2n · · ·
a2n
1

A = lim T(t) − I = 
.
.
..
.
..
..
..
t→0 t

.
an1
an2
· · · −an1 − . . . − an,n−1





194
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
mit nichtnegativen Elementen aij ≥ 0. Der Definitionsbereich ist der ganze Raum (wie für alle
linearen Operatoren im endlichdimensionalen Raum). Es gilt
Ag
j
=
n
X
j6=i=1
aij (gi − gj )
Tatsächlich erfüllen alle solchen Matrizen das positive Minimumprinzip:
Beweis: Es sei g ∈ Rn und imin der Index der kleinsten Komponente von g. Dann ist
Ag (zmin ) = Ag i
min
=
n
X
j6=imin
aimin j (gimin − gj ) ≤ 0
da gimin ≤ gj .
Die Evolutionsgleichungen in Rn und R∗n lauten
ġj (t) =
n
X
aij gi (t) =
i=1
ṗi (t) =
n
X
j=1
n
X
i=1
i6=j
aij gi (t) − gj (t)
(75)
n X
aij pj (t) =
aij pj (t) − aji pi (t)
(76)
j=1
j6=i
Da die Operatoren beschränkt sind, lassen sich beide Gleichungen in starken Sinn verstehen.
Die Komponenten der Matrix A ergeben sich als aij = lim 1t ωij (t) und lassen sich als Übergangst→0
raten oder Übergangsgeschwindigkeiten (Übergangswahrscheinlichkeiten pro Zeit) verstehen.
10.5.2
Markowgeneratoren in C(Z) mit Z ⊂ Rm
Es sei Z ein kompaktes Gebiet im Rm . Ein Markowoperator läßt sich als Integraloperator mit
einem Integralkern schreiben. Es sei ω(t, z, B) eine Schar solcher Integralkerne mit
Z
T(t)g (z) = ω(t, z, dz ′ )g(z ′ )
Z
Der Halbgruppeneigenschaft entspricht
Z
′
′′
ω(t + t , z, B ) = ω(t, z, dz ′ )ω(t′ , z ′ , B ′′ )
Z
Wir berechnen den Generator nach seiner Definition:
Z
Z
1
1
1
′
′
ω(t, z, dz )g(z ) − g(z) =
T(t)g − g (z) =
ω(t, z, dz ′ ) g(z ′ ) − g(z)
t
t
Z
Z t
Hier wurde verwendet, daß ω(t, z, Z) = 1.
It is clear that the integral is well defined even if 1t ω(t, z, B) tends to a singular value, because
g(z ′ ) − g(z) −
→ 0 for z ′ −
→ z. This means, g can distingwish near states, badly. Therefore, we
decompose the integral in the following way
!
Z
Z
1
1
+
T(t)g − g (z) =
ω(t, z, dz ′ ) g(z ′ ) − g(z)
t
t
Z\Bz,ε
Bz,ε
195
10.5 Darstellungen von Markowgeneratoren
where Bz,ε is a set, tending to {z} for ε −
→ 0. Before passing to the limit ε −
→ 0, we expand g(z ′ )
′
in the first integral into a Taylor series for z ∈ Bz,ε
′
g(z ) = g(z) +
m
X
i=1
(zi′
m
∂
∂2
1X ′
− zi )
(zi − zi )(zj′ − zj )
g(z) +
g(z) + o(|z ′ − z|2 ) ,
∂zi
2 i,j=1
∂zi ∂zj
assuming g ∈ C2 (Z). This is possible, because C2 (Z) is dense in C(Z).
We assume the existence of the following limits
1
Q(z, B) = lim ω(t, z, B), z 6∈ B
t→0 t
Z
1
(zi′ − zi )ω(t, z, dz ′ ) + O(ε)
ai (z) = lim
t→0 t B
Z z,ε
1
bij (z) = lim
(zi′ − zi )(zj′ − zj )ω(t, z, dz ′ ) + O(ε)
t→0 t B
z,ε
Finally, we obtain
m
X
m
X
∂2g
∂g
(Ag)(z) =
bij (z)
+
ai (z)
+
∂z
∂z
∂z
i
j
i
i,j=1
i=1
Z
Z
g(z ′ ) − g(z) Q(z, dz ′ )
(77)
m
For fixed z, the matrix B = bij (z) i,j=1 is a non-negative matrix in Rm in the sense of bilinear
forms in Hilbert spaces. We have (Bξ, ξ) ≥ 0 for all ξ ∈ Rm since
!
Z
Z
m
X
′
′
′
(z ′ − z, ξ)2 ω(t, z, dz ′ ) ≥ 0
(zi − zi )(zj − zj )ω(t, z, dz ) ξi ξj =
(Bξ, ξ) =
i,j=1
Bz,ε
Bz,ε
with ω(t, z, B) ≥ 0.
Moreover, Q(z, B) ≥ 0. For z ∈ B, Q(z, B) can be unbounded. In this case, the integral operator
has to be understood as a principal value integral.
Note, that expression (77) is a formal one and valid only for inner points of Z. Neither the
structure of the operator at boundary points, nor the regularity properties of the coefficients
ai , bij , Q are known for general situations.
The operator A is bounded, if the differential part is absend and the integral exists in the usual
sense. In this case, the integral operator can be written as a dfference
Z
(Ag)(z) =
g(z ′ )Q(z, dz ′ ) − g(z)Q(z, Z)
Z
as is usually understood as a nonlocal operator describing jumps.
The proof of the maximum principle We prove that an operator of type 77 satisfy the
positive maximum principle.
Let g ∈ D(A) and zmax be the point, where g contains its maximum. We assume that zmax is a
inner point. Since g is twice continuous differentable, we have ∂z∂ i g(zmax ) = 0 and the negative
Hessian H with
Hij = −
∂2
g(zmax )
∂zi ∂zj
196
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
is a non-negative matrix in Rm .
We have to show Ag (zmax ) ≤ 0.
We have
m
m
X
∂
∂ 2 g(zmax ) X
+
ai (zmax )
g(zmax ) =
Ag (zmax ) =
bij (zmax )
∂z
∂z
∂z
i
j
i
i=1
i,j=1
Z
=
g(z ′ ) − g(zmax ) Q(zmax , dz ′ )
Z
Since g(zmax ) is the maximum of g we have g(z ′ ) − g(zmax ) ≤ 0 and since Q(zmax , B) ≥ 0, we
have
Z
Z
From
m
X
i,j=1
g(z ′ ) − g(zmax ) Q(zmax , dz ′ ) ≤ 0
∂
g(zmax )
∂zi
bij (zmax )
= 0 follows ai (zmax ) ∂z∂ i g(zmax ) = 0. Thus, it left to show
∂2
g(zmax )
∂zi ∂zj
≥0
This is equivalentely to tr(B · H) ≥ 0. H = H∗ ≥ 0 implies the existence of
√
H and we have
√
√
√
√
h H · B · Hx, xi = hB · Hx, Hxi ≥ 0
√
√
since B ≥ 0. Thus, the matrix H · B · H has a non-negative trace and from the cyclic
identity of the trace, tr(A · B · C) = tr(C · A · B), we obtain, finally
tr(B · H) = tr(B ·
√
H·
√
√
√
H) = tr( H · B · H) ≥ 0
Equations for the density
An equation for probability densities cannot be derived in a strong sense, in general. Assuming,
the probability measure p(t) has a density W (t) with respect to the Lebesgue measure, and
assuming Q(z, dz ′ ) = Q(z, z ′ )dz ′ , the evolution equation for W (t) is
m
m
X
X
∂
∂2
∂
ai (z)W (z, t) +
bij (z)W (z, t) +
W (z, t) = −
∂t
∂zi
∂zi ∂zj
i,j=1
i=1
Z
Q(z ′ , z)W (z ′ , t) − Q(z, z ′ )W (z, t) dz ′ .
+
(78)
Z
This assumed regularity is a rare case. Normally, this is the form in which the ChapmanKolmogorov forward equation is used (see [5]).
Note, that the coefficients ai correspond to the Liouville equation and therefore disappear after
derivating with respect to time.
197
10.5 Darstellungen von Markowgeneratoren
10.5.3
Dynamical systems and their Liouville equations
The first case is the one of deterministic trajectories, i.e. dynamical systems.
For t ≥ 0 let ϕt : Z −
→ Z be a time-family of continuous maps of the state space into itself with
the properties ϕt1 +t2 = ϕt2 ◦ ϕt1 (semiflow property) and ϕ0 = id (identity). Then, if certain
regularity properties are fulfilled the trajectory zt = ϕt (z0 ) is the solution of an ordinary
differential equation, say żt = a(zt ) with initial data z0 .
The image of the semiflow ϕt in Z via the canonical embedding is a semigroup of a deterministic
Markov operator.
ϕt ⇐⇒ T(t) = Mϕt
The semigroup property easily follows from the semiflow property. For arbitrary g ∈ C it holds
T(t1 + t2 )g = Mϕt1 +t2 g = Mϕt2 ◦ϕt1 g = g ◦ (ϕt2 ◦ ϕt1 ) = (g ◦ ϕt2 ) ◦ ϕt1 = Mϕt1 Mϕt2 g =
= T(t1 )T(t2 )g
Typical examples for semiflows are shifts and the corresponding generators are differential operators of first order. As usual, the definition of differential operators requires a metric structure
in Z, something that is not given in a general topological space. Surprisingly, there is a complete algebraic description of generators of semigroups of deterministic Markov operators. Such a
generator is an abstract derivation:
A deterministic Markov operator is a algebra homomorphism. Hence, a semigroup T(t) of
deterministic Markov operators satisfy T(t)(f · g) = T(t)f · T(t)g. It follows
T(t)(f · g) − f · g = f · (T(t)g − g) + (T(t)f − f ) · T(t)g
Multiplying by 1/t nad passing to the limit t −
→ 0 we obtain
A(f · g) = f · Ag + g · Af
(79)
An operator whose domain D(A) is a sub-algebra of C(Z) and satisfyies the algebraic identity
(79) and A1 = 0, is called derivation. Thus, the generator of a semigroup of deterministic
Markov operators is a derivation. The opposite is true as well (see [1]).
Note that no metric is needed to define an abstract derivation.
A derivation is always a unbounded operator. This is one reason why in finite dimensional
spaces there are no semigroups of deterministic Markov operators.
If, for example, Z ⊂ Rm is a compact domain and
ż1 = a1 (z1 , ..., zm )
··· ·
···
żm = am (z1 , ..., zm )
(80)
is the dynamical system, i.e., the system of differential equations corresponding
to the semiflow
ϕt , then the corresponding equation to g(z, t) = (T(t)g0 )(z) = g0 ϕt (z) is
m
X
∂g(z, t) ∂
g(z, t) =
ai (z)
= ∇g, a(z)
∂t
∂zi
i=1
since
∂
∂
g(z, t) = ∇g ϕt (z) , ϕt (z) = ∇g, a(z)
∂t
∂t
(81)
198
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
where [·, ·] is the scalar product in Rm .
The right hand side of this equation is the general form of an abstract derivation in a domain
of the Euclidean space.
The equation, corresponding to p(t, B) = (T∗ (t)p0 )(B) is (assuming that p(t, B) is regular
enough to have a density W (z, t) with respect to the Lebesgue measure)
m
X ∂
∂
ai (z)W (z, t) .
W (z, t) = −
∂t
∂zi
i=1
(82)
– the Liouville equation of the dynamical system (80). Conversely, (80) is the equation of the
characteristics of (81) or (82).