1¨Ubersicht über die klassische Physik

Werbung
9
1
Übersicht über die klassische Physik
1.1
1.1.1
Grundlegende Begriffe
Einige Begriffe
• GCPS Allgemeines Klassisches Physikalisches System
Eine überschaubare Menge von realen Objekten, dessen Verhalten uns als Gesamtheit
interessiert.
• Zustand
Zustand beschreibt das physikalische System vollständig. Wenn wir den Zustand kennen,
ist unser Interesse befriedigt. Es gibt verschiedene Möglichkeiten (wenigstens 2 Zustände)
Das ist immer das erste, worüber man sich Gedanken machen muß.
• Zustandsraum Menge aller möglicher Zustände
• Zustandsänderungen Wir betrachten Zustandsänderungen in der Zeit
• Massepunktes Objekt ohne innere Struktur, das sich in Raum und Zeit bewegen kann.
• Freiheitsgrad Sowas wie die “Dimension” des Zustandsraumes. Besser (weil eine Dimension eigentlich nur lineare Räume haben) zu verstehen als Anzahl der Parameter, die den
Zustand bestimmen.
• Modell Vollständige Beschreibung des physikalischen Systems, so wie wir es verstehen.
Beinhaltet die Beschreibung von: Zustand, Zustandsänderung, Beobachtungen, abgeleiteten Größen (), ...
•
• Aufgabenklasse
Direkte, inverse, Steuerungsaufgabe,
• Modellanalyse
Definition der Aufgabenklasse, Lösung der Aufgabe
1.1.2
Zustand und Zustandsraum. Beispiele
Beispiele:
• Zwei Zustände (Schalter), weniger geht nicht (z.B. Molekül)
• Drei Zustände: Eine Kugel, Rot, Blau oder Grün (z.B. Molekül)
• Endlich viele Zustände
• Abzählbar viele Zustände (Teilchenzahl, diskretes Gitter)
• Koordinaten von Objekten, Brownsche Bewegung
• (v, x) oder (P, x) eines Massepunktes
•
• Zusammengefaßt: Drei Beispiele: Zustandraum ist als Menge endlich, abzählbar oder ein
Kontinuum.
10
1 ÜBERSICHT ÜBER DIE KLASSISCHE PHYSIK
1.2
Übersicht über Modelle der klassischen Physik
In der Physik werden verschieden Modellstufen betrachtet. Die entsprechenden Modelle unterscheiden sich insbesondere in den mathematischen Methoden, die verwendet werden. Ich werde
eine kurze Übersicht über übliche Modelle geben. Diese Klassifizierung ist nicht allgemeingebräuchlich, aber doch sehr verbreitet.
Um ein Modell für eine interessierendes physikalisches Problem aufzustellen ist folgendes erforderlich:
• Zustand und Zustandsraum
• Aufgabenklasse
• Gleichungen u.ä.
1.2.1
Mikroskopische, deterministische Modelle
Ein mikroskopisches deterministisches Modell ist ein Modell, dessen Zustände und Zustandsänderungenvollständig beschrieben werden. Man kann stationäre Probleme und instationäre Probleme unterscheiden.
• Stationäre Probleme:
– Beispiel: Massen und Federn. Zustand sind die Koordinaten x. Freiheitsgrade!
– Lösung liefert das Prinzip der minimalen potentiellen Energie
– Massen spielen nur als schwere Massen eine Rolle. Wenn wir die Massen auf eine
wagerechte Ebene legen, wird das Gleichgewicht nur von den Federn bestimmt.
– Gleichungen: min Φ(z), F (z) = ∂Φ(z) = 0.
• Instationäre (dynamische) Probleme:
– Der Zustand ändert sich mit der Zeit: z(t). Es gibt eine Trajektorie im Zustandsraum, die man ermitteln möchte. Unter bestimmten Zusatzbedingungen an diese
Trajektorie (Markowannahme) kann man zeigen, daß sie sich durch Lösung einer
Gleichung mit einer Anfangsbedingung ż(t) = G(z), z(t) = 0 bestimmen läßt.
Das nennt man dynamisches System mit kontinuierlicher Zeit.
– Beispiel: Massen und Federn. Zustand sind die Koordinaten und die Geschwindigkeit
(oder der Impuls): (v, x)
Die Trajektorie läßt sich durch Lösung der Newtonschen Gleichung ẍ(t) = m1 F (x, ẋ)
bestimmen. Das ist ein dynamisches System, wenn man eine neue Variable v = ẋ
einführt. Dan erhält man
1
F (x, v)
v̇(t) =
m
ẋ(t) = v
Hier sind x und v Vektoren und 1/m eine inverse Matrix.
– Weitere Stichworte zu solchen Promlemen sind Lagranggleichung, Hamiltonsystem,
Hamilton-Jacobi-Gleichung, Prinzip der kleinsten Wirkung.
– Weiters Beispiel: Sonnensystem mikroskopisch, aber nicht klein
– Weiters Beispiel: Endlich viele Zustände. Rot, Blau, Grün,
• Hiermit beschäftigen wir uns im nächsten Semester.
1.2 Übersicht über Modelle der klassischen Physik
1.2.2
11
Allgemeine (statistische) mikroskopische Modelle
Es kann sein, daß es sinnvoll ist, nicht einen einzelnen Zustand zu betrachten, sondern alle
Zustände des Zustandsraumes. Das kann zwei Gründe haben:
• Die eigentlichen Zustände sind uns eigentlich nicht zugänglich. Wir erhalten Informationen über sie indirekt, indem wir sie beobachten. Eine Beobachtung ist eine Abbildung
der Zustände in die reellen Zahlen. Man kann sich das als Meßprozeß vorstellen.
• Die Zustände sind uns zwar zugänglich, wir können den Zustand aber nicht eindeutig
zuordnen, z.B. weil bei jedem Experiment sich das System in einem anderen Zustand
befindet, oder weil wir die Zustandsänderung nicht exakt angeben können. Man weiß
zwar, in welchem Zustand sich das System befindet, aber mann kann seine Trajektorie
nicht eindeutig vorhersagen.
Das System befindet sich in einem gemischten Zustand. Oder es befindet sich nur mit
einer gewissen Wahrscheinlichkeit in einem Zustand.
– Ein typisches Beispiel ist die Brownsche Bewegung. Man kann den Ort des Teilchens
nur mit einer gewissen Wahrscheinlichkeit vorhersagen. Es gibt keine Trajektorie
x(t), sondern eine zeitlich veränderliche Wahrscheinlichkeitsdichte f (x, t), die im
speziellen Fall der Diffusionsgleichung
∂2
D
f
(x,
t)
∂x2
genügen. Hier ist f (x, t) die Wahrscheinlichkeit, daß sich das Teilchen zum Zeitpunkt
t in der Nähe des Punktes x aufhält.
– Wir wissen, daß der Zustand eines Teilchens tatsächlich ein Geschwindigkeits-OrtsPaar z = (v, x) ist, der der Newtonschen Gleichung (als System geschrieben) genügt.
ft =
v̇(t) = −av
ẋ(t) = v
Hier ist m = 1 gesetzt und lineare Reibungskraft angenommen worden. Dieses System beschreibt die Evolution der Trajektorie (v(t), x(t)). Nimmt man an, daß die
Trajektorie nicht deterministisch ist, z.B. weil der Anfangswert nicht eindeutig festgelegt ist, kann man zeigen, daß eine entsprechende Wahrscheinlichkeitsdichte f (v, x, t)
die Liouvillgleichung (eine PDE erster Ordnung) erfüllt:
∂
∂
∂
f (v, x, t) =
(avf ) − v f
∂t
∂v
∂x
Nimmt man an, daß nicht nur der Anfangswert unbestimmt ist, sondern auf das
Teilchen auch eine spezielle Zufallskraft von Seiten des Mediums wirkt, wir also ein
System der Form
v̇(t) = −av + cFr
ẋ(t) = v
haben, dann ist die Gleichung für f die Fokker-Planck Gleichung
∂
∂
∂2
∂
f (v, x, t) =
(avf ) − v f + 2 (cf )
∂t
∂v
∂x
∂v
12
1 ÜBERSICHT ÜBER DIE KLASSISCHE PHYSIK
– Mastergleichung
dPk X
=
(Tkℓ Pℓ − Tℓk Pk ).
dt
ℓ
– Chapman-Kolmogorow Gleichung oder Kolmogorow Vorwärts Gleichung
Z ∂
f (z, t) =
Q(z, z ′ )f (z ′ , t) − Q(z ′ , z)f (z, t) dz ′
∂t
Z
1.2.3
Mesoskopische Modelle
• Man hat keine Chance, den Zustand zu bestimmen, aber wir nehmen an, daß es ihn
gibt und das wir aus ihm Gleichungen für abgeleitete Größen herleiten können. (z.B., wir
nehmen an, daß wir ein Gas beschreiben könnten, wenn wir die Bewegung seiner 1024
Moleküle exakt beschreiben könnten)
• Diffusionsgleichung beschreibt Konzentration anstelle von Wahrscheinlichkeitsdichte. Das
gesamte Esemble bewegt sich wie ein Teilchen, von dem wir den Zustand nicht genau
kennen.
• Boltzmanngleichung
• Diffusionsgleichung
1.2.4
Makroskopische Modelle
Makroskopische Modelle sind mathematisch exakt hergeleitete Modelle, die aber ein mathemtaisches Verfahren – z.B. einen Grenzübergang – enthalten, die dazu führen, daß man eigentlich
einanders physikalisches Problem modelliert hat, von dem man annimmt, daß es richtig ist.
Beispiele sind:
• Herleitung der Diffusionsgleichung aus Hopping
• Homogenisierung
• Entwicklung in der Nähe vom Gleichgewicht
1.2.5
Phänomenologische Modelle
Phänomenologische Modelle sind nicht exakt hergeleitete Modelle. Man sieht, daß ein Prozeß
(z.B. der Fluß einer Flüssigkeit durch einen porösen Stoff) einem Diffusionsprozeß ähnelt. Man
nimmt also an, daß die Konzentration des Stoffes der Diffusionsgleichung genügt. Gibt es Abweichungen, versucht man das Modell anzufitten, indem man z.B. den Diffusionskoeffizient etwa
von der Konzentration abhängen läßt).
Das ist ein typisches Vorgehen. Man benutzt Modelle, die eigentlich in einem anderen Zusammenhang hergeleitet wurden und interpretiert sie um.
Die meisten in der Praxis verwendeten Gleichungen sind phänomenologische.
Solche Gleichungen kann man nicht herleiten. Man kann sie nur postulieren und sich dabei an
gewisse Prinzipien halten wie Massenerhaltung, Positivitätserhaltung und thermodynamische
Konsistenz.
Ausgangspunkt für diese Modelle sind meistens allgemeine mikroskopische Modelle, für die man
die geforderten Eigenschaften beweisen kann. In diesem Sinn ist die Untersuchung von allgemeinen mikroskopischen Modellen wichtig zum Verständnis der meisten phänomenologischen
Modelle.
11
2
Dualität extensiver und intensiver Größen
2.1
Erkenntnistheoretische Einführung
2.1.1
Das duale Produkt
Eine typische Konstruktion in der linearen Algebra ist
X = g1 P1 + ... + gn Pn
und wird meistens Skalarprodukt genannt. g = (g1 , ..., gn ) und P = (P1 , ..., Pn ) sind zwei
Vektoren aus Rn .
Zwischen gi und Pi gibt es mathematisch keinen Unterschied. Beides sind reelle Zahlen. Mit
beiden kann man rechnen wie mit Zahlen.
Der Grundzusammenhang ist hier folgender: Als erstes werden Produkte der Art Qi = gi Pi
gebildet und dann werden die Ergebnisse addiert. Wir haben also eigentlich einen weiteren
Vektor Q = (Q1 , ..., Qn ) und benutzen zwei Operationen: Multiplikation und Addition.
Hilbertraum
Banachraum
x, y ∈ Rn
g ∈ Rn , P, Q ∈ R∗n
(x, y) =
n
X
xi yi
hg, P i =
i=1
Z
x(ξ)y(ξ)dξ
Z
n
X
g i Pi =
i=1
Z
n
X
Qi
i=1
g(z)P (dz)
Z
Um zu demonstrieren, daß hier nicht alles klar ist, betrachten wir
2.1.2
Zwei Kopfrechenaufgaben
Erste Aufgabe: Wieviel sind 25% von 24.
Die Lösung verläuft meist so: 25% sind ein Viertel. Wir müssen also 24 durch 4 teilen. Das
Ergebnis ist 6.
Zweite Aufgabe: Wieviel sind 24% von 25.
An die Lösung dieser Aufgabe geht jeder anders heran. Einer berechnet 25% von 25 und subtrahiert dann 1%. Ein anderer multipliziert 0.24 mit 25. Am Ende kommen die meisten auch
auf das richtige Ergebnis 6. Dann wundern sich die meisten, daß das selbe herauskommt und
erinneren sich, daß die Multiplikation kommutativ ist.
Wir wissen, daß wir zur Berechnung von 25% die Menge durch 4 teilen müssen. Aber daß wir in
der zweiten Aufgabe die Prozentzahl durch 4 teilen müssen kommt uns nicht in den Sinn. Wir
wissen zwar, daß die Multiplikation kommutativ ist, aber es sträubt sich in uns etwas dagegen,
die Kommutativität hier zu benutzen. Die eigentlich kommutative Multiplikation fühlt sich
nicht kommutativ an. Dieses Gefühl ist ein Ausdruck davon, daß im Produkt beide Faktoren
nicht gleichberechtigt sind, wenn es sich um reale Größen handelt. Die Multiplikation ist zwar
kommutativ, aber gefühlt asymetrisch.
Diese Asymetrie tritt auch bei anderen Aufgaben auf. Angenommen wir planen eine Autofahrt.
Die Strecke ist bekannt: 400km. Wir wollen die Zeit abschätzen und rechnen: Bei einer Geschwindigkeit von 120km/h brauchen wir 3 Stunden und 7 Minuten. Klar ist, daß die 120km/h
12
2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN
ein Mittelwert sind. Wir fahren nicht die gesamte Strecke mit dieser Geschwindigkeit. Wir
könnten deshalb auch eine andere mittlere Geschwindigkeit nehmen, etwa 124.6 km/h. Dann
erhalten wir als Zeit exakt 3 Stunden. Aber so rechnet keiner. Für die Geschwindgkeit hat man
gern runde Zahlen, für die Dauer ist uns eine krumme Zahl eher recht als für die Geschwindgkeit. Dasselbe gilt für die Prozentaufgabe. Für Mengen ist uns jede Zahl recht, für Prozente
hätten wir aber gern gebrochene Zahlen mit kleinen Zählern und Nennern. Ein Viertel ist in
Ordnung, aber nicht 24 Hundertstel. Das sind ja eigentlich 6 25-stel und sind zur Multiplikation
mit 25 eigentlich noch viel besser geeignet.
Andererseits ist uns bei der Aufgabe: “Berechne den Flächeninhalt eines Rechtecks, daß 25cm
breit und 24cm lang ist”, egal, ob die Aufgabe so formuliert wurde oder ob die Zahlen vertauscht
sind. Hier entspricht die Kommutativität unserem Gefühl.
Die Asymetrie der Multiplikation sieht man auch in folgendem Beispiel: Wir fahren 3 Stunden
mit 120 km/h. Das ist etwas anderes als 120 Stunden mit 3 km/h zu fahren, obwohl es dieselbe
Gesamtstrecke ergibt. Mathematisch ist es dieselbe Aufgabe aber in der Realität ist es eine
völlig andere Aufgabe.
Um ein reale Problem adäquat zu beschreiben, müssen wir diese Asymetrie berücksichtigen,
ohne natürlich die Kommutativität der Multiplikation zu verletzen.
Woher kommt diese Asymmetrie zwischen unserem Gefühl und der Mathematik? Das kann
nicht an den Zahlen liegen, sondern muß mit den Eigenschaft der Größen zusammenhängen, die
diese Zahlen darstellen. Wir müssen uns also damit beschäftigen, welche Größen uns eigentlich
interessieren.
2.1.3
Extensive und intensive Größen
• Beispiele von Größen. Was für Größen interessieren uns eigentlich?
Alltag/
Chemie
Mechanik
E-Technik
Therm.dyn
Ökonomie
Anteil
Alkoholmenge
Weg
Impuls
Impuls
Arbeit
Auslenkung
Ladung
Ladung
Energie
Energie
Umsatz
Prozente
Alkoholgehalt
Geschwindigkeit
Geschwindigkeit
Kraft
Kraft
Kraft
Spannung
elektr. Strom
Druck
Temperatur
Preis
Gesamtmenge
Gesamtvolumen
Zeitintervall
Masse
Zeitintervall
Weg
1/Federkonstante
Kapazität
Zeitintervall
Volumen
Entropie
Stückzahl
• Was interessiert uns nicht?
–
–
–
–
Wurzel aus der Länge.
Energie hoch 3/7.
Wurzel aus der Länge. Energie hoch 3/7.
−10◦ C/10◦ C = −1?
Mit diesem Quotienten können wir nichts anfangen.
2.1 Erkenntnistheoretische Einführung
13
Mathematisch könnte man sich mit diesen Größen beschäftigen, aber es macht keiner. Was
haben diese Größen an sich, daß sie uns nicht und jene, daß sie uns doch interessieren?
2.1.4
Unterschiede zwischen den Größen
Wir haben ein Objekt vor uns, daß durch viele verschiedene Größen charakterisiert wird und
fragen uns nach den Eigenschaften dieser Größen und ihrem Verhalten, wenn sich die Objekte
verändern.
Das unterschiedliche Verhalten der verschiedenen Größen wird deutlich, wenn wir mehrere
Objekte betrachten, und beobachten, wie sich die Größen bei der Wechselwirkung verschiedener
Objekte verhalten.
• Volumen und Temperatur
Wenn wir zwei Gasvolumen mit verschiedener Temperatur zusammenbringen und einen
Wärmekontakt herstellen, dann addieren sich die Volumina, aber die Temperaturen gleichen sich aus.
• Alkoholgehalt, Alkoholmenge und Gesamtmenge
Bei alkoholischen Getränken haben wir es mit drei Größen zu tun. Wenn wir zwei alkoholische Getränke zusammenkippen und mischen, dann addieren sich die Gesamtmengen,
der Alkoholgehalt gleicht sich aus und die Menge an reinem Alkohol addiert sich auch.
Zwei Größen addieren sich, eine Größe mittelt sich.
• Geschwindigkeit, Masse und Impuls
Wir haben zwei Massen, die sich mit verschiedenen Geschwindigkeiten in die gleiche Richtung bewegen. Die schnellere Masse fliegt vor der langsameren. Wir koppeln beide Massen
durch ein Seil. Was passiert? Nach einer gewissen Einschwingphase, bei der die Elastizität des Seils überschüssige Energie dissipatiert, werden sich beide Massen mit derselben
Geschwindigkeit bewegen. Diese gemeinsame Geschwindigkeit liegt zwischen den beiden
ursprünglichen Geschwindigkeiten. Die Masse und der Impuls des Gesamtsystems ergeben
sich als Summe der ursprünglichen Teilmassen und Teilimpulse.
• Geschwindigkeit, Weg und Zeit
Wenn ein Gesamtweg aus Teilstücken besteht, die wir mit verschiedenen Geschwindigkeiten zurücklegen, dann ist für jedes Teilstück seine Länge, die benötigte Zeit und die
jeweilige Geschwindigkeit charakteristisch. Der Gesamtweg ist die Summe der Längen
der Teilstücke und die Gesamtzeit ist die Summe der Teilzeiten. Die Geschwindigkeiten
mitteln sich nicht in der Realität, aber in Gedanken ist die mittlere Geschwindigkeit eine
wichtige Größe. Sie liegt zwischen der größten und kleinsten Teilgeschwindigkeit.
Wenn wir z.B. die Strecke mit zwei Geschwindigkeiten 130 km/h und 60 km/h zurückgelegt haben, ist die Summe diese Geschwindigkeiten – 190 km/h – völlig uninteressant.
In beiden Beispielen verhält sich die Geschwindigkeit mittelnd.
• Kraft, inverse Federkonstante und Auslenkung
• Druck, Volumen
14
2.1.5
2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN
Zwei Typen von physikalischen Größen
Wir stellen fest, daß sich von uns als interessant empfundene Größen in zwei Typen einteilen
lassen, solche, die sich addieren und solche, die sich mitteln, wenn verschiedenen Objekte in
Kontakt gebracht werden. Dabei spielt sich das Addieren in Gedanken ab, wir fassen die Objekte
unter diesem Gesichtspunkt gedanklich zusammen. Das Mitteln der anderen Größen vollzieht
sich real. Dazu müssen allerdings geeignete Bedingungen geschaffen werden, wir müssen das
Ausgleichen der Größe ermöglichen. Das wurde erreicht durch das Beseitigen der Trennwand
zwischen den Körpern bein Ausgleich der Temperatur, das Ineinandergießen (Mischen) der
Mischgetränke oder das Aneinanderkoppeln der Massen.
Tatsächlich hängt die Eigenschaft, additiv oder mittelnd zu sein, nicht von den Objekten oder
der Situation sondern nur von der Größe selbst ab. Man kann also die Größen bezüglich dieser
Eigenschaft kategorisieren. Additive Größen werden extensiv, mittelnde Größen werden intensiv
genannt. Diese Bezeichnungen spielen heute eigentlich nur noch in der Thermodynamik eine
Rolle. Ursprünglich wurden sie aber als allgemeine Kategorien von Imanuell Kant 1781 in der
“Kritik der reinen Vernunft” (Kapitel ) eingeführt.
Beispiele für extensive Größen sind Zeitintervall, Länge (Breite, Höhe), Fläche, Volumen, Masse,
Ladung, Impuls, Energie, Äpfel, Birnen, Stückzahl, Geld
Beispiele für intensive Größen sind Temperatur, Alkoholgehalt, Geschwindigkeit, Kraft, elektr.
Strom, elektr. Spannung, Druck, Preise
Häufig ist die Zuordnung nicht leicht, da unter speziellen Bedingungen extensive Größen auch
mittlend und intensive Größen auch additiv auftreten können. Entscheidend ist, wie sich die
Größen in allgemeinen Situationan verhalten.
Ein Beispiel sind mit Wasser gefüllte Gefäße. Verbindet man solche durch einen Schlauch und
ermöglicht dem Wasser zu fließen, gleichen sich scheinbar die Höhen – als Länge eine extensive
Größe – aus. Tatsächlich gleicht sich der Druck (intensive Größe) in den Gefäßen aus, der in
diesem Fall aber zur Wasserhöhe proportional ist. Wenn man die Gefäße luftdicht verschließt,
sieht man sofort, daß es nicht die Höhe ist, die sich ausgleicht, sondern der Druck.
Hier ist allerdings zu erwähnen, daß die räumliche Wahrnehmung des Menschen sehr komplex ist, was dazu führt, daß räumliche Größen wie Länge oder Fläche eigentlich nicht ohne
weitere Erklärungen als extensive Größen gezählt werden können und auch tatsächlich als intensive Größen auftreten können. Das Verhalten räumlicher Größen wird in einem Extrapunkt
besprochen.
2.1.6
Zählen. Messen extensiver Größen
Die Fähigkeit zum Zählen ermöglicht es, auch anderen extensiven Größen – etwa Längen –
Zahlen zuzuordnen. Dazu wählt man sich ein gut bekanntes und jeder Zeit griffbereites Objekt
mit definierter Länge (Elle, Schritt, Daumenbreite, ...) als Normlänge (Normmaß) und stellt
fest, wie oft dieses Normmaß in einer gegebenen Länge aufgeht. Dazu muß man das Normmaß
lückenlos und parallel aneinanderlegen. Die zu messende Länge gibt dabei die Richtung an.
Hier ist wieder die Fähigkeit zu zählen erforderlich. Man erhält etwa: In die gegebene Länge
passen 5 Normlängen: L = 5 · L0 . Damit diese Methode funktioniert, ist erforderlich, daß die
zu messende Größe additiv – also intensiv – ist und beim Meßprozeß erhalten bleibt. Deshalb
wählt man Normängen etwa aus Holz und nicht aus Gummi.
15
2.1 Erkenntnistheoretische Einführung
2.1.7
Extensive Größe sind Erhaltungsgrößen
Es wurde schon mehrfach erwähnt, daß eine Voraussetzung dafür, daß man eine Größe messen
kann, ihre Erhaltung ist. Mit anderen Worten: Größen, die man messen kann bleiben erhalten.
Diese Tatsache macht Erhaltungssätze beinahe zu Tautologien. Deshalb gibt ea auch keine
Sätze der Erhaltung der Länge oder der Zeit. Das nicht triviale am Energieerhaltunssatz ist,
daß es gelingt, solche Experimente durchzuführen, daß man alle Energieanteile messen kann.
Daß sie sich dann zur Gesamtenergie addieren, ist trivial.
2.1.8
Intensive Größen kann man nicht messen
Letztlich wird das Messen der meisten extensiven Größen auf das Messen von Längen zurückgeführt (auch die Zeitmessung). Das hängt mit der starken Dominaz unserer visuellen Fähigkeiten gegenüber allen anderen Sinnen zusammen.
Intensive Größen kann man aber prinzipiell nicht direkt messen. Das liegt daran, daß sie sich
“beim Aneinanderlegen” nicht additiv verhalten und nicht erhalten bleiben. Das wird besonders
bei der Temperatur deutlich. Man kann nicht mehrere 1◦ C warme Körper geeignet zusammenlegen um eine höhere Temperatur zu erhalten.
Das selbe trifft für andere intensive Größen, etwa die Geschwindigkeit zu. Man erhält eben
keinen sich mit 20 km/h bewegenden Körper aus zweien, die sich mit 10 km/h bewegen. Hier
könnte man einwenden, daß man aus Erfahrung weiß, daß sich Geschwindigkeiten addieren.
Man könnte etwa auf einen sich mit 10 km/h bewegenden Wagen einen weiteren sich mit 10
km/h bewegenden Wagen stellen. Aber dieser weitere Wagen bewegt sihc eben nicht mit 10
km/h relativ zum zu messenden Objekt sondern mit 20 km/h.
Wie später noch besprochen wrid, tritt die “bekannte” Additivität der Geschwindigkeit nur
unter speziellen Bedingungen auf und widerspricht nicht ihrem intensiven Charakter.
2.1.9
Berechnung intensiver Größen
Man kann zu einer intensiven Größe x ein Paar extensive Größen P und Q betrachten und der
intensiven Größe den Quotienten der beiden extensiven Größen als Zahl zuordnen: Q/P −
→ x.
Das klassische Beispiel hierfür ist die Geschwindigkeit als Weg pro Zeit. Diese Definition ist
nicht eindeutig. Das sieht man insbesondere an den verschiedenen Temperaturskalen, die sich
in ihrer Skalierung und in ihrem “Nullpunkt” unterscheiden.
Es sei g = g(x) die, der intensiven Größe x zugeordnete reelle Zahl. Dann gilt
g=
Q
P
⇐⇒ Q = g · P
(1)
Das ist die Grundgleichung für extensive und intensive Größen: extensiv mal intensiv = extensiv
In den folgenden Tabellen sind Beispiele aufgeführt.
L=v·T
P =v·M
L=f ·D
U =c·K
A =%·M
L=h·F
Weg
Impuls
Auslenkung
Umsatz
Anteil
Licht
Wärmemenge
= Geschw.
= Geschw.
=
Kraft
=
Preis
= Prozente
= Helligkeit
= Heizwert
·
Zeit
·
Masse
· inv. Federkonstante
·
Stückzahl
·
Menge
·
Fläche
·
Masse
16
2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN
extensiv
Anteil
Alkoholmenge
Weg
Impuls
Impuls
Arbeit
Auslenkung
Ladung
Ladung
Energie
Energie
Umsatz
2.1.10
=
=
=
=
=
=
=
=
=
=
=
=
=
intensiv
Prozente
Alkoholgehalt
Geschwindigkeit
Geschwindigkeit
Kraft
Kraft
Kraft
Spannung
el. Strom
Druck
Temperatur
Preis
·
extensiv
·
Gesamtmenge
· Gesamtvolumen
·
Zeitintervall
·
Masse
·
Zeitintervall
·
Weg
· 1/Federkonstante
·
Kapazität
·
Zeitintervall
·
Volumen
·
Entropie
·
Stückzahl
Das endliche duale Produkt
Mit (1) wird dem Produkt einer extensiven und einer intensiven Größe wieder eine extensive
Größe zugewiesen. Diese kann man addieren. Das ergibt die häufig benutzte duale Paarung:
Extensiv = extensiv mal intensiv + extensiv mal intensiv + ...
Beispilesweise ist:
• Gesamtweg = Summe der Teilgeschwindigkeiten mal entsprechender Zeitintevalle
• Umsatz = Summe der Preise mal Stückzahlen
Im Grenzfall ergibt die duale Paarung das Lebesgueintegral:
Z
n→∞
−
Q(B) =
g(x)P (dx)
Q = g1 · P1 + ... + gn · Pn −→
B
2.1.11
Die scheinbare Additivität von Geschwindigkeiten und Kräften
Wenn intensive Größen additiv auftreten, dann bedeutet das, das man eigentlich, eine extensive
Größe betrachtet. Wenn man z.B. Geschwindigkeiten addiert, addiert man eigentlich die Wege
bei gleichem gegebenem Zeitintervall. Oft bemerkt man nicht, daß der Nenner konstant bleibt.
Beim Addieren von Kräften addiert man eigentlich die Arbeit (Arbeit ist Energie und extensiv),
die über dieselbe Weglänge wirkt.
Nimmt man andere Beispiele intensiver Größen, etwa den Preis, wird das noch offensichtlicher.
Wenn man n Stück X von etwas braucht und jedes Stück besteht aus einem A, einem B und
einem C, kann man die Preise von A, B und C addieren um den Preis eines Stücks X erhalten
will. Aber das ist eben ein sehr seltener Fall, daß man die selben Stückzahlen an Objekten
braucht. Keiner kommt auf die Idee, zum Berechnen des Preises eines Butterbrotes, den Preis
eines Brotes und den Preis einses Stück Butter zu addieren. Im Gegenteil, man bestimmt
genau die Mengen, die man benötigt und addiert dann. Das bedeutet letztlich, daß man den
Hauptnenner bildet. Auch das Addieren von gebrochenen Zahlen (intensive Größen) ist ohne
weiteres nicht möglich. Man muß erst den Hauptnenner (extensive Größe) bilden und kann
dann die Zähler (extensive Größe) addieren.
Der Unsinn mit der Addition von Geschwindigkeiten wird deutlich, wenn man z.B. den Weg
konstant läßt: Von Berlin nach München ist ein Auto 130 km/h schnell, ein ICE 300 km/h.
Wann könnte es sinnvoll sein, hier die Summe der Geschwindigkeiten zu bilden?
2.2 Mathematische Zusammenhänge physikalischer Größen
2.2
17
Mathematische Zusammenhänge physikalischer Größen
Wir untersuchen im weiteren einige mathematische Eigenschaften extensiver und intensiver
Größen. Dazu werden die empirisch gewonnen Erkenntnisse in mathematische Ausdrücke gefaßt. Insbesondere geht es hier darum, was es bedeutet, einer intensiven Größe eine reelle Zahl
zuzuordnen.
• Es seien Bi physikalische Objekte/Körper, mit denen wir wie mit disjunkten Mengen
arbeiten können. Alle diese Bi seien gedanklich Teil einer Menge Z. Das “in Kontakt
bringen” zweier Objekte B1 und B2 zum Objekt B bezeichnen wir mit der disjunkten
Vereinigung B = B1 ⊔ B2 . Wir betrachten nur das “in Kontakt bringen” von disjunkten
Objekten (Aristoteles: “Wo ein Körper ist, kann nicht ein anderer sein.”).
• Wir nehmen an – um uns die Betrachtungen nicht durch zusätzliche Fallunterscheidungen,
die das Wesen der Sache nur vernebeln, zu verkomplizieren – daß die Objekte/Körper
beliebig teilbar sind, wir also Objekte für beliebige Größen zur Verfügung haben.
• Wir nehmen an, daß wir jede extensive Größe P messen können, ihr also eine nichtnegative
reelle Zahl aus R+ zuordnen können. Es gibt also Abbildungen P : Z −
→ R+ , P (B) ∈ R+ .
Da P eine extensive Grüße ist, gilt bei Kontakt zweier Objekte
P (B1 ⊔ B2 ) = P (B1 ) + P (B2 ), B1 , B2 ∈ Z
(2)
Des weiteren nehmen wir an, daß wir für jedes α ∈ R+ ein B ∈ Z mit P (B) = α finden
können (beliebige Teilbarkeit der Objekte).
• Wir nehmen an, daß wir jede intensive Größe x wahrnehmen und verschiedene Wahrnehmungen vergleichen können. Es gibt also Abbildungen x : Z −
→ X, x(B) ∈ X, wobei
X eine linear geordnete Menge sei. Für zwei Objekte B1 und B2 , gelte x(B1 ) ≤ x(B2 ),
x(B1 ) ≥ x(B2 ) oder x(B1 ) = x(B2 ).
Da x eine intensive Grüße ist, gilt bei Kontakt zweier Objekte (o.B.d.A. sei x(B1 ) ≥
x(B2 ))
x(B1 ) ≤ x(B1 ⊔ B2 ) ≤ x(B2 ), B1 , B2 ∈ Z
(3)
Des weiteren nehmen wir an, daß wir für jedes ξ ∈ X ein B ∈ Z mit x(B) = ξ finden
können (beliebige Teilbarkeit der Objekte).
• Wir nehmen an, daß wir zu jeder intensiven Größe x zwei extensive Größen P und Q derart
finden können, daß Q für jedes Objekt eindeutig durch x und P bestimmt ist. Es gibt also
einen funktionellen Zusammenhang f : X × R+ −
→ R+ , sodaß Q(B) = f x(B), P (B) )
für alle B ∈ Z. Wir schreiben das als Q = f (x, B) und nenen Q den Zähler und P den
Nenner von x.
Die Frage ist: Wann und wie ist es möglich, ausgehend
von der Kenntnis von f , der intensiven
Größe x für jedes Objekt B eine reelle Zahl g x(B) zuzuordnen. Es stellt sich heraus, daß
die – physikalisch völlig plausiblen – Voraussetzungen (2) und (3) derart streng sind, daß die
empirische Definition
Q(B)
, B∈Z
g x(B) =
P (B)
die weitgehend einizige Möglichkeit dafür ist.
18
2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN
2.2.1
Ein bilinearer Zusammenhang
Grundlegend für die Möglichkeit, mathematische Aussagen in der Physik anzuwenden, ist intensiven Größen Zahlen zuzuordnen. Zwischen x, P und Q besteht ein funktioneller Zusammenhang
Q = f (x, P ). Im Weiteren soll untersucht werden, ob man näheres über diesen Zusammenhang
aussagen kann, insbesondere, ob es möglich ist, der intensiven Größe x eine reelle Zahl zuzuordnen.
Aussagen dazu liefert folgender
Satz: Es sei x eine intensive und P und Q extensive Größen. Dann existiert eine Funktion
C : X−
→ R, die jeder intensiven Größe streng monoton und damit eineindeutig eine reelle Zahl
zuordnet.
Im Laufe des Beweises wird klar werden, welche mathematischen Voraussetzungen an die physikalischen Größen gestellt werden müssen und in welchem Sinn die Funktion C einzig ist. Die
Voraussetzungen erfüllen intuitiv extensive und intensive Größen.
Beweis:
Wir setzen Q1 = Q(B1 ), Q2 = Q(B2 ), Q12 = Q(B1 ⊔ B2 ), P1 = P (B1 ), P2 = P (B2 ), P12 =
P (B1 ⊔ B2 ), x1 = x(B1 ), x2 = x(B2 ), x12 = x(B1 ∪ B2 ). OBdA sei x1 ≤ x2 .
Dann gilt einerseits und andererseits:
Q12 = Q1 + Q2 = f (x1 , P1 ) + f (x2 , P2 ) =
= f (x12 , P12 ) = f (x12 , P1 + P2 )
Es folgt
f (x12 , P1 + P2 ) = f (x1 , P1 ) + f (x2 , P2 )
(4)
Wegen x1 ≤ x12 ≤ x2 folgt aus x1 = x2 = x auch x12 = x und damit
f (x, P1 + P2 ) = f (x, P1 ) + f (x, P2 )
(5)
Für fixiertes x ist f (x, ·) eine reellwertige additive Funktion. Sie muß linear sein. Das folgt aus
folgendem
Lemma: Es sei h : R −
→ R eine stetige Funktion, die die Gleichung h(x + y) = h(x) + h(y)
erfüllt. Dann ist h(x) = cx für beliebiges aber festes c ∈ R.
Beweis des Lemmas: Unter Benutzung der Funktionalgleichung erhalten wir
y = x =⇒ h(2x) = 2h(x)
Induktion: =⇒ h(nx) = nh(x), n ∈ N
1
1
1
x=
= h(1), m ∈ N
=⇒ h
m
m
m
n
n
=⇒ h
= h(1), n, m ∈ N
m
m
Stetigkeit: =⇒ h(x) = xh(1) =: cx, x > 0, c bel.
x = 0 =⇒ h(0) = 0
x < 0 : y = −x =⇒ h(x) = −h(−x)
Damit ist eine notwendige Bedingung an h gefunden. Die Probe bestätigt, daß jede lineare
Funktion Lösung der Funktionalgleichung ist.
(Lemma)
Bemerkung 0: Diese Funktionalgleichung heißt Cauchysche Funktionalgleichung.
2.2 Mathematische Zusammenhänge physikalischer Größen
19
Bemerkung 1: Unter der Voraussetzung der Differenzierbarkeit folgt einfacher h′ (x + y) =
h′ (y) also h′ (x) = h′ (0) =: c. Hier wurde aber der allgemeinere Weg gegangen, weil Stetigkeit
eine topolgische Eigenschaft ist und Differentierbarkeit eine metrische, die wir eigentlich nicht
voraussetzen wollen.
Bemerkung 2: Die Voraussetzung der Stetigkeit kann abgeschwächt werden. Lokale Beschränktheit von h reicht aus.
Bemerkung 3: Es lassen sich nichtstetige Lösungen finden. Dazu stellt man R als unendlichdimensionalen linearen Raum über den rationalen Zahlen mithilfe einer sogenannten Hamel-Basis
dar. Die Existenz einer solchen Basis läßt sich nur mit dem Auswahlaxiom beweisen.
Folgerung: Analog lassen sich weitere Funktionalgleichung lösen:
h(x + y) = h(x) · h(y)
h(x · y) = h(x) + h(y)
h(x · y) = h(x) · h(y)
=⇒
=⇒
=⇒
h(x) = cx
h(x) = logc x
h(x) = xc
Damit erhalten wir aus (5) die Darstellung
Q = f (x, P ) = C(x) · P .
(6)
Aus (6) und (4) erhalten wir
C(x12 )(P1 + P2 ) = C(x1 )P1 + C(x2 )P2
oder
C(x12 ) =
C(x1 )P1 + C(x2 )P2
P1 + P2
Hieraus folgt C(x12 ) ∈ [C(x1 ), C(x2 )] (d.h., C(x1 ), C(x2 ) und C(x12 ) liegen auf einer Geraden.
Monotonie: Wir zeigen, daß C eineindeutig oder konstant ist. Es sei C(x1 ) = C(x2 ) = c
aber x1 6= x2 . Dann ist auch C(x12 ) = c. Damit ist C konstant. Diesen Fall können wir als
uninteressant ausschließen, denn dann hängt f (x, P ) nicht von x ab. Das heißt, P ist nicht der
Nenner von x. Damit ist C eineindeutig und wegen der linearen Ordnung von X monoton. Es
existiert also C −1 und es gilt
Q(B)
Q
−1
−1
, x(B) = C
x=C
P
P (B)
und
x12 = C
−1
C(x1 )P1 + C(x2 )P2
P1 + P2
(7)
Wir wählen zwei Objekte B1 und B2 mit P1 = P2 . Dann folgt aus x1 < x2 auch Q1 < Q2 .
Damit ist C monoton wachsend. Entscheident ist hier nur die Monotonie von C. Ob C wächst
oder fällt ist eine Frage der Definition der Ungleichung x1 < x2 (ob wir z.B. einer größeren
Länge eine größere oder eine kleinere Zahl zuordnen wollen).
Einzigkeit: Angenommen, wir haben zwei Funktionen C1 und C2 , die verschiedene Möglichkeiten einer Funktion C für (6) darstellen. Den Zusammenhang dieser beiden Funktionen liefert
folgendes
20
2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN
Lemma: Es seien C1 , C2 : X −
→ I ⊂ R zwei Abbildungen intensiver Größen in ein Intervall der
reellen Zahlen. Für alle P1 , P2 ≥ 0 und alle x1 , x2 ∈ X gelte
C1 (x1 )P1 + C1 (x2 )P2
C2 (x1 )P1 + C2 (x2 )P2
−1
−1
x12 = C1
= C2
P1 + P2
P1 + P2
dann gibt es reelle Zahlen α und β mit
C1 (x) = αC2 (x) + β
Beweis des Lemmas: Die Funktion h = C1 ◦ C2−1 : R −
→ R ist eine reelle Funktion. Es sei
C2 (xi ) = ξi also xi = C2−1 (ξi ). Dann folgt
C2 (x1 )P1 + C2 (x2 )P2
C1 (x1 )P1 + C1 (x2 )P2
−1
= C1 ◦ C2
P1 + P2
P1 + P2
−1
−1
ξ 1 P1 + ξ 2 P2
C1 ◦ C2 (ξ1 )P1 + C1 ◦ C2 (ξ2 )P2
−1
= C1 ◦ C2
P1 + P2
P1 + P2
Das ist eine Gleichheit zwischen konvexen Kombinationen und dem Funktionswert der konvexen
Kombination. Für solche Ausdrücke gilt die Jensensche Ungleichung. Hier gilt aber Gleichheit.
In der Jensensche Ungleichung gilt Gleichheit für alle Argumente, genau dann, wenn
die Funk
−1
tion sowohl konvex als auch konkav und damit affin ist. Es gilt also C1 ◦ C2 (ξ) = αξ + β
mit gewissen reellen Zahlen α und β. Setzen wir wieder C2−1 (ξ) = x folgt die Behauptung.
.
(Lemma)
(Satz)
Bemerkung 1: Die Eindeutigkeit bis auf affine Transformationen kennt man gut von der
Messung intensiver Größen, etwa der Temmperatur (Celsius- bzw. Fahrenheit-Skalen). Der
Zahlenwert kann sowohl verschoben als auch skaliert werden.
Bemerkung 2: Viele intensive Größen haben einen natürlichen Nullpunkt (keine Helligkeit =
0, kein Preis = 0, ...). In diesem Fall sollte man den natürlichen Nullpunkt der reellen Zahl 0
zuordnen. Die Skalierbarkeit bleibt erhalten.
Bemerkung 3: Sollte die intensive Größen nach oben und unten beschränkt sein, dann sind
α und β nicht mehr frei sondern bestimmen sich aus diesen Schranken.
Bemerkung 4: Die Eindeutigkeit bis auf affine Transformationen drückt sich bei der Geschwindigkeit durch das Galileische Relativitätsprinzip aus. Es läßt sich die Geschwindigkeit
eines Objektes nur relativ zum Beobachter bestimmen.
Bemerkung 5: Bei der Messung extensiver Größen gibt es die affine Freiheit nicht: Eine Länge
enthält z.B. 5 Normlängen. Das kann weder skaliert noch verschoben werden.
Bemerkung 6: Die fehlende Eindeutigkeit, mit der man intensiven Größen Zahlen zuordnen
kann, macht deutlich, daß alle Zahlenwerte in der Physik – im Gegensatz zu den Größen selbst
–, relativ sind. So etwa auch die Größe des Weltalls und Entfernungen zwischen den Sternen. Das wird manchmal als “Nichterkennbarkeit der Welt” interpretiert. Dabei wird implizit
unterstellt, daß Erkennbarkeit bedeutet, physikalischen Größen eindeutig Zahlen zuordnen zu
können. Siehe:
2.2.2
Definition des Zahl- und Mittelwertes intensiver Größen
Es sei im weiteren C eine feste Funktion entsprechend (6) und
g(B) = C(x(B)) =
Q(B)
P (B)
(8)
2.2 Mathematische Zusammenhänge physikalischer Größen
21
der Wert der intensiven Größe x mit Zähler Q und Nenner P . Damit haben wir eine Abbildung
g : Z−
→ R gefunden.
Die Größe des Objektes B ist für die Definition von g eigentlich unwichtig, hauptsache, x(B)
ändert sich nicht allzu sehr, je kleiner B wird.
Es sei B2 ⊂ B1 , dann gilt Q(B2 ) ≤ Q(B1 ) und P (B2 ) ≤ P (B1 ). Damit ist nicht klar, wie
sich g(B1) und g(B2 ) zueinander verhalten. Es kann sein, daß für eine Folge von Objekten
Bn ⊂ ... ⊂ B2 ⊂ B1 gilt
Q(B2 )
Q(Bn )
Q(B1 )
=
= ... =
P (B1 )
P (B2 )
P (Bn )
In so einem Fall können wir g auf dem kleinstmöglichen Objekt definieren.
Es sei {z} kleinstmögliche Objekt, das in den Bi enthalten ist. Wir nennen so ein Objekt
Zustand und definieren den Wert von x am Zustand z als
Q(B)
Q(B)
Q(B)
= inf
= sup
z∈B P (B)
B→{z} P (B)
z∈B P (B)
g(z) = lim
Diese Definition ist so zu verstehen: Der sup- und der inf-Ausdruck haben einen Sinn. Fall beide
gleich sind, nennen wir diese Größe Limes.
Diese Definition ist nur sinnvoll, wenn g stetig ist. Diese Definition läßt sich unter gewisse
Bedingungen durch den Satz von Radon und Nikodym verallgemeinern.
Es seien A und B disjunkte Objekte. Dann gilt
Q(A) + Q(B)
g(A)P (A) + g(B)P (B)
Q(A ⊔ B)
=
=
=
P (A ⊔ B)
P (A) + P (B)
P (A) + P (B)
P (B)
P (A)
+ g(B)
= g(A)
P (A) + P (B)
P (A) + P (B)
g(A ⊔ B) =
Der Wert der intensiven Größe einer Vereinigung ist also eine konvexe Kombination der einzelnen Werte.
Wir können eine besondere Addition definieren:
g(A ⊔ B) = g(A) ⊕ g(B) =
Q(A) Q(B)
Q(A) + Q(B)
⊕
=
P (A) P (B)
P (A) + P (B)
Diese Größe wird Mediant der beiden Brüche bezeichnet.
2.2.3
Fordkreise und Fareybrüche
Zu einer rationalen Zahl a/b sei der Fordkreis K(a/b) der Kreis der Ebene des zweidim. Koordinatensystems mit dem Mittelpunkt (a/b, 1/(2b2 ) und dem Radius 1/(2b2 ).
Eigenschaften von Fordkreisen:
• Ein Fordkreis berühert die x-Achse im Punkt a/b.
• Zwei Fordkreise können sich berühern, aber nie überlappen.
• Zwei Fordkreise K(a/b) und K(c/d) berühern sich genau dann, wenn bc und ad aufeinanderfolgende ganze Zahlen sind.
• Der dritte Kreis, der zwei sich berühernde Fordkreise K(a/b) und K(c/d) und die x-Achse
berühert, ist ebenfalls ein Fordkreis K(q/p). Die rationale Zahl q/p ist eindeutig durch
q = a + c und p = b + d bestimmt. q/p ist also der Mediant von a/b und c/d.
22
2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN
Eine Farey-Folge n-ter Ordnung Fn ist eine geordnete Menge von Brüchen pqii mit pi ≤ qi ≤ n,
p
i ∈ I, gcd(pi , qi ) = 1 mit I Indexmenge und pi , qi , n ∈ N, so daß pqii < qjj für alle i < j gilt.
Beispiele:
0 1
F1 =
,
1 1
0 1 1
, ,
F2 =
1 2 1
0 1 1 2 1
F3 =
, , , ,
1 3 2 3 1
0 1 1 1 2 3 1
F4 =
, , , , , ,
1 4 3 2 3 4 1
0 1 1 1 2 1 3 2 3 4 1
, , , , , , , , , ,
F5 =
1 5 4 3 5 2 5 3 4 5 1
0 1 1 1 1 2 1 3 2 3 4 5 1
F6 =
, , , , , , , , , , , ,
1 6 5 4 3 5 2 5 3 4 5 6 1
0 1 1 1 1 2 1 2 3 1 4 3 2 5 3 4 5 6 1
, , , , , , , , , , , , , , , , , ,
F7 =
1 7 6 5 4 7 3 5 7 2 7 5 3 7 4 5 6 7 1
Eigenschaften und Bemerkungen zu Fareybrüchen:
• Sind ab und dc aufeinanderfolgende Brüche mit ab ≤ dc in einer Farey-Folge, dann gilt
bc − ad = 1 oder bc = 1 + ad, d.h., bc und ad sind aufeinanderfolgende natürliche Zahlen.
• Die Länge |Fn | einer Farey-Folge ergibt sich rekursiv als |Fn | = |Fn−1 | + ϕ(n) und damit
|Fn | = 1 + ϕ(1) + ϕ(2) + ... + ϕ(n − 1) + ϕ(n). In einem Schritt wächst eine Farey-Folge
also besonders stark, wenn n Primzahl ist. Dann ist ϕ(n) = n − 1.
• Eine Farey-Folge oder einfach Farey-Brüche ist in der Zahlentheorie eine geordnete Menge
der vollständig gekürzten Brüche zwischen 0 und 1, deren jeweiliger Nenner den Index N
nicht übersteigt.
• Es gibt übrigens eine Aussage über Farey-Brüche, die der Riemanschen Vermutung äquivalent ist (siehe wikipedia).
Im Bild: Die Fordkreise zur 2. Hälfte der Farey-Folge F7 .
1
2
4
7
3
5
2
3
5
7
3
4
4
5
5
6
6
7
1
1
2.2 Mathematische Zusammenhänge physikalischer Größen
2.2.4
23
Satz von Benedetti
Eine einfache aber folgenschwere Anwendung der einfachsten Eigenschaften von extensiven und
intensiven Größen ist der Satz von Galilei-Benedetti: Wir betrachten eine extensive Größe
P und eine intensive Größe x und nehmen an, daß für zwei beliebige Objekte A und B mit
0 < P (A) ≤ P (B) auch x(A) ≤ x(B) gilt. Dann ist x konstant (hängt also von P nicht ab).
Beweis: Wir betrachten C = A ⊔ B. Da P extensiv ist, folgt
P (A) ≤ P (B) < P (C)
Aus der Intensivität von x folgt
x(A) ≤ x(C) ≤ x(B)
Da aber nach Voraussetzung aus P (B) ≤ P (C) auch x(B) ≤ x(C) folgen muß, muß x konstant
sein.
Dieser Satz hat eine erstaunlich Anwendung. Angenommen, die Geschwindigkeit (intensive
Größe) eines fallenden Objektes (z.B. zu einem festen Zeitpunkt) hängt von seiner Masse (extensive Größe) monoton ab (schwerer Körper fallen schneller), dann muß sie konstant sein. D.h.,
alle Körper fallen gleichschnell, wenn man die Bedingungen so gestaltet, daß die Geschwindigkeit nur von der Masse des Objektes abhängt.
Dieser Satz wurde zuerst von Giovanni Battista Benedetti (1530 – 1590) in einem Gedankenexperiment erwähnt, der damit zeigte, daß Aristoteles’ Idee, daß “doppelt so schwere Körper
doppelt so schnell fallen”, falsch sein muß. Galilei erwähnt dieses Gedankenexperiment in seinen
berühmten “Discorsi e dimostrazioni matematiche”.
25
3
Lineare Dualitätstheorie. Heuristik
3.1
Ein paar Vorbemerkungen
Ziel: Informationen über Z finden.
3.1.1
Die Grundobjekte der Funktionalanalysis
Mengen mit Struktur
Abbildungen
Funktionen
Funktionale
a ∈ A, b ∈ B
X = {f : A −
→ B}, b = f (a)
Operatoren
M : X−
→ X, g = Mf
Alles noch mal für reelle Zahlen
z ∈ Z, x ∈ R C(Z) = {g : Z −
→ R}, x = g(z) M : C(Z′ ) −
→ C(Z)
′
′
′
′
′
z ∈ Z , y ∈ R C(Z ) = {f : Z −
→ R}, y = f (z )
g = Mf
Die Funktionalanalysis beschäftigt sich mit drei Objekten: Mengen X und Y, Funktionen
f die zwischen diesen Mengen wirken und in einem Funktionenraum M(X, Y) liegen, in dem
Operatoren A Funktionen auf Funktionen abbilden, die wiederum in einem Operatorenraum
liegen können.
X
❄
f∈
Y
M(X, Y)
❄
A ∈ L(M, M′ )
M′ (X′ , Y′ )
✎☞
1
✍✌
✎☞
2
✍✌
✎☞
3
✍✌
Jede Zusammenfassung von neuen Objekten in Mengen erhöht einerseits die Abstraktionsstufe und damit den Kompliziertheitsgrad, läßt sich aber andererseits stets als
Wirken von Funktionen zwischen Mengen
betrachten. Da diese neuen Mengen meistens
aber mit anderen Methoden untersucht werden müssen ist es sinnvoll, zwischen Funktionen und Operatoren zu unterscheiden, obwohl das nicht prinzipiell ist. Die einzelnen
Teilgebiete der Funktionalanalysis unterscheiden sich darin, welche Strukturen in den Mengen
definiert oder welche Funktionen aus der Menge aller denkbaren Funktionen ausgewählt werden.
26
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
3.1.2
Mengen mit Strukturen. Kanonische Objekte
Werden Mengen aufeinander abgebildet, werden vorhandene Strukturen übertragen. Wir betrachten zwei Mengen A und B, und die Menge X = X(A, B) aller Abbildungen f : A −
→B
und untersuchen drei Typen von Strukturen:
• algebraische Struktur (B, ∗)
Man definiert eine binäre Abbildung B × B −
→ B.
• Ordnungsstruktur (B, ≤)
Man markiert eine Teilmenge des Kreuzproduktes ... ⊂ B × B.
• topologische Struktur (B, τB )
Man markiert eine Menge von Teilmengen und nennt sie offen OB ⊂ 2B .
Durch Funktionen f ∈ X werden diese Strukturen übertragen, d.h. es werden entsprechende
Strukturen induziert.
• algebraische Struktur: Von B nach X
(f ∗ g)(a) = f (a) ∗ g(a), a ∈ A
X sollte abgeschlossen sein bezüglich dieser Operation.
• Ordnungsstruktur: Von B nach X
f ≤ g ⇐⇒ f (a) ≤ g(a), a ∈ A
Sinnvoll ist es, Das schränkt die Menge X nicht ein. Wenn es aber bereits eine natürliche
Ordnungsstruktur auf X gibt, sollten beide Strukturen zusammenfallen.
• topologische Struktur: Von B nach A (Initialtopologie)
OA = {f −1 (U) | U ∈ OB , f ∈ X}
X ist dann die Menge der stetigen Abbildungen A −
→ B. Hier gibt es also zwei Möglichkeiten: Wir definieren in A und B eine Topologie und betrachten nur stetige Abbildungen,
oder wir gehen von einer Topologie in B aus und definieren uns eine Topologie in A mithilfe einer Menge von Funktionen, die wir für geeignet halten. Genau genommen wird so
nur eine Subbasis der Topologie in A definiert.
Eine häufig verwendete sehr erfolgreiche Idee in der Funktionalanalysis (und auch anderswo) ist
es, die Eigenschaften einer Menge unbekannter Elemente zu ermitteln, indem die Abbildungen
dieser Menge in eine Menge mit einer vielfältigen bekannten Struktur betrachtet werden. Eine
besonders vielfältige Struktur haben die reellen Zahlen (lineare Ordnung, zwei algebraische
Operationen und eine Topologie). Wir werden deshalb den Zustandraum mit Hilfe reellwertiger
Abbildungen untersuchen.
3.2 Der Zustandsraum Z als Menge
3.2
27
Der Zustandsraum Z als Menge
In den betrachteten Beispielen kamen verschiedene Varianten des Zustandsraumes vor. Als
Menge war der Zustandsraum
• eine endliche Mengen
• eine abzählbare Mengen
• ein Kontinuum
Oft hat der Zustandsraum bereits eine natürliche Struktur (z.B. wenn er ein Gebiet im Rn ist),
auf die zurückgegriffen werden sollte. Das sind aber spezielle Strukturen, die nur für spezielle
Aufgaben interessant sind. Wir werden im weiteren die lineare Dualitätstheorie rein formal so
entwickeln, wie sie sich kanonisch allein aus der Tatsache, daß wir ein physikalisches System
beschreiben wollen ergibt.
Wir werden keine neuen Definitionen einführen sondern nur die Eigenschaften der kanonischen
Objekte beschreiben. Das hat den Vorteil, daß man sich nicht mit technischen Problemen
aufhalten muß und sich ganz auf die Eigenschaften der Objekte konzentrieren kann.
Als Ergebnis erhält man einen mathematischen Rahmen, dem man einen physikalischen Sinn
geben. Allerdings werden wir feststellen, daß alles nur im Fall Z eine endliche Menge ist, mathematisch einwandfrei ist. Die nächste Aufgabe ist dann, künstlich Änderungen derart vorzunehmen, daß auch abzählbare Mengen und Kontinua in diesem Rahmen beschrieben werden
können.
Ist Z eine abstrakte Menge, gibt es in Z nichts kanonisches als die Menge der Teilmengen (auch
Potenzmenge genannt) von Z. Wir bezeichnen diese Potenzmenge mit 2Z .
In 2Z gibt es eine kanonische Ordnungsstruktur (⊂), eine algebraische Struktur (⊔ und ∩) und
eine Verbandstruktur (∪ und ∩).
3.3
3.3.1
Der duale Raum Z∗. Beobachtungen
Funktionen als Funktionale. Der duale Raum
Da es auf Z a-priori keine Struktur gibt, ist ein Funktional auf Z also erstmal eine beliebige
reellwertige Funktion auf Z, die für jedes z ∈ Z einen definierten Wert annimmt. Wir bezeichnen
diese Menge mit
Z∗ = {f : Z −
→ R}
Später werden wir in Z eine geeignete Struktur festlegen und nur solche Funktion betrachten,
die diese Struktur erhalten. Damit wird sich diese Menge einschränken.
Ein Element aus f ∈ Z∗ , angewendet auf z ∈ Z ist f (z). Z∗ wird der zu Z duale Raum genannt.
Meinstens wird für diese Objekte der Begriff “Funktion” und nicht der Begriff “Funktional”
verwendet.
3.3.2
Z∗ als linearer Raum
Die vielfältige Struktur von R überträgt sich auf Funktionen von Z nach R also auf Z∗ . Dank
der algebraischen Strukturen in R können wir endliche Linearkombinationen von Funktionen
bilden. Sind fi ∈ Z∗ , sind für alle reellen αi auch
n
X
f=
αi fi ∈ Z∗
i=1
28
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
da wohlPdefiniert ist, welchen Wert f an einer beliebigen Stelle z ∈ Z annimmt, nämlich
f (z) = ni=1 αi fi (z).
Wie in jedem linearen Raum ist die Funktion, die konstant 0 ist enthalten, 0 ∈ Z.
3.3.3
Ordnung und Positivität
Die Ordnungsstruktur in R generiert auf kanonische Weise eine Halbordnung in Z∗ :
f ≥ g ⇐⇒ f (z) ≥ g(z), z ∈ Z
Der Begriff der Ordnung in einem linearen Raum ist äquivalent mit dem Begriff der Positivität.
Wir schreiben f ≥ 0.
3.3.4
Z∗ als kommutative Algebra
Die Multiplikation in R generiert die Struktur einer kommutativen Algebra ist Z mit der punktweisen Multiplikation:
h = f · g ⇐⇒ h(z) = f (z) · g(z), z ∈ Z
3.3.5
Beschränkte Funktionen als konvexe Menge
Wir nennen eine Funktion f beschränkt, wenn es zwei reelle Zahlen α und β ≥ α mit
α1 ≤ f ≤ β 1
gibt. Zu so einer Funktion können wir eine skalierte Funktion
f˜ =
1
(f − α1)
β−α
definieren, die “affin äquivalent” ist zu f . Im weiteren sei
α = inf f (z), β = sup f (z)
z
z
Wenn wir alle beschränkten Funktionen mit derselben skalierte Funktion f˜ als identisch auffassen, reicht es Funktionen zu betrachten, die die Ungleichung
0≤f ≤1
erfüllen. Wir bezeichnen diese Menge mit
R = {f ∈ Z∗ | 0 ≤ f ≤ 1}
Offensichtlich ist R eine konvexe Menge.
Bemerkung: Die Funktion f˜ “berühert” die 0- und 1- Linie. In R liegen aber auch Funktionen,
die strikt zwischen 0 und 1 liegen.
3.3 Der duale Raum Z∗ . Beobachtungen
3.3.6
29
Niveaumengen (level sets)
Zu einer Funktion f : Z −→ R können wir den Wertebereich R(f ) ⊂ x auf die übliche Art
definieren.
Zu jeder Funktion läßt sich auf die übliche Weise eine “inverse Funktion” f −1 definieren:
f −1 (x) = {z ∈ Z|f (z) = x} ⊂ Z, x ∈ R(f )
f −1 (x) = ∅, x ∈ R(f )
Diese Funktion wird “inverse Funktion” genannt, obwohl ihr Wertebereich ein anderer ist als
der Definitionsbereich von f . Es ist f −1 : R −
→ 2Z . Eigentlich müßte hier ein anderes Symbol als
−1
f eingeführt werden. Wir verzichten darauf, weil das unüblich ist. f −1 (x) heißt Niveaumenge
von f zum Wert x.
f −1 ist auf R(f ) eineindeutig: x 6= y ⇐⇒ f −1 (x) 6= f −1 (y). Deshalb zerlegt jede Funktion
seinen Definitionsbereich Z in Äquivalenzklassen.
f −1 erhält die Mengenoperationen ∪ und ∩.
3.3.7
Charakteristische Funktionen
Die betrachteten Funktionen haben Werte im Zahlenkörper R. Anstelle von R könnte man andere Körper betrachten (was wir nicht tun werden). Deshalb sind besonders solche Funktionen
interessant, die es für jedem Körper gibt, daß sind Funktionen, die nur die Werte 0 und 1 annehmen (diese beiden Zahlen gibt es in jedem Körper). Solche Funktionen sind für gewisse Punkte
z einer Menge A gleich 1 und für alle anderen Werte 0. Das sind gerade die charakteristischen
Funktionen.
Jeder Teilmenge A ∈ 2Z können wir eine charakteristische Funktion 1A durch 1A (z) = 1 falls
z ∈ A, 1A (z) = 0 falls z ∈ Z \ A.
Umgekehrt können wir jeder Funktion g auf Z, die nur die Werte 0 oder 1 annimmt, mit
A = g −1 (1) eine Teilmenge aus Z zuordnen.
Damit haben wir eine 121-Abbildung (121 bedeutet eineindeutig, aus dem englischen: one-toone) der Teilmengen von Z in eine wohl definierte Teilmenge von Z∗ erhalten. Wir können
1A , die Bilder von A, mit A selbst dank dieser Einbettung identifizieren. Z∗ enthält also die
Teilmengen von Z. Wir können uns Z∗ damit als Verallgemeinerung des Begriffs der Teilmenge
vorstellen.
Die kanonische Struktur in 2Z überträgt sich auf die Menge der charakteristischen Funktionen.
Insbesondere sind Produkte, Summen und Suprema von charakteristische Funktionen Operationen mit Teilmengen von Z und ebenfalls Teilmengen.
Operationen und Relationen zwischen Mengen übertragen sich auf Operationen zwischen Zahlen
(A ⊔ B bedeutet Vereinigung disjunkter Mengen, also A ∪ B falls A ∩ B = ∅):
A⊂B
C =A∩B
C =A⊔B
C =A∩B
C =A∪B
⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
1A ≤ 1B
1C = 1A · 1B
1C = 1A + 1B
1C = inf{1A , 1B } = min{1A , 1B }
1C = sup{1A , 1B } = max{1A , 1B }
Die definierte 121-Abbildung
1A ←→ A ∈ 2Z ⊂ Z∗ = {f : Z −
→ R}
30
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
erhält also die Ordnungsrelation, die algebraischen Operationen und die Verbandstruktur.
Bei der speziellen charakteristischen Funktion 1Z lassen wir in Zukunft den Index weg und
schreiben einfach 1. Das ist die konstante 1-Funktion.
1∅ ist die konstante 0-Funktion.
3.3.8
Linearkombinationen charakteristischer Funktionen
Die vielfältige Struktur von R überträgt sich auf Funktionen von Z nach R also auf Z∗ . Dank der
algebraischen Strukturen in R können wir Linearkombinationen der charakteristischen Funktionen bilden, etwa
f=
n
X
αi 1Ai
(9)
i=1
Diese Funktionen sind aus der Theorie des Lebesgueintegrals gut bekannt und heißen einfache
Funktionen. Offensichtlich nimmt so eine Funktion nur endliche viele Werte an. Sie wird häufig
stückweise konstante Funktion genannt (genauer wäre es so eine Funktion als Funktion mit
endlichem Wertebereich zu bezeichnen). Es gilt
R(f ) = {f (z1 ), ..., f (zm )}
mit gewissen zi ∈ Z und m ≥ n. Die Mengen f −1 f (zi ) sind disjunkt und zerlegen Z. Wir
werden deshalb im weiteren stets Darstellungen der Form (9) betrachten, für die die Ai eine
disjunkte Zerlegung von Z bilden:
!
n
n
G
[
Ai = Z, heißt
Ai = Z, Ai ∩ Aj = ∅, i 6= j
i=1
i=1
und zi ∈ Ai liegt. Es gilt
Ai = f −1 f (zi )
(10)
Wir können die αi näher bestimmen: Wenden wir f in der Form (9) auf ein zj an, erhalten wir
f (zj ) =
n
X
αi 1Ai (zj ) =
i=1
n
X
αi δij = αj
i=1
mit dem Kroneckersymbol δij = 1Ai (zj ). Damit gilt
f=
n
X
i=1
f (zi )1Ai , zi ∈ Ai
(11)
Die Ai sind die Niveaumengen der Funktion f . Mit (10) erhalten wir aus (11)
f=
n
X
i=1
f (zi )1Ai =
n
X
i=1
f (zi )1f −1 (f (zi )) =
X
x∈R
x · 1f −1 (x)
(12)
wobei im letzten Schritt x = f (zi ) gesetzt wurde. Die Summe läßt sich über ganz R ausdehnen,
da 1f −1 (x) = 1∅ = 0 für x 6∈ R(f ).
3.3 Der duale Raum Z∗ . Beobachtungen
31
Diese Schreibweise ist für Funktionen mit endlich vielen Werten sogar exakt. Sie ist eine Darstellung, die sich auf allgemeinen Funktionen veralgemeinern läßt, wenn man der Summe in
(12) einen Sinn geben kann.
Die Darstellung (11) erinnert an die aus der linearen Algebra bekannte Zerlegung bezüglich
einer Basis. Hier wären die Basiselemente die charakteristischen Funktionen 1A . Die charakteristischen Funktionen könnte man als kanonische Basis bezeichnen. Ein einfaches Beispiel
zeigt, daß sie im allgemeinen nicht die Basis von Z∗ als linearer Raum sein können. Ist Z eine
endliche n-Menge, dann ist Z∗ = Rn . Die Basis besteht also aus n Elementen. Es gibt in Z aber
2n Teilmengen und damit auch 2n charakteristische Funktionen.
Die charakteristischen Funktionen sind allerdings genau die extremalen Elemente von R. Wir
bezeichnen sie mit
Re = 1A ∈ Z∗ | A ∈ 2Z
Die konvexe Kombination von Elementen aus Re ergeben Elemente aus R, im allgemeinen leider
nicht alle. Das wäre eine besonders wünschenswerte Eigenschaft der Menge R. Es würde
Re = extr R , Re ∼ 2Z
R = conv Re
gelten. Die charakteristischen Funktionen könte man damit als “Basis” für R bezeichnen,
bezüglich derer man alle Elemente der konvexen Menge als konvexe Kombination von “Basiselementen” darstellen kann. Wenn Z eine endliche Menge ist, gilt dieser Zusammenhang.
Allerdings ist diese Darstellung im allgemeinen nicht eindeutig (siehe die Beispiele weiter hinten).
3.3.9
Positivität charakteristischer Funktionen
Offensichtlich ist 1A ≥ 0. Hieraus folgt für endliche Linearkombinationen, daß f ≥ 0 ⇐⇒
fi ≥ 0.
3.3.10
Physikalische Bedeutung von Z∗
Jede Beobachtung hat eine physikalische Bedeutung. Z.B. bedeutet 1A (z), wir testen, ob z ∈ A,
d.h., ob sich das phys. System in einem Zustand aus A befindet.
P
Linearkombinationen von charakteristischen Funktionen i αi 1Ai kann man als verfeinerte Beobachtungen betrachten, die ermöglichen, die Zugehörigkeit des Zustandes zu Mengen gleichzeitig zu beobachten. Das erfordert aber, daß man die αi gut unterscheiden kann.
Beobachtungen verhalten sich wie intensive Größen. Von solchen Größen wissen wir, daß sie
sich nicht eindeutig reellen Zahlen zuordnen lassen. Zwei verschiedene Darstellungen sind aber
durch affine Transformation (Verschiebung und Skalierung) inneinander überführbar. Das heißt,
es reicht aus, Beobachtung aus der konvexen Menge
R = {f ∈ Z∗ | 0 ≤ f ≤ 1}
zu betrachten. Allerdings ist das keine echte Faktorisierung bezüglich affiner Transformationen,
da in R nach wie vor affin äquivalente Beobachtunen liegen, z.B. 1 und 12 1 .
32
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
Der biduale Raum Z∗∗. Statistische Zustände
3.4
Mit Z∗ könnte man sich zufriedengeben, wir haben Abbildungen unserer physikalischen Zustände
in die reellen Zahlen. Aber irgendein Mathematiker kam mal auf die Idee das ganze noch mal
zu machen. Vielleicht hat er gedacht: “Wenn ich mit Funktionen Information aus meiner Menge
ans Licht bringen kann, dann kann ich vielleicht mit weiteren Funktionalen Informationen über
die Funktionen ans Licht bringen.
Z∗ ist wieder eine Menge. Sie enthält aber die durch die algebraische Struktur der reellen
Zahlen induzierte Struktur eines linearen Raumes. Wir betrachten deshalb auf Z∗ nur lineare
Funktionale.
Wir bezeichnen mit
Z∗∗ = {p : Z∗ −
→ R}
die Menge der linearen Funktionale auf Z∗ und nennen Z∗∗ den zu Z bidualen Raum.
Die Wirkung eines Elementes p ∈ Z∗∗ auf ein Element f ∈ Z∗ nennen wir duale Paarung oder
duales Produkt und schreiben hf, pi, f ∈ Z∗ , p ∈ Z∗∗ .
Z∗∗ als linearer Raum linearer Funktionale
3.4.1
Nach Voraussetzung wollen wir nur linearer Funktionale betrachten, es gilt also für endliche
Summen
* n
+
n
X
X
αi fi , p =
αi hfi , pi
i=1
i=1
Außerdem induziert die algebraische Struktur in R eine lineare Struktur in Z∗∗ :
* n
+
n
X
X
f,
βj pj =
βj hf, pj i
j=1
3.4.2
j=1
Ordnung und Positivität
Die Ordnungsstruktur in R induziert eine Halbordnung in Z∗∗ . Dank der Linearität ist das
äquivalent zur Definition der Positivität. Wir nennen ein Element aus Z∗∗ , wenn seine Wirkung
auf alle positiven Elemente aus Z∗ positiv ist:
p ≥ 0 ⇐⇒ hf, pi ≥ 0, f ∈ Z∗ , f ≥ 0
3.4.3
Elemente in Z∗∗ als Funktionen von Mengen
Auf der Teilmenge 2Z ∼ Re ⊂ Z∗ kann man die die Funktionale p ∈ Z∗∗ als Funktionen auf
Mengen p : 2Z −
→ R betrachten. Wir benutzen dafür dasselbe Symbol und schreiben
p(A) := h1A , pi
Damit läßt sich die WirkungP
eines Funktional p ∈ Z∗∗ auf die Linearkombination von charakteristischen Funktionen f =
f (zi )1Ai auch als
+
* n
n
n
X
X
X
f (zi )h1Ai , pi =
f (zi )p(Ai )
(13)
hp, f i =
f (zi )1Ai , p =
i=1
i=1
i=1
3.4 Der biduale Raum Z∗∗ . Statistische Zustände
33
schreiben.
Offenbar gilt für positive p ≥ 0, p(A) ≥ 0. D.h., ein positives Element aus Z∗∗ ist auch positiv als Funktion auf Mengen. Da für eine Linearkombination charakteristischer Funktionen
Positivität äquivalent zur Positivität der f (zi ), folgt, daß – zumindest für endliche Linearkombinationen – die beiden kanonischen Halbordnungen, Positivität von p als Funktion auf Mengen
und Positivität von p als Funktion auf Funktionen identisch sind.
Für positive p gelten weiter folgende offensichtliche Eigenschaften:
P
P
• A = ⊔Ai ⇐⇒ 1A = 1Ai =⇒ p(A) = p(Ai ).
• p(∅) = 0
• A ⊂ B =⇒ 1A ≤ 1B
=⇒ p(A) ≤ p(B)
Das sind Eigenschaften, die von Maßen gefordert werden. Elemente des bidualen Raumes haben
also vieles gemeinsam mit Maßen.
3.4.4
Spezielle Elemente in Z∗∗
In Z∗∗ liegen abstrakte Objekte, Funktionale. Gibt es darunter welche, die wir verstehen? Man
Z
könnte meinen, daß eine Beziehung der Art 22 ⊂ Z∗∗ gilt, entsprechend der Beziehung 2Z ⊂ Z∗ .
Das ist aber nicht der Fall wie das Beispiel endlicher Mengen zeigt (siehe 3.4.7).
Wir können für festes z auch f (z) als Funktional auf Z∗ betrachten, denn das ist eine reelle
Zahl und offesichtlich ist das Funktional linear. Wir können also jedem Element z ∈ Z ein
Funktional δz ∈ Z∗∗ zuordnen durch
hf, δz i = f (z)
Dieses Funktional wird Punktmaß oder Diracmaß genannt. Ist diese Zuordnung injektiv? Es
könnte sein, daß für zwei Punkte z1 und z2 für alle f ∈ Z∗ gilt f (z1 ) = f (z2 ). Das bedeutet,
daß aus der Sicht der Funktionale die beiden Punkte z1 und z2 nicht zu unterscheiden wären.
Physikalisch bedeutet das, daß es keine Beobachtung gibt, die die beiden Zustände z1 und z2 des
physikalischen Systems unterscheiden kann. Dann sind für uns diese beiden Zustände identisch.
Dann hätten wir aber von Anfang an, bei der Definition von Z, überhaupt nicht auf die Idee
kommen können, daß die Zustände verschieden sind (Hausdorffeigenschaft).
Wir nehmen also an, daß dieser Fall nicht auftreten kann. Das nennt man: Die Funktionale
trennen die Punkte. Tatsächlich haben wir damit eine stillschweigende Faktorisierung vorgenommen, ein Verfahren, daß in der klassischen Physik Standard ist. Es gibt in der klassischen
Physik keine nichtunterscheidbaren Objekte.
Damit haben wir eine 121-Zuordnung zwischen Punkten z ∈ Z und Punktmaßen δz ∈ Z∗∗ und
können ab sofort diese Objekte Identifizieren δz ←→ z. Damit wird Z zu einer Teilmenge von Z∗∗
– genau wie wir jeder Teilmenge A ein Funktional – nämlich eine charakteristische Funktion
– auf Z zuordnen konnten. Z ist also in Z∗∗ eingebettet. Diese Einbettung heißt kanonische
Einbettung eines Raumes in seinen bidualen.
Das besondere an dieser Konstruktion ist, daß wir in Z keine oder wenig Struktur haben, in Z∗∗
dagegen – das sind ja Abbildungen in die reellen Zahlen – alle Strukturen der reellen Zahlen.
Wir erhalten somit in Z eine Fülle von Strukturen, die kanonisch entstanden sind, ohne daß
wir sie definieren mußten.
Die Funktionale aus Z∗∗ müssen auf alle Elemente aus Z∗ angewendet werden können, also auch
auf charakteristische Funktionen die wir mit Teilmengen identifiziert haben. Funktionale aus
Z∗∗ sind also unter anderem Funktionen von Teilmengen p(A).
34
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
Insbesondere wirken die Punktmaße auf charakteristischen Funktionen wie folgt:
δz (A) = h1A , δz i = 1A (z)
Das ist = 1, falls z ∈ Z ansonsten = 0.
3.4.5
Eine Basis in Z∗∗ ?
Genau wie in Z∗ , liegen – als Abbildungen in die reellen Zahlen – auch Linearkombinationen
von Punktmaßen in Z∗∗ .
n
X
p=
βj δzj
j=1
Es seien Ai disjunkte Mengen, die jeweils nur zi enthalten, es gelte also 1Ai (zj ) = δij . Dann
folgt
n
n
n
X
X
X
βj δij = βi
p(Ai ) =
βj δzj (Ai ) =
βj 1Ai (zj ) =
j=1
j=1
j=1
und damit
n
X
p(Aj )δzj .
p=
j=1
Zu beachten ist, daß die Ai zwar disjunkt sein müssen, aber keine Zerlegung von Z bilden
müssen. Wir können also äquivalent auch
n
X
p({zj })δzj .
p=
j=1
schreiben.
3.4.6
Z∗∗ als Algebra?
Man könnte den Wunsch verspüren, auch die Multiplikativität p(f · g) = p(f ) · p(g) zu fordern,
aber das kann man schon für charakteristische Funktionen nicht gewährleisten. Es müßte dann
nämlich
p(A ∩ B) = p(1A · 1B ) = p(1A ) · p(1B ) = p(A) · p(B)
gelten, was für B = A zu p(A) = p2 (A) führt für alle A. Diese Forderung führt also auf konstante
Funktionale p.
Man kann Multiplikativität also nicht für alle Maße und Funktionen (oder Teilmengen) fordern.
Trotzdem spielt die Multiplikativität oft eine wichtige Rolle, u.a.:
• Multiplikativität für spezielle Funktionale auf allen Funktionen: Das gilt für Punktmaße
und nur für diese:
hf · g, δz i = (f · g)(z) = f (z) · g(z) = hf, δz i · hg, δz i
• Multiplikativität für ein gegebenes Funktional und gewisse Mengen: p(A ∩ B) = p(A) ·
p(B) Das gilt in der Wahrscheinlichkeitstheorie für unabhängige Ereignisse (so heißen die
Borelmengen der Maßtheorie in der W-Theorie).
3.4 Der biduale Raum Z∗∗ . Statistische Zustände
35
Z
Es ist 22 6⊂ Z∗∗
3.4.7
Man könnte annehmen, daß analog zum Übergang von Z zu Z∗ , für den 2Z ⊂ Z∗ folgte, sich
Z
beim Übergang von Z∗ zu Z∗∗ die Zahl der Elemente derart erhöht, daß 22 ⊂ Z∗∗ gilt. Das ist
aber nicht der Fall. Der Grund hierfür ist, daß in Z∗∗ nicht alle Funktionen sondern nur lineare
Z
Funktionen liegen sollen. Das führt dazu, daß man zwischen 22 und Elementen aus Z∗∗ keine
Eineindeutige Abbildung finden kann, was Voraussetzung für eine Einbettung wäre. Das sieht
man am einfachsten daran, daß sowohl die leere Menge ∅ als auch die Menge {0} auf die 0 des
Raumes Z∗∗ abgebildet werden. ∅ −
→ 0 ist klar und {0} −
→ 0 folgt aus {0} = 0 · {1}, d.h., egal
wohin 1 abgebildet wird, wegen der Linearität muß {0} auf das 0-fache dieser Zahl abgebildet
werden.
Physikalische Bedeutung von Z∗∗
3.4.8
Jetzt wollen wir untersuchen, wie man Linearkombinationen von Punktmaßen interpretieren
könnte. Dazu betrachten wir die Rolle von Wahrscheinlichkeiten in der Physik.
Die Berücksichtigung von Wahrscheinlichkeiten kann wenigstens aus zwei Gründen nötig sein.
Die Ursache ist in beiden Fällen Mangel an Information. Es kann sein, daß 1) nicht mit Sicherheit feststellbar ist, in welchem Zustand sich das System befindet und 2) nicht mit Sicherheit
vorherzusagen ist welcher Zustand nach einer Veränderung angenommen wird. Wir betrachten
vorläufig der ersten Fall.
Wir führen m mal ein Experiment durch und stellen fest, daß sich unser System ki mal im
Zustand zi befunden hat mit m = k1 + k2 + k3 + .... Dann können wir sagen, daß sich das
System mit Wahrscheinlichkeit (genauer Häufigkeit) βi = ki /m im Zustand zi befunden hat
und die Größe
′ ′
z
=
k1 ′ ′ k2 ′ ′ k3 ′ ′
z1 +
z2 +
z3 + ... = β1 ′z1′ + β2 ′z2′ + β3 ′z3′ + ...
m
m
m
können wir als statistischen Zustand des Systems bezeichnen. Das ist eine konvexe Kombination
von Zuständen, eine spezielle Linearkombinationen. Soetwas können wir mit Punkten aus Z aber
nicht bilden, wohl aber aus Elementen aus Z∗∗ . Wir können das Funktional
p=
n
X
j=1
βj δzj ,
n
X
j=1
βj = 1, βj ≥ 0
als statistischen – oder gemischten – Zustand des Systems bezeichnen. Der Fall p = δz würde
bedeuten, daß sich das System mit Sicherheit im – reinen – Zustand z befindet.
Die gemischten Zustände sind also konvexe Kombinationen reiner Zustände. Und umgekehrt, die
reinen Zustände sind die Zustände, die sich nicht gemischt darstellen lassen, also die extremalen
Elemente der konvexen Menge der gemischten Zustände.
Wir können also einem Teil der Funktionale aus Z∗∗ einen physikalischen Sinn geben. Wir
können die konvexen Kombinationen von Punktmaßen als Wahrscheinlichkeiten interpretieren.
Bemerkung: Es ist wichtig zu verstehen, daß die konvexe Kombination von Zuständen selbst
kein Zustand ist, auch wenn Z einen lineare Menge ist. Befindet sich das System z.B. mit
halber Wahrscheinlichkeit in den Zuständen z1 und z2 , so befindet es sich nicht im Zustand
z = 21 z1 + 12 z2 . Das wäre auch ein reiner und kein gemischter Zustand. Es ist ein Unterschied,
ob sich das System im Zustand z oder mit gleicher Wahrscheinlichkeit in den Zuständen z1 und
2
z2 befindet. Der Wunsch, anstelle von z.B. 21 δz1 + 21 δz2 lieber z1 +z
als statistischen Zustand zu
2
36
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
betrachten, ist ein weitverbreiteter Fehler, der Folgefehler nach sich zieht, die die mathematische
Analyse des Problems sehr erschweren können.
Die konvexen Kombinationen von Punktmaßen haben die offensichtlichen Eigenschaften p ≥ 0
und h1, pi = 1. Wir nennen solche Maße Wahrscheinlichkeitsmaße und bezeichnen sie mit
P = p ∈ Z∗∗ | p ≥ 0, h1, pi = 1
Die Punktmaße
Pe = δz ∈ Z∗∗ | z ∈ Z}
liegen in dieser Menge und bilden ihre extremalen Elemente.
Wie im Falle der charakteristischen Funktionen lassen sich im Falle endlicher Mengen Z alle
Elemente aus P als konvexe Kombinationen ihrer extremalen Elemente darstellen.
Pe = extr P , Pe ∼ Z
P = conv Pe
Diese Darstellung ist – im Gegensatz zu R – eindeutig. Das liegt daran, daß die n extremalen
Elemente δz affin unabhängig sind. Sie spannen eine n−1 dimensionale Hyperebene auf, aus der
die konvexen Kombinationen der δz einen n−1 dimensionalen Simplex ausscheiden. Die eindeutig bestimmten Koeffizienten zu einem p ∈ P sind gerade seine baryzentrischen Koordinaten in
diesem Simplex.
3.4.9
Baryzentrische Koordinaten
Im Rn heißen k ≤ n Punkte P1 , P2 , ..., Pk affin unabhängig, wenn die k Vektoren P2 −
P1 , ..., Pk −P1 linear unabhängig sind (hier ist egal, welcher Punkt subtrahiert wird). Die Punkte
P1 , P2 , ..., Pk spannen dann einen k − 1-dimensionalen Simplex auf. Die Eckpunkte Pi dieses
Simplex sind die extremalen Elemente des Simplex als konvexe Menge. Jeder Punkt P0 im
Inneren dieses Simplex läßt sich eindeutig als konvexe Kombination
P0 = α1 P1 + ... + αk Pk , αi ≥ 0, α1 + ... + αk = 1
der Eckpunkte darstellen. Die Koeffizienten αi heißen baryzentrische Koordinaten und
lassen sich explizit als
αi =
S(P1 , ..., Pi−1 , P0 , Pi+1 , ..., Pk )
S(P1 , ..., Pk )
berechnen, wobei S(P1 , ..., Pk ) das Volumen des Simplexes mit den Eckpunkte Pi ist.
Baryzentrische Koordinaten bestehen aus einer Koordinate mehr als lineare Koordinaten. Sie
ermöglichen es, Punkte in einem Simplex zu beschreiben, unabhängig davon wo der Simplex
im Koordinatensystem liegt und wie das Koordinatensystem skaliert ist. Beispielsweise hat
der Schwerpunkt in jedem Dreieck die baryzentrischen Koordinaten ( 13 , 31 , 31 ). Absolute lineare
Koordinaten des Schwerpunktes lassen sich natürlich nicht angeben.
Bemerkung: Im Dreieck gibt es neben baryzentrischen Koordinaten auch noch trilineare Koordinaten, die anders definiert sind und keine konvexe Kombination bilden.
37
3.5 Die duale Paarung
3.5
3.5.1
Die duale Paarung
Extensive und intensive Größen
Die duale Paarung für endliche Linearkombinationen (13)
hp, f i =
n
X
f (zi )p(Ai )
i=1
läßt sich interpretieren als Summ von Produkten intensiver Größen (mittelnde Funktionen von
Punkten f ) mit extensiven Größen (additive Funktionen von Mengen p).
Die mittelnde Eigenschaft von f wird beim Zusammenfassen von Objekten deutlich: Aus
f (z)p(A1 ⊔ A2 ) = f (z) p(A1 ) + p(A2 ) = f (z1 )p(A1 ) + f (z2 )p(A2 )
folgt
f (z) =
p(A1 )
p(A2 )
f (z1 )p(A1 ) + f (z2 )p(A2 )
=
f (z1 ) +
f (z2 )
p(A1 ) + p(A2 )
p(A1 ) + p(A2 )
p(A1 ) + p(A2 )
Wir betrachten eine Menge A, die nicht Z sein soll, eine Zerlegung von A = ⊔i Ai , ein f ∈ Z∗
und den Ausdruck
n
X
q(A) =
f (zi )p(Ai )
(14)
i=1
Wir können dadurch auf Pe ein Funktional q durch
h1A , qi = q(A) =
n
X
f (zi )p(Ai )
i=1
definieren. Damit läßt sich q auf Linearkombinationen ausweiten. Es sei g =
Wir betrachten hg, qi. Dazu müssen wir q auf 1Bj anwenden. Es sei
q(Bj ) = h1Bj , qi =
mit zji ∈ Aji und
hg, qi =
=
m
X
i
i,j=1
j=1
g(zj )1Bj .
f (zji )p(Aji )
i=1
Aji = Bj . Das ergibt
g(zj )h1Bj , qi =
j=1
n,m
X
S
n
X
Pm
m
X
j=1
g(zj )
n
X
f (zji )p(Aji ) =
i=1
n,m
X
g(zj )f (zji )p(Aji ) =
i,j=1
g(zji )f (zji )p(Aji ) = hg · f, pi
Im vorletzten Schritt wurde verwendet, daß g auf Bj und damit auch auf allen Aji konstant
ist. Es gilt also g(zj ) = g(zji ).
Im letzten Schritt wurde
S die Summe als Linearkombination von charakteristischen Funktionen
auf der Zerlegung Z = ij Aji betrachtet.
Formal gilt diese Darstellung nur für endliche Linearkombinationen, aber die rechte Seite ist
für alle Elemente f, g ∈ Z∗ definiert, da Z∗ eine Algebra ist.
Wir können also die durch (14) definierte Größe als Element aus Z∗∗ betrachten. Diese Darstellung läßt sich als Darstellung einer extensiven Größe q als duale Paarung einer intensiven
f und einer extensiven Größe p interpretieren.
38
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
3.5.2
Verallgemeinerungen
Im allgemeinen wären folgende Darstellungen wünschenswert:
X
X
X
X
x · 1f −1 (x)
p {z} δz
p=
pj δzj =
f=
fi 1Ai =
j
z∈Z
X
x∈R
X
x∈R
x · p f −1 (x) = hf, pi =
Riemannintegral
z∈Z
f (z) · p {z}
Lebesgueintegral
Beweis der Gleichheit:
X
X
X
X
hf, pi =
x · p f −1 (x) =
x·
p {z} =
f (z) · p {z}
x∈R
x∈R
z∈Z
z|f (z)=x
Für f = 1 erhält man hieraus
X
p {z}
h1, pi = p(Z) =
z∈Z
3.6
Zusammenfassung
Z∗
Z∗∗
Typ der Welt
geistig
materiell
Typ der Größe
intensiv (mittelnd)
extensiv (positiv, additiv)
Funktionen von
Punkten
Mengen
kanonische Objekte, “Basis”
Re = {1A , A ∈ 2Z }
Pe = {δz , z ∈ Z}
Dualität
sinnvolle Elemente
extremale Elemente
konvexe Hülle
1A (z)
= =
δz (A)
R = {f : 0 ≤ f ≤ 1} P = {p : p ≥ 0, p(Z) = 1}
Re = extr R
Pe = extr P
R = conv Re
P = conv Pe
Re = 2Z
Pe = Z
Da Z in Z∗∗ erhalten ist, gibt es keinen Grund, sich weiter für Z zu interessieren. Wir haben
zwei lineare Räume Z∗ und Z∗∗ gefunden, mit denen sich alle relavanten Probleme beschreiben
lassen.
Wir können von Z∗∗ zu Z auf folgendem Weg gelangen:
Z∗∗ −
→ P−
→ extr P = Pe = Z
und analog
Z∗ −
→ R−
→ extr R = Re = 2Z .
Das sind Möglichkeiten, aus der Menge der Potenzmenge die Menge selbst und umgekehrt zu
erhalten.
39
3.7 Probleme
3.7
Probleme
An Beispielen haben wir gesehen, daß es sinnvol ist, für den Zustandsraum Z die Möglichkeiten
• Z ist eine endliche Menge
• Z ist eine abzählbare Menge
• Z ist ein Kontinuum
zuzulassen. Falls Z eine endliche Menge ist, ist die vorgestellt Konstruktion mathematisch
einwandfrei. Es ergibt sich Z∗ = Rn und Z∗∗ = R∗n .
Im Falle, daß Z eine abzählbare Menge ist, muß geklärt werden, wie die Summen zu verstehen
sind, wenn sie sich über unendlich viele Elemente erstrecken. Ohne den Begriff des Grenzwertes
ist hier eine einwandfreie mathematische Konstruktion nicht möglich. Mit diesen Problemen
werden wir uns später beschäftigen.
Im Falle, daß Z die Mächtigkeit eines Kontinuums hat, gibt es bereits bei der Definition von
Summen Probleme. Das ist vielleicht am offensichtlichsten an der wünschenswerten Gleichung
X
p {z}
h1, pi = p(Z) =
z∈Z
Es gilt folgender
Satz: Ist die Summe von einer gewissen Anzahl nichtnegativer reeller Zahlen endlich, können
höchstens abzählbar viele von ihnen echt positiv sein.
Beweis: Es sei M die Menge der gegebenen nichtnegativen reellen Zahlen. Wir bilden Bk =
1
{x ∈ M| k+1
< x ≤ k1 }, die Menge der Elemente aus M, die zwischen aufeinanderfolgenden
Stammbrüchen liegen. Diese Mengen sind disjunkt. Offensichtlich liegen in jeder Menge Ik nur
endlich viele Elemente, denn sonst wäre ihre Summe bereits ∞. Andererseits liegt jede strikt
positive Zahl in irgendeiner der Mengen Bk . Die Menge ∪k Bk enthält also alle strikt positiven
Zahlen. Sie ist als abzählbare Vereinigung endlicher Mengen abzählbar.
Eine analoge Frage ist, ob man eine Funktion f ∈ R als konvexe Kombination von extremalen
Elementen aus Re darstellen kann:
X
f=
αi 1Ai
i∈I
Es ist klar, daß es nur abzählbar viele echt positive αi geben kann. Damit erscheint es unmöglich,
eine Funktion f mit mehr als abzählbar vielen Freiheitsgraden derart darzustellen.
D.h., es ist prinzipiell sinnlos, von Summen über mehr als abzählbar viele positive Zahlen zu
sprechen. Das ist gut aus der Maßtheorie bekannt. Dazu dient der dort eingeführte Begriff der
σ-Additivität.
Als erstes sollte man überlegen, inwiefern der Begriff der Menge überhaupt der Realität entnommen ist. Eine Menge ist eine Zusammenfassung wohlunterscheidbarer Objekte der Natur
oder des Denkens. Das bedeutet u.a. auch, daß man von einem Objekt genau sagen kann, ob
es zur Menge gehört oder nicht.
Endliche diskrete Mengen sind deshalb sicher sinnvoll als Mengen zu betrachten. Auch Mengen
mit abzählbar vielen Elementen kann man sich noch vorstellen. Allerdings haben sich nicht
40
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
ohne Grund – wie wir noch sehen werden – die antiken griechischen Mathematiker selbst mit
solchen Mengen schwer getan.
Aber bei Kontinua hört der Spaß endgültig auf. Wir wollen dazu ein paar Probleme betrachten.
3.7.1
Paradoxa mit Kontinua, reellen Zahlen und Beobachtungen
Kontinua werden u.a. in folgenden Situationen benutzt:
• Gebiete im euklidischen Raum, der als physikalischer Raum interpretiert wird
• Beliebig teilbare Wahrnehmungen (Helligkeit, Alk.gehalt, ..)
• reelle Zahlen als Beobachtungsergebnisse (Meßwerte)
An die ersten beiden Punkte haben wir uns dermaßen gewöhnt, daß wir darauf nicht verzichten
wollen.
Dabei wollen wir das Problem, was das physikalische intuitive Kontinuum mit dem mathematischen (reelle Zahlen) zu tun hat nicht untersuchen. Meistens wird in der Physik eine Größe
dann als kontinuierlich bezeichnet, wenn zwischen zwei Werten auch alle Zwischenwerte möglich
sind, d.h. wenn zu jedem Wert ein physikalisches Objekt existiert, für das die untersuchte Größe
diesen Wert annimmt. Diese Definition ist insofern unvollständi, da sie nicht erklärt, was für
Werte eine physikalische Größe annehmen kann. Implizit ist immer gemeint: jede reelle Zahl.
Das setzt per definitionem das physikalische und das mathematische Kontinuum gleich.
Einerseits ist klar, daß rationale Zahlen für physikalische Größen nicht ausreichen. Das wußten
schon die Griechen. Andererseits ist auch klar, daß niemals für jede reelle Zahl ein entsprechendes physikalisches Objekt gefunden werden kann, da es nur endlich viele und mit gutem
Vorstellungsvermögen vielleicht abzählbar viele Meßwerte geben kann.
3.7.2
Reelle Zahlen und Beobachtungen
Man benutzt zwar real nur die rationalen Zahlen, braucht aber die reellen Zahlen um eine
absolute Obermenge zu haben, in der alle Meßwerte bei beliebiger Meßgenauigkeit und alle
möglichen Lösungen von Gleichungen drinliegen.
Der Grund (und die Sinnhaftigkeit) der reellen Zahlen liegt in der Abgeschlossenheit. Der
Mittelwertsatz für beliebige stetige Funktionen funktioniert nur in den reellen Zahlen. Reelle
Zahlen kann man als Grenzwerte von Folgen rationaler Zahlen definieren. Das führt sofort zur
Überabzählbarkeit und damit zu einer Reihe von Paradoxa:
• Mit den reellen Zahlen lassen sich keine tatsächlichen Vorhersagen treffen. Angenommen,
wir vergleichen mit einer Balkenwaage die Massen dreier Kugeln m1 , m2 und m3 ist folgendes Ergebnis möglich: m1 = m2 , m2 = m3 . Werden die mi als reelle Zahlen interpretiert,
folgt m1 = m3 . In der Realität kann aber aufgrund der Meßgenauigkeit m1 6= m3 erhalten
werden (z.B. bei einer Meßgenauigkeit von 0.5g: m1 = 5.1g, m2 = 5.5g, m3 = 5.9g).
Meßergebnisse kann man praxisgerechter besser als “Enthaltensein in offenen Mengen”
interpretieren:
m1 m2 m3
m1 = m2 , m2 = m3 6=⇒ m1 = m3
Benutzt man natürliche Zahlen zum Messen der Masse, indem man etwa die Atome zählt,
tritt diese Paradoxon nicht auf.
41
3.7 Probleme
• Von zwei reellen Zahlen x und y, die als Dezimalbrüche gegeben sind, läßt sich x 6= y durch
sukzessive Stellenberechnung beweisen, x = y dagegen nicht. Als Beispiel betrachten wir
zwei reelle Zahlen x und y:
π
x = tan 7.5◦ = tan
√
√ 24
√
6+ 2− 3−2
y =
x = y = 0.131652497...
ÜA 4a: Entscheide of x = y oder x 6= y.
Beweis daß x = y: Wir gehen von der bekannten Tatsache tan π3 =
aus der Lösung der quadratischen Gleichung
tan 2α =
√
3 aus und erhalten
2 tan α
1 − tan2 α
sukzessive
π
3
π
tan
6
π
tan
12
π
tan
24
tan
Aus
2
p
q
=
=
√
3
1√
3
3
√
= 2− 3
p
√
q
√
√
1− 8−4 3
√
= (2 − 3) 8 − 4 3 =
=
3−2
q
q
√
√
√
√
= −2 − 3 + 2 8 − 4 3 + 3 8 − 4 3
√
q√
√
√
√
8 − 4 3 = ( 6 − 2)2 = 6 − 2 folgt
√
8−4 3+
√
3
q
√
√
√
√
√
√
√
8 − 4 3 = 2( 6 − 2) + 3 2 − 6 = 6 + 2
und damit die Behauptung.
Im Gegensatz dazu sind die beiden Zahlen
3
x = 640320
+ 744
√
π 163
= 262537412640768743.9999999999992500725971981856888...
y = e
ab der 31. Stelle tatsächlich verschieden. Hier ist die Verschiedenheit offensichtlich, weil
x ganz und y transzedent ist.
• Sind reelle Zahlen z.B. gleichverteilt (jede Verteilung ist geeignet) so kann es sein, daß die
Wahrscheinlichkeit, daß x genommen wird 0 ist für fast alle x. Trotzdem wird aber ein
ganz konkretes x angenommen.
• Keine Wahrscheinlichkeiten (Punkt auf der Kugel)
• Reelle Zahlen sind im allgemeinen Grenzwerte von Folgen rationaler Zahlen und als Grenzwerte prinzipiell nicht empirisch ermittelbar.
42
3.7.3
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
Die Potenzmenge ist zu groß
Neben der Menge Z an sich benötigen wir noch die Potenzmenge 2Z . Die Dualität der Mengen
Z∗ und Z∗∗ spiegelte sichgerade in der Dualität von Elementen und Teilmengen wieder. Neben
der möglichen Überabzählbarkeit von Z, die Probleme bereitet, ist 2Z bereits für abzählbare Z
überabzählbar, da sich die Kardinalität beim Übergang von einer Menge zu seiner Potenzmenge
erhöht.
Dieser Umstand spielt sogar bei endlichen Mengen eine Rolle, obwohl man ihn erst bei praktischen, nicht bei theoretischen Problemen wahrnimmt. Hat man etwa ein numerisches Problem
für Mengen mit n Elementen gestellt, kann es sein, daß es seine Lösung erfordert alle Teilmengen (2n Stück) oder alle Funktionen in eine k-Menge (k n Stück) zu betrachten. Solche Problem
heißen NP-vollständig und sind de facto unlösbar, wenn es nicht gelingt einen Algorythmus mit
einer kleineren Komplexität zu finden.
43
3.8 Beispiel: Endliche Mengen. Übungsaufgaben
3.8
Beispiel: Endliche Mengen. Übungsaufgaben
3.8.1
Der Fall Z = {z1 , z2 , z3 }
Ist Z = {z1 , z2 , z3 } eine Mengen aus drei Elementen, dann ist eine Abbildung in die reellen
Zahlen eineindeutig gegeben, wenn klar ist, welcher reellen Zahl z1 , welcher reellen Zahl z2 und
welcher reellen Zahl z3 zugeordnet ist. Sind die drei reellen Zahlen g1 , g2 und g3 , so entspricht
jeder solchen Abbildung ein Tripel g = (g1 , g2 , g3 ). Es ist also
Z∗ = {(g1 , g2, g3 ) | gi ∈ R}
Damit ist Z∗ der dreidimensionale reelle Raum, ohne Berücksichtigung irgendeiner Norm (später
wird noch eine geeignete Norm dazu genommen). Wir nennen ihn R3 .
Charakteristische Funktionen sind Tripel g, mit gi = 1 oder gi = 0. Davon gibt es 23 = 8 Stück.
Das sind die extremalen Elemente des Würfels
R = {g ∈ R3 | 0 ≤ gi ≤ 1}
Den dualen Raum Z∗∗ zu Z∗ bezeichne wir mit R∗3 . Es ist ebenfalls der dreidimensionale reelle
Raum, allerdings wird er eine andere Norm erhalten.
Die Menge der statistischen Zustände ist der zweidimensionale Simplex
o
n
P =
p ∈ R∗3 p1 + p2 + p3 = 1, pi ≥ 0
Seine extremalen
Elemente sind die kanonischen

 
 

1
0

Pe = δz1 =  0  , δz2 =  1  , δz3 = 

0
0
Basisvektoren

0 
0 

1
Es bietet sich an, Vektoren aus R3 und R∗3 als Zeilen– bzw. Spaltenvektoren zu unterscheiden.
Die duale Paarung ist dann die übliche Matrizenmultiplikation


p1
hg, pi = (g1 , g2 , g3 )  p2  = g1 p1 + g2 p2 + g3 p3
p3
Re✏✏◗✉
✏✏
◗
✏✏
◗
✏
✏
◗
✏
✉✏
◗
◗
◗
◗
◗
◗
◗◗✉
◗
✏
✏
◗
✏✏
◗
✏
✏
◗
✏✏
◗◗✏
✏
✉
✶
✏
✏✏
✏✏ z2
✉
✏
✏✏ ◗◗
✏✏
✏
◗
✏✏
◗
✏✏
✉
◗
◗
◗
◗
◗
◗
◗◗✉
◗
✏✏
◗
✏
◗
✏✏
◗
✏✏
✏
◗ ✏
✏
◗✉
◗
◗
◗ z1
◗
◗
s
◗
✻
z3
✻ z3
1 ✉
R
✔
✔
✔✔❚❚
❚
0
Pe
❚
❚
❚
❚
❚
❚
✑◗
❚
✑
◗
✔
❚
✑
◗
✑
◗
✔
❚
◗
✔ ✑✑
◗ ❚
◗❚
✔✑
✑
◗❚✉
✉
✔
◗
z1 ✑✑1
1 ◗ z2
✑
◗
✰
✑
s
◗
✔
✔
✔
✔
✔
✔
P
44
3 LINEARE DUALITÄTSTHEORIE. HEURISTIK
3.8.2
Berechnung von konvexen Kombinationen in R2
ÜA 5a) Es sei R2 das Quadrat im R2 mit den Eckpunkten (0, 0), (1, 0), (0, 1), (1, 1). Finde
die allgemeine Darstellung eines Punktes x = (x1 , x2 ) innerhalb dieses Quadrates als konvexe
Kombination der Eckpunkte.
Lösung: Die allgemeine Lösung ist
1
1
0
0
x1
+ (x1 + x2 − t)
+ (t − x2 )
+ (t − x1 )
= (1 − t)
1
0
1
0
x2
wobei an den Parameter t die Bedingungen min{1, x1 + x2 } ≥ t ≥ max{x1 , x2 } gestellt werden
müssen (sonst bilden die Koeffizienten keine konvexe Kombination).
Spezielle (Rand-)Lösungen wären t = 1, t = x1 + x2 und t = x2 > x1
1
1
0
0
x1
+ (x1 + x2 − 1)
+ (1 − x2 )
+ (1 − x1 )
=0
1
0
1
0
x2
x1
x2
x1
x2
3.8.3
= (1 − x1 − x2 )
= (1 − x2 )
0
0
0
1
+ x1
+ (x2 − x1 )
0
1
0
0
+ x2
+0
1
0
1
0
1
1
+ x1
1
1
+0
Berechnung von konvexen Kombinationen in Rn
ÜA 5b) Es sei Rn der n-dim Würfel im Rn mit den 2n Eckpunkten (0, ..., 0), ..., (1, ..., 1).
Finde eine Darstellung eines allgemeinen Punktes x = (x1 , x2 , ..., xn ) innerhalb dieses Würfel
als konvexe Kombination seiner extremalen Elemente.
Lösung: Es sei x = (x1 , x2 , ..., xn ) ein beliebiger gegebener Vektor. O.B.d.A. kann x1 ≤ x2 ≤
... ≤ xn angenommen werden. Das kann durch Umnummerierung der Zustände z1 stets erreicht
werden.
Wir schreiben die Darstellung für R4 auf:
 
 

 

0
0
0
x1
 0 
 0 
 0 
 x2 
 
 

 

 x3  = (1 − x4 )  0  + (x4 − x3 )  0  + (x3 − x2 )  1  +
1
1
0
x3
 
 
1
0
 1 
 1 

 
+ (x2 − x1 ) 
 1  + x1  1 
1
1
Nach Voraussetzung ist xk ≥ xk−1 , x1 ≥ 0 und 1 ≥ x4 . Deshalb sind alle Koeffizienten nichtnegativ. Offensichtlich ist auch die Summe 1.
Die allgemeine Lösung kann leicht hieraus gefolgert werden.
x = (1 − xn )P0 +
n−1
X
k=1
(xn+1−k − xn−k )
k
X
i=0
Pk + x1
n
X
k=1
Pk
3.8 Beispiel: Endliche Mengen. Übungsaufgaben
45
oder kompakter, wenn man xn+1 = 1 und x0 = 0 setzt:
!
n
k
X
X
x =
(xn+1−k − xn−k )
Pk =
i=0
k=0
= (xn+1 − xn )P0 + (xn − xn−1 )(P0 + P1 ) +
+ (xn−1 − xn−2 )(P0 + P1 + P2 ) + ... + (x2 − x1 )(P0 + P1 + ... + Pn−1 ) +
+ (x1 − x0 )(P0 + P1 + ... + Pn )
Hier ist P0 = ∅ der Koordinatenursrpung
und Pi = {zi }.
P
Für kleine Koordinaten mit i xi ≤ 1 wäre auch
!
n
n
X
X
x= 1−
xi P0 +
xi Pi
i=1
i=1
eine Lösung.
3.8.4
Der Satz des Pythagoras im Simplex
ÜA 5c) Ein rechtwinkliger Simplex im Rn sei gegeben durch die n Schnittpunkte einer Ebene
mit den Koordinatenachsen und dem Koordinatenursprung. Dabei entstehen n + 1 “Seitenflächen” der Dimension n − 1. Es sei Ai der Flächeninhalt der Seitenfläche senkrecht auf der
i-ten Koordinatenachse und A der Flächeninhalt der Grundfläche (gebildet von den Koordinatenachsenschnittpunkten). Beweise den Satz des Pythagoras im Simplex:
A2 = A21 + A22 + ... + A2n
Beweis:
4.3 Mathematische Grundlagen. Topologie
4.3
61
Mathematische Grundlagen. Topologie
• offene Mengen: O: Z, ∅ ∈ O,
S
α
Uα ∈ O, U1 ∩ U2 ∈ O
• O1 ⊂ O2 , 2 ist stärker (feiner) als 1 (gröber).
• abgeschlossene Mengen: F = {F ∈ 2Z : Z \ F ∈ O}
• kompakte Mengen: K
• Z = Z1 × Z2 , O1 × O2 ist Basis von O
• f : X−
→ Y stetig, falls f −1 (BX ) ∈ OY , ∀ BX ∈ OX
• f : Z−
→ X × Y; f (z) = (g(z), h(z)) stetig, falls g : Z −
→ X und h : Z −
→ Y stetig sind.
• f : Z−
→ X, f = g ◦ h, f (z) = g(h(z)) stetig, falls g : Y −
→ X und h : Z −
→ Y stetig sind.
• Initialtoplogie: Es sei ein Raum Z und eine Abbildungsfamilie {hi : Z −
→ Xi }i∈I (hier sei
I eine beliebige Indexmenge) in topologische Räume Xi mit offenen Mengen Oi gegeben.
Wir definieren in Z die Basismengen einer Topologie als
Z O(Z) = h−1
(U
)
⊂
2
U
∈
O
(X
)
i
i
i
i
i
Die so auf Z induzierte Topologie heißt Initialtoplogie bezüglich der Abbildungsmenge
{hi }. Die ist die gröbste Topologie auf Z, bezüglich derer alle Abbildungen hi stetig sind.
Ein topologischer Raum ist vollständig regulär, genau dann, wenn seine Topologie die
Initialtoplogie bezüglich der beschränkten reellwertigen Funktionen auf Z ist.
Hat man eine Menge an Funktionen gegeben, die stetig sein sollen, so ist das eine Möglichkeit, eine geeignete Topologie in Z zu definieren. Das ist der kanonische Weg zur Definition
einer Topologie, wenn man von einer Menge an interessierenden Beobachtungen (reellwertige Funktionen auf Z) ausgeht.
Bemerkung zur Stetigkeit: Diese angeführte Definition der Stetigkeit von Funktionen f :
Z1 −
→ Z2 ist üblich, setzt aber einen nicht offensichtlichen Zusammenhang zwischen f und der
Funktion f −1 : 2Z2 −
→ 2Z1 voraus. An den Mengen, zwischen denen f und f −1 abbilden, sieht
man, daß f −1 eigentlich nicht dieselbe Funktion ist, die üblicherweise betrachtet wird, wenn f
bijektiv wäre. Dazu folgende
ÜA 6: Es seien zwei Mengen Z1 und Z2 und eine Abbildung g : 2Z2 −
→ 2Z1 gegeben. Welche
Voraussetungen müssen an g gestellt werden, damit eine eindeutig definierte Funktion f existiert
mit g = f −1 (hier ist die inverse Funktion im Mengensinne gemeint)?
Die Lösung liefert folgender Satz:
62
4 DER ZUSTANDRAUM ALS KOMPAKTER HAUSDORFFRAUM
4.4
Definition des Zustandraumes Z
Zustandsraum heißt ein topologischer Raum, der
• kompakt ist, (kompakt = jede minimale Überdeckung ist endlich)
• Hausdorff ist und (Hausdorff = Punkte haben disjunkte Umgebungen)
• das 1. Abzähllbarkeitsaxiom erfüllt. (1.AA = Punkt hat abzählbare Basis)
Diese Eigenschaften lassen sich physikalisch motivieren:
Die Hausdorffeigenschaft bedeutet, daß sich Zustände unterscheiden lassen, was bedeutet, daß
wir nichtunterscheidbare Zustände identifizieren.
Das 1. Abzähllbarkeitsaxiom bedeutet, daß es nicht zuviele verschiedene Zustände gibt. Das
entspricht der Annahme, daß abzählbar viele Beobachtungen ausreichen um das physikalische
System vollständig zu erkennen.
Die geforderte Kompaktheit ist physikalisch leicht zu verstehen, wirkt aber als starke mathematische Einschränkung. Kompaktheit bedeutet soviel wie prinzipielle Endlichkeit. Es werden
zwar unendlich viele Zustände – sogar Kontinua – betrachtet, aber bei gegebener “Auflösung”
spielen nur endlich viele verschiedene Zustände eine Rolle. Das entspricht dem natürlichen Ansatz, daß eigentlich nur endliche Probleme betrachtet werden können, in dem Sinne, daß nur
endlich viele Beobachtungen real verarbeitet werden können.
Mathematisch vereinfacht die Forderung der Kompaktheit die Lösung von konkreten Aufgaben
außerordentlich. Viele Theorem können als notwendige und hinreichende Bedingungen formuliert werden. Das ist natürlich sehr angenehm und zeigt, daß Kompaktheit zu einer gewissen
Abrundung der Theorie führt. Es kann aber der Eindruck entstehen, daß die Forderung der
Kompaktheit die Menge an realen behandelbaren Problemen zu sehr einschränkt. Es gibt eine Fülle von mathematischen Untersuchungen physikalischer Probleme, die keinen kompakten
Zustandraum voraussetzen. Ist das tatsächlich erforderlich? Oder erschweren sich diese Mathematiker und Physiker das Leben grundlos. Es wird sicgh zeigen, daß es nicht nur ausreicht,
kompakte Zustandräume zu betrachten sondern daß eine vollständige Beschreibung eines klassischen physikalischen Problems einen kompakten Zustandraum erzwingt. Die Frage ist nicht,
ob es ausreicht sich auf kompakte Zustandraum zu beschränken, sondern daß eine richtige Modellierung jedes Problems das Finden einer geeigneten kompakten Topologie im betrachteten
Zustandsraum voraussetzt.
4.4.1
Weitere Eigenschaften des Zustandraumes
Ein topologischer Zustandraum Z hat weitere Eigenschaften, die aus den drei Voraussetzungen
folgen. Wir führen sie hier ohne Beweis an. Beweise können in jedem Standardwerk zur Topologie gefunden werden. Des weiteren werden einige Eigenschaften, die wir formal in vorigen
Kapitel benutzt haben, nicht mehr erfüllt sein.
Z ist:
• vollständig regulär (T3) = uniform, normal (T4)
• metrisierbar (Das bedeutet nicht metrisch. Es muß nicht sinnvoll sein, eine Metrik einzuführen. z.B. in endlichen Mengen)
• K=F
• folgenkompakt (jede Folge hat Häufungspunkt)
• O(Z) ist die Initialtopologie bezügl. C(Z).
63
4.4 Definition des Zustandraumes Z
• erfüllt das 2. Abzähllbarkeitsaxiom
Weitere Eigenschaften:
def
• Def. Folgenkonvergenz: zn −
→ z ⇐⇒ für alle Uz gilt: fast alle zn liegen in Uz .
• Def. Folgenstetigkeit: Eine Funktion f : Z1 −
→ Z2 heißt folgenstetig, wenn zn −
→ z =⇒
f (zn ) −
→ f (z)
• Für die uns interessierenden Fälle an Funktionen f : Z −
→ Z2 oder f : Z −
→ R, wobei Z
und Z2 Zustandsräume sind, gilt: f ist stetig ⇐⇒ f istfolgenstetig
• Z ist endlich ⇐⇒ diskr. Topologie in Z.
Das ist so zu verstehen: Wenn Z endlich ist, erfüllt die diskr. Topologie alles Voraussetzungen. Jede andere Topologie (die weniger offenen Mengen zuläßt) erfüllt nicht die
Hausdorffeigenschaft.
In unendlichen Mengen ist das nicht so. Da gibt es verschiedene Topologien für die Z
kompakt ist. Welche davon die richtige ist, hängt von der konkreten Aufgabe ab, insbesondere davon, wie wir unendlich viele Zustände beobachten können. Im endlichen Raum
gibt es nur die eine Variante: Alle Zustände sind gleichberechtigt und unterscheidbar.
Insbesonder gibt es keinen kanonischen Weg, Zustände zu nummerieren, zuordnen oder
irgendwie anders zu strukturieren.
4.4.2
Physikalischer Hintergrund
Eigentlich nehmen wir immer nur endlich viel wahr, sowohl im kleinen als auch im großen.
Wir können uns aber vorstellen, daß die Welt unendlich groß in beide Richtungen ist. Zumindest sollte unsere Vorstellung von der Welt die Möglichkeit eines prinzipiell möglichen tieferen
Verstehens offenlassen.
Unendlich im Großen bedeutet hier, daß wir immer mehr Zustände als mögliche Zustände –
genennt unendlich viele – zulassen.
Unendlich im Kleinen bedeutet hier, daß wir jeder einzelne Zustand noch weiter unterteilbar
ist, daß es möglich ist, immer mehr Freiheitsgrade – letztlich auch unendlich viele – zulassen.
Aber diese Unendlichkeiten dürfen nicht zu kompliziert sein.
Außerdem nehmen wir an, daß wir Zustände prinzipiell unterscheiden können.
Aus dieser Sicht stellt das an den toplogischen Raum drei entscheidende Voraussetzungen. Z
muß sein:
• Hausdorff:
Diese Voraussetzung bedeutet, daß man zwei Punkte unterscheiden kann. Diese Eigenschaft ergibt sich automatisch, wenn man ununterscheidbare Zustände als identisch annimmt. Dinge, die ich sowieso nicht ununterscheiden kann, brauche ich auch nicht zu
unterscheiden. Hier gibt es eine Besonderheit.
In der Physik gibt es die Begriffe “identische Teilchen” und “nichtunterscheidbare Teilchen”. In der klassischen Physik nimmt man an, daß Teilchen identisch sein können (z.B.
zwei Massepunkte im Raum, die Seiten eines Würfels oder die Seiten einer Münze), sich
aber unterscheiden lassen. Das heißt, sie verhalten sich unter denselben Bedingungen
genauso, ich kann sie aber z.B. nummerieren und verwechsele sie deshalb nicht.
64
4 DER ZUSTANDRAUM ALS KOMPAKTER HAUSDORFFRAUM
Diese Annahme ist in der Quantenmechanik falsch. Zwei identische Teilchen sind dann
auch nichtunterscheidbar, was bedeutet, daß bereits das “nummerieren” dazu führt, daß
die Teilchen nicht mehr identisch sind.
Der Unterschied macht sich auch tatsächlich bemerkbar. So treten beim Werfen von zwei
klassischen Münze die drei Varianten: 1) nur Kopf, 2) nur Zahl, 3) Verschiedenes mit
den Wahrscheinlichkeiten 1/4, 1/4 bzw 1/2 auf. Bei Werfen von zwei “Quantenmünzen”
ergibt sich stets die Wahrscheinlichkeit 1/3.
• Kompaktheit: Kompaktheit kann man sich als Endlichkeit im Großen und im Kleinen
vorstellen.
• 1. Abzählbarkeitsaxiom: Das bedeutet Abzählbarkeit im Großen.
65
5
Der Beobachtungsraum C(Z) als
Banachverband stetiger Funktionen
Es sei Z ein kompakter, metrisierbarer Raum und C(Z) die Menge aller stetigen beschränkten
reellwertigen Funktionen auf Z.
o
n
Z∗ = C(Z) = f : Z −
→ R f −1 (U) ∈ O, ∀U ∈ OR
Diese Definition ist rein algebraisch, nicht metrisch!
Es ist sinnvoll, alle Beweise durchzuprobieren.
Da endliche Linearkombinationen stetiger Funktionen wieder stetig und auch beschränkt sind,
ist C(Z) ein linearer Raum. Mit einer geeigneten Norm (sup-Norm), Multiplikation (punktweise)
und Ordnung (punktweise) wird C(Z) ein B-Raum, eine B-Algebra und ein B-Verband.
• 1∈C
• 1A ∈ C ⇐⇒ A ist offen und abgeschlossen (Zusammenhangskomponente)
• Sinnvoll sind Überdeckungen statt Zerlegung. Der Raum zerfällt nicht mehr.
• linearer Raum (d.h. αf + βg ist stetig)
• ∃ gmin , gmax , d.h., R(g) ist abgeschlossen und beschränkt ∃ zmin , zmax
Genauer: g −1(x) ∈ F für alle x ∈ R(g) und nicht leer.
Insbesondere gibt es zmin ∈ g −1 (gmin ), zmax ∈ g −1 (gmax )
• Intervall: C[a,b] = g ∈ C : [gmin , gmax ] ⊂ [a, b]
• R = C[0,1] . Diese Menge spielt etwa die Rolle der “Einheitskugel”. Sie ist konvex aber
nicht kompakt (in der starken Topologie, die später noch definiert wird).
• Extremale Elemente von R: Die extremalen Elemente sind die charakteristischen Funktionen, also nur die Funktionen 1A , wobei A eine Zusammenhangskomponente ist.
ÜA 7: Beweise die letzte Aussage. D.h.: Es sei Z ein zusammenhängender Raum. Beweise,
daß sich zu jedem g ∈ R mit g 6= 0 und g 6= 1 solche f 6= h ∈ R finden lassen, daß
g = 21 f + 21 h.
Beweis:. Es sei g ∈ R und h = 2g−g 2 und f = g 2 . Dann ist g = 12 f + 21 h und offensichtlich
f = g 2 ∈ R und h = 2g − g 2 = 1 − (1 − g)2 ∈ R. f 6= g ist für g 6= 1 erfüllt.
• Satz von Urysohn: Es seien A, B ∈ F, A ∩ B = ∅. Dann existiert eine stetige Funktion
f : Z−
→ [0, 1] mit f (A) = 0 und f (B) = 1.
Beweis: Zum eigentliche Beweis wird eine ineinandergeschachtelte Folge von offenen und
abgeschlossenen Mengen konstruiert, die mit rationalen Zahlen indexiert werden. Zum
Beweis der Stetigkeit, wird ein folgendes Lemma benutzt.
Lemma: Es sei C ∈ [0, 1] eine dichte Menge. Wir betrachten eine Abbildung C −
→ O(Z),
a−
→ Ua mit der Eigenschaft: a < b =⇒ Ua ⊂ Ub . Dann ist die Funktion f : Z −
→ [0, 1],
definiert als
f (z) = inf {a ∈ C}
z∈Ua
66
5 DER BEOBACHTUNGSRAUM C(Z)
stetig. Erläuterung: Die Ua sind ineinandergeschachtelt. Mit zunehmendem a werden die
Ua größer. f (z) wird das kleinste a (im inf-Sinne) zugeordnet, für das z gerade noch in
Ua ist.
Beweis des Lemmas: Wir zeigen, daß die Urbilder der offenen Mengen [0, x), (x, 1] ⊂
[0, 1] unter f offen sind. Da diese Mengen eine Subbasis in [0, 1] bilden, ist das der Beweis.
Es ist
[
Ua
f −1 [0, x) = {z|f (z) < x} =
a<x
als Vereinigung offener Mengen offen. Des weiteren ist
[
(Z \ Ub )
f −1 (x, 1] = {z|f (z) > x} =
b>x
eine Vereinigung abgeschlossener Mengen, über die man ersteinmal nichts aussagen kann.
Wir zeigen, daß
[
a>x
(Z \ Ua ) =
[
(Z \ Ua )
a>x
S
S
Die Inklusion a>x (Z \ Ua ) ⊃ a>x (Z \ Ua ) ist offensichtlich, da Ua ⊂ Ua =⇒ (Z \ Ua ) ⊃
S
(Z \ Ua ). Zum Beweis der Rückrichtung betrachten wir ein z ∈ a>x (Z \ Ua ). Es gibt also
ein a > x mit z ∈ (Z \ Ua ). Gilt z ∈ (Z \ Ua ) ist alles bewiesen. Es sei z 6∈ (Z \ Ua ). Wir
betrachten ein b ∈ C mit a > b > x, daß es wegen der Dichtheit von C stets gibt. Nach
Voraussetzung
ist Ub ⊂ Ua und damit z ∈ Z \ Ua ⊂ Z \ Ub . Wegen b > x ist dann auch
S
z ∈ a>x (Z \ Ua ).
.
Bemerkungen:
– Es werden die rationalen Zahlen als Ordinalzahlen verwendet, die für die Mengen
zwischen A und Z \ B eine Ordnung herstellen:
A ⊂ U0 ⊂ ... ⊂ Ub ⊂ ... ⊂ Ua ⊂ ... ⊂ U1 ⊂ Z \ B
– Es gibt also ein stetiges f mit f −1 (0) ⊃ A und f −1 (1) ⊃ B. Gleichheit der Menge
ist genau dann zu erreichen, wenn A und B (die abgeschlossen sein müssen) als
Durchschnitt abzählbar vieler offener Mengen dargestellt werden können.
– Da es nur noch offene und abgeschlossene Mengen als sinnvolle Mengen gibt, spielen
keine Zerlegungen mehr eine Rolle, dafür aber Überdeckungen.
– 1A ist nicht stetig.
• Fortsetzungssatz:
• Lemma (Zerlegung der 1):
n
Es sei (Ui )ni=1 eine endliche, minimale offene Überdeckung von Z. Es existieren
S (ϕi)i=1 ∈
C(Z) mit ϕi (z) ∈ [0, 1], ϕi (z) = 0, z ∈ Z \ Ui , ϕi (z) = 1, z ∈ Ui \
und
j6=i Ui
Pn
i=1 ϕi = 1.
67
5.1 C(Z) ist Banachraum
•
• Ideal: A ∈ F, IA = {f ∈ C|f (z) = 0, z ∈ A}
• Satz von Heine: Eine stetige Funktion ist gleichmäßig stetig.
• Satz von Dini: Wenn eine monotone Folge stetiger Funktionen punktweise gegen eine
stetige Funktion konvergiert, dann ist die Konvergenz gleichmäßig.
• Folgenstetigkeit: zn −
→ z =⇒ f (zn ) −
→ f (z)
• Zwei kompakte Hausdorff-Räume Z1 und Z2 sind genau dann homöomorph, wenn ihre Ringe von stetigen reell-wertigen Funktionen C(Z1 ) und C(Z2 ) isomorph sind. Siehe
auch Semadeni. (Wie ist das gemeint?) Vermutlich muß der Isometrie-Operator auch die
Multiplikativität erhelten, d.h. ein invertierbarer deterministischer Markowoperator sein.
• f ist stetig und bijektiv =⇒ f −1 ist stetig.
Es stellt sich heraus, daß die natürlichen Eigenschaften des Raumes stetiger Funktionen (metrische, algebraische, Ordungseigenschaft) in perfekter Weise zusammenpassen, was diesen Raum
zum idealen Startobjekt für die weiteren Untersuchungen macht.
Z − topologischer Raum
(kompakt, Hausdorff,
1. AA)
w
w

Menge der Beobachtungen
Z∗ = C(Z)
w
w

linearer Raum
Metrik (Norm) =⇒
5.1
normierter Raum
=⇒
Banach-Raum
Halb-Gruppe
=⇒
Algebra
=⇒ Banach-Algebra
Ordnung
Verband
=⇒
=⇒
Riesz-Raum
=⇒ Banach-Verband
C(Z) ist Banachraum
Ein Banachraum ist ein vollständiger (d.h., jede Cauchyfolge konvergiert) normierter linearer
Raum.
C(Z) ist linearer Raum, d.h., Summe, Produkt mit Skalar sind auch stetige Funktionen.
Wir können in C(Z) eine Norm definieren:
kgk = sup |g(z)|
z∈Z
Mit dieser Norm C(Z) ein normierter Raum.
Die Norm definiert eine Metrik und damit eine Topologie in C(Z). In dieser Topologie ist:
• Vollständigkeit: In der definierten Norm ist C(Z) vollständig und damit ein Banachraum.
Beweis: Der Raum C(Z −
→ E) ist genau dann vollständig, wenn E vollständig ist.
Der Beweis vollzieht sich in drei Schritten:
68
5 DER BEOBACHTUNGSRAUM C(Z)
1. Aus der Cauchy-Eigenschaft der Folge (fn ) folgt die Existenz eines punktweisen
Grenzwertes f .
2. Es wird gezeigt, daß f stetig ist. Dazu wird die Differenz zweier Funktionswerte in
vier Summanden zerlegt, die aus verschiednene Gründen klein werden:
f (z1 ) − f (z2 ) ≤ f (z1 ) − fn1 (z2 )
klein wegen punktweiser Konvergenz
+ fn1 (z1 ) − fn2 (z1 ) klein wegen Cauchy-Eigenschaft
+ fn2 (z1 ) − fn2 (z2) klein wegen Stetigkeit
+ fn2 (z2 ) − f (z2 )
klein wegen punktweiser Konvergenz
3. Es wird gezeigt, daß fn −
→ f in der Norm konvergiert.
• Konvergenz = Folgenkonvergenz
• ÜA 8: Beweise explizit, daß auf C([0, 1]) die Funktionenfolge fn (z) = z n keine Cauchyfolge
ist.
Beweis: Wir konstruieren eine Teilfolge, die nicht gleichmäßig konvergiert. Es sei n > m
und gmn (z) = z m − z n . Diese Funktion hat auf [0, 1] ihr Maximum bei z0 mit mz0m−1 =
nz0n−1 oder z0 = (m/n)1/(n−m) . An dieser Stelle ist gmn (z0 ) = (m/n)m/(n−m) −(m/n)n/(n−m) .
Wählt man jetzt n = 2m, ergibt sich gm,2m (z0 ) = (1/2)1 − (1/2)2 = 1/4. Diese Folge konvergiert nicht gegen 0.
5.2
C(Z) ist Banachalgebra
Ein linearer Raum wird zu einer (kommutativen) Algebra, wenn in ihm eine (kommutative)
Multiplikation definiert ist. Gibt es ein neutrales Element bezüglich dieser Multiplikation, so
heißt die Algebra “Algebra mit Eins”.
Ein Banachraum wird zu einer (kommutativen) Banachalgebra, wenn in ihm eine (kommutative) Multiplikation definiert ist, bezüglich der die Norm submultiplikativ ist.
• Wir definieren eine Multiplikation f · g in C(Z) durch (f · g)(z) = f (z) · g(z) (punktweise
Multiplikation).
• Da das Produkt stetiger Funktionen wieder stetig ist, ist C(Z) abgeschlossen bezüglich
dieser Operation. Das macht C(Z) zu einer kommutativen Algebra.
• Die Multiplikation ist submultiplikativ, d.h. es gilt kf · gk ≤ kf k kgk. Daher ist C(Z) eine
Banachalgebra.
• Da 1 ∈ C und 1 · f = f , ist C(Z) eine Banachalgebra mit Eins.
5.3 Mathematische Grundlagen: Verbände, Rieszräume
5.3
5.3.1
69
Mathematische Grundlagen: Verbände, Rieszräume
Geordnete Mengen
Eine Menge heißt geordnet, wenn zwischen einigen ihrer Elemente eine Ordnungsrelation ≤
definiert ist. Diese Ordnungsrelation läßt sich mit verschiedener Schärfe definieren.
Eine Ordnungsrelation ϕ ist eine Teilmenge der Produktmenge X × X mit folgenden Eigenschaften:
1.
2.
3.
4.
5.
Für alle x ∈ X gilt (x, x) ∈ ϕ. (Reflexivität)
(x, y) ∈ ϕ, (y, z) ∈ ϕ =⇒ (x, z) ∈ ϕ (Transitivität)
(x, y) ∈ ϕ, (y, x) ∈ ϕ =⇒ x = y (Antisymmetrie)
∀ x, y ∈ X gilt (x, y) ∈ ϕ oder (y, x) ∈ ϕ (Totalität)
∀X: ∅=
6 X ⊆ X ∃ x ∈ X : x ≤ x′ , ∀ x′ ∈ X
Der Zusammenhang zur üblichen Ordnungsrelation besteht in (x, y) ∈ ϕ ⇐⇒ x ≤ y. Eine
Menge X mit einer Ordnungsrelation ≤ ist eine geordnete Menge und wird mit (X, ≤) bezeichnet. Ohne Totalität heißt eine Ordnung Halbordnung.
Je nachdem, welche Bedingungen erfüllt sind, heißt X
•
•
•
•
teilgeordnet, wenn 1) und 2)
geordnet, wenn 1), 2) und 3)
total geordnet, wenn 1), 2), 3) und 4)
linear geordnet, wenn 1), 2), 3) und 4) (äquivalent zu total geordnet, intuitiver, aber
weniger gebräuchlich)
• wohl geordnet, wenn 1), 2), 3), 4) und 5)
Uns interessieren im Weiteren nur die reellen Zahlen (linear geordnet) und punktweise geordnete
Mengen von Funktionen (geordnet oder halbgeordnet). Für letztere sind nur die Eigenschaften
1), 2) und 3) von Interesse.
Im Gegensatz zu Ordnungsrelationen werden für eine Äquivalenzrelation die Eigenschaften 1)
und 2) und anstelle der Eigenschaft 3) die Eigenschaft 3’) (x, y) ∈ ϕ =⇒ (y, x) ∈ ϕ (Symmetrie),
gefordert. Das führt dazu, daß eine Ordnungsrelation die Menge X zusammenhält, wogegen
eine Äquivalenzrelation die Menge X zerfallen läßt. Macht man aus einer Ordnungsrelation ϕ
eine Äquivalenzrelation durch symmetrisieren: (x, y) ∈ ϕ =⇒ (y, x) ∈ ϕ, dann stimmen die
Äquivalenzklassen mit Ketten überein.
Eine Majorante bezüglich der Teilmenge X ∈ P(X) ist ein Element x ∈ X, für das gilt x′ ≤ x,
∀ x′ ∈ X.
Das Supremum einer Teilmenge X ∈ P(X) ist eine Majorante x+ ∈ X, für die gilt x+ ≤ x für
alle Majoranten x von X. x+ = sup X.
x+ = sup X ⇐⇒ (∀ x ∈ X : x ≤ x+ ) und (∀ x ∈ X : x ≤ x′ =⇒ x+ ≤ x′ )
In einem geordneten Raum (im Gegensatz zum teilgeordneten) ist das Supremum einer Teilmenge eindeutig, falls es existiert. ◮Es sei x1 = sup X und x2 = sup X. Dann gilt nach Definition
für alle x ∈ X: x ≤ x1 und x ≤ x2 . Betrachtet man x1 als Supremum und x2 als x′ in der
Definition, muß also x1 ≤ x2 gelten. Im umgekehrten Fall x2 ≤ x1 . Da der Raum geordnet ist,
folgt x1 = x2 . ◭
Analog werden Minorante und Infimum definiert, wobei das Infimum im geordneten Raum
eindeutig bestimmt ist (falls es existiert).
Die fehlende Eindeutigkeit des Infimum und Supremum machen den teilgeordenten Raum uninteressant.
70
5 DER BEOBACHTUNGSRAUM C(Z)
5.3.2
Boolesche Algebren und Boolesche Ringe
Eine Boolesche Algebra B = (X, ∨, ∧,′ , 00, 1) ist eine nichtleere Menge mit zwei binären und
einer unitären Operation und zwei neutralen Elementen, die gewissen Axiomen genügen. Es ist
sinnvoll, sich parallel dazu die Mengenoperationen als Beispiel vorzustellen. Ist Z eine Menge,
dann bildet die Potenzmenge mit den bekannten Mengenoperationen eine Boolesche Algebra:
B(2Z , ∪, ∩,′ , ∅, Z). Hier ist A′ = Z \ A das Komplement. Die Operationen werden deshalb auch
Vereinigung, Durchschnitt, Komplement genannt.
Es sollen folgende Axiome gelten:
•
•
•
•
Kommutativität: x ∧ y = y ∧ x, x ∨ y = y ∨ x
Neutralität: x ∨ 00 = x, x ∧ 1 = x
Distributivität: x ∨ (y ∧ z) = (x ∨ y) ∧ (x ∨ z), x ∧ (y ∨ z) = (x ∧ y) ∨ (x ∧ z)
Komplement: x ∨ x′ = 1, x ∧ x′ = 00
Dieses Axiomensystem ist selbstdual. Die Axiome gehen ineienadnre über, wenn man ∨ ⇐⇒ ∧
und 1 ⇐⇒ 00 vertauscht. Aus diesem Grund gibt es auch immer ein Paar Sätze, von denen man
nur einen zu beweisen braucht.
Aus diesen Axiomen folgen weitere Eigenschaften:
• Assoziativität: x ∨ (y ∨ z) = (x ∨ y) ∨ z, x ∧ (y ∧ z) = (x ∧ y) ∧ z
• Absorptionsgesetze: x ∨ (x ∧ y) = x, x ∧ (x ∨ y) = x
Ein Ring R = (X, +, ·, 1) heißt Boolescher Ring, wenn er eine 1 enthält und wenn x2 = x für
alle x ∈ X gilt.
Die Definitionen von Booleschen Algebren und Booleschen Ringe erscheinen auf den ersten
Blck nichts miteinander zu tun zu haben. Tatsächlich besteht zwischen beiden Klassen einen
Bijektion, die durch folgende Zusammenhänge vermittelt wird:
Angenommen, wir haben eine Boolesche Algebra gegeben, dann können wir die Operationen in
einem Booleschen Ring folgendermaßen definieren:
x + y := (x ∧ y ′) ∨ (x′ ∧ y)
x · y := x ∧ y
(15)
(16)
Angenommen, wir haben einen Booleschen Ring gegeben, dann können wir die Operationen in
einer Booleschen Algebra folgendermaßen definieren:
x∧y
x∨y
x′
00
:=
:=
:=
:=
x·y
x + y+x · y
1+x
1′
(17)
(18)
(19)
(20)
ÜA 9a: Beweise, daß durch (15)–(16) ein Boolescher Ring definiert wird.
ÜA 9b: Beweise, daß durch (17)–(20) eine Boolesche Algebra definiert wird.
ÜA 9c: Beweise, daß durch (17)–(20), wenn man + durch − ersetzt, eine Boolesche Algebra
definiert wird.
Ein – neben der Potenzfunktion und den Mengenoperationen – weiteres Beispiel für eine Boolesche Algebra könnte C(Z) sein, wenn man ∧ = inf und ∨ = sup setzt. Dann ist 00 = −∞ und
1 = +∞. Allerdings gibt es kein Komplement. Es gibt kein g ′ mit sup(g, g ′) = +∞.
5.3 Mathematische Grundlagen: Verbände, Rieszräume
5.3.3
71
Verbände
In einer linear geordnete Menge umfaßt die Ordnungsrelation alle Elemente der Menge. Eine
(Teil-)Ordnungsrelation kann man für eine beliebige Teilmenge einer Menge definieren. Oft
ist es aber sinnvoll, wenn die Menge eine gewisse Mindestgröße hat und z.B. ausreichend viele
Suprema und Infima enthält. Zu diesem Zweck kann man in Mengen algebraische Operationenen
definieren bezüglich derer die Menge abgeschlossen ist und die mit der Ordnungsrelation im
Zusammenhang steht. Eine solche Struktur ist eine Verbandsstruktur.
Ein Verband V (es sei x, y, z ∈ V) ist eine Menge mit zwei Operationen ∨ und ∧, die kommutativ
x ∧ y = y ∧ x, x ∨ y = y ∨ x
und assoziativ
x ∧ (y ∧ z) = (x ∧ y) ∧ z, x ∨ (y ∨ z) = (x ∨ y) ∨ z
sind und außerdem noch sogenannte Absorptionsgesetze
• x ∨ (x ∧ y) = x
• x ∧ (x ∨ y) = x
erfüllen.
Der Zusammenhang mit einer Halbordnung ist folgender:
x ≤ y ⇐⇒ x ∧ y = x ⇐⇒ x ∨ y = y
Das ist so zu verstehen:
Falls eine Verbandsstruktur definiert ist, definieren wir x ≤ y falls x ∧ y = x gilt (der Ausdruck
x ∨ y = y folgt aus den Absorptionsgesetzen).
Falls eine Ordnungsstruktur definiert ist, definieren wir x ∨ y = sup{x, y}, x ∧ y = inf{x, y}.
Es läßt sich leicht nachprüfen, daß die geforderten Gesetze erfüllt sind.
ÜA 10: Beweise diesen Zusammenhang.
Eine geordnete Menge ist somit ein Verband, wenn eine zweielementige Menge (und damit folgt
induktiv die Eigenschaft für beliebige endliche Mengen) ein Supremum und ein Infimum hat.
In diesem Sinn ist die Ordnungsrelation in einem Verband abgeschlossen.
Wir interessieren uns im weiteren vor allem für Räume von Funktionen in die reellen Zahlen,
bei denen die Ordnungsstruktur die von den reellen Zahlen induzierte punktweise Ordnung ist.
sup und inf sind dann die punktweisen Extrema.
Zusätzlich kann man Distributivgesetze fordern
x ∨ (y ∧ z) = (x ∨ y) ∧ (x ∨ z)
x ∧ (y ∨ z) = (x ∧ y) ∨ (x ∧ z)
dann heißt der Verband distributiver Verband. Wir werden im weiteren stets distributive
Verbände betrachten.
Eigenschaften:
• Es gilt (Idempotenz) x ∧ x = x, x ∨ x = x.
• Falls es ein kleinstes Element in der Menge gibt (genannt 00), dann ist es bezüglich ∨
neutral. Es gilt x ∨ 00 = x und x ∧ 00 = 00.
72
5 DER BEOBACHTUNGSRAUM C(Z)
• Falls es ein größtes Element in der Menge gibt (genannt 1), dann ist es bezüglich ∧
neutral. Es gilt x ∧ 1 = x und x ∨ 1 = 1.
• Ein Element x heißt Komplement zu x, falls x∨x = 1 und x∧x = 00. Das Komplement muß
nicht einzig sein. Ein Verband heißt beschränkt, falls es zu jedem Element ein Komplement
gibt.
• In einem beschränkte, distributiven Verband ist das Komplement einzig.
Manchmal ist des sinnvoll, neutrale Elemente künstlich einzuführen, obwohl sie eigenlich nicht
zur Menge gehören und mit den anderen Strukturen in der Menge nicht verträglich sind. Wir
nennen solche Elemente −∞ (das kleinste Element) und +∞ (das größte Element).
Es kann sein, daß in einem Verband eine weitere Operation ⊕ definiert ist, die mit den Verbandsoperationen in folgendem Zusammenhang steht
(x ∨ y) ⊕ (x ∧ y) = x ⊕ y = (x ∨ 00) ⊕ (y ∧ 1)
(21)
Dieser Zusammenhang heißt Satz von Sylvester oder Inklusions-Exklusions-Prinzip oder Siebverfahren. In der folgenden Tabelle sind einige Beispiele aufgeführt. Sie zeigen außerdem alle
interessanten Objekte in speziellen Verbänden.
Verband (x ∨ y) ⊕ (x ∧ y)
Menge
(A ∪ B) ⊔ (A ∩ B)
N>0
[x, y]
·
(x, y)
C
sup(x, y) + inf(x, y)
=
=
=
=
x⊕y
A⊔B
x · y
x+y
=
(x ∨ 00)
⊕
(y ∧ 1)
=
(A ∪ ∅)
⊔
(B ∩ Z)
=
[x, 1]
·
(y, 0)
= sup(x, −∞) + inf(y, +∞)
Das Symbol ⊔ bedeutet die “disjunkte Vereinigung”. Sie entspricht der üblichen Vereinigung,
falls die Mengen disjukt sind und erzeugt Kopien der Elemente, die in beiden Mengen vertreten
sind. So ist {x, y} ⊔ {x, z} = {x1 , x2 , y, z}. Die disjunkte Vereinigung wird verwendet, wenn
spezielle Operationen, wie z.B. die Kardinalität oder das Maß additiv sein sollen. Es ist |A∪B| ≤
|A| + |B| aber |A ⊔ B| = |A| + |B|. Als Gesamtmenge ist dann anstelle von Z die Menge N · Z.
Formel (21) läßt sich auf endlich viele Objekte verallgemeinern und hat im Falle dreier Objekte
die Form
(x ∨ y ∨ z) ⊕ (x ∧ y) ⊕ (y ∧ z) ⊕ (z ∧ x) = x ⊕ y ⊕ z ⊕ (x ∧ y ∧ z)
Analog gibt es eine Variante für n Objekte (geschrieben für Mengenoperationen):
n
n
n
n
n
\
X
[
X
X
n+1 A
A
=
|A
|
−
|A
∩
A
|
+
|A
∩
A
∩
A
|
−
+...(−1)
i
i
i
i
j
i
j
k
i=1
i=1
i<j
i<j<k
i=1
ÜA 11: Die Euler-ϕ-Funktion gibt für jede natürliche Zahl n an, wie viele zu n teilerfremde
natürliche Zahlen es gibt, die nicht größer als n sind.
ϕ(n) := {a ∈ N | 1 ≤ a ≤ n ∧ ggT(a, n) = 1}
Beweise:
ϕ(n) =
Y
p|n
p
kp −1
(p − 1) = n
Y
p|n
1
1−
p
5.3 Mathematische Grundlagen: Verbände, Rieszräume
5.3.4
73
Riesz-Räume
Ein linearer Raum mit Ordnungsstruktur, der auch ein Verband ist (d.h. sup und inf zweier
Elemente müssen im Raum liegen) heißt Riesz-Raum, wenn folgende Verträglichkeitsbedingungen gelten:
• Für alle f, g, h ∈ X gilt: f ≤ g ⇒ f + h ≤ g + h
• Für alle f, g ∈ X und a ∈ R+ gilt: f ≤ g ⇒ a · f ≤ a · g
In einem Riesz-Raum kann man positiven Teil, negativen Teil und den Betrag eines Elementes
definieren:
• x+ = x ∨ 0
• x− = (−x) ∨ 0 = −(x ∧ 0)
• |x| = x+ + x− = x ∨ (−x)
Für x, y, z ∈ X und α ∈ R gelten folgende Rechenregeln:
•
•
•
•
•
•
•
•
•
•
•
•
•
(x + z) ∨ (y + z) = (x ∨ y) + z
(x + z) ∧ (y + z) = (x ∧ y) + z
(αx) ∨ (αy) = a(x ∨ y)
(αx) ∧ (αy) = α(x ∧ y)
(−x) ∨ (−y) = −(x ∧ y)
(−x) ∧ (−y) = −(x ∨ y)
x ∨ y = 21 (x + y + |x − y|)
x ∧ y = 21 (x + y − |x − y|)
(x ∨ y) + (x ∧ y) = x + y
(x ∨ y) − (x ∧ y) = |x − y|
(x ∨ y) ∧ z = (x ∧ z) ∨ (y ∧ z)
(x ∧ y) ∨ z = (x ∨ z) ∧ (y ∨ z)
x = x ∧ y + 0 ∨ (x − y)
ÜA 12: Beweise die (nichtoffensichtlichen) Rechengesetze.
Die Menge X+ = {x ∈ X|x ≥ 0} heißt positiver Kegel.
Man kann – umgekehrt – eine Ordnung mithilfe eines Kegels definieren: Ein Kegel C ⊂ X ist
eine Teilmenge eines lin. Raumes, die neben x auch alle λx mit λ ≥ 0 enthält. Es ist f ≥ g falls
f − g ∈ C.
5.3.5
Normierte Riesz-Räume. Banachverbände
Ist der Riesz-Raum ein normierter Raum und die Norm erfüllt die Verträglichkeitsbedingung
|x| ≤ |y| =⇒ kxk ≤ kyk
so heißt die Norm Riesznorm. Hieraus folgt, daß Elemente mit selbem Betrag – insbsondere
x und |x| – dieselbe Norm haben.
ÜA 13: Beweise folgende Ungleichungen:
kx ∧ z − y ∧ zk ≤ kx − yk
kx ∨ z − y ∨ zk ≤ kx − yk
Ein Riesz-Raum mit Riesznorm, der vollständig ist, heißt Banach-Verband.
74
5 DER BEOBACHTUNGSRAUM C(Z)
5.3.6
AM- und AL-Räume
Üblicherweise wird bei der Definition der Norm in Funktionenräumen (z.B. der sup-Norm in
C) explizit verwendet, daß die Elemente Funktionen sind. Riesz-Räume sind abstrakte lineare
Räume, deren Elemente nicht Funktionen auf einer Menge sein müssen. Trotzdem lassen sie
sich häufig normieren. Sinnvoll ist es natürlich, wenn die Norm mit der Ordnung in Einklang
steht. Das erreicht man, wenn man die Norm mit Hilfe der Ordnung definiert. So eine Norm
heißt Ordnungsnorm.
In Rieszräumen gibt es dazu zwei ganz besondere Normen.
Ein positives Element 1 ∈ V+ heißt Einheit (oder Einheit bezüglich der Ordnung oder Ordnungseinheit um sie von einer algebraischen Einheit zu unterscheiden), wenn für alle f ∈ V ein
λ ∈ R+ mit −λ1 ≤ f ≤ λ1 existiert. Sind die Elemente von V Funktionen und ist V+ der Kegel
der positiven Funktionen, dann kann jede Funktion, die keine Nullstelle hat, eine Einheit sein.
Mit Hilfe der Einheit kann man Extrema und Norm (genannt Riesz-Norm) definieren. Es seien
gmax = inf{λ : λ1 ≥ g}
gmin = sup{λ : λ1 ≤ g}
die obere und untere Grenze von g und
kgk = inf{λ : λ1 ≥ |g|} = inf{λ : −λ1 ≤ g ≤ λ1}
die Norm. (Es läßt sich leicht zeigen, daß das tatsächlich eine Norm ist.)
Es gelten folgende Eigenschaften:
• k 1k = 1
• Aus der Norm-Konvergenz folgt die Ordnungs-Konvergenz
• Die folgende Eigenschaft verbindet die Norm mit der Ordnung:
ka − bk ≤ ε ⇐⇒ b − ε1 ≤ a ≤ b + ε1
Die Norm hat eine besondeer Eigenschaft. Sie läßt sich mit dem Supremum vertauschen:
ka ∨ bk = max{kak, kbk}, a, b ∈ V+
Das ist auch die Definition eines AM-Raumes (ein normierter Riesz-Raum mit dieser Eigenschaft heißt AM-Raum).
Es gibt eine weitere ausgezeichnete Norm in Rieszräumen. Ein normierter Riesz-Raum, dessen
Norm sich mit der Addition vertauschen läßt
ka + bk = kak + kbk, a, b ∈ V+
heißt AL-Raum. Es wird sich herausstellen, daß AM- und AL-Räume in einem besonderen
Verhältnis zueinander stehen.
5.4 C(Z) ist Banachverband
5.4
75
C(Z) ist Banachverband
Wir zeigen im Weiteren, daß C(Z) ist Banachverband ist und daß die übliche sup-Norm und die
Ordnungsnorm inihm identisch sind, wenn als Ordnungseinheit die algebraische Einheit gewählt
wird.
• Definition der Ordnung: f ≤ g ⇐⇒ f (z) ≤ g(z), z ∈ Z
• Der positive Kegel C+ sind die positiven Funktionen.
• Definition der Verbandsoperationen:
(f ∨ g)(z) = max{f (z), g(z)}, (f ∧ g)(z) = min{f (z), g(z)}
• Da f ∨ g und f ∧ g stetige Funktionen sind, ist C(Z) ein Riesz-Raum.
• Wie üblich definieren wir g+ = sup{g, 0}, g− = sup{−g, 0}, |g| = g+ + g− .
• Wegen |f | ≤ |g| =⇒ kf k ≤ kgk ist C(Z) Banachverband.
• Da alle stetigen Funktionen beschränkt sind, kann man 1 (die algebraische Einheit) als
Ordnungseinheit wählen. Es ist
gmax = inf{λ : λ1 ≥ g}
gmin = sup{λ : λ1 ≤ g}
• Es sei kgks die Supremumsnorm und kgko die Ordnungsnorm. Es gilt kgks = kgko.
ÜA 14: Beweise das.
77
6
Der Raum der statistischen Zustände P(Z)
Der Raum C∗ ist der abstrakte Raum der beschränkten linearen Funktionale auf C. Als dualer
Raum eines Banachverbandes ist C∗ wieder ein Banachverband mit der kanonischen Norm
und Ordnung. Nach dem Satz von Riesz ist C∗ imomorph zum Raum der Radonmaße auf der
Borelalgebra B(Z), die von den offenen Mengen in Z generiert wird.
6.1
Mathematische Grundlagen: Lineare Dualitätstheorie
Es sei (X, ≤) ein Banachverband mit Eins 1 der Ordnunsnorm k · k bezüglich derer (X, ≤) ein
AM-Raum ist. Wir untersuchen hier die Eigenschaften seines dualen Raumes.
6.1.1
Duale Räume
Es sei
X∗ =
n
o
x∗ : X −
→ R x∗ (ax + by) = ax∗ (x) + bx∗ (y), sup |x∗ (x)| < ∞, ∀x ∈ X
kxk≤1
die Menge aller beschränkten linearen Funktionale auf X. Die x∗ sind als lineare bschränkte
Abbildungen zwischen topologischen Räumen stetig.
Wir schreiben im weiteren x∗ (x) = hx∗ , xi = hx, x∗ i und nennen das duale Paarung oder duales
Produkt.
• Lineare beschränkte Funktionale sind stetige Abbildungen. (Zum Beweis siehe Stetigkeit
linearer beschränkter Operatoren).
• X∗ wird durch die Norm: kx∗ kX∗ = supkxk≤1 |hx∗ , xi| ein normierter Raum.
• X∗ ist ein Banachraum. Beweis der Vollständigkeit: Es sei (x∗n ) eine Cauchyfolge, d.h.,
für alle ε existieren n, m ≥ N(ε) mit kx∗n − x∗m k < ε. Aus
|hx, x∗n i − hx, x∗m i| = |hx, x∗n − x∗m i| ≤ kx∗n − x∗m k · kxk ≤ εkxk
folgt, daß die Folge (hx, x∗n i) eine Cauchyfolge reeller Zahlen ist. Da R vollständig ist,
existiert ein Grenzwert h(x) = lim hx, x∗n i. h(x) ist ein lineares beschränktes Funktional.
n→∞
Es existiert also ein x∗ mit h(x) = hx, x∗ i. Läßt man in der obigen Ungleichung m −
→∞
gehen, folgt
|hx, x∗n i − hx, x∗ i| = |hx, x∗n − x∗ i| ≤ εkxk
Betrachtet man nur x mit kxk = 1, erhält man
kx∗n − x∗ k = sup |hx∗n − x∗ , xi| ≤ ε
kxk≤1
• Es gilt die Hölderungleichung: |hx∗ , xi| ≤ kx∗ k · kxk
• Es gilt kxk = supkx∗ k≤1 |hx∗ , xi|. Die Ungleichung ≥ folgt aus der Hölderungleichung. Die
Existenz eines scharfen x∗ folgt aus dem Satz von Hahn-Banach. Im separablen Raum
(z.B. wenn X = C(Z) mit kompaktem, metrisierbarem Z) ist der Beweis des Satz von
Hahn-Banach ohne Auswahlaxiom möglich. In diesem Fall kann man ein scharfes x∗ konstruieren. Es ist z.B. x∗ ?δz , wobei z der Punkt ist, indem das Maximum angenommen
wird.
78
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
6.1.2
Die duale Ordnung
Ist X ein Verband mit Ordnungsrelation und positivem Kegel X+ , wird auch in X∗ eine Ordnungsrelation durch
x∗ ≤ y ∗ ⇐⇒ hx, x∗ i ≤ hx, y ∗ i, ∀x ∈ X+
induziert. Das entspricht der Definition der Positivität: Eine lineare Abbildung ist positiv, wenn
sie auf positiven Argumenten positive Werte annimmt:
x∗ ≥ 0 ⇐⇒ hx, x∗ i ≥ 0, ∀x ∈ X+
In C wurde die Ordnung punktweise definiert. Das ist in einem linearen Raum nicht sinnvoll,
da hx, x∗ i und −hx, x∗ i verschiedene Vorzeichen haben.
Satz: Es ist x∗ ≤ y ∗ ⇐⇒ hx, x∗ i ≤ hx, y ∗i, ∀x ∈ C[0,1] .
Beweis: Die =⇒ Richtung ist offensichtlich. Zum Beweis der Umkehrung nehmen wir an, daß
x∗ ≤ y ∗, es aber ein x ∈ C+ existiert, sodaß hx, x∗ i > hx, y ∗i. Dann ist aber auch hx/xmin , x∗ i >
hx/xmin , y ∗i aber x/xmin ∈ C[0,1] .
Für positive Elemente x∗ ∈ X∗+ läßt sich die Norm vereinfacht berechnen, wenn X ein AM-Raum
ist:
kx∗ k =
sup |hx, x∗ i| = sup hx, x∗ i =
kxk≤1
x∈C[0,1]
sup
kxk≤1,x∈X+
hx, x∗ i = h1, x∗ i
Beweis: Der Beweis folgt aus der Ungleichungskette
|hx∗ , xi| = |hx∗ , x+ i − hx∗ , x− i| ≤ |hx∗ , x+ i| + |hx∗ , x− i| = hx∗ , x+ i + hx∗ , x− i = hx∗ , |x|i
Hieraus folgt
kx∗ k =
sup |hx, x∗ i| ≤ sup |h|x|, x∗ i| = sup h|x|, x∗ i ≤ h1, x∗ i
kxk≤1
kxk≤1
kxk≤1
weil im AM-Raum |x| ≤ 1. Andererseits ist 1 in der ursprünglichen Menge, über der das
Supremum gebildet wird enthalten. Folglich gilt Gleichheit.
Hieraus folgt für x∗ , y ∗ ∈ X∗+ die Beziehung kx∗ + y ∗k = h1, x∗ + y ∗ i = h1, x∗ i + h1, y ∗i =
kx∗ k + ky ∗k. X∗ ist also ein AL-Raum.
Ein alternativer Beweis, der nicht die Existenz einer 1 voraussetzt, ist folgender
Satz: Ist X ein AM-Raum, dann ist X∗ ein AL-Raum.
Beweis: Wir zeigen, daß für alle ε > 0 und alle x∗ , y ∗ ∈ X∗+ gilt: kx∗ + y ∗ k ≥ kx∗ k + ky ∗ k − 2ε.
Aus der Definition der Norm in X∗ über das Supremum folgt, daß es für alle ε > 0 solche
x, y ∈ X mit kxk = kyk = 1 gibt, daß hx, x∗ i ≥ kx∗ k − ε und hy, y ∗i ≥ ky ∗ k − ε. Es sei z = x ∨ y.
Dann ist kzk = kx ∨ yk = max{kxk, kyk} = 1
kx∗ + y ∗k ≥ hz, x∗ + y ∗ i = hz, x∗ i + hz, y ∗ i ≥ hx, x∗ i + hy, y ∗i ≥ kx∗ k + ky ∗k − 2ε
Wegen hx, x∗ i = hx+ , x∗ i − hx− , x∗ i reicht für die Definition eines Funktionals x∗ ∈ X∗ seine
Definition auf positiven Elementen x ∈ X+ .
6.1 Mathematische Grundlagen: Lineare Dualitätstheorie
79
Weiter läßt sich beweisen, daß X∗ ein Banachverband ist, wenn man sup und inf folgendermaßen
definiert. Für x ∈ X+ sei
hx1 ∨ x2 , xi =
sup
hx1 , xi + hx2 , xi
x1 ,x2 ≥0,x1 +x2 =x
hx1 ∧ x2 , xi =
inf
hx1 , xi + hx2 , xi
x1 ,x2 ≥0,x1 +x2 =x
Das ist für uns nicht wichtig, da wir uns nur für eine Teilmenge von X∗ interesieren werden, die
nicht abgeschlossen bezüglich dieser Operationen ist.
6.1.3
Der Rieszsche Darstellungssatz
Oft ist es interessant und wichtigg, zu einem konkreten Raum X den dualen Raum X∗ zu
beschreiben und eine konkrete Darstellung für die duale Paarung zu besitzen, mit der man
“rechnen” kann.
Da wir uns nur für Räume der Form C(Z) mit kompaktem Z interessieren, wäre interessant,
eine Darstellung von C∗ (Z) zu finden. Tatsächlich gibt der Darstellungssatz von Riesz dazu eine
erschöpfende Antwort und zeigt einen Zusammenhang zwischen Maßen auf Z und Funktionalen auf C(Z), der intuitiv verständlich macht, daß Elemente aus C∗ (Z) als extensive Größen
aufgefaßt werden können.
Ausführliche Beschreibung siehe Abschnitt 6.6 auf Seite 93.
80
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
6.1.4
Die positive Einheitskugel
Im AM-Raum ist die positive Einheitskugel von Interesse. Im AL-Raum die sogenannte Base:
o
n
P = x∗ ∈ X∗+ | h1, x∗ i = 1
Diese Menge ist offensichtlich konvex und abgeschlossen.
Außerdem ist es sinnvoll, die Menge der mittelnden Funktionale zu definieren. Es sei das
n
o
P1 = x∗ ∈ X∗ | xmin ≤ hx, x∗ i ≤ xmax , x ∈ X
In P1 liegen alle die Funktionale, die – gepaart mit beliebigen Elementen aus X (nicht nur
positiven!) – Werte aus dem Wertebereich ergeben. Diese Menge kann man als physikalisch
real interpretieren. Das Ergebnis einer Beobachtung kann nicht außerhalb des Wertebereiches
liegen.
Es gilt folgender einfacher, aber wichtiger
Satz: P = P1 .
Beweis: 1) Es sei x∗ ∈ P1 . Wir setzen x = 1 und erhalten wegen 1min = 1max = 1: h1, x∗ i = 1.
Für alle x ≥ 0 ist xmin = sup{λ|x ≥ λ1} ≥ 0 (da in dieser Menge λ = 0 offensichtlich enthalten
ist) und damit hx, x∗ i ≥ 0. Also ist x∗ ∈ X∗+ und damit ist x∗ ∈ P.
2) Es sei x∗ ∈ P. Für alle x ∈ X ist x ≥ xmin 1. Damit folgt weil x∗ ∈ X∗+
0 ≤ hx − xmin 1, x∗ i = hx, x∗ i − hxmin 1, x∗ i = hx, x∗ i − xmin h1, x∗ i = hx, x∗ i − xmin
Hieraus folgt xmin ≤ hx, x∗ i. Die Ungleichung hx, x∗ i ≤ xmax beweist man analog mit dem
Element xmax 1 − x ∈ X∗+ .
Weiter sei Pe = ∂e P die Menge der extremalen Elemente von P.
Als nächstes muß geklärt werden, was Pe mit Z zu tun hat und in welchem Sinn (und ob
überhaupt) P die konvexe Hülle von Pe ist. Ziel war es, Sätze zu erhalten, die etwa folgendes
aussagen:
Pe = Z
P = conv extr P = conv Pe
Da Z als kompakt vorausgesetzt war, sollte Pe oder besser P kompakt sein. In diesem Zusammenhnag gibt es zwei wichtige Sätze:
Satz: Die Einheitskugel im Banachraum ist genau dann kompakt, wenn der Raum endlichdimensional ist.
Bemerkung: Diese Aussage gilt nicht nur für die Einheitskugel sondern auch für den Schnitt
der Einheitssphäre mit dem positiven Kegel, also für P.
Satz (Krein-Milman): Es sei K kompakt und konvex. Dann ist K = conv extr K .
Der Satz von Krein-Milman liefert genau die Aussage, die wir für P gern hätten (der Abschluß
der konvexen Hülle ist in derselben Topologie zu wählen, in der K kompakt ist!). Der vorhergehende Satz sagt aber, daß die starke Topologie dafür ungeeignet ist. Wir müssen also eine
Topologie für P finden, in der P kompakt ist.
81
6.2 Beispiel: endlich dimensionale Räume
6.2
Beispiel: endlich dimensionale Räume
Wir stellen hier ein paar Aussagen über verschiedene Normen in endlich dimensionalen Räumen
vor. Sie dienen vor allem einem besseren Verständnis des Zusammenhangs der fundamentalen
Räume C und C∗ mit AM- bzw. AL-Normen und von C abgeleitenen Räumen wie Lp -Räumen
und Hilberträumen.
Analoge Aussagen gelten für Folgenräume und andere unendlichdimensionalen Räume.
6.2.1
Ungleichungen zwischen Mitteln
Es seien x = (x1 , ..., xn ) ≥ 0, α = (α1 , ..., αn ) ≥ 0, α1 + ... + αn = 1 gegebene Vektoren im Rn
(zu verstehen als linearer Raum ohne festgelegte Norm). Weiter sei f : R+ −
→ R+ stetig, streng
monoton wachsend mit f (0) = 0.
Wir definieren drei Funktionen
St (x) =
Xn
xti
i=1
Xn
Mf (x, α) = f −1
Xn
Mt (x, α) =
i=1
1t
, t>0
αi f (xi )
i=1
1
t t
αi xi
, t>0
Offensichtlich ist Mt = Mf für f (x) = xt .
Mt und St lassen sich auf t < 0 für strikt positive Vektoren verallgemeinern (es sei 1/x =
(1/x1 , ..., 1/xn ):
St (x) = 1/S−t (1/x) , Mt (x, α) = 1/M−t (1/x, α) , t < 0
Die definierten Funktionen haben folgende Eigenschaften
• ∃! x∗ : Mf (x) = x∗ , d.h. f (x∗ ) =
P
αi f (xi ),
P
αi f (xi ) − f (x∗ ) = 0.
• Mf (λx) = λMf (x) =⇒ Mf = Mt .
• Mf (x) ≤ Mg (x) ⇐⇒ F = g ◦ f −1 ist konvex, d.h. g ist konvex bezüglich f .
• min x ≤ Ms (x) ≤ Mt (x) ≤ max x ⇐⇒ s ≤ t
• Spezialfälle: M1 = AM, M2 = QM, M−1 = HM, M0 = GM, M−∞ = min, M∞ = max
• min x ≥ Ss (x) ≥ St (x) ⇐⇒ s ≤ t ≤ 0
• Ss (x) ≥ St (x) ≥ max x ⇐⇒ 0 ≤ s ≤ t
Des weiteren
Pm hat St folgende Konvexitätseigenschaften (hier sind die ti gegebene reelle Zahlen
mit t0 = i=1 αi ti ):
Q
αi ti
• t log St (x) ist konvex in t =⇒ St0 ≤ m
i=1 Sti
Q
αi
• log St (x) ist konvex in t =⇒ St0 ≤ m
i=1 Sti
P
• St (x) ist konvex für t > 0 =⇒ St0 ≤ m
i=1 αi Sti
82
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
Ausgehend von diesen Funktionen lassen sich Normen im Rn definieren:
kxkc
kxkc∗
kxklp
kxklp (α)
=
=
=
=
S∞ (|x|)
S1 (|x|)
Sp (|x|) , 1 < p < ∞
Mp (|x|, α) , 1 ≤ p < ∞
Alle diese Normen machen aus Rn einen normierten Raum. Da er endlichdimensional ist, sind
alle Normen äquivalent und damit alle normierten Räume isomorph aber eben nicht isometrisch.
6.2.2
Einige Übungsaufgaben
Außerdem seien ∞ ≥ p, q ≥ 1 reelle Zahlen mit 1/p + 1/q = 1 (wir setzen 1/∞ = 0). In diesem
Zusammenhang stehen folgende Aufgaben:
ÜA 15 a) Beweise d/dt St (x) ≤ 0, t > 0 und t < 0
ÜA 15 b) Berechne limt→+0 St (x), limt→−0 St (x), limt→∞ St (x), limt→−∞ St (x) (falls existent).
ÜA 15 c) Beweise Mt (x, α) ist stetig differenzierbar in t (x und α fixiert und gutartig)
ÜA 15 d) Beweise d/dt Mt (x, α) ≤ 0
ÜA 15 e) Berechne limt→0 Mt (x, α), limt→∞ Mt (x, α), limt→−∞ Mt (x, α)
ÜA 15 f) Beweise: lp∗ = lq (im Sinne von Isometrie).
ÜA 15 g) Beweise: lp∗ (α) = lq (α), p > 1 (im Sinne von Isometrie).
ÜA 15 h) Beweise: l1∗ (α) = c, (c)∗ = c∗ (im Sinne von Isometrie).
∗
(α) sein?
ÜA 15 i) Wie ist l∞ (α) zu verstehen, was könnte l∞
ÜA 15 j) Zeichne die Einheitssphäre, d.h. die Menge {x | kxk = 1} im R2 für alle definierten
Normen (in einer Zeichung!).
Wie hängt die Zeichnung mit den Monotonieeigenschaften 15a) und 15d) zusammen?
6.2.3
Lösungen der Übungsaufgaben
p→∞
• Mn (x, α, p) −
→ maxn xn
Beweis (für n = 2): Es sei x ≥ y. Wir betrachten log Mn (x, α, p). Dann ist nach l’Hopital
log(αxp + βy p )
αxp log x + βy p log y
= lim
=
p→∞
p→∞
p
αxp + βy p
p
α log x + β xy log y
α log x
p
= log x
=
= lim
y
p→∞
α
αβ x
lim log Mn (x, α, p) =
p→∞
lim
• Berechnung der Norm in R∗n :
n
n
n
X
X
X
∗
∗ ∗
∗
|xi ||xi | ≤
|x∗i |
xi xi ≤ sup
kx k = sup |hx , xi| = sup kxk=1
kxk=1
kxk=1 i=1
i=1
Andererseits existiert ein scharfes x, nämlich xi = xi · sign xi
i=1
83
6.2 Beispiel: endlich dimensionale Räume
1
• Falls x+ = max{x1 , ..., xn }, gilt für t > 0: α+t ≤ Mt (x, α) ≤ x+
• Monotonie (Berechnung von
t2 xt1 + ... + xtn
d
dt
log S(t))
Ṡt (x)
=
St (x)
−
xt1 log(xt1 ) + ... + xtn log(xtn ) −
xt1 + ... + xtn log xt1 + ... + xtn =
xt1
xtn
t
log
= xt1 log t
+
...
+
x
≤0
n
x1 + ... + xtn
xt1 + ... + xtn
weil das Argument unter dem log kleiner als 1 ist. (Hier und im nächsten Punkt wird
t log x = log xt benutzt.)
• Monotonie (Berechnung von
t2 α1 xt1 + ... + αn xtn
d
dt
log M(t))
Ṁt (x, α)
=
Mt (x, α)
−
α1 xt1 log(xt1 ) + ... + αn xtn log(xtn ) −
α1 xt1 + ... + αn xtn log α1 xt1 + ... + αn xtn ≥ 0
Die Positivität folgt aus der Jensenschen Ungleichung für die konvexe Funktion F (x) =
x log x.
Im folgenden Bild sind die Funktionen St und Mt für xmax = 5 und xmin = 1 dargestellt.
10
8
St
6
max
4
Mt
2
min
St
-4
6.2.4
-2
2
4
6
t
Zusammenhänge von Normen und Unterräumen
Ist in einem linearen Raum Y eine Norm k·k gegeben, so kann es sein, daß nicht alle Elemente des
Raumes bezüglich dieser Norm beschränkt sind. Die Norm k · k definiert in Y einen Unterraum
X. Für x ∈ Y und x 6∈ X ist kxk = ∞.
Sind in Y zwei Normen gegeben, etwa k · k1 und k · k2 , so werden dadurch zwei Unterräume
X1 und X2 definiert. Sind beide Normen äquivalent, d.h., gibt es positive Konstanten c1 und
c2 mit kxk2 ≤ c1 kxk1 und kxk1 ≤ c2 kxk2 , so sind X1 = X2 . Gilt nur kxk1 ≤ kxk2 , so gilt
im allgemeinen nur die Inklusion X2 ⊂ X1 (es ist klar, daß ein Element, dessen Norm k · k2
84
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
beschränkt ist, in X2 liegt und erst recht auch in X1 . Umgekhert kann sein, daß zwar k · k1 aber
nicht k · k2 beschränkt ist.
3
Dieses Enthaltensein der Räume
mit verschiedenen Normen spiegelt sich im Enthaltensein der
Einheitskugeln wieder. Der Monotonie der Normen in den lt (α)und lt -Räumen entspricht dann
eine Schar ineinander enthaltender Einheitskugeln.
In der nebenstehenden Zeichnung
sind für einige Normen die Einheitssphären im R2 gezeichnet.
Es handelt sich um die Normen
von (von außen nach innen) l1 (α),
l4/3 (α), l2 (α), l4 (α), l∞ (α) = l∞ ,
l4 , l2 , l4/3 , l1 mit α = (1/3, 2/3)
2
1
0
-1
-2
-3
-3
6.2.5
-2
-1
0
1
2
3
Diskussion
• Die Monotonie von Mt beschreibt die bekannten Mittelungleichungen, wogegen die Monotonie von St “merkwürdige” Ungleichungen beschreibt: Im Fall n = 2 ist M
p2 ≥ M1 die bekannte Ungleichung zwischen quadratischem
und
arithmetischem
Mittel:
(x2 + y 2)/2 ≥
p
(x + y)/2 wogegen S2 ≤ S1 bedeutet: x2 + y 2 ≤ x + y.
• Die Ungleichung S∞ ≤ S1 suggeriert c∗ ⊂ c, was im allgemeinen natürlich Unsinn ist, ein
Raum kann seinen dualen nicht enthalten.
• Sinnvoll sind c und c∗ mit Normen.
• Was ist lp ?
• Es gibt Ungleichungen, die hängen mit Räumen zusammen.
• X∗ ⊂ X könnte mit X ⊂ X∗∗ zu X∗∗ ⊂ X∗ ⊂ X ⊂ X∗∗ führen.
• Die Hölderungleichung |hx, x∗ i| ≤ kxkkx∗ k ist sinnvoll. Eine Ungleichung der Form |hg, µi| ≤
kg p k1/p kµq k1/q mit g ∈ C und µ ∈ C∗ ist dagegen Unsinn, da Maße nicht potenziert werden
können.
• Mittel mit allgemeinen Funktionen f Orlisz-Räume
• Ausgehen von C können weitere Normen definiert werden, etwa die Norm in MarcinkiewiczRäumen:
kgkω = = sup µ(B)−ω h1B · |g|, µi
B∈B(Z)
85
6.3 Ein paar fundamentale Ungleichungen
6.3
6.3.1
Ein paar fundamentale Ungleichungen
Die Youngsche Ungleichung
Die Youngsche Ungleichung ist eine fundamentale Ungleichung, die zwei zueinander konvex
konjugierte Funktionen mit der dualen Paarung verbiny
det. Sind F : X −→ R und F ∗ : X∗ −→ R zwei solche
zueinander konvex konjugierter Funktionen, so gilt
y = ϕ(x)
hx, x∗ i ≤ F (x) + F ∗ (x∗ )
Die Gateuax-Ableitungen (Subdifferentiale) beider
Funktionen sind zueinander invers. Betrachtet man im
R die beiden zueinander inversen Funktionen y = xp−1
und x = y q−1 mit 1 = 1/p + 1/q, zu erhält man
b
F ∗ (b)
1
1
a · b ≤ ap + bq
p
q
F (a)
Siehe nebenstehendes Bild.
6.3.2
0
a
x
Die Hölderungleichung. Normen in Lp -Räumen
Abstrakt ist die Hölderungleichung hx, x∗ i ≤ kxk · kx∗ k eine Ungleichung zwischen der dualen
Paarung und den Normen in einem normierten linearen Raum und seinem dualen.
Die bekannte p, q-Hölderungleichung ist eigentlich eine Ungleichung für ein Pseudo-Skalarprodukt,
das in C mithilfe einer Norm definiert werden kann.
Im weiteren seien f, g ∈ C+ (Z), µ ∈ P(Z) und p, q ≥ 1, 1/p + 1/q = 1.
Wir betrachten folgende Aufgaben:
ÜA 16 a) Beweise die Hölderungleichung
hf · g, µi ≤ hf p , µi1/p · hg q , µi1/q
ÜA 16 b) Beweise die Minkowskiungleichung
h(f + g)p , µi1/p ≤ hf p , µi1/p + hg p, µi1/p
Diese Ungleichungen lassen sich einfach beweisen, ohne Benutzung der Darstellung der dualen Paarung als Lebesgueintegral nach dem Rieszschen Satz. Die Benutzung der Youngschen
Ungleichung setzt nur voraus, daß die Ordnungsrelation in C die punktweise Ordnung ist.
Lösungen:
• Die Hölderungleichung folgt aus der Youngschen Ungleichung für Potenzfunktionen:
1 p 1 q
a + b
p
q
p
f
g
1 f
1 gq
·
≤
+
kf kp kgkq
p kf kpp q kgkqq
1 hf p , µi 1 hg q , µi
1 1
1
hf · g, µi ≤
+ =1
p +
q =
kf kp · kgkq
p kf kp
q kgkq
p q
hf · g, µi ≤ kf kp · kgkq
a·b ≤
86
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
• Minkowskiungleichung folgt aus Hölderungleichung:
h(f + g)p , µi = h(f + g)(f + g)p−1, µihf (f + g)p−1, µi + hg(f + g)p−1, µi ≤
≤ hf p , µi1/p h(f + g)(p−1)q , µi1/q + hg p, µi1/p h(f + g)(p−1)q , µi1/q =
= hf p , µi1/p + hg p , µi1/p h(f + g)p , µi1/q
h(f + g)p , µi1/p ≤ hf p , µi1/p + hg p, µi1/p
Hier wurde benutzt: 1/p = 1 − 1/q und (p − 1)q = p.
Für die, denen der Beweis der Minkowski-Ungleichung mit Hilfe der Hölder-Ungleichung nicht
gefällt (woher wissen wir, daß wir neben p auch das q betrachten müssen), folgt hier ein Beweis
der Minkowski-Ungleichung mit Hilfe der Jensensche Ungleichung.
6.4 Der biduale Raum X∗∗
6.4
89
Der biduale Raum X∗∗
Völlig analog zur Definition von X∗ läßt sich der lineare Raum X∗∗ = (X∗ )∗ definieren. Er hat
folgende Eigenschaften
• X ⊂ X∗∗ .
• Falls X∗ ein AL-Raum ist, ist X∗∗ ein AM-Raum mit der Einheit 1∗∗ . Sie bestimmt sich
aus
h1∗∗ , x∗ i = kx∗+ k + kx∗− k
• Jedes x ∈ X induziert ein Jx ∈ X∗∗ : hx, x∗ i = hx∗ , Jxi. Aus kxk = supkx∗ k<1 |hx, x∗ i| folgt
kxk = sup |hx, x∗ i| = sup |hx∗ , Jxi| = kJxk∗∗
kx∗ k=1
kx∗ k=1
Hieraus folgt, daß die kanonische Einbettung J : X −
→ JX ein isometrischer Isomorphismus
ist.
• Ein linearer Raum, für den die kanonische Einbettung ein isometrischer Isomorphismus
zwischen X und X∗∗ ist, heißt reflexiv. Dann kann X∗∗ = X identifiziert werden. Dieser
Fall ist für uns nicht interessant.
6.4.1
Der Raum C∗∗ (Z)
Höhere Dualräume von Banachräumen sind immer schlechter zu beschreiben. Das trifft auch für
C∗∗ (Z) zu. Relativ einfach sind Teilmengen von C∗∗ (Z) zu beschreiben. In C∗∗ (Z) sind enthalten:
• Vage Grenzwerte von Folgen stetiger Funktionen (Satz von Goldstine).
• Die 1∗∗ in C∗∗ (Z) liegt in C(Z) und es ist 1∗∗ = 1.
• Charakteristische Funktionen von Borelmengen liegen in C∗∗ (Z).
Beweis: Setzt man vorraus, daß C∗ (Z) der Raum der Radonmaße und die duale Paarung
das Lebesgueintegral ist, dann gilt für Wahrscheinlichkeitsmaßee p
Z
Z
p(B) =
p(dz) = 1B (z)p(dz) = h1B , pi ≤ 1
B
Z
Die linke Seite ist der Wert des Wahrscheinlichkeitsmaßee p auf der Borelmenge B. Damit
ist also 1B für B ∈ B ein beschränktes Funktional auf P. Da sich jedes Maß µ ∈ C∗ (Z) als
µ = α1 p1 − α2 p2 mit geeigneten αi ∈ R+ und pi ∈ P darstellen läßt, ist 1B beschränktes
– und offensichtlich lineares – Funktional auf C∗ (Z).
• Damit ist die Menge aller endlicher linearer Kombinationen von charakteristische Funktionen von Borelmengen ein (nicht abgeschlossener) Unterraum in C∗∗ (Z)
• Die Elemente von C∗∗ (Z) können als verallgemeinerte Beobachtungen betrachtet werden.
• ÜA 17) Beweise ohne Benutzung des Rieszschen Satzes, daß 1B ∈ C∗∗ (Z) für B ∈ B.
Hinweis: Finde Folgen stetiger Funktionen, die punktweise (also schwach) gegen 1B
konvergieren. Beginne mit abgeschlossenen und offenen Mengen.
90
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
6.5
6.5.1
Topologien in dualen Räumen
Die schwache Topologien im allgemeinen B-Raum
• Definition: Eine Subbasis Õw der schwachen Topologie Ow in X wird definiert als Initialtopologie bezüglich aller Elemente aus X∗ (es sei ϕx∗ (x) = hx, x∗ i):
∗
x ∈ X∗ , U ∈ OR
(U)
⊂
X
Õw = ϕ−1
∗
x
Die Konvergenz in dieser Topologie nennen wir “schwach” und bezeichnen sie mit xn ⇀ x
w
oder xn ⇀ x.
• Der Raum X∗ mit der schwachen Topologie ist Hausdorff (folgt aus Hahn-Banach) und
lokalkonvex (Einheitskugeln sind konvex).
• Nach Definition der schwachen Topologie als Initialtopologie gilt offensichtlich
xn ⇀ x ⇐⇒ hxn , x∗ i −
→ hx, x∗ i∀x∗ ∈ X∗
• Im endlichdimensionalen Raum sind starke und schwache Topologien identisch.
• Aus schwach folgt stark: Der Beweis folgt aus der Hölderungleichung:
hxn , x∗ i − hx, x∗ i ≤ kxn − xk · kx∗ k
w
• Satz: xn ⇀ x =⇒ kxk ≤ lim inf n→∞ kxn k
w
• Satz: xn ⇀ x, x∗n −
→ x∗ =⇒ hxn , x∗n i −
→ hx, x∗ i
Alle von der Topologie abhängigen Begriffe wie:
offen, abgeschlossen, Abschluß, kompakt, dicht, vollständig,
gibt es mit dem Adjektiv “schwach”. Oft unterscheiden sich die “starken” und “schwachen”
Eigenschaften voneinander. Dazu gibt es folgende Sätze. Im weiteren seien B = {x ∈ X|kxk ≤
1} und S = {x ∈ X|kxk = 1} die stark abgeschlossene Kugel bzw. Sphäre. Nach Definition ist
B = B und S = S. Es gilt aber:
w
w
• Satz: B = B und S = B.
D.h., S ist nicht schwach abgeschlossen. Die stark offene Kugel ist nicht schwach offen.
Das Innere von B ist leer.
• Satz: Ist A ∈ X stark abgeschlossen und kompakt, dann ist A auch schwach abgeschlossen.
• Satz (Eberline-Smulian): B ist schwach kompakt, gdw. X = X∗∗ .
Das bedeutet, daß die schwache Topologie in C∗ für uns (wir möchten, daß P kompakt
ist) auch nicht geeignet ist, da C∗ nicht reflexiv ist.
• Satz (Mazur): Jede schwach konvergente Folge in einem normierten Vektorraum besitzt
eine stark konvergente Folge von Konvexkombinationen der Folgenglieder
91
6.5 Topologien in dualen Räumen
6.5.2
Die vage Topologien im dualen eines allgemeinen B-Raumes
Es sei X ein Banachraum und X∗ sein dualer. In X∗ gibt es die starke und schwache Topologie.
Eine Subbasis von letzterer ist (es sei ϕx∗∗ (x) = hx∗∗ , x∗ i):
∗∗ ∗∗
x ∈ X∗∗ , U ∈ OR
Õw = ϕ−1
x∗∗ (U) ⊂ X
Es ist die Initialtopologie bezüglich aller Elemente aus X∗∗ . Eine Möglichkeit, eine noch schwächere Topologie zu definieren ist, die Menge an stetigen Funktionen, beüglich derer die Initialtopologie gebildet wird, einzuschränken. Dazu bietet sich an, nicht ganz X∗∗ zu betrachten, sondern
nur JX ⊂ X∗∗ . Diese Topologie nennen wir “vage”. Dieser Begriff wurde von Bourbaki eingeführt. Er entspricht dem gebräuchlicheren Begriff “schwach-Stern” (geschrieben “schwach*”),
der schlecht in die gesprochene Rede paßt.
• Definition: Eine Subbasis Õv der vagen Topologie Ov in X∗ wird definiert als Initialtopologie bezüglich aller Elemente aus X (es sei ϕx (x) = hx, x∗ i):
∗ Õw = ϕ−1
x ∈ X, U ∈ OR
x (U) ⊂ X
v
Die Konvergenz in dieser Topologie bezeichnen wir mit xn ⇀ x.
• Der Raum X∗ mit der vagen Topologie ist Hausdorff (folgt aus Hahn-Banach) und lokalkonvex (Einheitskugeln sind konvex).
• Nach Definition der vagen Topologie als Initialtopologie gilt offensichtlich
x∗n ⇀ x∗ ⇐⇒ hx, x∗n i −
→ hx, x∗n i∀x ∈ X
v
• Im endlichdimensionalen Raum sind vage, starke und schwache Topologien identisch.
• Aus vage folgt nach Definition schwach.
v
• Satz: x∗n ⇀ x∗ =⇒ kx∗ k ≤ lim inf n→∞ kx∗n k
v
• Satz: x∗n ⇀ x∗ , xn −
→ x =⇒ hxn , x∗n i −
→ hx, x∗ i
Alle von der Topologie abhängigen Begriffe wie:
offen, abgeschlossen, Abschluß, kompakt, dicht, vollständig,
gibt es mit dem Adjektiv “vage”. Im weiteren sei B ∗ = {x∗ ∈ X∗ |kx∗ k ≤ 1} die stark abgeschlossene Kugel in X∗ und analog B ∗∗ ⊂ X∗∗ . Es gilt:
v
• Satz (Goldstine): J(B) = B ∗∗ (die Einheitskugel in X ist vage dicht in der Einheitskugel in X∗∗ ).
Das heißt, ein ξ ∈ X∗∗ läßt sich durch eine vage konvergente
• Satz: Ist A ∈ X stark abgeschlossen und kompakt, dann ist A auch schwach abgeschlossen.
• Satz (Banach-Alaoglu): B ∗ ist vage kompakt.
Dieser fundamentale Satz wird im allgemeinen mit dem Auswahlaxiom bewiesen, was
immer ein Warnsignal ist, für den Fall, daß man diesen Satz kontruktiv anwenden will.
Im Falle, daß X separabel ist, läßt sich diese Satz auch ohne das Auswahlaxiom beweisen.
Dazu wird folgendes verwendet:
Satz: Es sei X separabel, dann ist B ∗ vage metrisierbar (X∗ ist separabel aber nicht
metrisierbar, es sei denn X ist endlichdimensional). Hieraus folgt bekanntlich, daß für der
Beweis der Kompaktheit der Beweis der Folkgenkompaktheit ausreicht.
92
6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z)
Satz (Banach-Alaoglu, separable Version): Es sei X separabel, dann ist B ∗ ist vage folgenkompakt.
Beweis: Es sei {xk } ⊂ X dicht in X und {x∗n } ⊂ B∗ also kx∗n k ≤ 1. Wir beweisen (mit dem
Cantorschen Diagonalverfahren), daß {x∗n } eine vage konvergente Teilfolge enthält.
Für jedes feste k ist {hx∗n , xk i}∞
n=1 eine beschränkte Folge reeller Zahlen. Daher existiert eine
i→∞
Unterfolge mk ⊂ N derart, daß hx∗i , xk ii∈mk −
→ y(xk ). Weiter gilt
|y(xk )| ≤ lim |hx∗i , xk ii∈mk | ≤ lim inf kx∗i k · kxk k ≤ kxk k
i→∞
−
i→∞
D.h., y(xk ) ist eine beschränkte und offensichtlich lineare Abbildung auf einer dichten Menge.
∗
∗
Folglich existiert ein y ∗ ∈ B ∗ mit limi→∞
− hxi , xk i = y(xk ) = hy , xk i.
∗
Nach Banach-Steinhaus ist y auf ganz X ein beschränktes lineares Funktional.
Bemerkung: Beschränkte vage Topologie
Bemerkung: Leonidas Alaoglu kanadischer Mathematiker griechischer Abstammung, 1914 –
1981, siehe auch Buch von Adam Bobrowski: Functional Analysis for Probability and Stochastic
Processes, S.186)
6.5.3
Schwache und vage Topologien im Rieszraum
Es sei X ein AM-Raum mit Einheit und X∗ sein dualer (ein AL-Raum). Es sei
P = B ∗ ∩ X∗+ ∩ {h1, x∗ i = 1|x∗ ∈ X∗ }
Da B ∗ vage kompakt ist, und die anderen Mengen vage abgeschlossen sind, ist P vage kompakt
und außerdem konvex.
Es sei Pe = extr P. Auch Pe ist vage kompakt, falls Pe vage abgeschlossen ist. Das läßt
sich beweisen, indem man zeigt, daß die Grenzwerte vage konvergenter Folgen aus Pe RieszHomomorphismen sind un dbenutzt, daß ein Element aus X∗ ein Riesz-Homomorphismus ist
gdw., es in Pe liegt (siehe Kaplan S.125).
Nach dem Satz von Krein-Milman gilt dann
P = conv Pe
v
Folglich ist die vage Topologie genau das, was gesucht wurde.
6.5.4
Schwache und vage Topologien in C∗
Als Riesz-Raum gelten in C∗ dieselben Aussagen wie eben. Darüber hinaus ist noch der Zusammenhang zwischen Pe und Z zu klären. Es gilt folgender
Satz: Zwischen (Pe , Ov ) und (Z, O) besteht ein Homomorphismus. Er wird über den Zusammenhang δz ∈ Pe ⇐⇒ z ∈ Z vermittelt (sie Abbildung δ : Z −
→ C∗ ist vage stetig).
Zum Beweis siehe Kaplan S.182, 33.1.
Dieser Satz besagt, daß Topologie von Z, mit der wir gestartet sind, gerade die vage Topologie
in C∗ ist.
Satz: Eind Folge gn konvergiert in C schwach, gdw. gn beschränkt ist und gn (z) für jedes z
konvergiert (punktweise Konvergenz).
Dieser Satz bedeutet, daß es für beschränkte Folgen ausreicht, punktweise Konvergenz, also die
schwache Konvergenz auf Pe zu testen.
Der Beweis läßt sich einfach über den Rieszschen Darstellungssatz und den Satz von Lebesgue
(Majorisierungssatz) führen.
99
7
The Kakutani-Krein-Stone theory (KKS)
7.1
Der Satz von Kakutani
Wir haben in den letzten Kapiteln parallel zwei Strukturen aufgebaut. Einerseits sind wir von
einem topologischen Raum (Z, O) ausgegangen und haben die dualen Räume dazu betrachtet.
Das ergab folgendes Bild:
top.dual
lin.dual
(Z, O) −
→ C(Z) −
→ C∗ (Z)
W-Maße
⊃
extr
P ⊃ (Pe , Ov ) = (Z, O)
Es hat sich herausgestellt, daß diese Konstruktion zu ihrem Ausgangspunkt zurückkehrt.
Andererseits haben wir allgemeine Riesz-AM-Räume und ihre dualen betrachtet. Dabei war es
unerheblich, was die Elemente des Riesz-Raumes für Objkete sind. Das ergab folgendes Bild:
lin.dual
X −
→ X∗
W-Maße
⊃
extr
P ⊃ (Pe , Ov )
top.dual
→ C(Pe , Ov )
−
?
=X
Es bietet sich die Frage an, was der Raum stetiger Funktionen auf dem kompakten topologischen
Raum (Pe , Ov ) ist und in welcher Beziehung dieser Raum zum Ausgangsraum X steht. Die
Antwort darauf gibt folgender fundamentaler
Satz (Kakutani): Jeder vollständige AM-Raum X mit Einheit ist ein C(Z), wobei insbesondere
Z = extr P(X∗ ) mit der vagen Topologie gewählt werden kann.
Der Beweis vollzieht sich in folgenden Schritten (ausführlich siehe Kaplan S.187).
• Es sei Z = extr P(X∗ ) mit vager Topologie. D.h, wir definieren Z ∋ z := δ ∈ extr P(X∗ ).
Z ist kompakt (nach dem Satz von Banach-Alaoglu) und Hausdorff.
• Wir definieren eine Abbildung H : X −
→ C(Z) auf Z gemäß
(Hg)(z) = hg, δi , g ∈ X, z ∈ Z
und untersuchen ihre Eigenschaften. Diese Darstellung ist so zu verstehen: (Hg)(z) ist
der Wert der Funktion Hg ∈ C(Z) im Punkt z ∈ Z. hg, δi ist zu verstehen als die duale
Paarung zwischen g ∈ X und δ ∈ extr P(X∗ ) ⊂ X∗ .
• H≥0
• H1X = 1C
• H ist eine Isometrie und deshalb eineindeutig.
• H ist ein Verbandshomomorphismus
• HX separiert Punkte auf Z, weil X separierend ist.
• HX = C(Z) (folgt aus dem Satz von Stone-Weierstraß).
100
7.1.1
7 THE KAKUTANI-KREIN-STONE THEORY (KKS)
Bemerkungen
• Der Raum Z wird Kakutani-Stone-Raum des AM-Raumes X genannt.
• Ein Rieszhomomorphismus H : X −
→ Y zwischen zwei Rieszräumen ist eine lineare Abbildung, für die H(x ∨ y) = H(x) ∨ H(y) und H(x ∧ y) = H(x) ∧ H(y) gilt.
• Es läßt sich zeigen, daß x∗ ∈ X∗ ein Rieszhomomorphismus ist x∗ : X −→ R ist, gdw.
x∗ ∈ Pe (zum Beweis siehe Kaplan S.121).
x∗ als Rieszhomomorphismus ist zu verstehen als Abbildung zwischen den beiden Rieszräumen X und R, d.h., x∗ : X −
→ R und hx∗ , x ∨ yi = max{hx∗ , xi, hx∗ , yi} und hx∗ , x ∧ yi =
∗
∗
min{hx , xi, hx , yi}.
• Der Satz von Stone-Weierstraß lautet üblicherweise:
Jede Unteralgebra A der Algebra C(Z) der stetigen reellen Funktionen auf einem kompakten Hausdorff-Raum Z, die dessen Punkte separiert, d.h. ∀x 6= y ∈ M ∃g ∈ P : g(x) 6= g(y)
und in keinem Punkt verschwindet, d.h. ∀x ∈ M ∃g ∈ P : g(x) 6= 0 liegt bezüglich der Topologie der gleichmäßigen Konvergenz dicht in C(Z).
Es gibt auch eine Verbands-Version.
7.2
7.2.1
Folgerungen des Satzes von Kakutani
Mathematische Folgerungen
Wir führen hier ein paar Erklärungen des Satzes an und betrachten einige interessante “Gegenbeispiele” für den Fall, daß wir von einem X ausgehen, der bereits ein Raum stetiger Funktionen
ist.
• Die Hauptaussage ist, daß jeder Raum stetiger Funktionen auf einem topologischen Raum
(der ja ein AM-Raum ist) als ein Raum stetiger Funktionen auf einem Hausdorff-Kompaktum
betrachtet werden kann.
• Geht man von einem abstrakten AM-Raum aus, sind dessen Elemente “Punkte”, die nicht
Funktionen also Abbildungen von irgend einer Menge in eine andere sein müssen. Es stellt
sich aber heraus, daß man diese “Punkte” als stetige Funktionen von einem topologischen
Raum in die reellen Zahlen betrachten kann.
• Ist X = C(Z0 ) mit einem kompakten Hausdorffraum Z0 , so ist Z = Z0 .
• Ist X = C(Z0 ) mit einem kompakten aber nichtmetrisierbaren (also kein 1.AA) Hausdorffraum Z0 , so ist X nicht separabel und umgekehrt: Startet man mit einem nicht
separablen X, so ist Z nicht metrisierbar.
D.h., wenn wir wollen, daß Z metrisierbar ist (was sinnvoll ist), müssen wir mit einem
separablen X starten (was auch sinnvoll ist).
• Ist X nicht vollständig, dann ist C(Z) = X.
• Ist X = C(Z0 ) mit einem kompakten Raum Z0 , der nicht Hausdorff ist, dann ist Z der
Faktorraum von Z0 bezüglich der “sets of constanty” der Elemente aus X.
Beispielsweise könnte man mit allen Vektoren im Rn starten, für die xn = xn−1 . Das
sind gerade die stetigen Funktionen auf der n-Menge {z1 , z2 , ..., zn }, aber nicht mit der
diskreten Topologie sondern der Topologie, die erzeugt wird von den offenen Mengen
7.2 Folgerungen des Satzes von Kakutani
101
{z1 }, {z2 }, ..., {zn−2}, {zn−1 , zn }. Das Ergebnis ist Z = {z1 , z2 , ..., zn−1 }. Die beiden letzten
Koordinaten werden identifiziert.
• Der besonders interessante Fall, daß X = C(Z0 ) mit einem nichtkompakten Hausdorffraum
Z0 ist, betrachten wir in einem Extrapunkt.
• Ein weiterer interessanter Fall wäre ein nichtkompakter Raum Z0 derart, daß X = C(Z0 )
separabel ist. Das würde dazu führen, daß βZ0 metrisierbar ist. Eine solche Variante ist
dem Autor (und vielen anderen) nicht bekannt.
7.2.2
Nicht kompakte Zustandsräume
Ist X = C(Z0 ) mit einem nichtkompakten Hausdorffraum Z0 , so ist Z trotzdem kompakt und
zwar ist Z = βZ0 die Stone-Cech-Kompaktifizierung von Z0 . D.h., X = C(βZ0 ). Die Elemete
von X können als stetige “Funktionen” auf βZ0 betrachtet werden. Allerdings haben diese
Funktionen intuitiv nichts mit den stetige Funktionen zu tun, mit denen man als C(Z0 ) gestartet
ist.
Das hat weitreichende Konsequenzen.
Den Übergang von Z0 zu Z = βZ0 kann man nicht als bequeme “Kompaktifizierungsmethode”
für Z0 verwenden. Die Stone-Cech-Kompaktifizierung ist der kleinste topologische Raum, der
alle Kompaktifizierungen enthält. Er wird gebildet, indem das Kreuzprodukt aller Kompaktifizierungen mit der Tichonov-Topologie ausgestattet wird. Diese Konstruktion ist nicht trivial
und erfordert das Auswahlaxiom. βZ0 ist kompakt aber nicht metrisierbar.
Im Ergebnis enthält βZ0 viel mehr Punkte als Z0 . Geht man z.B. von Z0 = N aus, so ist
|N|
die Kardinalzahl von |βN| = 22 (Sprung von ℵ0 zu ℵ2 ). Hatte der ursprüngliche Raum Z0
als Zustandraum einen physikalischen Sinn, weil seine Punkte als Menge aller physikalisch
sinnvoller Zustände verstanden werden konnten (in dem Sinn, daß es weiter keine Zustände
gibt), so hat die Stone-Cech-Kompaktifizierung den Zustandraum mit einer Riesenmenge von
sinnlosen Zuständen angefüllt.
Es ist also wichtig, gleich mit einem geeignet kompaktifizierten Raum zu starten. Das Finden
der richtigen Kompaktifizierung hängt vom konkreten Problem ab, ist ein kreativer Prozeß und
kann nicht “von der Mathematik übernommen” werden.
Man könnte meinen, daß dieser Sachverhalt nicht wichtig ist, da man nicht gezwungen ist βZ0
anstelle von Z0 zu betrachten. Das ist nur richtig, wenn man sich nicht für Wahrscheinlichkeitsmaße interessiert. Denn in P sind nicht nur die konvexen Kombinationen von Punktmaßen aus
Z0 enthalten, sondern alle konvexen Kombinationen von Punktmaßen aus βZ0 . Betrachtet man
Wahrscheinlichkeitsmaße und möchte ihnen einen physikalischen Sinn geben, muß man also
Sorge dafür tragen, daß man nur konvexe Kombinationen von Punktmaßen aus Z0 betrachtet.
Wenn man Folgen von Maßen betrachtet, ist es deshalb nur mit großem technischen Aufwand
(Betrachtung von straffen Maßen u.ä.) zu sichern, daß aucgh die Grenzwerte von solchen Folgen in dieser Menge bleiben. Betrachtet man von Anfang an geeignet kompaktifizierte Räume
erübrigen sich diese Probleme.
Als Beispiel betrachten wir
7.2.3
Kompakte und nichtkompakte Folgenräume
Wir wollen hier die Unterschiede zwischen C(N) und C(N) betrachten, wobei N die Einpunktkompaktifizierung der natürlichen Zahlen sei. Zu den Beweisen der Details siehe den Abschnitt
6.4 über Folgenräume.
102
7 THE KAKUTANI-KREIN-STONE THEORY (KKS)
1) Es sei X der Raum der konvergenten Folgen. Wir bestimmen X∗ . Dazu setzen wir als bekannt
voraus. daß der duale Raum zu c0 (Nullfolgen) der Raum l1 ist. Folglich ist X∗ = l1 ⊕ R · 1. Der
Raum X enthält mehr Funktionale als c∗0 , da der Grenzwert der Folge auch ein Funktional ist.
Das ist gerade der Zusatz R· 1. Damit ist Z = {δj }∞
j=1 ∪δ∞ . Das sind die üblichen Punktmaße auf
N und ein weiteres Punktmaß, welches dem Grenzwert der Folge entspricht. Die vage Topolgie
ist gerade die Einpunktkompaktifizierung von N. Stetige Funktionen g auf Z sind konvergente
Folgen. In jedem j wird der Wert gj = g(δj ) angenommen. Allerdings sind nicht alle Folgen
stetige Funktionen sondern nur die konvergenten. Funktionswert auf δ∞ ist g(δ∞ ) = lim gn .
n→∞
2) Es sei X der Raum der beschränkten Folgen, also X = l∞ . Wir bestimmen X∗ . Das ist
∗
l∞
= l1 ⊕ c00 wobei c00 der Annullator des Unterraumes c0 in l∞ ist. In l1 sind die üblichen
∗
Punktmaße δj (ohne δ∞ natürlich, das gibt es in l∞
nicht). Im “Rest” c00 sind alle “sonstigen
Punktmaße” von Punkten aus βN enthalten. Der Satz von Kakutani sagt nun aus, daß sich jede
beschränkte Folge als stetige Funktion über βN darstellen läßt. Wie das konkret zu verstehen
ist, ist unklar. Der Satz ist hier ein reiner Existenzsatz, zu dessen Beweis das Auswahlaxiom
benötigt wird.
7.2.4
Physikalische Folgerungen
Die Kakutani-Krein-Stone Theorie zeigt einen Weg, wie man ausgehend von einer abstrakten
Menge von Beobachtungen sowohl die Zustände als auch die Wahrscheinlichkeiten automatisch
erzeugen kann. Das ist der natürliche Weg aus metaphysischer Sicht, da auch die Zustände
selbst eigentlich nicht im Voraus gegeben sind sondern erst durch Beobachtung erhalten werden
müssen. Diese Theorie hat vor allem theoretischen Wert, da sie zeigt, daß auch die Zustände
letztlich das Ergebnis von Beobachtungen sind.
Die Konstruktion von Z geht von einer frei gewählten Menge von Beobachtungen aus und
vollzieht sich in folgenden Schritten:
1) Wir definieren eine Menge X von Beobachtungen. Diese Menge muß ein linearer Raum
über den reellen Zahlen mit einer Ordnungsrelation sein – ein Riesz-Raum. Bei der Wahl
dieser Menge sind wir frei. Das ist die Menge an Fragen, die wir der Natur stellen wollen.
Aus mathematischer Sicht sind das Testfunktionen.
2) Wir definieren unter den Beobachtungen eine Einheit 1. So eine Beobachtung sollte es
geben. Sie bedeutet physikalisch, daß eigentlich nicht beobachtet wird, d.h., sie liefert
keine Information.
3) Jede Beobachtung g hat ein Minimum gmin und ein Maximum gmax . Das sind reelle Zahlen.
Es gilt gmin 1 ≤ g ≤ gmax 1.
4) Wir definieren eine Verbands-Norm als kgk = max{|gmin|, |gmax |} und vervollständigen X
in dieser Norm. Die Norm macht X zu einem AM-Raum. Die Vervollständigung macht X
zu einem Banach-Raum. Das sei X.
5) Wir betrachten den dualen Raum X∗ und definieren alle mittelnden Funktionale P ⊂ X∗
als physikalische Zustände. (Ein Funktional p mittelt, wenn für alle g gilt: gmin ≤ hg, pi ≤
gmax .)
6) Die mittelnden Funktionale P bilden eine konvexe Menge. Diese Menge ist in der vagen
Topologie kompakt und Hausdorff.
7.2 Folgerungen des Satzes von Kakutani
103
7) Es sei Pe = extP die Menge der extremalen Elemente der Zustände (heißt in der Mathematik Kakutani-Stone-Raum von X). Pe ist ebenfalls kompakt in der vagen Topologie.
Wir nennen die extremalen Elemente Pe “reine Zustände”, den Rest aus P “gemischte
Zustände”. Diese Bezeichnung ist vernünftig, weil sich die extremalen Elemente nicht als
konvexe Kombinationen von Zuständen darstellen lassen (nicht mischen lassen).
Das besondere an dieser Konstruktion ist der folgende fundamentale
Satz: X = C(Pe ).
Das heißt, die ursprünglich definierte Menge X an Beobachtungen (nach Vervollständigung) ist
nicht eine abstrakte Menge sondern läßt sich als Menge von stetigen Funktionen über einem gewissen topologischen Raum Pe betrachten. Dieser Raum ist natürlicherweise als Zustandsraum
zu interpretieren, es ist also Z = Pe zu setzen.
Des weiteren ist P – die Menge der mittelnden Funktionale – identisch mit der Menge der
positiven und normierten Funktionale, die man natürlicherweise nach dem Rieszschen Darstellungssatz als W-Maße interpretieren kann. Es gilt (einfacher Beweis, siehe Punkt 6.1.4)
gmin ≤ hg, pi ≤ gmax , g ∈ C ⇐⇒ p ≥ 0, h1, pi = 1
7.2.5
Bemerkungen. Anwendung
• In DSI steht als Aufgabe (Kapiel V, Aufgabe 7) formuliert:
Beweise: Wenn Z ein normaler topologischer Raum ist und C(Z) ist separabel, dann ist
Z kompakt, und umgekehrt.
Leider ist dem Autor ein Beweis dieser Aussage nicht bekannt.
• Abzählbarkeit bedeutet, daß das physikalische System nicht zuviele Freiheitsgrade haben
darf, d.h., daß wir nicht zuviele Freiheitsgrade unterscheiden können. Abzählbarkeit von
Z entspricht der Separabilität von C(Z).
7.4 Zusammenfassung der Topologien in Z, Z∗ , Z∗∗ und Z∗∗∗
7.4
109
Zusammenfassung der Topologien in Z, Z∗, Z∗∗ und Z∗∗∗
In jedem Raum gibt es verschiedene Topologien, die starke, schwache und vage. Davon sind nur
einige im weiteren interessant. Das hängt z.B. damit zusammen, daß es für manche Topologien
nur uninteressante konvergente Folgen gibt.
Vergleich der Konvergenzen:
Z∗
Z
zn −
→ z
gn
zn −
→ z
kgn − gk
g(zn ) −
→ g(z) hgn − g, pi
gn (z)
=
→
−
→
−
→
−
→
−
C
Z∗∗
g
pn
0
kpn − pk
0
hξ, pn − pi
g(z) hg, pn − pi
pn (B)
=
→
−
→
−
→
−
→
−
→
−
C∗
p
0
0
0
p(B)
Z∗∗∗
ξn
= C∗∗
→ ξ
−
stark
schwach
vage
p(Bn ) −
→ p(B)
Im weiteren sind nur folgende Konvergenzen von Interesse:
• Starke Konvergenz in C
• Schwache Konvergenz in C (entspricht der vagen in C∗ ).
• Vage Konvergenz in P.
7.4.1
Übungsaufgaben
ÜA 22 a) Beweise, daß Pe in der starken Topologie ein diskreter topologischer Raum ist.
ÜA 22 b) Entscheide, ob Pe in der schwachen Topologie ein diskreter topologischer Raum
ist.
ÜA 23 a) Die Folge zn konvergiere in Z gegen z. Untersuche ob und wie (stark, schwach,
vage) die Folge δzn gegen δz in C∗ konvergiert.
ÜA 23 b) Die Folge zn konvergiere in Z gegen z. Untersuche ob und wie (stark, schwach,
vage) die Folge 1{zn } gegen 1{z} in C∗∗ konvergiert.
7.4.2
Bemerkungen, Gegenbeispiele und Lösungen der Übungsaufgaben
Die Unterschiede zwischen den Konvergenzen erkennt man besonders deutlich durch Gegenbeispiele.
• Die Funktionen gn (z) = z n in C([0, 1]) konvergieren schwach oder – äquivalent – punktweise gegen g = 1{1} , aber natürlich nicht stark, da g 6∈ C. gn konvergiert auch nicht stark
in C∗∗ , da kgn − gk = 1. Aber gn konvergiert gegen g vage (punktweise) in C∗∗ .
• Die Konvergenz zn −
→ z in Z (im Sinne von: Jede Umgebung von z enthält ∞-viele Punkte
aus der Menge (zn )) ist äquivalent zur schwachen Konvergenz in Z also zu g(zn ) −
→ g(z).
• Pe ist vage total (der span ist dicht) in P. Das bedeutet, daß es für die schwache Konvergenz in C ausreicht, die Konvergenz auf Punktmaßen zu testen. Das heißt wiederum, daß
die punktweise Konvergenz in C – die man als vage Konvergenz bezeichnen kann – zur
schwachen Konvergenz äquivalent ist, wenn die Folge der Funktionen in C beschränkt ist.
110
7 THE KAKUTANI-KREIN-STONE THEORY (KKS)
• Man könnte fragen, ob es nicht sinnvoll ist, in Pe andere Topologien, etwa die starke
Topologie zu betrachten. Es stellt sich heraus, daß in Pe die starke Topologie die diskrete
ist. Hieraus folgt dann, daß jede konvergente Folge konstant (bis auf endlich viele Glieder)
sein muß. Das wiederum hat zur Folge, daß jede stark stetige Halbgruppe in C∗ auch
uniform stetig ist und es somit in C∗ nur beschränkte Generatoren gibt.
Satz: In der starken Topolgie in Pe sind alle Mengen offen.
Beweis: (Lösung von ÜA 22a) Wir beweisen, daß die Mengen {δz } offen sind, indem
wir zeigen, daß mit jedem Punkt dieser Menge auch eine Umgebung in Pe enthalten ist.
Für zwei z1 6= z2 gilt kδz1 − δz2 k = 2. Es sei ε < 2. Dann enthält jede offene Kugel um δz
mit dem Radius ε nur δz . Wegen δz ∈ {δz } folgt die Behauptung.
.
• Die Folge pn (dz) = (1 + sin(nz))dz in C∗ ([−1, 1]) konvergiert bezüglich aller charakteristischer Funktionen (vermutlich äquivalent zu schwach), aber nicht stark.
• Lösung von ÜA 23a)
• Lösung von ÜA 23b)
7.4.3
Zusammenhang der Konvergenzen in der FunkA und W-Theorie
Die duale Paarung zwischen einer stetigen Funktion g und einem W-Maß p heißt in der WTheorie Erwartungswert oder Mittelwert von g bezüglich p oder g-Moment von p oder nur
Erwartungswert/Moment von g, wenn p durch den W-Raum (Z, B, p) fixiert ist. Der Wert
eines Maßes p auf einer Borelmenge B, also p(B) ist die duale Paarung zwischen p und der
char. Funktion von B, also 1B ∈ C∗∗ .
Da in die Wahrscheinlichkeitstheorie in erster Linie W-Maße in Rn betrachtet werden, orientieren sich die Konvergenzbegriffe daran und unterscheiden insbesondere auch Konvergenz
bezüglich Funktionen mit kompaktem Träger oder ohne.
Während die funktionalanlytischen Begriffe systematisch und allgemeingültig sind, unterscheiden sich die entsprechenden Begriffe in der W-Theorie davon.
Die vage Konvergenz in der Funktionalanalysis heißt schwache Konvergenz in der W-Theorie.
Die starke Konvergenz in der Funktionalanalysis heißt Konvergenz in totaler Variation in der
W-Theorie.
Des Weiteren werden Konvergenzen der Art pn (B) −→ p(B) und p(Bn ) −→ p(B) betrachtet.
Aus funktionalanlytischer Sicht sind das Konvergenzen bezüglich der Topologie σ(C∗ , C∗∗ ), da
p(B) = h1B , pi mit 1B ∈ C∗∗ . Die Konvergenzen pn (B) −
→ p(B) wird in der Wahrscheinlichkeitstheorie starke Konvergenz von Maßen genannt (hier schwache).
Die σ(C∗ , C∗∗ )-Topologie ist “sehr diskret”, was dazu führt, daß es kaum konvergente Folgen
gibt. Um trotzdem Aussagen treffen zu können, wann pn (B) −→ p(B) oder p(Bn ) −→ p(B)
stattfindet, werden Spezialfälle betrachtet, wann diese Konvergenzen mit Konvergenzen in der
σ(C∗ , C)-Topologie übereinstimmen.
Dazu gibt es den Portmanteau-Satz (von Alexandrow):
Folgende Konvergenzen sind äquivalent
•
•
•
•
•
pn −
→ p vage
pn −
→ p vage auf C[0,1]
lim supn→∞ pn (F ) ≤ p(F ) für alle F ∈ F
lim inf n→∞ pn (U) ≥ p(U) für alle U ∈ O
limn→∞ pn (B) = p(B) für alle B ∈ B und p(∂B) = 1
7.4 Zusammenfassung der Topologien in Z, Z∗ , Z∗∗ und Z∗∗∗
111
Der Beweis des Satzes (die Umkehrung, daß aus der Konvergenz auf Borelmengen die vage
Konvergenz folgt) ist nicht einfach und wird über sogenannte level-sets (Niveaumengen) geführt,
mit denen es möglich ist, anstelle von Lebesgue-Integralen über Z Riemann-Integrale über dem
Wertebereich von g zu betrachten. Nähers hierzu kann im WIAS-Preprint 1896 nachgelesen
werden.
Für die anderen Teile des Beweises werden Folgen von Funktionen gn ∈
C[0,1] betrachtet, mit
T∞
−1
−1
gn (1) = F ∈ F und gn (0) = Z \ Un , Un ∈ O und F ⊂ Un , Un+1 ⊂ Un , n=1 Un = F . Es ist
p(F ) = inf p(Un ) ≥ hgn , pi ≥ p(F )
Un ⊃F
Konvergenzen der Art p(Bn ) −
→ p(B) hängen mit der Regularität von p zusammen:
p(B) = sup p(F ) , p(B) =
F ⊂B∈B
inf p(U)
U ⊃B∈B
Es gilt:
S
• ∞
→ 1A vage in C∗∗ .
i=1 Ai = A =⇒ 1Ai −
S
• An ↑ A =⇒ p(An ) −
→ p(A), An ↑ A bedeutet An ⊂ An+1 , ∞
An = A
Ti=n
∞
• An ↓ A =⇒ p(An ) −
→ p(A), An ↓ A bedeutet An ⊃ An+1 , i=n An = A
7.6 Der mathematische Rahmen. Das Z − C − P Dreieck
7.6
113
Der mathematische Rahmen. Das Z − C − P Dreieck
state space (compact, Hausdorff, 1 Axiom of count.)
Z = extr P(Z)
dual
weak*
∗∗
C (Z) ⊃ C(Z)
functions of points
✛
✲
P(Z) ⊂ C∗(Z)
weak
functions of sets
continuous functions
intensive values
❅
❅
bidual
❅
❅
❅
❅
Radon measures
hg, pi
extensive values
observables
statistical states
potentials, densities
test functions
probability measures
information
• Wichtig ist, daß der Zusammenhang der Objekte Z −→ C −→ P −→ Pe = Z immer
erhalten bleibt. Dann ist die Theorie anwendbar und viele der Sätze bleiben notwendig
und hinreichend.
Ist z.B. die gewählte Menge an Beobachtungen nicht zufriedenstellen, so kann mann sie
ändern. Das bedeutet unter Umständen, daß man die Topologie ändern muß, damit die
neue Menge an Beobachtungen stetige Funktionen sind. Das wiederum verändert die
Menge an Wahrscheinlichkeitsmaßen.
• Bei der mathematischen Modellierung ist entscheidend, daß man einen mathematischen
Rahmen findet, der einerseits nach Möglichkeit jedes interessierende Problem beeinhaltet
und andererseits eine physikalische Interpretation jedes Objektes des Rahmen ermöglicht.
Das unterscheidet den vorgestellten Zugang von anderen Zugängen, bei denen ein mathematischer Rahmen postuliert wird und Probleme betrachtet werden, die im Rahmen
dieses Rahmens behandelt werden können. Dabei gibt es meistens keinen physikalischen
Grund, warum man gewisse Probleme, die nicht in den Rahmen passen, nicht behandeln
kann.
• Es gibt bei der Beschreibung von Problemen zwei zueinander duale Seiten, einerseits die
physikalische, die unabhängig vom Beobachter existiert und durch Größen wie Wahrscheinlichkeitsdichten und Trajektorien beschrieben werden kann, und andererseits die
Beobachtungsseite, auf der aus den physikalischen Größen Daten abgeleitet werden. Üblicherweise werden an die physikalischen Größen Bedingungen gestellt, die das Problem
einschränken. Das ist unphysikalisch. Die physikalischen Größen sind wie sie sind. Möglich
ist nur eine geeignete Manipulation der Menge der Beobachtungen. Das ist z.B. wichtig
114
7 THE KAKUTANI-KREIN-STONE THEORY (KKS)
bei der Herleitung von makroskopischen Gleichungen aus mikroskopischen und bei der
Entwicklung von Näherungsverfahren.
• Der mathematische Rahmen ist für jedes klassische Problem geeignet. Was das bedeutet,
wird klar, wenn man untersucht, was für Systeme mit diesem mathematischen Rahmen
nicht beschrieben werden können. Solche Systeme sind nicht-klassisch. Das ist z.B. ein
Quantensystem. Zwei entscheidende Eigenschaften eines Quantensystems bewirken, daß
sie in den betrachteten Rahmen nicht passen:
– Zustandraum ist nicht kompakt
Axiomatisch wird ein Quantensystem folgendermaßen beschrieben: Es wird ein Hilbertraum H postuliert. Der Zustand eines Quantensystems ist ein Punkt ψ (genannt
Wellenfunktion) der Einheitssphäre in H. Die Einheitssphäre im Hilbertraum ist im
allgemeinen nicht kompakt in der starken Topologie in H. Die schwache Topologie
ist nicht geeignet, weil man dann keine Evolutionsgleichungen der Form i~ψ̇ = Hψ
(Schrödingergleichung) aufstellen kann. Hier ist H der Hamiltonoperator.
– Beobachtungen kommutieren nicht
Eine Beobachtung wird in der Quantenmechanik definiert durch einen selbstadjungierten Operator A in H. Das Ergebnis der Beobachtung ist (Aψ, ψ). Im allgemeinen
gilt AB 6= BA (Heisenbergsche Unschärferelation) für zwei Beobachtungen A und
B. Die Algebra der Beobachtungen ist nicht kommutativ. Für klassische Systeme
ist die Algebra der Beobachtungen (punktweise Multiplikation stetiger Funktionen)
kommutativ.
Damit erhält man eine Definition, wann ein physikalisches System klassisch ist: Wenn der
Zustandsraum kompakt ist und Beobachtungen kommutieren.
Bemerkung: Beschränkt man sich auf separable Hilberträume und kommutierende Beobachtungen (dann gibt es eine abzählbare Basis Basis (ψi ) bezüglich der alle Beobachtungen diagonalisierbar sind), kann man anstelle der Einheitssphäre einen kompakten Raum
betrachten (der l2 auf (ψi )). In diesem Fall ist auch ein Quantensystem im klassischen
Rahmen beschreibbar.
137
8
Zustandsänderungen
Bis jetzt haben wir beschrieben, in welchem Rahmen man ein klassisches physikalisches System
beschreiben sollte, was die richtigen mathematischen Räume für Beobachtungen und Zustände
sind.
Im weiteren wollen wir untersuchen, wie Zustandsänderungen beschrieben werden sollten. Eine Zustandsänderung findet statt, wenn das betrachtete physikalische System in verschiedenen Zuständen vorliegen kann. Ein typisches Beispiel sind zwei verschiedene Zeitpunkte. Der
Übergang von einem Zeitpunkt zum anderen ist dann eine Zustandsänderung. Wir werden im
weiteren stets zeitliche Zustandsänderungen betrachten.
Wir wissen aus der Betrachtung extensiver und intensiver Größen, daß Zeitintevalle additiv sind
und gemessen werden können. Ein Zeitintevall ist also eine extensive Größe. Typisch für die
mathematische Beschreibung von zeitabhängigen Prozessen ist, daß “Zeitpunkte” betrachtet
werden, die sich durch reelle Zahlen darstellen lassen. Die physikalische Größe “Zeitintervall”
∆t wird dann als Differenz zweier Zeitpunkte t, t′ ∈ R dargestellt, etwa ∆t = t′ − t > 0. Dabei
wird t < t′ angenommen, was bedeutet, daß sich Zeitpunkte eindeutig ordnen lassen. Diese
völlig intuitive Eigenschaft der Zeit (wir erinnern uns an die Vergangenheit, nicht an die Zukunft) läßt sich nicht physikalisch “herleiten”. Wir nehmen im weiteren an, daß die Zeitrichtung
eines physikalischen Prozesses eindeutig definiert ist, d.h., wir nehmen an, daß bei der Untersuchung der Zustände eines physikalischen Systems völlig klar ist, welcher Zustand “vorher” und
“welcher” nachher vorlag. Es gibt also eine Ordnung der physikalischen Prozesse die identisch
mit der Ordnung der Zeitpunkte ist. Per Definition sagen wir, daß die physikalischen Prozesse
so geordnet sind, daß das was wir intuitiv als Zeit interpretieren, vorwärts läuft.
Mathematisch beschreiben wir Zeitpunkte als Abbildung von N oder Z nach R. Wir nummerieren Zeitpunkte. Diese Form der Beschreibung der Zeit wird “diskret” genannt.
Daneben wird in der Mathematik häufig auch eine “kontinuierliche Zeit” betrachtet und durch
R oder R+ beschrieben. Dabei wird häufig angenommen, daß sich die kontinuierliche Zeit als
Grenzwert immer kleiner werdender Zeitintervalle beschreiben läßt. Das führt zu verschiedenen
Paradoxa. Wir werden deshalb die kontinuierliche Zeit im Newtonschen Sinn als Parameter betrachten, der die Trajektorie eines physikalischen Objektes parametrisiert. Das betrachten wir
als Postulat. Wir nehmen an, daß wenn wir von einer kontinuierlichen Trajektorie (einer kontinuierliche Abfolge von Zuständen) sprechen, daß sich diese Trajektorie im physikalischen Sinne
vorwärts durch einen kontinuierlichen Parameter parametrisieren läßt, den wir Zeit nennen.
Ebenso wie es reine und gemischte Zustände gibt, kann man “reine” und “gemischte” Zustandsänderungen unterscheiden, die hier deterministische und nicht-deterministische Zustandsänderungen genannt werden. Reine Zustände sind Punkte in Z, die man als extremale Elemente
Pe in der Menge aller Zustände P wiederfindet. Der Übergang von Z zu C∗ (Z) war erforderlich,
wenn man neben reinen auch gemische Zustände betrachten möchte. Dabei hat sich herausgestellt, daß es erforderlich ist, als Zwischenschritt Beobachtungen zu betrachten. Mehr noch, die
Beobachtungen haben sich als die primären Objekte herausgestellt.
Sehr ähnlich werden wir Zustandsänderungen betrachten. Ausgehend von deterministischen
Zustandsänderungen, deren Betrachtung in Z möglich ist, werden wir im Bild Pe der kanonischen Einbettung von Z die Objekte suchen, die den deterministischen Zustandsänderungen in
Z entsprechen. Das werden lineare Operatoren in C∗ . Um die zu definieren werden wir als erstes
Beobachtungsänderungen in C beschreiben müssen. Allgemeine Zustandsänderungen werden
dann die lineare Operatoren sein, die physikalische Zustände in ebensolche abbilden.
Den Wertebereich der Zeit werden wir je nach vorliegendem Problem mit T bezeichnen und die
138
8 ZUSTANDSÄNDERUNGEN
Fälle T = N, Z, R+ , R betrachten. Abstrakt, werden wir zwei oder drei Zeitpunkte unterscheiden, die wir mit t, t′ , t′′ bezeichnen und setzen t < t′ < t′′ .
8.1
8.1.1
Deterministische Zustandsänderungen
Definitionen
• Es seien Z, Z′ , Z′′ die Zustandsräume (Kompakt, Hausdorff, 1.AA) zu den Zeitpunkten
t, t′ , t′′ . Meistens werden die Zustandsräume zu verschiedenen Zeitpunkten identisch sein.
Trotzdem wollen wir sie auch in diesem Fall formal durch einen Index unterscheiden. Das
ist wichtig um stets im Bild zu sein, zu welchem Zeitpunkt wir ein mathematisches Objekt
betrachten.
• Eine stetige Abbildung ϕ : Z −
→ Z′ heiße deterministische Zustandsänderung. Wir schrei′
ben ϕ ∈ C(Z, Z ). Manchmal wird C(Z, Z′ ) auch als Hom(Z, Z′ ) – Menge der Homomorphismen – bezeichnet. Hier ist die physikalische Zeitrichtiung festgelegt. Es ist z ∈ Z der
Zustand vor der Zustandsänderung und z ′ = ϕ(z) ∈ Z′ der Zustand danach.
• Die Forderung der Stetigkeit von ϕ bedeutet hier nicht, daß sich die Zustände nur wenig
ändern dürfen. Sie bedeutet, daß sich ähnliche Zustände ähnlich ändern. Es ist klar, daß
sich Zustände, die wir aus gutem Grund als ähnlich, d.h. schlecht unterscheidbar, festgestellt haben auch nach einer Zustandsänderung schlecht unterscheidbar sind. Das bedeutet
nicht, daß die Zustandsräume Z und Z′ homöomorph sein müssen. Es kann durchaus sein,
daß nah beieinander liegende Punkte in Z sich als weit auseinaderliegende Punkte in Z′
herausstellen. Diese Punkte sind in Z′ gut unterscheidbar, ihre Urbilder waren in Z dagegen schlecht unterscheidbar. Aber die Fähigkeit von Z′ , die Punkte gut zu unterscheiden
muß Z′ eben schon bei seiner Definition gehabt haben bzw. hätte berücksichtigt werden
müssen.
• Sind ϕ ∈ C(Z, Z′ ) und ψ ∈ C(Z′ , Z′′ ) deterministische Zustandsänderungen, dann ist
auch ψ ◦ ϕ ∈ C(Z, Z′′ ) eine deterministische Zustandsänderung, weil die Komposition die
Stetigkeit erhält.
• Setzt man die Zustandsräume gleich Z′ = Z, dann ist ϕ ∈ C(Z, Z) = End(Z) ein Endomorphismus.
• Endomorphismen bilden eine Halbgruppe mit id als Einheit.
• Eine Untergruppe der Endomorphismen ist die Gruppe der Automorphismen Aut(Z) also
der Homöomorphismen.
• Ist Z = {z1 , ..., zn }, so besteht End(Z) aus nn diskreten Elementen. Aut(Z) besteht aus
n! Elementen. Das sind gerade die Permutationen.
8.1.2
Diskrete dynamische Systeme
• Ein Paar (Z, ϕ) mit ϕ ∈ End(Z) definiert einen Homomorphismus N −
→ End(Z) durch
0
1
n+1
n
ϕ = id, ϕ = ϕ, ϕ
= ϕ ◦ ϕ . Hier ist N als additive Halbgruppe der natürlichen
Zahlen zu verstehen. Dieser Homomorphismus oder auch das Paar (Z, ϕ) wird zeitdiskretes
dynamisches System genannt.
n
• Für ein gegebenes z0 ∈ Z heißt (zn )∞
n=0 mit zn = ϕ (z0 ) die Trajektorie von z0 .
∞
• Die Folge ϕn n=0 heißt auch diskreter Halbfluß.
8.1 Deterministische Zustandsänderungen
139
n −1
• Ist ϕ ∈ Aut(Z), so kann man auch ϕ−n := (ϕ
) definieren. ϕ definiert dann einen
n ∞
Homomorphismus Z −
→ Aut(Z). Die Folge ϕ n=−∞ heißt diskreter Fluß. Hier ist Z als
additive Gruppe der ganzen Zahlen zu verstehen.
• Ein typisches Beispiel eines diskreten Halbflusses ist die Poincare-Abbildung eines zeitkontinuierlichen dynamischen Systems.
8.1.3
Kontinuierliche dynamische Systeme
• Ein stetiges dynamisches System auf Z ist ein Homomorphismus der additiven Halbgruppe
R+ in die Endomorphismen ϕ : R+ −
→ End(Z). ϕ muß stetig sein. Das heißt, jedes ϕt (z)
ist stetig als Funktion von t und als Funktion von z.
• (ϕt ), t ∈ R mit ϕt2 ◦ ϕt1 = ϕt2 +t1 heißt Halbfluß.
• (zt , t ≥ 0) heißt Trajektorie (oder auch Orbit).
• Es kann sein, daß für spezielle Z und unter zusätzlichen Regularitätsbedingungen an
ϕt , von einer Zeitableitung
żt der Trajektorie gesprochen werden kann und der Größe
d
a(z) = dt ϕt (z) t=0 – genannt Vektorfeld des dynamischen Systems – ein Sinn gegeben
werden kann. Dann heißt żt = a(zt ) mit dem Anfangswert z0 Evolutionsgleichung des
dynamischen Systems.
• Die analogen Objekte mit T = R statt T = R+ heißen Fluß.
• Allgemeiner kann man auch zweiparametrische dynamische Systeme (ϕt′ ,t ), t′ > t ≥ 0 mit
ϕt3 ,t2 ◦ ϕt2 ,t1 = ϕt3 ,t1 betrachten.
8.1.4
Was stehen für Aufgaben?
Zu beachten ist, daß jedes ϕ ∈ End(Z) ein diskretes dynamisches System generiert, wogegen
es eine zu klärende Aufgabe ist, wann ein a(z) ein dynamisches System generiert und ob es in
einem gegebenen Raum überhaupt kontinuierliche dynamische Systeme gibt.
Man hat ein physikalisches System, das kann sich in gewissen Zuständen aufhalten. Hierbei
sind folgende Aufgaben denkbar:
• Herleitung einer Evolutionsgleichung für ein gegebenes dynamisches System. Für ein
kontinuierliches dynamisches System bedeutet das folgendes: Die Funktionalgleichung
ϕt2 ◦ ϕt1 = ϕt2 +t1 , der jedes dynamische System genügen muß, ist eine so starke Forderung, daß es bereits durch die Vorgabe eines Vektorfeldes – und damit einer Evolutionsgleichung – eindeutig bestimmt ist. Unter “Herleitung einer Evolutionsgleichung” ist
dann die Bestimmung des Vektorfeldes für das dynamische System zu verstehen.
• Lösung einer gegebenen Evolutionsgleichung. D.h., Bestimmung von (ϕt )t≥0 für gegebenes
Vektorfeld a(z).
• Hat das dynamische System stationäre Zustände? Das sind Zustände, die sich in der Zeit
nicht ändern.
• Hat eine Trajektorie einen Gleichgewichtszustand, d.h, konvergiert sie in irgendeinem Sinn
für t −
→ ∞ gegen einen Zustand?
• Wie verhält sich die Annäherung der Trajektorie an den Gleichgewichtszustand? Kann
man die Geschwindigkeit dieser Annäherung abschätzen?
140
8.1.5
8 ZUSTANDSÄNDERUNGEN
Motivation
Eine Zustandsänderung kann auch nicht deterministisch sein. Dann ist das Problem im Rahmen
von dynamischen Systemen nicht zu betrachten. Es gibt keine Trajektorie im Zustandsraum Z
mehr. In unserem Rahmen, der reine und gemischte Zustände gemeinsam betrachtet, spielt das
aber keine Rolle.
Es stellt sich heraus, daß der Übergang von der deterministischen Beschreibung in Z zur allgemeinen Beschreibung in C − P nicht nur den Kreis der beschreibbaren Probleme vergrößert
sondern auch die analytischen Schwierigkeiten bei der Behandlung stark vereinfacht. Das nennt
man in der Mathematik Regularisierung. Die Probleme, die bei einer deterministischen Beschreibung allgemein waren, werden jetzt linear, kompakt und konvex. Diese Eigenschaften bedingen Folgerungen, die für jedes physikalische System zutreffen: Es existieren stets
stationäre Zustände und Trajektorien können nie divergieren. Genau wie wir die reinen
Zustände in P wiedergefunden haben (das waren Pe , die extremalen Elemente von P), sollten
wir auch die deterministischen Zustandsänderungen in unserer linearen Welt wiederfinden.
Umgekehrt sollte auch jedes stochastische Problem als Grenzfall ein deterministisches Problem
beinhalten. Das folgt aus dem physikaliischen Verständnis von Wahrscheinlichkeiten als Modell
für die Realität unter Informationsmangel. Gibt es diesen Informationsmangel nicht, ist das
Modell deterministisch.
8.2
Heuristik
• Wir gehen von einem ϕ : Z −
→ Z′ aus und fragen, wie sich diese Abbildung in den bidualen
Räumen widerspiegelt. Es ist klar, daß ϕ eine entsprechnde Abbilung Φ : Pe −→ P′e
induziert mit
z ′ = ϕ(z) ⇐⇒ δz ′ = Φ(δz )
• Die stetige Abbildung ϕ : Z −
→ Z′ erzeugt kanonisch einen Kompositionsoperator Mϕ :
C(Z′ ) −
→ C(Z), der zeitlich in die Rückwärtsrichtung abbildet. Mϕ ist ein positiver Operator und hat die Eigenschaft Mϕ 1′ = 1.
• Sein adjungierter Operator M∗ϕ : C∗ (Z) −
→ C∗ (Z′ ) bildet wieder vorwärts in der Zeit ab.
Tatsächlich erfüllt er die Rolle des gesuchten Φ, denn es gilt
hg, M∗ϕ δz i = hMϕ g, δz i = hg ◦ ϕ, δz i = hg, δz ◦ ϕ−1 i = hg, δϕ(z)i = hg, δz ′ i
Da g ∈ C(Z′ ) beliebig ist, ist also M∗ϕ δz = δz ′ .
• Außerdem gilt M∗ϕ P ⊂ P′ . M∗ϕ bildet also physikalisch sinnvoll Zustände auf ebensolche
ab. Man kann ihn also als Zustandsänderung interpretieren.
Beweis: Als adjungierter eines positiven Operators ist M∗ϕ positiv und damit ist M∗ϕ p ≥ 0
für alle p ≥ 0. Außerdem gilt
h1′ , M∗ϕ pi = hMϕ 1′ , pi = h1, pi = 1
P
• Es sei M = ni=1 αi Mϕi eine konvexe Kombination von adjungierten von Kompositionsoperatoren. Auch sie sind positiv und erfüllen M1′ = 1 und damit gilt auch M∗ P ⊂ P′ .
• Die beiden Eigenschaften M ≥ 0 und M1′ = 1 implizieren M∗ P ⊂ P′ . Solchen Operatoren
kann man also einen physikalischen Sinn als Zustandsänderungen geben.
8.3 Mathematische Grundlagen: Beschränkte lineare Operatoren
8.3
8.3.1
141
Mathematische Grundlagen: Beschränkte lineare Operatoren
Definitionen
• Es sei L(X, Y) die Menge der linearen beschränkten Abbildungen zwischen X und Y. Sie
bildet einen linearen Raum.
• X∗ = L(X, R)
• L(X) := L(X, X) (Endomorphismen).
• Es sei A : X −
→ Y eine lineare Abbildung zwischen Banachräumen. Dann ist äquivalent
(siehe z.B. [4, S.71ff]):
–
–
–
–
T ist überall stetig
T ist stetig in einem Punkt
supkxk≤1 kAxk ist beschränkt
Es existiert ein c mit kAxk ≤ ckxk
• Es kann eine Norm kAk = supkxk≤1 kAxk definiert werden. In dieser Norm ist L(X, Y) ein
Banachraum (wenn Y einer ist).
Damit wird L(X) eine Banachalgebra (lineare Operatoren bilden eine Halbgruppe).
• Positive Operatoren: AX+ ⊂ Y+ . Bilden auch einen Verband.
• Ein umkehrbar eindeutiger Operator, dessen inverser auch beschränkt ist heißt invertierbarer. Es ist A−1 : Y −
→ X.
• A ∈ L(X, Y), B ∈ L(Y, Z), (BA)−1 = A−1 B−1
8.3.2
Adjungierte Operatoren
Es sei A : X −
→ Y ein linearer beschränkter Operator und X∗ und Y∗ die zu X bzw. Y dualen
Räume. hAx, y ∗i ist für festes x eine lineare beschränkte Abbildung nach R. D.h. ein Funktional
auf X. Es existiert also ein x∗ sodaß hAx, y ∗i = hx, x∗ i. Wir nennen die Abbildung y ∗ −
→ x∗
∗ ∗
∗
adjungierten Operator und schreiben x = A y .
Der adjungierte Operator hat folgende Eigenschaften:
• Eindeutig definiert, linear, beschränkt
• A∗ ∈ L(Y∗ , X∗ ), d.h., A∗ : Y∗ −
→ X∗ .
Zu beachten ist, daß der adjungierte Operator die dualen Räume in umgekehrter Richtung
abbildet.
• kA∗ k = kAk.
• A ∈ L(X, Y), B ∈ L(Y, Z), dann ist (BA)∗ = A∗ B∗
• A∗∗ = A
X
• Ein Operator in L(Y∗ , X∗ ) muß keinen prädualen besitzen. Im weiteren betrachten wir
nur Operatoren in L(Y∗ , X∗ ), die einen prädualen besitzen.
• ∃ A−1 ⇐⇒ ∃ (A∗ )−1 , (A∗ )−1 = (A−1 )∗
142
8 ZUSTANDSÄNDERUNGEN
• Im Hilbertraum wird häufig von symmetrischen oder selbstadjungierten Operatoren gesprochen, wenn A = A∗ gilt. Es ist klar, daß man in allgemeinen Banachräumen für zwei
Operatoren A : X −
→ Y und A∗ : Y∗ −
→ X∗ Gleichheit nur im Falle von X = Y∗ und Y = X∗ ,
also in reflexiven Banachräumen, definieren kann.
In nichtreflexiven Banachräumen definieren wir Symmetrie folgendermaßen:
Ein Operator A : X −
→ X∗ heißt symmetrisch, wenn die Einschränkung von A∗ : X∗∗ −
→ X∗
auf X mit A übereinstimmt. Dann gilt hx1 , Ax2 i = hx2 , Ax1 i für x1 , x2 ∈ X.
Ist X ein Hilbertraum, dann ist diese Definition mit der im Hilbertraum gebräuchlichen
identisch. Analoges gilt für reflexive Räume.
Der Begriff selbstadjungierter Operator wird im allgemeinen verwendet für symmetrische
unbeschränkte Operatoren mit zusätzlichen Einschränkungen. Ein beschränkter symmetrischer Operator ist immer selbstadjungiert.
• Im endlich dimensionalen Raum bedeutet der Übergang zum adjungierten Operator das
Transponieren der Matrix. Man sieht, daß die transponierte Matrix zwischen anderen
Räumen abbildet als die Matrix selbst, wenn man rechteckige Matrizen betrachtet.
8.3.3
Weitere Eigenschaften. Bemerkungen
• Definitionsbereich ist immer ein linearer Raum, auch wenn wir uns nur für eine konvexe
Menge interessieren.
• Topologien in L(X, Y) siehe DS I S.512ff
• Konvexe Teilmengen in L(X, Y) haben den selben starken und schwachen Abschluß (DS
I S.514 Nr.5)
• Unterräume
• Kern, Image, Definitionsbereich eines Operators.
• Abgeschlossene Operatoren (DS I S.524). Bei beschränkten Operatoren bedeutet Abgeschlossenheit, daß der Wertebereich abgeschlossen ist.
• AX = {y | A∗ y ∗ = 0 =⇒ hy, y ∗i = 0}
• Die Umkehrung: A∗ Y∗ = {x∗ | Ax = 0 =⇒ hx, x∗ i = 0} Stimmt im Allgemeinen nicht.
Aber es gilt: AX = AX ⇐⇒ A∗ Y∗ = A∗ Y∗
• Kompakte Operatoren (DS I S.522)
• Schwach kompakte Operatoren (d.h., sie bilden abgeschlossene beschränkte Mengen in
kompakte ab): A ist schwach kompakt ⇐⇒ A∗∗ X∗∗ ⊂ X (siehe DS I S.519)
• A ist stetig bedeutet, daß aus xn −
→ x folgt Axn −
→ Ax.
• ÜA 24 a) A stetig =⇒ A schwach stetig. Beweis:
• ÜA 24 b) A stetig =⇒ A∗ vage stetig. Beweis:
8.3 Mathematische Grundlagen: Beschränkte lineare Operatoren
8.3.4
143
Darstellung beschränkter Operatoren in C und seinen dualen
Aus der Theorie der Operatoren im endlichdimensionalen Raum ist bekannt, daß man Operatoren durch Matrizen darstellen kann. Diese Darstellung hängt von den gewählten Basen ab.
Es sei A : Rn −
→ Rm ein Operator und (ei ) ⊂ Rn , (ej ) ⊂ Rm , (e∗i ) ⊂ R∗n , (e∗j ) ⊂ R∗m Basen.
Dann ist bekannt, daß man dem Operator A eine Matrix (aij )n,m
i,j=1 zuordnen kann. Diese Matrix
erhält man als Wirkung des Operators in dieser Basis in der dualen Paarung. Es ist
aij = hAei , e∗j i
Mit dieser Matrix läßt sich die Wirkung des Operators als Summe darstellen:
(Ax)j =
n
X
aij xi .
i=1
Der adjungierte Operator A∗ : R∗m −
→ R∗n hat wegen aij = hAei , e∗j i = hei , A∗ e∗j i dieselbe Matrix.
Seine Wirkung läßt sich wieder als Summe
∗ ∗
(A y )i =
m
X
aij yj∗
j=1
darstellen. Die Summation läuft über den anderen Index. Das heißt, die Matrix des adjungierten
Operators ist die transponierte des ursprünglichen Operators.
Meistens wählt man in Rm und R∗m dieselbe Basis – die kanonische Basis ej = (0, ..., 0, 1, 0, ..., 0)
mit einer 1 an der j-ten Stelle. Aus dem Kapitel 3, Punkt 3.3.8 (Seite 30) ist bekannt, daß diese
Vektoren zwar die kanonische Basis in R∗m sind, aber es in Rm natürlicher ist, die Darstellungen
von Teilmengen (und nicht von Punkten) zu betrachten. Sie bilden zwar keine Basis, ergaben
sich aber kanonisch als Einbettung 2Z ⊂ Z∗ = C(Z). Im endlichdimensionalen Raum wird das
nicht gemacht, eben weil die Teilmengen keine Basis bilden. Dieser prinzipielle Unterschied
zwischen Rm und R∗m läßt sich ignorieren.
Im unendlichdimenionalen Raum ist das nicht mehr möglich. Es gibt in C(Z) keine kanonische
Basis. In C∗ (Z) gibt es eine kanonische Basis – nämlich Pe – allerdings ist das eine vage Basis.
Definition: Eine Menge (xn ) heißt starke/schwache/vage Basis in P
X, wenn es zu jedem x ∈ X
eine eindeutig bestimmte Folge (an ) von Skalaren derart gibt, daß ni=1 ai xi mit n −
→ ∞ gegen
x stark/schwach/vage konvergiert. Spricht man allgemein von “Basis”, meint man eine starke
Basis.
In C(Z) und C∗ (Z) gibt es im allgemeinen keine kanonischen starken Basen. Trotzdem läßt sich
auch im allgemeinen Fall für jeden beschränkten linearen Operator A : C(Z′ ) −
→ C(Z) soetwas
wie eine “Matrix” finden. Sie wird Integralkern genannt. Man findet ihn formal, wenn man
den Operator A∗∗ : C∗∗ (Z′ ) −
→ C∗∗ (Z) (das ist der zu A∗ : C∗ (Z) −
→ C∗ (Z′ ) adjungierte Operator)
auf die “kanonische Basis” (1B′ ) ⊂ C∗∗ (Z′ ), B ′ ∈ B(Z′ ) anwendet (das entspricht (ei ) ∈ Rn )
und mit der kanonischen Basis (δz ) ⊂ C∗ (Z) (das entspricht (e∗j ) ∈ R∗m ) paart. Das ergibt
a(B ′ , z) = hA∗∗ 1B′ , δz i
Die Wirkung des Operators A : C(Z′ ) −→ C(Z) läßt sich dann nach dem Satz von Riesz als
Lebesgueintegral mit dem Integralkern a(B ′ , z) darstellen
Z
(Ag)(z) =
g(z ′ )a(dz ′ , z) .
(25)
Z′
144
8 ZUSTANDSÄNDERUNGEN
In dieser Darstellung ist a(·, z) als Schar von Maßen mit dem Scharparameter z zu verstehen.
Für festes z ist a(·, z) ein Maß, das auf Borelmengen
definiert ist, d.h. der Ausdruck a(B ′ , z) mit
R
B ′ ∈ B(Z′ ) hat Sinn. Das
g(z ′ )a(dz ′ , z) ist dann genauso zu verstehen wie
Z′
R Lebesgueintegral
das Lebesgueintegral Z′ g(z ′ )p(dz ′ ) mit einem Maß p ∈ C∗ (Z′ ), für das p(B ′ ) mit B ′ ∈ B(Z′ )
Sinn hat. p(dz ′ ) ist soetwas wie “das Maß p ausgewertet auf einer Infinitesimalen Borelmenge
dz ′ ∈ B(Z′ )”.
R
Bemerkung: Hier sieht man, daß für das Lebesgueintegral
die
Notation
g(z)p(dz) intuiP
tiv verständlich ist alsR Grenzwert von Summen
g(z
)p(B
)
mit
“B
−
→
{z
i
i
i
i }”. Die häufig
i
verwendete
Notation g(z)dp(z) ist intuitiv eigentlich als Grenzwert von Summen der Form
P
g(z
)(p(z
i
i ) − p(zi−1 )) zu verstehen und ist damit nicht für das Lebesgue- sondern für das
i
Stieltjesintegral (eine Verallgemeinerung des Riemannintegrals) geeignet.
Tatsächlich ist die Darstellung (25) nicht nur formal richtig. Ag ist ein Element aus C(Z), also
eine stetige Funktion Z −
→ R. Diese Funktion kann also am Punkt z ausgewertet werden. Das
sei (Ag)(z). Offensichtlich ist das für festes z ∈ Z und beliebiges g ∈ C(Z′ ) ein lineares (weil A
linear ist) und beschränktes (weil A beschränkt ist) Funktional, also ein Element aus C∗ (Z′ ).
Wir nennen es az , wobei der Index z den festgehaltenen Parameter z ∈ Z bezeichnet. Es ist also
(Ag)(z) = haz , gi. Das ist gerade die Darstellung (25) (unter Berücksichtigung des Rieszschen
Satzes) mit az = a(·, z).
Und umgekehrt, jede Schar (az )z∈Z ⊂ C∗ (Z′ ) definiert durch (Ag)(z) = haz , gi einen linearen Operator, der allerdings nur dann ein beschränkter Operator ist, wenn die Schar (az )z∈Z
bezüglich des Parameters z vage stetig ist.
Es gilt folgender
Satz: (siehe DS I, S.527ff, Semadeni S.323) Zu jedem A ∈ L(C(Z′ ),C(Z)) existiert eine Abbildung a : B(Z′ ) × Z −
→ R mit a(·, z) ∈ C∗ (Z′ ), die als Schar a(·, z) z∈Z vage stetig ist, derart,
daß (Ag)(z) = hg, a(·, z)i und kAk = supz∈Z ka(·, z)k.
Und umgekehrt: Jede vage stetige Schar a(·, z) z∈Z ⊂ C∗ (Z′ ) definiert einen beschränkten
linearen Operator aus L(C(Z′ ), C(Z)).
Bemerkung: Der Begriff “Integralkern” eines Operators (häufig auch einfach “Kern” des Operators) genannt, darf nicht mit dem Begriff “Kern” des Operators im Sinne von Nullraum (die
Punkte, die in die 0 abgebildet werden) verwechselt werden.
Der adjungierte zu A Operator A∗ : C∗ (Z) −→ C∗ (Z′ ) läßt sich ebenfalls als Integraloperator
darstellen. Es sei p ∈ C∗ (Z), dann ist A∗ p ∈ C∗ (Z′ ) ebenfalls ein Maß, das sich auf Borelmengen
B ′ ∈ B(Z′ ) auswerten läßt. Wir berechnen (A∗ p)(B ′ ): Wegen
Z
Z Z
Z
∗
′
′
′
′
hg, A pi = hAg, pi =
g(z )a(dz , z) p(dz) =
g(z )
a(dz , z)p(dz)
Z
Z′
Z′
Z
ist (A∗ p)(dz ′ ) = Z a(dz ′ , z)p(dz) und damit
Z
∗
′
(A p)(B ) = a(B ′ , z)p(dz)
R
Z
Dieser Ausdruck ist folgendermaßen zu verstehen: Wir fixieren B ′ ∈ B(Z′ ). Dann ist a(B ′ , ·)
eine stetige Funktion in C(Z). Wir können sie dual mit einem p ∈ C∗ (Z) paaren. Das Ergebnis
ist (A∗ p)(B ′ ).
8.4 Markowoperatoren
8.4
137
Markowoperatoren
Im Gegensatz zu dynamischen Systemen, bei denen ϕ : Z −
→ Z′ eine beliebige stetige, vorwärts
in der Zeit abbildende Abbildung war, sind im C − P-Kontext nur lineare Abbildungen (lineare Operatoren) als Zustandsänderung von Interesse. Mit den heuristischen Betrachtungen
im Abschnitt 8.2 auf Seite 130 haben wir uns klargemacht, daß physikalsich sinnvolle Zustandsänderungen lineare Operatoren sind, die P(Z) nach P(Z′ ) abbilden. Diese Eigenschaft
haben Operatoren M∗ , die adjungierte von Operatoren M : C(Z′ ) −
→ C(Z) mit den Eigenschaften M ≥ 0 und M1′ = 1, sind. Solche Operatoren heißen Markowoperatoren.
Es zeigt sich, daß auch die Umkehrung in folgendem Sinne gilt: Falls ein Operator der adjungierte eines Operators ist und P(Z) nach P(Z′ ) abbildet, dann ist er der adjungierte eines
Markowoperators.
Es gibt Operatoren, die P(Z) nach P(Z′ ) abbilden und nicht adjungierte Operatoren sind (also
keinen präadjungierten besitzen). Es ist aus verschiedenen Gründen sinnvoll, solche Operatoren
nicht zu betrachten. Im weiteren werden
wir stets ohne es explizit zu erwähnen,
annehmen, daß
ein Operator aus L C∗ (Z), C∗ (Z′ ) einen präadjungierten aus L C(Z′ ), C(Z) besitzt.
8.4.1
Definition und wichtigste Eigenschaften
Markowoperatoren sind positive und 1 erhaltende Operatoren. Wir bezeichen die Menge der
Markowoperatoren mit
M Z′ ), Z = M ∈ L C(Z′ ), C(Z) | M ≥ 0, M1′ = 1
Im Falle Z′ = Z bezeichnen wir die Menge der Markowoperatoren mit M(Z). Wo klar
ist,
′
zwischen welchen Räumen die Operatoren wirken, schreiben wir M anstelle von M Z ), Z oder
M(Z).
Wir fassen die wichtigsten Eigenschaften von Markowoperatoren zusammen und beweisen sie
anschließend in einzelnen Sätzen, die zum Teil allgemeiner sind und insbesondere Umkehrungen
enthalten.
•
•
•
•
•
M ∈ M ⇐⇒ M∗ P ⊂ P
|Mg| ≤ M|g|
kMk = 1
M ist konvex.
M(Z) bildet eine Halbgruppe. Die Identität I ist die Einheit.
Satz: M ≥ 0 ⇐⇒ M∗ ≥ 0.
Beweis(=⇒): Es sei p ≥ 0, es ist zu zeigen, daß hg, M∗pi ≥ 0 für alle g ≥ 0. Es sei g ≥ 0 beliebig.
Dann ist auch Mg ≥ 0, da M ≥ 0. Es folgt hMg, pi ≥ 0, weil p ≥ 0. Aber hMg, pi = hg, M∗ pi.
Beweis(⇐=): Analog.
Satz: M1′ = 1 ⇐⇒ h1, pi = 1 =⇒ h1, M∗ pi = 1, p ∈ P .
Beweis(=⇒): Es sei M1′ = 1 und h1, pi = 1. Dann gilt
1 = h1, pi = hM1, pi = h1, M∗ pi
Beweis(⇐=): Sei umgekehrt h1, pi = 1 und h1, M∗ pi = 1 für p ∈ P. Dann folgt hM1 − 1, pi = 0
für alle p ∈ P. Da P total in C∗ ist, folgt M1 − 1 = 0.
Folgerung: M ≥ 0, M1 = 1 ⇐⇒ M∗ P ⊂ P′ .
138
8 ZUSTANDSÄNDERUNGEN
Satz: (1184 S.135) |Mg| ≤ M|g| ⇐⇒ M ≥ 0
Beweis(=⇒): g ≥ 0, 0 ≤ |Mg| ≤ M|g| = Mg
Beweis(⇐=): |Mg| = |M(g+ − g− )| = |Mg+ − Mg− | ≤ |Mg+ | + |Mg− | = Mg+ + Mg− =
M(g+ + g− ) = M|g|.
Die Positivität wurde im Schritt |Mg± | = Mg± benutzt.
Satz: (siehe 1184 S.169) Es sei M1 = 1. Dann
ist M ≥ 0 ⇐⇒ kMk ≤ 1
Beweis(=⇒): M ≥ 0 =⇒ |Mg| ≤ M|g| ≤ Mkgk · 1 = kgk =⇒ supg |Mg| ≤ kgk =⇒ kMk ≤ 1.
Tatsächlich gilt kMk = 1, wenn man g = 1 setzt.
Beweis(⇐=): Zum Beweis benutzen wir die Äquivalenz
kg − f k ≤ r ⇐⇒ f − r 1 ≤ g ≤ f + r 1
Es sei 0 ≤ g ≤ 2 =⇒ −1 ≤ g − 1 ≤ 1 =⇒ kg − 1k ≤ 1 Jetzt gilt
kMg − 1k = kMg − M1k = kM(g − 1)k ≤ kg − 1k ≤ 1
=⇒ −1 ≤ Mg − 1 ≤ 1 =⇒ 0 ≤ Mg ≤ 2.
Satz: M ist konvex.
Beweis: Es sei M1 , M2 ∈ M und α1 , α2 ∈ R mit α1 ≥ 0, α2 ≥ 0 und α1 + α2 = 1. Wir beweisen
α1 M1 + α2 M2 ∈ M:
Da α1 ≥ 0, α2 ≥ 0 und die Menge der positiven Operatoren einen Kegel bilden, ist auch
α1 M1 + α2 M2 ≥ 0.
Weiter gilt (α1 M1 + α2 M2 )1′ = α1 M1 1′ + α2 M2 1′ = α1 1 + α2 1 = (α1 + α2 )1 = 1.
Satz: M(Z) bildet eine Halbgruppe. Die Identität I ist die Einheit.
Beweis: Es sei M1 , M2 ∈ M(Z). Wir beweisen M2 M1 ∈ M(Z).
Es sei g ≥ 0, dann ist M1 g ≥ 0 und M2 (M1 g) ≥ 0, weil M1 , M2 positive Operatoren sind.
Es sei Mi 1 = 1. Dann ist M2 M1 1 = M2 1 = 1.
Zum Beweis, daß I die Einheit ist, ist zu zeigen, daß I Markowoperator ist, was wegen Ig = g
für alle g ∈ C(Z) offensichtlich ist.
8.4.2
Beispiele
→ R eine stetig differenzierbare, monoton nicht
ÜA 28) Es sei Z = Z′ = [0, 1]. und h : [0, 1] −
fallende Funktion mit h(0) = 0 und h(z) > 0 für z > 0. Wir definieren einen Operator
M : C(Z′ ) −
→ C(Z) durch
Z z
1
(Mg)(z) =
h′ (z ′ )g(z ′ )dz ′
h(z) 0
Beweisen Sie, daß es sich um einen Markowoperator handelt. Bestimmen Sie den adjungierten Operator.
ÜA 29) Es sei (Z, C, P) (Z′ , C′ , P′ ) gegeben. Es seien h1 , ..., hn ∈ C. Weiter seien A1 , ..., An
disjunkte abgeschlossene Teilmengen von Z′ und p1 , ..., pn W-Maße aus P′ mit pi (Ai ) = 1.
Welche Eigenschaften müssen die hi haben, damit der Operator
Xn
hg, pi ihi
Mg =
i=1
ein Markovoperator M : C(Z′ ) −
→ C(Z) ist? Wann ist M ein Projektor?
139
8.4 Markowoperatoren
8.4.3
Darstellung von Markowoperatoren. Bedeutung des Integralkerns
Wie jeder beschränkten Operator kann man auch Markowoperatoren auf eindeutige Weise als
Integraloperatoren mit einem Integralkern ω(B ′ , z) darstellen. Es gilt
Z
(Mg)(z) =
g(z ′ )ω(dz ′ , z) = hg, ω(·, z)i
(26)
′
Z
Z
∗
′
(M p)(B ) =
ω(B ′ , z)p(dz) = hω(B ′, ·), pi
(27)
Z
Der Integralkern ω hat folgende speziellen Eigenschaften, die aus den Eigenschaften von Markowoperatoren folgen.
• ω(B ′ , z) ≥ 0 (folgt aus M ≥ 0)
• ω(Z′ , ·) = 1 (folgt aus M1′ = 1)
• ω : B′ × Z −
→ [0, 1]
• ω(·, z) ∈ P(Z′ )
• ω(B ′ , ·) ∈ C(Z)
Offenbar ist ω(B ′ , z) = (M∗ δz )(B ′ ). Die Funktion ω(B ′, z) läßt sich für festes z als Wahrscheinlichkeit interpretieren, nämlich als Wahrscheinlichkeit, daß sich das System nachher (nach der
Zustandsänderung) in einem Zustand aus B ′ befindet, wenn es sich vorher im Zustand z befand.
Daher wird der Integralkern ω(B ′, z) oft auch als Übergangswahrscheinlichkeit bezeichnet.
Die Menge der Markovoperatoren M(Z) ist eine konvexe Untermenge der Algebra L(C) und
bildet eine nichtkommutative Halbgruppe weil M = M2 M1 wieder Markovoperator ist.
Hieraus folgt, daß für die Kerne (das seien entsprechend ω, ω2, ω1 )
Z
ω(B, z) = ω2 (B, ·), ω1 (·, z) = ω2 (B, z ′ )ω1 (dz ′ , z)
Z
gilt. Diese Eigenschaft heißt manchmal auch Markowbedingung. Hier ist sie eine Folge davon,
daß M eine Halbgruppe ist und keine zu fordernde Bedingung.
8.4.4
Ungleichungen mit Markowoperatoren
Markowoperatoren genügen einer Vielzahl von fundamentalen Ungleichungen, die relativ einfach
zu beweisen sind.
• |Mg| ≤ M|g| (siehe Satz auf S. 148).
• gmin ≤ (Mg)(z) ≤ gmax
Beweis: Folgt aus gmin 1 ≤ g ≤ gmax 1 nach Anwendung von M auf diese Ungleichung.
Bemerkung: Diese Ungleichung wird häufig “Maximumprinzip” genannt und bezeichnet
die Eigenschaft von gewissen Differentialgleichungen, daß der Wertebereich der Lösung innerhalb gewisser Grenzen bleibt. Das hängt damit zusammen, daß die Lösungsoperatoren
dieser Differentialgleichungen Markowoperatoren sind.
• MC[a,b] ⊂ C[a,b] (ist einen andere Formulierung des Maximumprinzips).
140
8 ZUSTANDSÄNDERUNGEN
• (M − I)g (zmax ) ≤ 0 ≤ (M − I)g (zmin ).
Beweis: Folgt aus gmin = g(zmin ) ≤ (Mg)(zmin ) und (Mg)(zmax ) ≤ g(zmax ) ≤ gmax
Des weiteren gibt es viele Ungleichungen, die für reelle Zahlen bekannt sind und sich wörtlich auf
Markowoperatoren übertragen lassen. Der Beweis kann häufig nach der selben Methode ablaufen, die gleich für die Tschebyschew-Ungleichung demonstriert wird. Der Beweis basiert darauf,
daß zwischen Ungleichungen für reelle Zahlen wie g(z) ≥ 0 und Ungleichungen für Funktionen
g ≥ 0 hin- und hergesprungen wird, indem man die Argumente fixiert bez. beweglich läßt.
Das ist möglich, weil Markowoperatoren positive Operatoren sind und deshalb auf Ungleichungen angewendet werden können. Außerdem bewirkt die 1-Erhaltung, daß Markowoperatoren
Skalare nicht verändern, indem Sinn, daß M(c1) = cM1 = c1 gilt.
• Tschebyschew-Ungleichung:
Es seien f und g gleichsinnig monoton, dann gilt Mg · Mf ≤ M(g · f ).
Beweis: Zwei Funktionen f und g heißen gleichsinnig monoton, wenn für alle z, z ′ ∈ Z
gilt (beachte, daß die Funktionen selbst nicht monoton sein müssen):
f (z) − f (z ′ ) g(z) − g(z ′ ) ≥ 0
In dieser Ungleichung fixieren wir als erstes z ′ und wenn dann M auf die Ungleichung mit
beweglichem z an. Anschließend wird dasselbe nochmal für z durchgeführt. Das ergibt
folgende Ungleichungskette:
0 ≤ f (z) − f (z ′ ) g(z) − g(z ′ ) = f (z)g(z) − f (z ′ )g(z) − g(z ′ )f (z) + f (z ′ )g(z ′ )
0 ≤ f · g − f (z ′ ) · g − g(z ′ ) · f + f (z ′ )g(z ′ ) · 1
0 ≤ M(f · g) − f (z ′ ) · Mg − g(z ′ ) · Mf + f (z ′ )g(z ′ ) · 1
0 ≤ M(f · g) (z) − f (z ′ ) · (Mg)(z) − g(z ′ ) · (Mf )(z) + f (z ′ )g(z ′ )
0 ≤ M(f · g) (z) · 1 − (Mg)(z) · f − (Mf )(z) · g + f · g
0 ≤ M(f · g) (z) · 1 − (Mg)(z) · (Mf ) − (Mf )(z) · Mg + M(f · g)
0 ≤ M(f · g) · 1 − (Mg) · (Mf ) − (Mf ) · (Mg) + M(f · g)
0 ≤ 2 M(f · g) − 2(Mg) · (Mf )
• Cauchy-Bunjakowski-Schwarz-Ungleichung:
2
M(f · g) ≤ Mf 2 · Mg 2
Beweis: Wie eben erhalten wir ausgehend von einer offensichtlichen Ungleichung für
reelle Zahlen eine Ungleichung für Markowoperatoren:
2
0 ≤ f (z)g(z ′ ) − f (z ′ )g(z) = f 2 (z)g 2 (z ′ ) + f 2 (z ′ )g 2 (z) − 2f (z)g(z)f (z ′ )g(z ′ )
0 ≤ g 2 (z ′ ) · f 2 + f 2 (z ′ ) · g 2 − 2f (z ′ )g(z ′ ) · f · g
0 ≤ g 2 (z ′ ) · Mf 2 + f 2 (z ′ ) · Mg 2 − 2f (z ′ )g(z ′ ) · M(f · g)
0 ≤ g 2 (z ′ ) · (Mf 2 )(z) + f 2 (z ′ ) · (Mg 2 )(z) − 2f (z ′ )g(z ′ ) · M(f · g) (z)
0 ≤ (Mf 2 )(z) · g 2 + (Mg 2 )(z) · f 2 − 2 M(f · g) (z) · f · g
0 ≤ (Mf 2 )(z) · (Mg 2 ) + (Mg 2 )(z) · (Mf 2 ) − 2 M(f · g) (z) · M(f · g)
0 ≤ 2(Mf 2 ) · (Mg 2 ) − 2 M(f · g) · M(f · g)
8.4 Markowoperatoren
141
Bemerkung:
Im endlich dimensionalen Fall sind das Ungleichungen für Matrizen, die man explizit beweisen
kann. Dabei wird deutlich, wie die Beweise “im Inneren” ablaufen.
8.4.5
Die Jensensche Ungleichung in C × P
Im weiteren sei stets F : R −
→ R ∪ {+∞} eine konvexe Funktion.
Satz: Es sei g ∈ C(Zn ) und p ∈ P(Zn ). Dann gilt
!
n
n
X
X
pi F (zi ) ≥ F
pi zi
i=1
i=1
Satz: Es sei z1 , ..., zn ∈ Z und p ∈ P(Zn ). Dann gilt
hF (g), pni ≥ F (hg, pni)
(28)
Satz: Es sei g ∈ C(Z) und p ∈ P(Z). Dann gilt
hF (g), pi ≥ F (hg, pi)
(29)
Satz: Es sei g ∈ C(Z) und M ∈ M(Z). Dann gilt
MF (g) ≥ F (Mg)
(30)
Satz: Es sei g ∈ C(Z), p ∈ P(Z) und M ∈ M(Z). Dann gilt
hF (g), M∗ pi = hMF (g), pi ≥ hF (Mg) , pi
(31)
Die letzte Ungleichung heißt Karamata-Ungleichung und kann auch äquivalent als
hF (g ′ ), p′i ≥ hF (g), pi
mit p′ = M∗ p und g = Mg ′ , geschrieben werden.
8.4.6
Markowketten
Findet in jedem Zeittakt dieselbe Zustandsänderung statt, erhält man eine Folge von Zuständen,
die Markowkette genannt wird.
• Definition 1: Eine Folge von Maßen (p0 , p1 , ...) heißt Markowkette, falls es einenMarkowoperator M gibt, sodaß pn+1 = M∗ pn .
• Definition 2: Eine Markowkette ist ein Paar (M, p0 ). Die Trajektorie der Markowkette
heißt die Folge (p0 , M∗ p0 , (M∗ )2 p0 , ...)
• Wir sagen einfach: Ein Markowoperator generiert eine M-Kette und interessieren uns für
die Folge der Potenzen eines gegebenen Markowoperators. Insbesondere interessiert uns,
ob es ein M∞ = lim Mn gibt.
n→∞
142
8.4.7
8 ZUSTANDSÄNDERUNGEN
Beispiel. Der Fall n = 2
Für Z = {1, 2} gibt es vier mögliche Funktionen ϕ : Z −
→ Z. Ihnen entsprechen die 4 deterministischen M-Operatoren
0 1
1 0
0 1
1 0
, M11 =
, M10 =
, M01 =
M00 =
1 0
1 0
0 1
0 1
Invertierbar sind M00 und M11 .
Ein allgemeiner Markowoperator hat die Matrix
1−a
a
1 0
−a
a
M=
=
+
=I+B
b
1−b
0 1
b −b
mit a, b ∈ [0, 1]. D.h., jedem Punkt aus [0, 1] × [0, 1] kann eineindeutig ein Markowoperator
zugeordnet werden. Die deterministischen Markowoperatoren sind die extremalen Elemente
dieser Menge.
Wie berechnen Mn . Dazu zerlegen wir M. Es ist
1
1 −a
1
0
1−a
a
b a
−1
−1
, C =
C , C=
=C
M=
1
b
0 1−a−b
b
1−b
a + b −1 1
Hieraus folgt
1
b + a(1 − a − b)n a − a(1 − a − b)n
1
0
−1
n
C =
M =C
0 (1 − a − b)n
a + b b − b(1 − a − b)n a + b(1 − a − b)n
Man sieht, daß genau im Fall |1 − a − b| = β < 1 ein Grenzwert
1
b a
∞
P=M =
a+b b a
existiert. Es ist
1
p1
b b
∗
=
P p=
p2
a+b a a
b
a+b
a
a+b
=µ
P∗ ist ein Projektor auf den von µ aufgespannten Unterraum.
Die Gleichung, die zu M∗ = I∗ + B∗ gehört ist
p1 (n + 1) = p1 (n) − ap1 (n) + bp2 (n)
p2 (n + 1) = p2 (n) + ap1 (n) − bp2 (n)
Man kann diese Gleichung auf zwei Weisen interpretieren:
• Es wird mit Wahrscheinlichkeit a vom Zustand 1 in den Zustand 2 und mit Wahrscheinlichkeit b vom Zustand 2 in den Zustand 1 gewechselt. Die Komplemente 1 − a und 1 − b
bedeuten, daß kein Zustandswechsel stattfindet.
• Es findet zwischen den beiden Zuständen 1 und 2 ein Austausch statt. Zu dem Anteil,
der schon da ist, wird der a-te Anteil 1 −
→ 2 und der b-te Anteil 2 −
→ 1 transportiert.
143
8.4 Markowoperatoren
8.4.8
Ereignisketten und Markowketten
Änderungen im Raum der physikalischen Zustände P werden durch adjungierte von Markowoperatoren beschrieben. Die Trajektorie eines physikalischen System, das im Zustand p0 startet,
kann dann beschrieben werden durch eine Abfolge von Operatoren, die von einer diskreten
(Zeitsprünge t0 → t1 , t1 → t2 , t3 → t4 ) oder kontinuierlichen Zeit (t2 ≤ t ≤ t3 ) abhängen:
p0
M∗ (t0 →t1 )
→
−
p1
M∗ (t1 →t2 )
→
−
p2
M∗ (t2 ≤t≤t3 )
→
−
p3
M∗ (t3 →t4 )
→
−
p4 ...
Ziel ist es, bei gegebenen Operatoren (Zustandsänderungen) die möglichen Zustände zu berechnen.
Die einfachsten solchen Ketten mit diskreter Zeit sind Markowketten.
8.4.9
Markowprozesse
Wir hatten Markowketten als Folgen von Maßen (p0 , p1 , p2 , ...) ⊂ P mit pn+1 = M∗ pn definiert
mit einem Markowoperator M. Betrachtet man seine Potenzen als Funktion des Exponentes
T(n) = Mn , dann ist T : N −
→ M wegen T(n + m) = T(n)T(m) = T(m)T(n) und T(0) = I
ein Homomorphismus der kommutativen Halbgruppe N bezüglich der Addition.
Analog kann man Homomorphismen der kommutativen Halbgruppe R+ bezüglich der Addition
betrachten: T : R −
→ M. T(t) ist eine Operatorenhalbgruppe mit den Eigenschaften
T(0) = I
T(t1 + t2 ) = T(t1 )T(t2 ) = T(t2 )T(t1 )
Die Trajektorie p(t) = T∗ (t)p0 in P wird Markowprozeß genannt.
Analog dazu, wie ein Markowoperator M (als erster Schritt) zusammen mit eimen Anfangswert p0 eine gesamte Markowkette T(n) = Mn definiert, definiert der Operator A (genannt
Generator) durch die Differentialgleichung
ṗ(t) = A∗ p(t), p(0) = p0
einen Markowprozeß T(t) = eAt .
Während bei Markowketten M = T(1) gilt, gilt bei Markowprozessen A = T′ (0). Allerdings
ist der Zusammenhang zwischen Generator, Differentialgleichung und Halbgruppe nicht trivial
(im Gegensatz zu Markowketten) und wird durch relativ komplizierte Theoreme hergestellt.
Damit beschäftigen wir uns im Kapitel 11.
Ist eine Operatorhalbgruppe T(t) gegeben, so ist für alle t2 > t1 ≥ 0 der Operator T(t2 − t1 )
ein Markowoperator und beschreibt durch
p(t2 ) = T∗ (t2 − t1 )p(t1 )
eine Zustandsänderung.
Die Logik ist folgende: Wenn ich annehme, daß meine Trajektorie aus irgendeinem Grund eine
Halbgruppe ist, stellt sich heraus, daß sie mit eine Diffgl. beschrieben werden kann. Es ist nicht
so, daß diese Gleichung die einzig sinnvolle ist und deshalb alle Trajektorien Halbgruppen sind.
Wenn heute häufig solche Gleichungen untersucht werden, dann liegt das nicht an ihrer physikalischen Unversalität sondern daran, daß sich diese Gleichung besonders einfach behandeln
läßt und es eine ausgearbeitet Theorie dazu gibt. Und die Grundlagen dieser Theorie liegen
gerade in der Halbgruppeneigenschaft.
144
8.4.10
8 ZUSTANDSÄNDERUNGEN
Generatoren von Ketten ⇐⇒ Generatoren von Prozessen
Kette
Prozeß
B
A
Halbgruppe
M(n) = (I + B)n
T(t) = exp(At)
Anfangswert
M(0) = I
T(0) = I
Generator
B = M(1) − M(0)
A = T′ (0)
Gleichung
g(n) − g(n − 1) = Bg(n − 1)
g ′ (t) = Ag(t)
Generator
g(n) = Mg(n − 1)
Gleichung
Reihe
Resolvente
M(n) − M(n − 1) = BM(n − 1)
n
P
M(n) =
Bk
k=0
∞
P
F(x) = (1 − x)
n
k
xn M(n)
T′ (t) = AT′(t)
T(t) =
k=0
S(λ) = λ
n=0
= (1 − x)(I − x − xB)−1
= (I −
∞
P
=
x
B)−1
1−x
k=0
x=
∞
P
R∞
k
Ak tk!
e−λt T(t)dt
0
= λ(λ − A)−1
= (I − λ1 A)−1
xB k
1−x
=
∞
P
k=0
1
1+λ
λ=
A k
λ
1−x
x
F(x) = (1 − x)(I − xM)−1
=I+
∞
P
xn BMn−1
n=1
Randwerte
F(0) = I
S(∞) = I
F(1) = M(∞)
S(0) = T(∞)
Hilbert-
F(x)F(y)(x − y) =
S(λ)S(µ)(µ − λ) =
Identität
= x(1 − y)F(x) − y(1 − x)F(y)
= µS(λ) − λS(µ)
Spektrum
Kreis C−1 (1)
linke Halbebene
W-Dichte
p(n) = (1 − x)xn
p(t) = λe−λt
Moment
∞
P
n=0
n
k
p(n) =
xk
(1−x)k
R∞
0
tk p(t) =
k!
λk
8.5 Deterministische Markowoperatoren
8.5
145
Deterministische Markowoperatoren
M ist eine konvexe Menge. Da ist es sinnvoll, sich für die Menge ihrer extremalen Elemente
Me = extr M
zu interessieren. Wenn Markowoperatoren allgemeine Zustandsänderungen sind, dann könnte
man annehmen, daß die extremalen Elemente sowas wie deterministische Zustandsänderungen
sind. Anderererseits wissen wir, daß adjungierte von Kompositionsoperatoren reine Zustände
in reine Zustände überführen. Auch dieses Verhalten kann man als deterministisch bezeichnen.
Schön wäre es, wenn beide Mengen miteinander zusammenhängen würden. Das ist tatsächlich
der Fall. Die extremalen Elemente Me spielen unter den Markowoperatoren eine ausgezeichnete
Rolle. Das zeigt folgender
8.5.1
Hauptsatz über deterministische Markowoperatoren
Satz: Es sei M ∈ M ein Markowoperator. Dann sind folgende Aussagen äquivalent:
i) Es existiert eine stetige Funktion ϕ : Z −
→ Z′ mit M = Mϕ .
ii) M ∈ Me
iii) M∗ Pe ⊂ P′e
iv) M(g · f ) = Mg · Mf , f, g ∈ C (M ist ein algebraischer Homomorphismus)
v) |Mg| = M|g|, g ∈ C (M ist ein Verbandshomomorphismus)
vi) MF (g) = F (Mg), g ∈ C für strikt konvexe F : R −
→R
8.5.2
Wirkung von deterministischen Markowoperatoren
Die Eigenschaft, die deterministische Markowoperatoren aus praktischer Sicht am besten charakterisiert, ist die, ein Kompositionsoperator zu sein. Wir werden daher im weiteren deterministische Markowoperatoren stets als Mϕ bezeichnen.
Die Menge der Kompositionsoperatoren bezeichnen wir mit
K = {A ∈ L C(Z′ ), C(Z) : ∃ ϕ ∈ End(Z) : Ag = g ◦ ϕ}
Offensichtlich sind Kompositionsoperatoren beschränkte lineare Operatoren.
Mϕ g (z) = (g ◦ ϕ)(z) = g ϕ(z)
Es gilt M∗ϕ δz = δϕ(z) Das folgt aus
hg, M∗ϕ δz i = hMϕ g, δz i = hg ◦ ϕ, δz i = g ϕ(z) = hg, δϕ(z)i
Die Wirkung des adjungierten eines Kompositionsoperators ist
M∗ϕ p (B) = p ϕ−1 (B) = (p ◦ ϕ−1 )(B)
Das folgt aus
−1
M∗ϕ p (B) = h1B , M∗ϕ pi = hM∗∗
ϕ 1B , pi = h1B ◦ ϕ, pi = h1ϕ−1 (B) , pi = p ϕ (B)
Die Gleichheit 1B ◦ ϕ = 1ϕ−1 (B) folgt aus ϕ(z) ∈ B ⇐⇒ z ∈ ϕ−1 (B).
146
8 ZUSTANDSÄNDERUNGEN
Die Gleichung für die Definition des adjungierten eines deterministischen M-Operators hMϕ g, pi =
hg, M∗ϕ pi als Integral geschrieben
Z
Z
g ϕ(z) p(dz) =
g(z ′ )p ϕ−1 (dz ′ )
Z
Z′
ist also einfach die Formel für die Variablentransformation im Lebesgue-Integral. Zu beachten
ist, daß es hier keine Jakobideterminante gibt. Die tritt nur auf, wenn man Dichten bezüglich
des Lebesgue-Maßes betrachet (siehe Beispiel in Punkt 8.5.7).
8.5.3
Weitere Eigenschaften deterministischer Markowoperatoren
Weiter gelten folgende weitgehend offensichtliche Eigenschaften:
• Mϕ2 Mϕ1 = Mϕ2 ◦ϕ1 (Unterhalbgruppe)
• Mϕ2 = Mϕ1 ⇐⇒ ϕ2 = ϕ1
• Mϕ ist surjektiv, gdw. ϕ ist injektiv.
• Mϕ ist injektiv, gdw. ϕ ist surjektiv.
• Das Spektrum von deterministischen Markowoperatoren liegt auf dem Einheitskreis (auf
der Peripherie).
Markowoperatoren können invertierbar sein. Im allgemeinen ist der inverse eines Markowoperators nicht wieder ein Markowoperator. Sollte das doch der Fall sein, muß der Markowoperator
ein deterministischer sein. Das kann man sich leicht mit der Jensenschan Ungleichung klar
machen. Es sei N = M−1 und M, N ∈ M. Dann gilt mit einer konvexen Funktion F sowohl
MF (g) ≤ F (Mg) als auch NF (g) ≤ F (Ng). Setzt man in letzteren f = Ng, g = Mf , erhält
man M−1 F (Mf ) ≤ F (f ) oder F (Mf ) ≤ MF (f ). Zusammen mit der ersten Ungleichung folgt
Gleichheit und damit, daß M ein deterministischer Markowoperator ist.
Weiter gilt der
Satz: ∃M−1 ⇐⇒ ∃ ϕ ∈ Aut(Z) mit M = Mϕ und M−1 = Mϕ−1 .
8.5.4
Ein Lemma über extremale Elemente
Vor dem Beweis des Hauptsatzes über deterministische Markowoperatoren formulieren wir ein
Lemma, daß den Umgang mit extremalen Elementen vereinfacht.
Es sei C ⊂ X eine konvexe Menge in einem linearen Raum. Ein Element x ∈ C heißt extremal,
wenn x = αx1 + (1 − α)x2 , x1 , x2 ∈ C, 0 < α < 1 folgt: x1 = x2 .
Das ist so zu verstehen: Die Annahme, daß sich x als konvexe Kombination zweier verschiedener
Elemente darstellen läßt, schlägt fehl.
Lemma: Folgende Aussagen sind äquivalent:
i) x ∈ C ist ein extremales Element.
ii) Aus der Annahme, daß es x1 , x2 ∈ C mit x = 12 x1 + 21 x2 gibt, folgt x1 = x2 = x.
iii) Aus x + x′ ∈ C und x − x′ ∈ C folgt x′ = 0.
Beweis: ÜA 30)
8.5 Deterministische Markowoperatoren
8.5.5
147
Der Beweis des Hauptsatzes
Zum Beweis werden folgende Schritte ausgeführt:
i
i
ii
i
i
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
→ iii
−
→ iv
−
→ iv
−
→
−
v
(9)
→ vi
−
→
−
i
→ iii
−
→
−
→
−
ii
ii
(10)
→ iii
−
Beweis von (1): Es sei M = Mϕ , dann gilt für alle g ∈ C
hM∗ϕ δz , gi = hδz , Mϕ gi = hδz , g ◦ ϕi = g(ϕ(z)) = hδϕ (z), gi
Folglich ist M∗ϕ δz = δϕ (z) ⊂ Pe .
Beweis von (3): Es sei M = Mϕ , dann gilt
Mϕ (g · f ) = (g · f ) ◦ ϕ = (g ◦ ϕ) · (f ◦ ϕ) = Mϕ g · Mϕ f
Beweis von (7): Es sei M = Mϕ , dann gilt Mϕ |g| = |g| ◦ ϕ = |g(ϕ(z))| = |Mϕ g|.
Beweis von (9): Es sei M = Mϕ , dann gilt:
Mϕ F (g) = Mϕ (F ◦ g) = F ◦ g ◦ ϕ = F (g ◦ ϕ) = F (Mϕ g) .
Beweis von (2): Konstruktiv: Es sei M∗ δz = δz ′ . Wir definieren ϕ als ϕ(z) = z ′ . Die Stetigkeit
von ϕ folgt aus der Stetigkeit von M und damit M∗ .
Beweis von (5): (siehe Semadeni S. 83).
Angenommen, M ist extremaler Punkt. Für fixiertes h definieren wir Ag := M(g ·h)−Mg ·Mh.
Sollten M + A als auch M − A Markowoperatoren sein, liegen sie in der konvexen Menge M.
Dann ist aber nach dem Lemma über extremale Elemente A = O, was den Beweis liefert.
Wir beweisen, daß M ± A ∈ M:
Offensichtlich ist (M ± A)1 = 1, weil A1 = 0.
Zum Beweis der Positivität sei g ≥ 0 und h ∈ C[0,1] . Dann gilt
(M + A)g = Mg + M(g · h) − Mg · Mh = (1 − Mh) · Mg + M(g · h) ≥ 0
(M − A)g = Mg − M(g · h) + Mg · Mh = M g · (1 − h) + Mg · Mh ≥ 0
Beweis von (6): Es sei M(g · h) = Mg · Mh, also auch Mg 2 = (Mg)2 . Wir setzen M =
1
M1 + 12 M2 mit M1 , M2 ∈ M und beweisen M1 = M2 . Es ist
2
1
(M1 g)2 +
4
1
=
(M1 g 2) +
2
(Mg)2 =
Mg 2
1
1
(M2 g)2 + (M1 g) · (M2 g)
4
2
1
1
1
(M2 g 2 ) ≥ (M1 g)2 + (M2 g)2
2
2
2
Im letzten Schritt wurde die Jensensche Ungleichung mit der konvexen Funktion F (x) = x3
verwendet. Aus Mg 2 = (Mg)2 folgt
1
1
1
1
0 ≥ (M1 g)2 + (M2 g)2 − (M1 g) · (M2 g) = (M1 g − M2 g)2
4
4
2
4
148
8 ZUSTANDSÄNDERUNGEN
Hieraus folgt M1 g = M2 g und da g beliebig ist M1 = M2 .
Beweis von (10): Let η = M∗ δz . Of course, η ∈ P. We get from MF (g) = F (Mg)
F hg, ηi = F hg, M∗ δz i = F hMg, δz i = F (Mg)(z) = (MF (g))(z) =
= MF (g), δz = F (g), M∗δz = F (g), η .
(32)
We will show that η ∈ Pe . Assuming the opposite, η 6∈ Pe . Then η can be represented as a
convex combination, i.e., there are η1 , η2 ∈ P with η1 6= η2 and η = 21 η1 + 12 η2 . We have from
inequality (29) that
F (g), η1 ≥ F hg, η1i , F (g), η2 ≥ F hg, η2 i .
(33)
Using (32) and (33), we get
1
1
1 1
hg, η1i + hg, η2i = F hg, η1 + η2 i = F hg, ηi = F (g), η =
F
2
2
2
2
1
1
1
1
= F (g), η1 + F (g), η2 ≥ F hg, η1 i + F hg, η2 i ,
2
2
2
2
i.e., with x = hg, η1 i and y = hg, η2i, we get F 12 (x + y) ≥ 21 F (x) + 21 F (y). But F is strictly convex. Therefore, x = y. It follows that hg, η1i = hg, η2i, g ∈ C(Z), hence η1 = η2 , a
contradiction.
Beweis von (8): Analog zu (6)
Beweis von (4): Analog zu (10)
8.5.6
Bemerkungen
• Deterministische Markowoperatoren spielen in der Menge aller Markowoperatoren dieselbe Rolle wie Punktmaße in der Menge der Wahrscheinlichkeitsmaße. Das ist in folgender
Tabelle zusammengetragen:
1)
M ∈ Me
2)
M ∈ extM
3) M(g · f ) = Mg · Mf
4)
|Mg| = M|g|
5)
M∗ Pe ⊂ Pe
p ∈ Pe
p ∈ extP
hg · f, pi = hg, pihf, pi algebraischer Homomorphismus
|hg, pi| = h|g|, pi
Verbands-Homomorphismus
• Anstelle von |Mg| = M|g| gilt auch äquivalent eine der folgenden Bedingungen:
M(g ∨ f ) = Mg ∨ Mf
M(g ∧ f ) = Mg ∧ Mf
• Die Forderungen, daß ein Operator M ein algebraischer oder ein Verbandshomomorphismus ist, ist so stark, daß die Voraussetzung, daß er Markowoperator sein soll, nicht
gebraucht wird. Beim Verbandshomomorphismus ist allerdings eine Normierung, etwa
kMk = 1 zu fordern.
• Neben den offensichtlichen Analogien zwischen M und P bzw. Me und Pe gibt es auch
prinzipielle Unterschiede:
8.5 Deterministische Markowoperatoren
149
– Es ist z −
→ δz die kanonische Einbettung von Z in seinen bidualen C∗ . Es gibt zu
End(Z) keinen dualen und damit auch keinen bidualen Raum. Daher ist auch Mϕ
nicht soetwas wie das Bild der kanonische Einbettung von ϕ.
v
– Des weiteren gilt zwar P = conv(Pe ) , aber nicht ein Analogon zu M, weil nicht klar
ist, in welcher Topologie der Abschluß zu betrachten ist. Selbstverständlich gilt aber
conv(Me ) ⊂ M.
• Falls ϕ unstetig ist, kann man Mϕ – wenn überhaupt – nicht auf ganz C definieren. Ist
etwa Z = [0, 1] und ϕ(z) = z/4 für z < 1/2 und ϕ(z) = z/4 + 1/2 für z > 1/2, dann kann
Mϕ nur auf Funktionen g mit g(1/4) = g(3/4) angewendet werden damit Mϕ g stetig ist.
Das heißt, Mϕ ist nur auf einem abgeschlossenen Unterraum von C definiert. Damit läßt
u.a. auch der adjungierte nicht eindeutig definieren.
• Kann man doch eine geeignete Topologie auf M definieren, eine mit der M kompakt ist?.
Was ergeben die vielen Operatortopologien?
Ist der Abschluß von conv(Me ) in C∗∗ ?
• Neben stetigen ϕ lassen sich auch Borelfunktionen ϕ∗ betrachten:
ϕ−1
→ B(Z)
∗ : B(Z) −
M∗ϕ∗ hat auch Sinn, weil ϕ−1
∗ (B) wieder eine Borelmenge ist. Es gibt aber keinen beschränkten überall auf C(Z) definierten Operator N mit N∗ = M∗ϕ∗ .
8.6 Fixpunktsätze
8.6
151
Fixpunktsätze
Per Definition hat jeder Markowoperator M ∈ M(Z) einen Fixpunkt, nämlich 1, wegen M1 =
1. Mit anderen Worten hat jeder Markowoperator den Eigenwert 1 mit der dazugehörigen
Eigenfunktion 1. Damit hat auch der adjungierte Operator M∗ den Eigenwert 1 und es gibt ein
dazugehörigen Eigenmaß µ ∈ C∗ mit M∗ µ = µ (folgt aus dem Satz von Hahn-Banach). Damit
hat also auch jeder adjungierte eines Markowoperators einen Fixpunkt. Da ein allgemeines
Maß µ ∈ C∗ keine besondere physikalische Bedeutung hat, ist dieser Fakt nicht von besonderem
Interesse.
Es stellt sich aber heraus, daß jeder adjungierte eines Markowoperators sogar einen Fixpunkt
µ ∈ P besitzt. Das ist eine nichttriviale Aussage. Sie bedeutet, daß es für jede Zustandsänderung stets (wenigstens) einen Zustand gibt, der sich nicht ändert. Eine entsprechende Aussage
gibt es in der deterministischen Welt. Offensichtlich hat für Z = {z1 , z1 } die Zustandsänderung, die die Zustände z
1 und z2vertauscht, keinen Fixpunkt. Der zugehörige deterministische
0 1
hat den Fixpunkt µ = ( 12 , 21 ).
Markowoperator M∗ =
1 0
Ein weiters Beispiel ist die Drehung des Einheitskreises (nur die Peripherie) um einen Winkel
ϕ. Diese Drehung hat keinen Fixpunkt. Der M-Operator M∗ϕ hat einen Fixpunkt, nämlich das
uniforme Maß (Lebesgue-Maß). Man kann sich das so vorstellen, daß die konstante Funktion
bei einer Drehung auf sich selbst überführt wird.
Die Existenz eines Fixpunktes µ ∈ P zu jedem adjungierten eines Markowoperators folgt aus
dem Fixpunktsatz von Schauder-Tichonow, der für allgemeine stetige Abbildungen (nicht unbedingt lineare) anwendbar ist.
Im Zusammenhang mit Markowoperatoren wird zur Existenz eines Fixpunktes des adjungierten
meist der Satz von Krein-Rutman herangezogen, der noch weitergehende aussagen über den
Spektralradius eines Markowoperators macht. Im endlich dimensionalen Fall (für Matrizen) ist
dieser Satz als Satz von Frobenius-Perron bekannt.
Darüber hinaus stellt sich heraus, daß auch die adjungierten von Scharen von kommutierenden
Markowoperatoren einen gemeinsamen Fixpunkt haben. Diese Aussage liefert der Fixpunktsatz
von Markow-Kakutani.
Dieser Fixpunktsatz kann insbesondere zum Beweis dafür verwendet werden, daß jede Halbgruppe T(t) einen Fixpunkt hat. Genauer: Zu jeder Halbgruppe von Markowoperatoren T(t)
gibt es ein µ ∈ P, sodaß T∗ (t)µ = µ. Hierbei hängt µ nicht von t ab.
Im Gegensatz zum Banachschen Fixpunktsatz, der die Existenz eines einzigen Fixpunktes beweist und zudem auch noch konstruktiv ist, trifft das für die erwähnten Fixpunktsätze nicht
zu. Das ist kein Mangel der Methode, denn die untersuchten Abbildungen – etwa die identische
Abbildung – haben im allgemeinen keinen eindeutigen Fixpunkt. Es können nur allgemeine
Aussagen, wie die Konvexität und Kompaktheit der Fixpunktmenge getroffen werden. Die oft
interesierende Einzigkeit des Fixpunktes muß mit anderen Methoden (meistens Kontraktionsmethoden, die auf dem Banachschen Fixpunktsatz beruhen) bewiesen werden.
8.6.1
Definitionen
Im Zusammenhang mit Markowketten und Markowprozessen gibt es für Fixpunkte andere
Bezeichnungen.
• Ein stationärer Punkt einer Markowkette ist der Fixpunkt des adjungierten des zugehörenden Markowoperators. Es gilt T∗ (n)µ = µ für alle n ∈ N.
152
8 ZUSTANDSÄNDERUNGEN
• Ein stationärer Punkt eines Markowprozesses ist der Fixpunkt der adjungierten der zugehörenden Markowhalbgruppe (nach dem Satz von Markow-Kakutani). Es gilt T∗ (t)µ =
µ für alle t ∈ R+ .
• Ein Gleichgewichtspunkt einer Markowkette mit Anfangswert p0 ist der Grenzwert
p∞ = lim T∗ (n)p0 , falls er existiert. Ein Gleichgewichtspunkt ist stets ein stationärer
n→∞
Punkt. Die Umkehrung gilt nicht, was offensichtlich ist, da es mehrere stationäre Punkte
aber zu einem Anfangswert p0 nur einen Gleichgewichtspunkt (wenn überhaupt) geben
kann.
• Ein Gleichgewichtspunkt eines Markowprozesses mit Anfangswert p0 ist der Grenzwert
p∞ = lim T∗ (t)p0 , falls er existiert. Ein Gleichgewichtspunkt ist stets ein stationärer
t→∞
Punkt. Die Umkehrung gilt nicht.
Die Bestimmung von stationären Punkten ist im allgemeinen einfacher als der Beweis der
Existenz eines Gleichgewichtspunkt
Im Zusammenhnag mit stationären Punkten und Gleichgewichtspunkten stehen folgende Aufgaben, die im speziellen Fall sehr schwer sein könen.
• Bestimmung der stationären Punkte (im allgemeinen die einfachste der Aufgaben).
• Gibt es einen einzigen stationären Punkt?
• Beweis der Konvergenz zum Gleichgewichtspunkt für einen Anfangswert.
• Falls es einen einzigen stationären Punkt gibt, kann man beweisen, daß alle Trajektorien
(d.h. für alle Anfangswerte) gegen diesen Punkt konvergieren?
• Welche stationären Punkte sind auch Gleichgewichtspunkte für spezielle (oder alle) Anfangswerte?
• Kann man die Geschwindigkeit der Bewegung zum Gleichgewichtspunkt abschätzen?
8.6.2
Der Fixpunktsatz von Schauder-Tichonov
Satz: Sei X ein hausdorffscher, topologischer Vektorraum und C ⊂ X eine nichtleere, kompakte
und konvexe Teilmenge. Dann besitzt jede stetige Abbildung ϕ : C −
→ C einen Fixpunkt.
Beweis: Siehe ...
Wir betrachten die Menge P ⊂ C∗ . C∗ ist mit der vagen Topologie ein Hausdorffraum. Die
Menge P ist konvex und kompakt (in der vagen Topologie). Es sei M∗ der adjungierte eines
Markowoperators. Er bildet die Menge P auf sich selbst ab. Da M stark stetig ist, ist M∗ vage
stetig. Damit sind die Voraussetzungen für die Anwendung des Fixpunktsatz von SchauderTichonov erfüllt.
8.6.3
Der Satz von Krein-Rutman
Satz: Es sei X ein Banachverband und A ein positiver Operator mit positivem Spektralradius
1 ≤ r(A) > 0. Dann gibt es ein positives (nicht triviales) Element x ∈ X+ mit Ax = r(A)x.
Mit anderen Worten: für positive Operatoren ist der Spektralradius ein Eigenwert zu dem
positver Eigenvektor gehört.
Beweis: Siehe ...
8.6 Fixpunktsätze
8.6.4
153
Der Fixpunktsatz von Markow-Kakutani
Bevor wir den Satz formulieren führen wir zwei Definitionen ein (X sei ein Vektorraum und
C ⊂ X eine konvexe Teilmenge):
Eine Abbildung f : C −
→ C heißt auf C affin, wenn für α ∈ [0, 1] und x, y ∈ C gilt:
f (αx + (1 − α)y) = αf (x) + (1 − α)f (y)
Offensichtlich sind lineare Abbildungen affin. Die Umkehrung gilt nicht, denn lineare Abbildungen bilden die 0 in die 0 ab, was für affine Abbildungen nicht der Fall sein muß.
Zwei Abbildungen f, g : C −
→ C kommutieren, falls f ◦ g = g ◦ f .
Satz: Sei X ein hausdorffscher, topologischer Vektorraum und C ⊂ X eine nichtleere, kompakte
und konvexe Teilmenge. Weiter sei Γ eine Menge stetiger, kommutierender affiner Abbildungen
von C nach C. Dann existiert ein Fixpunkt x ∈ C mit f (x) = x für alle f ∈ Γ.
Beweis: Der Unterschied in den Voraussetzungen zum Fixpunktsatz von Schauder-Tichonov
besteht in der viel schärferen Forderung der Affinität der Abbildungen.
Es sei F (f ) ⊂ C die Menge aller Fixpunkte von f . F (f ) hat eine Reihe wichtiger Eigenschaften:
• F (f ) 6= ∅, da nach dem Satz von Schauder-Tichonov wenigstens ein Fixpunkt existiert.
• F (f ) ist konvex, da f affin ist.
• F (f ) ist abgeschlossen
• F (f ) ist kompakt, da sie eine abgeschlossene Teilmenge einer kompakten Menge ist.
Wir betrachten f, g ∈ Γ. Es sei x ∈ F (f ). Da f und g kommutieren gilt f (g(x)) = g(f (x)) =
g(x). Folglich ist auch g(x) ∈ F (f ). Die Einschränkung von g auf die konvexe und kompakte
Menge F (f ) hat nach dem Schauder-Tichonov einen Fixpunkt. D.h., es existiert ein Punkt
x0 ∈ F (f ), der auch Fixpunkt von g ist. Also ist F (f ) ∩ F (g) 6= ∅.
Analog kann man zeigen, daß endliche Teilmenge aus Γ einen gemeinsamen Fixpunkt hat:
\n
F (fi ) 6= ∅
(35)
i=1
Hieraus folgt, daß auch
\n
F (f ) 6= ∅
f ∈Γ
da C kompakt ist.
Der letzte Schluß ist als “finite intersection
S folgt einfach aus der DefiT property” bekannt und
nition der Kompaktheit: Angenommen, nf∈Γ F (f ) = ∅, dann ist nf∈Γ (Z \ F (f )) = Z. Das ist
eine offene Überdeckung von Z. Aus ihr kann
Z eine endliche
S man wegen der Kompaktheit von T
offene Überdeckung auswählen. Das sei ni=1 (Z \ F (fi )) = Z. Aber das ist zu ni=1 F (fi ) = ∅
äquivalent, was ein Widerspruch zu (35) ist.
Für Halbgruppen T(t) läßt sich diese Aussage noch einfacher beweisen: (siehe 1184 S.167):
T∗ (t0 )p = p =⇒R ∃ q ∈ D(A∗ ) ∩ P: A∗ q = 0 und supp p ⊂ supp q
Rt
t
Beweis: q := t10 0 0 T(s)pds, T∗ (t)q = q, p ≥ 0 =⇒ q ≥ 0, hq, 1i = t10 0 0 hp, 1ids = tt00 = 1
159
9
Multiplikationsoperatoren. Dichten. Lebesgueräume
Wir haben festgestellt, daß die eigentlich interessanten Größen Maße sind. Gleichungen, die
physikalische Größen beschreiben sollten also Gleichungen sein, dessen Lösungen Maße sind.
Wenn wir uns die üblichen Gleichungen anschauen, stellen wir fest, daß sie immer Funktionen
beschreiben, keine Maße. Auch werden die Gleichungen selten in C und nie in C∗ betrachtet. Man
betrachtet Gleichungen in Lebesgueräumen oder Sobolevräumen. Wie hängt das mit unserem
mathematischen Rahmen zusammen? Die zugrunde liegenden physikalischen Probleme sind ja
weitestgehend dieselben. Die Funktionen, nach denen in Lebesgue- oder Sobolevräumen gesucht
wird sind Dichten von Maßen.
Das ist eine sehr gute Idee, denn Dichten sind Funktionen von Punkten, mit denen man viel
besser arbeiten kann als mit Maßen. Wie immer in der Mathematik, wenn man denkt, man
erleichtert sich das Leben, hat das eine Kehrseite. Deshalb ist es wichtig, genau zu untersuchen,
was der Übergang von Maßen zu Dichten bedeutet.
Formal gesprochen ist eine Dichte der Quotient zweier Maße. Aus physikalischer Sicht bedeutet
das, man betrachtet anstelle zweier extensiver Größen eine intensive Größe, ihren Quotient. Hier
sieht man schon, daß man zur Definition einer Dichte zwei Maße braucht. Mathematisch sagt
man auch, man betrachtet die Dichte eines Maßes bezüglich eines anderen, gegebenen Maßes.
Wenn man Dichten betrachtet, muß man also als erstes ein Maß wählen bezüglich dessen man
Dichten von anderen Maße finden will. Es ist – wie immer in der Mathematik – sinnvoll, wenn
diese Wahl kanonisch erfolgt, wenn also das betrachtete Problem die Wahl vornimmt.
9.1
9.1.1
Multiplikationsoperatoren
Der Operator Pg und sein adjungierter
Die Multiplikation reeller Zahlen induziert in C(Z) die Struktur einer kommutativen Banachalgebra: (f · g)(z) = f (z)g(z). Folglich hat der Ausdruck
hf · g, pi, f, g ∈ C, p ∈ C∗
einen Sinn. Je nach dem welches Element man festhält lassen sich die anderen als Wirkung dieses
Elements auf ein anderes betrachten. Damit lassen sich verschiedene Multiplikationsoperatoren
definieren.
Es sei
Pg : C(Z) −
→ C(Z), Pg f = f · g, (Pg f )(z) = f (z) · g(z)
Dieser Operator hat folgende weitgehend offensichlichen Eigenschaften:
• Pg f = Pf g
• Pg ≥ 0 ⇐⇒ g ≥ 0
• kPg k = kgk
• Pg 1 = g
Im endlichdimensionalen Fall entspricht Pg eine Diagonalmatrix.
Zu Pg läßt sich der adjungierte und biadjungierte definieren:
P∗g : C∗ (Z) −
→ C∗ (Z)
P∗∗
: C∗∗ (Z) −
→ C∗∗ (Z)
g
160
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
Es ist
hPg f, pi = hf, P∗g pi = hP∗∗
g f, pi
Auf der rechten Seite ist die stetige Funktion f als Element aus C∗∗ (Z) aufzufassen. Offensichtlich ist Pg = P∗∗
g auf C.
P∗∗
ist
auf
ganz
C∗∗ (Z) definiert und wirkt auf charakteristischen Funktionen auch als Multig
plikationsoperator:
P∗∗
g 1B = g · 1B
was die Einschränkung von g auf B bedeutet. Damit kann man die Wirkung von P∗g beschreiben.
Es sei q = P∗g p, dann ist
Z
∗
∗
∗∗
q(B) = (Pg p)(B) = h1B , Pg pi = hPg 1B , pi = hg · 1B , pi =
g(z)p(dz)
B
Dieser Ausdruck wird formal auch häufig q = g · p geschrieben. Er definiert ein neues Maß als
Produkt eines Maßes mit einer stetigen Funktion. Da P∗g ein beschränkter Operator auf C∗ ist,
liefert diese Konstruktion stets wieder ein Radonmaß.
g wird Dichte des Maßes q bezüglich des Maßes p genannt.
Es sei
Ip = q ∈ C∗ | ∃g ∈ C, q = P∗g p}
Ip ist die Menge aller Maße, die bezüglich des gegebenen Maßes p eine stetige Dichte haben.
ÜA 28) Bestimme das Spektrum von Pg in C.
9.1.2
Der Operator Qp und der Satz von Radon-Nikodym
Wir betrachten für gegebenes p ∈ C∗ den Operator
C(Z) −
→ C∗ (Z), Qp g = P∗g p
Z
(Qp g)(B) =
g(z)p(dz)
Qp
:
B
ÜA Als beschränkter Operator läßt sich Qp als Integraloperator darstellen:
Z
(Qp g)(B) =
g(z)a(B, dz)
B
Bestimme des Integralkern a(B, A).
Lösung: Es gilt
a(B, A) = (Q∗p 1A )(B) = h1A , Qp 1B i = h1A · 1B , pi = h1A∩B , pi = p(A ∩ B)
Dieser Operator hat folgende weitgehend offensichlichen Eigenschaften:
• Qp ≥ 0 ⇐⇒ p ≥ 0
• kQp k = kpk
• Qp 1 = p
161
9.1 Multiplikationsoperatoren
• Q∗p : C∗∗ (Z) −
→ C∗ (Z), Q∗p |C = Qp (weil f · g = g · f )
• p(B) = 0 =⇒ q(B) = (Qp g)(B) = 0, g ∈ Ip .
Von besonderem Interesse ist das umgekehrte Problem: Es sei ein Maß p gegeben. Wann hat
ein Maß q eine Dichte bezüglich p. Die letzte der eben betrachteten Eigenschaften zeigt, daß
das nicht für jedes Maß q der Fall ist sondern eine notwendige Bedingung ist, daß die Nullmengen bezüglich p auch Nullmengen bezüglich q sein müssen. Tatsächlich ist diese bedingung in
gewissem Sinne auch hinreichend. Es gilt der berühmte
Satz von Radon-Nikodym: Es seien p und q aus P (wir betrachten hier nur positive Maße)
mit der Eigenschaft p(B) = 0 =⇒ q(B)R = 0 für alle B ∈ B. Dann existiert eine eindeutig
definierte Funktion h ∈ L1 (p) mit q(B) = B h(z)p(dz).
Der Beweis des Satzes läßt sich in DS I nachlesen. Er ist nicht konstruktiv und benutzt das
Auswahlaxiom. Darauf wird in vielen Büchern nicht explizit hingewiesen, weshalb der Beweis
in DS I sehr empfehlenswert ist.
Bemerkungen:
• Die Dichte wird auch Radon-Nikodym Ableitung genannt und mit h = q/p oder h = dq/dp
bezeichnet.
• Gilt die Beziehung p(B) = 0 =⇒ q(B) = 0, so sagt man auch, daß q absolut stetig
bezügl. p ist und schreibt q ≪ p.
• Aus der Integraldarstellung folgt
h(z) =
q(B)
, z∈B
p(B)
falls h auf B konstant ist. Damit erinnert diese Formel stark an die Definition einer
intensiven Größe als Quotient zweier extensiven Größen.
• Hat q bezüglich p die Dichte h und r bezüglich q die Dichte g, so hat r bezüglich p die
Dichte g · h. Es gilt
Z
Z
r(B) =
h(z)q(dz) =
h(z)g(z)p(dz)
B
B
• Die Eindeutigkeit der Dichte bezieht sich nur auf Dichten in L1 (p). Auf Nullmengen von
p ist es egal, welchen Wert die Dichte annimmt.
Der Satz von Radon-Nikodym ist ein reiner Existenzsatz und hilft oft nicht weiter, wenn man
eine Dichte aus zwei gegebenen Maßen tatsächlich berechnen möchte. Der Satz behauptet die
eindeutige Existenz einer Dichte im Lebesgueraum L1 (p). Wir sind allerdings an stetigen Dichten interessiert, worüber der Satz keine Auskunft gibt. Die Stetigkeit ist einerseits wichtig,
damit das Konzept der Dichte in unseren mathematischen Rahmen paßt und andererseits, da
wir ausgehend von physikalischen Überlegungen wissen, daß eine intensive Größe sinnvollerweise
ststig sein soll.
Wir betrachten im weitern nur solche Maße p, q ∈ P mit einer stetigen Dichte g = q/p ≥ 0.
Ausgehend von der Gleichung q = P∗g p = Qp g ist es natürlich, die Dichte g formal als
g = Q−1
p q
162
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
zu definieren. Um diese Darstellung zu rechtfertigen ist der Definitionsbereich von Q−1
p zu be−1
schreiben (er ist offensichtlich eine Teilmenge von Ip ) und zu untersuchen, wann Qp überhaupt
eindeutig definiert ist. Es ist klar, daß auf offenen Mengen U mit p(U) = 0 auch q(U) = 0 gilt
und deshalb g auf dieser Menge unbestimmt ist. Das ist für Funktionen aus L1 irrelevant, für
stetige Funktionen auf Z aber wichtig.
Andererseits ist klar, daß im endlichdimensionalen Fall Q−1
p stets auf dem ganzen raum eindeutig definiert ist, falls alle Komponenten von p echt positiv sind. Eine Verallgemeinerung hierfür
wäre die Forderung, daß für alle U ∈ O, p(U) > 0 gilt. In diesem Fall läßt sich die Dichte auch
am Punkt z definieren.
Es sei Un eine Folge offener Mengen mit den Eigenschaften
• p(Un ) > 0.
• Un+1 ⊂ Un
T
• ∞
n=1 Un = {z}
dann definieren wir g(z) als
q(Un )
n→∞ p(Un )
g(z) = lim
Es sei A die Menge aller Punkte, für die dieser Grenzwert existiert. Wie schreiben g = Q−1
p q,
falls sich g von A zu einer stetigen Funktion auf Z fortsetzen läßt.
Die entscheidende Voraussetzung ist hier, daß man die abgeschlossene Menge {z} als Durchschnitt offener Mengen darstellen kann. Das ist stets der Fall, da Z metrisierbar ist. In einem
metrisierbaren Raum ist jede abgeschlossene Menge eine Gδ -Menge.
Wir werden uns mit der Frage der Definition von Q−1
p nicht weiter beschäftigen. Es stellt sich
heraus, daß wir die Probleme, in der wir den Operator Q−1
p eigentlich benötigen würden, auch
−1
formulieren können, ohne die Verwendung von Qp .
163
9.2 Lebesgueräume
9.2
Lebesgueräume
Wir betrachten für ein reelles r mit 1 < r < ∞ und ein µ ∈ P den Ausdruck
Z
r1 D
E 1r
r
r
= |f | , µ
|f (z)| µ(dz)
kf kr := kf kLr := kf kLr (µ) :=
Z
Dieser Ausdruck ist für alle f ∈ C definiert und ist ein Norm. Wir bezeichnen den Banach-Raum,
der durch die Vervollständigung von C in dieser Norm entsteht als Lr (µ)-Raum (Lebesgueraum).
Der zu Lr duale Raum ist der Lr′ mit 1r + r1′ = 1. Die duale Paarung zwischen Lr (µ)- und
Lr′ (µ)-Räumen bezeichnen wir mit runden Klammern
Z
(f, g)µ = hf · g, µi = f (z)g(z)µ(dz) .
Z
Die Elemente eines solchen Raumes werden üblicherweise als punktweise (bezüglich µ) gegebene
Funktionen interpretiert. Es ist konsistenter, sich die Elemente in Lr (µ)-Räumen als Grenzwerte
von Folgen stetiger Funktionen bezüglich dieser Norm vorzustellen. In diesem Sinn ist nicht klar,
ob sich die Grenzwerte auch als Funktionen auf Z betrachten lassen. Streng genommen sind die
Funktionen nur in solchen Punkten z definiert, für die µ({z}) 6= 0 gilt. Üblicherweise werden die
Elemente in Lr (µ)-Räumen deshalb als “Klassen von Funktionen” bezeichnet, deren Vertreter
– bis auf Werte auf Mengen vom Maß = 0 – übereinstimmen. In diesem Sinn ist nicht ganz
klar, was denn Lr (µ) ∩ C ist. Für uns sind stetige Funktionen aus Lr (µ) solche, die Grenzwerte
konstanter Folgen stetiger Funktionen sind.
Diese Vorstellung entspricht der, die man sich von den reellen Zahlen als Grenzwerte von Folgen
rationaler Zahlen macht. Diese Grenzwerte kann man sich natürlich nicht mehr als “rationale
Zahlen” vorstellen. Sie benötigen ein völlig andere Darstellung. Unter den Folgen rationaler
Zahlen gibt es natürlich auch solche, die gegen rationale Zahlen konvergieren, z.B. konstante
Folgen.
Es gelten folgende Eigenschaften:
• Für stetige f gilt kf kr ≤ kf kC . Das folgt aus der Ungleichung
r
kf krr = h|f |r , µi ≤ supz∈Z |f (z)|r h1, µi = supz∈Z |f (z)| · 1 = kf krC
• Konvergente Folgen in C konvergieren auch in Lr (µ)
• Eine dichte Menge in C ist auch dicht in Lr (µ).
• Die Fortsetzung eines in C dicht definierten Operators ist auch in Lr1 (µ) dicht definiert.
• Zwei Räume Lr1 (µ) ⊂ Lr2 (µ) sind ineinader eingebettet gdw. r1 ≤ r2 .
Wenn man ein Maß µ ausgezeichnet hat, dann kann man die Aufgabe in einem Lr (µ) betrachten
(wir beschränken uns im weiteren auf den Hilbertraum L2 (µ). C ist per Definition dicht in L2 (µ)
(er wurde ja als Abschluß definiert). Man kann die in C definierten Operatoren jetzt nach L2 (µ)
erweitern. Frage: Welcher L2 (µ) ist für ein gegebenen Operatoren besonders gut geeignet?
Natürlich der, indem der Operator besonders gute Eigenschaften hat. Was sind besonders gute
Eigenschaften:
• Beschränktheit, bzw, besonders kleine Norm. Wenn der Operator z.B. kontraktiv ist
(Norm kleiner gleich 1), dann kann man ihn mehrfach anwenden. Wenn das nicht der
Fall ist, besteht die Gefahr, daß das mehrfache Anwenden aus dem Raum herausführt.
164
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
• Symmetrie (Selbstadjungiertheit). Symmetrische Operatoren lassen sich diagonalisieren,
mit ihnen kann man gut rechnen.
• Falls Symmetrie prinzipiell nicht möglich ist (weil das Spektrum nicht reell ist), sollte der
Operator wenigstens normal sein. Ein Operator ist normal, wenn er mit seinem adjungierten kommutiert.
Es stellt sich heraus, daß der richtige Raum der über dem stationären Maß ist. Auf diese Idee
kann man folgendermaßen kommen:
Wir betrachten eine Trajektorie p(t) für 0 ≤ t ≤ ∞ und nehmen an, daß sie gegen einen
Gleichgewichtszustand p(∞) konvergiert. Weiter nehmen wir an, daß p(t) eine Dichte h(t)
bezüglich eines gegebenen Maßes µ hat.
Frage: Wann (für welches µ) liegt die Trajektorie der Dichte – oder wenigstens ein großer Teil
– in L2 (µ)? Es ist klar, daß h(∞) in L2 (µ) liegt, wenn µ das stationäre Maß ist, denn dann ist
h(∞) = 1 und das liegt überall. Wenn die Dichte im Gleichgewicht in L2 (µ) liegt, dann liegt
sie vielleicht auch kurz davon drin oder sogar insgesamt, wenn p0 entsprechend gewählt wurde.
9.2.1
Markowoperatoren in Lr
Satz: Die bekannte Kontraktivität von Markowoperatoren in C gilt auch für die Lr (µ)-Norm,
falls M∗ µ = µ.
Beweis: Das folgt aus der Karamata-Ungleichung (32) mit p = µ und der konvexen Funktion
F (x) = |x|r . Es sei g ∈ C, dann gilt
kMgkrLr = h|Mg|r , µi ≤ hM|g|r , µi = h|g|r , M∗ µi = h|g|r , µi = kgkrLr
Aus L1 = M1 = 1 und k1kLr = 1 folgt die Gleichheit. Das ergibt die gesuchte Gleichheit
1
1
kMgkLr = h|Mg|r , µi r = h|g|r , µi r = kgkLr
(37)
Wie bekannt lassen sich beschränkte Operatoren mit der selben Norm fortsetzen. Es gilt also
kLkLr = kMkLr = kMkC = 1
9.2.2
Der Raum L2 (µ)
Von besonderer Bedeutung ist der (reelle) Hilberraum L2 (µ). Das Skalarprodukt in diesem
Raum ist
Z
(g, f )µ = (f, g)µ = hf · g, µi = hf, Qµ gi = hg, Qµf i = f (z)g(z)µ(dz) .
Z
Die Fortsetzung eines Markowoperators M in L2 (µ) ist kontraktiv. Das folgt aus der Ungleichung (??) mit der speziellen konvexen Funktion F (x) = x2 . Es gilt
kMgk2L2 = (Mg)2 , µ ≤ Mg 2 , µ = g 2, M∗ µ = g 2, µ = kgk2L2
Damit ist bewiesen, daß die Fortsetzung eines Markowoperators M in L2 (µ) die Norm 1 hat
(weil neben der Ungleichung auch noch M1 = 1 und k1kL2 = 1 gilt.
9.2 Lebesgueräume
9.2.3
165
Operatoren in L2 (µ) und ihre adjungierten
Es sei M : C −→ C ein Markowoperator und L seine Fortsetzung in L2 (µ). Als Operator im
Hilberraum können wir seinen adjungierten Operator L∗ betrachten. Er ist durch die Gleichung
(Lf, g)µ = (f, L∗ g)µ, f, g ∈ L2 (µ)
definiert. Es seien f, g ∈ C. Für die linke Seite gilt dann
(Lf, g)µ = hg · Mf, µi, f, g ∈ C
Angenommen, auch L∗ ist die Fortsetzung eines beschränkten Operators X : C −
→ C, dann ist
L∗ g = Xg (im allgemeinen ist nicht klar, ob L∗ g ∈ C für g ∈ C) und auch das Skalarprodukt
auf der rechten Seite läßt sich als duale Paarung schreiben. Es gilt dann
(Lf, g)µ = hg · Mf, µi = hf · Xg, µi = (f, L∗ g)µ , f, g ∈ C
Sollte L = L∗ gelten, dann ist die Existenz eines entsprechenden X klar, es gilt X = M. Dieser
Fall, daß die Fortsetzung eines Markowoperators in einen L2 ein selbstadjungierter Operator
ist, ist ein besonderer Fall, was aus folgendem Satz klar wird:
Satz: Die Fortsetzung eines Markowoperators M in einen L2 (µ) sei selbstadjungiert, dann ist
das Maß, das den L2 -Raum gebildet hat, ein stationäres Maß von M∗ .
Beweis: Die Fortsetzung von M sei L. Da L = L∗ , gilt
hg · Mf, µi = hf · Mg, µi, f, g ∈ C
Wir setzen f = 1. Das ergibt
hg, µi = hMg, µi = hg, M∗µi, g ∈ C
Aus der Beliebigkeit von g folgt M∗ µ = µ.
Bemerkungen: Unter allen Operatoren in einem Hilbertraum spielen die selbstadjungierten
eine besondere Rolle. Sie haben z.B. reelles Spektrum und lassen sich diagonalisieren. Diese
besondere Eigenschaft erlangen Markowoperatoren also nur dann, wenn man sie in einem L2
über dem stationären Maß betrachtet. In allen anderen L2 -Räumen ist das nicht der Fall. Wenn
man also ein Problem in einem L2 -Raum betrachten will, muß der richtige gewählt werden,
nämlich der über einem stationären Maß.
Es ist klar, daß ein Operator, der in C kein rein reelles Spektrum hat, in keinem L2 -Raum
selbstadjungiert sein kann. Auch in diesem Fall, ist es sinnvoll den L2 -Raum über einem stationären Maß zu wählen. Der Operator kann sich dann als normal (kommutiert mit seinem
adjungierten) herausstellen.
Nicht jeder Operator mit rein reellem Spektrum ist selbstadjungiert in L2 (µ). Man kann sogar
diagonalisierbare Matrizen finden, die diese Eigenschaft nicht haben.
Der Fall, daß die Fortsetzung eines Markowoperators im L2 über einem seiner stationären Maße
selbstadjungiert ist, wird detailierte Balance genannt und spielt eine wichtige Rolle in der
Theorie der Markowprozesse und ihren physikalischen Anwendungen. Oft wird gerade dieser
Fall behandelt, da sich hier relativ einfach Aussagen erzielen lassen.
166
9.2.4
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
Der Operator X
Wir nehmen im weiteren an daß es zu einem Markowoperator M und einem seiner stationären
Maße µ einen beschränkten Operator X gibt, der die Gleichung
hg · Mf, µi = hf · Xg, µi, f, g ∈ C
(38)
erfüllt und wollen seine Eigenschaften untersuchen. Die Ausdrücke auf der linken und rechten
Seite von (38) lassen sich äquivalent umschreiben. Es gilt
hg · Mf, µi = hMf, Qµ gi = hf, M∗ Qµ gi
hf · Xg, µi = hXg, Qµ f i = hf, Qµ Xgi
Zusammen mit (38) ergibt das die zu (38) äquivalente Gleichung
hf, M∗ Qµ gi = hf, Qµ Xgi, f, g ∈ C
(39)
die wiederum zur Gleichung
M∗ Qµ g = Qµ Xg, g ∈ C
(40)
als Gleichung in C∗ und diese wiederum äquivalent zur Operatorgleichung
M∗ Qµ = Qµ X, ∈ L(C, C∗ )
(41)
ist. Eine formale Lösung dieser Gleichung wäre
∗
X = Q−1
µ M Qµ
(42)
Aus der letzten Darstellung lassen sich formal folgende Eigenschaften herleiten:
• X≥0
∗
Beweis: Folgt aus der Positivität jedes einzelnen der Operatoren Q−1
µ , M und Qµ .
∗
−1
∗
−1
• X1 = 1. Beweis: X1 = Q−1
µ M Qµ 1 = Qµ M µ = Qµ µ = 1
• X∗ µ = µ. Beweis:
∗
∗
∗
∗∗ −1
−1
X∗ µ = (Q−1
µ M Qµ ) µ = Qµ M Qµ µ = Qµ MQµ µ = Qµ M1 = Qµ 1 = µ
∗
X ist also ein Markowoperator, dessen adjungierter dasselbe stationäre Maß hat.
Diese Eigenschaften lassen sich streng aus (38) herleiten, wenn man folgende Bedingung an µ
stellt:
µ(U) > 0, U ∈ O(Z)
Diese Bedingung entspricht der Bedingung µi > 0 im endlichdimensionalen Fall.
ÜA 35) Beispiel: Es sei M = Mϕ ein deterministischer Markowoperator mit stetig invertierbarer Funktion ϕ. Berechne den entsprechenden Operator X.
169
9.3 Beispiele
9.3
Beispiele
9.3.1
Zwei Zustände
Im einfachsten Fall zweier Zustände Z = {z1 , z2 } lassen sich viele Größen explizit berechnen.
Die allgemeine darstellung eines Markowoperators (einer 2 × 2-Markowmatrix ist), seines adjungierten und des stationären Zustandes ist
b 1−a
b
1−a
a
∗
a+b
, µ=
, M =
M=
a
a
1−b
b
1−b
a+b
mit a, b ∈ [0, 1].
Es gibt hier zwei Spezialfälle, die wir ausschließen wollen:
1) a = b = 0. Dann ist M = I, jeder Zustand ist stationär und alle Markowketten sind
konstant
0 1
∗
und M∗ beschreibt den deterministischen
2) a = b = 1. Dann ist M = M =
1 0
1 ⇐⇒ z♠
2.
Wechsel der Zustände z♠
Das sind die beiden invertierbaren deterministischen Operatoren. In allen anderen Fällen sind
die Eigenwerte 1 und 1 − a − b. Für den zweiten Eigenwert gilt |1 − a − b| < 1. Das bedeutet,
daß alle Folgen von Potenzen gegen den Projektor auf den durch µ aufgespannten Unterraum
konvergieren:
b
a
n
a+b
a+b
lim M =
b
a
n→∞
a+b
a+b
Wir untersuchen die Symmetrie der “Fortsetzung” L von M L2 (µ) (wegen C = R2 gilt L2 (µ) =
R2 , aber mit anderer Norm und L = M). Der Operator Q−1
µ ist wegen a+b > 0 ein beschränkter
∗
∗
Operator und die Einschränkung X von L läßt sich explizit durch X = Q−1
µ M Qµ berechnen:
b
a+b
0
1
−
a
b
0
1
−
a
a
a+b
b
X=
=
=M
a
a
1−b
b
1−b
0 a+b
0 a+b
a
Alternativ läßt sich die Symmetrie auch durch Berechnung des Skalarproduktes zeigen:
ab
(f1 − f2 )(g1 − g2 )
a+b
Dieser Ausdruck ist offensichtlich symmtrisch bezüglich einer f ⇐⇒ g Vertauschung. Also ist
(Lf, g)µ = (Lg, f )µ .
Im zweidimensionalen ist also jeder Markowoperator selbstadjungiert, also ein detailierterBalance-Fall.
Die für eine Markowkette typische Gleichung p(n + 1) = M∗ p(n) bedeutet ausgeschrieben
(Lf, g)µ = hg · Mf, µi = −
p1 (n + 1) = (1 − a)p1 (n) + bp2 (n)
p2 (n + 1) = ap1 (n) + (1 − b)p2 (n)
Es ist also a die Wahrscheinlichkeit, daß der Zustand z1 in den Zustand z2 übergeht und
1 − a die Wahrscheinlichkeit, daß das nicht passiert. Analoges gilt für b. Wir schreiben das als
a
z♠
z♠
1
2.
b
⇄
170
9.3.2
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
Rotation dreier Zustände
Wir betrachten einen Zustandsraum mit drei Zuständen Z = {z1 , z2 , z3 } und
Markowoperator, seinen adjungierten und des stationären Zustand.
 1




c
1−c
c
0
1−c
0
b
 1
∗




M=
0
1−a
a
, M =
c
1−a
0
, µ= a
1
b
0
1−b
0
a
1−b
b
mit a, b, c ∈ (0, 1].
einen speziellen



1 1 1
+ +
c a b
−1
1
Dieser Operator beschreibt den Übergang der Zustände
z♠
1 =⇒ z♠
2 , z♠
2 =⇒ z♠
3 und z♠
3 =⇒ z♠
1 mit gewissen Wahrscheinlichkeiten. Alle anderen Übergänge sind
nicht erlaubt. Wir können diesen Prozeß als zyklisch in
positiven Drehsinn betrachten.
✓
✉
c ✓
2
✓
✓
✴
✓
✉
a
♦
❙
❙
❙
b
❙
❙
✲ ✉
3
−1
∗
Auch in diesem Fall ist der Operator Q−1
µ beschränkt. Wir erhalten für X = Qµ M Qµ (die
−1
kürzt sich weg).
Normierung 1c + a1 + 1b


 1
 

c 0 0
1−c
0
b
0 0
1−c
0
c
c
1−a
0   0 a1 0  =  a
1−a
0 
X =  0 a 0  c
1
0 0 b
0
a
1−b
0 0 b
0
b
1−b

1−c
a
0
1−a
b 
X∗ =  0
c
0
1−b

Offenbar ist hier X 6= M. Der Operator X∗ beschreibt
mit den selben Übergangswahrscheinlichkeiten einen zyklischen Prozeß im negativen Drehsinn.
1
✉
2
✼
✓ ❙
✓
c❙❙
✓ a
✓
✇
❙
b
✉ ✛
✉
3
Alle 4 Matrizen M, M∗ , X, X∗ haben dieselben Eigenwerte
λ1 = 1
√
1
2 − a − b − c + a2 − 2ab + b2 − 2ac − 2bc + c2
λ2 =
2
√
1
λ3 =
2 − a − b − c − a2 − 2ab + b2 − 2ac − 2bc + c2
2
Das zeigt, daß beide Prozesse – obwohl physikalisch invers zueinander – als Markowkette das
selbe zeitliche Verhalten zeigen. Es ist |λ2,3 | < 1. Deshalb konvergieren alle Markowketten gegen
den einzigen Gleichgewichtszustand µ.
171
9.3 Beispiele
9.3.3
Einfachste Erzeugungs/Vernichtungs-Aufgaben mit zwei Zuständen
Eint typische Aufgabe in der Theorie der Markowketten und -prozesse sind sogenannte Erzeugungs/Vernichtungs-Prozesse (oder Generations/Rekombinations-Prozesse oder birth-death-processes). Für diese Aufgaben ist es relativ einfach, explizite Ergebnisse zu erziehlen, was sie
für Anschungsbeispiele prädestiniert.
Hierbei geht es um folgende Aufgabe: Man hat ein Gefäß, in dem mit einer gewissen Wahrscheinlichkeit Teilchen erscheinen (generiert oder erzeugt) werden und wieder daraus verschwinden
(zu Nichts rekombinieren oder vernichtet werden). Die Natur der Teilchen (und des Gefäßes)
ist unerheblich. Man kann diese Aufgabe auf die verschiedenste Weise modellieren und durch
Erhöhung der Teilchenzahl, der Betrachtung verschiedener Teilchensorten oder der Berücksichtigung von Abhängigkeiten der Erzeugungs- und Vernichtungswahrscheinlichkeiten von Teilchenzahl oder -typ beliebig verkomplizieren.
Wir wollen den einfachsten Fall betrachten: Es gibt ein Teilchen, das außerhalb des Gefäßes
(Zustand z1 ) oder darin sein kann (Zustand z2 ). Es sei a die Erzeugungs- und b die Vernichtungswahrscheinlichkeit. Wir haben also genau den Fall des eben betrachteten Beispiels. Es
ist
!
b 1
1−a
a
1−a
b
a
∗
ab
a+b
M=
, M =
, µ=
= a+b
a
1
b
1−b
a
1−b
a+b
b
Wir wollen an diesem Beispiel verschiedene Modellierungsprobleme betrachten. Neben diesem
Prozeß wollen wir noch einen reinen Erzeugungsprozeß (b = 0)
0
1−a 0
1−a a
∗
, µ+ =
, M+ =
M+ =
1
a
1
0
1
und einen reinen Vernichtungsprozeß (a = 0)
1
1
0
1
b
∗
, µ=
M− =
, M− =
0 1−b
0
b 1−b
betrachten.
Das Produkt zwei Prozesse beschreibt die Hintereinanderausführung der beiden Prozesse. Folglich beschreiben die drei Operatoren M, M+ M− und M− M+ einen Erzeugungs/VernichtungsProzeß, bei dem nur die Reihenfolge geändert ist. Es ist
1−a
a
1 − a + ab a − ab
, M− M+ =
M+ M− =
b − ab 1 − b + ab
b
1−b
∗
(M+ M− ) =
M∗− M∗+
=
1 − a + ab
b
a(1 − b) 1 − b
1
2 ist a(1 − b) anstelle von a in M. Das
Die Wahrscheinlichkeitt des Übergangs z♠
=⇒ z♠
1 =⇒ z♠
2 stattfindet, wenn das Teilchen den Platz von außen
bedeutet, daß der Übergang z♠
nach innen wechselt und außerdem auch noch nicht von innen nach außen wechselt.
Neben λ1 = 1 hat M noch den Eigenwert λ2 = 1 − a − b. Die Matrizen M+ M− und M− M+
haben beide als zweiten Eigenwert λ2 = (1 − a)(1 − b). Die Eigenwerte sind also stets positiv.
Für M muß man für diese – wie sich herausstellen wird – wichtige Eigenschaft explizit a + b ≤ 1
fordern.
9.4 Die Umkehrung physikalischer Prozesse
9.4
171
Die Umkehrung physikalischer Prozesse
Aus dem täglichen Leben ist uns bekannt, daß sich physikalische Prozesse nicht problemlos umkehren lassen. Wir wollen jetzt untersuchen, wie sich das in unseren mathematischen Objekten
widerspiegelt.
9.4.1
Abbildung von Dichten
Es sei p ∈ P(Z) ein gegebener Zustand vorher, M∗ eine Zustandsänderung und p′ = M∗ p ∈
P(Z′ ) der Zustand nachher. µ ∈ P(Z) sei ein stationäres Maß von M∗ .
Wir nehmen an, daß p eine stetige Dichte h bezüglich µ hat, also Qµ h = p und fragen, ob
dann auch p′ eine Dichte bezüglich µ hat. Dazu nehmen wir an, daß es eine Lösung X ∈ M der
Gleichung
hf, M∗ Qµ gi = hf, Qµ Xgi
gibt und setzen h′ = Xh. Setzen wir hier g = h, erhalten wir
hf, Qµ Xhi = hf, M∗ Qµ hi = hf, M∗ pi = hf, p′ i
Da f beliebig ist, erhalten wir p′ = Qµ Xh = Qµ h′ . Das heißt, p′ hat eine Dichte bezüglich µ,
nämlich h′ . So, wie der Operator M∗ die Maße aufeinander abbildet, bildet also der Operator
X die entsprechenden Dichten aufeinander ab.
Aus physikalischer Sicht sind Dichten wie h = Q−1
µ p = p/µ Quotienten extensiver Größen, also
intensive Größen und damit Objekte, denen wir einen physikalischen Sinn geben können.
9.4.2
Physikalisch inverse Zustandsänderungen
Wir beginnen die Überlegungen mit einer Beispielaufgabe:
ÜA 35) Beispiel: Es sei M = Mϕ ein deterministischer Markowoperator mit stetig invertierbarer Funktion ϕ. Berechne den entsprechenden Operator X.
Lösung: Es ist die Gleichung (77) also hMϕ f, Qµ gi = hf, Qµ Xgi oder äquivalent hg ·Mϕ f, µi =
hf · Xg, µi bezüglich X zu lösen. Diese Gleichung bedeutet in Integralschreibweise
Z
Z
Z
f (z)(Xg)(z)µ(dz) =
g(z)f (ϕ(z))µ(dz) = g(ϕ−1(z))f (z)(µ ◦ ϕ−1 )(dz) =
Z
Z
ZZ
=
g(ϕ−1(z))f (z)µ(dz)
Z
Hier wurde im letzten Schritt (µ ◦ ϕ−1 )(B) = µ(B) für B ∈ B benutzt, was die Eigenschaft
von µ, stationäres Maß von M∗ϕ zu sein, widerspiegelt. Nimmt man weiter an, daß µ(U) > 0
für U ∈ O(Z), folgt aus der Beliebigkeit von f
(Xg)(z) = g(ϕ−1 (z))
also
X = g ◦ ϕ−1 = Mϕ−1 = M−1
ϕ
Der Operator X invertiert also die Wirkung des Operators Mϕ . Folglich entspricht dem Operator X∗ der zu M∗ϕ inverse physikalische Prozeß.
172
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
Allgemeine Markowoperatoren M sind nicht invertierbar, trotzdem kann ein entsprechender
Operator X existieren. Im Punkt 9.3.2 auf Seite 168 ist folgendes Beispiel betrachtet: M∗
beschreibt den im positiven Drehsinn zyklischen Übergang dreier Zustände ineinander. Der ensprechende Operator X∗ beschreibt auch den zyklischen Übergang dreier Zustände ineinander,
aber im negativen Drehsinn. Im deterministischen Prozeß, vermittelt durch Mϕ , war der inverse
physiklaische Prozeß Mϕ−1 dem zeitinversen Prozeß M−1
ϕ äquivalent.
Für allgemeine Markowoperatoren M existiert der zeitinversen Prozeß M−1 nicht. (Auch wenn
der Operator M invertierbar ist, ist der inverse genau dann ein auch ein Markowoperator, wenn
er ein deterministischer ist.)
Wir wollen jeden Operator X, der mit einem Operator M
und einem der stationären Zustände µ über die Gleichung
M∗ Qµ = Qµ X gekoppelt ist eine zu M inverse Zustandsänderung nennen.
Schauen wir uns an, wie die Operatoren wirken, so stellen
∗
→ C(Z′ ) vorwärts und
wir fest, daß X = Q−1
µ M Qµ : C(Z) −
∗
′
folglich X∗ = Qµ MQ−1
→ C∗ (Z) rückwärts in der
µ : C (Z ) −
Zeit wirken.
M
C(Z)
✛
✲
C(Z′ )
X
Qµ
Qµ
❄
❄
M∗
C∗ (Z)
✲
✛
C∗ (Z′ )
X∗
Wie hat man sich den inversen physikalischen Prozeß zusammen mit den Zeitpunkten vorzustellen? Wir starteten mit Z und Z′ als zwei verschiedenen Zustandsräume, die verschiedenen
Zeitpunkten entsprechen. Die Zeitrichtung t′ > t haben wir nach dem Operator M definiert.
Sein adjungierter wirkt M∗ : C∗ (Z) −→ C∗ (Z′ ). Da er einen realen physikalischen Prozeß beschreibt, der vorwärts in der Zeit stattfindet, gilt also t′ > t.
Aus mathematischer Sicht sind t und t′ nur zwei Indizes, mit denen wir die verschiedenen
Räume Z und Z′ indiziert haben. Von einer “physikalischen Zeitrichtung” wissen die Formeln
nichts.
Als nächstes haben wir die Operatoren X und X∗ definiert und festgestellt, daß X ein Markowoperator ist. Normalerweise bildet ein Markowoperator im Gegensatz zu seinem adjungierten
nicht physikalische Objekte aufeinander ab. Wir haben aber festgestellt, daß er die physikalische als intensive Größen interpretierbaren Dichten von p und p′ aufeinander – und zwar zeitlich
vorwärts abbildet, wie es sich für physikalische Objekte gehört – abbildet.
Als nächstes haben wir X∗ : C∗ (Z′ ) −
→ C∗ (Z) gebildet und versuchen diesen Operator als Zustandsänderung zu interpretieren. Das ist sinnvoll, da er der adjungierte eines Markowoperators
ist. Wir kommen zum Schluß, daß dieser Operator soetwas wie die umgekehrte Zustandsänderung bezüglich M∗ vermittelt, aber keine Zeitunkehr bedeutet. Auch er bildet vorwärts in der
Zeit ab. Für diesen Prozeß müssen also die Indizes t und ′ in anderer Richtung interpretiert
werden: t > t′ .
Aus mathematischer Sicht gibt es nur die verschiedenen Zustandsräume Z und Z′ , denen wir
Indizes t und t′ zuordnen. Zwischen den entsprechenden Banachräumen wirken Operatoren M,
M∗ , X und X∗ in verschieden Richtungen. Je nachdem, welchen Prozeß wir betrachten, führen
wir in den Indizes eine Ordnung ein. Dazu haben wir die Annahme “physikalische Zeit läuft
vorwärts” verwendet, die außerhalb der Mathematik liegt.
Den Zusammenhang zwischen zeitlicher und physikalischer Umkehr wollen wir weiter untersuchen.
9.4 Die Umkehrung physikalischer Prozesse
9.4.3
173
Läßt sich ein physikalischer Prozeß umkehren
Im weiteren sei stets
p′
q′
h
h′
=
=
=
=
M∗ p
M∗ q
p/q
p′ /q ′
Wir betrachten die Zustandsänderung p′ = M∗ p. Gibt es eine Zustandsänderung (also einen
Markowoperator) Y sodaß p = Y ∗ p′ .
Es sei
∗
Y = Q−1
p′ M Qp
Wir zeigen, daß dieser Operator die geforderten Eigenschaften hat. Offensichtlich ist Y positiv,
weil er das Produkt von drei positiven Operatoren ist. Außerdem ist
∗
−1
∗
−1 ′
Y 1 = Q−1
p′ M Qp 1 = Qp′ M p = Qp′ p = 1
Y ist also ein Markowoperator. Wir untersuchen, welche Abbildungseigenschaften sein adjungierter Y ∗ = Qp MQ−1
p′ hat. Seine Wirkung auf allgemeine Maße ist schwer zu berechnen. Aber
es ist einfach seine Wirkung auf p′ zu berechnen. Es ist
′
Y ∗p′ = Qp MQ−1
p′ p = Qp M1 = Qp 1 = p
Y ∗ beschreibt also einen physikalischen Prozeß, der die Wirkung von M auf dem Zustand p
umkehrt – also den inversen physikalischen Prozeß. Als adjungierter eines Markovoperators
bildet er natürlich vorwärts in der Zeit ab, aber kehrt die Wirkung von M∗ um.
Natürlicherweise stellt sich folgende Frage: Wenn es möglich ist, eine Zustandsänderung umzukehren, ist es möglich, zwei Zustandsänderungen umzukehren?
Wir betrachten p′ = M∗ p, q ′ = M∗ q Kann man eine Zustandsänderung (also einen Markowoperator) Y finden, sodaß p = Y ∗ p′ und q = Y ∗ q ′ .
Es stellt sich heraus, daß das im allgemeinen nicht möglich ist. Das läßt sich mit der Jensensche
Ungleichung zeigen.
9.4.4
Die Jensensche Ungleichung in P × P
Definition: We define a functional H on two arbitrary probability measures p and q as a
generalized Legendre transform of hF (g), qi
(44)
H[p, q] = sup hg, pi − hF (g), qi , p, q ∈ P
g∈C
Theorem: Then, for an arbitrary Markov operator M it holds
H[M∗ p, M∗ q] ≤ H[p, q] , p, q ∈ S∗ , M∗ ∈ M∗ .
(45)
Proof: Denoting the range of M by R(M) and using Jensen’s inequality (31) in Karamata’s
form, we get
H[M∗ p, M∗ q] = sup hg, M∗ pi − F (g), M∗ q = sup hMg, pi − MF (g), q ≤
g∈C
g∈C
≤ sup hMg, pi − F (Mg), q = sup hh, pi − F (h), q ≤
g∈C
h∈R(M)
≤ sup hh, pi − F (h), q = H[p, q] .
h∈C
174
9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME
Let us point out that equality H[M∗ p, M∗ q] = H[p, q] holds if
(1)
MF (g) = F (Mg), and
(2) R(M) = C(Z),
if M is a deterministic Markov operator with weakly dense range.
Remark: There are two places, involving the sign ≤. The first comes from Jensen’s inequality
(31) and the second from the enlargement of the set where the supremum was taken from
h ∈ R(M) to h ∈ C. Form this, it is clear that equality holds if M is a deterministic Markov
operator with weakly dense range.
Corollary: As a special case, for q we can choose the equilibrium measure µ of M∗ . Then, we
have M∗ µ = µ and (82) becomes
H[M∗ p, µ] ≤ H[p, µ], p ∈ P
9.4.5
(46)
Die duale Paarung bleibt konstant
hg ′, p′ i = hg ′, M∗ pi = hMg ′, pi = hg, pi
9.4.6
Irreversibilität zweier Zustandsänderungen
Die oben gestellt Frage nach der Existenz eines solchen Y ∗ kann man jetzt verneinen: So einen
Markovoperator gibt es nicht, es sei denn, M ist ein deterministischer Markovoperator (genauer:
M∗ wirkt auf die beiden p, q ∈ P wie ein deterministischer Markovoperator).
Das kann man folgendermaßen beweisen: Es sei F : R −→ R eine beliebige strikt konvexe
Funktion und
H ∗ [q, p] = supg∈C hg, qi − hF (g), pi
dann gilt für alle Markovoperatoren H ∗ [M∗ q, M∗ p] ≤ H ∗ [q, p] für alle p, q ∈ P, wobei Gleichheit
nur gilt, wenn M ein deterministischer Markovoperator ist. (Außerdem ist H ∗ nach unten beschränkt.) Für jeden nicht deterministischen Markovoperator gilt also H ∗ [M∗ q, M∗ p] < H ∗ [q, p]
oder H ∗ [q ′ , p′ ] < H ∗ [q, p]. Gäbe es einen Markovoperator Y mit der geforderten Eigenschaft,
wäre H ∗ [q ′ , p′ ] > H ∗ [q, p], was ein Widerspruch ist.
Bemerkung: Exakt ist die Nichtumkehrbarkeit nur für Zustände p, q gezeigt, auf denen M nicht
wie ein deterministischer Markovoperator wirkt. Ein Markovoperator, der auf keinem Zustand
wie ein deterministischer Markovoperator wirkt, also einer, der reine Zustände (Diracmaße)
immer in gemischte Zustände (keine Diracmaße) abbildet, heißt mischend.
Damit ist gezeigt: Ein mischender Markovoperator bilde zwei Zustände in zwei andere Zustände
ab. Dann gibt es keinen Markovoperator, der die Zustände zeitlich rückwärts abbildet.
Das heißt: Markovoperatoren sind – es sei denn, sie sind deterministisch – zeitlich irreversibel.
175
10
Markowoperatoren und kontinuierliche Zeit
In diesem Kapitel betrachten wir Zustandsänderungen unter sich kontinuierlich verändernder
Zeit. Im Kapitel zur Modellierung zeitanhängiger Prozesse, werden wir genauer auf die Probleme beim physikalischen Verständnis einer sich kontinuierlich veränderndernden Zeit eingehen.
Hier geht es rein mathematische Probleme so einer Beschreibung. Dazu nehmen wir an, daß wir
eine Schar von Zuständen p(t) gegeben haben, die sich durch einen Parameter t ∈ R+ parametrisieren lassen. Diesen Parameter nennen wir “Zeit” und die Zustandsschar (p(t)) Trajektorie.
Hier betrachten wir also die Zeit im Newtonschen Sinne als absolut und beliebig teilbar gegeben.
Unter allen solchen Trajektorien von Zuständen p(t), mit t ∈ R+ spielen die eine besondere
Rolle, die die sogenannte “Markoweigenschaft” haben. Grob gesagt bedeutet diese Eigenschaft,
daß die Zukunft der Trajektorie nur vom gegenwärtigen Zustand und nicht von der Vergangenheit abhängt. Mathematisch bedeutet die Markoweigenschaft, daß sich die Trajektorie durch
eine Halbgruppe beschreiben läßt.
Eine Halbgruppe von linearen beschränkten Operatoren T(t), t ∈ R+ ist eine Schar, die die
Funktionalgleichung
T(t1 + t2 ) = T(t1 )T(t2 ) = T(t2 )T(t1 ), t2 , t1 ∈ R+
(47)
erfüllt. Eine solche Halbgruppe ist also ein Homomorphismus der additiven Halbgruppe R+ in
die Menge der beschränkten Operatoren.
Diese Funktionalgleichung – zusammen mit gewissen Stetigkeitseigenschaften – stellt sich als
dermaßen streng heraus, daß die gesamte Schar bereits durch die Kenntnis eines einzigen Operators A (des Generators der Halbgruppe) definiert ist. Dieser Generator läßt sich als Richtung
der Tangente der Schar im Zeitpunkt t = 0 interpretieren. Wenn also zum Zeitpunkt t = 0
der Zustand in die “gewünschte Richtung” geschickt wurde, garantiert die Funktionalgleichung
ihre eindeutige Fortsetzung auf ganz bestimmte Weise.
Die Bestimmung der Trajektorie x(t) für einen gegebenen Generator A und einem Anfangswert
x(0) = x0 entspricht dann der Lösung der Differrentialgleichung
ẋ(t) = Ax(t), x(0) = x0
(48)
im Banachraum.
Die Kernfrage der Halbgruppentheorie ist die Frage nach dem Zusammenhang der Halbgruppe
T(t) und ihrem Generator A.
10.1
Die Theorie stetiger Halbgruppen im Banachraum
Im weiteren stellen wir einige allgemeine Aussagen der Theorie stetiger Halbgruppen in Banachräumen zusammen. Später werden wir uns auf die uns eigentlich interessierenden stetigen
Halbgruppen von Markowopertoren interessieren. Es sei X ein Bannachraum, X∗ sein dualer
und x bzw. x∗ Elemente darin. Des weiteren betrachten wir lineare Operatoren, die X nach X
abbilden und ihre adjungierten.
10.1.1
Operatortopologien
Wir betrachten eine Familie von Operatoren T(t) mit t ∈ [0, T ]. Für so eine Famile gibt es
verschiedene Stetigkeitsbegriffe. Wir betrachten den Grenzübergang s −
→ t:
• T(t) heißt gleichförmig stetig, falls kT(t) − T(s)k −
→ 0.
176
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
• T(t) heißt stark stetig, falls kT(t)x − T(s)xk −
→ 0 für alle x ∈ X.
• T(t) heißt schwach stetig, falls hT(t)x, x∗ i − hT(s)x, x∗ i −
→ 0 für alle x ∈ X und x∗ ∈ X∗ .
• T∗ (t) heißt vage stetig, falls hx, T∗ (t)x∗ i − hx, T∗ (s)x∗ i −
→ 0 für alle x ∈ X und x∗ ∈ X∗ .
Da wir nur Operatoren in einem dualen Raum betrachten, die einen präadjungierten
haben, ist eine Operatorfamilie vage stetig, gdw. die präadjungierte schwach stetig ist.
10.1.2
Stetige Halbgruppen beschränkter Operatoren
Die Theorie stetige Halbgruppen im Banachraum ist sehr gut in pazy beschrieben.
• Eine Familie beschränkter Operatoren heißt Halbgruppe, wenn
T(t1 + t2 ) = T(t1 )T(t2 ) = T(t2 )T(t1 ), t2 ≥ t1 ≥ 0
T(0) = I
(49)
(50)
• In Abhängigkeit von der Topologe gibt es gleichförmig, stark, schwach und vage stetige
Halbgruppen. Wir interessieren uns in erster Linie für stark stetige Halbgruppen und
setzen im weiteren diese Eigenschaft voraus. Der Grund dafür ist, daß nur stark stetige
Halbgruppen im Zusammenhang mit Differentialgleichungen im Banachraum stehen.
• Satz: T(t) ist stark stetig ⇐⇒ T(t) ist stark stetig für t = 0.
Das folgt aus der Halbgruppeneigenschaft und Beschränktheit der Halbgruppenoperatoren.
• Offensichtlich ist auch T∗ (t) eine Halbgruppe beschränkter Operatoren, falls T(t) eine
ist. Allerdings muß sie nicht stark stetig sein.
• Eine Halbgruppe zusammen mit einem Anfangswert x(0) generiert eine Trajektorie x(t) =
T(t)x(0).
• Ziel im weiteren ist, festzustellen, in welcher Beziehung eine Trajektorie x(t), generiert
von einer Halbgruppe, T(t) zur Gleichung ẋ(t) = Ax(t) steht.
• Normalerweise wird neben der Stetigkeit noch ein gewisses Verhalten der Halbgruppe
für große Zeiten verlangt, etwa kT(t)k ≤ Meωt für gewisses ω < ∞ und M > 0. Wir
beschränken uns hier auf kontraktive Halbgruppen. Das sind Halbgruppen mit der Eigenschaft kT(t)k ≤ 1 (für Halbgruppen von Markowoperatoren gilt sogar kT(t)k = 1).
Das ist keine prinzipielle Einschränkung, denn durch geeignete Skalierung und Verschiebung läßt sich aus einer Halbgruppe mit kT(t)k ≤ Meωt stets eine geeignete kontraktive
Halbgruppe konstruieren.
10.1.3
Unbeschränkte Operatoren
Neben beschränkten linearen Operatoren, also solchen, die auf dem ganzen Raum definiert sind
und eine beschränkte Norm haben, ist es sinnvoll auch andere lineare Operatoren zu betrachten,
unbeschränkte.
Dazu wird häufig folgende Definition verwendet:
Ein Operator A heißt unbeschränkt, wenn es eine Folge xn gibt mit kxn k = 1 und kAxn k −
→ ∞.
Ein unbeschränkter linearer Operator ist nicht stetig, da ein linearer Operator genau dann stetig
ist, wenn er beschränkt ist.
10.1 Die Theorie stetiger Halbgruppen im Banachraum
177
In C ist diese Definition unbefriedigend, da nicht die Unbeschränktheit der Norm hier das
entscheidende, sondern der Definitionsbereich ist. Wir werden deshalb einen linearen Operator
unbeschränkt nennen, wenn er nicht auf dem ganzen Raum definiert ist. In diesem Sinne werden
wir z.B. den Multiplikationsoperator mit einer unstetigen aber beschränkten Funktion auch als
unbeschränkt bezeichnen, da er sich nur – wenn überhaupt – auf einem echten Ideal in C
definieren läßt.
Ein unbeschränkter Operator A läßt sich nicht auf dem ganzen Raum X, sondern nur auf einer
Teilmenge D(A) ⊂ X, seinem Definitionsbereich, definieren.
Ein unbeschränkter Operator A heißt dicht definiert, falls D(A) = X.
Zwei unbeschränkte Operatoren zählen als verschieden, falls sie verschiedene Definitionsbereiche haben, auch wenn sie auf der Schnittmenge übereinstimmen. Diese Bemerkung ist wichtig,
weil man unbeschränkte Operatoren oft auf verschiedene Weise fortsetzen kann und die verschiedenen Fortsetzungen völlig verschiedene Eigenschaften haben können.
Ein linearer Operator A heißt abgeschlossen, falls aus (xn ∈ D(A), xn −
→ x, Axn −
→ y folgt
x ∈ D(A), Ax = y.
Ein linearer Operator A heißt abschließbar, falls er eine abgeschlossene Erweiterung hat (wird
bezeichnet mit A).
Bemerkungen:
• Beschränkte Operatoren sind stets abgeschlossen.
• Abgeschlossenheit bedeutet, der Graph kann unbschränkt sein, hat aber “keine Lücken”.
• Abgeschlossene Operatoren sind die “nächstschlechten” nach den beschränkten.
• Operatoren, die nicht abgeschlossen sind, sind weitgehend uninteressant. Z.B. ist ihre
Resolventenmenge leer.
• Ein Operator ist abschließbare, genau dann wenn aus xn ∈ D(A), xn −
→ 0, Axn −
→x
folgt x = 0.
Adjungierte Operatoren:
• Es sei A ein auf D(A) definierter Operator. Wir betrachten
hAx, x∗ i = hx, y ∗i, x ∈ D(A)
Es ist sinnvoll, die Abbildung y ∗ = A∗ x∗ den zu A adjungierten Operator zu nennen. Das
ist aber nur korrekt, wenn y ∗ eindeutig definiert ist. Das ist der Fall, wenn D(A) dicht in
X ist.
• Für unbeschränkte nicht dicht definierte Operatoren läßt sich ein adjungierter Operator
nicht definieren, der entsprechende Wert y ∗ nicht eindeutig festgelegt werden kann.
• Der adjungierte eines unbeschränkten Operators ist ebenfalls unbeschränkt, muß aber
nicht dicht definiert sein.
• Hieraus folgt: Unbeschränkte Operatoren haben im allgemeinen keinen doppelt adjungierten.
• Oft werden die Begriffe “dual” und “adjungiert” als Synonyme betrachtet. Für Generatoren von Halbgruppen werden die Begriffe dual und bidual allerdings in einem anderen
Sinn als “adjungiert” und “doppelt adjungiert” verwendet.
178
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
Zeitintegrale Im weiteren werden wir Zeitintegrale über Halbgruppen betrachten. Im allgemeinen ist die Definition von Integralen im Banachraum ein kompliziertes Problem. Handelt
es sich allerdings – wie bei uns – um stetige Funktionen, die integriert werden, so lassen sich
Integrale einfach als Grenzwerte der entsprechenden Riemannsummen definieren,die – aufgrund
der Stetigkeit – konvergieren.
10.1.4
Der Generator einer Halbgruppe
Es sei T(t) eine stark stetige Halbgruppe. Wir definieren die Menge
1
D(A) = x ∈ X | ∃ lim (T(t)x − x)
t→0 t
Die Menge D(A) ist stets nichtleer und linear. Auf D(A) definieren wir den Operator A durch
1
Ax = lim (T(t)x − x)
t→0 t
und nennen ihn Generator der Halbgruppe T(t). D(A) heißt Definitionsbereich des Generators.
10.1.5
Die Resolvente des Generators einer Halbgruppe
Für einen Operator A und einer komplexen Zahl λ betrachten wir die Gleichung
λx − Ax = y
(51)
und untersuchen die Lösbarkeit dieser Gleichung für gegebene rechte Seite y. Die Menge
̺(A) = λ ∈ C ∀y ∈ X, ∃!x ∈ D(A) : λx − Ax = y
D.h. in der Resolventenmenge liegen alle die komplexen Zahlen, für die die Gleichung (51)
eindeutige Lösung hür alle rechten Seiten hat.
Für ein λ ∈ ̺(A) definieren wir die Resolvente als
R(λ) = (λI − A)−1
Offensichtlich ist R(λ) ein linearer beschränkter Operator.
Eine Resolvente kann zu jedem Operator definiert werden. Für uns ist die Resolvente des Generators einer Halbgruppe von besonderem Interesse. Wir nennen sie Resolvente der Halbgruppe.
Das besondere der Resolvente ist ihr Zusammenhang mit der Gleichung (48). Man kann z.B.
die Frage stellen,wann hat diese Gleichung eine Lösung für alle Anfangswerte x0 ∈ X. Um das
zu untersuchen betrachten wir die Laplacetransformation der Lösung.
Es sei x(t) eine ausreichend reguläre Funktion. Dann ist
Z ∞
x̂(λ) =
e−λt x(t)dt
0
ihre Laplacetransformation.
Wir wenden diese Integral auf die Gleichung (48) an und erhalten nach partieller Integration
und unter der Annahme, daß sich das Integral und A vertauschen lassen
λx̂(λ) − x0 = Ax̂(λ)
oder äquivalent
λx̂(λ) − Ax̂(λ) = x0
Das ist gerade Gleichung (51). Die Laplacetransformation überführt also die Frage nach der
Lösbarkeit der Gleichung (48) auf die Frage nach der Existenz der Resolvente.
Tatsächlich ist Gleichung (48) in gewissem Sinne ursprünglicher als Gleichung (51).
10.1 Die Theorie stetiger Halbgruppen im Banachraum
10.1.6
179
Die Yosida-Approximation des Generators einer Halbgruppe
Neben der Resolvente ist auch der beschränkte Operator
A(λ) = λ2 R(λ) − λI, λ ∈ ̺(A)
von Interesse. Er wird Yosida-Approximation von A genannt.
10.1.7
Einige Zusammenhänge
Wir führen hier einige Zusammenhänge zwischen den Operatoren A, T(t), R(λ) und A(λ) an,
die im weiteren häufig verwendet werden.
Die Formeln sind geschrieben als Zusammenhänge zwischen Operatoren. Diese gelten in dieser
Form nur, wenn der Generator beschränkt ist. Im allgemeinen gelten sie im starken Sinn angewendet auf Elemente des Definitionsbereiches von A bzw. angewendet auf beliebige Elemente
für die Operatoren T(t) und R(λ). Alle Operatoren kommutieren.
Z ∞
Z ∞
−λt
λR(λ) = λ
e T(t)dt = λ
e−(λ−A)t dt = λ(λ − A)−1
(52)
0
0
−n
n n n
t
At
R
= lim I − A
(53)
T(t) = e = lim
n→∞
n→∞ t
t
n
1
(54)
A = T′ (0) = lim (T(t) − I) = lim A(λ)
t→0
− t
λ→∞
A(λ) = λ2 R(λ) − λI = AλR(λ) = λR(λ)A
(55)
Der Grenzwert (53) ist der Beweis der Konvergenz des impliziten Eulerverfahrens.
Asymptotisch gelten folgende Zusammenhänge zwischen den Grenzwerten der Resolvente und
der Halbgruppe:
lim λR(λ) = lim T(t) = T(0) = I
t→0
−
λ→∞
lim λR(λ) = lim T(t) = T(∞)
t→∞
−
λ→0
Insbesondere die zweite Zeile ist eine brauchbare Methode um die stationären Punkte einer
Halbgruppe zu berechnen. T(∞) ist der Projektor in den linearen Raum der stationären Punkte.
Für die Yosida-Approximation gilt außerdem
T(t)g =
=
−λt
lim e
λ→∞
k!
k=0
(λ2 R(λ)−λ)t
lim e
λ→∞
∞
X
(λt)k
k
2
λR(λ) g = lim e−λt eλ R(λ)t g =
λ→∞
g = lim eλAR(λ)t g = lim eAλ t g
λ→∞
λ→∞
Die Halbgruppeneigenschaft von T(t) führt auf eine analoge Beziehung zwischen verschiedenen
Resolventen (Hilbert-Identität)
T(t)T(s) = T(t + s)
R(λ) − R(µ) = (λ − µ)R(λ)R(µ)
aus der weitere Eigenschaften der Resolvente folgen:
R′ (λ) = −R2 (λ)
R(n) (λ) = (−1)n n!Rn+1 (λ)
(56)
(57)
180
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
Beweis von (57) aus (56): Es sei µ > λ
T(s)T(t) = T(t + s)
Z ∞
Z ∞
−λt
T(s)R(λ) =
e T(t + s)dt =
e−λt eλs T(t)dt =
0
Z ∞
Zs s
λs
−λt
−λt
= e
e T(t)dt −
e T(t)dt =
0
0
Z s
λs
λs
= e R(λ) − e
e−λt T(t)dt
0
Z ∞
Z ∞
Z ∞
Z s
−µs
−µs λs
−µs λs
R(λ)
e T(s)ds = R(λ)
e e ds −
e e
e−λt T(t)dt =
0
0
0
∞ 0
Z
R(µ)
e(λ−µ)s s −λt
R(λ)
−
e T(t)dt +
=
µ−λ
λ−µ 0
λ−µ
0
R(µ)
R(λ)
+
R(λ)R(µ) =
µ−λ λ−µ
10.1.8
Gleichmäßig stetige Halbgruppen
Es stellt sich heraus, daß die Generatoren von Halbgruppen prinzipiell ander Eigenschaften
haben, in Abhängigkeit davon, in welchem Sinne die Halbgruppe stetig ist. Die Generatoren
von gleichmäßig stetigen Halbgruppen sind beschränkt, die von stark stetigen Halbgruppen sind
unbeschränkt.
Die wichtigste Frage im Zusammenhang von Halbgruppen und Generatoren ist, wann ist ein
gegebener Operator der Generator einer Halbgruppe. Im Falle beschränkter Operatoren ist das
einfach. Sie sind stets Generatoren.
Satz: A ist Generator einer gleichmäßig stetigen Halbgruppe genau dann, wenn A beschränkt
ist.
Beweis:
⇐=: Es sei A ein beschränkter linearer Operator. Wir definieren
tA
T(t) = e
=
∞ n
X
t
n=0
n!
An
Diese Reihe konvergiert für alle komplexen t (wir interessieren uns nur für t ∈ R+ ), da die Norm
von A beschränkt ist.
Unter Benutzung dieser Darstellung läßt sich leicht zeigen, daß T(t) die Halbgruppenfunktionalgleichung erfüllt.
Aus der Ungleichung
kT(t) − Ik ≤ tkAketkAk
folgt die gleichmäßige Stetigkeit von T(t).
Aus der Ungleichung
1
T(t) − I − A ≤ kAk · max kT(s) − Ik
t
0≤s≤t
zusammen mit der gleichmäßigen Stetigkeit folgt, daß A der Generator von T(t) ist.
10.1 Die Theorie stetiger Halbgruppen im Banachraum
181
=⇒: Es sei T(t) eine gleichmäßig stetige Halbgruppe. Dann gilt
Z
1 t
T(s)ds = I
lim
t→0
t 0
Hieraus
folgt, daß es ein hinreichend kleines
sodaß der inverse Operator von
R
R τ τ > 0 gibt,
−1
1 τ
T(s)ds existiert. Damit existiert auch 0 T(s)ds
und aus der leicht nachzuprüfenden
τ 0
Indentität
Z τ
Z τ +t
Z
1
1 t
1
T(t) − I
T(s)ds =
T(s)ds −
T(s)ds
t
t τ
t 0
0
oder äquivalent
1
T(t) − I =
t
Z τ +t
Z τ
−1
Z
1
1 t
T(s)ds −
T(s)ds
T(s)ds
t τ
t 0
0
folgt die Existenz des beschränkten Operators
Z τ
−1
1
A := lim T(t) − I = T(τ ) − I
T(s)ds
t→0 t
0
Damit folgt die Behauptung.
Desweiteren läßt sich leicht zeigen, daß zwei Halbgruppen gleich sind, wenn sie denselben Generator haben.
Aus dem angegebenen Satz folgt:
Satz: Die Abbildung t −
→ T(t) als Abbildung R −
→ L(X) ist norm-differentierbar und es gilt
d
T(t) = AT(t) = T(t)A
dt
Angewendet auf ein Element x0 folgt hieraus mit x(t) = T(t)x0
ẋ(t) = Ax(t), x(0) = x0
Diese Gleichung ist lösbar. Seine Lösung ist
x(t) = etA x0
10.1.9
Hauptsatz der Halbgruppentheorie
Im Falle, daß die halbgruppe nicht gleichmäßig stetig sondern nur stark stetig ist, ist die Welt
wesentlich komplizierter. Es gilt folgender
Hauptsatz der Halbgruppentheorie: Es sei T(t) eine stark stetige kontraktive Halbgruppe
und A ihr Generator mit dem Definitionsbereich D(A). Dann gilt:
1. x ∈ D(A) =⇒ T(t)x ∈ D(A) für t > 0
2. Die Abbildung x(0) −
→ x(t) = T(t)x(0) ist stark differenzierbar gdw. x(0) ∈ D(A).
182
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
3. Es gilt
ẋ(t) =
d
x(t) = T(t)x(0) = AT(t)x(0) = T(t)Ax(0) = Ax(t)
dt
4. Für alle x, t > 0 ist
A
Z
0
t
Rt
0
(58)
T(s)xds ∈ D(A) und
T(s)xds = T(t)x − x
(59)
5. Für x ∈ D(A) gilt
T(t)x − x =
Z
t
AT(s)xds
0
6. D(A) = X (A ist dicht definiert)
7. A ist abgeschlossen
8. Für λ ∈ C mit ℜe λ > 0 existiert die Laplacetransformation
λ ∈ ̺(A) und
R(λ) = (λI − A)
−1
=
Z
R∞
0
e−λt T(t)xdt und es gilt
∞
e−λt T(t)xdt
0
Der Beweis kann in pazy eingesehen werden.
Bemerkungen:
• Der Satz stellt einen Zusammenhang zwischen der Funktionalgleichung (49), der Exponentialfunktion und der Diifferentialgleichung (58), der aus der eindimensionalen Theorie
gut bekannt ist.
Im unendlich-dimensionalen Raum treten Besonderheiten auf, weil A unbeschränkt sein
kann. Das äußert sich darin, daß die Differentialgleichung (58) nur für Elemente aus dem
Definitionsbereich von A gilt. Die allgemeine Gleichung ist (59).
• Die Zuordnung zwischen Generator und Halbgruppe ist eineindeutig: Falls zwei Halbgruppen denselben Generator haben (mit demselbe Definitionsbereich!), sind sie identisch (für
jedes t dieselben Operatoren).
• Sollte eine stetige Halbgruppe sogar gleichmäßig stetig sein, ist ihr Generator ein beschränkter Operator und umgekehrt.
10.1 Die Theorie stetiger Halbgruppen im Banachraum
10.1.10
183
Wann ist ein Operator ein Generator?
Aus Sicht der Anwendung ist natürlich die umgekehrte Frage von Interesse: Wann ist ein gegebener unbeschränkter Operator ein Generator einer Halbgruppe oder: Welche Eigenschaften
eines Operators sind hinreichend um ein Generator einer Halbgruppe zu sein.
Satz (Hille-Yosida): Es sei A ein dicht definierter abgeschlossener Operator, R+ ⊂ ̺(A) und
kλR(λ)k ≤ 1. Dann ist er Generator einer stetigen kontraktiven Halbgruppe.
Der Beweis dieses Satzes ist in pazy enthalten. Er ist konstruktiv. Kernpunkt ist die Benutzung
der Yosida-Approximation A(λ) (sie wurde im Zusammenhang mit diesem Satz definiert). Die
entscheidende Eigenschaft der Yosida-Approximation ist, daß ihre Werte auf D(A) stark gegen
die Werte von A konvergieren. Insbesondere gilt
lim λR(λ)x = x, x ∈ X
λ→∞
−
lim A(λ)x = Ax, x ∈ D(A)
tA(λ)
e
x − etA(µ) x ≤ tkA(λ)x − A(µ)xk
λ→∞
−
lim etA(λ) x = T(t)x, x ∈ X
λ→∞
−
Bemerkung zur Generator-Eigenschaft: Die Frage, ob ein Operator A ein Generator ist,
bedeutet letztlich, wann für einen gegebenen Operator A das Cauchyproblem
d
x(t) = Ax(t), x(0) = x0
dt
(60)
lösbar ist (wenn es lösbar ist, wird die Lösung von einer Halbgruppe generiert).
Der obige Satz sagt, daß das der Fall ist, wenn die Resolventenmenge nicht leer ist, wenn
also die Gleichung (λ − A)x = y für jedes y ∈ X eine Lösung x ∈ X besitzt. Tatsächlich ist
damit die Frage nach der Lösbarkeit einer zeitabhängigen Gleichung auf die Lösbarkeit einer
zeitunabhängigen, aber von einem komplexen Parameter abhängigen Gleichung geführt worden.
Das ist beinahe eine Tautologie. Beide Gleichungen gehen durch die Laplacetransformation
ineinander über.
Die richtige Definition eines unbeschränkten Operators kann eine schwere mathematische Aufgabe sein, die gleichbedeutend mit der Untersuchung der Lösbarkeit von Gleichungen ist. Das
ist gut bekannt in der Theorie partieller Differentialgleichungen. Dort müssen insbesondere für
Differentialoperatoren Randbedingungen richtig gestellt werden. Erst das definiert den Operator so, daß entsprechende Gleichungen lösbar werden.
Der Beweis der Lösbarkeit einer Gleichung läßt sich nicht automatisieren. Das hängt vom konkreten Operator ab und davon, wie wir ihn definiert haben. Wir können ungeschickt sein und
ihn so definieren, daß die Gleichung keine Lösung hat (z.B. zuviele oder zuwenige Randbedingungen).
10.1.11
Summen von Generatoren. Kommutativität. Störungstheorie
Eine wichtige Frage ist, wann die Summe A + B ein Generator ist, wenn beide Operatoren
für sich Generatoren sind. Das ist für unbeschränkte Operatoren im allgemeinen ein schweres
Problem.
184
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
Für beschränkte Generatoren A und B ist A+B auch beschränkt und folglich ebenfalls ein Generator. Im allgemeinen läßt sich die Halbgruppe et(A+B) aber nicht leicht aus den Halbgruppen
etA und etB bestimmen. Insbesondere gilt
et(A+B) 6= etA etB
wenn die Operatoren A und B nicht kommutieren. Approximativ kann man et(A+B) mit der
Trotter-Formel bestimmen.
Weiß man von einem Operator A, daß er ein Genrator ist, läßt sich das auch von anderen
Operatoren beweisen, die in gewissem Sinn von A dominiert werden. Dazu gibt es eine Reihe
von Störungssätzen, die man z.B. in pazy nachlesen kann. Insbsondere ist A + B Generator,
wenn B beschränkt ist.
Ist B unbeschränkt, dann ist – grob gesagt – A + B Generator, wenn D(B) ⊃ D(A) und eine
Abschätzung in der Art von
kBxk ≤ kAxk + ckxk
möglich ist.
10.1.12
Numerische Bestimmung der Halbgruppe
Üblicherweise führt die Approximation einer Gleichung vom Typ (48) zu einer ebensolchen
Gleichung in einem endlichdimensionelen Raum.
10.2 Halbgruppen von Markowoperatoren
10.2
185
Halbgruppen von Markowoperatoren
Uns interessieren in erster Linie Halbgruppen T(t) von Markowoperatoren in C(Z) und ihre
adjungierten in C∗ (Z). Nur solche Halbgruppen haben physikalischen Sinn, denn nur für sie
gilt T∗ (t)P ⊂ P. Diese Einschränkung schränkt auch die Menge der Generatoren ein. Die Verbandseigenschaften von C liefert eine strenge Bedingung dafür, daß ein Generator ein Generator
einer Halbgruppen von Markowoperatoren ist – das positve Minimumprizip. Die Frage, wann
ein Operator ein Generator ist, führt aber auch in diesem Fall auf die Frage nach der Lösbarkeit
einer entsprechenden Resolventengleichung.
10.2.1
Eigenschaften der Halbgruppen und Generatoren
Es sei T(t) ⊂ M eine Halbgruppe von Markowoperatoren, A ihr Generator (wir nennen ihn
Markowgenerator) und R(λ) die Resolvente mit λ > 0. Es gelten folgende offensichtliche Eigenschaften:
• kT(t)k = 1
• Die Resolvente existiert für alle λ mit ℜe λ > 0 (folgt aus kT(t)k = 1).
• T(t)1 = 1 =⇒ 1 ∈ D(A), A1 = 0. Das heißt 0 ist Eigenwert von jedem Markowgenerator.
• T(t) ≥ 0 =⇒ λR(λ) ≥ 0. Es gilt auch die Umkehrung. Beides folgt aus (52).
• λR(λ)1 = 1 (folgt aus (52)). Hieraus folgt λR(λ) ∈ M für λ > 0.
10.2.2
Das positive Minimumprinzip
Markowoperatoren sind mittelnde Operatoren. Das heißt, es gilt für jedes t ≥ 0
gmin = g(zmin) ≤ (T(t)g)(z) ≤ g(zmax ) = gmax
(zu den Definitionen siehe Abschnitt 5.3.6 auf Seite 74). Hieraus folgt
(T(t)g − g)(zmin) ≥ 0 ,
was die Ungleichung
(Ag)(zmin) ≥ 0, g ∈ D(A)
für A impliziert. D.h., falls T(t) eine Halbgruppe von Markowoperatoren ist, muß ihr Generator
diese Ungleichung erfüllen. Es stellt sich heraus, daß auch die Umkehrung richtig ist.
Das suggeriert, folgende Definition einzuführen:
Definition (positives Minimumprinzip): Ein Operator A mit A1 = 0 erfülle das positives
Minimumprinzip, wenn gilt
(Ag)(zmin) ≥ 0, g ∈ D(A)
wobei zmin der Punkt ist, in dem g sein Minimum annimmt.
Es gibt zwei weitere Definition, deren Äquivalenz offensichtlich ist:
Definition (negatives Maximumprinzip): Ein Operator A mit A1 = 0 erfülle das negative
Maximumprinzip, wenn gilt
(Ag)(zmax) ≤ 0, g ∈ D(A)
186
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
wobei zmax der Punkt ist, in dem g sein Minimum annimmt.
Definition (positives Minimumprinzip): Ein Operator A mit A1 = 0 erfülle das positive
Minimumprinzip, wenn für ein 0 ≤ g ∈ D(A) gilt
g(z) = 0 =⇒ (Ag)(z) ≥ 0
Es gilt folgender
Hauptsatz für Markowgeneratoren: Es sei T(t) eine stetige Halbgruppe und A ihr Generator. T(t) ist eine Halbgruppe von Markowoperatoren, genau dann, wenn ihr Generator das
positives Maximumprinzip erfüllt.
Beweis (=⇒) Es sei T(t) eine Halbgruppe von Markowoperatoren und g ∈ D(A). Dann gilt
1
(T(t)g − g)(zmin ) ≥ 0 =⇒ (Ag)(zmin) ≥ 0
t
(⇐=) Es sei D(A) ∋ g ≥ 0. Wir beweisen, daß für jedes λ > 0, R(λ) ≥ 0. Nach Formel(53) folgt
dann T(t) ≥ 0. Angenommen, R(λ) 6≥ 0. Dann existiert ein g und ein z0 mit R(λ)g (z0 ) < 0,
wobei wir annehmen können, daß
z0 der Punkt ist, wo R(λ)g sein Minimum annimmt. Nach
Vorausetzung ist dann AR(λ)g (z0 ) ≥ 0. Dann folgt für λ > 0
g(z0 ) = (λ − A)R(λ)g (z0 ) = λR(λ)g (z0 ) − AR(λ)g (z0 ) < 0
g(zmin) ≤ (T(t)g)(z) =⇒
was im Widerspruch zu g ≥ 0 steht.
Dieser Satz ermöglicht, ein etwas einfacheres hinreichendes Kriterium zu finden als das HilleYosida-Theorem.
Satz: Es sei A ein in C(Z) dicht definierter Operator, der das positives Maximumprinzip erfüllt
und desssen Resolventenmenge nicht leer ist. Dann ist A abschließbar, sein Abschluß erfüllt
ebenfalls das positive Maximumprinzip und ist Generator einer stetigen Halbgruppe von Markowoperatoren.
Der Beweis ist bis auf die Abschließbarkeit (hierzu siehe in 1184) bereits erbracht.
10.2.3
Stationäre Punkte
Die adjungierte T∗ (t) einer Halbgruppe T(t) ist offensichtlich wieder eine Halbgruppe. Allerdings muß sie nicht stark stetig sein. Das hat Folgen für die Formulierung von Evolutionsgleichungen (siehe Abschnitt 10.4 auf Seite 189).
Außerdem ist T∗ (t) ist eine kommutierende Familie von Operatoren und besitzt damit nach dem
Satz von Markow-Kakutani einen gemeinsamen stationären Punkt µ, d.h., es gilt T∗ (t)µ = µ
für t ∈ R+ .
Dieses µ liegt im Kern von A∗ . Es gilt folgender
Satz: Es sei T(t) eine stetige Halbgruppe und A ihr Generator. Dann gilt T∗ (t)µ = µ ⇐⇒
A∗ µ = 0.
Beweis:
=⇒ Aus T∗ (t)µ = µ folgt für alle g ∈ D(A):
1
1
1
hg, A∗ µi = hAg, µi = lim hT(t)g − g, µi = lim hg, T∗(t)µ − µi = lim 0 = 0
t→0 t
t→0 t
t→0 t
∗
Da D(A) dicht ist, folgt A µ = 0.
⇐= Der Beweis folgt aus Gleichung (59) gepaart mit µ und A∗ µ = 0.
10.3 Halbgruppen von deterministischen Markowoperatoren
10.3
Halbgruppen von deterministischen Markowoperatoren
10.3.1
Halbflüsse
187
Besondere Bedeutung haben Halbgruppen von deterministischen Markowoperatoren, also T(t) ⊂
Me . Ein deterministischer Markowoperator ließ sich eindeutig durch eine stetige Funktion
ϕ : Z −→ Z darstellen. Es lassen sich Halbgruppen von deterministischen Markowoperatoren
durch Halbflüsse darstellen. Es sei ϕt eine Schar stetiger Funktionen und T(t) = Mϕt eine
Schar deterministischer Markowoperatoren.
ϕt ist ein Halbfluß (siehe Abschnitt 8.1.3) genau dann, wenn T(t) eine Halbgruppe ist. Das
folgt aus der Identität
Mϕt2 ◦ϕt1 = Mϕt1 Mϕt2
Den Zusammenhang zwischen den Stetigkeiten von Halbfluß und Halbgruppe liefert folgender
Satz: Folgende drei Aussagen sind äquivalent:
• ϕ als Abbildung R+ × Z −
→ Z ist stetig in der Produkttopologie.
• ϕ(t, z) ist stetig bezüglich jeder Variablen
• T(t) = Mϕt ist stark stetig in C(Z)
Der Beweis kann in 1184 gefunden werden.
Nach dem Hauptsatz über deterministischen Markowoperatoren, sind sie äquivalent als algebraische Homomorphismen charakterisiert. D.h., Halbgruppen von deterministischen Markowoperatoren sind äquivalent als Operatorenfamilie T(t) mit
T(t)(f · g) = T(t)f · T(t)g
(61)
charakterisiert.
Es stellt sich heraus, daß sich die Generatoren solcher Halbgruppen auch algebraisch charakterisieren lassen.
10.3.2
Generatoren. Derivationen
Definition: Ein Operator A heißt Derivation, wenn D(A) eine Unteralgebra ist (d.h. mit
f, g ∈ D(A) auch f · g ∈ D(A) gilt), 1 ∈ D(A) und für alle f, g ∈ D(A)
A(f · g) = Af · g + f · Ag
gilt.
Offensichtlich gilt 1 ∈ D(A) =⇒ A1 = 0.
Satz: Es sei T(t) eine stetige Halbgruppe und A ihr Generator. T(t) ist eine Halbgruppe von
deterministischen Markowoperatoren, genau dann, wenn ihr Generator eine Derivation ist.
Beweis: (aus 1184) (=⇒) Angenommen, T(t) ist eine Halbgruppe von algebraischen Homomorphismen, also auch Markowoperatoren. Damit folgt T(t)1 = 1 und folglich 1 ∈ D(A). Es
seien f, g ∈ D(A). Dann gilt mit (61)
d d T(t)f · T(t)g = Af · g + f · Ag
A(f · g) = T(t)(f · g) = dt t=0
dt t=0
Folglich ist f · g ∈ D(A) und A eine Derivation.
188
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
(⇐=) Es sei f, g ∈ D(A) (das reicht, da D(A) dicht ist).
η(s) = T(t − s) T(s)f · T(s)g
Dann ist
η(0) = T(t)(f · g)
η(t) = T(t)f · T(t)g
Wir berechnen die Ableitung von η(s) und benutzen dabei T′ (s) = T(s)A:
η ′ (s) = −T′ (t − s) T(s)f · T(s)g + T(t − s) T′ (s)f · T(s)g +
+ T(t − s) T(s)f · T′ (s)g =
= −T(t − s)A T(s)f · T(s)g + T(t − s) T(s)Af · T(s)g +
+ T(t − s) T(s)f · T(s)Ag =
= −T(t − s) T(s)Af · T(s)g − T(t − s) T(s)f · T(s)Ag +
+ T(t − s) T(s)Af · T(s)g + T(t − s) T(s)f · T(s)Ag = 0
Folglich gilt η(0) = η(t).
10.3.3
Derivationen sind unbeschränkt
Satz: Derivations sind unbeschränkte Operatoren.
Beweis: Es sei A mit A(f g) = f Ag + gAf . Es gilt A1 = 0. Wir nehmen D(A) = C an
und beweisen, daß dann A = O sein muß. Es sei z0 und f beliebig (wir zeigen (Af )(z0 ) = 0,
hieraus folgt dann A = O). Es sei g = f − f (z0 ). Dann ist g(z0 ) = 0, g+ (z0 ) = 0, g− (z0 ) = 0,
1
1
g+2 (z0 ) = 0, g−2 (z0 ) = 0 und Af = Ag. Wegen g+ , g− ∈ D(A) gilt
(Af )(z0 ) = (Ag)(z0 ) = (A(g+ − g− ))(z0 ) = (Ag+ )(z0 ) − (Ag− )(z0 ) =
1
1
1
1
= (Ag+2 · g+2 )(z0 ) − (Ag−2 · g−2 )(z0 ) =
1
1
1
1
= 2g+2 (z0 )(Ag+2 )(z0 ) − 2g−2 (z0 )(Ag−2 )(z0 ) = 0
∂
= O. Das gilt nur, wenn
Das heißt, der Operator bildet f auf die 0 ab, es ist also A = a(z) ∂z
g = g+ − g− im Definitionsbereich zerlegt werden kann, was für differenzierbare Funktionen
nicht gilt. Das heißt, wenn f differenzierbar ist, kann ich so nicht beweisen, daß Af = 0 ist. Die Unbeschränktheit erkennt man auch so: Es sei kf k = 1. Es gilt
Af n
Af 1
Af 2
Af 3
Af n
=
=
=
=
=
A(f · f n−1 ) = Af · f n−1 + f · Af n−1
Af
2f · Af
3f 2 · Af
nf n−1 · Af
Damit wächst kAf n k wie n.
Bemerkung: Im endlich dimensionalen Raum sind alle linearen Operatoren beschränkt. Folglich gibt es keine Matrizen, die Derivationen sind und damit auch keine Halbgruppen deterministischer Markowoperatoren. Nimmt man an, daß jedes sinnvolle physikalische Problem einen
deterministischen Limit haben sollte (d.h., bei immer mehr zur Verfügung stehender Information im Prinzip deterministisch werden sollte), dann ist die Konsequenz: Probleme in einem
endlichen Zustandsraum kann man nicht mit kontinuierlicher Zeit beschreiben.
10.4 Evolutionsgleichungen
10.3.4
189
What is integration by parts?
The extension of the integration by parts rule to more general situations is a frequently investigated problem. Actually this is a problem of extending the notion of a derivative.
We propose the following extension – based on the algebraic definition of an abstract derivation.
Given an abstract derivation A, pairing with some µ ∈ P, we have
hf · Ag, µi + hg · Af, µi = hA(f · g), µi = hf · g, A∗µi
If µ is the stationary measure of the corresponding semigroup, we have A∗ µ = 0. Hence,
hf · Ag, µi = −hg · Af, µi. This is equivalent to (f, Bg)µ = −(g, Bf )µ and is the most general
form of the integration by parts rule. This is a pure algebraic formula and does not require any
metric structure in Z for the definition of a differential quotient.
Bemerkung: In der üblichen Formel für die partielle Integration kommen Randterme vor,
beispielsweise gilt
Z b
Z b
′
g(x)f (x)dx = −
g ′ (x)f (x)dx + g(b)f (b) − g(a)f (a)
a
a
′
Hier ist Af = f . Das Maß µ, das dieser Formel zugrunde liegt ist das Lebesguemaß. Aber A
ist kein Generator. Erst geeignete Randbedingungen, mit denen die Randterme wegfallen (z.B.
periodische g(b) = g(a), f (b) = f (a)), machen ihn zu einem Generator.
10.4
Evolutionsgleichungen
Die ursprüngliche Aufgabe war, durch Lösung einer geeigneten Gleichung die gesuchte Trajektorie zu ermitteln. Diese Trajektorie bei gegebenem Anfangswert ist
p(t) = T∗ (t)p0
(62)
eine Trajektorie in P. Sie ist Lösung der Gleichung
ṗ(t) = A∗ p(t), p(0) = p0
(63)
falls T∗ (t) eine stark stetige Halbgruppe in C∗ ist. Die starke Topologie in C∗ ist aber so
stark (sie ist auf Pe zur diskreten Topologie äquivalent), daß eine stark stetige Halbgruppe in
C∗ gleichmäßig stetig sein muß. Dann ist ihr Generator aber beschränkt. Gleichung (63) hat
folglich nur für beschränkte Operatoren A∗ Sinn, etwa für Matrizen im endlich dimensionalen
Raum.
Schon adjungierte von deterministischen Halbgruppen sind nicht stark stetig (sonst wären Derivationen beschränkt).
Im allgemeinen kann man die gesuchte Trajektorie p(t) also nicht durch Lösung der Gleichung
(63) ermitteln.
10.4.1
Starke Gleichungen in C
Wenn man die Halbgruppe T(t) kennt, kann man ihre adjungierte T∗ (t) durch Bestimmung
der adjungierten und dann p(t) nach Gleichung (62) ermitteln. Dazu sind folgende Schritte
erforderlich:
1. Bestimmung des Operators A (das kann im allgemeinen schwer sein, da man nur dem
Operator A∗ einen physikalischen Sinn geben kann).
190
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
2. Lösung der Gleichung
ġ(t) = Ag(t), g(0) = g0
(64)
für alle Anfangswerte g ∈ D(A). Löst man die Gleichung nur für einen Anfangswert g0 ,
bestimmt man g(t), was zur Kenntnis der Halbgruppe zu wenig ist.
3. Bestimmung der Trajektorie p(t) aus
hg, p(t)i = hT(t)g, p0 i
In der Praxis bedeutet die Bestimmung der Halbgruppe die Bestimmung des Integralkerns
des Integraloperators, dem die Halbgruppe entspricht. Dieser Integralkern wird häufig Greensche Funktion der Aufgabe oder Greensche Lösung genannt. Diese Methode bietet sich an,
wenn man die Gleichung (64) explizit (also in geschlossener Form) lösen kann, was ein seltener
Glücksumstand ist.
Die Lösung der Gleichung (64) wird “starke Lösung” genannt, Gleichung (64) heißt starke
Gleichung oder “Gleichung in starker Form.” Ursprünglich bedeutete die Lösung einer Gleichung stets das Finden der starken Lösung. Dieser Begriff trat erst auf im Zusammenhang mit
schwachen Lösungen.
10.4.2
Vage Gleichungen in C∗
Wenn man die Trajektorie nicht explizit finden kann, d.h., die Gleichung (64) nicht explizit
lösen kann, dann möchte man sie wenigstens numerisch lösen. Der Ausgangspunkt hierfür ist
Gleichung (64) dual gepaart mit dem Anfangswert p0 . Das ergibt (aus starker Differenzierbarkeit
folgt vage Differenzierbarkeit) für die linke Seite
hġ(t), p0 i =
d
d
d
d
hg(t), p0i = hT(t)g0 , p0 i = hg0, T∗ (t)p0 i = hg0 , p(t)i
dt
dt
dt
dt
und für die rechte Seite
hAg(t), p0i = hAT(t)g0, p0 i = hT(t)Ag0, p0 i = hAg0 , ø∗ T (t)p0 ihAg0, p(t)i
Das ergibt die Gleichung
d
hg0, p(t)i = hAg0 , p(t)i, g0 ∈ D(A)
dt
(65)
Diese Gleichung heißt – zusammen mit dem Anfangswert p(0) = p0 “vage Gleichung” und seine
Lösung “vage Lösung”.
Aus der Theorie der schwachen Gleichungen ist bekannt, daß eine Gleichung möglicherweise
keine starke, sondern nur eine schwache Lösung hat. Starke und schwache Gleichungen sind
also verschiedene Dinge. Was es damit auf sich hat untersuchen wir im nächsten Punkt.
Die hier betrachteten Gleichungen (64) und (65) sind im Gegensatz dazu völlig äquivalent. Hat
man Gleichung (65) für jeden Anfangswert p0 gelöst, hat man die Halbgruppe T∗ (t) bestimmt.
Ihre vage Ableitung für t = 0 ist A∗ . Dieser Operator hat offensichtlich einen präadjungierten A,
von dem wir in Gleichung (65) ausgegangen sind. Deshalb hat auch T∗ (t) eine präadjungierte
Halbgruppe T(t), die Lösung von Gleichung (64) ist.
10.4 Evolutionsgleichungen
191
Zur numerischen Lösung von (65) betrachtet man einen n-dimensionalen Unterraum von D(A),
aufgespannt von einer geeigneten Basis (g1 , ..., gn ) und zerlegt Agi in dieser Basis (entweder
approximativ P
oder exakt, wenn man einen invarianten Unterraum von A gefunden hat. Das
ergibt Agi = j aij gi . Man erhält aus (65) das Gleichungssystem
X
d
hgi , p(t)i =
aij hAgj , p(t)i, i = 1, ..., n
dt
j
(66)
Setzt man jetzt mi (t) = hgi , p(t)i, erhält man als zu lösendes Gleichungssystem
X
d
mi (t) =
aij mj (t), i = 1, ..., n
dt
j
(67)
Die Größen mi (t) heißen Momente der Maße p(t). Die approximative Berechnung von p(t)
aus mi (t) ist bei guter Wahl der Basis (g1 , ..., gn ) eine klassische Aufgabe und heißt “inverses
Momentenproblem” oder einfach “Momentenproblem”.
10.4.3
Schwache Gleichungen in L2 (µ)
Für eine gegebene Halbgruppe T(t) und ein stationäres Maß µ ihrer adjungierten T∗ (t) betrachten wir dem Hilbertraum L2 (µ) als Vervollständigung von C in der L2 (µ)-Norm und die
Erweiterung S(t) von T(t). Die weiteren Ausführungen sind für die anderen Lebesgueräume
analog, sofern nicht spezielle Begriffe aus dem Hilbertaum verwendet werden (Skalarprodukt,
Symmetrie, Selbstadjungiertheit).
Offensichtlich ist auch S(t) eine Halbgruppe.
Tatsächlich ist sie auch stark stetig. Das folgt aus der schon häufig für solche Abschätzungen
verwendeten Jensenschen Ungleichung für die konvexe Funktion F (x) = x2 .
Theorem: A Markov semigroup T(t) is a strong continuous semigroup in L2 (µ) if T∗ (t)µ = µ.
Proof: Let S(t) the extension of T(t) in L2 (µ). T(t) is strong continuous and therefore weak
continuous. We take f ∈ C, then, with F (x) = x2
kS(t)f − f k2L2 (µ) = (T(t)f − f )2 , µ = (T(t)f )2 , µ − 2 f · T(t)f, µ + f 2 , µ ≤
≤ T(t)f 2 , µ − 2 f · T(t)f, µ + f 2 , µ =
= 2 f 2 , µ − 2 f · T(t)f, µ =
t→0
= 2 f · (T(t)f − f ), µ ≤ 2kf kC |T(t)f − f |, µ −
→0
since T(t)f tends to f weakly.
Es ist leicht zu zeigen, daß der Generator der Fortsetzung einer stetigen Halbgruppe die Fortsetzung des Generators ist. Es sei B die Fortsetzung von A.
Wir leiten im Weiteren eine Gleichung in L2 (µ) für die Dichte h(t) der Trajektorie p(t) bezüglich
µ her.
Es habe p0 eine Dichte h0 bezüglich µ, wobei wir hier nicht fordern wollen, daß h0 stetig ist
sondern nur, daß h0 ∈ L2 (µ). Dann folgt ebenfals aus der Jensenschan Ungleichung, daß p(t)
für alle t ∈ R+ eine L2 (µ)-Dichte bezüglich µ besitzt. Das sei h(t). Jetzt folgt aus Gleichung
(65) und (g, h(t))µ = hg, Qµh(t)i = hg, p(t)i
d
d
(g0 , h(t))µ = hg0 , p(t)i = hAg0, p(t)i = (Bg0 , h(t))µ = (g0 , B∗ h(t))µ , g0 ∈ D(A)
dt
dt
192
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
In dieser Gleichung ist wegen der Dichtheit egal, ob man g0 ∈ D(A) oder g0 ∈ D(B) betrachtet.
Außerdem schreiben wir g anstelle von g0 . Schließlich erhalten wir die Gleichung
d
(g, h(t))µ = (g, B∗ h(t))µ , g ∈ D(B)
dt
(68)
Diese Gleichung wird “schwache Gleichung” oder Gleichung in “schwacher Form” oder Gleichung in “schwache Formulierung” und seine Lösung “schwache Lösung” genannt. Sie ist
schwach im Sinne des Hilbertraums L2 (µ) (in dem es wegen der Reflexivität keinen vagen
Begriff gibt).
Sie folgt aus der vagen Gleichung (65) unter zusätzlichen Annahmen: µ muß stationäres Maß
von T∗ (t) sein und p0 muß eine Dichte bezüglich dieses Maßes haben. Das ist eine starke
Einschränkung. Oft ist es nämlich erwünscht, die Lösung p(t) mit einem Punktmaß, etwa p0 =
δz0 als Anfangswert zu bestimmen. Vor allem Physikaer machen das gern, weil die Lösung dann
gerade die Greensche Funktion ist. δz0 hat aber nur bezüglich eines µ, das einen δz0 -Anteil
enthält eine Dichte. Das ist meistens ein uninteressanter Fall.
Interpretiert man Elemente aus L2 (µ) als Funktionen, die man punktweise verstehen kann, so
folgt, wenn h(t) ausreichend regulär ist aus (68) die Gleichung
d
h(t) = B∗ h(t)
dt
(69)
die “starke Gleichung” in L2 (µ) genannt wird. Offensichtlich ist jede Lösung von (69) auch
Lösung von (68). Die Umkehrung ist nicht wahr sondern erfordert zusätzliche Regularität von
h(t), die in konkreten Aufgaben nicht gegeben sein kann. Das ist ein prinzipieller Unterschied
zu den Begriffen “starke” und “vage” Lösung in C bzw. C∗ .
Historisch war die Entwicklung so: Man hat ursprünglich Gleichungen der Form (69) betrachtet. Dann hat man festgestellt, daß für spezielle Probleme dieser Lösungsbegriff nicht mehr
ausreichend ist und hat den Begriff der schwachen Lösung, also der Lösung von Gleichung (68)
entwickelt. Wir haben gesehen, daß der logische Weg gerade der umgekehrte war: Unter bestimmten weiteren Voraussetzungen (Existenz einer Dichte für den Anfangswert) konnte man
Gleichung (68) herleiten. Für deren Lösungsbegriff muß man Elemente aus L2 (µ) nicht selbst
als Funktionen, die im Punkt einen Wert haben betrachten, sondern nur als Grenzwerte von
Folgen stetiger Funktionen. Anschließend, unter weiteren Voraussetzungen (Regularität) kann
man auch eine Gleichung der Form (69) betrachten. Hierbei ist zu bemerken, daß sich das
Verständnis eines Elementes aus L2 (µ) als Funktion von Punkten – ohne dessen Gleichung
(69) überhaupt nicht zu verstehen wäre – für den Fall, daß µ das Lebesguemaß ist, entwickelt
hat. Für allgemeine Maße µ sollte man den Begriff der “starke Gleichung” in L2 (µ) überhaupt
vermeiden.
10.5 Darstellungen von Markowgeneratoren
10.5
Darstellungen von Markowgeneratoren
10.5.1
Markowgeneratoren in C({1, ..., n})
193
Ist Z = {1, ..., n} eine endliche Menge, dann ist C(Z) = Rn . Operatoren sind Matrizen. Markowhalbgruppen sind Familien von Markowoperatoren


ω11 (t) · · · ωn1 (t)


..
..
..
T(t) = 

.
.
.
ω1n (t) · · · ωnn (t)
mit der zusätzlichen Eigenschaft
T(t1 + t2 ) = T(t1 )T(t2 ) , T(0) = I
(70)
Die Operatoren T(t) und T∗ (t) haben die Form




ω11 (t) · · · ωn1 (t)
ω11 (t) · · · ω1n (t)




..
..
..
..
∗
..
..
T(t) = 
 , T (t) = 

.
.
.
.
.
.
ω1n (t) · · · ωnn (t)
ωn1 (t) · · · ωnn (t)
ωij (t) ist die Wahrscheinlichkeit, daß der i-te Zustand nach der Zeit t zum j-ten Zustand wird.
Es gilt
0 ≤ ωij (t) ≤ 1
n
X
ωij (t) = 1
(71)
(72)
i=1
Die Bedingung T(0) = I lautet hier
ωij (0) = δij
(73)
Aus der Funktionalgleichung folgt, daß die Funktionen ωij (t) differenzierbar sind. Zusammen
mit den Bedingungen (72) und (73) folgt hieraus, daß
aii := ωii′ (0) ≤ 0 , aij := ωij′ (0) ≥ 0 (i 6= j)
(74)
Außerdem gilt wegen (72)
aii = −
n
X
i=1
j6=i
aij ≤ 0
Das ist die bekannte Bedingung A1 = 0. Die allgemeine Darstellung eines Markowgenerators
ist deshalb

−a12 − . . . − a1n
a12
···
a1n

a21
−a21 − a23 − . . . − a2n · · ·
a2n
1

A = lim T(t) − I = 
.
.
..
.
..
..
..
t→0 t

.
an1
an2
· · · −an1 − . . . − an,n−1





194
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
mit nichtnegativen Elementen aij ≥ 0. Der Definitionsbereich ist der ganze Raum (wie für alle
linearen Operatoren im endlichdimensionalen Raum). Es gilt
Ag
j
=
n
X
j6=i=1
aij (gi − gj )
Tatsächlich erfüllen alle solchen Matrizen das positive Minimumprinzip:
Beweis: Es sei g ∈ Rn und imin der Index der kleinsten Komponente von g. Dann ist
Ag (zmin ) = Ag i
min
=
n
X
j6=imin
aimin j (gimin − gj ) ≤ 0
da gimin ≤ gj .
Die Evolutionsgleichungen in Rn und R∗n lauten
ġj (t) =
n
X
aij gi (t) =
i=1
ṗi (t) =
n
X
j=1
n
X
i=1
i6=j
aij gi (t) − gj (t)
(75)
n X
aij pj (t) =
aij pj (t) − aji pi (t)
(76)
j=1
j6=i
Da die Operatoren beschränkt sind, lassen sich beide Gleichungen in starken Sinn verstehen.
Die Komponenten der Matrix A ergeben sich als aij = lim 1t ωij (t) und lassen sich als Übergangst→0
raten oder Übergangsgeschwindigkeiten (Übergangswahrscheinlichkeiten pro Zeit) verstehen.
10.5.2
Markowgeneratoren in C(Z) mit Z ⊂ Rm
Es sei Z ein kompaktes Gebiet im Rm . Ein Markowoperator läßt sich als Integraloperator mit
einem Integralkern schreiben. Es sei ω(t, z, B) eine Schar solcher Integralkerne mit
Z
T(t)g (z) = ω(t, z, dz ′ )g(z ′ )
Z
Der Halbgruppeneigenschaft entspricht
Z
′
′′
ω(t + t , z, B ) = ω(t, z, dz ′ )ω(t′ , z ′ , B ′′ )
Z
Wir berechnen den Generator nach seiner Definition:
Z
Z
1
1
1
′
′
ω(t, z, dz )g(z ) − g(z) =
T(t)g − g (z) =
ω(t, z, dz ′ ) g(z ′ ) − g(z)
t
t
Z
Z t
Hier wurde verwendet, daß ω(t, z, Z) = 1.
It is clear that the integral is well defined even if 1t ω(t, z, B) tends to a singular value, because
g(z ′ ) − g(z) −
→ 0 for z ′ −
→ z. This means, g can distingwish near states, badly. Therefore, we
decompose the integral in the following way
!
Z
Z
1
1
+
T(t)g − g (z) =
ω(t, z, dz ′ ) g(z ′ ) − g(z)
t
t
Z\Bz,ε
Bz,ε
195
10.5 Darstellungen von Markowgeneratoren
where Bz,ε is a set, tending to {z} for ε −
→ 0. Before passing to the limit ε −
→ 0, we expand g(z ′ )
′
in the first integral into a Taylor series for z ∈ Bz,ε
′
g(z ) = g(z) +
m
X
i=1
(zi′
m
∂
∂2
1X ′
− zi )
(zi − zi )(zj′ − zj )
g(z) +
g(z) + o(|z ′ − z|2 ) ,
∂zi
2 i,j=1
∂zi ∂zj
assuming g ∈ C2 (Z). This is possible, because C2 (Z) is dense in C(Z).
We assume the existence of the following limits
1
Q(z, B) = lim ω(t, z, B), z 6∈ B
t→0 t
Z
1
(zi′ − zi )ω(t, z, dz ′ ) + O(ε)
ai (z) = lim
t→0 t B
Z z,ε
1
bij (z) = lim
(zi′ − zi )(zj′ − zj )ω(t, z, dz ′ ) + O(ε)
t→0 t B
z,ε
Finally, we obtain
m
X
m
X
∂2g
∂g
(Ag)(z) =
bij (z)
+
ai (z)
+
∂z
∂z
∂z
i
j
i
i,j=1
i=1
Z
Z
g(z ′ ) − g(z) Q(z, dz ′ )
(77)
m
For fixed z, the matrix B = bij (z) i,j=1 is a non-negative matrix in Rm in the sense of bilinear
forms in Hilbert spaces. We have (Bξ, ξ) ≥ 0 for all ξ ∈ Rm since
!
Z
Z
m
X
′
′
′
(z ′ − z, ξ)2 ω(t, z, dz ′ ) ≥ 0
(zi − zi )(zj − zj )ω(t, z, dz ) ξi ξj =
(Bξ, ξ) =
i,j=1
Bz,ε
Bz,ε
with ω(t, z, B) ≥ 0.
Moreover, Q(z, B) ≥ 0. For z ∈ B, Q(z, B) can be unbounded. In this case, the integral operator
has to be understood as a principal value integral.
Note, that expression (77) is a formal one and valid only for inner points of Z. Neither the
structure of the operator at boundary points, nor the regularity properties of the coefficients
ai , bij , Q are known for general situations.
The operator A is bounded, if the differential part is absend and the integral exists in the usual
sense. In this case, the integral operator can be written as a dfference
Z
(Ag)(z) =
g(z ′ )Q(z, dz ′ ) − g(z)Q(z, Z)
Z
as is usually understood as a nonlocal operator describing jumps.
The proof of the maximum principle We prove that an operator of type 77 satisfy the
positive maximum principle.
Let g ∈ D(A) and zmax be the point, where g contains its maximum. We assume that zmax is a
inner point. Since g is twice continuous differentable, we have ∂z∂ i g(zmax ) = 0 and the negative
Hessian H with
Hij = −
∂2
g(zmax )
∂zi ∂zj
196
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
is a non-negative matrix in Rm .
We have to show Ag (zmax ) ≤ 0.
We have
m
m
X
∂
∂ 2 g(zmax ) X
+
ai (zmax )
g(zmax ) =
Ag (zmax ) =
bij (zmax )
∂z
∂z
∂z
i
j
i
i=1
i,j=1
Z
=
g(z ′ ) − g(zmax ) Q(zmax , dz ′ )
Z
Since g(zmax ) is the maximum of g we have g(z ′ ) − g(zmax ) ≤ 0 and since Q(zmax , B) ≥ 0, we
have
Z
Z
From
m
X
i,j=1
g(z ′ ) − g(zmax ) Q(zmax , dz ′ ) ≤ 0
∂
g(zmax )
∂zi
bij (zmax )
= 0 follows ai (zmax ) ∂z∂ i g(zmax ) = 0. Thus, it left to show
∂2
g(zmax )
∂zi ∂zj
≥0
This is equivalentely to tr(B · H) ≥ 0. H = H∗ ≥ 0 implies the existence of
√
H and we have
√
√
√
√
h H · B · Hx, xi = hB · Hx, Hxi ≥ 0
√
√
since B ≥ 0. Thus, the matrix H · B · H has a non-negative trace and from the cyclic
identity of the trace, tr(A · B · C) = tr(C · A · B), we obtain, finally
tr(B · H) = tr(B ·
√
H·
√
√
√
H) = tr( H · B · H) ≥ 0
Equations for the density
An equation for probability densities cannot be derived in a strong sense, in general. Assuming,
the probability measure p(t) has a density W (t) with respect to the Lebesgue measure, and
assuming Q(z, dz ′ ) = Q(z, z ′ )dz ′ , the evolution equation for W (t) is
m
m
X
X
∂
∂2
∂
ai (z)W (z, t) +
bij (z)W (z, t) +
W (z, t) = −
∂t
∂zi
∂zi ∂zj
i,j=1
i=1
Z
Q(z ′ , z)W (z ′ , t) − Q(z, z ′ )W (z, t) dz ′ .
+
(78)
Z
This assumed regularity is a rare case. Normally, this is the form in which the ChapmanKolmogorov forward equation is used (see [5]).
Note, that the coefficients ai correspond to the Liouville equation and therefore disappear after
derivating with respect to time.
197
10.5 Darstellungen von Markowgeneratoren
10.5.3
Dynamical systems and their Liouville equations
The first case is the one of deterministic trajectories, i.e. dynamical systems.
For t ≥ 0 let ϕt : Z −
→ Z be a time-family of continuous maps of the state space into itself with
the properties ϕt1 +t2 = ϕt2 ◦ ϕt1 (semiflow property) and ϕ0 = id (identity). Then, if certain
regularity properties are fulfilled the trajectory zt = ϕt (z0 ) is the solution of an ordinary
differential equation, say żt = a(zt ) with initial data z0 .
The image of the semiflow ϕt in Z via the canonical embedding is a semigroup of a deterministic
Markov operator.
ϕt ⇐⇒ T(t) = Mϕt
The semigroup property easily follows from the semiflow property. For arbitrary g ∈ C it holds
T(t1 + t2 )g = Mϕt1 +t2 g = Mϕt2 ◦ϕt1 g = g ◦ (ϕt2 ◦ ϕt1 ) = (g ◦ ϕt2 ) ◦ ϕt1 = Mϕt1 Mϕt2 g =
= T(t1 )T(t2 )g
Typical examples for semiflows are shifts and the corresponding generators are differential operators of first order. As usual, the definition of differential operators requires a metric structure
in Z, something that is not given in a general topological space. Surprisingly, there is a complete algebraic description of generators of semigroups of deterministic Markov operators. Such a
generator is an abstract derivation:
A deterministic Markov operator is a algebra homomorphism. Hence, a semigroup T(t) of
deterministic Markov operators satisfy T(t)(f · g) = T(t)f · T(t)g. It follows
T(t)(f · g) − f · g = f · (T(t)g − g) + (T(t)f − f ) · T(t)g
Multiplying by 1/t nad passing to the limit t −
→ 0 we obtain
A(f · g) = f · Ag + g · Af
(79)
An operator whose domain D(A) is a sub-algebra of C(Z) and satisfyies the algebraic identity
(79) and A1 = 0, is called derivation. Thus, the generator of a semigroup of deterministic
Markov operators is a derivation. The opposite is true as well (see [1]).
Note that no metric is needed to define an abstract derivation.
A derivation is always a unbounded operator. This is one reason why in finite dimensional
spaces there are no semigroups of deterministic Markov operators.
If, for example, Z ⊂ Rm is a compact domain and
ż1 = a1 (z1 , ..., zm )
··· ·
···
żm = am (z1 , ..., zm )
(80)
is the dynamical system, i.e., the system of differential equations corresponding
to the semiflow
ϕt , then the corresponding equation to g(z, t) = (T(t)g0 )(z) = g0 ϕt (z) is
m
X
∂g(z, t) ∂
g(z, t) =
ai (z)
= ∇g, a(z)
∂t
∂zi
i=1
since
∂
∂
g(z, t) = ∇g ϕt (z) , ϕt (z) = ∇g, a(z)
∂t
∂t
(81)
198
10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT
where [·, ·] is the scalar product in Rm .
The right hand side of this equation is the general form of an abstract derivation in a domain
of the Euclidean space.
The equation, corresponding to p(t, B) = (T∗ (t)p0 )(B) is (assuming that p(t, B) is regular
enough to have a density W (z, t) with respect to the Lebesgue measure)
m
X ∂
∂
ai (z)W (z, t) .
W (z, t) = −
∂t
∂zi
i=1
(82)
– the Liouville equation of the dynamical system (80). Conversely, (80) is the equation of the
characteristics of (81) or (82).
Herunterladen