9 1 Übersicht über die klassische Physik 1.1 1.1.1 Grundlegende Begriffe Einige Begriffe • GCPS Allgemeines Klassisches Physikalisches System Eine überschaubare Menge von realen Objekten, dessen Verhalten uns als Gesamtheit interessiert. • Zustand Zustand beschreibt das physikalische System vollständig. Wenn wir den Zustand kennen, ist unser Interesse befriedigt. Es gibt verschiedene Möglichkeiten (wenigstens 2 Zustände) Das ist immer das erste, worüber man sich Gedanken machen muß. • Zustandsraum Menge aller möglicher Zustände • Zustandsänderungen Wir betrachten Zustandsänderungen in der Zeit • Massepunktes Objekt ohne innere Struktur, das sich in Raum und Zeit bewegen kann. • Freiheitsgrad Sowas wie die “Dimension” des Zustandsraumes. Besser (weil eine Dimension eigentlich nur lineare Räume haben) zu verstehen als Anzahl der Parameter, die den Zustand bestimmen. • Modell Vollständige Beschreibung des physikalischen Systems, so wie wir es verstehen. Beinhaltet die Beschreibung von: Zustand, Zustandsänderung, Beobachtungen, abgeleiteten Größen (), ... • • Aufgabenklasse Direkte, inverse, Steuerungsaufgabe, • Modellanalyse Definition der Aufgabenklasse, Lösung der Aufgabe 1.1.2 Zustand und Zustandsraum. Beispiele Beispiele: • Zwei Zustände (Schalter), weniger geht nicht (z.B. Molekül) • Drei Zustände: Eine Kugel, Rot, Blau oder Grün (z.B. Molekül) • Endlich viele Zustände • Abzählbar viele Zustände (Teilchenzahl, diskretes Gitter) • Koordinaten von Objekten, Brownsche Bewegung • (v, x) oder (P, x) eines Massepunktes • • Zusammengefaßt: Drei Beispiele: Zustandraum ist als Menge endlich, abzählbar oder ein Kontinuum. 10 1 ÜBERSICHT ÜBER DIE KLASSISCHE PHYSIK 1.2 Übersicht über Modelle der klassischen Physik In der Physik werden verschieden Modellstufen betrachtet. Die entsprechenden Modelle unterscheiden sich insbesondere in den mathematischen Methoden, die verwendet werden. Ich werde eine kurze Übersicht über übliche Modelle geben. Diese Klassifizierung ist nicht allgemeingebräuchlich, aber doch sehr verbreitet. Um ein Modell für eine interessierendes physikalisches Problem aufzustellen ist folgendes erforderlich: • Zustand und Zustandsraum • Aufgabenklasse • Gleichungen u.ä. 1.2.1 Mikroskopische, deterministische Modelle Ein mikroskopisches deterministisches Modell ist ein Modell, dessen Zustände und Zustandsänderungenvollständig beschrieben werden. Man kann stationäre Probleme und instationäre Probleme unterscheiden. • Stationäre Probleme: – Beispiel: Massen und Federn. Zustand sind die Koordinaten x. Freiheitsgrade! – Lösung liefert das Prinzip der minimalen potentiellen Energie – Massen spielen nur als schwere Massen eine Rolle. Wenn wir die Massen auf eine wagerechte Ebene legen, wird das Gleichgewicht nur von den Federn bestimmt. – Gleichungen: min Φ(z), F (z) = ∂Φ(z) = 0. • Instationäre (dynamische) Probleme: – Der Zustand ändert sich mit der Zeit: z(t). Es gibt eine Trajektorie im Zustandsraum, die man ermitteln möchte. Unter bestimmten Zusatzbedingungen an diese Trajektorie (Markowannahme) kann man zeigen, daß sie sich durch Lösung einer Gleichung mit einer Anfangsbedingung ż(t) = G(z), z(t) = 0 bestimmen läßt. Das nennt man dynamisches System mit kontinuierlicher Zeit. – Beispiel: Massen und Federn. Zustand sind die Koordinaten und die Geschwindigkeit (oder der Impuls): (v, x) Die Trajektorie läßt sich durch Lösung der Newtonschen Gleichung ẍ(t) = m1 F (x, ẋ) bestimmen. Das ist ein dynamisches System, wenn man eine neue Variable v = ẋ einführt. Dan erhält man 1 F (x, v) v̇(t) = m ẋ(t) = v Hier sind x und v Vektoren und 1/m eine inverse Matrix. – Weitere Stichworte zu solchen Promlemen sind Lagranggleichung, Hamiltonsystem, Hamilton-Jacobi-Gleichung, Prinzip der kleinsten Wirkung. – Weiters Beispiel: Sonnensystem mikroskopisch, aber nicht klein – Weiters Beispiel: Endlich viele Zustände. Rot, Blau, Grün, • Hiermit beschäftigen wir uns im nächsten Semester. 1.2 Übersicht über Modelle der klassischen Physik 1.2.2 11 Allgemeine (statistische) mikroskopische Modelle Es kann sein, daß es sinnvoll ist, nicht einen einzelnen Zustand zu betrachten, sondern alle Zustände des Zustandsraumes. Das kann zwei Gründe haben: • Die eigentlichen Zustände sind uns eigentlich nicht zugänglich. Wir erhalten Informationen über sie indirekt, indem wir sie beobachten. Eine Beobachtung ist eine Abbildung der Zustände in die reellen Zahlen. Man kann sich das als Meßprozeß vorstellen. • Die Zustände sind uns zwar zugänglich, wir können den Zustand aber nicht eindeutig zuordnen, z.B. weil bei jedem Experiment sich das System in einem anderen Zustand befindet, oder weil wir die Zustandsänderung nicht exakt angeben können. Man weiß zwar, in welchem Zustand sich das System befindet, aber mann kann seine Trajektorie nicht eindeutig vorhersagen. Das System befindet sich in einem gemischten Zustand. Oder es befindet sich nur mit einer gewissen Wahrscheinlichkeit in einem Zustand. – Ein typisches Beispiel ist die Brownsche Bewegung. Man kann den Ort des Teilchens nur mit einer gewissen Wahrscheinlichkeit vorhersagen. Es gibt keine Trajektorie x(t), sondern eine zeitlich veränderliche Wahrscheinlichkeitsdichte f (x, t), die im speziellen Fall der Diffusionsgleichung ∂2 D f (x, t) ∂x2 genügen. Hier ist f (x, t) die Wahrscheinlichkeit, daß sich das Teilchen zum Zeitpunkt t in der Nähe des Punktes x aufhält. – Wir wissen, daß der Zustand eines Teilchens tatsächlich ein Geschwindigkeits-OrtsPaar z = (v, x) ist, der der Newtonschen Gleichung (als System geschrieben) genügt. ft = v̇(t) = −av ẋ(t) = v Hier ist m = 1 gesetzt und lineare Reibungskraft angenommen worden. Dieses System beschreibt die Evolution der Trajektorie (v(t), x(t)). Nimmt man an, daß die Trajektorie nicht deterministisch ist, z.B. weil der Anfangswert nicht eindeutig festgelegt ist, kann man zeigen, daß eine entsprechende Wahrscheinlichkeitsdichte f (v, x, t) die Liouvillgleichung (eine PDE erster Ordnung) erfüllt: ∂ ∂ ∂ f (v, x, t) = (avf ) − v f ∂t ∂v ∂x Nimmt man an, daß nicht nur der Anfangswert unbestimmt ist, sondern auf das Teilchen auch eine spezielle Zufallskraft von Seiten des Mediums wirkt, wir also ein System der Form v̇(t) = −av + cFr ẋ(t) = v haben, dann ist die Gleichung für f die Fokker-Planck Gleichung ∂ ∂ ∂2 ∂ f (v, x, t) = (avf ) − v f + 2 (cf ) ∂t ∂v ∂x ∂v 12 1 ÜBERSICHT ÜBER DIE KLASSISCHE PHYSIK – Mastergleichung dPk X = (Tkℓ Pℓ − Tℓk Pk ). dt ℓ – Chapman-Kolmogorow Gleichung oder Kolmogorow Vorwärts Gleichung Z ∂ f (z, t) = Q(z, z ′ )f (z ′ , t) − Q(z ′ , z)f (z, t) dz ′ ∂t Z 1.2.3 Mesoskopische Modelle • Man hat keine Chance, den Zustand zu bestimmen, aber wir nehmen an, daß es ihn gibt und das wir aus ihm Gleichungen für abgeleitete Größen herleiten können. (z.B., wir nehmen an, daß wir ein Gas beschreiben könnten, wenn wir die Bewegung seiner 1024 Moleküle exakt beschreiben könnten) • Diffusionsgleichung beschreibt Konzentration anstelle von Wahrscheinlichkeitsdichte. Das gesamte Esemble bewegt sich wie ein Teilchen, von dem wir den Zustand nicht genau kennen. • Boltzmanngleichung • Diffusionsgleichung 1.2.4 Makroskopische Modelle Makroskopische Modelle sind mathematisch exakt hergeleitete Modelle, die aber ein mathemtaisches Verfahren – z.B. einen Grenzübergang – enthalten, die dazu führen, daß man eigentlich einanders physikalisches Problem modelliert hat, von dem man annimmt, daß es richtig ist. Beispiele sind: • Herleitung der Diffusionsgleichung aus Hopping • Homogenisierung • Entwicklung in der Nähe vom Gleichgewicht 1.2.5 Phänomenologische Modelle Phänomenologische Modelle sind nicht exakt hergeleitete Modelle. Man sieht, daß ein Prozeß (z.B. der Fluß einer Flüssigkeit durch einen porösen Stoff) einem Diffusionsprozeß ähnelt. Man nimmt also an, daß die Konzentration des Stoffes der Diffusionsgleichung genügt. Gibt es Abweichungen, versucht man das Modell anzufitten, indem man z.B. den Diffusionskoeffizient etwa von der Konzentration abhängen läßt). Das ist ein typisches Vorgehen. Man benutzt Modelle, die eigentlich in einem anderen Zusammenhang hergeleitet wurden und interpretiert sie um. Die meisten in der Praxis verwendeten Gleichungen sind phänomenologische. Solche Gleichungen kann man nicht herleiten. Man kann sie nur postulieren und sich dabei an gewisse Prinzipien halten wie Massenerhaltung, Positivitätserhaltung und thermodynamische Konsistenz. Ausgangspunkt für diese Modelle sind meistens allgemeine mikroskopische Modelle, für die man die geforderten Eigenschaften beweisen kann. In diesem Sinn ist die Untersuchung von allgemeinen mikroskopischen Modellen wichtig zum Verständnis der meisten phänomenologischen Modelle. 11 2 Dualität extensiver und intensiver Größen 2.1 Erkenntnistheoretische Einführung 2.1.1 Das duale Produkt Eine typische Konstruktion in der linearen Algebra ist X = g1 P1 + ... + gn Pn und wird meistens Skalarprodukt genannt. g = (g1 , ..., gn ) und P = (P1 , ..., Pn ) sind zwei Vektoren aus Rn . Zwischen gi und Pi gibt es mathematisch keinen Unterschied. Beides sind reelle Zahlen. Mit beiden kann man rechnen wie mit Zahlen. Der Grundzusammenhang ist hier folgender: Als erstes werden Produkte der Art Qi = gi Pi gebildet und dann werden die Ergebnisse addiert. Wir haben also eigentlich einen weiteren Vektor Q = (Q1 , ..., Qn ) und benutzen zwei Operationen: Multiplikation und Addition. Hilbertraum Banachraum x, y ∈ Rn g ∈ Rn , P, Q ∈ R∗n (x, y) = n X xi yi hg, P i = i=1 Z x(ξ)y(ξ)dξ Z n X g i Pi = i=1 Z n X Qi i=1 g(z)P (dz) Z Um zu demonstrieren, daß hier nicht alles klar ist, betrachten wir 2.1.2 Zwei Kopfrechenaufgaben Erste Aufgabe: Wieviel sind 25% von 24. Die Lösung verläuft meist so: 25% sind ein Viertel. Wir müssen also 24 durch 4 teilen. Das Ergebnis ist 6. Zweite Aufgabe: Wieviel sind 24% von 25. An die Lösung dieser Aufgabe geht jeder anders heran. Einer berechnet 25% von 25 und subtrahiert dann 1%. Ein anderer multipliziert 0.24 mit 25. Am Ende kommen die meisten auch auf das richtige Ergebnis 6. Dann wundern sich die meisten, daß das selbe herauskommt und erinneren sich, daß die Multiplikation kommutativ ist. Wir wissen, daß wir zur Berechnung von 25% die Menge durch 4 teilen müssen. Aber daß wir in der zweiten Aufgabe die Prozentzahl durch 4 teilen müssen kommt uns nicht in den Sinn. Wir wissen zwar, daß die Multiplikation kommutativ ist, aber es sträubt sich in uns etwas dagegen, die Kommutativität hier zu benutzen. Die eigentlich kommutative Multiplikation fühlt sich nicht kommutativ an. Dieses Gefühl ist ein Ausdruck davon, daß im Produkt beide Faktoren nicht gleichberechtigt sind, wenn es sich um reale Größen handelt. Die Multiplikation ist zwar kommutativ, aber gefühlt asymetrisch. Diese Asymetrie tritt auch bei anderen Aufgaben auf. Angenommen wir planen eine Autofahrt. Die Strecke ist bekannt: 400km. Wir wollen die Zeit abschätzen und rechnen: Bei einer Geschwindigkeit von 120km/h brauchen wir 3 Stunden und 7 Minuten. Klar ist, daß die 120km/h 12 2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN ein Mittelwert sind. Wir fahren nicht die gesamte Strecke mit dieser Geschwindigkeit. Wir könnten deshalb auch eine andere mittlere Geschwindigkeit nehmen, etwa 124.6 km/h. Dann erhalten wir als Zeit exakt 3 Stunden. Aber so rechnet keiner. Für die Geschwindgkeit hat man gern runde Zahlen, für die Dauer ist uns eine krumme Zahl eher recht als für die Geschwindgkeit. Dasselbe gilt für die Prozentaufgabe. Für Mengen ist uns jede Zahl recht, für Prozente hätten wir aber gern gebrochene Zahlen mit kleinen Zählern und Nennern. Ein Viertel ist in Ordnung, aber nicht 24 Hundertstel. Das sind ja eigentlich 6 25-stel und sind zur Multiplikation mit 25 eigentlich noch viel besser geeignet. Andererseits ist uns bei der Aufgabe: “Berechne den Flächeninhalt eines Rechtecks, daß 25cm breit und 24cm lang ist”, egal, ob die Aufgabe so formuliert wurde oder ob die Zahlen vertauscht sind. Hier entspricht die Kommutativität unserem Gefühl. Die Asymetrie der Multiplikation sieht man auch in folgendem Beispiel: Wir fahren 3 Stunden mit 120 km/h. Das ist etwas anderes als 120 Stunden mit 3 km/h zu fahren, obwohl es dieselbe Gesamtstrecke ergibt. Mathematisch ist es dieselbe Aufgabe aber in der Realität ist es eine völlig andere Aufgabe. Um ein reale Problem adäquat zu beschreiben, müssen wir diese Asymetrie berücksichtigen, ohne natürlich die Kommutativität der Multiplikation zu verletzen. Woher kommt diese Asymmetrie zwischen unserem Gefühl und der Mathematik? Das kann nicht an den Zahlen liegen, sondern muß mit den Eigenschaft der Größen zusammenhängen, die diese Zahlen darstellen. Wir müssen uns also damit beschäftigen, welche Größen uns eigentlich interessieren. 2.1.3 Extensive und intensive Größen • Beispiele von Größen. Was für Größen interessieren uns eigentlich? Alltag/ Chemie Mechanik E-Technik Therm.dyn Ökonomie Anteil Alkoholmenge Weg Impuls Impuls Arbeit Auslenkung Ladung Ladung Energie Energie Umsatz Prozente Alkoholgehalt Geschwindigkeit Geschwindigkeit Kraft Kraft Kraft Spannung elektr. Strom Druck Temperatur Preis Gesamtmenge Gesamtvolumen Zeitintervall Masse Zeitintervall Weg 1/Federkonstante Kapazität Zeitintervall Volumen Entropie Stückzahl • Was interessiert uns nicht? – – – – Wurzel aus der Länge. Energie hoch 3/7. Wurzel aus der Länge. Energie hoch 3/7. −10◦ C/10◦ C = −1? Mit diesem Quotienten können wir nichts anfangen. 2.1 Erkenntnistheoretische Einführung 13 Mathematisch könnte man sich mit diesen Größen beschäftigen, aber es macht keiner. Was haben diese Größen an sich, daß sie uns nicht und jene, daß sie uns doch interessieren? 2.1.4 Unterschiede zwischen den Größen Wir haben ein Objekt vor uns, daß durch viele verschiedene Größen charakterisiert wird und fragen uns nach den Eigenschaften dieser Größen und ihrem Verhalten, wenn sich die Objekte verändern. Das unterschiedliche Verhalten der verschiedenen Größen wird deutlich, wenn wir mehrere Objekte betrachten, und beobachten, wie sich die Größen bei der Wechselwirkung verschiedener Objekte verhalten. • Volumen und Temperatur Wenn wir zwei Gasvolumen mit verschiedener Temperatur zusammenbringen und einen Wärmekontakt herstellen, dann addieren sich die Volumina, aber die Temperaturen gleichen sich aus. • Alkoholgehalt, Alkoholmenge und Gesamtmenge Bei alkoholischen Getränken haben wir es mit drei Größen zu tun. Wenn wir zwei alkoholische Getränke zusammenkippen und mischen, dann addieren sich die Gesamtmengen, der Alkoholgehalt gleicht sich aus und die Menge an reinem Alkohol addiert sich auch. Zwei Größen addieren sich, eine Größe mittelt sich. • Geschwindigkeit, Masse und Impuls Wir haben zwei Massen, die sich mit verschiedenen Geschwindigkeiten in die gleiche Richtung bewegen. Die schnellere Masse fliegt vor der langsameren. Wir koppeln beide Massen durch ein Seil. Was passiert? Nach einer gewissen Einschwingphase, bei der die Elastizität des Seils überschüssige Energie dissipatiert, werden sich beide Massen mit derselben Geschwindigkeit bewegen. Diese gemeinsame Geschwindigkeit liegt zwischen den beiden ursprünglichen Geschwindigkeiten. Die Masse und der Impuls des Gesamtsystems ergeben sich als Summe der ursprünglichen Teilmassen und Teilimpulse. • Geschwindigkeit, Weg und Zeit Wenn ein Gesamtweg aus Teilstücken besteht, die wir mit verschiedenen Geschwindigkeiten zurücklegen, dann ist für jedes Teilstück seine Länge, die benötigte Zeit und die jeweilige Geschwindigkeit charakteristisch. Der Gesamtweg ist die Summe der Längen der Teilstücke und die Gesamtzeit ist die Summe der Teilzeiten. Die Geschwindigkeiten mitteln sich nicht in der Realität, aber in Gedanken ist die mittlere Geschwindigkeit eine wichtige Größe. Sie liegt zwischen der größten und kleinsten Teilgeschwindigkeit. Wenn wir z.B. die Strecke mit zwei Geschwindigkeiten 130 km/h und 60 km/h zurückgelegt haben, ist die Summe diese Geschwindigkeiten – 190 km/h – völlig uninteressant. In beiden Beispielen verhält sich die Geschwindigkeit mittelnd. • Kraft, inverse Federkonstante und Auslenkung • Druck, Volumen 14 2.1.5 2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN Zwei Typen von physikalischen Größen Wir stellen fest, daß sich von uns als interessant empfundene Größen in zwei Typen einteilen lassen, solche, die sich addieren und solche, die sich mitteln, wenn verschiedenen Objekte in Kontakt gebracht werden. Dabei spielt sich das Addieren in Gedanken ab, wir fassen die Objekte unter diesem Gesichtspunkt gedanklich zusammen. Das Mitteln der anderen Größen vollzieht sich real. Dazu müssen allerdings geeignete Bedingungen geschaffen werden, wir müssen das Ausgleichen der Größe ermöglichen. Das wurde erreicht durch das Beseitigen der Trennwand zwischen den Körpern bein Ausgleich der Temperatur, das Ineinandergießen (Mischen) der Mischgetränke oder das Aneinanderkoppeln der Massen. Tatsächlich hängt die Eigenschaft, additiv oder mittelnd zu sein, nicht von den Objekten oder der Situation sondern nur von der Größe selbst ab. Man kann also die Größen bezüglich dieser Eigenschaft kategorisieren. Additive Größen werden extensiv, mittelnde Größen werden intensiv genannt. Diese Bezeichnungen spielen heute eigentlich nur noch in der Thermodynamik eine Rolle. Ursprünglich wurden sie aber als allgemeine Kategorien von Imanuell Kant 1781 in der “Kritik der reinen Vernunft” (Kapitel ) eingeführt. Beispiele für extensive Größen sind Zeitintervall, Länge (Breite, Höhe), Fläche, Volumen, Masse, Ladung, Impuls, Energie, Äpfel, Birnen, Stückzahl, Geld Beispiele für intensive Größen sind Temperatur, Alkoholgehalt, Geschwindigkeit, Kraft, elektr. Strom, elektr. Spannung, Druck, Preise Häufig ist die Zuordnung nicht leicht, da unter speziellen Bedingungen extensive Größen auch mittlend und intensive Größen auch additiv auftreten können. Entscheidend ist, wie sich die Größen in allgemeinen Situationan verhalten. Ein Beispiel sind mit Wasser gefüllte Gefäße. Verbindet man solche durch einen Schlauch und ermöglicht dem Wasser zu fließen, gleichen sich scheinbar die Höhen – als Länge eine extensive Größe – aus. Tatsächlich gleicht sich der Druck (intensive Größe) in den Gefäßen aus, der in diesem Fall aber zur Wasserhöhe proportional ist. Wenn man die Gefäße luftdicht verschließt, sieht man sofort, daß es nicht die Höhe ist, die sich ausgleicht, sondern der Druck. Hier ist allerdings zu erwähnen, daß die räumliche Wahrnehmung des Menschen sehr komplex ist, was dazu führt, daß räumliche Größen wie Länge oder Fläche eigentlich nicht ohne weitere Erklärungen als extensive Größen gezählt werden können und auch tatsächlich als intensive Größen auftreten können. Das Verhalten räumlicher Größen wird in einem Extrapunkt besprochen. 2.1.6 Zählen. Messen extensiver Größen Die Fähigkeit zum Zählen ermöglicht es, auch anderen extensiven Größen – etwa Längen – Zahlen zuzuordnen. Dazu wählt man sich ein gut bekanntes und jeder Zeit griffbereites Objekt mit definierter Länge (Elle, Schritt, Daumenbreite, ...) als Normlänge (Normmaß) und stellt fest, wie oft dieses Normmaß in einer gegebenen Länge aufgeht. Dazu muß man das Normmaß lückenlos und parallel aneinanderlegen. Die zu messende Länge gibt dabei die Richtung an. Hier ist wieder die Fähigkeit zu zählen erforderlich. Man erhält etwa: In die gegebene Länge passen 5 Normlängen: L = 5 · L0 . Damit diese Methode funktioniert, ist erforderlich, daß die zu messende Größe additiv – also intensiv – ist und beim Meßprozeß erhalten bleibt. Deshalb wählt man Normängen etwa aus Holz und nicht aus Gummi. 15 2.1 Erkenntnistheoretische Einführung 2.1.7 Extensive Größe sind Erhaltungsgrößen Es wurde schon mehrfach erwähnt, daß eine Voraussetzung dafür, daß man eine Größe messen kann, ihre Erhaltung ist. Mit anderen Worten: Größen, die man messen kann bleiben erhalten. Diese Tatsache macht Erhaltungssätze beinahe zu Tautologien. Deshalb gibt ea auch keine Sätze der Erhaltung der Länge oder der Zeit. Das nicht triviale am Energieerhaltunssatz ist, daß es gelingt, solche Experimente durchzuführen, daß man alle Energieanteile messen kann. Daß sie sich dann zur Gesamtenergie addieren, ist trivial. 2.1.8 Intensive Größen kann man nicht messen Letztlich wird das Messen der meisten extensiven Größen auf das Messen von Längen zurückgeführt (auch die Zeitmessung). Das hängt mit der starken Dominaz unserer visuellen Fähigkeiten gegenüber allen anderen Sinnen zusammen. Intensive Größen kann man aber prinzipiell nicht direkt messen. Das liegt daran, daß sie sich “beim Aneinanderlegen” nicht additiv verhalten und nicht erhalten bleiben. Das wird besonders bei der Temperatur deutlich. Man kann nicht mehrere 1◦ C warme Körper geeignet zusammenlegen um eine höhere Temperatur zu erhalten. Das selbe trifft für andere intensive Größen, etwa die Geschwindigkeit zu. Man erhält eben keinen sich mit 20 km/h bewegenden Körper aus zweien, die sich mit 10 km/h bewegen. Hier könnte man einwenden, daß man aus Erfahrung weiß, daß sich Geschwindigkeiten addieren. Man könnte etwa auf einen sich mit 10 km/h bewegenden Wagen einen weiteren sich mit 10 km/h bewegenden Wagen stellen. Aber dieser weitere Wagen bewegt sihc eben nicht mit 10 km/h relativ zum zu messenden Objekt sondern mit 20 km/h. Wie später noch besprochen wrid, tritt die “bekannte” Additivität der Geschwindigkeit nur unter speziellen Bedingungen auf und widerspricht nicht ihrem intensiven Charakter. 2.1.9 Berechnung intensiver Größen Man kann zu einer intensiven Größe x ein Paar extensive Größen P und Q betrachten und der intensiven Größe den Quotienten der beiden extensiven Größen als Zahl zuordnen: Q/P − → x. Das klassische Beispiel hierfür ist die Geschwindigkeit als Weg pro Zeit. Diese Definition ist nicht eindeutig. Das sieht man insbesondere an den verschiedenen Temperaturskalen, die sich in ihrer Skalierung und in ihrem “Nullpunkt” unterscheiden. Es sei g = g(x) die, der intensiven Größe x zugeordnete reelle Zahl. Dann gilt g= Q P ⇐⇒ Q = g · P (1) Das ist die Grundgleichung für extensive und intensive Größen: extensiv mal intensiv = extensiv In den folgenden Tabellen sind Beispiele aufgeführt. L=v·T P =v·M L=f ·D U =c·K A =%·M L=h·F Weg Impuls Auslenkung Umsatz Anteil Licht Wärmemenge = Geschw. = Geschw. = Kraft = Preis = Prozente = Helligkeit = Heizwert · Zeit · Masse · inv. Federkonstante · Stückzahl · Menge · Fläche · Masse 16 2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN extensiv Anteil Alkoholmenge Weg Impuls Impuls Arbeit Auslenkung Ladung Ladung Energie Energie Umsatz 2.1.10 = = = = = = = = = = = = = intensiv Prozente Alkoholgehalt Geschwindigkeit Geschwindigkeit Kraft Kraft Kraft Spannung el. Strom Druck Temperatur Preis · extensiv · Gesamtmenge · Gesamtvolumen · Zeitintervall · Masse · Zeitintervall · Weg · 1/Federkonstante · Kapazität · Zeitintervall · Volumen · Entropie · Stückzahl Das endliche duale Produkt Mit (1) wird dem Produkt einer extensiven und einer intensiven Größe wieder eine extensive Größe zugewiesen. Diese kann man addieren. Das ergibt die häufig benutzte duale Paarung: Extensiv = extensiv mal intensiv + extensiv mal intensiv + ... Beispilesweise ist: • Gesamtweg = Summe der Teilgeschwindigkeiten mal entsprechender Zeitintevalle • Umsatz = Summe der Preise mal Stückzahlen Im Grenzfall ergibt die duale Paarung das Lebesgueintegral: Z n→∞ − Q(B) = g(x)P (dx) Q = g1 · P1 + ... + gn · Pn −→ B 2.1.11 Die scheinbare Additivität von Geschwindigkeiten und Kräften Wenn intensive Größen additiv auftreten, dann bedeutet das, das man eigentlich, eine extensive Größe betrachtet. Wenn man z.B. Geschwindigkeiten addiert, addiert man eigentlich die Wege bei gleichem gegebenem Zeitintervall. Oft bemerkt man nicht, daß der Nenner konstant bleibt. Beim Addieren von Kräften addiert man eigentlich die Arbeit (Arbeit ist Energie und extensiv), die über dieselbe Weglänge wirkt. Nimmt man andere Beispiele intensiver Größen, etwa den Preis, wird das noch offensichtlicher. Wenn man n Stück X von etwas braucht und jedes Stück besteht aus einem A, einem B und einem C, kann man die Preise von A, B und C addieren um den Preis eines Stücks X erhalten will. Aber das ist eben ein sehr seltener Fall, daß man die selben Stückzahlen an Objekten braucht. Keiner kommt auf die Idee, zum Berechnen des Preises eines Butterbrotes, den Preis eines Brotes und den Preis einses Stück Butter zu addieren. Im Gegenteil, man bestimmt genau die Mengen, die man benötigt und addiert dann. Das bedeutet letztlich, daß man den Hauptnenner bildet. Auch das Addieren von gebrochenen Zahlen (intensive Größen) ist ohne weiteres nicht möglich. Man muß erst den Hauptnenner (extensive Größe) bilden und kann dann die Zähler (extensive Größe) addieren. Der Unsinn mit der Addition von Geschwindigkeiten wird deutlich, wenn man z.B. den Weg konstant läßt: Von Berlin nach München ist ein Auto 130 km/h schnell, ein ICE 300 km/h. Wann könnte es sinnvoll sein, hier die Summe der Geschwindigkeiten zu bilden? 2.2 Mathematische Zusammenhänge physikalischer Größen 2.2 17 Mathematische Zusammenhänge physikalischer Größen Wir untersuchen im weiteren einige mathematische Eigenschaften extensiver und intensiver Größen. Dazu werden die empirisch gewonnen Erkenntnisse in mathematische Ausdrücke gefaßt. Insbesondere geht es hier darum, was es bedeutet, einer intensiven Größe eine reelle Zahl zuzuordnen. • Es seien Bi physikalische Objekte/Körper, mit denen wir wie mit disjunkten Mengen arbeiten können. Alle diese Bi seien gedanklich Teil einer Menge Z. Das “in Kontakt bringen” zweier Objekte B1 und B2 zum Objekt B bezeichnen wir mit der disjunkten Vereinigung B = B1 ⊔ B2 . Wir betrachten nur das “in Kontakt bringen” von disjunkten Objekten (Aristoteles: “Wo ein Körper ist, kann nicht ein anderer sein.”). • Wir nehmen an – um uns die Betrachtungen nicht durch zusätzliche Fallunterscheidungen, die das Wesen der Sache nur vernebeln, zu verkomplizieren – daß die Objekte/Körper beliebig teilbar sind, wir also Objekte für beliebige Größen zur Verfügung haben. • Wir nehmen an, daß wir jede extensive Größe P messen können, ihr also eine nichtnegative reelle Zahl aus R+ zuordnen können. Es gibt also Abbildungen P : Z − → R+ , P (B) ∈ R+ . Da P eine extensive Grüße ist, gilt bei Kontakt zweier Objekte P (B1 ⊔ B2 ) = P (B1 ) + P (B2 ), B1 , B2 ∈ Z (2) Des weiteren nehmen wir an, daß wir für jedes α ∈ R+ ein B ∈ Z mit P (B) = α finden können (beliebige Teilbarkeit der Objekte). • Wir nehmen an, daß wir jede intensive Größe x wahrnehmen und verschiedene Wahrnehmungen vergleichen können. Es gibt also Abbildungen x : Z − → X, x(B) ∈ X, wobei X eine linear geordnete Menge sei. Für zwei Objekte B1 und B2 , gelte x(B1 ) ≤ x(B2 ), x(B1 ) ≥ x(B2 ) oder x(B1 ) = x(B2 ). Da x eine intensive Grüße ist, gilt bei Kontakt zweier Objekte (o.B.d.A. sei x(B1 ) ≥ x(B2 )) x(B1 ) ≤ x(B1 ⊔ B2 ) ≤ x(B2 ), B1 , B2 ∈ Z (3) Des weiteren nehmen wir an, daß wir für jedes ξ ∈ X ein B ∈ Z mit x(B) = ξ finden können (beliebige Teilbarkeit der Objekte). • Wir nehmen an, daß wir zu jeder intensiven Größe x zwei extensive Größen P und Q derart finden können, daß Q für jedes Objekt eindeutig durch x und P bestimmt ist. Es gibt also einen funktionellen Zusammenhang f : X × R+ − → R+ , sodaß Q(B) = f x(B), P (B) ) für alle B ∈ Z. Wir schreiben das als Q = f (x, B) und nenen Q den Zähler und P den Nenner von x. Die Frage ist: Wann und wie ist es möglich, ausgehend von der Kenntnis von f , der intensiven Größe x für jedes Objekt B eine reelle Zahl g x(B) zuzuordnen. Es stellt sich heraus, daß die – physikalisch völlig plausiblen – Voraussetzungen (2) und (3) derart streng sind, daß die empirische Definition Q(B) , B∈Z g x(B) = P (B) die weitgehend einizige Möglichkeit dafür ist. 18 2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN 2.2.1 Ein bilinearer Zusammenhang Grundlegend für die Möglichkeit, mathematische Aussagen in der Physik anzuwenden, ist intensiven Größen Zahlen zuzuordnen. Zwischen x, P und Q besteht ein funktioneller Zusammenhang Q = f (x, P ). Im Weiteren soll untersucht werden, ob man näheres über diesen Zusammenhang aussagen kann, insbesondere, ob es möglich ist, der intensiven Größe x eine reelle Zahl zuzuordnen. Aussagen dazu liefert folgender Satz: Es sei x eine intensive und P und Q extensive Größen. Dann existiert eine Funktion C : X− → R, die jeder intensiven Größe streng monoton und damit eineindeutig eine reelle Zahl zuordnet. Im Laufe des Beweises wird klar werden, welche mathematischen Voraussetzungen an die physikalischen Größen gestellt werden müssen und in welchem Sinn die Funktion C einzig ist. Die Voraussetzungen erfüllen intuitiv extensive und intensive Größen. Beweis: Wir setzen Q1 = Q(B1 ), Q2 = Q(B2 ), Q12 = Q(B1 ⊔ B2 ), P1 = P (B1 ), P2 = P (B2 ), P12 = P (B1 ⊔ B2 ), x1 = x(B1 ), x2 = x(B2 ), x12 = x(B1 ∪ B2 ). OBdA sei x1 ≤ x2 . Dann gilt einerseits und andererseits: Q12 = Q1 + Q2 = f (x1 , P1 ) + f (x2 , P2 ) = = f (x12 , P12 ) = f (x12 , P1 + P2 ) Es folgt f (x12 , P1 + P2 ) = f (x1 , P1 ) + f (x2 , P2 ) (4) Wegen x1 ≤ x12 ≤ x2 folgt aus x1 = x2 = x auch x12 = x und damit f (x, P1 + P2 ) = f (x, P1 ) + f (x, P2 ) (5) Für fixiertes x ist f (x, ·) eine reellwertige additive Funktion. Sie muß linear sein. Das folgt aus folgendem Lemma: Es sei h : R − → R eine stetige Funktion, die die Gleichung h(x + y) = h(x) + h(y) erfüllt. Dann ist h(x) = cx für beliebiges aber festes c ∈ R. Beweis des Lemmas: Unter Benutzung der Funktionalgleichung erhalten wir y = x =⇒ h(2x) = 2h(x) Induktion: =⇒ h(nx) = nh(x), n ∈ N 1 1 1 x= = h(1), m ∈ N =⇒ h m m m n n =⇒ h = h(1), n, m ∈ N m m Stetigkeit: =⇒ h(x) = xh(1) =: cx, x > 0, c bel. x = 0 =⇒ h(0) = 0 x < 0 : y = −x =⇒ h(x) = −h(−x) Damit ist eine notwendige Bedingung an h gefunden. Die Probe bestätigt, daß jede lineare Funktion Lösung der Funktionalgleichung ist. (Lemma) Bemerkung 0: Diese Funktionalgleichung heißt Cauchysche Funktionalgleichung. 2.2 Mathematische Zusammenhänge physikalischer Größen 19 Bemerkung 1: Unter der Voraussetzung der Differenzierbarkeit folgt einfacher h′ (x + y) = h′ (y) also h′ (x) = h′ (0) =: c. Hier wurde aber der allgemeinere Weg gegangen, weil Stetigkeit eine topolgische Eigenschaft ist und Differentierbarkeit eine metrische, die wir eigentlich nicht voraussetzen wollen. Bemerkung 2: Die Voraussetzung der Stetigkeit kann abgeschwächt werden. Lokale Beschränktheit von h reicht aus. Bemerkung 3: Es lassen sich nichtstetige Lösungen finden. Dazu stellt man R als unendlichdimensionalen linearen Raum über den rationalen Zahlen mithilfe einer sogenannten Hamel-Basis dar. Die Existenz einer solchen Basis läßt sich nur mit dem Auswahlaxiom beweisen. Folgerung: Analog lassen sich weitere Funktionalgleichung lösen: h(x + y) = h(x) · h(y) h(x · y) = h(x) + h(y) h(x · y) = h(x) · h(y) =⇒ =⇒ =⇒ h(x) = cx h(x) = logc x h(x) = xc Damit erhalten wir aus (5) die Darstellung Q = f (x, P ) = C(x) · P . (6) Aus (6) und (4) erhalten wir C(x12 )(P1 + P2 ) = C(x1 )P1 + C(x2 )P2 oder C(x12 ) = C(x1 )P1 + C(x2 )P2 P1 + P2 Hieraus folgt C(x12 ) ∈ [C(x1 ), C(x2 )] (d.h., C(x1 ), C(x2 ) und C(x12 ) liegen auf einer Geraden. Monotonie: Wir zeigen, daß C eineindeutig oder konstant ist. Es sei C(x1 ) = C(x2 ) = c aber x1 6= x2 . Dann ist auch C(x12 ) = c. Damit ist C konstant. Diesen Fall können wir als uninteressant ausschließen, denn dann hängt f (x, P ) nicht von x ab. Das heißt, P ist nicht der Nenner von x. Damit ist C eineindeutig und wegen der linearen Ordnung von X monoton. Es existiert also C −1 und es gilt Q(B) Q −1 −1 , x(B) = C x=C P P (B) und x12 = C −1 C(x1 )P1 + C(x2 )P2 P1 + P2 (7) Wir wählen zwei Objekte B1 und B2 mit P1 = P2 . Dann folgt aus x1 < x2 auch Q1 < Q2 . Damit ist C monoton wachsend. Entscheident ist hier nur die Monotonie von C. Ob C wächst oder fällt ist eine Frage der Definition der Ungleichung x1 < x2 (ob wir z.B. einer größeren Länge eine größere oder eine kleinere Zahl zuordnen wollen). Einzigkeit: Angenommen, wir haben zwei Funktionen C1 und C2 , die verschiedene Möglichkeiten einer Funktion C für (6) darstellen. Den Zusammenhang dieser beiden Funktionen liefert folgendes 20 2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN Lemma: Es seien C1 , C2 : X − → I ⊂ R zwei Abbildungen intensiver Größen in ein Intervall der reellen Zahlen. Für alle P1 , P2 ≥ 0 und alle x1 , x2 ∈ X gelte C1 (x1 )P1 + C1 (x2 )P2 C2 (x1 )P1 + C2 (x2 )P2 −1 −1 x12 = C1 = C2 P1 + P2 P1 + P2 dann gibt es reelle Zahlen α und β mit C1 (x) = αC2 (x) + β Beweis des Lemmas: Die Funktion h = C1 ◦ C2−1 : R − → R ist eine reelle Funktion. Es sei C2 (xi ) = ξi also xi = C2−1 (ξi ). Dann folgt C2 (x1 )P1 + C2 (x2 )P2 C1 (x1 )P1 + C1 (x2 )P2 −1 = C1 ◦ C2 P1 + P2 P1 + P2 −1 −1 ξ 1 P1 + ξ 2 P2 C1 ◦ C2 (ξ1 )P1 + C1 ◦ C2 (ξ2 )P2 −1 = C1 ◦ C2 P1 + P2 P1 + P2 Das ist eine Gleichheit zwischen konvexen Kombinationen und dem Funktionswert der konvexen Kombination. Für solche Ausdrücke gilt die Jensensche Ungleichung. Hier gilt aber Gleichheit. In der Jensensche Ungleichung gilt Gleichheit für alle Argumente, genau dann, wenn die Funk −1 tion sowohl konvex als auch konkav und damit affin ist. Es gilt also C1 ◦ C2 (ξ) = αξ + β mit gewissen reellen Zahlen α und β. Setzen wir wieder C2−1 (ξ) = x folgt die Behauptung. . (Lemma) (Satz) Bemerkung 1: Die Eindeutigkeit bis auf affine Transformationen kennt man gut von der Messung intensiver Größen, etwa der Temmperatur (Celsius- bzw. Fahrenheit-Skalen). Der Zahlenwert kann sowohl verschoben als auch skaliert werden. Bemerkung 2: Viele intensive Größen haben einen natürlichen Nullpunkt (keine Helligkeit = 0, kein Preis = 0, ...). In diesem Fall sollte man den natürlichen Nullpunkt der reellen Zahl 0 zuordnen. Die Skalierbarkeit bleibt erhalten. Bemerkung 3: Sollte die intensive Größen nach oben und unten beschränkt sein, dann sind α und β nicht mehr frei sondern bestimmen sich aus diesen Schranken. Bemerkung 4: Die Eindeutigkeit bis auf affine Transformationen drückt sich bei der Geschwindigkeit durch das Galileische Relativitätsprinzip aus. Es läßt sich die Geschwindigkeit eines Objektes nur relativ zum Beobachter bestimmen. Bemerkung 5: Bei der Messung extensiver Größen gibt es die affine Freiheit nicht: Eine Länge enthält z.B. 5 Normlängen. Das kann weder skaliert noch verschoben werden. Bemerkung 6: Die fehlende Eindeutigkeit, mit der man intensiven Größen Zahlen zuordnen kann, macht deutlich, daß alle Zahlenwerte in der Physik – im Gegensatz zu den Größen selbst –, relativ sind. So etwa auch die Größe des Weltalls und Entfernungen zwischen den Sternen. Das wird manchmal als “Nichterkennbarkeit der Welt” interpretiert. Dabei wird implizit unterstellt, daß Erkennbarkeit bedeutet, physikalischen Größen eindeutig Zahlen zuordnen zu können. Siehe: 2.2.2 Definition des Zahl- und Mittelwertes intensiver Größen Es sei im weiteren C eine feste Funktion entsprechend (6) und g(B) = C(x(B)) = Q(B) P (B) (8) 2.2 Mathematische Zusammenhänge physikalischer Größen 21 der Wert der intensiven Größe x mit Zähler Q und Nenner P . Damit haben wir eine Abbildung g : Z− → R gefunden. Die Größe des Objektes B ist für die Definition von g eigentlich unwichtig, hauptsache, x(B) ändert sich nicht allzu sehr, je kleiner B wird. Es sei B2 ⊂ B1 , dann gilt Q(B2 ) ≤ Q(B1 ) und P (B2 ) ≤ P (B1 ). Damit ist nicht klar, wie sich g(B1) und g(B2 ) zueinander verhalten. Es kann sein, daß für eine Folge von Objekten Bn ⊂ ... ⊂ B2 ⊂ B1 gilt Q(B2 ) Q(Bn ) Q(B1 ) = = ... = P (B1 ) P (B2 ) P (Bn ) In so einem Fall können wir g auf dem kleinstmöglichen Objekt definieren. Es sei {z} kleinstmögliche Objekt, das in den Bi enthalten ist. Wir nennen so ein Objekt Zustand und definieren den Wert von x am Zustand z als Q(B) Q(B) Q(B) = inf = sup z∈B P (B) B→{z} P (B) z∈B P (B) g(z) = lim Diese Definition ist so zu verstehen: Der sup- und der inf-Ausdruck haben einen Sinn. Fall beide gleich sind, nennen wir diese Größe Limes. Diese Definition ist nur sinnvoll, wenn g stetig ist. Diese Definition läßt sich unter gewisse Bedingungen durch den Satz von Radon und Nikodym verallgemeinern. Es seien A und B disjunkte Objekte. Dann gilt Q(A) + Q(B) g(A)P (A) + g(B)P (B) Q(A ⊔ B) = = = P (A ⊔ B) P (A) + P (B) P (A) + P (B) P (B) P (A) + g(B) = g(A) P (A) + P (B) P (A) + P (B) g(A ⊔ B) = Der Wert der intensiven Größe einer Vereinigung ist also eine konvexe Kombination der einzelnen Werte. Wir können eine besondere Addition definieren: g(A ⊔ B) = g(A) ⊕ g(B) = Q(A) Q(B) Q(A) + Q(B) ⊕ = P (A) P (B) P (A) + P (B) Diese Größe wird Mediant der beiden Brüche bezeichnet. 2.2.3 Fordkreise und Fareybrüche Zu einer rationalen Zahl a/b sei der Fordkreis K(a/b) der Kreis der Ebene des zweidim. Koordinatensystems mit dem Mittelpunkt (a/b, 1/(2b2 ) und dem Radius 1/(2b2 ). Eigenschaften von Fordkreisen: • Ein Fordkreis berühert die x-Achse im Punkt a/b. • Zwei Fordkreise können sich berühern, aber nie überlappen. • Zwei Fordkreise K(a/b) und K(c/d) berühern sich genau dann, wenn bc und ad aufeinanderfolgende ganze Zahlen sind. • Der dritte Kreis, der zwei sich berühernde Fordkreise K(a/b) und K(c/d) und die x-Achse berühert, ist ebenfalls ein Fordkreis K(q/p). Die rationale Zahl q/p ist eindeutig durch q = a + c und p = b + d bestimmt. q/p ist also der Mediant von a/b und c/d. 22 2 DUALITÄT EXTENSIVER UND INTENSIVER GRÖSSEN Eine Farey-Folge n-ter Ordnung Fn ist eine geordnete Menge von Brüchen pqii mit pi ≤ qi ≤ n, p i ∈ I, gcd(pi , qi ) = 1 mit I Indexmenge und pi , qi , n ∈ N, so daß pqii < qjj für alle i < j gilt. Beispiele: 0 1 F1 = , 1 1 0 1 1 , , F2 = 1 2 1 0 1 1 2 1 F3 = , , , , 1 3 2 3 1 0 1 1 1 2 3 1 F4 = , , , , , , 1 4 3 2 3 4 1 0 1 1 1 2 1 3 2 3 4 1 , , , , , , , , , , F5 = 1 5 4 3 5 2 5 3 4 5 1 0 1 1 1 1 2 1 3 2 3 4 5 1 F6 = , , , , , , , , , , , , 1 6 5 4 3 5 2 5 3 4 5 6 1 0 1 1 1 1 2 1 2 3 1 4 3 2 5 3 4 5 6 1 , , , , , , , , , , , , , , , , , , F7 = 1 7 6 5 4 7 3 5 7 2 7 5 3 7 4 5 6 7 1 Eigenschaften und Bemerkungen zu Fareybrüchen: • Sind ab und dc aufeinanderfolgende Brüche mit ab ≤ dc in einer Farey-Folge, dann gilt bc − ad = 1 oder bc = 1 + ad, d.h., bc und ad sind aufeinanderfolgende natürliche Zahlen. • Die Länge |Fn | einer Farey-Folge ergibt sich rekursiv als |Fn | = |Fn−1 | + ϕ(n) und damit |Fn | = 1 + ϕ(1) + ϕ(2) + ... + ϕ(n − 1) + ϕ(n). In einem Schritt wächst eine Farey-Folge also besonders stark, wenn n Primzahl ist. Dann ist ϕ(n) = n − 1. • Eine Farey-Folge oder einfach Farey-Brüche ist in der Zahlentheorie eine geordnete Menge der vollständig gekürzten Brüche zwischen 0 und 1, deren jeweiliger Nenner den Index N nicht übersteigt. • Es gibt übrigens eine Aussage über Farey-Brüche, die der Riemanschen Vermutung äquivalent ist (siehe wikipedia). Im Bild: Die Fordkreise zur 2. Hälfte der Farey-Folge F7 . 1 2 4 7 3 5 2 3 5 7 3 4 4 5 5 6 6 7 1 1 2.2 Mathematische Zusammenhänge physikalischer Größen 2.2.4 23 Satz von Benedetti Eine einfache aber folgenschwere Anwendung der einfachsten Eigenschaften von extensiven und intensiven Größen ist der Satz von Galilei-Benedetti: Wir betrachten eine extensive Größe P und eine intensive Größe x und nehmen an, daß für zwei beliebige Objekte A und B mit 0 < P (A) ≤ P (B) auch x(A) ≤ x(B) gilt. Dann ist x konstant (hängt also von P nicht ab). Beweis: Wir betrachten C = A ⊔ B. Da P extensiv ist, folgt P (A) ≤ P (B) < P (C) Aus der Intensivität von x folgt x(A) ≤ x(C) ≤ x(B) Da aber nach Voraussetzung aus P (B) ≤ P (C) auch x(B) ≤ x(C) folgen muß, muß x konstant sein. Dieser Satz hat eine erstaunlich Anwendung. Angenommen, die Geschwindigkeit (intensive Größe) eines fallenden Objektes (z.B. zu einem festen Zeitpunkt) hängt von seiner Masse (extensive Größe) monoton ab (schwerer Körper fallen schneller), dann muß sie konstant sein. D.h., alle Körper fallen gleichschnell, wenn man die Bedingungen so gestaltet, daß die Geschwindigkeit nur von der Masse des Objektes abhängt. Dieser Satz wurde zuerst von Giovanni Battista Benedetti (1530 – 1590) in einem Gedankenexperiment erwähnt, der damit zeigte, daß Aristoteles’ Idee, daß “doppelt so schwere Körper doppelt so schnell fallen”, falsch sein muß. Galilei erwähnt dieses Gedankenexperiment in seinen berühmten “Discorsi e dimostrazioni matematiche”. 25 3 Lineare Dualitätstheorie. Heuristik 3.1 Ein paar Vorbemerkungen Ziel: Informationen über Z finden. 3.1.1 Die Grundobjekte der Funktionalanalysis Mengen mit Struktur Abbildungen Funktionen Funktionale a ∈ A, b ∈ B X = {f : A − → B}, b = f (a) Operatoren M : X− → X, g = Mf Alles noch mal für reelle Zahlen z ∈ Z, x ∈ R C(Z) = {g : Z − → R}, x = g(z) M : C(Z′ ) − → C(Z) ′ ′ ′ ′ ′ z ∈ Z , y ∈ R C(Z ) = {f : Z − → R}, y = f (z ) g = Mf Die Funktionalanalysis beschäftigt sich mit drei Objekten: Mengen X und Y, Funktionen f die zwischen diesen Mengen wirken und in einem Funktionenraum M(X, Y) liegen, in dem Operatoren A Funktionen auf Funktionen abbilden, die wiederum in einem Operatorenraum liegen können. X ❄ f∈ Y M(X, Y) ❄ A ∈ L(M, M′ ) M′ (X′ , Y′ ) ✎☞ 1 ✍✌ ✎☞ 2 ✍✌ ✎☞ 3 ✍✌ Jede Zusammenfassung von neuen Objekten in Mengen erhöht einerseits die Abstraktionsstufe und damit den Kompliziertheitsgrad, läßt sich aber andererseits stets als Wirken von Funktionen zwischen Mengen betrachten. Da diese neuen Mengen meistens aber mit anderen Methoden untersucht werden müssen ist es sinnvoll, zwischen Funktionen und Operatoren zu unterscheiden, obwohl das nicht prinzipiell ist. Die einzelnen Teilgebiete der Funktionalanalysis unterscheiden sich darin, welche Strukturen in den Mengen definiert oder welche Funktionen aus der Menge aller denkbaren Funktionen ausgewählt werden. 26 3 LINEARE DUALITÄTSTHEORIE. HEURISTIK 3.1.2 Mengen mit Strukturen. Kanonische Objekte Werden Mengen aufeinander abgebildet, werden vorhandene Strukturen übertragen. Wir betrachten zwei Mengen A und B, und die Menge X = X(A, B) aller Abbildungen f : A − →B und untersuchen drei Typen von Strukturen: • algebraische Struktur (B, ∗) Man definiert eine binäre Abbildung B × B − → B. • Ordnungsstruktur (B, ≤) Man markiert eine Teilmenge des Kreuzproduktes ... ⊂ B × B. • topologische Struktur (B, τB ) Man markiert eine Menge von Teilmengen und nennt sie offen OB ⊂ 2B . Durch Funktionen f ∈ X werden diese Strukturen übertragen, d.h. es werden entsprechende Strukturen induziert. • algebraische Struktur: Von B nach X (f ∗ g)(a) = f (a) ∗ g(a), a ∈ A X sollte abgeschlossen sein bezüglich dieser Operation. • Ordnungsstruktur: Von B nach X f ≤ g ⇐⇒ f (a) ≤ g(a), a ∈ A Sinnvoll ist es, Das schränkt die Menge X nicht ein. Wenn es aber bereits eine natürliche Ordnungsstruktur auf X gibt, sollten beide Strukturen zusammenfallen. • topologische Struktur: Von B nach A (Initialtopologie) OA = {f −1 (U) | U ∈ OB , f ∈ X} X ist dann die Menge der stetigen Abbildungen A − → B. Hier gibt es also zwei Möglichkeiten: Wir definieren in A und B eine Topologie und betrachten nur stetige Abbildungen, oder wir gehen von einer Topologie in B aus und definieren uns eine Topologie in A mithilfe einer Menge von Funktionen, die wir für geeignet halten. Genau genommen wird so nur eine Subbasis der Topologie in A definiert. Eine häufig verwendete sehr erfolgreiche Idee in der Funktionalanalysis (und auch anderswo) ist es, die Eigenschaften einer Menge unbekannter Elemente zu ermitteln, indem die Abbildungen dieser Menge in eine Menge mit einer vielfältigen bekannten Struktur betrachtet werden. Eine besonders vielfältige Struktur haben die reellen Zahlen (lineare Ordnung, zwei algebraische Operationen und eine Topologie). Wir werden deshalb den Zustandraum mit Hilfe reellwertiger Abbildungen untersuchen. 3.2 Der Zustandsraum Z als Menge 3.2 27 Der Zustandsraum Z als Menge In den betrachteten Beispielen kamen verschiedene Varianten des Zustandsraumes vor. Als Menge war der Zustandsraum • eine endliche Mengen • eine abzählbare Mengen • ein Kontinuum Oft hat der Zustandsraum bereits eine natürliche Struktur (z.B. wenn er ein Gebiet im Rn ist), auf die zurückgegriffen werden sollte. Das sind aber spezielle Strukturen, die nur für spezielle Aufgaben interessant sind. Wir werden im weiteren die lineare Dualitätstheorie rein formal so entwickeln, wie sie sich kanonisch allein aus der Tatsache, daß wir ein physikalisches System beschreiben wollen ergibt. Wir werden keine neuen Definitionen einführen sondern nur die Eigenschaften der kanonischen Objekte beschreiben. Das hat den Vorteil, daß man sich nicht mit technischen Problemen aufhalten muß und sich ganz auf die Eigenschaften der Objekte konzentrieren kann. Als Ergebnis erhält man einen mathematischen Rahmen, dem man einen physikalischen Sinn geben. Allerdings werden wir feststellen, daß alles nur im Fall Z eine endliche Menge ist, mathematisch einwandfrei ist. Die nächste Aufgabe ist dann, künstlich Änderungen derart vorzunehmen, daß auch abzählbare Mengen und Kontinua in diesem Rahmen beschrieben werden können. Ist Z eine abstrakte Menge, gibt es in Z nichts kanonisches als die Menge der Teilmengen (auch Potenzmenge genannt) von Z. Wir bezeichnen diese Potenzmenge mit 2Z . In 2Z gibt es eine kanonische Ordnungsstruktur (⊂), eine algebraische Struktur (⊔ und ∩) und eine Verbandstruktur (∪ und ∩). 3.3 3.3.1 Der duale Raum Z∗. Beobachtungen Funktionen als Funktionale. Der duale Raum Da es auf Z a-priori keine Struktur gibt, ist ein Funktional auf Z also erstmal eine beliebige reellwertige Funktion auf Z, die für jedes z ∈ Z einen definierten Wert annimmt. Wir bezeichnen diese Menge mit Z∗ = {f : Z − → R} Später werden wir in Z eine geeignete Struktur festlegen und nur solche Funktion betrachten, die diese Struktur erhalten. Damit wird sich diese Menge einschränken. Ein Element aus f ∈ Z∗ , angewendet auf z ∈ Z ist f (z). Z∗ wird der zu Z duale Raum genannt. Meinstens wird für diese Objekte der Begriff “Funktion” und nicht der Begriff “Funktional” verwendet. 3.3.2 Z∗ als linearer Raum Die vielfältige Struktur von R überträgt sich auf Funktionen von Z nach R also auf Z∗ . Dank der algebraischen Strukturen in R können wir endliche Linearkombinationen von Funktionen bilden. Sind fi ∈ Z∗ , sind für alle reellen αi auch n X f= αi fi ∈ Z∗ i=1 28 3 LINEARE DUALITÄTSTHEORIE. HEURISTIK da wohlPdefiniert ist, welchen Wert f an einer beliebigen Stelle z ∈ Z annimmt, nämlich f (z) = ni=1 αi fi (z). Wie in jedem linearen Raum ist die Funktion, die konstant 0 ist enthalten, 0 ∈ Z. 3.3.3 Ordnung und Positivität Die Ordnungsstruktur in R generiert auf kanonische Weise eine Halbordnung in Z∗ : f ≥ g ⇐⇒ f (z) ≥ g(z), z ∈ Z Der Begriff der Ordnung in einem linearen Raum ist äquivalent mit dem Begriff der Positivität. Wir schreiben f ≥ 0. 3.3.4 Z∗ als kommutative Algebra Die Multiplikation in R generiert die Struktur einer kommutativen Algebra ist Z mit der punktweisen Multiplikation: h = f · g ⇐⇒ h(z) = f (z) · g(z), z ∈ Z 3.3.5 Beschränkte Funktionen als konvexe Menge Wir nennen eine Funktion f beschränkt, wenn es zwei reelle Zahlen α und β ≥ α mit α1 ≤ f ≤ β 1 gibt. Zu so einer Funktion können wir eine skalierte Funktion f˜ = 1 (f − α1) β−α definieren, die “affin äquivalent” ist zu f . Im weiteren sei α = inf f (z), β = sup f (z) z z Wenn wir alle beschränkten Funktionen mit derselben skalierte Funktion f˜ als identisch auffassen, reicht es Funktionen zu betrachten, die die Ungleichung 0≤f ≤1 erfüllen. Wir bezeichnen diese Menge mit R = {f ∈ Z∗ | 0 ≤ f ≤ 1} Offensichtlich ist R eine konvexe Menge. Bemerkung: Die Funktion f˜ “berühert” die 0- und 1- Linie. In R liegen aber auch Funktionen, die strikt zwischen 0 und 1 liegen. 3.3 Der duale Raum Z∗ . Beobachtungen 3.3.6 29 Niveaumengen (level sets) Zu einer Funktion f : Z −→ R können wir den Wertebereich R(f ) ⊂ x auf die übliche Art definieren. Zu jeder Funktion läßt sich auf die übliche Weise eine “inverse Funktion” f −1 definieren: f −1 (x) = {z ∈ Z|f (z) = x} ⊂ Z, x ∈ R(f ) f −1 (x) = ∅, x ∈ R(f ) Diese Funktion wird “inverse Funktion” genannt, obwohl ihr Wertebereich ein anderer ist als der Definitionsbereich von f . Es ist f −1 : R − → 2Z . Eigentlich müßte hier ein anderes Symbol als −1 f eingeführt werden. Wir verzichten darauf, weil das unüblich ist. f −1 (x) heißt Niveaumenge von f zum Wert x. f −1 ist auf R(f ) eineindeutig: x 6= y ⇐⇒ f −1 (x) 6= f −1 (y). Deshalb zerlegt jede Funktion seinen Definitionsbereich Z in Äquivalenzklassen. f −1 erhält die Mengenoperationen ∪ und ∩. 3.3.7 Charakteristische Funktionen Die betrachteten Funktionen haben Werte im Zahlenkörper R. Anstelle von R könnte man andere Körper betrachten (was wir nicht tun werden). Deshalb sind besonders solche Funktionen interessant, die es für jedem Körper gibt, daß sind Funktionen, die nur die Werte 0 und 1 annehmen (diese beiden Zahlen gibt es in jedem Körper). Solche Funktionen sind für gewisse Punkte z einer Menge A gleich 1 und für alle anderen Werte 0. Das sind gerade die charakteristischen Funktionen. Jeder Teilmenge A ∈ 2Z können wir eine charakteristische Funktion 1A durch 1A (z) = 1 falls z ∈ A, 1A (z) = 0 falls z ∈ Z \ A. Umgekehrt können wir jeder Funktion g auf Z, die nur die Werte 0 oder 1 annimmt, mit A = g −1 (1) eine Teilmenge aus Z zuordnen. Damit haben wir eine 121-Abbildung (121 bedeutet eineindeutig, aus dem englischen: one-toone) der Teilmengen von Z in eine wohl definierte Teilmenge von Z∗ erhalten. Wir können 1A , die Bilder von A, mit A selbst dank dieser Einbettung identifizieren. Z∗ enthält also die Teilmengen von Z. Wir können uns Z∗ damit als Verallgemeinerung des Begriffs der Teilmenge vorstellen. Die kanonische Struktur in 2Z überträgt sich auf die Menge der charakteristischen Funktionen. Insbesondere sind Produkte, Summen und Suprema von charakteristische Funktionen Operationen mit Teilmengen von Z und ebenfalls Teilmengen. Operationen und Relationen zwischen Mengen übertragen sich auf Operationen zwischen Zahlen (A ⊔ B bedeutet Vereinigung disjunkter Mengen, also A ∪ B falls A ∩ B = ∅): A⊂B C =A∩B C =A⊔B C =A∩B C =A∪B ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ 1A ≤ 1B 1C = 1A · 1B 1C = 1A + 1B 1C = inf{1A , 1B } = min{1A , 1B } 1C = sup{1A , 1B } = max{1A , 1B } Die definierte 121-Abbildung 1A ←→ A ∈ 2Z ⊂ Z∗ = {f : Z − → R} 30 3 LINEARE DUALITÄTSTHEORIE. HEURISTIK erhält also die Ordnungsrelation, die algebraischen Operationen und die Verbandstruktur. Bei der speziellen charakteristischen Funktion 1Z lassen wir in Zukunft den Index weg und schreiben einfach 1. Das ist die konstante 1-Funktion. 1∅ ist die konstante 0-Funktion. 3.3.8 Linearkombinationen charakteristischer Funktionen Die vielfältige Struktur von R überträgt sich auf Funktionen von Z nach R also auf Z∗ . Dank der algebraischen Strukturen in R können wir Linearkombinationen der charakteristischen Funktionen bilden, etwa f= n X αi 1Ai (9) i=1 Diese Funktionen sind aus der Theorie des Lebesgueintegrals gut bekannt und heißen einfache Funktionen. Offensichtlich nimmt so eine Funktion nur endliche viele Werte an. Sie wird häufig stückweise konstante Funktion genannt (genauer wäre es so eine Funktion als Funktion mit endlichem Wertebereich zu bezeichnen). Es gilt R(f ) = {f (z1 ), ..., f (zm )} mit gewissen zi ∈ Z und m ≥ n. Die Mengen f −1 f (zi ) sind disjunkt und zerlegen Z. Wir werden deshalb im weiteren stets Darstellungen der Form (9) betrachten, für die die Ai eine disjunkte Zerlegung von Z bilden: ! n n G [ Ai = Z, heißt Ai = Z, Ai ∩ Aj = ∅, i 6= j i=1 i=1 und zi ∈ Ai liegt. Es gilt Ai = f −1 f (zi ) (10) Wir können die αi näher bestimmen: Wenden wir f in der Form (9) auf ein zj an, erhalten wir f (zj ) = n X αi 1Ai (zj ) = i=1 n X αi δij = αj i=1 mit dem Kroneckersymbol δij = 1Ai (zj ). Damit gilt f= n X i=1 f (zi )1Ai , zi ∈ Ai (11) Die Ai sind die Niveaumengen der Funktion f . Mit (10) erhalten wir aus (11) f= n X i=1 f (zi )1Ai = n X i=1 f (zi )1f −1 (f (zi )) = X x∈R x · 1f −1 (x) (12) wobei im letzten Schritt x = f (zi ) gesetzt wurde. Die Summe läßt sich über ganz R ausdehnen, da 1f −1 (x) = 1∅ = 0 für x 6∈ R(f ). 3.3 Der duale Raum Z∗ . Beobachtungen 31 Diese Schreibweise ist für Funktionen mit endlich vielen Werten sogar exakt. Sie ist eine Darstellung, die sich auf allgemeinen Funktionen veralgemeinern läßt, wenn man der Summe in (12) einen Sinn geben kann. Die Darstellung (11) erinnert an die aus der linearen Algebra bekannte Zerlegung bezüglich einer Basis. Hier wären die Basiselemente die charakteristischen Funktionen 1A . Die charakteristischen Funktionen könnte man als kanonische Basis bezeichnen. Ein einfaches Beispiel zeigt, daß sie im allgemeinen nicht die Basis von Z∗ als linearer Raum sein können. Ist Z eine endliche n-Menge, dann ist Z∗ = Rn . Die Basis besteht also aus n Elementen. Es gibt in Z aber 2n Teilmengen und damit auch 2n charakteristische Funktionen. Die charakteristischen Funktionen sind allerdings genau die extremalen Elemente von R. Wir bezeichnen sie mit Re = 1A ∈ Z∗ | A ∈ 2Z Die konvexe Kombination von Elementen aus Re ergeben Elemente aus R, im allgemeinen leider nicht alle. Das wäre eine besonders wünschenswerte Eigenschaft der Menge R. Es würde Re = extr R , Re ∼ 2Z R = conv Re gelten. Die charakteristischen Funktionen könte man damit als “Basis” für R bezeichnen, bezüglich derer man alle Elemente der konvexen Menge als konvexe Kombination von “Basiselementen” darstellen kann. Wenn Z eine endliche Menge ist, gilt dieser Zusammenhang. Allerdings ist diese Darstellung im allgemeinen nicht eindeutig (siehe die Beispiele weiter hinten). 3.3.9 Positivität charakteristischer Funktionen Offensichtlich ist 1A ≥ 0. Hieraus folgt für endliche Linearkombinationen, daß f ≥ 0 ⇐⇒ fi ≥ 0. 3.3.10 Physikalische Bedeutung von Z∗ Jede Beobachtung hat eine physikalische Bedeutung. Z.B. bedeutet 1A (z), wir testen, ob z ∈ A, d.h., ob sich das phys. System in einem Zustand aus A befindet. P Linearkombinationen von charakteristischen Funktionen i αi 1Ai kann man als verfeinerte Beobachtungen betrachten, die ermöglichen, die Zugehörigkeit des Zustandes zu Mengen gleichzeitig zu beobachten. Das erfordert aber, daß man die αi gut unterscheiden kann. Beobachtungen verhalten sich wie intensive Größen. Von solchen Größen wissen wir, daß sie sich nicht eindeutig reellen Zahlen zuordnen lassen. Zwei verschiedene Darstellungen sind aber durch affine Transformation (Verschiebung und Skalierung) inneinander überführbar. Das heißt, es reicht aus, Beobachtung aus der konvexen Menge R = {f ∈ Z∗ | 0 ≤ f ≤ 1} zu betrachten. Allerdings ist das keine echte Faktorisierung bezüglich affiner Transformationen, da in R nach wie vor affin äquivalente Beobachtunen liegen, z.B. 1 und 12 1 . 32 3 LINEARE DUALITÄTSTHEORIE. HEURISTIK Der biduale Raum Z∗∗. Statistische Zustände 3.4 Mit Z∗ könnte man sich zufriedengeben, wir haben Abbildungen unserer physikalischen Zustände in die reellen Zahlen. Aber irgendein Mathematiker kam mal auf die Idee das ganze noch mal zu machen. Vielleicht hat er gedacht: “Wenn ich mit Funktionen Information aus meiner Menge ans Licht bringen kann, dann kann ich vielleicht mit weiteren Funktionalen Informationen über die Funktionen ans Licht bringen. Z∗ ist wieder eine Menge. Sie enthält aber die durch die algebraische Struktur der reellen Zahlen induzierte Struktur eines linearen Raumes. Wir betrachten deshalb auf Z∗ nur lineare Funktionale. Wir bezeichnen mit Z∗∗ = {p : Z∗ − → R} die Menge der linearen Funktionale auf Z∗ und nennen Z∗∗ den zu Z bidualen Raum. Die Wirkung eines Elementes p ∈ Z∗∗ auf ein Element f ∈ Z∗ nennen wir duale Paarung oder duales Produkt und schreiben hf, pi, f ∈ Z∗ , p ∈ Z∗∗ . Z∗∗ als linearer Raum linearer Funktionale 3.4.1 Nach Voraussetzung wollen wir nur linearer Funktionale betrachten, es gilt also für endliche Summen * n + n X X αi fi , p = αi hfi , pi i=1 i=1 Außerdem induziert die algebraische Struktur in R eine lineare Struktur in Z∗∗ : * n + n X X f, βj pj = βj hf, pj i j=1 3.4.2 j=1 Ordnung und Positivität Die Ordnungsstruktur in R induziert eine Halbordnung in Z∗∗ . Dank der Linearität ist das äquivalent zur Definition der Positivität. Wir nennen ein Element aus Z∗∗ , wenn seine Wirkung auf alle positiven Elemente aus Z∗ positiv ist: p ≥ 0 ⇐⇒ hf, pi ≥ 0, f ∈ Z∗ , f ≥ 0 3.4.3 Elemente in Z∗∗ als Funktionen von Mengen Auf der Teilmenge 2Z ∼ Re ⊂ Z∗ kann man die die Funktionale p ∈ Z∗∗ als Funktionen auf Mengen p : 2Z − → R betrachten. Wir benutzen dafür dasselbe Symbol und schreiben p(A) := h1A , pi Damit läßt sich die WirkungP eines Funktional p ∈ Z∗∗ auf die Linearkombination von charakteristischen Funktionen f = f (zi )1Ai auch als + * n n n X X X f (zi )h1Ai , pi = f (zi )p(Ai ) (13) hp, f i = f (zi )1Ai , p = i=1 i=1 i=1 3.4 Der biduale Raum Z∗∗ . Statistische Zustände 33 schreiben. Offenbar gilt für positive p ≥ 0, p(A) ≥ 0. D.h., ein positives Element aus Z∗∗ ist auch positiv als Funktion auf Mengen. Da für eine Linearkombination charakteristischer Funktionen Positivität äquivalent zur Positivität der f (zi ), folgt, daß – zumindest für endliche Linearkombinationen – die beiden kanonischen Halbordnungen, Positivität von p als Funktion auf Mengen und Positivität von p als Funktion auf Funktionen identisch sind. Für positive p gelten weiter folgende offensichtliche Eigenschaften: P P • A = ⊔Ai ⇐⇒ 1A = 1Ai =⇒ p(A) = p(Ai ). • p(∅) = 0 • A ⊂ B =⇒ 1A ≤ 1B =⇒ p(A) ≤ p(B) Das sind Eigenschaften, die von Maßen gefordert werden. Elemente des bidualen Raumes haben also vieles gemeinsam mit Maßen. 3.4.4 Spezielle Elemente in Z∗∗ In Z∗∗ liegen abstrakte Objekte, Funktionale. Gibt es darunter welche, die wir verstehen? Man Z könnte meinen, daß eine Beziehung der Art 22 ⊂ Z∗∗ gilt, entsprechend der Beziehung 2Z ⊂ Z∗ . Das ist aber nicht der Fall wie das Beispiel endlicher Mengen zeigt (siehe 3.4.7). Wir können für festes z auch f (z) als Funktional auf Z∗ betrachten, denn das ist eine reelle Zahl und offesichtlich ist das Funktional linear. Wir können also jedem Element z ∈ Z ein Funktional δz ∈ Z∗∗ zuordnen durch hf, δz i = f (z) Dieses Funktional wird Punktmaß oder Diracmaß genannt. Ist diese Zuordnung injektiv? Es könnte sein, daß für zwei Punkte z1 und z2 für alle f ∈ Z∗ gilt f (z1 ) = f (z2 ). Das bedeutet, daß aus der Sicht der Funktionale die beiden Punkte z1 und z2 nicht zu unterscheiden wären. Physikalisch bedeutet das, daß es keine Beobachtung gibt, die die beiden Zustände z1 und z2 des physikalischen Systems unterscheiden kann. Dann sind für uns diese beiden Zustände identisch. Dann hätten wir aber von Anfang an, bei der Definition von Z, überhaupt nicht auf die Idee kommen können, daß die Zustände verschieden sind (Hausdorffeigenschaft). Wir nehmen also an, daß dieser Fall nicht auftreten kann. Das nennt man: Die Funktionale trennen die Punkte. Tatsächlich haben wir damit eine stillschweigende Faktorisierung vorgenommen, ein Verfahren, daß in der klassischen Physik Standard ist. Es gibt in der klassischen Physik keine nichtunterscheidbaren Objekte. Damit haben wir eine 121-Zuordnung zwischen Punkten z ∈ Z und Punktmaßen δz ∈ Z∗∗ und können ab sofort diese Objekte Identifizieren δz ←→ z. Damit wird Z zu einer Teilmenge von Z∗∗ – genau wie wir jeder Teilmenge A ein Funktional – nämlich eine charakteristische Funktion – auf Z zuordnen konnten. Z ist also in Z∗∗ eingebettet. Diese Einbettung heißt kanonische Einbettung eines Raumes in seinen bidualen. Das besondere an dieser Konstruktion ist, daß wir in Z keine oder wenig Struktur haben, in Z∗∗ dagegen – das sind ja Abbildungen in die reellen Zahlen – alle Strukturen der reellen Zahlen. Wir erhalten somit in Z eine Fülle von Strukturen, die kanonisch entstanden sind, ohne daß wir sie definieren mußten. Die Funktionale aus Z∗∗ müssen auf alle Elemente aus Z∗ angewendet werden können, also auch auf charakteristische Funktionen die wir mit Teilmengen identifiziert haben. Funktionale aus Z∗∗ sind also unter anderem Funktionen von Teilmengen p(A). 34 3 LINEARE DUALITÄTSTHEORIE. HEURISTIK Insbesondere wirken die Punktmaße auf charakteristischen Funktionen wie folgt: δz (A) = h1A , δz i = 1A (z) Das ist = 1, falls z ∈ Z ansonsten = 0. 3.4.5 Eine Basis in Z∗∗ ? Genau wie in Z∗ , liegen – als Abbildungen in die reellen Zahlen – auch Linearkombinationen von Punktmaßen in Z∗∗ . n X p= βj δzj j=1 Es seien Ai disjunkte Mengen, die jeweils nur zi enthalten, es gelte also 1Ai (zj ) = δij . Dann folgt n n n X X X βj δij = βi p(Ai ) = βj δzj (Ai ) = βj 1Ai (zj ) = j=1 j=1 j=1 und damit n X p(Aj )δzj . p= j=1 Zu beachten ist, daß die Ai zwar disjunkt sein müssen, aber keine Zerlegung von Z bilden müssen. Wir können also äquivalent auch n X p({zj })δzj . p= j=1 schreiben. 3.4.6 Z∗∗ als Algebra? Man könnte den Wunsch verspüren, auch die Multiplikativität p(f · g) = p(f ) · p(g) zu fordern, aber das kann man schon für charakteristische Funktionen nicht gewährleisten. Es müßte dann nämlich p(A ∩ B) = p(1A · 1B ) = p(1A ) · p(1B ) = p(A) · p(B) gelten, was für B = A zu p(A) = p2 (A) führt für alle A. Diese Forderung führt also auf konstante Funktionale p. Man kann Multiplikativität also nicht für alle Maße und Funktionen (oder Teilmengen) fordern. Trotzdem spielt die Multiplikativität oft eine wichtige Rolle, u.a.: • Multiplikativität für spezielle Funktionale auf allen Funktionen: Das gilt für Punktmaße und nur für diese: hf · g, δz i = (f · g)(z) = f (z) · g(z) = hf, δz i · hg, δz i • Multiplikativität für ein gegebenes Funktional und gewisse Mengen: p(A ∩ B) = p(A) · p(B) Das gilt in der Wahrscheinlichkeitstheorie für unabhängige Ereignisse (so heißen die Borelmengen der Maßtheorie in der W-Theorie). 3.4 Der biduale Raum Z∗∗ . Statistische Zustände 35 Z Es ist 22 6⊂ Z∗∗ 3.4.7 Man könnte annehmen, daß analog zum Übergang von Z zu Z∗ , für den 2Z ⊂ Z∗ folgte, sich Z beim Übergang von Z∗ zu Z∗∗ die Zahl der Elemente derart erhöht, daß 22 ⊂ Z∗∗ gilt. Das ist aber nicht der Fall. Der Grund hierfür ist, daß in Z∗∗ nicht alle Funktionen sondern nur lineare Z Funktionen liegen sollen. Das führt dazu, daß man zwischen 22 und Elementen aus Z∗∗ keine Eineindeutige Abbildung finden kann, was Voraussetzung für eine Einbettung wäre. Das sieht man am einfachsten daran, daß sowohl die leere Menge ∅ als auch die Menge {0} auf die 0 des Raumes Z∗∗ abgebildet werden. ∅ − → 0 ist klar und {0} − → 0 folgt aus {0} = 0 · {1}, d.h., egal wohin 1 abgebildet wird, wegen der Linearität muß {0} auf das 0-fache dieser Zahl abgebildet werden. Physikalische Bedeutung von Z∗∗ 3.4.8 Jetzt wollen wir untersuchen, wie man Linearkombinationen von Punktmaßen interpretieren könnte. Dazu betrachten wir die Rolle von Wahrscheinlichkeiten in der Physik. Die Berücksichtigung von Wahrscheinlichkeiten kann wenigstens aus zwei Gründen nötig sein. Die Ursache ist in beiden Fällen Mangel an Information. Es kann sein, daß 1) nicht mit Sicherheit feststellbar ist, in welchem Zustand sich das System befindet und 2) nicht mit Sicherheit vorherzusagen ist welcher Zustand nach einer Veränderung angenommen wird. Wir betrachten vorläufig der ersten Fall. Wir führen m mal ein Experiment durch und stellen fest, daß sich unser System ki mal im Zustand zi befunden hat mit m = k1 + k2 + k3 + .... Dann können wir sagen, daß sich das System mit Wahrscheinlichkeit (genauer Häufigkeit) βi = ki /m im Zustand zi befunden hat und die Größe ′ ′ z = k1 ′ ′ k2 ′ ′ k3 ′ ′ z1 + z2 + z3 + ... = β1 ′z1′ + β2 ′z2′ + β3 ′z3′ + ... m m m können wir als statistischen Zustand des Systems bezeichnen. Das ist eine konvexe Kombination von Zuständen, eine spezielle Linearkombinationen. Soetwas können wir mit Punkten aus Z aber nicht bilden, wohl aber aus Elementen aus Z∗∗ . Wir können das Funktional p= n X j=1 βj δzj , n X j=1 βj = 1, βj ≥ 0 als statistischen – oder gemischten – Zustand des Systems bezeichnen. Der Fall p = δz würde bedeuten, daß sich das System mit Sicherheit im – reinen – Zustand z befindet. Die gemischten Zustände sind also konvexe Kombinationen reiner Zustände. Und umgekehrt, die reinen Zustände sind die Zustände, die sich nicht gemischt darstellen lassen, also die extremalen Elemente der konvexen Menge der gemischten Zustände. Wir können also einem Teil der Funktionale aus Z∗∗ einen physikalischen Sinn geben. Wir können die konvexen Kombinationen von Punktmaßen als Wahrscheinlichkeiten interpretieren. Bemerkung: Es ist wichtig zu verstehen, daß die konvexe Kombination von Zuständen selbst kein Zustand ist, auch wenn Z einen lineare Menge ist. Befindet sich das System z.B. mit halber Wahrscheinlichkeit in den Zuständen z1 und z2 , so befindet es sich nicht im Zustand z = 21 z1 + 12 z2 . Das wäre auch ein reiner und kein gemischter Zustand. Es ist ein Unterschied, ob sich das System im Zustand z oder mit gleicher Wahrscheinlichkeit in den Zuständen z1 und 2 z2 befindet. Der Wunsch, anstelle von z.B. 21 δz1 + 21 δz2 lieber z1 +z als statistischen Zustand zu 2 36 3 LINEARE DUALITÄTSTHEORIE. HEURISTIK betrachten, ist ein weitverbreiteter Fehler, der Folgefehler nach sich zieht, die die mathematische Analyse des Problems sehr erschweren können. Die konvexen Kombinationen von Punktmaßen haben die offensichtlichen Eigenschaften p ≥ 0 und h1, pi = 1. Wir nennen solche Maße Wahrscheinlichkeitsmaße und bezeichnen sie mit P = p ∈ Z∗∗ | p ≥ 0, h1, pi = 1 Die Punktmaße Pe = δz ∈ Z∗∗ | z ∈ Z} liegen in dieser Menge und bilden ihre extremalen Elemente. Wie im Falle der charakteristischen Funktionen lassen sich im Falle endlicher Mengen Z alle Elemente aus P als konvexe Kombinationen ihrer extremalen Elemente darstellen. Pe = extr P , Pe ∼ Z P = conv Pe Diese Darstellung ist – im Gegensatz zu R – eindeutig. Das liegt daran, daß die n extremalen Elemente δz affin unabhängig sind. Sie spannen eine n−1 dimensionale Hyperebene auf, aus der die konvexen Kombinationen der δz einen n−1 dimensionalen Simplex ausscheiden. Die eindeutig bestimmten Koeffizienten zu einem p ∈ P sind gerade seine baryzentrischen Koordinaten in diesem Simplex. 3.4.9 Baryzentrische Koordinaten Im Rn heißen k ≤ n Punkte P1 , P2 , ..., Pk affin unabhängig, wenn die k Vektoren P2 − P1 , ..., Pk −P1 linear unabhängig sind (hier ist egal, welcher Punkt subtrahiert wird). Die Punkte P1 , P2 , ..., Pk spannen dann einen k − 1-dimensionalen Simplex auf. Die Eckpunkte Pi dieses Simplex sind die extremalen Elemente des Simplex als konvexe Menge. Jeder Punkt P0 im Inneren dieses Simplex läßt sich eindeutig als konvexe Kombination P0 = α1 P1 + ... + αk Pk , αi ≥ 0, α1 + ... + αk = 1 der Eckpunkte darstellen. Die Koeffizienten αi heißen baryzentrische Koordinaten und lassen sich explizit als αi = S(P1 , ..., Pi−1 , P0 , Pi+1 , ..., Pk ) S(P1 , ..., Pk ) berechnen, wobei S(P1 , ..., Pk ) das Volumen des Simplexes mit den Eckpunkte Pi ist. Baryzentrische Koordinaten bestehen aus einer Koordinate mehr als lineare Koordinaten. Sie ermöglichen es, Punkte in einem Simplex zu beschreiben, unabhängig davon wo der Simplex im Koordinatensystem liegt und wie das Koordinatensystem skaliert ist. Beispielsweise hat der Schwerpunkt in jedem Dreieck die baryzentrischen Koordinaten ( 13 , 31 , 31 ). Absolute lineare Koordinaten des Schwerpunktes lassen sich natürlich nicht angeben. Bemerkung: Im Dreieck gibt es neben baryzentrischen Koordinaten auch noch trilineare Koordinaten, die anders definiert sind und keine konvexe Kombination bilden. 37 3.5 Die duale Paarung 3.5 3.5.1 Die duale Paarung Extensive und intensive Größen Die duale Paarung für endliche Linearkombinationen (13) hp, f i = n X f (zi )p(Ai ) i=1 läßt sich interpretieren als Summ von Produkten intensiver Größen (mittelnde Funktionen von Punkten f ) mit extensiven Größen (additive Funktionen von Mengen p). Die mittelnde Eigenschaft von f wird beim Zusammenfassen von Objekten deutlich: Aus f (z)p(A1 ⊔ A2 ) = f (z) p(A1 ) + p(A2 ) = f (z1 )p(A1 ) + f (z2 )p(A2 ) folgt f (z) = p(A1 ) p(A2 ) f (z1 )p(A1 ) + f (z2 )p(A2 ) = f (z1 ) + f (z2 ) p(A1 ) + p(A2 ) p(A1 ) + p(A2 ) p(A1 ) + p(A2 ) Wir betrachten eine Menge A, die nicht Z sein soll, eine Zerlegung von A = ⊔i Ai , ein f ∈ Z∗ und den Ausdruck n X q(A) = f (zi )p(Ai ) (14) i=1 Wir können dadurch auf Pe ein Funktional q durch h1A , qi = q(A) = n X f (zi )p(Ai ) i=1 definieren. Damit läßt sich q auf Linearkombinationen ausweiten. Es sei g = Wir betrachten hg, qi. Dazu müssen wir q auf 1Bj anwenden. Es sei q(Bj ) = h1Bj , qi = mit zji ∈ Aji und hg, qi = = m X i i,j=1 j=1 g(zj )1Bj . f (zji )p(Aji ) i=1 Aji = Bj . Das ergibt g(zj )h1Bj , qi = j=1 n,m X S n X Pm m X j=1 g(zj ) n X f (zji )p(Aji ) = i=1 n,m X g(zj )f (zji )p(Aji ) = i,j=1 g(zji )f (zji )p(Aji ) = hg · f, pi Im vorletzten Schritt wurde verwendet, daß g auf Bj und damit auch auf allen Aji konstant ist. Es gilt also g(zj ) = g(zji ). Im letzten Schritt wurde S die Summe als Linearkombination von charakteristischen Funktionen auf der Zerlegung Z = ij Aji betrachtet. Formal gilt diese Darstellung nur für endliche Linearkombinationen, aber die rechte Seite ist für alle Elemente f, g ∈ Z∗ definiert, da Z∗ eine Algebra ist. Wir können also die durch (14) definierte Größe als Element aus Z∗∗ betrachten. Diese Darstellung läßt sich als Darstellung einer extensiven Größe q als duale Paarung einer intensiven f und einer extensiven Größe p interpretieren. 38 3 LINEARE DUALITÄTSTHEORIE. HEURISTIK 3.5.2 Verallgemeinerungen Im allgemeinen wären folgende Darstellungen wünschenswert: X X X X x · 1f −1 (x) p {z} δz p= pj δzj = f= fi 1Ai = j z∈Z X x∈R X x∈R x · p f −1 (x) = hf, pi = Riemannintegral z∈Z f (z) · p {z} Lebesgueintegral Beweis der Gleichheit: X X X X hf, pi = x · p f −1 (x) = x· p {z} = f (z) · p {z} x∈R x∈R z∈Z z|f (z)=x Für f = 1 erhält man hieraus X p {z} h1, pi = p(Z) = z∈Z 3.6 Zusammenfassung Z∗ Z∗∗ Typ der Welt geistig materiell Typ der Größe intensiv (mittelnd) extensiv (positiv, additiv) Funktionen von Punkten Mengen kanonische Objekte, “Basis” Re = {1A , A ∈ 2Z } Pe = {δz , z ∈ Z} Dualität sinnvolle Elemente extremale Elemente konvexe Hülle 1A (z) = = δz (A) R = {f : 0 ≤ f ≤ 1} P = {p : p ≥ 0, p(Z) = 1} Re = extr R Pe = extr P R = conv Re P = conv Pe Re = 2Z Pe = Z Da Z in Z∗∗ erhalten ist, gibt es keinen Grund, sich weiter für Z zu interessieren. Wir haben zwei lineare Räume Z∗ und Z∗∗ gefunden, mit denen sich alle relavanten Probleme beschreiben lassen. Wir können von Z∗∗ zu Z auf folgendem Weg gelangen: Z∗∗ − → P− → extr P = Pe = Z und analog Z∗ − → R− → extr R = Re = 2Z . Das sind Möglichkeiten, aus der Menge der Potenzmenge die Menge selbst und umgekehrt zu erhalten. 39 3.7 Probleme 3.7 Probleme An Beispielen haben wir gesehen, daß es sinnvol ist, für den Zustandsraum Z die Möglichkeiten • Z ist eine endliche Menge • Z ist eine abzählbare Menge • Z ist ein Kontinuum zuzulassen. Falls Z eine endliche Menge ist, ist die vorgestellt Konstruktion mathematisch einwandfrei. Es ergibt sich Z∗ = Rn und Z∗∗ = R∗n . Im Falle, daß Z eine abzählbare Menge ist, muß geklärt werden, wie die Summen zu verstehen sind, wenn sie sich über unendlich viele Elemente erstrecken. Ohne den Begriff des Grenzwertes ist hier eine einwandfreie mathematische Konstruktion nicht möglich. Mit diesen Problemen werden wir uns später beschäftigen. Im Falle, daß Z die Mächtigkeit eines Kontinuums hat, gibt es bereits bei der Definition von Summen Probleme. Das ist vielleicht am offensichtlichsten an der wünschenswerten Gleichung X p {z} h1, pi = p(Z) = z∈Z Es gilt folgender Satz: Ist die Summe von einer gewissen Anzahl nichtnegativer reeller Zahlen endlich, können höchstens abzählbar viele von ihnen echt positiv sein. Beweis: Es sei M die Menge der gegebenen nichtnegativen reellen Zahlen. Wir bilden Bk = 1 {x ∈ M| k+1 < x ≤ k1 }, die Menge der Elemente aus M, die zwischen aufeinanderfolgenden Stammbrüchen liegen. Diese Mengen sind disjunkt. Offensichtlich liegen in jeder Menge Ik nur endlich viele Elemente, denn sonst wäre ihre Summe bereits ∞. Andererseits liegt jede strikt positive Zahl in irgendeiner der Mengen Bk . Die Menge ∪k Bk enthält also alle strikt positiven Zahlen. Sie ist als abzählbare Vereinigung endlicher Mengen abzählbar. Eine analoge Frage ist, ob man eine Funktion f ∈ R als konvexe Kombination von extremalen Elementen aus Re darstellen kann: X f= αi 1Ai i∈I Es ist klar, daß es nur abzählbar viele echt positive αi geben kann. Damit erscheint es unmöglich, eine Funktion f mit mehr als abzählbar vielen Freiheitsgraden derart darzustellen. D.h., es ist prinzipiell sinnlos, von Summen über mehr als abzählbar viele positive Zahlen zu sprechen. Das ist gut aus der Maßtheorie bekannt. Dazu dient der dort eingeführte Begriff der σ-Additivität. Als erstes sollte man überlegen, inwiefern der Begriff der Menge überhaupt der Realität entnommen ist. Eine Menge ist eine Zusammenfassung wohlunterscheidbarer Objekte der Natur oder des Denkens. Das bedeutet u.a. auch, daß man von einem Objekt genau sagen kann, ob es zur Menge gehört oder nicht. Endliche diskrete Mengen sind deshalb sicher sinnvoll als Mengen zu betrachten. Auch Mengen mit abzählbar vielen Elementen kann man sich noch vorstellen. Allerdings haben sich nicht 40 3 LINEARE DUALITÄTSTHEORIE. HEURISTIK ohne Grund – wie wir noch sehen werden – die antiken griechischen Mathematiker selbst mit solchen Mengen schwer getan. Aber bei Kontinua hört der Spaß endgültig auf. Wir wollen dazu ein paar Probleme betrachten. 3.7.1 Paradoxa mit Kontinua, reellen Zahlen und Beobachtungen Kontinua werden u.a. in folgenden Situationen benutzt: • Gebiete im euklidischen Raum, der als physikalischer Raum interpretiert wird • Beliebig teilbare Wahrnehmungen (Helligkeit, Alk.gehalt, ..) • reelle Zahlen als Beobachtungsergebnisse (Meßwerte) An die ersten beiden Punkte haben wir uns dermaßen gewöhnt, daß wir darauf nicht verzichten wollen. Dabei wollen wir das Problem, was das physikalische intuitive Kontinuum mit dem mathematischen (reelle Zahlen) zu tun hat nicht untersuchen. Meistens wird in der Physik eine Größe dann als kontinuierlich bezeichnet, wenn zwischen zwei Werten auch alle Zwischenwerte möglich sind, d.h. wenn zu jedem Wert ein physikalisches Objekt existiert, für das die untersuchte Größe diesen Wert annimmt. Diese Definition ist insofern unvollständi, da sie nicht erklärt, was für Werte eine physikalische Größe annehmen kann. Implizit ist immer gemeint: jede reelle Zahl. Das setzt per definitionem das physikalische und das mathematische Kontinuum gleich. Einerseits ist klar, daß rationale Zahlen für physikalische Größen nicht ausreichen. Das wußten schon die Griechen. Andererseits ist auch klar, daß niemals für jede reelle Zahl ein entsprechendes physikalisches Objekt gefunden werden kann, da es nur endlich viele und mit gutem Vorstellungsvermögen vielleicht abzählbar viele Meßwerte geben kann. 3.7.2 Reelle Zahlen und Beobachtungen Man benutzt zwar real nur die rationalen Zahlen, braucht aber die reellen Zahlen um eine absolute Obermenge zu haben, in der alle Meßwerte bei beliebiger Meßgenauigkeit und alle möglichen Lösungen von Gleichungen drinliegen. Der Grund (und die Sinnhaftigkeit) der reellen Zahlen liegt in der Abgeschlossenheit. Der Mittelwertsatz für beliebige stetige Funktionen funktioniert nur in den reellen Zahlen. Reelle Zahlen kann man als Grenzwerte von Folgen rationaler Zahlen definieren. Das führt sofort zur Überabzählbarkeit und damit zu einer Reihe von Paradoxa: • Mit den reellen Zahlen lassen sich keine tatsächlichen Vorhersagen treffen. Angenommen, wir vergleichen mit einer Balkenwaage die Massen dreier Kugeln m1 , m2 und m3 ist folgendes Ergebnis möglich: m1 = m2 , m2 = m3 . Werden die mi als reelle Zahlen interpretiert, folgt m1 = m3 . In der Realität kann aber aufgrund der Meßgenauigkeit m1 6= m3 erhalten werden (z.B. bei einer Meßgenauigkeit von 0.5g: m1 = 5.1g, m2 = 5.5g, m3 = 5.9g). Meßergebnisse kann man praxisgerechter besser als “Enthaltensein in offenen Mengen” interpretieren: m1 m2 m3 m1 = m2 , m2 = m3 6=⇒ m1 = m3 Benutzt man natürliche Zahlen zum Messen der Masse, indem man etwa die Atome zählt, tritt diese Paradoxon nicht auf. 41 3.7 Probleme • Von zwei reellen Zahlen x und y, die als Dezimalbrüche gegeben sind, läßt sich x 6= y durch sukzessive Stellenberechnung beweisen, x = y dagegen nicht. Als Beispiel betrachten wir zwei reelle Zahlen x und y: π x = tan 7.5◦ = tan √ √ 24 √ 6+ 2− 3−2 y = x = y = 0.131652497... ÜA 4a: Entscheide of x = y oder x 6= y. Beweis daß x = y: Wir gehen von der bekannten Tatsache tan π3 = aus der Lösung der quadratischen Gleichung tan 2α = √ 3 aus und erhalten 2 tan α 1 − tan2 α sukzessive π 3 π tan 6 π tan 12 π tan 24 tan Aus 2 p q = = √ 3 1√ 3 3 √ = 2− 3 p √ q √ √ 1− 8−4 3 √ = (2 − 3) 8 − 4 3 = = 3−2 q q √ √ √ √ = −2 − 3 + 2 8 − 4 3 + 3 8 − 4 3 √ q√ √ √ √ 8 − 4 3 = ( 6 − 2)2 = 6 − 2 folgt √ 8−4 3+ √ 3 q √ √ √ √ √ √ √ 8 − 4 3 = 2( 6 − 2) + 3 2 − 6 = 6 + 2 und damit die Behauptung. Im Gegensatz dazu sind die beiden Zahlen 3 x = 640320 + 744 √ π 163 = 262537412640768743.9999999999992500725971981856888... y = e ab der 31. Stelle tatsächlich verschieden. Hier ist die Verschiedenheit offensichtlich, weil x ganz und y transzedent ist. • Sind reelle Zahlen z.B. gleichverteilt (jede Verteilung ist geeignet) so kann es sein, daß die Wahrscheinlichkeit, daß x genommen wird 0 ist für fast alle x. Trotzdem wird aber ein ganz konkretes x angenommen. • Keine Wahrscheinlichkeiten (Punkt auf der Kugel) • Reelle Zahlen sind im allgemeinen Grenzwerte von Folgen rationaler Zahlen und als Grenzwerte prinzipiell nicht empirisch ermittelbar. 42 3.7.3 3 LINEARE DUALITÄTSTHEORIE. HEURISTIK Die Potenzmenge ist zu groß Neben der Menge Z an sich benötigen wir noch die Potenzmenge 2Z . Die Dualität der Mengen Z∗ und Z∗∗ spiegelte sichgerade in der Dualität von Elementen und Teilmengen wieder. Neben der möglichen Überabzählbarkeit von Z, die Probleme bereitet, ist 2Z bereits für abzählbare Z überabzählbar, da sich die Kardinalität beim Übergang von einer Menge zu seiner Potenzmenge erhöht. Dieser Umstand spielt sogar bei endlichen Mengen eine Rolle, obwohl man ihn erst bei praktischen, nicht bei theoretischen Problemen wahrnimmt. Hat man etwa ein numerisches Problem für Mengen mit n Elementen gestellt, kann es sein, daß es seine Lösung erfordert alle Teilmengen (2n Stück) oder alle Funktionen in eine k-Menge (k n Stück) zu betrachten. Solche Problem heißen NP-vollständig und sind de facto unlösbar, wenn es nicht gelingt einen Algorythmus mit einer kleineren Komplexität zu finden. 43 3.8 Beispiel: Endliche Mengen. Übungsaufgaben 3.8 Beispiel: Endliche Mengen. Übungsaufgaben 3.8.1 Der Fall Z = {z1 , z2 , z3 } Ist Z = {z1 , z2 , z3 } eine Mengen aus drei Elementen, dann ist eine Abbildung in die reellen Zahlen eineindeutig gegeben, wenn klar ist, welcher reellen Zahl z1 , welcher reellen Zahl z2 und welcher reellen Zahl z3 zugeordnet ist. Sind die drei reellen Zahlen g1 , g2 und g3 , so entspricht jeder solchen Abbildung ein Tripel g = (g1 , g2 , g3 ). Es ist also Z∗ = {(g1 , g2, g3 ) | gi ∈ R} Damit ist Z∗ der dreidimensionale reelle Raum, ohne Berücksichtigung irgendeiner Norm (später wird noch eine geeignete Norm dazu genommen). Wir nennen ihn R3 . Charakteristische Funktionen sind Tripel g, mit gi = 1 oder gi = 0. Davon gibt es 23 = 8 Stück. Das sind die extremalen Elemente des Würfels R = {g ∈ R3 | 0 ≤ gi ≤ 1} Den dualen Raum Z∗∗ zu Z∗ bezeichne wir mit R∗3 . Es ist ebenfalls der dreidimensionale reelle Raum, allerdings wird er eine andere Norm erhalten. Die Menge der statistischen Zustände ist der zweidimensionale Simplex o n P = p ∈ R∗3 p1 + p2 + p3 = 1, pi ≥ 0 Seine extremalen Elemente sind die kanonischen 1 0 Pe = δz1 = 0 , δz2 = 1 , δz3 = 0 0 Basisvektoren 0 0 1 Es bietet sich an, Vektoren aus R3 und R∗3 als Zeilen– bzw. Spaltenvektoren zu unterscheiden. Die duale Paarung ist dann die übliche Matrizenmultiplikation p1 hg, pi = (g1 , g2 , g3 ) p2 = g1 p1 + g2 p2 + g3 p3 p3 Re✏✏◗✉ ✏✏ ◗ ✏✏ ◗ ✏ ✏ ◗ ✏ ✉✏ ◗ ◗ ◗ ◗ ◗ ◗ ◗◗✉ ◗ ✏ ✏ ◗ ✏✏ ◗ ✏ ✏ ◗ ✏✏ ◗◗✏ ✏ ✉ ✶ ✏ ✏✏ ✏✏ z2 ✉ ✏ ✏✏ ◗◗ ✏✏ ✏ ◗ ✏✏ ◗ ✏✏ ✉ ◗ ◗ ◗ ◗ ◗ ◗ ◗◗✉ ◗ ✏✏ ◗ ✏ ◗ ✏✏ ◗ ✏✏ ✏ ◗ ✏ ✏ ◗✉ ◗ ◗ ◗ z1 ◗ ◗ s ◗ ✻ z3 ✻ z3 1 ✉ R ✔ ✔ ✔✔❚❚ ❚ 0 Pe ❚ ❚ ❚ ❚ ❚ ❚ ✑◗ ❚ ✑ ◗ ✔ ❚ ✑ ◗ ✑ ◗ ✔ ❚ ◗ ✔ ✑✑ ◗ ❚ ◗❚ ✔✑ ✑ ◗❚✉ ✉ ✔ ◗ z1 ✑✑1 1 ◗ z2 ✑ ◗ ✰ ✑ s ◗ ✔ ✔ ✔ ✔ ✔ ✔ P 44 3 LINEARE DUALITÄTSTHEORIE. HEURISTIK 3.8.2 Berechnung von konvexen Kombinationen in R2 ÜA 5a) Es sei R2 das Quadrat im R2 mit den Eckpunkten (0, 0), (1, 0), (0, 1), (1, 1). Finde die allgemeine Darstellung eines Punktes x = (x1 , x2 ) innerhalb dieses Quadrates als konvexe Kombination der Eckpunkte. Lösung: Die allgemeine Lösung ist 1 1 0 0 x1 + (x1 + x2 − t) + (t − x2 ) + (t − x1 ) = (1 − t) 1 0 1 0 x2 wobei an den Parameter t die Bedingungen min{1, x1 + x2 } ≥ t ≥ max{x1 , x2 } gestellt werden müssen (sonst bilden die Koeffizienten keine konvexe Kombination). Spezielle (Rand-)Lösungen wären t = 1, t = x1 + x2 und t = x2 > x1 1 1 0 0 x1 + (x1 + x2 − 1) + (1 − x2 ) + (1 − x1 ) =0 1 0 1 0 x2 x1 x2 x1 x2 3.8.3 = (1 − x1 − x2 ) = (1 − x2 ) 0 0 0 1 + x1 + (x2 − x1 ) 0 1 0 0 + x2 +0 1 0 1 0 1 1 + x1 1 1 +0 Berechnung von konvexen Kombinationen in Rn ÜA 5b) Es sei Rn der n-dim Würfel im Rn mit den 2n Eckpunkten (0, ..., 0), ..., (1, ..., 1). Finde eine Darstellung eines allgemeinen Punktes x = (x1 , x2 , ..., xn ) innerhalb dieses Würfel als konvexe Kombination seiner extremalen Elemente. Lösung: Es sei x = (x1 , x2 , ..., xn ) ein beliebiger gegebener Vektor. O.B.d.A. kann x1 ≤ x2 ≤ ... ≤ xn angenommen werden. Das kann durch Umnummerierung der Zustände z1 stets erreicht werden. Wir schreiben die Darstellung für R4 auf: 0 0 0 x1 0 0 0 x2 x3 = (1 − x4 ) 0 + (x4 − x3 ) 0 + (x3 − x2 ) 1 + 1 1 0 x3 1 0 1 1 + (x2 − x1 ) 1 + x1 1 1 1 Nach Voraussetzung ist xk ≥ xk−1 , x1 ≥ 0 und 1 ≥ x4 . Deshalb sind alle Koeffizienten nichtnegativ. Offensichtlich ist auch die Summe 1. Die allgemeine Lösung kann leicht hieraus gefolgert werden. x = (1 − xn )P0 + n−1 X k=1 (xn+1−k − xn−k ) k X i=0 Pk + x1 n X k=1 Pk 3.8 Beispiel: Endliche Mengen. Übungsaufgaben 45 oder kompakter, wenn man xn+1 = 1 und x0 = 0 setzt: ! n k X X x = (xn+1−k − xn−k ) Pk = i=0 k=0 = (xn+1 − xn )P0 + (xn − xn−1 )(P0 + P1 ) + + (xn−1 − xn−2 )(P0 + P1 + P2 ) + ... + (x2 − x1 )(P0 + P1 + ... + Pn−1 ) + + (x1 − x0 )(P0 + P1 + ... + Pn ) Hier ist P0 = ∅ der Koordinatenursrpung und Pi = {zi }. P Für kleine Koordinaten mit i xi ≤ 1 wäre auch ! n n X X x= 1− xi P0 + xi Pi i=1 i=1 eine Lösung. 3.8.4 Der Satz des Pythagoras im Simplex ÜA 5c) Ein rechtwinkliger Simplex im Rn sei gegeben durch die n Schnittpunkte einer Ebene mit den Koordinatenachsen und dem Koordinatenursprung. Dabei entstehen n + 1 “Seitenflächen” der Dimension n − 1. Es sei Ai der Flächeninhalt der Seitenfläche senkrecht auf der i-ten Koordinatenachse und A der Flächeninhalt der Grundfläche (gebildet von den Koordinatenachsenschnittpunkten). Beweise den Satz des Pythagoras im Simplex: A2 = A21 + A22 + ... + A2n Beweis: 4.3 Mathematische Grundlagen. Topologie 4.3 61 Mathematische Grundlagen. Topologie • offene Mengen: O: Z, ∅ ∈ O, S α Uα ∈ O, U1 ∩ U2 ∈ O • O1 ⊂ O2 , 2 ist stärker (feiner) als 1 (gröber). • abgeschlossene Mengen: F = {F ∈ 2Z : Z \ F ∈ O} • kompakte Mengen: K • Z = Z1 × Z2 , O1 × O2 ist Basis von O • f : X− → Y stetig, falls f −1 (BX ) ∈ OY , ∀ BX ∈ OX • f : Z− → X × Y; f (z) = (g(z), h(z)) stetig, falls g : Z − → X und h : Z − → Y stetig sind. • f : Z− → X, f = g ◦ h, f (z) = g(h(z)) stetig, falls g : Y − → X und h : Z − → Y stetig sind. • Initialtoplogie: Es sei ein Raum Z und eine Abbildungsfamilie {hi : Z − → Xi }i∈I (hier sei I eine beliebige Indexmenge) in topologische Räume Xi mit offenen Mengen Oi gegeben. Wir definieren in Z die Basismengen einer Topologie als Z O(Z) = h−1 (U ) ⊂ 2 U ∈ O (X ) i i i i i Die so auf Z induzierte Topologie heißt Initialtoplogie bezüglich der Abbildungsmenge {hi }. Die ist die gröbste Topologie auf Z, bezüglich derer alle Abbildungen hi stetig sind. Ein topologischer Raum ist vollständig regulär, genau dann, wenn seine Topologie die Initialtoplogie bezüglich der beschränkten reellwertigen Funktionen auf Z ist. Hat man eine Menge an Funktionen gegeben, die stetig sein sollen, so ist das eine Möglichkeit, eine geeignete Topologie in Z zu definieren. Das ist der kanonische Weg zur Definition einer Topologie, wenn man von einer Menge an interessierenden Beobachtungen (reellwertige Funktionen auf Z) ausgeht. Bemerkung zur Stetigkeit: Diese angeführte Definition der Stetigkeit von Funktionen f : Z1 − → Z2 ist üblich, setzt aber einen nicht offensichtlichen Zusammenhang zwischen f und der Funktion f −1 : 2Z2 − → 2Z1 voraus. An den Mengen, zwischen denen f und f −1 abbilden, sieht man, daß f −1 eigentlich nicht dieselbe Funktion ist, die üblicherweise betrachtet wird, wenn f bijektiv wäre. Dazu folgende ÜA 6: Es seien zwei Mengen Z1 und Z2 und eine Abbildung g : 2Z2 − → 2Z1 gegeben. Welche Voraussetungen müssen an g gestellt werden, damit eine eindeutig definierte Funktion f existiert mit g = f −1 (hier ist die inverse Funktion im Mengensinne gemeint)? Die Lösung liefert folgender Satz: 62 4 DER ZUSTANDRAUM ALS KOMPAKTER HAUSDORFFRAUM 4.4 Definition des Zustandraumes Z Zustandsraum heißt ein topologischer Raum, der • kompakt ist, (kompakt = jede minimale Überdeckung ist endlich) • Hausdorff ist und (Hausdorff = Punkte haben disjunkte Umgebungen) • das 1. Abzähllbarkeitsaxiom erfüllt. (1.AA = Punkt hat abzählbare Basis) Diese Eigenschaften lassen sich physikalisch motivieren: Die Hausdorffeigenschaft bedeutet, daß sich Zustände unterscheiden lassen, was bedeutet, daß wir nichtunterscheidbare Zustände identifizieren. Das 1. Abzähllbarkeitsaxiom bedeutet, daß es nicht zuviele verschiedene Zustände gibt. Das entspricht der Annahme, daß abzählbar viele Beobachtungen ausreichen um das physikalische System vollständig zu erkennen. Die geforderte Kompaktheit ist physikalisch leicht zu verstehen, wirkt aber als starke mathematische Einschränkung. Kompaktheit bedeutet soviel wie prinzipielle Endlichkeit. Es werden zwar unendlich viele Zustände – sogar Kontinua – betrachtet, aber bei gegebener “Auflösung” spielen nur endlich viele verschiedene Zustände eine Rolle. Das entspricht dem natürlichen Ansatz, daß eigentlich nur endliche Probleme betrachtet werden können, in dem Sinne, daß nur endlich viele Beobachtungen real verarbeitet werden können. Mathematisch vereinfacht die Forderung der Kompaktheit die Lösung von konkreten Aufgaben außerordentlich. Viele Theorem können als notwendige und hinreichende Bedingungen formuliert werden. Das ist natürlich sehr angenehm und zeigt, daß Kompaktheit zu einer gewissen Abrundung der Theorie führt. Es kann aber der Eindruck entstehen, daß die Forderung der Kompaktheit die Menge an realen behandelbaren Problemen zu sehr einschränkt. Es gibt eine Fülle von mathematischen Untersuchungen physikalischer Probleme, die keinen kompakten Zustandraum voraussetzen. Ist das tatsächlich erforderlich? Oder erschweren sich diese Mathematiker und Physiker das Leben grundlos. Es wird sicgh zeigen, daß es nicht nur ausreicht, kompakte Zustandräume zu betrachten sondern daß eine vollständige Beschreibung eines klassischen physikalischen Problems einen kompakten Zustandraum erzwingt. Die Frage ist nicht, ob es ausreicht sich auf kompakte Zustandraum zu beschränken, sondern daß eine richtige Modellierung jedes Problems das Finden einer geeigneten kompakten Topologie im betrachteten Zustandsraum voraussetzt. 4.4.1 Weitere Eigenschaften des Zustandraumes Ein topologischer Zustandraum Z hat weitere Eigenschaften, die aus den drei Voraussetzungen folgen. Wir führen sie hier ohne Beweis an. Beweise können in jedem Standardwerk zur Topologie gefunden werden. Des weiteren werden einige Eigenschaften, die wir formal in vorigen Kapitel benutzt haben, nicht mehr erfüllt sein. Z ist: • vollständig regulär (T3) = uniform, normal (T4) • metrisierbar (Das bedeutet nicht metrisch. Es muß nicht sinnvoll sein, eine Metrik einzuführen. z.B. in endlichen Mengen) • K=F • folgenkompakt (jede Folge hat Häufungspunkt) • O(Z) ist die Initialtopologie bezügl. C(Z). 63 4.4 Definition des Zustandraumes Z • erfüllt das 2. Abzähllbarkeitsaxiom Weitere Eigenschaften: def • Def. Folgenkonvergenz: zn − → z ⇐⇒ für alle Uz gilt: fast alle zn liegen in Uz . • Def. Folgenstetigkeit: Eine Funktion f : Z1 − → Z2 heißt folgenstetig, wenn zn − → z =⇒ f (zn ) − → f (z) • Für die uns interessierenden Fälle an Funktionen f : Z − → Z2 oder f : Z − → R, wobei Z und Z2 Zustandsräume sind, gilt: f ist stetig ⇐⇒ f istfolgenstetig • Z ist endlich ⇐⇒ diskr. Topologie in Z. Das ist so zu verstehen: Wenn Z endlich ist, erfüllt die diskr. Topologie alles Voraussetzungen. Jede andere Topologie (die weniger offenen Mengen zuläßt) erfüllt nicht die Hausdorffeigenschaft. In unendlichen Mengen ist das nicht so. Da gibt es verschiedene Topologien für die Z kompakt ist. Welche davon die richtige ist, hängt von der konkreten Aufgabe ab, insbesondere davon, wie wir unendlich viele Zustände beobachten können. Im endlichen Raum gibt es nur die eine Variante: Alle Zustände sind gleichberechtigt und unterscheidbar. Insbesonder gibt es keinen kanonischen Weg, Zustände zu nummerieren, zuordnen oder irgendwie anders zu strukturieren. 4.4.2 Physikalischer Hintergrund Eigentlich nehmen wir immer nur endlich viel wahr, sowohl im kleinen als auch im großen. Wir können uns aber vorstellen, daß die Welt unendlich groß in beide Richtungen ist. Zumindest sollte unsere Vorstellung von der Welt die Möglichkeit eines prinzipiell möglichen tieferen Verstehens offenlassen. Unendlich im Großen bedeutet hier, daß wir immer mehr Zustände als mögliche Zustände – genennt unendlich viele – zulassen. Unendlich im Kleinen bedeutet hier, daß wir jeder einzelne Zustand noch weiter unterteilbar ist, daß es möglich ist, immer mehr Freiheitsgrade – letztlich auch unendlich viele – zulassen. Aber diese Unendlichkeiten dürfen nicht zu kompliziert sein. Außerdem nehmen wir an, daß wir Zustände prinzipiell unterscheiden können. Aus dieser Sicht stellt das an den toplogischen Raum drei entscheidende Voraussetzungen. Z muß sein: • Hausdorff: Diese Voraussetzung bedeutet, daß man zwei Punkte unterscheiden kann. Diese Eigenschaft ergibt sich automatisch, wenn man ununterscheidbare Zustände als identisch annimmt. Dinge, die ich sowieso nicht ununterscheiden kann, brauche ich auch nicht zu unterscheiden. Hier gibt es eine Besonderheit. In der Physik gibt es die Begriffe “identische Teilchen” und “nichtunterscheidbare Teilchen”. In der klassischen Physik nimmt man an, daß Teilchen identisch sein können (z.B. zwei Massepunkte im Raum, die Seiten eines Würfels oder die Seiten einer Münze), sich aber unterscheiden lassen. Das heißt, sie verhalten sich unter denselben Bedingungen genauso, ich kann sie aber z.B. nummerieren und verwechsele sie deshalb nicht. 64 4 DER ZUSTANDRAUM ALS KOMPAKTER HAUSDORFFRAUM Diese Annahme ist in der Quantenmechanik falsch. Zwei identische Teilchen sind dann auch nichtunterscheidbar, was bedeutet, daß bereits das “nummerieren” dazu führt, daß die Teilchen nicht mehr identisch sind. Der Unterschied macht sich auch tatsächlich bemerkbar. So treten beim Werfen von zwei klassischen Münze die drei Varianten: 1) nur Kopf, 2) nur Zahl, 3) Verschiedenes mit den Wahrscheinlichkeiten 1/4, 1/4 bzw 1/2 auf. Bei Werfen von zwei “Quantenmünzen” ergibt sich stets die Wahrscheinlichkeit 1/3. • Kompaktheit: Kompaktheit kann man sich als Endlichkeit im Großen und im Kleinen vorstellen. • 1. Abzählbarkeitsaxiom: Das bedeutet Abzählbarkeit im Großen. 65 5 Der Beobachtungsraum C(Z) als Banachverband stetiger Funktionen Es sei Z ein kompakter, metrisierbarer Raum und C(Z) die Menge aller stetigen beschränkten reellwertigen Funktionen auf Z. o n Z∗ = C(Z) = f : Z − → R f −1 (U) ∈ O, ∀U ∈ OR Diese Definition ist rein algebraisch, nicht metrisch! Es ist sinnvoll, alle Beweise durchzuprobieren. Da endliche Linearkombinationen stetiger Funktionen wieder stetig und auch beschränkt sind, ist C(Z) ein linearer Raum. Mit einer geeigneten Norm (sup-Norm), Multiplikation (punktweise) und Ordnung (punktweise) wird C(Z) ein B-Raum, eine B-Algebra und ein B-Verband. • 1∈C • 1A ∈ C ⇐⇒ A ist offen und abgeschlossen (Zusammenhangskomponente) • Sinnvoll sind Überdeckungen statt Zerlegung. Der Raum zerfällt nicht mehr. • linearer Raum (d.h. αf + βg ist stetig) • ∃ gmin , gmax , d.h., R(g) ist abgeschlossen und beschränkt ∃ zmin , zmax Genauer: g −1(x) ∈ F für alle x ∈ R(g) und nicht leer. Insbesondere gibt es zmin ∈ g −1 (gmin ), zmax ∈ g −1 (gmax ) • Intervall: C[a,b] = g ∈ C : [gmin , gmax ] ⊂ [a, b] • R = C[0,1] . Diese Menge spielt etwa die Rolle der “Einheitskugel”. Sie ist konvex aber nicht kompakt (in der starken Topologie, die später noch definiert wird). • Extremale Elemente von R: Die extremalen Elemente sind die charakteristischen Funktionen, also nur die Funktionen 1A , wobei A eine Zusammenhangskomponente ist. ÜA 7: Beweise die letzte Aussage. D.h.: Es sei Z ein zusammenhängender Raum. Beweise, daß sich zu jedem g ∈ R mit g 6= 0 und g 6= 1 solche f 6= h ∈ R finden lassen, daß g = 21 f + 21 h. Beweis:. Es sei g ∈ R und h = 2g−g 2 und f = g 2 . Dann ist g = 12 f + 21 h und offensichtlich f = g 2 ∈ R und h = 2g − g 2 = 1 − (1 − g)2 ∈ R. f 6= g ist für g 6= 1 erfüllt. • Satz von Urysohn: Es seien A, B ∈ F, A ∩ B = ∅. Dann existiert eine stetige Funktion f : Z− → [0, 1] mit f (A) = 0 und f (B) = 1. Beweis: Zum eigentliche Beweis wird eine ineinandergeschachtelte Folge von offenen und abgeschlossenen Mengen konstruiert, die mit rationalen Zahlen indexiert werden. Zum Beweis der Stetigkeit, wird ein folgendes Lemma benutzt. Lemma: Es sei C ∈ [0, 1] eine dichte Menge. Wir betrachten eine Abbildung C − → O(Z), a− → Ua mit der Eigenschaft: a < b =⇒ Ua ⊂ Ub . Dann ist die Funktion f : Z − → [0, 1], definiert als f (z) = inf {a ∈ C} z∈Ua 66 5 DER BEOBACHTUNGSRAUM C(Z) stetig. Erläuterung: Die Ua sind ineinandergeschachtelt. Mit zunehmendem a werden die Ua größer. f (z) wird das kleinste a (im inf-Sinne) zugeordnet, für das z gerade noch in Ua ist. Beweis des Lemmas: Wir zeigen, daß die Urbilder der offenen Mengen [0, x), (x, 1] ⊂ [0, 1] unter f offen sind. Da diese Mengen eine Subbasis in [0, 1] bilden, ist das der Beweis. Es ist [ Ua f −1 [0, x) = {z|f (z) < x} = a<x als Vereinigung offener Mengen offen. Des weiteren ist [ (Z \ Ub ) f −1 (x, 1] = {z|f (z) > x} = b>x eine Vereinigung abgeschlossener Mengen, über die man ersteinmal nichts aussagen kann. Wir zeigen, daß [ a>x (Z \ Ua ) = [ (Z \ Ua ) a>x S S Die Inklusion a>x (Z \ Ua ) ⊃ a>x (Z \ Ua ) ist offensichtlich, da Ua ⊂ Ua =⇒ (Z \ Ua ) ⊃ S (Z \ Ua ). Zum Beweis der Rückrichtung betrachten wir ein z ∈ a>x (Z \ Ua ). Es gibt also ein a > x mit z ∈ (Z \ Ua ). Gilt z ∈ (Z \ Ua ) ist alles bewiesen. Es sei z 6∈ (Z \ Ua ). Wir betrachten ein b ∈ C mit a > b > x, daß es wegen der Dichtheit von C stets gibt. Nach Voraussetzung ist Ub ⊂ Ua und damit z ∈ Z \ Ua ⊂ Z \ Ub . Wegen b > x ist dann auch S z ∈ a>x (Z \ Ua ). . Bemerkungen: – Es werden die rationalen Zahlen als Ordinalzahlen verwendet, die für die Mengen zwischen A und Z \ B eine Ordnung herstellen: A ⊂ U0 ⊂ ... ⊂ Ub ⊂ ... ⊂ Ua ⊂ ... ⊂ U1 ⊂ Z \ B – Es gibt also ein stetiges f mit f −1 (0) ⊃ A und f −1 (1) ⊃ B. Gleichheit der Menge ist genau dann zu erreichen, wenn A und B (die abgeschlossen sein müssen) als Durchschnitt abzählbar vieler offener Mengen dargestellt werden können. – Da es nur noch offene und abgeschlossene Mengen als sinnvolle Mengen gibt, spielen keine Zerlegungen mehr eine Rolle, dafür aber Überdeckungen. – 1A ist nicht stetig. • Fortsetzungssatz: • Lemma (Zerlegung der 1): n Es sei (Ui )ni=1 eine endliche, minimale offene Überdeckung von Z. Es existieren S (ϕi)i=1 ∈ C(Z) mit ϕi (z) ∈ [0, 1], ϕi (z) = 0, z ∈ Z \ Ui , ϕi (z) = 1, z ∈ Ui \ und j6=i Ui Pn i=1 ϕi = 1. 67 5.1 C(Z) ist Banachraum • • Ideal: A ∈ F, IA = {f ∈ C|f (z) = 0, z ∈ A} • Satz von Heine: Eine stetige Funktion ist gleichmäßig stetig. • Satz von Dini: Wenn eine monotone Folge stetiger Funktionen punktweise gegen eine stetige Funktion konvergiert, dann ist die Konvergenz gleichmäßig. • Folgenstetigkeit: zn − → z =⇒ f (zn ) − → f (z) • Zwei kompakte Hausdorff-Räume Z1 und Z2 sind genau dann homöomorph, wenn ihre Ringe von stetigen reell-wertigen Funktionen C(Z1 ) und C(Z2 ) isomorph sind. Siehe auch Semadeni. (Wie ist das gemeint?) Vermutlich muß der Isometrie-Operator auch die Multiplikativität erhelten, d.h. ein invertierbarer deterministischer Markowoperator sein. • f ist stetig und bijektiv =⇒ f −1 ist stetig. Es stellt sich heraus, daß die natürlichen Eigenschaften des Raumes stetiger Funktionen (metrische, algebraische, Ordungseigenschaft) in perfekter Weise zusammenpassen, was diesen Raum zum idealen Startobjekt für die weiteren Untersuchungen macht. Z − topologischer Raum (kompakt, Hausdorff, 1. AA) w w Menge der Beobachtungen Z∗ = C(Z) w w linearer Raum Metrik (Norm) =⇒ 5.1 normierter Raum =⇒ Banach-Raum Halb-Gruppe =⇒ Algebra =⇒ Banach-Algebra Ordnung Verband =⇒ =⇒ Riesz-Raum =⇒ Banach-Verband C(Z) ist Banachraum Ein Banachraum ist ein vollständiger (d.h., jede Cauchyfolge konvergiert) normierter linearer Raum. C(Z) ist linearer Raum, d.h., Summe, Produkt mit Skalar sind auch stetige Funktionen. Wir können in C(Z) eine Norm definieren: kgk = sup |g(z)| z∈Z Mit dieser Norm C(Z) ein normierter Raum. Die Norm definiert eine Metrik und damit eine Topologie in C(Z). In dieser Topologie ist: • Vollständigkeit: In der definierten Norm ist C(Z) vollständig und damit ein Banachraum. Beweis: Der Raum C(Z − → E) ist genau dann vollständig, wenn E vollständig ist. Der Beweis vollzieht sich in drei Schritten: 68 5 DER BEOBACHTUNGSRAUM C(Z) 1. Aus der Cauchy-Eigenschaft der Folge (fn ) folgt die Existenz eines punktweisen Grenzwertes f . 2. Es wird gezeigt, daß f stetig ist. Dazu wird die Differenz zweier Funktionswerte in vier Summanden zerlegt, die aus verschiednene Gründen klein werden: f (z1 ) − f (z2 ) ≤ f (z1 ) − fn1 (z2 ) klein wegen punktweiser Konvergenz + fn1 (z1 ) − fn2 (z1 ) klein wegen Cauchy-Eigenschaft + fn2 (z1 ) − fn2 (z2) klein wegen Stetigkeit + fn2 (z2 ) − f (z2 ) klein wegen punktweiser Konvergenz 3. Es wird gezeigt, daß fn − → f in der Norm konvergiert. • Konvergenz = Folgenkonvergenz • ÜA 8: Beweise explizit, daß auf C([0, 1]) die Funktionenfolge fn (z) = z n keine Cauchyfolge ist. Beweis: Wir konstruieren eine Teilfolge, die nicht gleichmäßig konvergiert. Es sei n > m und gmn (z) = z m − z n . Diese Funktion hat auf [0, 1] ihr Maximum bei z0 mit mz0m−1 = nz0n−1 oder z0 = (m/n)1/(n−m) . An dieser Stelle ist gmn (z0 ) = (m/n)m/(n−m) −(m/n)n/(n−m) . Wählt man jetzt n = 2m, ergibt sich gm,2m (z0 ) = (1/2)1 − (1/2)2 = 1/4. Diese Folge konvergiert nicht gegen 0. 5.2 C(Z) ist Banachalgebra Ein linearer Raum wird zu einer (kommutativen) Algebra, wenn in ihm eine (kommutative) Multiplikation definiert ist. Gibt es ein neutrales Element bezüglich dieser Multiplikation, so heißt die Algebra “Algebra mit Eins”. Ein Banachraum wird zu einer (kommutativen) Banachalgebra, wenn in ihm eine (kommutative) Multiplikation definiert ist, bezüglich der die Norm submultiplikativ ist. • Wir definieren eine Multiplikation f · g in C(Z) durch (f · g)(z) = f (z) · g(z) (punktweise Multiplikation). • Da das Produkt stetiger Funktionen wieder stetig ist, ist C(Z) abgeschlossen bezüglich dieser Operation. Das macht C(Z) zu einer kommutativen Algebra. • Die Multiplikation ist submultiplikativ, d.h. es gilt kf · gk ≤ kf k kgk. Daher ist C(Z) eine Banachalgebra. • Da 1 ∈ C und 1 · f = f , ist C(Z) eine Banachalgebra mit Eins. 5.3 Mathematische Grundlagen: Verbände, Rieszräume 5.3 5.3.1 69 Mathematische Grundlagen: Verbände, Rieszräume Geordnete Mengen Eine Menge heißt geordnet, wenn zwischen einigen ihrer Elemente eine Ordnungsrelation ≤ definiert ist. Diese Ordnungsrelation läßt sich mit verschiedener Schärfe definieren. Eine Ordnungsrelation ϕ ist eine Teilmenge der Produktmenge X × X mit folgenden Eigenschaften: 1. 2. 3. 4. 5. Für alle x ∈ X gilt (x, x) ∈ ϕ. (Reflexivität) (x, y) ∈ ϕ, (y, z) ∈ ϕ =⇒ (x, z) ∈ ϕ (Transitivität) (x, y) ∈ ϕ, (y, x) ∈ ϕ =⇒ x = y (Antisymmetrie) ∀ x, y ∈ X gilt (x, y) ∈ ϕ oder (y, x) ∈ ϕ (Totalität) ∀X: ∅= 6 X ⊆ X ∃ x ∈ X : x ≤ x′ , ∀ x′ ∈ X Der Zusammenhang zur üblichen Ordnungsrelation besteht in (x, y) ∈ ϕ ⇐⇒ x ≤ y. Eine Menge X mit einer Ordnungsrelation ≤ ist eine geordnete Menge und wird mit (X, ≤) bezeichnet. Ohne Totalität heißt eine Ordnung Halbordnung. Je nachdem, welche Bedingungen erfüllt sind, heißt X • • • • teilgeordnet, wenn 1) und 2) geordnet, wenn 1), 2) und 3) total geordnet, wenn 1), 2), 3) und 4) linear geordnet, wenn 1), 2), 3) und 4) (äquivalent zu total geordnet, intuitiver, aber weniger gebräuchlich) • wohl geordnet, wenn 1), 2), 3), 4) und 5) Uns interessieren im Weiteren nur die reellen Zahlen (linear geordnet) und punktweise geordnete Mengen von Funktionen (geordnet oder halbgeordnet). Für letztere sind nur die Eigenschaften 1), 2) und 3) von Interesse. Im Gegensatz zu Ordnungsrelationen werden für eine Äquivalenzrelation die Eigenschaften 1) und 2) und anstelle der Eigenschaft 3) die Eigenschaft 3’) (x, y) ∈ ϕ =⇒ (y, x) ∈ ϕ (Symmetrie), gefordert. Das führt dazu, daß eine Ordnungsrelation die Menge X zusammenhält, wogegen eine Äquivalenzrelation die Menge X zerfallen läßt. Macht man aus einer Ordnungsrelation ϕ eine Äquivalenzrelation durch symmetrisieren: (x, y) ∈ ϕ =⇒ (y, x) ∈ ϕ, dann stimmen die Äquivalenzklassen mit Ketten überein. Eine Majorante bezüglich der Teilmenge X ∈ P(X) ist ein Element x ∈ X, für das gilt x′ ≤ x, ∀ x′ ∈ X. Das Supremum einer Teilmenge X ∈ P(X) ist eine Majorante x+ ∈ X, für die gilt x+ ≤ x für alle Majoranten x von X. x+ = sup X. x+ = sup X ⇐⇒ (∀ x ∈ X : x ≤ x+ ) und (∀ x ∈ X : x ≤ x′ =⇒ x+ ≤ x′ ) In einem geordneten Raum (im Gegensatz zum teilgeordneten) ist das Supremum einer Teilmenge eindeutig, falls es existiert. ◮Es sei x1 = sup X und x2 = sup X. Dann gilt nach Definition für alle x ∈ X: x ≤ x1 und x ≤ x2 . Betrachtet man x1 als Supremum und x2 als x′ in der Definition, muß also x1 ≤ x2 gelten. Im umgekehrten Fall x2 ≤ x1 . Da der Raum geordnet ist, folgt x1 = x2 . ◭ Analog werden Minorante und Infimum definiert, wobei das Infimum im geordneten Raum eindeutig bestimmt ist (falls es existiert). Die fehlende Eindeutigkeit des Infimum und Supremum machen den teilgeordenten Raum uninteressant. 70 5 DER BEOBACHTUNGSRAUM C(Z) 5.3.2 Boolesche Algebren und Boolesche Ringe Eine Boolesche Algebra B = (X, ∨, ∧,′ , 00, 1) ist eine nichtleere Menge mit zwei binären und einer unitären Operation und zwei neutralen Elementen, die gewissen Axiomen genügen. Es ist sinnvoll, sich parallel dazu die Mengenoperationen als Beispiel vorzustellen. Ist Z eine Menge, dann bildet die Potenzmenge mit den bekannten Mengenoperationen eine Boolesche Algebra: B(2Z , ∪, ∩,′ , ∅, Z). Hier ist A′ = Z \ A das Komplement. Die Operationen werden deshalb auch Vereinigung, Durchschnitt, Komplement genannt. Es sollen folgende Axiome gelten: • • • • Kommutativität: x ∧ y = y ∧ x, x ∨ y = y ∨ x Neutralität: x ∨ 00 = x, x ∧ 1 = x Distributivität: x ∨ (y ∧ z) = (x ∨ y) ∧ (x ∨ z), x ∧ (y ∨ z) = (x ∧ y) ∨ (x ∧ z) Komplement: x ∨ x′ = 1, x ∧ x′ = 00 Dieses Axiomensystem ist selbstdual. Die Axiome gehen ineienadnre über, wenn man ∨ ⇐⇒ ∧ und 1 ⇐⇒ 00 vertauscht. Aus diesem Grund gibt es auch immer ein Paar Sätze, von denen man nur einen zu beweisen braucht. Aus diesen Axiomen folgen weitere Eigenschaften: • Assoziativität: x ∨ (y ∨ z) = (x ∨ y) ∨ z, x ∧ (y ∧ z) = (x ∧ y) ∧ z • Absorptionsgesetze: x ∨ (x ∧ y) = x, x ∧ (x ∨ y) = x Ein Ring R = (X, +, ·, 1) heißt Boolescher Ring, wenn er eine 1 enthält und wenn x2 = x für alle x ∈ X gilt. Die Definitionen von Booleschen Algebren und Booleschen Ringe erscheinen auf den ersten Blck nichts miteinander zu tun zu haben. Tatsächlich besteht zwischen beiden Klassen einen Bijektion, die durch folgende Zusammenhänge vermittelt wird: Angenommen, wir haben eine Boolesche Algebra gegeben, dann können wir die Operationen in einem Booleschen Ring folgendermaßen definieren: x + y := (x ∧ y ′) ∨ (x′ ∧ y) x · y := x ∧ y (15) (16) Angenommen, wir haben einen Booleschen Ring gegeben, dann können wir die Operationen in einer Booleschen Algebra folgendermaßen definieren: x∧y x∨y x′ 00 := := := := x·y x + y+x · y 1+x 1′ (17) (18) (19) (20) ÜA 9a: Beweise, daß durch (15)–(16) ein Boolescher Ring definiert wird. ÜA 9b: Beweise, daß durch (17)–(20) eine Boolesche Algebra definiert wird. ÜA 9c: Beweise, daß durch (17)–(20), wenn man + durch − ersetzt, eine Boolesche Algebra definiert wird. Ein – neben der Potenzfunktion und den Mengenoperationen – weiteres Beispiel für eine Boolesche Algebra könnte C(Z) sein, wenn man ∧ = inf und ∨ = sup setzt. Dann ist 00 = −∞ und 1 = +∞. Allerdings gibt es kein Komplement. Es gibt kein g ′ mit sup(g, g ′) = +∞. 5.3 Mathematische Grundlagen: Verbände, Rieszräume 5.3.3 71 Verbände In einer linear geordnete Menge umfaßt die Ordnungsrelation alle Elemente der Menge. Eine (Teil-)Ordnungsrelation kann man für eine beliebige Teilmenge einer Menge definieren. Oft ist es aber sinnvoll, wenn die Menge eine gewisse Mindestgröße hat und z.B. ausreichend viele Suprema und Infima enthält. Zu diesem Zweck kann man in Mengen algebraische Operationenen definieren bezüglich derer die Menge abgeschlossen ist und die mit der Ordnungsrelation im Zusammenhang steht. Eine solche Struktur ist eine Verbandsstruktur. Ein Verband V (es sei x, y, z ∈ V) ist eine Menge mit zwei Operationen ∨ und ∧, die kommutativ x ∧ y = y ∧ x, x ∨ y = y ∨ x und assoziativ x ∧ (y ∧ z) = (x ∧ y) ∧ z, x ∨ (y ∨ z) = (x ∨ y) ∨ z sind und außerdem noch sogenannte Absorptionsgesetze • x ∨ (x ∧ y) = x • x ∧ (x ∨ y) = x erfüllen. Der Zusammenhang mit einer Halbordnung ist folgender: x ≤ y ⇐⇒ x ∧ y = x ⇐⇒ x ∨ y = y Das ist so zu verstehen: Falls eine Verbandsstruktur definiert ist, definieren wir x ≤ y falls x ∧ y = x gilt (der Ausdruck x ∨ y = y folgt aus den Absorptionsgesetzen). Falls eine Ordnungsstruktur definiert ist, definieren wir x ∨ y = sup{x, y}, x ∧ y = inf{x, y}. Es läßt sich leicht nachprüfen, daß die geforderten Gesetze erfüllt sind. ÜA 10: Beweise diesen Zusammenhang. Eine geordnete Menge ist somit ein Verband, wenn eine zweielementige Menge (und damit folgt induktiv die Eigenschaft für beliebige endliche Mengen) ein Supremum und ein Infimum hat. In diesem Sinn ist die Ordnungsrelation in einem Verband abgeschlossen. Wir interessieren uns im weiteren vor allem für Räume von Funktionen in die reellen Zahlen, bei denen die Ordnungsstruktur die von den reellen Zahlen induzierte punktweise Ordnung ist. sup und inf sind dann die punktweisen Extrema. Zusätzlich kann man Distributivgesetze fordern x ∨ (y ∧ z) = (x ∨ y) ∧ (x ∨ z) x ∧ (y ∨ z) = (x ∧ y) ∨ (x ∧ z) dann heißt der Verband distributiver Verband. Wir werden im weiteren stets distributive Verbände betrachten. Eigenschaften: • Es gilt (Idempotenz) x ∧ x = x, x ∨ x = x. • Falls es ein kleinstes Element in der Menge gibt (genannt 00), dann ist es bezüglich ∨ neutral. Es gilt x ∨ 00 = x und x ∧ 00 = 00. 72 5 DER BEOBACHTUNGSRAUM C(Z) • Falls es ein größtes Element in der Menge gibt (genannt 1), dann ist es bezüglich ∧ neutral. Es gilt x ∧ 1 = x und x ∨ 1 = 1. • Ein Element x heißt Komplement zu x, falls x∨x = 1 und x∧x = 00. Das Komplement muß nicht einzig sein. Ein Verband heißt beschränkt, falls es zu jedem Element ein Komplement gibt. • In einem beschränkte, distributiven Verband ist das Komplement einzig. Manchmal ist des sinnvoll, neutrale Elemente künstlich einzuführen, obwohl sie eigenlich nicht zur Menge gehören und mit den anderen Strukturen in der Menge nicht verträglich sind. Wir nennen solche Elemente −∞ (das kleinste Element) und +∞ (das größte Element). Es kann sein, daß in einem Verband eine weitere Operation ⊕ definiert ist, die mit den Verbandsoperationen in folgendem Zusammenhang steht (x ∨ y) ⊕ (x ∧ y) = x ⊕ y = (x ∨ 00) ⊕ (y ∧ 1) (21) Dieser Zusammenhang heißt Satz von Sylvester oder Inklusions-Exklusions-Prinzip oder Siebverfahren. In der folgenden Tabelle sind einige Beispiele aufgeführt. Sie zeigen außerdem alle interessanten Objekte in speziellen Verbänden. Verband (x ∨ y) ⊕ (x ∧ y) Menge (A ∪ B) ⊔ (A ∩ B) N>0 [x, y] · (x, y) C sup(x, y) + inf(x, y) = = = = x⊕y A⊔B x · y x+y = (x ∨ 00) ⊕ (y ∧ 1) = (A ∪ ∅) ⊔ (B ∩ Z) = [x, 1] · (y, 0) = sup(x, −∞) + inf(y, +∞) Das Symbol ⊔ bedeutet die “disjunkte Vereinigung”. Sie entspricht der üblichen Vereinigung, falls die Mengen disjukt sind und erzeugt Kopien der Elemente, die in beiden Mengen vertreten sind. So ist {x, y} ⊔ {x, z} = {x1 , x2 , y, z}. Die disjunkte Vereinigung wird verwendet, wenn spezielle Operationen, wie z.B. die Kardinalität oder das Maß additiv sein sollen. Es ist |A∪B| ≤ |A| + |B| aber |A ⊔ B| = |A| + |B|. Als Gesamtmenge ist dann anstelle von Z die Menge N · Z. Formel (21) läßt sich auf endlich viele Objekte verallgemeinern und hat im Falle dreier Objekte die Form (x ∨ y ∨ z) ⊕ (x ∧ y) ⊕ (y ∧ z) ⊕ (z ∧ x) = x ⊕ y ⊕ z ⊕ (x ∧ y ∧ z) Analog gibt es eine Variante für n Objekte (geschrieben für Mengenoperationen): n n n n n \ X [ X X n+1 A A = |A | − |A ∩ A | + |A ∩ A ∩ A | − +...(−1) i i i i j i j k i=1 i=1 i<j i<j<k i=1 ÜA 11: Die Euler-ϕ-Funktion gibt für jede natürliche Zahl n an, wie viele zu n teilerfremde natürliche Zahlen es gibt, die nicht größer als n sind. ϕ(n) := {a ∈ N | 1 ≤ a ≤ n ∧ ggT(a, n) = 1} Beweise: ϕ(n) = Y p|n p kp −1 (p − 1) = n Y p|n 1 1− p 5.3 Mathematische Grundlagen: Verbände, Rieszräume 5.3.4 73 Riesz-Räume Ein linearer Raum mit Ordnungsstruktur, der auch ein Verband ist (d.h. sup und inf zweier Elemente müssen im Raum liegen) heißt Riesz-Raum, wenn folgende Verträglichkeitsbedingungen gelten: • Für alle f, g, h ∈ X gilt: f ≤ g ⇒ f + h ≤ g + h • Für alle f, g ∈ X und a ∈ R+ gilt: f ≤ g ⇒ a · f ≤ a · g In einem Riesz-Raum kann man positiven Teil, negativen Teil und den Betrag eines Elementes definieren: • x+ = x ∨ 0 • x− = (−x) ∨ 0 = −(x ∧ 0) • |x| = x+ + x− = x ∨ (−x) Für x, y, z ∈ X und α ∈ R gelten folgende Rechenregeln: • • • • • • • • • • • • • (x + z) ∨ (y + z) = (x ∨ y) + z (x + z) ∧ (y + z) = (x ∧ y) + z (αx) ∨ (αy) = a(x ∨ y) (αx) ∧ (αy) = α(x ∧ y) (−x) ∨ (−y) = −(x ∧ y) (−x) ∧ (−y) = −(x ∨ y) x ∨ y = 21 (x + y + |x − y|) x ∧ y = 21 (x + y − |x − y|) (x ∨ y) + (x ∧ y) = x + y (x ∨ y) − (x ∧ y) = |x − y| (x ∨ y) ∧ z = (x ∧ z) ∨ (y ∧ z) (x ∧ y) ∨ z = (x ∨ z) ∧ (y ∨ z) x = x ∧ y + 0 ∨ (x − y) ÜA 12: Beweise die (nichtoffensichtlichen) Rechengesetze. Die Menge X+ = {x ∈ X|x ≥ 0} heißt positiver Kegel. Man kann – umgekehrt – eine Ordnung mithilfe eines Kegels definieren: Ein Kegel C ⊂ X ist eine Teilmenge eines lin. Raumes, die neben x auch alle λx mit λ ≥ 0 enthält. Es ist f ≥ g falls f − g ∈ C. 5.3.5 Normierte Riesz-Räume. Banachverbände Ist der Riesz-Raum ein normierter Raum und die Norm erfüllt die Verträglichkeitsbedingung |x| ≤ |y| =⇒ kxk ≤ kyk so heißt die Norm Riesznorm. Hieraus folgt, daß Elemente mit selbem Betrag – insbsondere x und |x| – dieselbe Norm haben. ÜA 13: Beweise folgende Ungleichungen: kx ∧ z − y ∧ zk ≤ kx − yk kx ∨ z − y ∨ zk ≤ kx − yk Ein Riesz-Raum mit Riesznorm, der vollständig ist, heißt Banach-Verband. 74 5 DER BEOBACHTUNGSRAUM C(Z) 5.3.6 AM- und AL-Räume Üblicherweise wird bei der Definition der Norm in Funktionenräumen (z.B. der sup-Norm in C) explizit verwendet, daß die Elemente Funktionen sind. Riesz-Räume sind abstrakte lineare Räume, deren Elemente nicht Funktionen auf einer Menge sein müssen. Trotzdem lassen sie sich häufig normieren. Sinnvoll ist es natürlich, wenn die Norm mit der Ordnung in Einklang steht. Das erreicht man, wenn man die Norm mit Hilfe der Ordnung definiert. So eine Norm heißt Ordnungsnorm. In Rieszräumen gibt es dazu zwei ganz besondere Normen. Ein positives Element 1 ∈ V+ heißt Einheit (oder Einheit bezüglich der Ordnung oder Ordnungseinheit um sie von einer algebraischen Einheit zu unterscheiden), wenn für alle f ∈ V ein λ ∈ R+ mit −λ1 ≤ f ≤ λ1 existiert. Sind die Elemente von V Funktionen und ist V+ der Kegel der positiven Funktionen, dann kann jede Funktion, die keine Nullstelle hat, eine Einheit sein. Mit Hilfe der Einheit kann man Extrema und Norm (genannt Riesz-Norm) definieren. Es seien gmax = inf{λ : λ1 ≥ g} gmin = sup{λ : λ1 ≤ g} die obere und untere Grenze von g und kgk = inf{λ : λ1 ≥ |g|} = inf{λ : −λ1 ≤ g ≤ λ1} die Norm. (Es läßt sich leicht zeigen, daß das tatsächlich eine Norm ist.) Es gelten folgende Eigenschaften: • k 1k = 1 • Aus der Norm-Konvergenz folgt die Ordnungs-Konvergenz • Die folgende Eigenschaft verbindet die Norm mit der Ordnung: ka − bk ≤ ε ⇐⇒ b − ε1 ≤ a ≤ b + ε1 Die Norm hat eine besondeer Eigenschaft. Sie läßt sich mit dem Supremum vertauschen: ka ∨ bk = max{kak, kbk}, a, b ∈ V+ Das ist auch die Definition eines AM-Raumes (ein normierter Riesz-Raum mit dieser Eigenschaft heißt AM-Raum). Es gibt eine weitere ausgezeichnete Norm in Rieszräumen. Ein normierter Riesz-Raum, dessen Norm sich mit der Addition vertauschen läßt ka + bk = kak + kbk, a, b ∈ V+ heißt AL-Raum. Es wird sich herausstellen, daß AM- und AL-Räume in einem besonderen Verhältnis zueinander stehen. 5.4 C(Z) ist Banachverband 5.4 75 C(Z) ist Banachverband Wir zeigen im Weiteren, daß C(Z) ist Banachverband ist und daß die übliche sup-Norm und die Ordnungsnorm inihm identisch sind, wenn als Ordnungseinheit die algebraische Einheit gewählt wird. • Definition der Ordnung: f ≤ g ⇐⇒ f (z) ≤ g(z), z ∈ Z • Der positive Kegel C+ sind die positiven Funktionen. • Definition der Verbandsoperationen: (f ∨ g)(z) = max{f (z), g(z)}, (f ∧ g)(z) = min{f (z), g(z)} • Da f ∨ g und f ∧ g stetige Funktionen sind, ist C(Z) ein Riesz-Raum. • Wie üblich definieren wir g+ = sup{g, 0}, g− = sup{−g, 0}, |g| = g+ + g− . • Wegen |f | ≤ |g| =⇒ kf k ≤ kgk ist C(Z) Banachverband. • Da alle stetigen Funktionen beschränkt sind, kann man 1 (die algebraische Einheit) als Ordnungseinheit wählen. Es ist gmax = inf{λ : λ1 ≥ g} gmin = sup{λ : λ1 ≤ g} • Es sei kgks die Supremumsnorm und kgko die Ordnungsnorm. Es gilt kgks = kgko. ÜA 14: Beweise das. 77 6 Der Raum der statistischen Zustände P(Z) Der Raum C∗ ist der abstrakte Raum der beschränkten linearen Funktionale auf C. Als dualer Raum eines Banachverbandes ist C∗ wieder ein Banachverband mit der kanonischen Norm und Ordnung. Nach dem Satz von Riesz ist C∗ imomorph zum Raum der Radonmaße auf der Borelalgebra B(Z), die von den offenen Mengen in Z generiert wird. 6.1 Mathematische Grundlagen: Lineare Dualitätstheorie Es sei (X, ≤) ein Banachverband mit Eins 1 der Ordnunsnorm k · k bezüglich derer (X, ≤) ein AM-Raum ist. Wir untersuchen hier die Eigenschaften seines dualen Raumes. 6.1.1 Duale Räume Es sei X∗ = n o x∗ : X − → R x∗ (ax + by) = ax∗ (x) + bx∗ (y), sup |x∗ (x)| < ∞, ∀x ∈ X kxk≤1 die Menge aller beschränkten linearen Funktionale auf X. Die x∗ sind als lineare bschränkte Abbildungen zwischen topologischen Räumen stetig. Wir schreiben im weiteren x∗ (x) = hx∗ , xi = hx, x∗ i und nennen das duale Paarung oder duales Produkt. • Lineare beschränkte Funktionale sind stetige Abbildungen. (Zum Beweis siehe Stetigkeit linearer beschränkter Operatoren). • X∗ wird durch die Norm: kx∗ kX∗ = supkxk≤1 |hx∗ , xi| ein normierter Raum. • X∗ ist ein Banachraum. Beweis der Vollständigkeit: Es sei (x∗n ) eine Cauchyfolge, d.h., für alle ε existieren n, m ≥ N(ε) mit kx∗n − x∗m k < ε. Aus |hx, x∗n i − hx, x∗m i| = |hx, x∗n − x∗m i| ≤ kx∗n − x∗m k · kxk ≤ εkxk folgt, daß die Folge (hx, x∗n i) eine Cauchyfolge reeller Zahlen ist. Da R vollständig ist, existiert ein Grenzwert h(x) = lim hx, x∗n i. h(x) ist ein lineares beschränktes Funktional. n→∞ Es existiert also ein x∗ mit h(x) = hx, x∗ i. Läßt man in der obigen Ungleichung m − →∞ gehen, folgt |hx, x∗n i − hx, x∗ i| = |hx, x∗n − x∗ i| ≤ εkxk Betrachtet man nur x mit kxk = 1, erhält man kx∗n − x∗ k = sup |hx∗n − x∗ , xi| ≤ ε kxk≤1 • Es gilt die Hölderungleichung: |hx∗ , xi| ≤ kx∗ k · kxk • Es gilt kxk = supkx∗ k≤1 |hx∗ , xi|. Die Ungleichung ≥ folgt aus der Hölderungleichung. Die Existenz eines scharfen x∗ folgt aus dem Satz von Hahn-Banach. Im separablen Raum (z.B. wenn X = C(Z) mit kompaktem, metrisierbarem Z) ist der Beweis des Satz von Hahn-Banach ohne Auswahlaxiom möglich. In diesem Fall kann man ein scharfes x∗ konstruieren. Es ist z.B. x∗ ?δz , wobei z der Punkt ist, indem das Maximum angenommen wird. 78 6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z) 6.1.2 Die duale Ordnung Ist X ein Verband mit Ordnungsrelation und positivem Kegel X+ , wird auch in X∗ eine Ordnungsrelation durch x∗ ≤ y ∗ ⇐⇒ hx, x∗ i ≤ hx, y ∗ i, ∀x ∈ X+ induziert. Das entspricht der Definition der Positivität: Eine lineare Abbildung ist positiv, wenn sie auf positiven Argumenten positive Werte annimmt: x∗ ≥ 0 ⇐⇒ hx, x∗ i ≥ 0, ∀x ∈ X+ In C wurde die Ordnung punktweise definiert. Das ist in einem linearen Raum nicht sinnvoll, da hx, x∗ i und −hx, x∗ i verschiedene Vorzeichen haben. Satz: Es ist x∗ ≤ y ∗ ⇐⇒ hx, x∗ i ≤ hx, y ∗i, ∀x ∈ C[0,1] . Beweis: Die =⇒ Richtung ist offensichtlich. Zum Beweis der Umkehrung nehmen wir an, daß x∗ ≤ y ∗, es aber ein x ∈ C+ existiert, sodaß hx, x∗ i > hx, y ∗i. Dann ist aber auch hx/xmin , x∗ i > hx/xmin , y ∗i aber x/xmin ∈ C[0,1] . Für positive Elemente x∗ ∈ X∗+ läßt sich die Norm vereinfacht berechnen, wenn X ein AM-Raum ist: kx∗ k = sup |hx, x∗ i| = sup hx, x∗ i = kxk≤1 x∈C[0,1] sup kxk≤1,x∈X+ hx, x∗ i = h1, x∗ i Beweis: Der Beweis folgt aus der Ungleichungskette |hx∗ , xi| = |hx∗ , x+ i − hx∗ , x− i| ≤ |hx∗ , x+ i| + |hx∗ , x− i| = hx∗ , x+ i + hx∗ , x− i = hx∗ , |x|i Hieraus folgt kx∗ k = sup |hx, x∗ i| ≤ sup |h|x|, x∗ i| = sup h|x|, x∗ i ≤ h1, x∗ i kxk≤1 kxk≤1 kxk≤1 weil im AM-Raum |x| ≤ 1. Andererseits ist 1 in der ursprünglichen Menge, über der das Supremum gebildet wird enthalten. Folglich gilt Gleichheit. Hieraus folgt für x∗ , y ∗ ∈ X∗+ die Beziehung kx∗ + y ∗k = h1, x∗ + y ∗ i = h1, x∗ i + h1, y ∗i = kx∗ k + ky ∗k. X∗ ist also ein AL-Raum. Ein alternativer Beweis, der nicht die Existenz einer 1 voraussetzt, ist folgender Satz: Ist X ein AM-Raum, dann ist X∗ ein AL-Raum. Beweis: Wir zeigen, daß für alle ε > 0 und alle x∗ , y ∗ ∈ X∗+ gilt: kx∗ + y ∗ k ≥ kx∗ k + ky ∗ k − 2ε. Aus der Definition der Norm in X∗ über das Supremum folgt, daß es für alle ε > 0 solche x, y ∈ X mit kxk = kyk = 1 gibt, daß hx, x∗ i ≥ kx∗ k − ε und hy, y ∗i ≥ ky ∗ k − ε. Es sei z = x ∨ y. Dann ist kzk = kx ∨ yk = max{kxk, kyk} = 1 kx∗ + y ∗k ≥ hz, x∗ + y ∗ i = hz, x∗ i + hz, y ∗ i ≥ hx, x∗ i + hy, y ∗i ≥ kx∗ k + ky ∗k − 2ε Wegen hx, x∗ i = hx+ , x∗ i − hx− , x∗ i reicht für die Definition eines Funktionals x∗ ∈ X∗ seine Definition auf positiven Elementen x ∈ X+ . 6.1 Mathematische Grundlagen: Lineare Dualitätstheorie 79 Weiter läßt sich beweisen, daß X∗ ein Banachverband ist, wenn man sup und inf folgendermaßen definiert. Für x ∈ X+ sei hx1 ∨ x2 , xi = sup hx1 , xi + hx2 , xi x1 ,x2 ≥0,x1 +x2 =x hx1 ∧ x2 , xi = inf hx1 , xi + hx2 , xi x1 ,x2 ≥0,x1 +x2 =x Das ist für uns nicht wichtig, da wir uns nur für eine Teilmenge von X∗ interesieren werden, die nicht abgeschlossen bezüglich dieser Operationen ist. 6.1.3 Der Rieszsche Darstellungssatz Oft ist es interessant und wichtigg, zu einem konkreten Raum X den dualen Raum X∗ zu beschreiben und eine konkrete Darstellung für die duale Paarung zu besitzen, mit der man “rechnen” kann. Da wir uns nur für Räume der Form C(Z) mit kompaktem Z interessieren, wäre interessant, eine Darstellung von C∗ (Z) zu finden. Tatsächlich gibt der Darstellungssatz von Riesz dazu eine erschöpfende Antwort und zeigt einen Zusammenhang zwischen Maßen auf Z und Funktionalen auf C(Z), der intuitiv verständlich macht, daß Elemente aus C∗ (Z) als extensive Größen aufgefaßt werden können. Ausführliche Beschreibung siehe Abschnitt 6.6 auf Seite 93. 80 6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z) 6.1.4 Die positive Einheitskugel Im AM-Raum ist die positive Einheitskugel von Interesse. Im AL-Raum die sogenannte Base: o n P = x∗ ∈ X∗+ | h1, x∗ i = 1 Diese Menge ist offensichtlich konvex und abgeschlossen. Außerdem ist es sinnvoll, die Menge der mittelnden Funktionale zu definieren. Es sei das n o P1 = x∗ ∈ X∗ | xmin ≤ hx, x∗ i ≤ xmax , x ∈ X In P1 liegen alle die Funktionale, die – gepaart mit beliebigen Elementen aus X (nicht nur positiven!) – Werte aus dem Wertebereich ergeben. Diese Menge kann man als physikalisch real interpretieren. Das Ergebnis einer Beobachtung kann nicht außerhalb des Wertebereiches liegen. Es gilt folgender einfacher, aber wichtiger Satz: P = P1 . Beweis: 1) Es sei x∗ ∈ P1 . Wir setzen x = 1 und erhalten wegen 1min = 1max = 1: h1, x∗ i = 1. Für alle x ≥ 0 ist xmin = sup{λ|x ≥ λ1} ≥ 0 (da in dieser Menge λ = 0 offensichtlich enthalten ist) und damit hx, x∗ i ≥ 0. Also ist x∗ ∈ X∗+ und damit ist x∗ ∈ P. 2) Es sei x∗ ∈ P. Für alle x ∈ X ist x ≥ xmin 1. Damit folgt weil x∗ ∈ X∗+ 0 ≤ hx − xmin 1, x∗ i = hx, x∗ i − hxmin 1, x∗ i = hx, x∗ i − xmin h1, x∗ i = hx, x∗ i − xmin Hieraus folgt xmin ≤ hx, x∗ i. Die Ungleichung hx, x∗ i ≤ xmax beweist man analog mit dem Element xmax 1 − x ∈ X∗+ . Weiter sei Pe = ∂e P die Menge der extremalen Elemente von P. Als nächstes muß geklärt werden, was Pe mit Z zu tun hat und in welchem Sinn (und ob überhaupt) P die konvexe Hülle von Pe ist. Ziel war es, Sätze zu erhalten, die etwa folgendes aussagen: Pe = Z P = conv extr P = conv Pe Da Z als kompakt vorausgesetzt war, sollte Pe oder besser P kompakt sein. In diesem Zusammenhnag gibt es zwei wichtige Sätze: Satz: Die Einheitskugel im Banachraum ist genau dann kompakt, wenn der Raum endlichdimensional ist. Bemerkung: Diese Aussage gilt nicht nur für die Einheitskugel sondern auch für den Schnitt der Einheitssphäre mit dem positiven Kegel, also für P. Satz (Krein-Milman): Es sei K kompakt und konvex. Dann ist K = conv extr K . Der Satz von Krein-Milman liefert genau die Aussage, die wir für P gern hätten (der Abschluß der konvexen Hülle ist in derselben Topologie zu wählen, in der K kompakt ist!). Der vorhergehende Satz sagt aber, daß die starke Topologie dafür ungeeignet ist. Wir müssen also eine Topologie für P finden, in der P kompakt ist. 81 6.2 Beispiel: endlich dimensionale Räume 6.2 Beispiel: endlich dimensionale Räume Wir stellen hier ein paar Aussagen über verschiedene Normen in endlich dimensionalen Räumen vor. Sie dienen vor allem einem besseren Verständnis des Zusammenhangs der fundamentalen Räume C und C∗ mit AM- bzw. AL-Normen und von C abgeleitenen Räumen wie Lp -Räumen und Hilberträumen. Analoge Aussagen gelten für Folgenräume und andere unendlichdimensionalen Räume. 6.2.1 Ungleichungen zwischen Mitteln Es seien x = (x1 , ..., xn ) ≥ 0, α = (α1 , ..., αn ) ≥ 0, α1 + ... + αn = 1 gegebene Vektoren im Rn (zu verstehen als linearer Raum ohne festgelegte Norm). Weiter sei f : R+ − → R+ stetig, streng monoton wachsend mit f (0) = 0. Wir definieren drei Funktionen St (x) = Xn xti i=1 Xn Mf (x, α) = f −1 Xn Mt (x, α) = i=1 1t , t>0 αi f (xi ) i=1 1 t t αi xi , t>0 Offensichtlich ist Mt = Mf für f (x) = xt . Mt und St lassen sich auf t < 0 für strikt positive Vektoren verallgemeinern (es sei 1/x = (1/x1 , ..., 1/xn ): St (x) = 1/S−t (1/x) , Mt (x, α) = 1/M−t (1/x, α) , t < 0 Die definierten Funktionen haben folgende Eigenschaften • ∃! x∗ : Mf (x) = x∗ , d.h. f (x∗ ) = P αi f (xi ), P αi f (xi ) − f (x∗ ) = 0. • Mf (λx) = λMf (x) =⇒ Mf = Mt . • Mf (x) ≤ Mg (x) ⇐⇒ F = g ◦ f −1 ist konvex, d.h. g ist konvex bezüglich f . • min x ≤ Ms (x) ≤ Mt (x) ≤ max x ⇐⇒ s ≤ t • Spezialfälle: M1 = AM, M2 = QM, M−1 = HM, M0 = GM, M−∞ = min, M∞ = max • min x ≥ Ss (x) ≥ St (x) ⇐⇒ s ≤ t ≤ 0 • Ss (x) ≥ St (x) ≥ max x ⇐⇒ 0 ≤ s ≤ t Des weiteren Pm hat St folgende Konvexitätseigenschaften (hier sind die ti gegebene reelle Zahlen mit t0 = i=1 αi ti ): Q αi ti • t log St (x) ist konvex in t =⇒ St0 ≤ m i=1 Sti Q αi • log St (x) ist konvex in t =⇒ St0 ≤ m i=1 Sti P • St (x) ist konvex für t > 0 =⇒ St0 ≤ m i=1 αi Sti 82 6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z) Ausgehend von diesen Funktionen lassen sich Normen im Rn definieren: kxkc kxkc∗ kxklp kxklp (α) = = = = S∞ (|x|) S1 (|x|) Sp (|x|) , 1 < p < ∞ Mp (|x|, α) , 1 ≤ p < ∞ Alle diese Normen machen aus Rn einen normierten Raum. Da er endlichdimensional ist, sind alle Normen äquivalent und damit alle normierten Räume isomorph aber eben nicht isometrisch. 6.2.2 Einige Übungsaufgaben Außerdem seien ∞ ≥ p, q ≥ 1 reelle Zahlen mit 1/p + 1/q = 1 (wir setzen 1/∞ = 0). In diesem Zusammenhang stehen folgende Aufgaben: ÜA 15 a) Beweise d/dt St (x) ≤ 0, t > 0 und t < 0 ÜA 15 b) Berechne limt→+0 St (x), limt→−0 St (x), limt→∞ St (x), limt→−∞ St (x) (falls existent). ÜA 15 c) Beweise Mt (x, α) ist stetig differenzierbar in t (x und α fixiert und gutartig) ÜA 15 d) Beweise d/dt Mt (x, α) ≤ 0 ÜA 15 e) Berechne limt→0 Mt (x, α), limt→∞ Mt (x, α), limt→−∞ Mt (x, α) ÜA 15 f) Beweise: lp∗ = lq (im Sinne von Isometrie). ÜA 15 g) Beweise: lp∗ (α) = lq (α), p > 1 (im Sinne von Isometrie). ÜA 15 h) Beweise: l1∗ (α) = c, (c)∗ = c∗ (im Sinne von Isometrie). ∗ (α) sein? ÜA 15 i) Wie ist l∞ (α) zu verstehen, was könnte l∞ ÜA 15 j) Zeichne die Einheitssphäre, d.h. die Menge {x | kxk = 1} im R2 für alle definierten Normen (in einer Zeichung!). Wie hängt die Zeichnung mit den Monotonieeigenschaften 15a) und 15d) zusammen? 6.2.3 Lösungen der Übungsaufgaben p→∞ • Mn (x, α, p) − → maxn xn Beweis (für n = 2): Es sei x ≥ y. Wir betrachten log Mn (x, α, p). Dann ist nach l’Hopital log(αxp + βy p ) αxp log x + βy p log y = lim = p→∞ p→∞ p αxp + βy p p α log x + β xy log y α log x p = log x = = lim y p→∞ α αβ x lim log Mn (x, α, p) = p→∞ lim • Berechnung der Norm in R∗n : n n n X X X ∗ ∗ ∗ ∗ |xi ||xi | ≤ |x∗i | xi xi ≤ sup kx k = sup |hx , xi| = sup kxk=1 kxk=1 kxk=1 i=1 i=1 Andererseits existiert ein scharfes x, nämlich xi = xi · sign xi i=1 83 6.2 Beispiel: endlich dimensionale Räume 1 • Falls x+ = max{x1 , ..., xn }, gilt für t > 0: α+t ≤ Mt (x, α) ≤ x+ • Monotonie (Berechnung von t2 xt1 + ... + xtn d dt log S(t)) Ṡt (x) = St (x) − xt1 log(xt1 ) + ... + xtn log(xtn ) − xt1 + ... + xtn log xt1 + ... + xtn = xt1 xtn t log = xt1 log t + ... + x ≤0 n x1 + ... + xtn xt1 + ... + xtn weil das Argument unter dem log kleiner als 1 ist. (Hier und im nächsten Punkt wird t log x = log xt benutzt.) • Monotonie (Berechnung von t2 α1 xt1 + ... + αn xtn d dt log M(t)) Ṁt (x, α) = Mt (x, α) − α1 xt1 log(xt1 ) + ... + αn xtn log(xtn ) − α1 xt1 + ... + αn xtn log α1 xt1 + ... + αn xtn ≥ 0 Die Positivität folgt aus der Jensenschen Ungleichung für die konvexe Funktion F (x) = x log x. Im folgenden Bild sind die Funktionen St und Mt für xmax = 5 und xmin = 1 dargestellt. 10 8 St 6 max 4 Mt 2 min St -4 6.2.4 -2 2 4 6 t Zusammenhänge von Normen und Unterräumen Ist in einem linearen Raum Y eine Norm k·k gegeben, so kann es sein, daß nicht alle Elemente des Raumes bezüglich dieser Norm beschränkt sind. Die Norm k · k definiert in Y einen Unterraum X. Für x ∈ Y und x 6∈ X ist kxk = ∞. Sind in Y zwei Normen gegeben, etwa k · k1 und k · k2 , so werden dadurch zwei Unterräume X1 und X2 definiert. Sind beide Normen äquivalent, d.h., gibt es positive Konstanten c1 und c2 mit kxk2 ≤ c1 kxk1 und kxk1 ≤ c2 kxk2 , so sind X1 = X2 . Gilt nur kxk1 ≤ kxk2 , so gilt im allgemeinen nur die Inklusion X2 ⊂ X1 (es ist klar, daß ein Element, dessen Norm k · k2 84 6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z) beschränkt ist, in X2 liegt und erst recht auch in X1 . Umgekhert kann sein, daß zwar k · k1 aber nicht k · k2 beschränkt ist. 3 Dieses Enthaltensein der Räume mit verschiedenen Normen spiegelt sich im Enthaltensein der Einheitskugeln wieder. Der Monotonie der Normen in den lt (α)und lt -Räumen entspricht dann eine Schar ineinander enthaltender Einheitskugeln. In der nebenstehenden Zeichnung sind für einige Normen die Einheitssphären im R2 gezeichnet. Es handelt sich um die Normen von (von außen nach innen) l1 (α), l4/3 (α), l2 (α), l4 (α), l∞ (α) = l∞ , l4 , l2 , l4/3 , l1 mit α = (1/3, 2/3) 2 1 0 -1 -2 -3 -3 6.2.5 -2 -1 0 1 2 3 Diskussion • Die Monotonie von Mt beschreibt die bekannten Mittelungleichungen, wogegen die Monotonie von St “merkwürdige” Ungleichungen beschreibt: Im Fall n = 2 ist M p2 ≥ M1 die bekannte Ungleichung zwischen quadratischem und arithmetischem Mittel: (x2 + y 2)/2 ≥ p (x + y)/2 wogegen S2 ≤ S1 bedeutet: x2 + y 2 ≤ x + y. • Die Ungleichung S∞ ≤ S1 suggeriert c∗ ⊂ c, was im allgemeinen natürlich Unsinn ist, ein Raum kann seinen dualen nicht enthalten. • Sinnvoll sind c und c∗ mit Normen. • Was ist lp ? • Es gibt Ungleichungen, die hängen mit Räumen zusammen. • X∗ ⊂ X könnte mit X ⊂ X∗∗ zu X∗∗ ⊂ X∗ ⊂ X ⊂ X∗∗ führen. • Die Hölderungleichung |hx, x∗ i| ≤ kxkkx∗ k ist sinnvoll. Eine Ungleichung der Form |hg, µi| ≤ kg p k1/p kµq k1/q mit g ∈ C und µ ∈ C∗ ist dagegen Unsinn, da Maße nicht potenziert werden können. • Mittel mit allgemeinen Funktionen f Orlisz-Räume • Ausgehen von C können weitere Normen definiert werden, etwa die Norm in MarcinkiewiczRäumen: kgkω = = sup µ(B)−ω h1B · |g|, µi B∈B(Z) 85 6.3 Ein paar fundamentale Ungleichungen 6.3 6.3.1 Ein paar fundamentale Ungleichungen Die Youngsche Ungleichung Die Youngsche Ungleichung ist eine fundamentale Ungleichung, die zwei zueinander konvex konjugierte Funktionen mit der dualen Paarung verbiny det. Sind F : X −→ R und F ∗ : X∗ −→ R zwei solche zueinander konvex konjugierter Funktionen, so gilt y = ϕ(x) hx, x∗ i ≤ F (x) + F ∗ (x∗ ) Die Gateuax-Ableitungen (Subdifferentiale) beider Funktionen sind zueinander invers. Betrachtet man im R die beiden zueinander inversen Funktionen y = xp−1 und x = y q−1 mit 1 = 1/p + 1/q, zu erhält man b F ∗ (b) 1 1 a · b ≤ ap + bq p q F (a) Siehe nebenstehendes Bild. 6.3.2 0 a x Die Hölderungleichung. Normen in Lp -Räumen Abstrakt ist die Hölderungleichung hx, x∗ i ≤ kxk · kx∗ k eine Ungleichung zwischen der dualen Paarung und den Normen in einem normierten linearen Raum und seinem dualen. Die bekannte p, q-Hölderungleichung ist eigentlich eine Ungleichung für ein Pseudo-Skalarprodukt, das in C mithilfe einer Norm definiert werden kann. Im weiteren seien f, g ∈ C+ (Z), µ ∈ P(Z) und p, q ≥ 1, 1/p + 1/q = 1. Wir betrachten folgende Aufgaben: ÜA 16 a) Beweise die Hölderungleichung hf · g, µi ≤ hf p , µi1/p · hg q , µi1/q ÜA 16 b) Beweise die Minkowskiungleichung h(f + g)p , µi1/p ≤ hf p , µi1/p + hg p, µi1/p Diese Ungleichungen lassen sich einfach beweisen, ohne Benutzung der Darstellung der dualen Paarung als Lebesgueintegral nach dem Rieszschen Satz. Die Benutzung der Youngschen Ungleichung setzt nur voraus, daß die Ordnungsrelation in C die punktweise Ordnung ist. Lösungen: • Die Hölderungleichung folgt aus der Youngschen Ungleichung für Potenzfunktionen: 1 p 1 q a + b p q p f g 1 f 1 gq · ≤ + kf kp kgkq p kf kpp q kgkqq 1 hf p , µi 1 hg q , µi 1 1 1 hf · g, µi ≤ + =1 p + q = kf kp · kgkq p kf kp q kgkq p q hf · g, µi ≤ kf kp · kgkq a·b ≤ 86 6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z) • Minkowskiungleichung folgt aus Hölderungleichung: h(f + g)p , µi = h(f + g)(f + g)p−1, µihf (f + g)p−1, µi + hg(f + g)p−1, µi ≤ ≤ hf p , µi1/p h(f + g)(p−1)q , µi1/q + hg p, µi1/p h(f + g)(p−1)q , µi1/q = = hf p , µi1/p + hg p , µi1/p h(f + g)p , µi1/q h(f + g)p , µi1/p ≤ hf p , µi1/p + hg p, µi1/p Hier wurde benutzt: 1/p = 1 − 1/q und (p − 1)q = p. Für die, denen der Beweis der Minkowski-Ungleichung mit Hilfe der Hölder-Ungleichung nicht gefällt (woher wissen wir, daß wir neben p auch das q betrachten müssen), folgt hier ein Beweis der Minkowski-Ungleichung mit Hilfe der Jensensche Ungleichung. 6.4 Der biduale Raum X∗∗ 6.4 89 Der biduale Raum X∗∗ Völlig analog zur Definition von X∗ läßt sich der lineare Raum X∗∗ = (X∗ )∗ definieren. Er hat folgende Eigenschaften • X ⊂ X∗∗ . • Falls X∗ ein AL-Raum ist, ist X∗∗ ein AM-Raum mit der Einheit 1∗∗ . Sie bestimmt sich aus h1∗∗ , x∗ i = kx∗+ k + kx∗− k • Jedes x ∈ X induziert ein Jx ∈ X∗∗ : hx, x∗ i = hx∗ , Jxi. Aus kxk = supkx∗ k<1 |hx, x∗ i| folgt kxk = sup |hx, x∗ i| = sup |hx∗ , Jxi| = kJxk∗∗ kx∗ k=1 kx∗ k=1 Hieraus folgt, daß die kanonische Einbettung J : X − → JX ein isometrischer Isomorphismus ist. • Ein linearer Raum, für den die kanonische Einbettung ein isometrischer Isomorphismus zwischen X und X∗∗ ist, heißt reflexiv. Dann kann X∗∗ = X identifiziert werden. Dieser Fall ist für uns nicht interessant. 6.4.1 Der Raum C∗∗ (Z) Höhere Dualräume von Banachräumen sind immer schlechter zu beschreiben. Das trifft auch für C∗∗ (Z) zu. Relativ einfach sind Teilmengen von C∗∗ (Z) zu beschreiben. In C∗∗ (Z) sind enthalten: • Vage Grenzwerte von Folgen stetiger Funktionen (Satz von Goldstine). • Die 1∗∗ in C∗∗ (Z) liegt in C(Z) und es ist 1∗∗ = 1. • Charakteristische Funktionen von Borelmengen liegen in C∗∗ (Z). Beweis: Setzt man vorraus, daß C∗ (Z) der Raum der Radonmaße und die duale Paarung das Lebesgueintegral ist, dann gilt für Wahrscheinlichkeitsmaßee p Z Z p(B) = p(dz) = 1B (z)p(dz) = h1B , pi ≤ 1 B Z Die linke Seite ist der Wert des Wahrscheinlichkeitsmaßee p auf der Borelmenge B. Damit ist also 1B für B ∈ B ein beschränktes Funktional auf P. Da sich jedes Maß µ ∈ C∗ (Z) als µ = α1 p1 − α2 p2 mit geeigneten αi ∈ R+ und pi ∈ P darstellen läßt, ist 1B beschränktes – und offensichtlich lineares – Funktional auf C∗ (Z). • Damit ist die Menge aller endlicher linearer Kombinationen von charakteristische Funktionen von Borelmengen ein (nicht abgeschlossener) Unterraum in C∗∗ (Z) • Die Elemente von C∗∗ (Z) können als verallgemeinerte Beobachtungen betrachtet werden. • ÜA 17) Beweise ohne Benutzung des Rieszschen Satzes, daß 1B ∈ C∗∗ (Z) für B ∈ B. Hinweis: Finde Folgen stetiger Funktionen, die punktweise (also schwach) gegen 1B konvergieren. Beginne mit abgeschlossenen und offenen Mengen. 90 6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z) 6.5 6.5.1 Topologien in dualen Räumen Die schwache Topologien im allgemeinen B-Raum • Definition: Eine Subbasis Õw der schwachen Topologie Ow in X wird definiert als Initialtopologie bezüglich aller Elemente aus X∗ (es sei ϕx∗ (x) = hx, x∗ i): ∗ x ∈ X∗ , U ∈ OR (U) ⊂ X Õw = ϕ−1 ∗ x Die Konvergenz in dieser Topologie nennen wir “schwach” und bezeichnen sie mit xn ⇀ x w oder xn ⇀ x. • Der Raum X∗ mit der schwachen Topologie ist Hausdorff (folgt aus Hahn-Banach) und lokalkonvex (Einheitskugeln sind konvex). • Nach Definition der schwachen Topologie als Initialtopologie gilt offensichtlich xn ⇀ x ⇐⇒ hxn , x∗ i − → hx, x∗ i∀x∗ ∈ X∗ • Im endlichdimensionalen Raum sind starke und schwache Topologien identisch. • Aus schwach folgt stark: Der Beweis folgt aus der Hölderungleichung: hxn , x∗ i − hx, x∗ i ≤ kxn − xk · kx∗ k w • Satz: xn ⇀ x =⇒ kxk ≤ lim inf n→∞ kxn k w • Satz: xn ⇀ x, x∗n − → x∗ =⇒ hxn , x∗n i − → hx, x∗ i Alle von der Topologie abhängigen Begriffe wie: offen, abgeschlossen, Abschluß, kompakt, dicht, vollständig, gibt es mit dem Adjektiv “schwach”. Oft unterscheiden sich die “starken” und “schwachen” Eigenschaften voneinander. Dazu gibt es folgende Sätze. Im weiteren seien B = {x ∈ X|kxk ≤ 1} und S = {x ∈ X|kxk = 1} die stark abgeschlossene Kugel bzw. Sphäre. Nach Definition ist B = B und S = S. Es gilt aber: w w • Satz: B = B und S = B. D.h., S ist nicht schwach abgeschlossen. Die stark offene Kugel ist nicht schwach offen. Das Innere von B ist leer. • Satz: Ist A ∈ X stark abgeschlossen und kompakt, dann ist A auch schwach abgeschlossen. • Satz (Eberline-Smulian): B ist schwach kompakt, gdw. X = X∗∗ . Das bedeutet, daß die schwache Topologie in C∗ für uns (wir möchten, daß P kompakt ist) auch nicht geeignet ist, da C∗ nicht reflexiv ist. • Satz (Mazur): Jede schwach konvergente Folge in einem normierten Vektorraum besitzt eine stark konvergente Folge von Konvexkombinationen der Folgenglieder 91 6.5 Topologien in dualen Räumen 6.5.2 Die vage Topologien im dualen eines allgemeinen B-Raumes Es sei X ein Banachraum und X∗ sein dualer. In X∗ gibt es die starke und schwache Topologie. Eine Subbasis von letzterer ist (es sei ϕx∗∗ (x) = hx∗∗ , x∗ i): ∗∗ ∗∗ x ∈ X∗∗ , U ∈ OR Õw = ϕ−1 x∗∗ (U) ⊂ X Es ist die Initialtopologie bezüglich aller Elemente aus X∗∗ . Eine Möglichkeit, eine noch schwächere Topologie zu definieren ist, die Menge an stetigen Funktionen, beüglich derer die Initialtopologie gebildet wird, einzuschränken. Dazu bietet sich an, nicht ganz X∗∗ zu betrachten, sondern nur JX ⊂ X∗∗ . Diese Topologie nennen wir “vage”. Dieser Begriff wurde von Bourbaki eingeführt. Er entspricht dem gebräuchlicheren Begriff “schwach-Stern” (geschrieben “schwach*”), der schlecht in die gesprochene Rede paßt. • Definition: Eine Subbasis Õv der vagen Topologie Ov in X∗ wird definiert als Initialtopologie bezüglich aller Elemente aus X (es sei ϕx (x) = hx, x∗ i): ∗ Õw = ϕ−1 x ∈ X, U ∈ OR x (U) ⊂ X v Die Konvergenz in dieser Topologie bezeichnen wir mit xn ⇀ x. • Der Raum X∗ mit der vagen Topologie ist Hausdorff (folgt aus Hahn-Banach) und lokalkonvex (Einheitskugeln sind konvex). • Nach Definition der vagen Topologie als Initialtopologie gilt offensichtlich x∗n ⇀ x∗ ⇐⇒ hx, x∗n i − → hx, x∗n i∀x ∈ X v • Im endlichdimensionalen Raum sind vage, starke und schwache Topologien identisch. • Aus vage folgt nach Definition schwach. v • Satz: x∗n ⇀ x∗ =⇒ kx∗ k ≤ lim inf n→∞ kx∗n k v • Satz: x∗n ⇀ x∗ , xn − → x =⇒ hxn , x∗n i − → hx, x∗ i Alle von der Topologie abhängigen Begriffe wie: offen, abgeschlossen, Abschluß, kompakt, dicht, vollständig, gibt es mit dem Adjektiv “vage”. Im weiteren sei B ∗ = {x∗ ∈ X∗ |kx∗ k ≤ 1} die stark abgeschlossene Kugel in X∗ und analog B ∗∗ ⊂ X∗∗ . Es gilt: v • Satz (Goldstine): J(B) = B ∗∗ (die Einheitskugel in X ist vage dicht in der Einheitskugel in X∗∗ ). Das heißt, ein ξ ∈ X∗∗ läßt sich durch eine vage konvergente • Satz: Ist A ∈ X stark abgeschlossen und kompakt, dann ist A auch schwach abgeschlossen. • Satz (Banach-Alaoglu): B ∗ ist vage kompakt. Dieser fundamentale Satz wird im allgemeinen mit dem Auswahlaxiom bewiesen, was immer ein Warnsignal ist, für den Fall, daß man diesen Satz kontruktiv anwenden will. Im Falle, daß X separabel ist, läßt sich diese Satz auch ohne das Auswahlaxiom beweisen. Dazu wird folgendes verwendet: Satz: Es sei X separabel, dann ist B ∗ vage metrisierbar (X∗ ist separabel aber nicht metrisierbar, es sei denn X ist endlichdimensional). Hieraus folgt bekanntlich, daß für der Beweis der Kompaktheit der Beweis der Folkgenkompaktheit ausreicht. 92 6 DER RAUM DER STATISTISCHEN ZUSTÄNDE P(Z) Satz (Banach-Alaoglu, separable Version): Es sei X separabel, dann ist B ∗ ist vage folgenkompakt. Beweis: Es sei {xk } ⊂ X dicht in X und {x∗n } ⊂ B∗ also kx∗n k ≤ 1. Wir beweisen (mit dem Cantorschen Diagonalverfahren), daß {x∗n } eine vage konvergente Teilfolge enthält. Für jedes feste k ist {hx∗n , xk i}∞ n=1 eine beschränkte Folge reeller Zahlen. Daher existiert eine i→∞ Unterfolge mk ⊂ N derart, daß hx∗i , xk ii∈mk − → y(xk ). Weiter gilt |y(xk )| ≤ lim |hx∗i , xk ii∈mk | ≤ lim inf kx∗i k · kxk k ≤ kxk k i→∞ − i→∞ D.h., y(xk ) ist eine beschränkte und offensichtlich lineare Abbildung auf einer dichten Menge. ∗ ∗ Folglich existiert ein y ∗ ∈ B ∗ mit limi→∞ − hxi , xk i = y(xk ) = hy , xk i. ∗ Nach Banach-Steinhaus ist y auf ganz X ein beschränktes lineares Funktional. Bemerkung: Beschränkte vage Topologie Bemerkung: Leonidas Alaoglu kanadischer Mathematiker griechischer Abstammung, 1914 – 1981, siehe auch Buch von Adam Bobrowski: Functional Analysis for Probability and Stochastic Processes, S.186) 6.5.3 Schwache und vage Topologien im Rieszraum Es sei X ein AM-Raum mit Einheit und X∗ sein dualer (ein AL-Raum). Es sei P = B ∗ ∩ X∗+ ∩ {h1, x∗ i = 1|x∗ ∈ X∗ } Da B ∗ vage kompakt ist, und die anderen Mengen vage abgeschlossen sind, ist P vage kompakt und außerdem konvex. Es sei Pe = extr P. Auch Pe ist vage kompakt, falls Pe vage abgeschlossen ist. Das läßt sich beweisen, indem man zeigt, daß die Grenzwerte vage konvergenter Folgen aus Pe RieszHomomorphismen sind un dbenutzt, daß ein Element aus X∗ ein Riesz-Homomorphismus ist gdw., es in Pe liegt (siehe Kaplan S.125). Nach dem Satz von Krein-Milman gilt dann P = conv Pe v Folglich ist die vage Topologie genau das, was gesucht wurde. 6.5.4 Schwache und vage Topologien in C∗ Als Riesz-Raum gelten in C∗ dieselben Aussagen wie eben. Darüber hinaus ist noch der Zusammenhang zwischen Pe und Z zu klären. Es gilt folgender Satz: Zwischen (Pe , Ov ) und (Z, O) besteht ein Homomorphismus. Er wird über den Zusammenhang δz ∈ Pe ⇐⇒ z ∈ Z vermittelt (sie Abbildung δ : Z − → C∗ ist vage stetig). Zum Beweis siehe Kaplan S.182, 33.1. Dieser Satz besagt, daß Topologie von Z, mit der wir gestartet sind, gerade die vage Topologie in C∗ ist. Satz: Eind Folge gn konvergiert in C schwach, gdw. gn beschränkt ist und gn (z) für jedes z konvergiert (punktweise Konvergenz). Dieser Satz bedeutet, daß es für beschränkte Folgen ausreicht, punktweise Konvergenz, also die schwache Konvergenz auf Pe zu testen. Der Beweis läßt sich einfach über den Rieszschen Darstellungssatz und den Satz von Lebesgue (Majorisierungssatz) führen. 99 7 The Kakutani-Krein-Stone theory (KKS) 7.1 Der Satz von Kakutani Wir haben in den letzten Kapiteln parallel zwei Strukturen aufgebaut. Einerseits sind wir von einem topologischen Raum (Z, O) ausgegangen und haben die dualen Räume dazu betrachtet. Das ergab folgendes Bild: top.dual lin.dual (Z, O) − → C(Z) − → C∗ (Z) W-Maße ⊃ extr P ⊃ (Pe , Ov ) = (Z, O) Es hat sich herausgestellt, daß diese Konstruktion zu ihrem Ausgangspunkt zurückkehrt. Andererseits haben wir allgemeine Riesz-AM-Räume und ihre dualen betrachtet. Dabei war es unerheblich, was die Elemente des Riesz-Raumes für Objkete sind. Das ergab folgendes Bild: lin.dual X − → X∗ W-Maße ⊃ extr P ⊃ (Pe , Ov ) top.dual → C(Pe , Ov ) − ? =X Es bietet sich die Frage an, was der Raum stetiger Funktionen auf dem kompakten topologischen Raum (Pe , Ov ) ist und in welcher Beziehung dieser Raum zum Ausgangsraum X steht. Die Antwort darauf gibt folgender fundamentaler Satz (Kakutani): Jeder vollständige AM-Raum X mit Einheit ist ein C(Z), wobei insbesondere Z = extr P(X∗ ) mit der vagen Topologie gewählt werden kann. Der Beweis vollzieht sich in folgenden Schritten (ausführlich siehe Kaplan S.187). • Es sei Z = extr P(X∗ ) mit vager Topologie. D.h, wir definieren Z ∋ z := δ ∈ extr P(X∗ ). Z ist kompakt (nach dem Satz von Banach-Alaoglu) und Hausdorff. • Wir definieren eine Abbildung H : X − → C(Z) auf Z gemäß (Hg)(z) = hg, δi , g ∈ X, z ∈ Z und untersuchen ihre Eigenschaften. Diese Darstellung ist so zu verstehen: (Hg)(z) ist der Wert der Funktion Hg ∈ C(Z) im Punkt z ∈ Z. hg, δi ist zu verstehen als die duale Paarung zwischen g ∈ X und δ ∈ extr P(X∗ ) ⊂ X∗ . • H≥0 • H1X = 1C • H ist eine Isometrie und deshalb eineindeutig. • H ist ein Verbandshomomorphismus • HX separiert Punkte auf Z, weil X separierend ist. • HX = C(Z) (folgt aus dem Satz von Stone-Weierstraß). 100 7.1.1 7 THE KAKUTANI-KREIN-STONE THEORY (KKS) Bemerkungen • Der Raum Z wird Kakutani-Stone-Raum des AM-Raumes X genannt. • Ein Rieszhomomorphismus H : X − → Y zwischen zwei Rieszräumen ist eine lineare Abbildung, für die H(x ∨ y) = H(x) ∨ H(y) und H(x ∧ y) = H(x) ∧ H(y) gilt. • Es läßt sich zeigen, daß x∗ ∈ X∗ ein Rieszhomomorphismus ist x∗ : X −→ R ist, gdw. x∗ ∈ Pe (zum Beweis siehe Kaplan S.121). x∗ als Rieszhomomorphismus ist zu verstehen als Abbildung zwischen den beiden Rieszräumen X und R, d.h., x∗ : X − → R und hx∗ , x ∨ yi = max{hx∗ , xi, hx∗ , yi} und hx∗ , x ∧ yi = ∗ ∗ min{hx , xi, hx , yi}. • Der Satz von Stone-Weierstraß lautet üblicherweise: Jede Unteralgebra A der Algebra C(Z) der stetigen reellen Funktionen auf einem kompakten Hausdorff-Raum Z, die dessen Punkte separiert, d.h. ∀x 6= y ∈ M ∃g ∈ P : g(x) 6= g(y) und in keinem Punkt verschwindet, d.h. ∀x ∈ M ∃g ∈ P : g(x) 6= 0 liegt bezüglich der Topologie der gleichmäßigen Konvergenz dicht in C(Z). Es gibt auch eine Verbands-Version. 7.2 7.2.1 Folgerungen des Satzes von Kakutani Mathematische Folgerungen Wir führen hier ein paar Erklärungen des Satzes an und betrachten einige interessante “Gegenbeispiele” für den Fall, daß wir von einem X ausgehen, der bereits ein Raum stetiger Funktionen ist. • Die Hauptaussage ist, daß jeder Raum stetiger Funktionen auf einem topologischen Raum (der ja ein AM-Raum ist) als ein Raum stetiger Funktionen auf einem Hausdorff-Kompaktum betrachtet werden kann. • Geht man von einem abstrakten AM-Raum aus, sind dessen Elemente “Punkte”, die nicht Funktionen also Abbildungen von irgend einer Menge in eine andere sein müssen. Es stellt sich aber heraus, daß man diese “Punkte” als stetige Funktionen von einem topologischen Raum in die reellen Zahlen betrachten kann. • Ist X = C(Z0 ) mit einem kompakten Hausdorffraum Z0 , so ist Z = Z0 . • Ist X = C(Z0 ) mit einem kompakten aber nichtmetrisierbaren (also kein 1.AA) Hausdorffraum Z0 , so ist X nicht separabel und umgekehrt: Startet man mit einem nicht separablen X, so ist Z nicht metrisierbar. D.h., wenn wir wollen, daß Z metrisierbar ist (was sinnvoll ist), müssen wir mit einem separablen X starten (was auch sinnvoll ist). • Ist X nicht vollständig, dann ist C(Z) = X. • Ist X = C(Z0 ) mit einem kompakten Raum Z0 , der nicht Hausdorff ist, dann ist Z der Faktorraum von Z0 bezüglich der “sets of constanty” der Elemente aus X. Beispielsweise könnte man mit allen Vektoren im Rn starten, für die xn = xn−1 . Das sind gerade die stetigen Funktionen auf der n-Menge {z1 , z2 , ..., zn }, aber nicht mit der diskreten Topologie sondern der Topologie, die erzeugt wird von den offenen Mengen 7.2 Folgerungen des Satzes von Kakutani 101 {z1 }, {z2 }, ..., {zn−2}, {zn−1 , zn }. Das Ergebnis ist Z = {z1 , z2 , ..., zn−1 }. Die beiden letzten Koordinaten werden identifiziert. • Der besonders interessante Fall, daß X = C(Z0 ) mit einem nichtkompakten Hausdorffraum Z0 ist, betrachten wir in einem Extrapunkt. • Ein weiterer interessanter Fall wäre ein nichtkompakter Raum Z0 derart, daß X = C(Z0 ) separabel ist. Das würde dazu führen, daß βZ0 metrisierbar ist. Eine solche Variante ist dem Autor (und vielen anderen) nicht bekannt. 7.2.2 Nicht kompakte Zustandsräume Ist X = C(Z0 ) mit einem nichtkompakten Hausdorffraum Z0 , so ist Z trotzdem kompakt und zwar ist Z = βZ0 die Stone-Cech-Kompaktifizierung von Z0 . D.h., X = C(βZ0 ). Die Elemete von X können als stetige “Funktionen” auf βZ0 betrachtet werden. Allerdings haben diese Funktionen intuitiv nichts mit den stetige Funktionen zu tun, mit denen man als C(Z0 ) gestartet ist. Das hat weitreichende Konsequenzen. Den Übergang von Z0 zu Z = βZ0 kann man nicht als bequeme “Kompaktifizierungsmethode” für Z0 verwenden. Die Stone-Cech-Kompaktifizierung ist der kleinste topologische Raum, der alle Kompaktifizierungen enthält. Er wird gebildet, indem das Kreuzprodukt aller Kompaktifizierungen mit der Tichonov-Topologie ausgestattet wird. Diese Konstruktion ist nicht trivial und erfordert das Auswahlaxiom. βZ0 ist kompakt aber nicht metrisierbar. Im Ergebnis enthält βZ0 viel mehr Punkte als Z0 . Geht man z.B. von Z0 = N aus, so ist |N| die Kardinalzahl von |βN| = 22 (Sprung von ℵ0 zu ℵ2 ). Hatte der ursprüngliche Raum Z0 als Zustandraum einen physikalischen Sinn, weil seine Punkte als Menge aller physikalisch sinnvoller Zustände verstanden werden konnten (in dem Sinn, daß es weiter keine Zustände gibt), so hat die Stone-Cech-Kompaktifizierung den Zustandraum mit einer Riesenmenge von sinnlosen Zuständen angefüllt. Es ist also wichtig, gleich mit einem geeignet kompaktifizierten Raum zu starten. Das Finden der richtigen Kompaktifizierung hängt vom konkreten Problem ab, ist ein kreativer Prozeß und kann nicht “von der Mathematik übernommen” werden. Man könnte meinen, daß dieser Sachverhalt nicht wichtig ist, da man nicht gezwungen ist βZ0 anstelle von Z0 zu betrachten. Das ist nur richtig, wenn man sich nicht für Wahrscheinlichkeitsmaße interessiert. Denn in P sind nicht nur die konvexen Kombinationen von Punktmaßen aus Z0 enthalten, sondern alle konvexen Kombinationen von Punktmaßen aus βZ0 . Betrachtet man Wahrscheinlichkeitsmaße und möchte ihnen einen physikalischen Sinn geben, muß man also Sorge dafür tragen, daß man nur konvexe Kombinationen von Punktmaßen aus Z0 betrachtet. Wenn man Folgen von Maßen betrachtet, ist es deshalb nur mit großem technischen Aufwand (Betrachtung von straffen Maßen u.ä.) zu sichern, daß aucgh die Grenzwerte von solchen Folgen in dieser Menge bleiben. Betrachtet man von Anfang an geeignet kompaktifizierte Räume erübrigen sich diese Probleme. Als Beispiel betrachten wir 7.2.3 Kompakte und nichtkompakte Folgenräume Wir wollen hier die Unterschiede zwischen C(N) und C(N) betrachten, wobei N die Einpunktkompaktifizierung der natürlichen Zahlen sei. Zu den Beweisen der Details siehe den Abschnitt 6.4 über Folgenräume. 102 7 THE KAKUTANI-KREIN-STONE THEORY (KKS) 1) Es sei X der Raum der konvergenten Folgen. Wir bestimmen X∗ . Dazu setzen wir als bekannt voraus. daß der duale Raum zu c0 (Nullfolgen) der Raum l1 ist. Folglich ist X∗ = l1 ⊕ R · 1. Der Raum X enthält mehr Funktionale als c∗0 , da der Grenzwert der Folge auch ein Funktional ist. Das ist gerade der Zusatz R· 1. Damit ist Z = {δj }∞ j=1 ∪δ∞ . Das sind die üblichen Punktmaße auf N und ein weiteres Punktmaß, welches dem Grenzwert der Folge entspricht. Die vage Topolgie ist gerade die Einpunktkompaktifizierung von N. Stetige Funktionen g auf Z sind konvergente Folgen. In jedem j wird der Wert gj = g(δj ) angenommen. Allerdings sind nicht alle Folgen stetige Funktionen sondern nur die konvergenten. Funktionswert auf δ∞ ist g(δ∞ ) = lim gn . n→∞ 2) Es sei X der Raum der beschränkten Folgen, also X = l∞ . Wir bestimmen X∗ . Das ist ∗ l∞ = l1 ⊕ c00 wobei c00 der Annullator des Unterraumes c0 in l∞ ist. In l1 sind die üblichen ∗ Punktmaße δj (ohne δ∞ natürlich, das gibt es in l∞ nicht). Im “Rest” c00 sind alle “sonstigen Punktmaße” von Punkten aus βN enthalten. Der Satz von Kakutani sagt nun aus, daß sich jede beschränkte Folge als stetige Funktion über βN darstellen läßt. Wie das konkret zu verstehen ist, ist unklar. Der Satz ist hier ein reiner Existenzsatz, zu dessen Beweis das Auswahlaxiom benötigt wird. 7.2.4 Physikalische Folgerungen Die Kakutani-Krein-Stone Theorie zeigt einen Weg, wie man ausgehend von einer abstrakten Menge von Beobachtungen sowohl die Zustände als auch die Wahrscheinlichkeiten automatisch erzeugen kann. Das ist der natürliche Weg aus metaphysischer Sicht, da auch die Zustände selbst eigentlich nicht im Voraus gegeben sind sondern erst durch Beobachtung erhalten werden müssen. Diese Theorie hat vor allem theoretischen Wert, da sie zeigt, daß auch die Zustände letztlich das Ergebnis von Beobachtungen sind. Die Konstruktion von Z geht von einer frei gewählten Menge von Beobachtungen aus und vollzieht sich in folgenden Schritten: 1) Wir definieren eine Menge X von Beobachtungen. Diese Menge muß ein linearer Raum über den reellen Zahlen mit einer Ordnungsrelation sein – ein Riesz-Raum. Bei der Wahl dieser Menge sind wir frei. Das ist die Menge an Fragen, die wir der Natur stellen wollen. Aus mathematischer Sicht sind das Testfunktionen. 2) Wir definieren unter den Beobachtungen eine Einheit 1. So eine Beobachtung sollte es geben. Sie bedeutet physikalisch, daß eigentlich nicht beobachtet wird, d.h., sie liefert keine Information. 3) Jede Beobachtung g hat ein Minimum gmin und ein Maximum gmax . Das sind reelle Zahlen. Es gilt gmin 1 ≤ g ≤ gmax 1. 4) Wir definieren eine Verbands-Norm als kgk = max{|gmin|, |gmax |} und vervollständigen X in dieser Norm. Die Norm macht X zu einem AM-Raum. Die Vervollständigung macht X zu einem Banach-Raum. Das sei X. 5) Wir betrachten den dualen Raum X∗ und definieren alle mittelnden Funktionale P ⊂ X∗ als physikalische Zustände. (Ein Funktional p mittelt, wenn für alle g gilt: gmin ≤ hg, pi ≤ gmax .) 6) Die mittelnden Funktionale P bilden eine konvexe Menge. Diese Menge ist in der vagen Topologie kompakt und Hausdorff. 7.2 Folgerungen des Satzes von Kakutani 103 7) Es sei Pe = extP die Menge der extremalen Elemente der Zustände (heißt in der Mathematik Kakutani-Stone-Raum von X). Pe ist ebenfalls kompakt in der vagen Topologie. Wir nennen die extremalen Elemente Pe “reine Zustände”, den Rest aus P “gemischte Zustände”. Diese Bezeichnung ist vernünftig, weil sich die extremalen Elemente nicht als konvexe Kombinationen von Zuständen darstellen lassen (nicht mischen lassen). Das besondere an dieser Konstruktion ist der folgende fundamentale Satz: X = C(Pe ). Das heißt, die ursprünglich definierte Menge X an Beobachtungen (nach Vervollständigung) ist nicht eine abstrakte Menge sondern läßt sich als Menge von stetigen Funktionen über einem gewissen topologischen Raum Pe betrachten. Dieser Raum ist natürlicherweise als Zustandsraum zu interpretieren, es ist also Z = Pe zu setzen. Des weiteren ist P – die Menge der mittelnden Funktionale – identisch mit der Menge der positiven und normierten Funktionale, die man natürlicherweise nach dem Rieszschen Darstellungssatz als W-Maße interpretieren kann. Es gilt (einfacher Beweis, siehe Punkt 6.1.4) gmin ≤ hg, pi ≤ gmax , g ∈ C ⇐⇒ p ≥ 0, h1, pi = 1 7.2.5 Bemerkungen. Anwendung • In DSI steht als Aufgabe (Kapiel V, Aufgabe 7) formuliert: Beweise: Wenn Z ein normaler topologischer Raum ist und C(Z) ist separabel, dann ist Z kompakt, und umgekehrt. Leider ist dem Autor ein Beweis dieser Aussage nicht bekannt. • Abzählbarkeit bedeutet, daß das physikalische System nicht zuviele Freiheitsgrade haben darf, d.h., daß wir nicht zuviele Freiheitsgrade unterscheiden können. Abzählbarkeit von Z entspricht der Separabilität von C(Z). 7.4 Zusammenfassung der Topologien in Z, Z∗ , Z∗∗ und Z∗∗∗ 7.4 109 Zusammenfassung der Topologien in Z, Z∗, Z∗∗ und Z∗∗∗ In jedem Raum gibt es verschiedene Topologien, die starke, schwache und vage. Davon sind nur einige im weiteren interessant. Das hängt z.B. damit zusammen, daß es für manche Topologien nur uninteressante konvergente Folgen gibt. Vergleich der Konvergenzen: Z∗ Z zn − → z gn zn − → z kgn − gk g(zn ) − → g(z) hgn − g, pi gn (z) = → − → − → − → − C Z∗∗ g pn 0 kpn − pk 0 hξ, pn − pi g(z) hg, pn − pi pn (B) = → − → − → − → − → − C∗ p 0 0 0 p(B) Z∗∗∗ ξn = C∗∗ → ξ − stark schwach vage p(Bn ) − → p(B) Im weiteren sind nur folgende Konvergenzen von Interesse: • Starke Konvergenz in C • Schwache Konvergenz in C (entspricht der vagen in C∗ ). • Vage Konvergenz in P. 7.4.1 Übungsaufgaben ÜA 22 a) Beweise, daß Pe in der starken Topologie ein diskreter topologischer Raum ist. ÜA 22 b) Entscheide, ob Pe in der schwachen Topologie ein diskreter topologischer Raum ist. ÜA 23 a) Die Folge zn konvergiere in Z gegen z. Untersuche ob und wie (stark, schwach, vage) die Folge δzn gegen δz in C∗ konvergiert. ÜA 23 b) Die Folge zn konvergiere in Z gegen z. Untersuche ob und wie (stark, schwach, vage) die Folge 1{zn } gegen 1{z} in C∗∗ konvergiert. 7.4.2 Bemerkungen, Gegenbeispiele und Lösungen der Übungsaufgaben Die Unterschiede zwischen den Konvergenzen erkennt man besonders deutlich durch Gegenbeispiele. • Die Funktionen gn (z) = z n in C([0, 1]) konvergieren schwach oder – äquivalent – punktweise gegen g = 1{1} , aber natürlich nicht stark, da g 6∈ C. gn konvergiert auch nicht stark in C∗∗ , da kgn − gk = 1. Aber gn konvergiert gegen g vage (punktweise) in C∗∗ . • Die Konvergenz zn − → z in Z (im Sinne von: Jede Umgebung von z enthält ∞-viele Punkte aus der Menge (zn )) ist äquivalent zur schwachen Konvergenz in Z also zu g(zn ) − → g(z). • Pe ist vage total (der span ist dicht) in P. Das bedeutet, daß es für die schwache Konvergenz in C ausreicht, die Konvergenz auf Punktmaßen zu testen. Das heißt wiederum, daß die punktweise Konvergenz in C – die man als vage Konvergenz bezeichnen kann – zur schwachen Konvergenz äquivalent ist, wenn die Folge der Funktionen in C beschränkt ist. 110 7 THE KAKUTANI-KREIN-STONE THEORY (KKS) • Man könnte fragen, ob es nicht sinnvoll ist, in Pe andere Topologien, etwa die starke Topologie zu betrachten. Es stellt sich heraus, daß in Pe die starke Topologie die diskrete ist. Hieraus folgt dann, daß jede konvergente Folge konstant (bis auf endlich viele Glieder) sein muß. Das wiederum hat zur Folge, daß jede stark stetige Halbgruppe in C∗ auch uniform stetig ist und es somit in C∗ nur beschränkte Generatoren gibt. Satz: In der starken Topolgie in Pe sind alle Mengen offen. Beweis: (Lösung von ÜA 22a) Wir beweisen, daß die Mengen {δz } offen sind, indem wir zeigen, daß mit jedem Punkt dieser Menge auch eine Umgebung in Pe enthalten ist. Für zwei z1 6= z2 gilt kδz1 − δz2 k = 2. Es sei ε < 2. Dann enthält jede offene Kugel um δz mit dem Radius ε nur δz . Wegen δz ∈ {δz } folgt die Behauptung. . • Die Folge pn (dz) = (1 + sin(nz))dz in C∗ ([−1, 1]) konvergiert bezüglich aller charakteristischer Funktionen (vermutlich äquivalent zu schwach), aber nicht stark. • Lösung von ÜA 23a) • Lösung von ÜA 23b) 7.4.3 Zusammenhang der Konvergenzen in der FunkA und W-Theorie Die duale Paarung zwischen einer stetigen Funktion g und einem W-Maß p heißt in der WTheorie Erwartungswert oder Mittelwert von g bezüglich p oder g-Moment von p oder nur Erwartungswert/Moment von g, wenn p durch den W-Raum (Z, B, p) fixiert ist. Der Wert eines Maßes p auf einer Borelmenge B, also p(B) ist die duale Paarung zwischen p und der char. Funktion von B, also 1B ∈ C∗∗ . Da in die Wahrscheinlichkeitstheorie in erster Linie W-Maße in Rn betrachtet werden, orientieren sich die Konvergenzbegriffe daran und unterscheiden insbesondere auch Konvergenz bezüglich Funktionen mit kompaktem Träger oder ohne. Während die funktionalanlytischen Begriffe systematisch und allgemeingültig sind, unterscheiden sich die entsprechenden Begriffe in der W-Theorie davon. Die vage Konvergenz in der Funktionalanalysis heißt schwache Konvergenz in der W-Theorie. Die starke Konvergenz in der Funktionalanalysis heißt Konvergenz in totaler Variation in der W-Theorie. Des Weiteren werden Konvergenzen der Art pn (B) −→ p(B) und p(Bn ) −→ p(B) betrachtet. Aus funktionalanlytischer Sicht sind das Konvergenzen bezüglich der Topologie σ(C∗ , C∗∗ ), da p(B) = h1B , pi mit 1B ∈ C∗∗ . Die Konvergenzen pn (B) − → p(B) wird in der Wahrscheinlichkeitstheorie starke Konvergenz von Maßen genannt (hier schwache). Die σ(C∗ , C∗∗ )-Topologie ist “sehr diskret”, was dazu führt, daß es kaum konvergente Folgen gibt. Um trotzdem Aussagen treffen zu können, wann pn (B) −→ p(B) oder p(Bn ) −→ p(B) stattfindet, werden Spezialfälle betrachtet, wann diese Konvergenzen mit Konvergenzen in der σ(C∗ , C)-Topologie übereinstimmen. Dazu gibt es den Portmanteau-Satz (von Alexandrow): Folgende Konvergenzen sind äquivalent • • • • • pn − → p vage pn − → p vage auf C[0,1] lim supn→∞ pn (F ) ≤ p(F ) für alle F ∈ F lim inf n→∞ pn (U) ≥ p(U) für alle U ∈ O limn→∞ pn (B) = p(B) für alle B ∈ B und p(∂B) = 1 7.4 Zusammenfassung der Topologien in Z, Z∗ , Z∗∗ und Z∗∗∗ 111 Der Beweis des Satzes (die Umkehrung, daß aus der Konvergenz auf Borelmengen die vage Konvergenz folgt) ist nicht einfach und wird über sogenannte level-sets (Niveaumengen) geführt, mit denen es möglich ist, anstelle von Lebesgue-Integralen über Z Riemann-Integrale über dem Wertebereich von g zu betrachten. Nähers hierzu kann im WIAS-Preprint 1896 nachgelesen werden. Für die anderen Teile des Beweises werden Folgen von Funktionen gn ∈ C[0,1] betrachtet, mit T∞ −1 −1 gn (1) = F ∈ F und gn (0) = Z \ Un , Un ∈ O und F ⊂ Un , Un+1 ⊂ Un , n=1 Un = F . Es ist p(F ) = inf p(Un ) ≥ hgn , pi ≥ p(F ) Un ⊃F Konvergenzen der Art p(Bn ) − → p(B) hängen mit der Regularität von p zusammen: p(B) = sup p(F ) , p(B) = F ⊂B∈B inf p(U) U ⊃B∈B Es gilt: S • ∞ → 1A vage in C∗∗ . i=1 Ai = A =⇒ 1Ai − S • An ↑ A =⇒ p(An ) − → p(A), An ↑ A bedeutet An ⊂ An+1 , ∞ An = A Ti=n ∞ • An ↓ A =⇒ p(An ) − → p(A), An ↓ A bedeutet An ⊃ An+1 , i=n An = A 7.6 Der mathematische Rahmen. Das Z − C − P Dreieck 7.6 113 Der mathematische Rahmen. Das Z − C − P Dreieck state space (compact, Hausdorff, 1 Axiom of count.) Z = extr P(Z) dual weak* ∗∗ C (Z) ⊃ C(Z) functions of points ✛ ✲ P(Z) ⊂ C∗(Z) weak functions of sets continuous functions intensive values ❅ ❅ bidual ❅ ❅ ❅ ❅ Radon measures hg, pi extensive values observables statistical states potentials, densities test functions probability measures information • Wichtig ist, daß der Zusammenhang der Objekte Z −→ C −→ P −→ Pe = Z immer erhalten bleibt. Dann ist die Theorie anwendbar und viele der Sätze bleiben notwendig und hinreichend. Ist z.B. die gewählte Menge an Beobachtungen nicht zufriedenstellen, so kann mann sie ändern. Das bedeutet unter Umständen, daß man die Topologie ändern muß, damit die neue Menge an Beobachtungen stetige Funktionen sind. Das wiederum verändert die Menge an Wahrscheinlichkeitsmaßen. • Bei der mathematischen Modellierung ist entscheidend, daß man einen mathematischen Rahmen findet, der einerseits nach Möglichkeit jedes interessierende Problem beeinhaltet und andererseits eine physikalische Interpretation jedes Objektes des Rahmen ermöglicht. Das unterscheidet den vorgestellten Zugang von anderen Zugängen, bei denen ein mathematischer Rahmen postuliert wird und Probleme betrachtet werden, die im Rahmen dieses Rahmens behandelt werden können. Dabei gibt es meistens keinen physikalischen Grund, warum man gewisse Probleme, die nicht in den Rahmen passen, nicht behandeln kann. • Es gibt bei der Beschreibung von Problemen zwei zueinander duale Seiten, einerseits die physikalische, die unabhängig vom Beobachter existiert und durch Größen wie Wahrscheinlichkeitsdichten und Trajektorien beschrieben werden kann, und andererseits die Beobachtungsseite, auf der aus den physikalischen Größen Daten abgeleitet werden. Üblicherweise werden an die physikalischen Größen Bedingungen gestellt, die das Problem einschränken. Das ist unphysikalisch. Die physikalischen Größen sind wie sie sind. Möglich ist nur eine geeignete Manipulation der Menge der Beobachtungen. Das ist z.B. wichtig 114 7 THE KAKUTANI-KREIN-STONE THEORY (KKS) bei der Herleitung von makroskopischen Gleichungen aus mikroskopischen und bei der Entwicklung von Näherungsverfahren. • Der mathematische Rahmen ist für jedes klassische Problem geeignet. Was das bedeutet, wird klar, wenn man untersucht, was für Systeme mit diesem mathematischen Rahmen nicht beschrieben werden können. Solche Systeme sind nicht-klassisch. Das ist z.B. ein Quantensystem. Zwei entscheidende Eigenschaften eines Quantensystems bewirken, daß sie in den betrachteten Rahmen nicht passen: – Zustandraum ist nicht kompakt Axiomatisch wird ein Quantensystem folgendermaßen beschrieben: Es wird ein Hilbertraum H postuliert. Der Zustand eines Quantensystems ist ein Punkt ψ (genannt Wellenfunktion) der Einheitssphäre in H. Die Einheitssphäre im Hilbertraum ist im allgemeinen nicht kompakt in der starken Topologie in H. Die schwache Topologie ist nicht geeignet, weil man dann keine Evolutionsgleichungen der Form i~ψ̇ = Hψ (Schrödingergleichung) aufstellen kann. Hier ist H der Hamiltonoperator. – Beobachtungen kommutieren nicht Eine Beobachtung wird in der Quantenmechanik definiert durch einen selbstadjungierten Operator A in H. Das Ergebnis der Beobachtung ist (Aψ, ψ). Im allgemeinen gilt AB 6= BA (Heisenbergsche Unschärferelation) für zwei Beobachtungen A und B. Die Algebra der Beobachtungen ist nicht kommutativ. Für klassische Systeme ist die Algebra der Beobachtungen (punktweise Multiplikation stetiger Funktionen) kommutativ. Damit erhält man eine Definition, wann ein physikalisches System klassisch ist: Wenn der Zustandsraum kompakt ist und Beobachtungen kommutieren. Bemerkung: Beschränkt man sich auf separable Hilberträume und kommutierende Beobachtungen (dann gibt es eine abzählbare Basis Basis (ψi ) bezüglich der alle Beobachtungen diagonalisierbar sind), kann man anstelle der Einheitssphäre einen kompakten Raum betrachten (der l2 auf (ψi )). In diesem Fall ist auch ein Quantensystem im klassischen Rahmen beschreibbar. 137 8 Zustandsänderungen Bis jetzt haben wir beschrieben, in welchem Rahmen man ein klassisches physikalisches System beschreiben sollte, was die richtigen mathematischen Räume für Beobachtungen und Zustände sind. Im weiteren wollen wir untersuchen, wie Zustandsänderungen beschrieben werden sollten. Eine Zustandsänderung findet statt, wenn das betrachtete physikalische System in verschiedenen Zuständen vorliegen kann. Ein typisches Beispiel sind zwei verschiedene Zeitpunkte. Der Übergang von einem Zeitpunkt zum anderen ist dann eine Zustandsänderung. Wir werden im weiteren stets zeitliche Zustandsänderungen betrachten. Wir wissen aus der Betrachtung extensiver und intensiver Größen, daß Zeitintevalle additiv sind und gemessen werden können. Ein Zeitintevall ist also eine extensive Größe. Typisch für die mathematische Beschreibung von zeitabhängigen Prozessen ist, daß “Zeitpunkte” betrachtet werden, die sich durch reelle Zahlen darstellen lassen. Die physikalische Größe “Zeitintervall” ∆t wird dann als Differenz zweier Zeitpunkte t, t′ ∈ R dargestellt, etwa ∆t = t′ − t > 0. Dabei wird t < t′ angenommen, was bedeutet, daß sich Zeitpunkte eindeutig ordnen lassen. Diese völlig intuitive Eigenschaft der Zeit (wir erinnern uns an die Vergangenheit, nicht an die Zukunft) läßt sich nicht physikalisch “herleiten”. Wir nehmen im weiteren an, daß die Zeitrichtung eines physikalischen Prozesses eindeutig definiert ist, d.h., wir nehmen an, daß bei der Untersuchung der Zustände eines physikalischen Systems völlig klar ist, welcher Zustand “vorher” und “welcher” nachher vorlag. Es gibt also eine Ordnung der physikalischen Prozesse die identisch mit der Ordnung der Zeitpunkte ist. Per Definition sagen wir, daß die physikalischen Prozesse so geordnet sind, daß das was wir intuitiv als Zeit interpretieren, vorwärts läuft. Mathematisch beschreiben wir Zeitpunkte als Abbildung von N oder Z nach R. Wir nummerieren Zeitpunkte. Diese Form der Beschreibung der Zeit wird “diskret” genannt. Daneben wird in der Mathematik häufig auch eine “kontinuierliche Zeit” betrachtet und durch R oder R+ beschrieben. Dabei wird häufig angenommen, daß sich die kontinuierliche Zeit als Grenzwert immer kleiner werdender Zeitintervalle beschreiben läßt. Das führt zu verschiedenen Paradoxa. Wir werden deshalb die kontinuierliche Zeit im Newtonschen Sinn als Parameter betrachten, der die Trajektorie eines physikalischen Objektes parametrisiert. Das betrachten wir als Postulat. Wir nehmen an, daß wenn wir von einer kontinuierlichen Trajektorie (einer kontinuierliche Abfolge von Zuständen) sprechen, daß sich diese Trajektorie im physikalischen Sinne vorwärts durch einen kontinuierlichen Parameter parametrisieren läßt, den wir Zeit nennen. Ebenso wie es reine und gemischte Zustände gibt, kann man “reine” und “gemischte” Zustandsänderungen unterscheiden, die hier deterministische und nicht-deterministische Zustandsänderungen genannt werden. Reine Zustände sind Punkte in Z, die man als extremale Elemente Pe in der Menge aller Zustände P wiederfindet. Der Übergang von Z zu C∗ (Z) war erforderlich, wenn man neben reinen auch gemische Zustände betrachten möchte. Dabei hat sich herausgestellt, daß es erforderlich ist, als Zwischenschritt Beobachtungen zu betrachten. Mehr noch, die Beobachtungen haben sich als die primären Objekte herausgestellt. Sehr ähnlich werden wir Zustandsänderungen betrachten. Ausgehend von deterministischen Zustandsänderungen, deren Betrachtung in Z möglich ist, werden wir im Bild Pe der kanonischen Einbettung von Z die Objekte suchen, die den deterministischen Zustandsänderungen in Z entsprechen. Das werden lineare Operatoren in C∗ . Um die zu definieren werden wir als erstes Beobachtungsänderungen in C beschreiben müssen. Allgemeine Zustandsänderungen werden dann die lineare Operatoren sein, die physikalische Zustände in ebensolche abbilden. Den Wertebereich der Zeit werden wir je nach vorliegendem Problem mit T bezeichnen und die 138 8 ZUSTANDSÄNDERUNGEN Fälle T = N, Z, R+ , R betrachten. Abstrakt, werden wir zwei oder drei Zeitpunkte unterscheiden, die wir mit t, t′ , t′′ bezeichnen und setzen t < t′ < t′′ . 8.1 8.1.1 Deterministische Zustandsänderungen Definitionen • Es seien Z, Z′ , Z′′ die Zustandsräume (Kompakt, Hausdorff, 1.AA) zu den Zeitpunkten t, t′ , t′′ . Meistens werden die Zustandsräume zu verschiedenen Zeitpunkten identisch sein. Trotzdem wollen wir sie auch in diesem Fall formal durch einen Index unterscheiden. Das ist wichtig um stets im Bild zu sein, zu welchem Zeitpunkt wir ein mathematisches Objekt betrachten. • Eine stetige Abbildung ϕ : Z − → Z′ heiße deterministische Zustandsänderung. Wir schrei′ ben ϕ ∈ C(Z, Z ). Manchmal wird C(Z, Z′ ) auch als Hom(Z, Z′ ) – Menge der Homomorphismen – bezeichnet. Hier ist die physikalische Zeitrichtiung festgelegt. Es ist z ∈ Z der Zustand vor der Zustandsänderung und z ′ = ϕ(z) ∈ Z′ der Zustand danach. • Die Forderung der Stetigkeit von ϕ bedeutet hier nicht, daß sich die Zustände nur wenig ändern dürfen. Sie bedeutet, daß sich ähnliche Zustände ähnlich ändern. Es ist klar, daß sich Zustände, die wir aus gutem Grund als ähnlich, d.h. schlecht unterscheidbar, festgestellt haben auch nach einer Zustandsänderung schlecht unterscheidbar sind. Das bedeutet nicht, daß die Zustandsräume Z und Z′ homöomorph sein müssen. Es kann durchaus sein, daß nah beieinander liegende Punkte in Z sich als weit auseinaderliegende Punkte in Z′ herausstellen. Diese Punkte sind in Z′ gut unterscheidbar, ihre Urbilder waren in Z dagegen schlecht unterscheidbar. Aber die Fähigkeit von Z′ , die Punkte gut zu unterscheiden muß Z′ eben schon bei seiner Definition gehabt haben bzw. hätte berücksichtigt werden müssen. • Sind ϕ ∈ C(Z, Z′ ) und ψ ∈ C(Z′ , Z′′ ) deterministische Zustandsänderungen, dann ist auch ψ ◦ ϕ ∈ C(Z, Z′′ ) eine deterministische Zustandsänderung, weil die Komposition die Stetigkeit erhält. • Setzt man die Zustandsräume gleich Z′ = Z, dann ist ϕ ∈ C(Z, Z) = End(Z) ein Endomorphismus. • Endomorphismen bilden eine Halbgruppe mit id als Einheit. • Eine Untergruppe der Endomorphismen ist die Gruppe der Automorphismen Aut(Z) also der Homöomorphismen. • Ist Z = {z1 , ..., zn }, so besteht End(Z) aus nn diskreten Elementen. Aut(Z) besteht aus n! Elementen. Das sind gerade die Permutationen. 8.1.2 Diskrete dynamische Systeme • Ein Paar (Z, ϕ) mit ϕ ∈ End(Z) definiert einen Homomorphismus N − → End(Z) durch 0 1 n+1 n ϕ = id, ϕ = ϕ, ϕ = ϕ ◦ ϕ . Hier ist N als additive Halbgruppe der natürlichen Zahlen zu verstehen. Dieser Homomorphismus oder auch das Paar (Z, ϕ) wird zeitdiskretes dynamisches System genannt. n • Für ein gegebenes z0 ∈ Z heißt (zn )∞ n=0 mit zn = ϕ (z0 ) die Trajektorie von z0 . ∞ • Die Folge ϕn n=0 heißt auch diskreter Halbfluß. 8.1 Deterministische Zustandsänderungen 139 n −1 • Ist ϕ ∈ Aut(Z), so kann man auch ϕ−n := (ϕ ) definieren. ϕ definiert dann einen n ∞ Homomorphismus Z − → Aut(Z). Die Folge ϕ n=−∞ heißt diskreter Fluß. Hier ist Z als additive Gruppe der ganzen Zahlen zu verstehen. • Ein typisches Beispiel eines diskreten Halbflusses ist die Poincare-Abbildung eines zeitkontinuierlichen dynamischen Systems. 8.1.3 Kontinuierliche dynamische Systeme • Ein stetiges dynamisches System auf Z ist ein Homomorphismus der additiven Halbgruppe R+ in die Endomorphismen ϕ : R+ − → End(Z). ϕ muß stetig sein. Das heißt, jedes ϕt (z) ist stetig als Funktion von t und als Funktion von z. • (ϕt ), t ∈ R mit ϕt2 ◦ ϕt1 = ϕt2 +t1 heißt Halbfluß. • (zt , t ≥ 0) heißt Trajektorie (oder auch Orbit). • Es kann sein, daß für spezielle Z und unter zusätzlichen Regularitätsbedingungen an ϕt , von einer Zeitableitung żt der Trajektorie gesprochen werden kann und der Größe d a(z) = dt ϕt (z) t=0 – genannt Vektorfeld des dynamischen Systems – ein Sinn gegeben werden kann. Dann heißt żt = a(zt ) mit dem Anfangswert z0 Evolutionsgleichung des dynamischen Systems. • Die analogen Objekte mit T = R statt T = R+ heißen Fluß. • Allgemeiner kann man auch zweiparametrische dynamische Systeme (ϕt′ ,t ), t′ > t ≥ 0 mit ϕt3 ,t2 ◦ ϕt2 ,t1 = ϕt3 ,t1 betrachten. 8.1.4 Was stehen für Aufgaben? Zu beachten ist, daß jedes ϕ ∈ End(Z) ein diskretes dynamisches System generiert, wogegen es eine zu klärende Aufgabe ist, wann ein a(z) ein dynamisches System generiert und ob es in einem gegebenen Raum überhaupt kontinuierliche dynamische Systeme gibt. Man hat ein physikalisches System, das kann sich in gewissen Zuständen aufhalten. Hierbei sind folgende Aufgaben denkbar: • Herleitung einer Evolutionsgleichung für ein gegebenes dynamisches System. Für ein kontinuierliches dynamisches System bedeutet das folgendes: Die Funktionalgleichung ϕt2 ◦ ϕt1 = ϕt2 +t1 , der jedes dynamische System genügen muß, ist eine so starke Forderung, daß es bereits durch die Vorgabe eines Vektorfeldes – und damit einer Evolutionsgleichung – eindeutig bestimmt ist. Unter “Herleitung einer Evolutionsgleichung” ist dann die Bestimmung des Vektorfeldes für das dynamische System zu verstehen. • Lösung einer gegebenen Evolutionsgleichung. D.h., Bestimmung von (ϕt )t≥0 für gegebenes Vektorfeld a(z). • Hat das dynamische System stationäre Zustände? Das sind Zustände, die sich in der Zeit nicht ändern. • Hat eine Trajektorie einen Gleichgewichtszustand, d.h, konvergiert sie in irgendeinem Sinn für t − → ∞ gegen einen Zustand? • Wie verhält sich die Annäherung der Trajektorie an den Gleichgewichtszustand? Kann man die Geschwindigkeit dieser Annäherung abschätzen? 140 8.1.5 8 ZUSTANDSÄNDERUNGEN Motivation Eine Zustandsänderung kann auch nicht deterministisch sein. Dann ist das Problem im Rahmen von dynamischen Systemen nicht zu betrachten. Es gibt keine Trajektorie im Zustandsraum Z mehr. In unserem Rahmen, der reine und gemischte Zustände gemeinsam betrachtet, spielt das aber keine Rolle. Es stellt sich heraus, daß der Übergang von der deterministischen Beschreibung in Z zur allgemeinen Beschreibung in C − P nicht nur den Kreis der beschreibbaren Probleme vergrößert sondern auch die analytischen Schwierigkeiten bei der Behandlung stark vereinfacht. Das nennt man in der Mathematik Regularisierung. Die Probleme, die bei einer deterministischen Beschreibung allgemein waren, werden jetzt linear, kompakt und konvex. Diese Eigenschaften bedingen Folgerungen, die für jedes physikalische System zutreffen: Es existieren stets stationäre Zustände und Trajektorien können nie divergieren. Genau wie wir die reinen Zustände in P wiedergefunden haben (das waren Pe , die extremalen Elemente von P), sollten wir auch die deterministischen Zustandsänderungen in unserer linearen Welt wiederfinden. Umgekehrt sollte auch jedes stochastische Problem als Grenzfall ein deterministisches Problem beinhalten. Das folgt aus dem physikaliischen Verständnis von Wahrscheinlichkeiten als Modell für die Realität unter Informationsmangel. Gibt es diesen Informationsmangel nicht, ist das Modell deterministisch. 8.2 Heuristik • Wir gehen von einem ϕ : Z − → Z′ aus und fragen, wie sich diese Abbildung in den bidualen Räumen widerspiegelt. Es ist klar, daß ϕ eine entsprechnde Abbilung Φ : Pe −→ P′e induziert mit z ′ = ϕ(z) ⇐⇒ δz ′ = Φ(δz ) • Die stetige Abbildung ϕ : Z − → Z′ erzeugt kanonisch einen Kompositionsoperator Mϕ : C(Z′ ) − → C(Z), der zeitlich in die Rückwärtsrichtung abbildet. Mϕ ist ein positiver Operator und hat die Eigenschaft Mϕ 1′ = 1. • Sein adjungierter Operator M∗ϕ : C∗ (Z) − → C∗ (Z′ ) bildet wieder vorwärts in der Zeit ab. Tatsächlich erfüllt er die Rolle des gesuchten Φ, denn es gilt hg, M∗ϕ δz i = hMϕ g, δz i = hg ◦ ϕ, δz i = hg, δz ◦ ϕ−1 i = hg, δϕ(z)i = hg, δz ′ i Da g ∈ C(Z′ ) beliebig ist, ist also M∗ϕ δz = δz ′ . • Außerdem gilt M∗ϕ P ⊂ P′ . M∗ϕ bildet also physikalisch sinnvoll Zustände auf ebensolche ab. Man kann ihn also als Zustandsänderung interpretieren. Beweis: Als adjungierter eines positiven Operators ist M∗ϕ positiv und damit ist M∗ϕ p ≥ 0 für alle p ≥ 0. Außerdem gilt h1′ , M∗ϕ pi = hMϕ 1′ , pi = h1, pi = 1 P • Es sei M = ni=1 αi Mϕi eine konvexe Kombination von adjungierten von Kompositionsoperatoren. Auch sie sind positiv und erfüllen M1′ = 1 und damit gilt auch M∗ P ⊂ P′ . • Die beiden Eigenschaften M ≥ 0 und M1′ = 1 implizieren M∗ P ⊂ P′ . Solchen Operatoren kann man also einen physikalischen Sinn als Zustandsänderungen geben. 8.3 Mathematische Grundlagen: Beschränkte lineare Operatoren 8.3 8.3.1 141 Mathematische Grundlagen: Beschränkte lineare Operatoren Definitionen • Es sei L(X, Y) die Menge der linearen beschränkten Abbildungen zwischen X und Y. Sie bildet einen linearen Raum. • X∗ = L(X, R) • L(X) := L(X, X) (Endomorphismen). • Es sei A : X − → Y eine lineare Abbildung zwischen Banachräumen. Dann ist äquivalent (siehe z.B. [4, S.71ff]): – – – – T ist überall stetig T ist stetig in einem Punkt supkxk≤1 kAxk ist beschränkt Es existiert ein c mit kAxk ≤ ckxk • Es kann eine Norm kAk = supkxk≤1 kAxk definiert werden. In dieser Norm ist L(X, Y) ein Banachraum (wenn Y einer ist). Damit wird L(X) eine Banachalgebra (lineare Operatoren bilden eine Halbgruppe). • Positive Operatoren: AX+ ⊂ Y+ . Bilden auch einen Verband. • Ein umkehrbar eindeutiger Operator, dessen inverser auch beschränkt ist heißt invertierbarer. Es ist A−1 : Y − → X. • A ∈ L(X, Y), B ∈ L(Y, Z), (BA)−1 = A−1 B−1 8.3.2 Adjungierte Operatoren Es sei A : X − → Y ein linearer beschränkter Operator und X∗ und Y∗ die zu X bzw. Y dualen Räume. hAx, y ∗i ist für festes x eine lineare beschränkte Abbildung nach R. D.h. ein Funktional auf X. Es existiert also ein x∗ sodaß hAx, y ∗i = hx, x∗ i. Wir nennen die Abbildung y ∗ − → x∗ ∗ ∗ ∗ adjungierten Operator und schreiben x = A y . Der adjungierte Operator hat folgende Eigenschaften: • Eindeutig definiert, linear, beschränkt • A∗ ∈ L(Y∗ , X∗ ), d.h., A∗ : Y∗ − → X∗ . Zu beachten ist, daß der adjungierte Operator die dualen Räume in umgekehrter Richtung abbildet. • kA∗ k = kAk. • A ∈ L(X, Y), B ∈ L(Y, Z), dann ist (BA)∗ = A∗ B∗ • A∗∗ = A X • Ein Operator in L(Y∗ , X∗ ) muß keinen prädualen besitzen. Im weiteren betrachten wir nur Operatoren in L(Y∗ , X∗ ), die einen prädualen besitzen. • ∃ A−1 ⇐⇒ ∃ (A∗ )−1 , (A∗ )−1 = (A−1 )∗ 142 8 ZUSTANDSÄNDERUNGEN • Im Hilbertraum wird häufig von symmetrischen oder selbstadjungierten Operatoren gesprochen, wenn A = A∗ gilt. Es ist klar, daß man in allgemeinen Banachräumen für zwei Operatoren A : X − → Y und A∗ : Y∗ − → X∗ Gleichheit nur im Falle von X = Y∗ und Y = X∗ , also in reflexiven Banachräumen, definieren kann. In nichtreflexiven Banachräumen definieren wir Symmetrie folgendermaßen: Ein Operator A : X − → X∗ heißt symmetrisch, wenn die Einschränkung von A∗ : X∗∗ − → X∗ auf X mit A übereinstimmt. Dann gilt hx1 , Ax2 i = hx2 , Ax1 i für x1 , x2 ∈ X. Ist X ein Hilbertraum, dann ist diese Definition mit der im Hilbertraum gebräuchlichen identisch. Analoges gilt für reflexive Räume. Der Begriff selbstadjungierter Operator wird im allgemeinen verwendet für symmetrische unbeschränkte Operatoren mit zusätzlichen Einschränkungen. Ein beschränkter symmetrischer Operator ist immer selbstadjungiert. • Im endlich dimensionalen Raum bedeutet der Übergang zum adjungierten Operator das Transponieren der Matrix. Man sieht, daß die transponierte Matrix zwischen anderen Räumen abbildet als die Matrix selbst, wenn man rechteckige Matrizen betrachtet. 8.3.3 Weitere Eigenschaften. Bemerkungen • Definitionsbereich ist immer ein linearer Raum, auch wenn wir uns nur für eine konvexe Menge interessieren. • Topologien in L(X, Y) siehe DS I S.512ff • Konvexe Teilmengen in L(X, Y) haben den selben starken und schwachen Abschluß (DS I S.514 Nr.5) • Unterräume • Kern, Image, Definitionsbereich eines Operators. • Abgeschlossene Operatoren (DS I S.524). Bei beschränkten Operatoren bedeutet Abgeschlossenheit, daß der Wertebereich abgeschlossen ist. • AX = {y | A∗ y ∗ = 0 =⇒ hy, y ∗i = 0} • Die Umkehrung: A∗ Y∗ = {x∗ | Ax = 0 =⇒ hx, x∗ i = 0} Stimmt im Allgemeinen nicht. Aber es gilt: AX = AX ⇐⇒ A∗ Y∗ = A∗ Y∗ • Kompakte Operatoren (DS I S.522) • Schwach kompakte Operatoren (d.h., sie bilden abgeschlossene beschränkte Mengen in kompakte ab): A ist schwach kompakt ⇐⇒ A∗∗ X∗∗ ⊂ X (siehe DS I S.519) • A ist stetig bedeutet, daß aus xn − → x folgt Axn − → Ax. • ÜA 24 a) A stetig =⇒ A schwach stetig. Beweis: • ÜA 24 b) A stetig =⇒ A∗ vage stetig. Beweis: 8.3 Mathematische Grundlagen: Beschränkte lineare Operatoren 8.3.4 143 Darstellung beschränkter Operatoren in C und seinen dualen Aus der Theorie der Operatoren im endlichdimensionalen Raum ist bekannt, daß man Operatoren durch Matrizen darstellen kann. Diese Darstellung hängt von den gewählten Basen ab. Es sei A : Rn − → Rm ein Operator und (ei ) ⊂ Rn , (ej ) ⊂ Rm , (e∗i ) ⊂ R∗n , (e∗j ) ⊂ R∗m Basen. Dann ist bekannt, daß man dem Operator A eine Matrix (aij )n,m i,j=1 zuordnen kann. Diese Matrix erhält man als Wirkung des Operators in dieser Basis in der dualen Paarung. Es ist aij = hAei , e∗j i Mit dieser Matrix läßt sich die Wirkung des Operators als Summe darstellen: (Ax)j = n X aij xi . i=1 Der adjungierte Operator A∗ : R∗m − → R∗n hat wegen aij = hAei , e∗j i = hei , A∗ e∗j i dieselbe Matrix. Seine Wirkung läßt sich wieder als Summe ∗ ∗ (A y )i = m X aij yj∗ j=1 darstellen. Die Summation läuft über den anderen Index. Das heißt, die Matrix des adjungierten Operators ist die transponierte des ursprünglichen Operators. Meistens wählt man in Rm und R∗m dieselbe Basis – die kanonische Basis ej = (0, ..., 0, 1, 0, ..., 0) mit einer 1 an der j-ten Stelle. Aus dem Kapitel 3, Punkt 3.3.8 (Seite 30) ist bekannt, daß diese Vektoren zwar die kanonische Basis in R∗m sind, aber es in Rm natürlicher ist, die Darstellungen von Teilmengen (und nicht von Punkten) zu betrachten. Sie bilden zwar keine Basis, ergaben sich aber kanonisch als Einbettung 2Z ⊂ Z∗ = C(Z). Im endlichdimensionalen Raum wird das nicht gemacht, eben weil die Teilmengen keine Basis bilden. Dieser prinzipielle Unterschied zwischen Rm und R∗m läßt sich ignorieren. Im unendlichdimenionalen Raum ist das nicht mehr möglich. Es gibt in C(Z) keine kanonische Basis. In C∗ (Z) gibt es eine kanonische Basis – nämlich Pe – allerdings ist das eine vage Basis. Definition: Eine Menge (xn ) heißt starke/schwache/vage Basis in P X, wenn es zu jedem x ∈ X eine eindeutig bestimmte Folge (an ) von Skalaren derart gibt, daß ni=1 ai xi mit n − → ∞ gegen x stark/schwach/vage konvergiert. Spricht man allgemein von “Basis”, meint man eine starke Basis. In C(Z) und C∗ (Z) gibt es im allgemeinen keine kanonischen starken Basen. Trotzdem läßt sich auch im allgemeinen Fall für jeden beschränkten linearen Operator A : C(Z′ ) − → C(Z) soetwas wie eine “Matrix” finden. Sie wird Integralkern genannt. Man findet ihn formal, wenn man den Operator A∗∗ : C∗∗ (Z′ ) − → C∗∗ (Z) (das ist der zu A∗ : C∗ (Z) − → C∗ (Z′ ) adjungierte Operator) auf die “kanonische Basis” (1B′ ) ⊂ C∗∗ (Z′ ), B ′ ∈ B(Z′ ) anwendet (das entspricht (ei ) ∈ Rn ) und mit der kanonischen Basis (δz ) ⊂ C∗ (Z) (das entspricht (e∗j ) ∈ R∗m ) paart. Das ergibt a(B ′ , z) = hA∗∗ 1B′ , δz i Die Wirkung des Operators A : C(Z′ ) −→ C(Z) läßt sich dann nach dem Satz von Riesz als Lebesgueintegral mit dem Integralkern a(B ′ , z) darstellen Z (Ag)(z) = g(z ′ )a(dz ′ , z) . (25) Z′ 144 8 ZUSTANDSÄNDERUNGEN In dieser Darstellung ist a(·, z) als Schar von Maßen mit dem Scharparameter z zu verstehen. Für festes z ist a(·, z) ein Maß, das auf Borelmengen definiert ist, d.h. der Ausdruck a(B ′ , z) mit R B ′ ∈ B(Z′ ) hat Sinn. Das g(z ′ )a(dz ′ , z) ist dann genauso zu verstehen wie Z′ R Lebesgueintegral das Lebesgueintegral Z′ g(z ′ )p(dz ′ ) mit einem Maß p ∈ C∗ (Z′ ), für das p(B ′ ) mit B ′ ∈ B(Z′ ) Sinn hat. p(dz ′ ) ist soetwas wie “das Maß p ausgewertet auf einer Infinitesimalen Borelmenge dz ′ ∈ B(Z′ )”. R Bemerkung: Hier sieht man, daß für das Lebesgueintegral die Notation g(z)p(dz) intuiP tiv verständlich ist alsR Grenzwert von Summen g(z )p(B ) mit “B − → {z i i i i }”. Die häufig i verwendete Notation g(z)dp(z) ist intuitiv eigentlich als Grenzwert von Summen der Form P g(z )(p(z i i ) − p(zi−1 )) zu verstehen und ist damit nicht für das Lebesgue- sondern für das i Stieltjesintegral (eine Verallgemeinerung des Riemannintegrals) geeignet. Tatsächlich ist die Darstellung (25) nicht nur formal richtig. Ag ist ein Element aus C(Z), also eine stetige Funktion Z − → R. Diese Funktion kann also am Punkt z ausgewertet werden. Das sei (Ag)(z). Offensichtlich ist das für festes z ∈ Z und beliebiges g ∈ C(Z′ ) ein lineares (weil A linear ist) und beschränktes (weil A beschränkt ist) Funktional, also ein Element aus C∗ (Z′ ). Wir nennen es az , wobei der Index z den festgehaltenen Parameter z ∈ Z bezeichnet. Es ist also (Ag)(z) = haz , gi. Das ist gerade die Darstellung (25) (unter Berücksichtigung des Rieszschen Satzes) mit az = a(·, z). Und umgekehrt, jede Schar (az )z∈Z ⊂ C∗ (Z′ ) definiert durch (Ag)(z) = haz , gi einen linearen Operator, der allerdings nur dann ein beschränkter Operator ist, wenn die Schar (az )z∈Z bezüglich des Parameters z vage stetig ist. Es gilt folgender Satz: (siehe DS I, S.527ff, Semadeni S.323) Zu jedem A ∈ L(C(Z′ ),C(Z)) existiert eine Abbildung a : B(Z′ ) × Z − → R mit a(·, z) ∈ C∗ (Z′ ), die als Schar a(·, z) z∈Z vage stetig ist, derart, daß (Ag)(z) = hg, a(·, z)i und kAk = supz∈Z ka(·, z)k. Und umgekehrt: Jede vage stetige Schar a(·, z) z∈Z ⊂ C∗ (Z′ ) definiert einen beschränkten linearen Operator aus L(C(Z′ ), C(Z)). Bemerkung: Der Begriff “Integralkern” eines Operators (häufig auch einfach “Kern” des Operators) genannt, darf nicht mit dem Begriff “Kern” des Operators im Sinne von Nullraum (die Punkte, die in die 0 abgebildet werden) verwechselt werden. Der adjungierte zu A Operator A∗ : C∗ (Z) −→ C∗ (Z′ ) läßt sich ebenfalls als Integraloperator darstellen. Es sei p ∈ C∗ (Z), dann ist A∗ p ∈ C∗ (Z′ ) ebenfalls ein Maß, das sich auf Borelmengen B ′ ∈ B(Z′ ) auswerten läßt. Wir berechnen (A∗ p)(B ′ ): Wegen Z Z Z Z ∗ ′ ′ ′ ′ hg, A pi = hAg, pi = g(z )a(dz , z) p(dz) = g(z ) a(dz , z)p(dz) Z Z′ Z′ Z ist (A∗ p)(dz ′ ) = Z a(dz ′ , z)p(dz) und damit Z ∗ ′ (A p)(B ) = a(B ′ , z)p(dz) R Z Dieser Ausdruck ist folgendermaßen zu verstehen: Wir fixieren B ′ ∈ B(Z′ ). Dann ist a(B ′ , ·) eine stetige Funktion in C(Z). Wir können sie dual mit einem p ∈ C∗ (Z) paaren. Das Ergebnis ist (A∗ p)(B ′ ). 8.4 Markowoperatoren 8.4 137 Markowoperatoren Im Gegensatz zu dynamischen Systemen, bei denen ϕ : Z − → Z′ eine beliebige stetige, vorwärts in der Zeit abbildende Abbildung war, sind im C − P-Kontext nur lineare Abbildungen (lineare Operatoren) als Zustandsänderung von Interesse. Mit den heuristischen Betrachtungen im Abschnitt 8.2 auf Seite 130 haben wir uns klargemacht, daß physikalsich sinnvolle Zustandsänderungen lineare Operatoren sind, die P(Z) nach P(Z′ ) abbilden. Diese Eigenschaft haben Operatoren M∗ , die adjungierte von Operatoren M : C(Z′ ) − → C(Z) mit den Eigenschaften M ≥ 0 und M1′ = 1, sind. Solche Operatoren heißen Markowoperatoren. Es zeigt sich, daß auch die Umkehrung in folgendem Sinne gilt: Falls ein Operator der adjungierte eines Operators ist und P(Z) nach P(Z′ ) abbildet, dann ist er der adjungierte eines Markowoperators. Es gibt Operatoren, die P(Z) nach P(Z′ ) abbilden und nicht adjungierte Operatoren sind (also keinen präadjungierten besitzen). Es ist aus verschiedenen Gründen sinnvoll, solche Operatoren nicht zu betrachten. Im weiteren werden wir stets ohne es explizit zu erwähnen, annehmen, daß ein Operator aus L C∗ (Z), C∗ (Z′ ) einen präadjungierten aus L C(Z′ ), C(Z) besitzt. 8.4.1 Definition und wichtigste Eigenschaften Markowoperatoren sind positive und 1 erhaltende Operatoren. Wir bezeichen die Menge der Markowoperatoren mit M Z′ ), Z = M ∈ L C(Z′ ), C(Z) | M ≥ 0, M1′ = 1 Im Falle Z′ = Z bezeichnen wir die Menge der Markowoperatoren mit M(Z). Wo klar ist, ′ zwischen welchen Räumen die Operatoren wirken, schreiben wir M anstelle von M Z ), Z oder M(Z). Wir fassen die wichtigsten Eigenschaften von Markowoperatoren zusammen und beweisen sie anschließend in einzelnen Sätzen, die zum Teil allgemeiner sind und insbesondere Umkehrungen enthalten. • • • • • M ∈ M ⇐⇒ M∗ P ⊂ P |Mg| ≤ M|g| kMk = 1 M ist konvex. M(Z) bildet eine Halbgruppe. Die Identität I ist die Einheit. Satz: M ≥ 0 ⇐⇒ M∗ ≥ 0. Beweis(=⇒): Es sei p ≥ 0, es ist zu zeigen, daß hg, M∗pi ≥ 0 für alle g ≥ 0. Es sei g ≥ 0 beliebig. Dann ist auch Mg ≥ 0, da M ≥ 0. Es folgt hMg, pi ≥ 0, weil p ≥ 0. Aber hMg, pi = hg, M∗ pi. Beweis(⇐=): Analog. Satz: M1′ = 1 ⇐⇒ h1, pi = 1 =⇒ h1, M∗ pi = 1, p ∈ P . Beweis(=⇒): Es sei M1′ = 1 und h1, pi = 1. Dann gilt 1 = h1, pi = hM1, pi = h1, M∗ pi Beweis(⇐=): Sei umgekehrt h1, pi = 1 und h1, M∗ pi = 1 für p ∈ P. Dann folgt hM1 − 1, pi = 0 für alle p ∈ P. Da P total in C∗ ist, folgt M1 − 1 = 0. Folgerung: M ≥ 0, M1 = 1 ⇐⇒ M∗ P ⊂ P′ . 138 8 ZUSTANDSÄNDERUNGEN Satz: (1184 S.135) |Mg| ≤ M|g| ⇐⇒ M ≥ 0 Beweis(=⇒): g ≥ 0, 0 ≤ |Mg| ≤ M|g| = Mg Beweis(⇐=): |Mg| = |M(g+ − g− )| = |Mg+ − Mg− | ≤ |Mg+ | + |Mg− | = Mg+ + Mg− = M(g+ + g− ) = M|g|. Die Positivität wurde im Schritt |Mg± | = Mg± benutzt. Satz: (siehe 1184 S.169) Es sei M1 = 1. Dann ist M ≥ 0 ⇐⇒ kMk ≤ 1 Beweis(=⇒): M ≥ 0 =⇒ |Mg| ≤ M|g| ≤ Mkgk · 1 = kgk =⇒ supg |Mg| ≤ kgk =⇒ kMk ≤ 1. Tatsächlich gilt kMk = 1, wenn man g = 1 setzt. Beweis(⇐=): Zum Beweis benutzen wir die Äquivalenz kg − f k ≤ r ⇐⇒ f − r 1 ≤ g ≤ f + r 1 Es sei 0 ≤ g ≤ 2 =⇒ −1 ≤ g − 1 ≤ 1 =⇒ kg − 1k ≤ 1 Jetzt gilt kMg − 1k = kMg − M1k = kM(g − 1)k ≤ kg − 1k ≤ 1 =⇒ −1 ≤ Mg − 1 ≤ 1 =⇒ 0 ≤ Mg ≤ 2. Satz: M ist konvex. Beweis: Es sei M1 , M2 ∈ M und α1 , α2 ∈ R mit α1 ≥ 0, α2 ≥ 0 und α1 + α2 = 1. Wir beweisen α1 M1 + α2 M2 ∈ M: Da α1 ≥ 0, α2 ≥ 0 und die Menge der positiven Operatoren einen Kegel bilden, ist auch α1 M1 + α2 M2 ≥ 0. Weiter gilt (α1 M1 + α2 M2 )1′ = α1 M1 1′ + α2 M2 1′ = α1 1 + α2 1 = (α1 + α2 )1 = 1. Satz: M(Z) bildet eine Halbgruppe. Die Identität I ist die Einheit. Beweis: Es sei M1 , M2 ∈ M(Z). Wir beweisen M2 M1 ∈ M(Z). Es sei g ≥ 0, dann ist M1 g ≥ 0 und M2 (M1 g) ≥ 0, weil M1 , M2 positive Operatoren sind. Es sei Mi 1 = 1. Dann ist M2 M1 1 = M2 1 = 1. Zum Beweis, daß I die Einheit ist, ist zu zeigen, daß I Markowoperator ist, was wegen Ig = g für alle g ∈ C(Z) offensichtlich ist. 8.4.2 Beispiele → R eine stetig differenzierbare, monoton nicht ÜA 28) Es sei Z = Z′ = [0, 1]. und h : [0, 1] − fallende Funktion mit h(0) = 0 und h(z) > 0 für z > 0. Wir definieren einen Operator M : C(Z′ ) − → C(Z) durch Z z 1 (Mg)(z) = h′ (z ′ )g(z ′ )dz ′ h(z) 0 Beweisen Sie, daß es sich um einen Markowoperator handelt. Bestimmen Sie den adjungierten Operator. ÜA 29) Es sei (Z, C, P) (Z′ , C′ , P′ ) gegeben. Es seien h1 , ..., hn ∈ C. Weiter seien A1 , ..., An disjunkte abgeschlossene Teilmengen von Z′ und p1 , ..., pn W-Maße aus P′ mit pi (Ai ) = 1. Welche Eigenschaften müssen die hi haben, damit der Operator Xn hg, pi ihi Mg = i=1 ein Markovoperator M : C(Z′ ) − → C(Z) ist? Wann ist M ein Projektor? 139 8.4 Markowoperatoren 8.4.3 Darstellung von Markowoperatoren. Bedeutung des Integralkerns Wie jeder beschränkten Operator kann man auch Markowoperatoren auf eindeutige Weise als Integraloperatoren mit einem Integralkern ω(B ′ , z) darstellen. Es gilt Z (Mg)(z) = g(z ′ )ω(dz ′ , z) = hg, ω(·, z)i (26) ′ Z Z ∗ ′ (M p)(B ) = ω(B ′ , z)p(dz) = hω(B ′, ·), pi (27) Z Der Integralkern ω hat folgende speziellen Eigenschaften, die aus den Eigenschaften von Markowoperatoren folgen. • ω(B ′ , z) ≥ 0 (folgt aus M ≥ 0) • ω(Z′ , ·) = 1 (folgt aus M1′ = 1) • ω : B′ × Z − → [0, 1] • ω(·, z) ∈ P(Z′ ) • ω(B ′ , ·) ∈ C(Z) Offenbar ist ω(B ′ , z) = (M∗ δz )(B ′ ). Die Funktion ω(B ′, z) läßt sich für festes z als Wahrscheinlichkeit interpretieren, nämlich als Wahrscheinlichkeit, daß sich das System nachher (nach der Zustandsänderung) in einem Zustand aus B ′ befindet, wenn es sich vorher im Zustand z befand. Daher wird der Integralkern ω(B ′, z) oft auch als Übergangswahrscheinlichkeit bezeichnet. Die Menge der Markovoperatoren M(Z) ist eine konvexe Untermenge der Algebra L(C) und bildet eine nichtkommutative Halbgruppe weil M = M2 M1 wieder Markovoperator ist. Hieraus folgt, daß für die Kerne (das seien entsprechend ω, ω2, ω1 ) Z ω(B, z) = ω2 (B, ·), ω1 (·, z) = ω2 (B, z ′ )ω1 (dz ′ , z) Z gilt. Diese Eigenschaft heißt manchmal auch Markowbedingung. Hier ist sie eine Folge davon, daß M eine Halbgruppe ist und keine zu fordernde Bedingung. 8.4.4 Ungleichungen mit Markowoperatoren Markowoperatoren genügen einer Vielzahl von fundamentalen Ungleichungen, die relativ einfach zu beweisen sind. • |Mg| ≤ M|g| (siehe Satz auf S. 148). • gmin ≤ (Mg)(z) ≤ gmax Beweis: Folgt aus gmin 1 ≤ g ≤ gmax 1 nach Anwendung von M auf diese Ungleichung. Bemerkung: Diese Ungleichung wird häufig “Maximumprinzip” genannt und bezeichnet die Eigenschaft von gewissen Differentialgleichungen, daß der Wertebereich der Lösung innerhalb gewisser Grenzen bleibt. Das hängt damit zusammen, daß die Lösungsoperatoren dieser Differentialgleichungen Markowoperatoren sind. • MC[a,b] ⊂ C[a,b] (ist einen andere Formulierung des Maximumprinzips). 140 8 ZUSTANDSÄNDERUNGEN • (M − I)g (zmax ) ≤ 0 ≤ (M − I)g (zmin ). Beweis: Folgt aus gmin = g(zmin ) ≤ (Mg)(zmin ) und (Mg)(zmax ) ≤ g(zmax ) ≤ gmax Des weiteren gibt es viele Ungleichungen, die für reelle Zahlen bekannt sind und sich wörtlich auf Markowoperatoren übertragen lassen. Der Beweis kann häufig nach der selben Methode ablaufen, die gleich für die Tschebyschew-Ungleichung demonstriert wird. Der Beweis basiert darauf, daß zwischen Ungleichungen für reelle Zahlen wie g(z) ≥ 0 und Ungleichungen für Funktionen g ≥ 0 hin- und hergesprungen wird, indem man die Argumente fixiert bez. beweglich läßt. Das ist möglich, weil Markowoperatoren positive Operatoren sind und deshalb auf Ungleichungen angewendet werden können. Außerdem bewirkt die 1-Erhaltung, daß Markowoperatoren Skalare nicht verändern, indem Sinn, daß M(c1) = cM1 = c1 gilt. • Tschebyschew-Ungleichung: Es seien f und g gleichsinnig monoton, dann gilt Mg · Mf ≤ M(g · f ). Beweis: Zwei Funktionen f und g heißen gleichsinnig monoton, wenn für alle z, z ′ ∈ Z gilt (beachte, daß die Funktionen selbst nicht monoton sein müssen): f (z) − f (z ′ ) g(z) − g(z ′ ) ≥ 0 In dieser Ungleichung fixieren wir als erstes z ′ und wenn dann M auf die Ungleichung mit beweglichem z an. Anschließend wird dasselbe nochmal für z durchgeführt. Das ergibt folgende Ungleichungskette: 0 ≤ f (z) − f (z ′ ) g(z) − g(z ′ ) = f (z)g(z) − f (z ′ )g(z) − g(z ′ )f (z) + f (z ′ )g(z ′ ) 0 ≤ f · g − f (z ′ ) · g − g(z ′ ) · f + f (z ′ )g(z ′ ) · 1 0 ≤ M(f · g) − f (z ′ ) · Mg − g(z ′ ) · Mf + f (z ′ )g(z ′ ) · 1 0 ≤ M(f · g) (z) − f (z ′ ) · (Mg)(z) − g(z ′ ) · (Mf )(z) + f (z ′ )g(z ′ ) 0 ≤ M(f · g) (z) · 1 − (Mg)(z) · f − (Mf )(z) · g + f · g 0 ≤ M(f · g) (z) · 1 − (Mg)(z) · (Mf ) − (Mf )(z) · Mg + M(f · g) 0 ≤ M(f · g) · 1 − (Mg) · (Mf ) − (Mf ) · (Mg) + M(f · g) 0 ≤ 2 M(f · g) − 2(Mg) · (Mf ) • Cauchy-Bunjakowski-Schwarz-Ungleichung: 2 M(f · g) ≤ Mf 2 · Mg 2 Beweis: Wie eben erhalten wir ausgehend von einer offensichtlichen Ungleichung für reelle Zahlen eine Ungleichung für Markowoperatoren: 2 0 ≤ f (z)g(z ′ ) − f (z ′ )g(z) = f 2 (z)g 2 (z ′ ) + f 2 (z ′ )g 2 (z) − 2f (z)g(z)f (z ′ )g(z ′ ) 0 ≤ g 2 (z ′ ) · f 2 + f 2 (z ′ ) · g 2 − 2f (z ′ )g(z ′ ) · f · g 0 ≤ g 2 (z ′ ) · Mf 2 + f 2 (z ′ ) · Mg 2 − 2f (z ′ )g(z ′ ) · M(f · g) 0 ≤ g 2 (z ′ ) · (Mf 2 )(z) + f 2 (z ′ ) · (Mg 2 )(z) − 2f (z ′ )g(z ′ ) · M(f · g) (z) 0 ≤ (Mf 2 )(z) · g 2 + (Mg 2 )(z) · f 2 − 2 M(f · g) (z) · f · g 0 ≤ (Mf 2 )(z) · (Mg 2 ) + (Mg 2 )(z) · (Mf 2 ) − 2 M(f · g) (z) · M(f · g) 0 ≤ 2(Mf 2 ) · (Mg 2 ) − 2 M(f · g) · M(f · g) 8.4 Markowoperatoren 141 Bemerkung: Im endlich dimensionalen Fall sind das Ungleichungen für Matrizen, die man explizit beweisen kann. Dabei wird deutlich, wie die Beweise “im Inneren” ablaufen. 8.4.5 Die Jensensche Ungleichung in C × P Im weiteren sei stets F : R − → R ∪ {+∞} eine konvexe Funktion. Satz: Es sei g ∈ C(Zn ) und p ∈ P(Zn ). Dann gilt ! n n X X pi F (zi ) ≥ F pi zi i=1 i=1 Satz: Es sei z1 , ..., zn ∈ Z und p ∈ P(Zn ). Dann gilt hF (g), pni ≥ F (hg, pni) (28) Satz: Es sei g ∈ C(Z) und p ∈ P(Z). Dann gilt hF (g), pi ≥ F (hg, pi) (29) Satz: Es sei g ∈ C(Z) und M ∈ M(Z). Dann gilt MF (g) ≥ F (Mg) (30) Satz: Es sei g ∈ C(Z), p ∈ P(Z) und M ∈ M(Z). Dann gilt hF (g), M∗ pi = hMF (g), pi ≥ hF (Mg) , pi (31) Die letzte Ungleichung heißt Karamata-Ungleichung und kann auch äquivalent als hF (g ′ ), p′i ≥ hF (g), pi mit p′ = M∗ p und g = Mg ′ , geschrieben werden. 8.4.6 Markowketten Findet in jedem Zeittakt dieselbe Zustandsänderung statt, erhält man eine Folge von Zuständen, die Markowkette genannt wird. • Definition 1: Eine Folge von Maßen (p0 , p1 , ...) heißt Markowkette, falls es einenMarkowoperator M gibt, sodaß pn+1 = M∗ pn . • Definition 2: Eine Markowkette ist ein Paar (M, p0 ). Die Trajektorie der Markowkette heißt die Folge (p0 , M∗ p0 , (M∗ )2 p0 , ...) • Wir sagen einfach: Ein Markowoperator generiert eine M-Kette und interessieren uns für die Folge der Potenzen eines gegebenen Markowoperators. Insbesondere interessiert uns, ob es ein M∞ = lim Mn gibt. n→∞ 142 8.4.7 8 ZUSTANDSÄNDERUNGEN Beispiel. Der Fall n = 2 Für Z = {1, 2} gibt es vier mögliche Funktionen ϕ : Z − → Z. Ihnen entsprechen die 4 deterministischen M-Operatoren 0 1 1 0 0 1 1 0 , M11 = , M10 = , M01 = M00 = 1 0 1 0 0 1 0 1 Invertierbar sind M00 und M11 . Ein allgemeiner Markowoperator hat die Matrix 1−a a 1 0 −a a M= = + =I+B b 1−b 0 1 b −b mit a, b ∈ [0, 1]. D.h., jedem Punkt aus [0, 1] × [0, 1] kann eineindeutig ein Markowoperator zugeordnet werden. Die deterministischen Markowoperatoren sind die extremalen Elemente dieser Menge. Wie berechnen Mn . Dazu zerlegen wir M. Es ist 1 1 −a 1 0 1−a a b a −1 −1 , C = C , C= =C M= 1 b 0 1−a−b b 1−b a + b −1 1 Hieraus folgt 1 b + a(1 − a − b)n a − a(1 − a − b)n 1 0 −1 n C = M =C 0 (1 − a − b)n a + b b − b(1 − a − b)n a + b(1 − a − b)n Man sieht, daß genau im Fall |1 − a − b| = β < 1 ein Grenzwert 1 b a ∞ P=M = a+b b a existiert. Es ist 1 p1 b b ∗ = P p= p2 a+b a a b a+b a a+b =µ P∗ ist ein Projektor auf den von µ aufgespannten Unterraum. Die Gleichung, die zu M∗ = I∗ + B∗ gehört ist p1 (n + 1) = p1 (n) − ap1 (n) + bp2 (n) p2 (n + 1) = p2 (n) + ap1 (n) − bp2 (n) Man kann diese Gleichung auf zwei Weisen interpretieren: • Es wird mit Wahrscheinlichkeit a vom Zustand 1 in den Zustand 2 und mit Wahrscheinlichkeit b vom Zustand 2 in den Zustand 1 gewechselt. Die Komplemente 1 − a und 1 − b bedeuten, daß kein Zustandswechsel stattfindet. • Es findet zwischen den beiden Zuständen 1 und 2 ein Austausch statt. Zu dem Anteil, der schon da ist, wird der a-te Anteil 1 − → 2 und der b-te Anteil 2 − → 1 transportiert. 143 8.4 Markowoperatoren 8.4.8 Ereignisketten und Markowketten Änderungen im Raum der physikalischen Zustände P werden durch adjungierte von Markowoperatoren beschrieben. Die Trajektorie eines physikalischen System, das im Zustand p0 startet, kann dann beschrieben werden durch eine Abfolge von Operatoren, die von einer diskreten (Zeitsprünge t0 → t1 , t1 → t2 , t3 → t4 ) oder kontinuierlichen Zeit (t2 ≤ t ≤ t3 ) abhängen: p0 M∗ (t0 →t1 ) → − p1 M∗ (t1 →t2 ) → − p2 M∗ (t2 ≤t≤t3 ) → − p3 M∗ (t3 →t4 ) → − p4 ... Ziel ist es, bei gegebenen Operatoren (Zustandsänderungen) die möglichen Zustände zu berechnen. Die einfachsten solchen Ketten mit diskreter Zeit sind Markowketten. 8.4.9 Markowprozesse Wir hatten Markowketten als Folgen von Maßen (p0 , p1 , p2 , ...) ⊂ P mit pn+1 = M∗ pn definiert mit einem Markowoperator M. Betrachtet man seine Potenzen als Funktion des Exponentes T(n) = Mn , dann ist T : N − → M wegen T(n + m) = T(n)T(m) = T(m)T(n) und T(0) = I ein Homomorphismus der kommutativen Halbgruppe N bezüglich der Addition. Analog kann man Homomorphismen der kommutativen Halbgruppe R+ bezüglich der Addition betrachten: T : R − → M. T(t) ist eine Operatorenhalbgruppe mit den Eigenschaften T(0) = I T(t1 + t2 ) = T(t1 )T(t2 ) = T(t2 )T(t1 ) Die Trajektorie p(t) = T∗ (t)p0 in P wird Markowprozeß genannt. Analog dazu, wie ein Markowoperator M (als erster Schritt) zusammen mit eimen Anfangswert p0 eine gesamte Markowkette T(n) = Mn definiert, definiert der Operator A (genannt Generator) durch die Differentialgleichung ṗ(t) = A∗ p(t), p(0) = p0 einen Markowprozeß T(t) = eAt . Während bei Markowketten M = T(1) gilt, gilt bei Markowprozessen A = T′ (0). Allerdings ist der Zusammenhang zwischen Generator, Differentialgleichung und Halbgruppe nicht trivial (im Gegensatz zu Markowketten) und wird durch relativ komplizierte Theoreme hergestellt. Damit beschäftigen wir uns im Kapitel 11. Ist eine Operatorhalbgruppe T(t) gegeben, so ist für alle t2 > t1 ≥ 0 der Operator T(t2 − t1 ) ein Markowoperator und beschreibt durch p(t2 ) = T∗ (t2 − t1 )p(t1 ) eine Zustandsänderung. Die Logik ist folgende: Wenn ich annehme, daß meine Trajektorie aus irgendeinem Grund eine Halbgruppe ist, stellt sich heraus, daß sie mit eine Diffgl. beschrieben werden kann. Es ist nicht so, daß diese Gleichung die einzig sinnvolle ist und deshalb alle Trajektorien Halbgruppen sind. Wenn heute häufig solche Gleichungen untersucht werden, dann liegt das nicht an ihrer physikalischen Unversalität sondern daran, daß sich diese Gleichung besonders einfach behandeln läßt und es eine ausgearbeitet Theorie dazu gibt. Und die Grundlagen dieser Theorie liegen gerade in der Halbgruppeneigenschaft. 144 8.4.10 8 ZUSTANDSÄNDERUNGEN Generatoren von Ketten ⇐⇒ Generatoren von Prozessen Kette Prozeß B A Halbgruppe M(n) = (I + B)n T(t) = exp(At) Anfangswert M(0) = I T(0) = I Generator B = M(1) − M(0) A = T′ (0) Gleichung g(n) − g(n − 1) = Bg(n − 1) g ′ (t) = Ag(t) Generator g(n) = Mg(n − 1) Gleichung Reihe Resolvente M(n) − M(n − 1) = BM(n − 1) n P M(n) = Bk k=0 ∞ P F(x) = (1 − x) n k xn M(n) T′ (t) = AT′(t) T(t) = k=0 S(λ) = λ n=0 = (1 − x)(I − x − xB)−1 = (I − ∞ P = x B)−1 1−x k=0 x= ∞ P R∞ k Ak tk! e−λt T(t)dt 0 = λ(λ − A)−1 = (I − λ1 A)−1 xB k 1−x = ∞ P k=0 1 1+λ λ= A k λ 1−x x F(x) = (1 − x)(I − xM)−1 =I+ ∞ P xn BMn−1 n=1 Randwerte F(0) = I S(∞) = I F(1) = M(∞) S(0) = T(∞) Hilbert- F(x)F(y)(x − y) = S(λ)S(µ)(µ − λ) = Identität = x(1 − y)F(x) − y(1 − x)F(y) = µS(λ) − λS(µ) Spektrum Kreis C−1 (1) linke Halbebene W-Dichte p(n) = (1 − x)xn p(t) = λe−λt Moment ∞ P n=0 n k p(n) = xk (1−x)k R∞ 0 tk p(t) = k! λk 8.5 Deterministische Markowoperatoren 8.5 145 Deterministische Markowoperatoren M ist eine konvexe Menge. Da ist es sinnvoll, sich für die Menge ihrer extremalen Elemente Me = extr M zu interessieren. Wenn Markowoperatoren allgemeine Zustandsänderungen sind, dann könnte man annehmen, daß die extremalen Elemente sowas wie deterministische Zustandsänderungen sind. Anderererseits wissen wir, daß adjungierte von Kompositionsoperatoren reine Zustände in reine Zustände überführen. Auch dieses Verhalten kann man als deterministisch bezeichnen. Schön wäre es, wenn beide Mengen miteinander zusammenhängen würden. Das ist tatsächlich der Fall. Die extremalen Elemente Me spielen unter den Markowoperatoren eine ausgezeichnete Rolle. Das zeigt folgender 8.5.1 Hauptsatz über deterministische Markowoperatoren Satz: Es sei M ∈ M ein Markowoperator. Dann sind folgende Aussagen äquivalent: i) Es existiert eine stetige Funktion ϕ : Z − → Z′ mit M = Mϕ . ii) M ∈ Me iii) M∗ Pe ⊂ P′e iv) M(g · f ) = Mg · Mf , f, g ∈ C (M ist ein algebraischer Homomorphismus) v) |Mg| = M|g|, g ∈ C (M ist ein Verbandshomomorphismus) vi) MF (g) = F (Mg), g ∈ C für strikt konvexe F : R − →R 8.5.2 Wirkung von deterministischen Markowoperatoren Die Eigenschaft, die deterministische Markowoperatoren aus praktischer Sicht am besten charakterisiert, ist die, ein Kompositionsoperator zu sein. Wir werden daher im weiteren deterministische Markowoperatoren stets als Mϕ bezeichnen. Die Menge der Kompositionsoperatoren bezeichnen wir mit K = {A ∈ L C(Z′ ), C(Z) : ∃ ϕ ∈ End(Z) : Ag = g ◦ ϕ} Offensichtlich sind Kompositionsoperatoren beschränkte lineare Operatoren. Mϕ g (z) = (g ◦ ϕ)(z) = g ϕ(z) Es gilt M∗ϕ δz = δϕ(z) Das folgt aus hg, M∗ϕ δz i = hMϕ g, δz i = hg ◦ ϕ, δz i = g ϕ(z) = hg, δϕ(z)i Die Wirkung des adjungierten eines Kompositionsoperators ist M∗ϕ p (B) = p ϕ−1 (B) = (p ◦ ϕ−1 )(B) Das folgt aus −1 M∗ϕ p (B) = h1B , M∗ϕ pi = hM∗∗ ϕ 1B , pi = h1B ◦ ϕ, pi = h1ϕ−1 (B) , pi = p ϕ (B) Die Gleichheit 1B ◦ ϕ = 1ϕ−1 (B) folgt aus ϕ(z) ∈ B ⇐⇒ z ∈ ϕ−1 (B). 146 8 ZUSTANDSÄNDERUNGEN Die Gleichung für die Definition des adjungierten eines deterministischen M-Operators hMϕ g, pi = hg, M∗ϕ pi als Integral geschrieben Z Z g ϕ(z) p(dz) = g(z ′ )p ϕ−1 (dz ′ ) Z Z′ ist also einfach die Formel für die Variablentransformation im Lebesgue-Integral. Zu beachten ist, daß es hier keine Jakobideterminante gibt. Die tritt nur auf, wenn man Dichten bezüglich des Lebesgue-Maßes betrachet (siehe Beispiel in Punkt 8.5.7). 8.5.3 Weitere Eigenschaften deterministischer Markowoperatoren Weiter gelten folgende weitgehend offensichtliche Eigenschaften: • Mϕ2 Mϕ1 = Mϕ2 ◦ϕ1 (Unterhalbgruppe) • Mϕ2 = Mϕ1 ⇐⇒ ϕ2 = ϕ1 • Mϕ ist surjektiv, gdw. ϕ ist injektiv. • Mϕ ist injektiv, gdw. ϕ ist surjektiv. • Das Spektrum von deterministischen Markowoperatoren liegt auf dem Einheitskreis (auf der Peripherie). Markowoperatoren können invertierbar sein. Im allgemeinen ist der inverse eines Markowoperators nicht wieder ein Markowoperator. Sollte das doch der Fall sein, muß der Markowoperator ein deterministischer sein. Das kann man sich leicht mit der Jensenschan Ungleichung klar machen. Es sei N = M−1 und M, N ∈ M. Dann gilt mit einer konvexen Funktion F sowohl MF (g) ≤ F (Mg) als auch NF (g) ≤ F (Ng). Setzt man in letzteren f = Ng, g = Mf , erhält man M−1 F (Mf ) ≤ F (f ) oder F (Mf ) ≤ MF (f ). Zusammen mit der ersten Ungleichung folgt Gleichheit und damit, daß M ein deterministischer Markowoperator ist. Weiter gilt der Satz: ∃M−1 ⇐⇒ ∃ ϕ ∈ Aut(Z) mit M = Mϕ und M−1 = Mϕ−1 . 8.5.4 Ein Lemma über extremale Elemente Vor dem Beweis des Hauptsatzes über deterministische Markowoperatoren formulieren wir ein Lemma, daß den Umgang mit extremalen Elementen vereinfacht. Es sei C ⊂ X eine konvexe Menge in einem linearen Raum. Ein Element x ∈ C heißt extremal, wenn x = αx1 + (1 − α)x2 , x1 , x2 ∈ C, 0 < α < 1 folgt: x1 = x2 . Das ist so zu verstehen: Die Annahme, daß sich x als konvexe Kombination zweier verschiedener Elemente darstellen läßt, schlägt fehl. Lemma: Folgende Aussagen sind äquivalent: i) x ∈ C ist ein extremales Element. ii) Aus der Annahme, daß es x1 , x2 ∈ C mit x = 12 x1 + 21 x2 gibt, folgt x1 = x2 = x. iii) Aus x + x′ ∈ C und x − x′ ∈ C folgt x′ = 0. Beweis: ÜA 30) 8.5 Deterministische Markowoperatoren 8.5.5 147 Der Beweis des Hauptsatzes Zum Beweis werden folgende Schritte ausgeführt: i i ii i i (1) (2) (3) (4) (5) (6) (7) (8) → iii − → iv − → iv − → − v (9) → vi − → − i → iii − → − → − ii ii (10) → iii − Beweis von (1): Es sei M = Mϕ , dann gilt für alle g ∈ C hM∗ϕ δz , gi = hδz , Mϕ gi = hδz , g ◦ ϕi = g(ϕ(z)) = hδϕ (z), gi Folglich ist M∗ϕ δz = δϕ (z) ⊂ Pe . Beweis von (3): Es sei M = Mϕ , dann gilt Mϕ (g · f ) = (g · f ) ◦ ϕ = (g ◦ ϕ) · (f ◦ ϕ) = Mϕ g · Mϕ f Beweis von (7): Es sei M = Mϕ , dann gilt Mϕ |g| = |g| ◦ ϕ = |g(ϕ(z))| = |Mϕ g|. Beweis von (9): Es sei M = Mϕ , dann gilt: Mϕ F (g) = Mϕ (F ◦ g) = F ◦ g ◦ ϕ = F (g ◦ ϕ) = F (Mϕ g) . Beweis von (2): Konstruktiv: Es sei M∗ δz = δz ′ . Wir definieren ϕ als ϕ(z) = z ′ . Die Stetigkeit von ϕ folgt aus der Stetigkeit von M und damit M∗ . Beweis von (5): (siehe Semadeni S. 83). Angenommen, M ist extremaler Punkt. Für fixiertes h definieren wir Ag := M(g ·h)−Mg ·Mh. Sollten M + A als auch M − A Markowoperatoren sein, liegen sie in der konvexen Menge M. Dann ist aber nach dem Lemma über extremale Elemente A = O, was den Beweis liefert. Wir beweisen, daß M ± A ∈ M: Offensichtlich ist (M ± A)1 = 1, weil A1 = 0. Zum Beweis der Positivität sei g ≥ 0 und h ∈ C[0,1] . Dann gilt (M + A)g = Mg + M(g · h) − Mg · Mh = (1 − Mh) · Mg + M(g · h) ≥ 0 (M − A)g = Mg − M(g · h) + Mg · Mh = M g · (1 − h) + Mg · Mh ≥ 0 Beweis von (6): Es sei M(g · h) = Mg · Mh, also auch Mg 2 = (Mg)2 . Wir setzen M = 1 M1 + 12 M2 mit M1 , M2 ∈ M und beweisen M1 = M2 . Es ist 2 1 (M1 g)2 + 4 1 = (M1 g 2) + 2 (Mg)2 = Mg 2 1 1 (M2 g)2 + (M1 g) · (M2 g) 4 2 1 1 1 (M2 g 2 ) ≥ (M1 g)2 + (M2 g)2 2 2 2 Im letzten Schritt wurde die Jensensche Ungleichung mit der konvexen Funktion F (x) = x3 verwendet. Aus Mg 2 = (Mg)2 folgt 1 1 1 1 0 ≥ (M1 g)2 + (M2 g)2 − (M1 g) · (M2 g) = (M1 g − M2 g)2 4 4 2 4 148 8 ZUSTANDSÄNDERUNGEN Hieraus folgt M1 g = M2 g und da g beliebig ist M1 = M2 . Beweis von (10): Let η = M∗ δz . Of course, η ∈ P. We get from MF (g) = F (Mg) F hg, ηi = F hg, M∗ δz i = F hMg, δz i = F (Mg)(z) = (MF (g))(z) = = MF (g), δz = F (g), M∗δz = F (g), η . (32) We will show that η ∈ Pe . Assuming the opposite, η 6∈ Pe . Then η can be represented as a convex combination, i.e., there are η1 , η2 ∈ P with η1 6= η2 and η = 21 η1 + 12 η2 . We have from inequality (29) that F (g), η1 ≥ F hg, η1i , F (g), η2 ≥ F hg, η2 i . (33) Using (32) and (33), we get 1 1 1 1 hg, η1i + hg, η2i = F hg, η1 + η2 i = F hg, ηi = F (g), η = F 2 2 2 2 1 1 1 1 = F (g), η1 + F (g), η2 ≥ F hg, η1 i + F hg, η2 i , 2 2 2 2 i.e., with x = hg, η1 i and y = hg, η2i, we get F 12 (x + y) ≥ 21 F (x) + 21 F (y). But F is strictly convex. Therefore, x = y. It follows that hg, η1i = hg, η2i, g ∈ C(Z), hence η1 = η2 , a contradiction. Beweis von (8): Analog zu (6) Beweis von (4): Analog zu (10) 8.5.6 Bemerkungen • Deterministische Markowoperatoren spielen in der Menge aller Markowoperatoren dieselbe Rolle wie Punktmaße in der Menge der Wahrscheinlichkeitsmaße. Das ist in folgender Tabelle zusammengetragen: 1) M ∈ Me 2) M ∈ extM 3) M(g · f ) = Mg · Mf 4) |Mg| = M|g| 5) M∗ Pe ⊂ Pe p ∈ Pe p ∈ extP hg · f, pi = hg, pihf, pi algebraischer Homomorphismus |hg, pi| = h|g|, pi Verbands-Homomorphismus • Anstelle von |Mg| = M|g| gilt auch äquivalent eine der folgenden Bedingungen: M(g ∨ f ) = Mg ∨ Mf M(g ∧ f ) = Mg ∧ Mf • Die Forderungen, daß ein Operator M ein algebraischer oder ein Verbandshomomorphismus ist, ist so stark, daß die Voraussetzung, daß er Markowoperator sein soll, nicht gebraucht wird. Beim Verbandshomomorphismus ist allerdings eine Normierung, etwa kMk = 1 zu fordern. • Neben den offensichtlichen Analogien zwischen M und P bzw. Me und Pe gibt es auch prinzipielle Unterschiede: 8.5 Deterministische Markowoperatoren 149 – Es ist z − → δz die kanonische Einbettung von Z in seinen bidualen C∗ . Es gibt zu End(Z) keinen dualen und damit auch keinen bidualen Raum. Daher ist auch Mϕ nicht soetwas wie das Bild der kanonische Einbettung von ϕ. v – Des weiteren gilt zwar P = conv(Pe ) , aber nicht ein Analogon zu M, weil nicht klar ist, in welcher Topologie der Abschluß zu betrachten ist. Selbstverständlich gilt aber conv(Me ) ⊂ M. • Falls ϕ unstetig ist, kann man Mϕ – wenn überhaupt – nicht auf ganz C definieren. Ist etwa Z = [0, 1] und ϕ(z) = z/4 für z < 1/2 und ϕ(z) = z/4 + 1/2 für z > 1/2, dann kann Mϕ nur auf Funktionen g mit g(1/4) = g(3/4) angewendet werden damit Mϕ g stetig ist. Das heißt, Mϕ ist nur auf einem abgeschlossenen Unterraum von C definiert. Damit läßt u.a. auch der adjungierte nicht eindeutig definieren. • Kann man doch eine geeignete Topologie auf M definieren, eine mit der M kompakt ist?. Was ergeben die vielen Operatortopologien? Ist der Abschluß von conv(Me ) in C∗∗ ? • Neben stetigen ϕ lassen sich auch Borelfunktionen ϕ∗ betrachten: ϕ−1 → B(Z) ∗ : B(Z) − M∗ϕ∗ hat auch Sinn, weil ϕ−1 ∗ (B) wieder eine Borelmenge ist. Es gibt aber keinen beschränkten überall auf C(Z) definierten Operator N mit N∗ = M∗ϕ∗ . 8.6 Fixpunktsätze 8.6 151 Fixpunktsätze Per Definition hat jeder Markowoperator M ∈ M(Z) einen Fixpunkt, nämlich 1, wegen M1 = 1. Mit anderen Worten hat jeder Markowoperator den Eigenwert 1 mit der dazugehörigen Eigenfunktion 1. Damit hat auch der adjungierte Operator M∗ den Eigenwert 1 und es gibt ein dazugehörigen Eigenmaß µ ∈ C∗ mit M∗ µ = µ (folgt aus dem Satz von Hahn-Banach). Damit hat also auch jeder adjungierte eines Markowoperators einen Fixpunkt. Da ein allgemeines Maß µ ∈ C∗ keine besondere physikalische Bedeutung hat, ist dieser Fakt nicht von besonderem Interesse. Es stellt sich aber heraus, daß jeder adjungierte eines Markowoperators sogar einen Fixpunkt µ ∈ P besitzt. Das ist eine nichttriviale Aussage. Sie bedeutet, daß es für jede Zustandsänderung stets (wenigstens) einen Zustand gibt, der sich nicht ändert. Eine entsprechende Aussage gibt es in der deterministischen Welt. Offensichtlich hat für Z = {z1 , z1 } die Zustandsänderung, die die Zustände z 1 und z2vertauscht, keinen Fixpunkt. Der zugehörige deterministische 0 1 hat den Fixpunkt µ = ( 12 , 21 ). Markowoperator M∗ = 1 0 Ein weiters Beispiel ist die Drehung des Einheitskreises (nur die Peripherie) um einen Winkel ϕ. Diese Drehung hat keinen Fixpunkt. Der M-Operator M∗ϕ hat einen Fixpunkt, nämlich das uniforme Maß (Lebesgue-Maß). Man kann sich das so vorstellen, daß die konstante Funktion bei einer Drehung auf sich selbst überführt wird. Die Existenz eines Fixpunktes µ ∈ P zu jedem adjungierten eines Markowoperators folgt aus dem Fixpunktsatz von Schauder-Tichonow, der für allgemeine stetige Abbildungen (nicht unbedingt lineare) anwendbar ist. Im Zusammenhang mit Markowoperatoren wird zur Existenz eines Fixpunktes des adjungierten meist der Satz von Krein-Rutman herangezogen, der noch weitergehende aussagen über den Spektralradius eines Markowoperators macht. Im endlich dimensionalen Fall (für Matrizen) ist dieser Satz als Satz von Frobenius-Perron bekannt. Darüber hinaus stellt sich heraus, daß auch die adjungierten von Scharen von kommutierenden Markowoperatoren einen gemeinsamen Fixpunkt haben. Diese Aussage liefert der Fixpunktsatz von Markow-Kakutani. Dieser Fixpunktsatz kann insbesondere zum Beweis dafür verwendet werden, daß jede Halbgruppe T(t) einen Fixpunkt hat. Genauer: Zu jeder Halbgruppe von Markowoperatoren T(t) gibt es ein µ ∈ P, sodaß T∗ (t)µ = µ. Hierbei hängt µ nicht von t ab. Im Gegensatz zum Banachschen Fixpunktsatz, der die Existenz eines einzigen Fixpunktes beweist und zudem auch noch konstruktiv ist, trifft das für die erwähnten Fixpunktsätze nicht zu. Das ist kein Mangel der Methode, denn die untersuchten Abbildungen – etwa die identische Abbildung – haben im allgemeinen keinen eindeutigen Fixpunkt. Es können nur allgemeine Aussagen, wie die Konvexität und Kompaktheit der Fixpunktmenge getroffen werden. Die oft interesierende Einzigkeit des Fixpunktes muß mit anderen Methoden (meistens Kontraktionsmethoden, die auf dem Banachschen Fixpunktsatz beruhen) bewiesen werden. 8.6.1 Definitionen Im Zusammenhang mit Markowketten und Markowprozessen gibt es für Fixpunkte andere Bezeichnungen. • Ein stationärer Punkt einer Markowkette ist der Fixpunkt des adjungierten des zugehörenden Markowoperators. Es gilt T∗ (n)µ = µ für alle n ∈ N. 152 8 ZUSTANDSÄNDERUNGEN • Ein stationärer Punkt eines Markowprozesses ist der Fixpunkt der adjungierten der zugehörenden Markowhalbgruppe (nach dem Satz von Markow-Kakutani). Es gilt T∗ (t)µ = µ für alle t ∈ R+ . • Ein Gleichgewichtspunkt einer Markowkette mit Anfangswert p0 ist der Grenzwert p∞ = lim T∗ (n)p0 , falls er existiert. Ein Gleichgewichtspunkt ist stets ein stationärer n→∞ Punkt. Die Umkehrung gilt nicht, was offensichtlich ist, da es mehrere stationäre Punkte aber zu einem Anfangswert p0 nur einen Gleichgewichtspunkt (wenn überhaupt) geben kann. • Ein Gleichgewichtspunkt eines Markowprozesses mit Anfangswert p0 ist der Grenzwert p∞ = lim T∗ (t)p0 , falls er existiert. Ein Gleichgewichtspunkt ist stets ein stationärer t→∞ Punkt. Die Umkehrung gilt nicht. Die Bestimmung von stationären Punkten ist im allgemeinen einfacher als der Beweis der Existenz eines Gleichgewichtspunkt Im Zusammenhnag mit stationären Punkten und Gleichgewichtspunkten stehen folgende Aufgaben, die im speziellen Fall sehr schwer sein könen. • Bestimmung der stationären Punkte (im allgemeinen die einfachste der Aufgaben). • Gibt es einen einzigen stationären Punkt? • Beweis der Konvergenz zum Gleichgewichtspunkt für einen Anfangswert. • Falls es einen einzigen stationären Punkt gibt, kann man beweisen, daß alle Trajektorien (d.h. für alle Anfangswerte) gegen diesen Punkt konvergieren? • Welche stationären Punkte sind auch Gleichgewichtspunkte für spezielle (oder alle) Anfangswerte? • Kann man die Geschwindigkeit der Bewegung zum Gleichgewichtspunkt abschätzen? 8.6.2 Der Fixpunktsatz von Schauder-Tichonov Satz: Sei X ein hausdorffscher, topologischer Vektorraum und C ⊂ X eine nichtleere, kompakte und konvexe Teilmenge. Dann besitzt jede stetige Abbildung ϕ : C − → C einen Fixpunkt. Beweis: Siehe ... Wir betrachten die Menge P ⊂ C∗ . C∗ ist mit der vagen Topologie ein Hausdorffraum. Die Menge P ist konvex und kompakt (in der vagen Topologie). Es sei M∗ der adjungierte eines Markowoperators. Er bildet die Menge P auf sich selbst ab. Da M stark stetig ist, ist M∗ vage stetig. Damit sind die Voraussetzungen für die Anwendung des Fixpunktsatz von SchauderTichonov erfüllt. 8.6.3 Der Satz von Krein-Rutman Satz: Es sei X ein Banachverband und A ein positiver Operator mit positivem Spektralradius 1 ≤ r(A) > 0. Dann gibt es ein positives (nicht triviales) Element x ∈ X+ mit Ax = r(A)x. Mit anderen Worten: für positive Operatoren ist der Spektralradius ein Eigenwert zu dem positver Eigenvektor gehört. Beweis: Siehe ... 8.6 Fixpunktsätze 8.6.4 153 Der Fixpunktsatz von Markow-Kakutani Bevor wir den Satz formulieren führen wir zwei Definitionen ein (X sei ein Vektorraum und C ⊂ X eine konvexe Teilmenge): Eine Abbildung f : C − → C heißt auf C affin, wenn für α ∈ [0, 1] und x, y ∈ C gilt: f (αx + (1 − α)y) = αf (x) + (1 − α)f (y) Offensichtlich sind lineare Abbildungen affin. Die Umkehrung gilt nicht, denn lineare Abbildungen bilden die 0 in die 0 ab, was für affine Abbildungen nicht der Fall sein muß. Zwei Abbildungen f, g : C − → C kommutieren, falls f ◦ g = g ◦ f . Satz: Sei X ein hausdorffscher, topologischer Vektorraum und C ⊂ X eine nichtleere, kompakte und konvexe Teilmenge. Weiter sei Γ eine Menge stetiger, kommutierender affiner Abbildungen von C nach C. Dann existiert ein Fixpunkt x ∈ C mit f (x) = x für alle f ∈ Γ. Beweis: Der Unterschied in den Voraussetzungen zum Fixpunktsatz von Schauder-Tichonov besteht in der viel schärferen Forderung der Affinität der Abbildungen. Es sei F (f ) ⊂ C die Menge aller Fixpunkte von f . F (f ) hat eine Reihe wichtiger Eigenschaften: • F (f ) 6= ∅, da nach dem Satz von Schauder-Tichonov wenigstens ein Fixpunkt existiert. • F (f ) ist konvex, da f affin ist. • F (f ) ist abgeschlossen • F (f ) ist kompakt, da sie eine abgeschlossene Teilmenge einer kompakten Menge ist. Wir betrachten f, g ∈ Γ. Es sei x ∈ F (f ). Da f und g kommutieren gilt f (g(x)) = g(f (x)) = g(x). Folglich ist auch g(x) ∈ F (f ). Die Einschränkung von g auf die konvexe und kompakte Menge F (f ) hat nach dem Schauder-Tichonov einen Fixpunkt. D.h., es existiert ein Punkt x0 ∈ F (f ), der auch Fixpunkt von g ist. Also ist F (f ) ∩ F (g) 6= ∅. Analog kann man zeigen, daß endliche Teilmenge aus Γ einen gemeinsamen Fixpunkt hat: \n F (fi ) 6= ∅ (35) i=1 Hieraus folgt, daß auch \n F (f ) 6= ∅ f ∈Γ da C kompakt ist. Der letzte Schluß ist als “finite intersection S folgt einfach aus der DefiT property” bekannt und nition der Kompaktheit: Angenommen, nf∈Γ F (f ) = ∅, dann ist nf∈Γ (Z \ F (f )) = Z. Das ist eine offene Überdeckung von Z. Aus ihr kann Z eine endliche S man wegen der Kompaktheit von T offene Überdeckung auswählen. Das sei ni=1 (Z \ F (fi )) = Z. Aber das ist zu ni=1 F (fi ) = ∅ äquivalent, was ein Widerspruch zu (35) ist. Für Halbgruppen T(t) läßt sich diese Aussage noch einfacher beweisen: (siehe 1184 S.167): T∗ (t0 )p = p =⇒R ∃ q ∈ D(A∗ ) ∩ P: A∗ q = 0 und supp p ⊂ supp q Rt t Beweis: q := t10 0 0 T(s)pds, T∗ (t)q = q, p ≥ 0 =⇒ q ≥ 0, hq, 1i = t10 0 0 hp, 1ids = tt00 = 1 159 9 Multiplikationsoperatoren. Dichten. Lebesgueräume Wir haben festgestellt, daß die eigentlich interessanten Größen Maße sind. Gleichungen, die physikalische Größen beschreiben sollten also Gleichungen sein, dessen Lösungen Maße sind. Wenn wir uns die üblichen Gleichungen anschauen, stellen wir fest, daß sie immer Funktionen beschreiben, keine Maße. Auch werden die Gleichungen selten in C und nie in C∗ betrachtet. Man betrachtet Gleichungen in Lebesgueräumen oder Sobolevräumen. Wie hängt das mit unserem mathematischen Rahmen zusammen? Die zugrunde liegenden physikalischen Probleme sind ja weitestgehend dieselben. Die Funktionen, nach denen in Lebesgue- oder Sobolevräumen gesucht wird sind Dichten von Maßen. Das ist eine sehr gute Idee, denn Dichten sind Funktionen von Punkten, mit denen man viel besser arbeiten kann als mit Maßen. Wie immer in der Mathematik, wenn man denkt, man erleichtert sich das Leben, hat das eine Kehrseite. Deshalb ist es wichtig, genau zu untersuchen, was der Übergang von Maßen zu Dichten bedeutet. Formal gesprochen ist eine Dichte der Quotient zweier Maße. Aus physikalischer Sicht bedeutet das, man betrachtet anstelle zweier extensiver Größen eine intensive Größe, ihren Quotient. Hier sieht man schon, daß man zur Definition einer Dichte zwei Maße braucht. Mathematisch sagt man auch, man betrachtet die Dichte eines Maßes bezüglich eines anderen, gegebenen Maßes. Wenn man Dichten betrachtet, muß man also als erstes ein Maß wählen bezüglich dessen man Dichten von anderen Maße finden will. Es ist – wie immer in der Mathematik – sinnvoll, wenn diese Wahl kanonisch erfolgt, wenn also das betrachtete Problem die Wahl vornimmt. 9.1 9.1.1 Multiplikationsoperatoren Der Operator Pg und sein adjungierter Die Multiplikation reeller Zahlen induziert in C(Z) die Struktur einer kommutativen Banachalgebra: (f · g)(z) = f (z)g(z). Folglich hat der Ausdruck hf · g, pi, f, g ∈ C, p ∈ C∗ einen Sinn. Je nach dem welches Element man festhält lassen sich die anderen als Wirkung dieses Elements auf ein anderes betrachten. Damit lassen sich verschiedene Multiplikationsoperatoren definieren. Es sei Pg : C(Z) − → C(Z), Pg f = f · g, (Pg f )(z) = f (z) · g(z) Dieser Operator hat folgende weitgehend offensichlichen Eigenschaften: • Pg f = Pf g • Pg ≥ 0 ⇐⇒ g ≥ 0 • kPg k = kgk • Pg 1 = g Im endlichdimensionalen Fall entspricht Pg eine Diagonalmatrix. Zu Pg läßt sich der adjungierte und biadjungierte definieren: P∗g : C∗ (Z) − → C∗ (Z) P∗∗ : C∗∗ (Z) − → C∗∗ (Z) g 160 9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME Es ist hPg f, pi = hf, P∗g pi = hP∗∗ g f, pi Auf der rechten Seite ist die stetige Funktion f als Element aus C∗∗ (Z) aufzufassen. Offensichtlich ist Pg = P∗∗ g auf C. P∗∗ ist auf ganz C∗∗ (Z) definiert und wirkt auf charakteristischen Funktionen auch als Multig plikationsoperator: P∗∗ g 1B = g · 1B was die Einschränkung von g auf B bedeutet. Damit kann man die Wirkung von P∗g beschreiben. Es sei q = P∗g p, dann ist Z ∗ ∗ ∗∗ q(B) = (Pg p)(B) = h1B , Pg pi = hPg 1B , pi = hg · 1B , pi = g(z)p(dz) B Dieser Ausdruck wird formal auch häufig q = g · p geschrieben. Er definiert ein neues Maß als Produkt eines Maßes mit einer stetigen Funktion. Da P∗g ein beschränkter Operator auf C∗ ist, liefert diese Konstruktion stets wieder ein Radonmaß. g wird Dichte des Maßes q bezüglich des Maßes p genannt. Es sei Ip = q ∈ C∗ | ∃g ∈ C, q = P∗g p} Ip ist die Menge aller Maße, die bezüglich des gegebenen Maßes p eine stetige Dichte haben. ÜA 28) Bestimme das Spektrum von Pg in C. 9.1.2 Der Operator Qp und der Satz von Radon-Nikodym Wir betrachten für gegebenes p ∈ C∗ den Operator C(Z) − → C∗ (Z), Qp g = P∗g p Z (Qp g)(B) = g(z)p(dz) Qp : B ÜA Als beschränkter Operator läßt sich Qp als Integraloperator darstellen: Z (Qp g)(B) = g(z)a(B, dz) B Bestimme des Integralkern a(B, A). Lösung: Es gilt a(B, A) = (Q∗p 1A )(B) = h1A , Qp 1B i = h1A · 1B , pi = h1A∩B , pi = p(A ∩ B) Dieser Operator hat folgende weitgehend offensichlichen Eigenschaften: • Qp ≥ 0 ⇐⇒ p ≥ 0 • kQp k = kpk • Qp 1 = p 161 9.1 Multiplikationsoperatoren • Q∗p : C∗∗ (Z) − → C∗ (Z), Q∗p |C = Qp (weil f · g = g · f ) • p(B) = 0 =⇒ q(B) = (Qp g)(B) = 0, g ∈ Ip . Von besonderem Interesse ist das umgekehrte Problem: Es sei ein Maß p gegeben. Wann hat ein Maß q eine Dichte bezüglich p. Die letzte der eben betrachteten Eigenschaften zeigt, daß das nicht für jedes Maß q der Fall ist sondern eine notwendige Bedingung ist, daß die Nullmengen bezüglich p auch Nullmengen bezüglich q sein müssen. Tatsächlich ist diese bedingung in gewissem Sinne auch hinreichend. Es gilt der berühmte Satz von Radon-Nikodym: Es seien p und q aus P (wir betrachten hier nur positive Maße) mit der Eigenschaft p(B) = 0 =⇒ q(B)R = 0 für alle B ∈ B. Dann existiert eine eindeutig definierte Funktion h ∈ L1 (p) mit q(B) = B h(z)p(dz). Der Beweis des Satzes läßt sich in DS I nachlesen. Er ist nicht konstruktiv und benutzt das Auswahlaxiom. Darauf wird in vielen Büchern nicht explizit hingewiesen, weshalb der Beweis in DS I sehr empfehlenswert ist. Bemerkungen: • Die Dichte wird auch Radon-Nikodym Ableitung genannt und mit h = q/p oder h = dq/dp bezeichnet. • Gilt die Beziehung p(B) = 0 =⇒ q(B) = 0, so sagt man auch, daß q absolut stetig bezügl. p ist und schreibt q ≪ p. • Aus der Integraldarstellung folgt h(z) = q(B) , z∈B p(B) falls h auf B konstant ist. Damit erinnert diese Formel stark an die Definition einer intensiven Größe als Quotient zweier extensiven Größen. • Hat q bezüglich p die Dichte h und r bezüglich q die Dichte g, so hat r bezüglich p die Dichte g · h. Es gilt Z Z r(B) = h(z)q(dz) = h(z)g(z)p(dz) B B • Die Eindeutigkeit der Dichte bezieht sich nur auf Dichten in L1 (p). Auf Nullmengen von p ist es egal, welchen Wert die Dichte annimmt. Der Satz von Radon-Nikodym ist ein reiner Existenzsatz und hilft oft nicht weiter, wenn man eine Dichte aus zwei gegebenen Maßen tatsächlich berechnen möchte. Der Satz behauptet die eindeutige Existenz einer Dichte im Lebesgueraum L1 (p). Wir sind allerdings an stetigen Dichten interessiert, worüber der Satz keine Auskunft gibt. Die Stetigkeit ist einerseits wichtig, damit das Konzept der Dichte in unseren mathematischen Rahmen paßt und andererseits, da wir ausgehend von physikalischen Überlegungen wissen, daß eine intensive Größe sinnvollerweise ststig sein soll. Wir betrachten im weitern nur solche Maße p, q ∈ P mit einer stetigen Dichte g = q/p ≥ 0. Ausgehend von der Gleichung q = P∗g p = Qp g ist es natürlich, die Dichte g formal als g = Q−1 p q 162 9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME zu definieren. Um diese Darstellung zu rechtfertigen ist der Definitionsbereich von Q−1 p zu be−1 schreiben (er ist offensichtlich eine Teilmenge von Ip ) und zu untersuchen, wann Qp überhaupt eindeutig definiert ist. Es ist klar, daß auf offenen Mengen U mit p(U) = 0 auch q(U) = 0 gilt und deshalb g auf dieser Menge unbestimmt ist. Das ist für Funktionen aus L1 irrelevant, für stetige Funktionen auf Z aber wichtig. Andererseits ist klar, daß im endlichdimensionalen Fall Q−1 p stets auf dem ganzen raum eindeutig definiert ist, falls alle Komponenten von p echt positiv sind. Eine Verallgemeinerung hierfür wäre die Forderung, daß für alle U ∈ O, p(U) > 0 gilt. In diesem Fall läßt sich die Dichte auch am Punkt z definieren. Es sei Un eine Folge offener Mengen mit den Eigenschaften • p(Un ) > 0. • Un+1 ⊂ Un T • ∞ n=1 Un = {z} dann definieren wir g(z) als q(Un ) n→∞ p(Un ) g(z) = lim Es sei A die Menge aller Punkte, für die dieser Grenzwert existiert. Wie schreiben g = Q−1 p q, falls sich g von A zu einer stetigen Funktion auf Z fortsetzen läßt. Die entscheidende Voraussetzung ist hier, daß man die abgeschlossene Menge {z} als Durchschnitt offener Mengen darstellen kann. Das ist stets der Fall, da Z metrisierbar ist. In einem metrisierbaren Raum ist jede abgeschlossene Menge eine Gδ -Menge. Wir werden uns mit der Frage der Definition von Q−1 p nicht weiter beschäftigen. Es stellt sich heraus, daß wir die Probleme, in der wir den Operator Q−1 p eigentlich benötigen würden, auch −1 formulieren können, ohne die Verwendung von Qp . 163 9.2 Lebesgueräume 9.2 Lebesgueräume Wir betrachten für ein reelles r mit 1 < r < ∞ und ein µ ∈ P den Ausdruck Z r1 D E 1r r r = |f | , µ |f (z)| µ(dz) kf kr := kf kLr := kf kLr (µ) := Z Dieser Ausdruck ist für alle f ∈ C definiert und ist ein Norm. Wir bezeichnen den Banach-Raum, der durch die Vervollständigung von C in dieser Norm entsteht als Lr (µ)-Raum (Lebesgueraum). Der zu Lr duale Raum ist der Lr′ mit 1r + r1′ = 1. Die duale Paarung zwischen Lr (µ)- und Lr′ (µ)-Räumen bezeichnen wir mit runden Klammern Z (f, g)µ = hf · g, µi = f (z)g(z)µ(dz) . Z Die Elemente eines solchen Raumes werden üblicherweise als punktweise (bezüglich µ) gegebene Funktionen interpretiert. Es ist konsistenter, sich die Elemente in Lr (µ)-Räumen als Grenzwerte von Folgen stetiger Funktionen bezüglich dieser Norm vorzustellen. In diesem Sinn ist nicht klar, ob sich die Grenzwerte auch als Funktionen auf Z betrachten lassen. Streng genommen sind die Funktionen nur in solchen Punkten z definiert, für die µ({z}) 6= 0 gilt. Üblicherweise werden die Elemente in Lr (µ)-Räumen deshalb als “Klassen von Funktionen” bezeichnet, deren Vertreter – bis auf Werte auf Mengen vom Maß = 0 – übereinstimmen. In diesem Sinn ist nicht ganz klar, was denn Lr (µ) ∩ C ist. Für uns sind stetige Funktionen aus Lr (µ) solche, die Grenzwerte konstanter Folgen stetiger Funktionen sind. Diese Vorstellung entspricht der, die man sich von den reellen Zahlen als Grenzwerte von Folgen rationaler Zahlen macht. Diese Grenzwerte kann man sich natürlich nicht mehr als “rationale Zahlen” vorstellen. Sie benötigen ein völlig andere Darstellung. Unter den Folgen rationaler Zahlen gibt es natürlich auch solche, die gegen rationale Zahlen konvergieren, z.B. konstante Folgen. Es gelten folgende Eigenschaften: • Für stetige f gilt kf kr ≤ kf kC . Das folgt aus der Ungleichung r kf krr = h|f |r , µi ≤ supz∈Z |f (z)|r h1, µi = supz∈Z |f (z)| · 1 = kf krC • Konvergente Folgen in C konvergieren auch in Lr (µ) • Eine dichte Menge in C ist auch dicht in Lr (µ). • Die Fortsetzung eines in C dicht definierten Operators ist auch in Lr1 (µ) dicht definiert. • Zwei Räume Lr1 (µ) ⊂ Lr2 (µ) sind ineinader eingebettet gdw. r1 ≤ r2 . Wenn man ein Maß µ ausgezeichnet hat, dann kann man die Aufgabe in einem Lr (µ) betrachten (wir beschränken uns im weiteren auf den Hilbertraum L2 (µ). C ist per Definition dicht in L2 (µ) (er wurde ja als Abschluß definiert). Man kann die in C definierten Operatoren jetzt nach L2 (µ) erweitern. Frage: Welcher L2 (µ) ist für ein gegebenen Operatoren besonders gut geeignet? Natürlich der, indem der Operator besonders gute Eigenschaften hat. Was sind besonders gute Eigenschaften: • Beschränktheit, bzw, besonders kleine Norm. Wenn der Operator z.B. kontraktiv ist (Norm kleiner gleich 1), dann kann man ihn mehrfach anwenden. Wenn das nicht der Fall ist, besteht die Gefahr, daß das mehrfache Anwenden aus dem Raum herausführt. 164 9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME • Symmetrie (Selbstadjungiertheit). Symmetrische Operatoren lassen sich diagonalisieren, mit ihnen kann man gut rechnen. • Falls Symmetrie prinzipiell nicht möglich ist (weil das Spektrum nicht reell ist), sollte der Operator wenigstens normal sein. Ein Operator ist normal, wenn er mit seinem adjungierten kommutiert. Es stellt sich heraus, daß der richtige Raum der über dem stationären Maß ist. Auf diese Idee kann man folgendermaßen kommen: Wir betrachten eine Trajektorie p(t) für 0 ≤ t ≤ ∞ und nehmen an, daß sie gegen einen Gleichgewichtszustand p(∞) konvergiert. Weiter nehmen wir an, daß p(t) eine Dichte h(t) bezüglich eines gegebenen Maßes µ hat. Frage: Wann (für welches µ) liegt die Trajektorie der Dichte – oder wenigstens ein großer Teil – in L2 (µ)? Es ist klar, daß h(∞) in L2 (µ) liegt, wenn µ das stationäre Maß ist, denn dann ist h(∞) = 1 und das liegt überall. Wenn die Dichte im Gleichgewicht in L2 (µ) liegt, dann liegt sie vielleicht auch kurz davon drin oder sogar insgesamt, wenn p0 entsprechend gewählt wurde. 9.2.1 Markowoperatoren in Lr Satz: Die bekannte Kontraktivität von Markowoperatoren in C gilt auch für die Lr (µ)-Norm, falls M∗ µ = µ. Beweis: Das folgt aus der Karamata-Ungleichung (32) mit p = µ und der konvexen Funktion F (x) = |x|r . Es sei g ∈ C, dann gilt kMgkrLr = h|Mg|r , µi ≤ hM|g|r , µi = h|g|r , M∗ µi = h|g|r , µi = kgkrLr Aus L1 = M1 = 1 und k1kLr = 1 folgt die Gleichheit. Das ergibt die gesuchte Gleichheit 1 1 kMgkLr = h|Mg|r , µi r = h|g|r , µi r = kgkLr (37) Wie bekannt lassen sich beschränkte Operatoren mit der selben Norm fortsetzen. Es gilt also kLkLr = kMkLr = kMkC = 1 9.2.2 Der Raum L2 (µ) Von besonderer Bedeutung ist der (reelle) Hilberraum L2 (µ). Das Skalarprodukt in diesem Raum ist Z (g, f )µ = (f, g)µ = hf · g, µi = hf, Qµ gi = hg, Qµf i = f (z)g(z)µ(dz) . Z Die Fortsetzung eines Markowoperators M in L2 (µ) ist kontraktiv. Das folgt aus der Ungleichung (??) mit der speziellen konvexen Funktion F (x) = x2 . Es gilt kMgk2L2 = (Mg)2 , µ ≤ Mg 2 , µ = g 2, M∗ µ = g 2, µ = kgk2L2 Damit ist bewiesen, daß die Fortsetzung eines Markowoperators M in L2 (µ) die Norm 1 hat (weil neben der Ungleichung auch noch M1 = 1 und k1kL2 = 1 gilt. 9.2 Lebesgueräume 9.2.3 165 Operatoren in L2 (µ) und ihre adjungierten Es sei M : C −→ C ein Markowoperator und L seine Fortsetzung in L2 (µ). Als Operator im Hilberraum können wir seinen adjungierten Operator L∗ betrachten. Er ist durch die Gleichung (Lf, g)µ = (f, L∗ g)µ, f, g ∈ L2 (µ) definiert. Es seien f, g ∈ C. Für die linke Seite gilt dann (Lf, g)µ = hg · Mf, µi, f, g ∈ C Angenommen, auch L∗ ist die Fortsetzung eines beschränkten Operators X : C − → C, dann ist L∗ g = Xg (im allgemeinen ist nicht klar, ob L∗ g ∈ C für g ∈ C) und auch das Skalarprodukt auf der rechten Seite läßt sich als duale Paarung schreiben. Es gilt dann (Lf, g)µ = hg · Mf, µi = hf · Xg, µi = (f, L∗ g)µ , f, g ∈ C Sollte L = L∗ gelten, dann ist die Existenz eines entsprechenden X klar, es gilt X = M. Dieser Fall, daß die Fortsetzung eines Markowoperators in einen L2 ein selbstadjungierter Operator ist, ist ein besonderer Fall, was aus folgendem Satz klar wird: Satz: Die Fortsetzung eines Markowoperators M in einen L2 (µ) sei selbstadjungiert, dann ist das Maß, das den L2 -Raum gebildet hat, ein stationäres Maß von M∗ . Beweis: Die Fortsetzung von M sei L. Da L = L∗ , gilt hg · Mf, µi = hf · Mg, µi, f, g ∈ C Wir setzen f = 1. Das ergibt hg, µi = hMg, µi = hg, M∗µi, g ∈ C Aus der Beliebigkeit von g folgt M∗ µ = µ. Bemerkungen: Unter allen Operatoren in einem Hilbertraum spielen die selbstadjungierten eine besondere Rolle. Sie haben z.B. reelles Spektrum und lassen sich diagonalisieren. Diese besondere Eigenschaft erlangen Markowoperatoren also nur dann, wenn man sie in einem L2 über dem stationären Maß betrachtet. In allen anderen L2 -Räumen ist das nicht der Fall. Wenn man also ein Problem in einem L2 -Raum betrachten will, muß der richtige gewählt werden, nämlich der über einem stationären Maß. Es ist klar, daß ein Operator, der in C kein rein reelles Spektrum hat, in keinem L2 -Raum selbstadjungiert sein kann. Auch in diesem Fall, ist es sinnvoll den L2 -Raum über einem stationären Maß zu wählen. Der Operator kann sich dann als normal (kommutiert mit seinem adjungierten) herausstellen. Nicht jeder Operator mit rein reellem Spektrum ist selbstadjungiert in L2 (µ). Man kann sogar diagonalisierbare Matrizen finden, die diese Eigenschaft nicht haben. Der Fall, daß die Fortsetzung eines Markowoperators im L2 über einem seiner stationären Maße selbstadjungiert ist, wird detailierte Balance genannt und spielt eine wichtige Rolle in der Theorie der Markowprozesse und ihren physikalischen Anwendungen. Oft wird gerade dieser Fall behandelt, da sich hier relativ einfach Aussagen erzielen lassen. 166 9.2.4 9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME Der Operator X Wir nehmen im weiteren an daß es zu einem Markowoperator M und einem seiner stationären Maße µ einen beschränkten Operator X gibt, der die Gleichung hg · Mf, µi = hf · Xg, µi, f, g ∈ C (38) erfüllt und wollen seine Eigenschaften untersuchen. Die Ausdrücke auf der linken und rechten Seite von (38) lassen sich äquivalent umschreiben. Es gilt hg · Mf, µi = hMf, Qµ gi = hf, M∗ Qµ gi hf · Xg, µi = hXg, Qµ f i = hf, Qµ Xgi Zusammen mit (38) ergibt das die zu (38) äquivalente Gleichung hf, M∗ Qµ gi = hf, Qµ Xgi, f, g ∈ C (39) die wiederum zur Gleichung M∗ Qµ g = Qµ Xg, g ∈ C (40) als Gleichung in C∗ und diese wiederum äquivalent zur Operatorgleichung M∗ Qµ = Qµ X, ∈ L(C, C∗ ) (41) ist. Eine formale Lösung dieser Gleichung wäre ∗ X = Q−1 µ M Qµ (42) Aus der letzten Darstellung lassen sich formal folgende Eigenschaften herleiten: • X≥0 ∗ Beweis: Folgt aus der Positivität jedes einzelnen der Operatoren Q−1 µ , M und Qµ . ∗ −1 ∗ −1 • X1 = 1. Beweis: X1 = Q−1 µ M Qµ 1 = Qµ M µ = Qµ µ = 1 • X∗ µ = µ. Beweis: ∗ ∗ ∗ ∗∗ −1 −1 X∗ µ = (Q−1 µ M Qµ ) µ = Qµ M Qµ µ = Qµ MQµ µ = Qµ M1 = Qµ 1 = µ ∗ X ist also ein Markowoperator, dessen adjungierter dasselbe stationäre Maß hat. Diese Eigenschaften lassen sich streng aus (38) herleiten, wenn man folgende Bedingung an µ stellt: µ(U) > 0, U ∈ O(Z) Diese Bedingung entspricht der Bedingung µi > 0 im endlichdimensionalen Fall. ÜA 35) Beispiel: Es sei M = Mϕ ein deterministischer Markowoperator mit stetig invertierbarer Funktion ϕ. Berechne den entsprechenden Operator X. 169 9.3 Beispiele 9.3 Beispiele 9.3.1 Zwei Zustände Im einfachsten Fall zweier Zustände Z = {z1 , z2 } lassen sich viele Größen explizit berechnen. Die allgemeine darstellung eines Markowoperators (einer 2 × 2-Markowmatrix ist), seines adjungierten und des stationären Zustandes ist b 1−a b 1−a a ∗ a+b , µ= , M = M= a a 1−b b 1−b a+b mit a, b ∈ [0, 1]. Es gibt hier zwei Spezialfälle, die wir ausschließen wollen: 1) a = b = 0. Dann ist M = I, jeder Zustand ist stationär und alle Markowketten sind konstant 0 1 ∗ und M∗ beschreibt den deterministischen 2) a = b = 1. Dann ist M = M = 1 0 1 ⇐⇒ z♠ 2. Wechsel der Zustände z♠ Das sind die beiden invertierbaren deterministischen Operatoren. In allen anderen Fällen sind die Eigenwerte 1 und 1 − a − b. Für den zweiten Eigenwert gilt |1 − a − b| < 1. Das bedeutet, daß alle Folgen von Potenzen gegen den Projektor auf den durch µ aufgespannten Unterraum konvergieren: b a n a+b a+b lim M = b a n→∞ a+b a+b Wir untersuchen die Symmetrie der “Fortsetzung” L von M L2 (µ) (wegen C = R2 gilt L2 (µ) = R2 , aber mit anderer Norm und L = M). Der Operator Q−1 µ ist wegen a+b > 0 ein beschränkter ∗ ∗ Operator und die Einschränkung X von L läßt sich explizit durch X = Q−1 µ M Qµ berechnen: b a+b 0 1 − a b 0 1 − a a a+b b X= = =M a a 1−b b 1−b 0 a+b 0 a+b a Alternativ läßt sich die Symmetrie auch durch Berechnung des Skalarproduktes zeigen: ab (f1 − f2 )(g1 − g2 ) a+b Dieser Ausdruck ist offensichtlich symmtrisch bezüglich einer f ⇐⇒ g Vertauschung. Also ist (Lf, g)µ = (Lg, f )µ . Im zweidimensionalen ist also jeder Markowoperator selbstadjungiert, also ein detailierterBalance-Fall. Die für eine Markowkette typische Gleichung p(n + 1) = M∗ p(n) bedeutet ausgeschrieben (Lf, g)µ = hg · Mf, µi = − p1 (n + 1) = (1 − a)p1 (n) + bp2 (n) p2 (n + 1) = ap1 (n) + (1 − b)p2 (n) Es ist also a die Wahrscheinlichkeit, daß der Zustand z1 in den Zustand z2 übergeht und 1 − a die Wahrscheinlichkeit, daß das nicht passiert. Analoges gilt für b. Wir schreiben das als a z♠ z♠ 1 2. b ⇄ 170 9.3.2 9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME Rotation dreier Zustände Wir betrachten einen Zustandsraum mit drei Zuständen Z = {z1 , z2 , z3 } und Markowoperator, seinen adjungierten und des stationären Zustand. 1 c 1−c c 0 1−c 0 b 1 ∗ M= 0 1−a a , M = c 1−a 0 , µ= a 1 b 0 1−b 0 a 1−b b mit a, b, c ∈ (0, 1]. einen speziellen 1 1 1 + + c a b −1 1 Dieser Operator beschreibt den Übergang der Zustände z♠ 1 =⇒ z♠ 2 , z♠ 2 =⇒ z♠ 3 und z♠ 3 =⇒ z♠ 1 mit gewissen Wahrscheinlichkeiten. Alle anderen Übergänge sind nicht erlaubt. Wir können diesen Prozeß als zyklisch in positiven Drehsinn betrachten. ✓ ✉ c ✓ 2 ✓ ✓ ✴ ✓ ✉ a ♦ ❙ ❙ ❙ b ❙ ❙ ✲ ✉ 3 −1 ∗ Auch in diesem Fall ist der Operator Q−1 µ beschränkt. Wir erhalten für X = Qµ M Qµ (die −1 kürzt sich weg). Normierung 1c + a1 + 1b 1 c 0 0 1−c 0 b 0 0 1−c 0 c c 1−a 0 0 a1 0 = a 1−a 0 X = 0 a 0 c 1 0 0 b 0 a 1−b 0 0 b 0 b 1−b 1−c a 0 1−a b X∗ = 0 c 0 1−b Offenbar ist hier X 6= M. Der Operator X∗ beschreibt mit den selben Übergangswahrscheinlichkeiten einen zyklischen Prozeß im negativen Drehsinn. 1 ✉ 2 ✼ ✓ ❙ ✓ c❙❙ ✓ a ✓ ✇ ❙ b ✉ ✛ ✉ 3 Alle 4 Matrizen M, M∗ , X, X∗ haben dieselben Eigenwerte λ1 = 1 √ 1 2 − a − b − c + a2 − 2ab + b2 − 2ac − 2bc + c2 λ2 = 2 √ 1 λ3 = 2 − a − b − c − a2 − 2ab + b2 − 2ac − 2bc + c2 2 Das zeigt, daß beide Prozesse – obwohl physikalisch invers zueinander – als Markowkette das selbe zeitliche Verhalten zeigen. Es ist |λ2,3 | < 1. Deshalb konvergieren alle Markowketten gegen den einzigen Gleichgewichtszustand µ. 171 9.3 Beispiele 9.3.3 Einfachste Erzeugungs/Vernichtungs-Aufgaben mit zwei Zuständen Eint typische Aufgabe in der Theorie der Markowketten und -prozesse sind sogenannte Erzeugungs/Vernichtungs-Prozesse (oder Generations/Rekombinations-Prozesse oder birth-death-processes). Für diese Aufgaben ist es relativ einfach, explizite Ergebnisse zu erziehlen, was sie für Anschungsbeispiele prädestiniert. Hierbei geht es um folgende Aufgabe: Man hat ein Gefäß, in dem mit einer gewissen Wahrscheinlichkeit Teilchen erscheinen (generiert oder erzeugt) werden und wieder daraus verschwinden (zu Nichts rekombinieren oder vernichtet werden). Die Natur der Teilchen (und des Gefäßes) ist unerheblich. Man kann diese Aufgabe auf die verschiedenste Weise modellieren und durch Erhöhung der Teilchenzahl, der Betrachtung verschiedener Teilchensorten oder der Berücksichtigung von Abhängigkeiten der Erzeugungs- und Vernichtungswahrscheinlichkeiten von Teilchenzahl oder -typ beliebig verkomplizieren. Wir wollen den einfachsten Fall betrachten: Es gibt ein Teilchen, das außerhalb des Gefäßes (Zustand z1 ) oder darin sein kann (Zustand z2 ). Es sei a die Erzeugungs- und b die Vernichtungswahrscheinlichkeit. Wir haben also genau den Fall des eben betrachteten Beispiels. Es ist ! b 1 1−a a 1−a b a ∗ ab a+b M= , M = , µ= = a+b a 1 b 1−b a 1−b a+b b Wir wollen an diesem Beispiel verschiedene Modellierungsprobleme betrachten. Neben diesem Prozeß wollen wir noch einen reinen Erzeugungsprozeß (b = 0) 0 1−a 0 1−a a ∗ , µ+ = , M+ = M+ = 1 a 1 0 1 und einen reinen Vernichtungsprozeß (a = 0) 1 1 0 1 b ∗ , µ= M− = , M− = 0 1−b 0 b 1−b betrachten. Das Produkt zwei Prozesse beschreibt die Hintereinanderausführung der beiden Prozesse. Folglich beschreiben die drei Operatoren M, M+ M− und M− M+ einen Erzeugungs/VernichtungsProzeß, bei dem nur die Reihenfolge geändert ist. Es ist 1−a a 1 − a + ab a − ab , M− M+ = M+ M− = b − ab 1 − b + ab b 1−b ∗ (M+ M− ) = M∗− M∗+ = 1 − a + ab b a(1 − b) 1 − b 1 2 ist a(1 − b) anstelle von a in M. Das Die Wahrscheinlichkeitt des Übergangs z♠ =⇒ z♠ 1 =⇒ z♠ 2 stattfindet, wenn das Teilchen den Platz von außen bedeutet, daß der Übergang z♠ nach innen wechselt und außerdem auch noch nicht von innen nach außen wechselt. Neben λ1 = 1 hat M noch den Eigenwert λ2 = 1 − a − b. Die Matrizen M+ M− und M− M+ haben beide als zweiten Eigenwert λ2 = (1 − a)(1 − b). Die Eigenwerte sind also stets positiv. Für M muß man für diese – wie sich herausstellen wird – wichtige Eigenschaft explizit a + b ≤ 1 fordern. 9.4 Die Umkehrung physikalischer Prozesse 9.4 171 Die Umkehrung physikalischer Prozesse Aus dem täglichen Leben ist uns bekannt, daß sich physikalische Prozesse nicht problemlos umkehren lassen. Wir wollen jetzt untersuchen, wie sich das in unseren mathematischen Objekten widerspiegelt. 9.4.1 Abbildung von Dichten Es sei p ∈ P(Z) ein gegebener Zustand vorher, M∗ eine Zustandsänderung und p′ = M∗ p ∈ P(Z′ ) der Zustand nachher. µ ∈ P(Z) sei ein stationäres Maß von M∗ . Wir nehmen an, daß p eine stetige Dichte h bezüglich µ hat, also Qµ h = p und fragen, ob dann auch p′ eine Dichte bezüglich µ hat. Dazu nehmen wir an, daß es eine Lösung X ∈ M der Gleichung hf, M∗ Qµ gi = hf, Qµ Xgi gibt und setzen h′ = Xh. Setzen wir hier g = h, erhalten wir hf, Qµ Xhi = hf, M∗ Qµ hi = hf, M∗ pi = hf, p′ i Da f beliebig ist, erhalten wir p′ = Qµ Xh = Qµ h′ . Das heißt, p′ hat eine Dichte bezüglich µ, nämlich h′ . So, wie der Operator M∗ die Maße aufeinander abbildet, bildet also der Operator X die entsprechenden Dichten aufeinander ab. Aus physikalischer Sicht sind Dichten wie h = Q−1 µ p = p/µ Quotienten extensiver Größen, also intensive Größen und damit Objekte, denen wir einen physikalischen Sinn geben können. 9.4.2 Physikalisch inverse Zustandsänderungen Wir beginnen die Überlegungen mit einer Beispielaufgabe: ÜA 35) Beispiel: Es sei M = Mϕ ein deterministischer Markowoperator mit stetig invertierbarer Funktion ϕ. Berechne den entsprechenden Operator X. Lösung: Es ist die Gleichung (77) also hMϕ f, Qµ gi = hf, Qµ Xgi oder äquivalent hg ·Mϕ f, µi = hf · Xg, µi bezüglich X zu lösen. Diese Gleichung bedeutet in Integralschreibweise Z Z Z f (z)(Xg)(z)µ(dz) = g(z)f (ϕ(z))µ(dz) = g(ϕ−1(z))f (z)(µ ◦ ϕ−1 )(dz) = Z Z ZZ = g(ϕ−1(z))f (z)µ(dz) Z Hier wurde im letzten Schritt (µ ◦ ϕ−1 )(B) = µ(B) für B ∈ B benutzt, was die Eigenschaft von µ, stationäres Maß von M∗ϕ zu sein, widerspiegelt. Nimmt man weiter an, daß µ(U) > 0 für U ∈ O(Z), folgt aus der Beliebigkeit von f (Xg)(z) = g(ϕ−1 (z)) also X = g ◦ ϕ−1 = Mϕ−1 = M−1 ϕ Der Operator X invertiert also die Wirkung des Operators Mϕ . Folglich entspricht dem Operator X∗ der zu M∗ϕ inverse physikalische Prozeß. 172 9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME Allgemeine Markowoperatoren M sind nicht invertierbar, trotzdem kann ein entsprechender Operator X existieren. Im Punkt 9.3.2 auf Seite 168 ist folgendes Beispiel betrachtet: M∗ beschreibt den im positiven Drehsinn zyklischen Übergang dreier Zustände ineinander. Der ensprechende Operator X∗ beschreibt auch den zyklischen Übergang dreier Zustände ineinander, aber im negativen Drehsinn. Im deterministischen Prozeß, vermittelt durch Mϕ , war der inverse physiklaische Prozeß Mϕ−1 dem zeitinversen Prozeß M−1 ϕ äquivalent. Für allgemeine Markowoperatoren M existiert der zeitinversen Prozeß M−1 nicht. (Auch wenn der Operator M invertierbar ist, ist der inverse genau dann ein auch ein Markowoperator, wenn er ein deterministischer ist.) Wir wollen jeden Operator X, der mit einem Operator M und einem der stationären Zustände µ über die Gleichung M∗ Qµ = Qµ X gekoppelt ist eine zu M inverse Zustandsänderung nennen. Schauen wir uns an, wie die Operatoren wirken, so stellen ∗ → C(Z′ ) vorwärts und wir fest, daß X = Q−1 µ M Qµ : C(Z) − ∗ ′ folglich X∗ = Qµ MQ−1 → C∗ (Z) rückwärts in der µ : C (Z ) − Zeit wirken. M C(Z) ✛ ✲ C(Z′ ) X Qµ Qµ ❄ ❄ M∗ C∗ (Z) ✲ ✛ C∗ (Z′ ) X∗ Wie hat man sich den inversen physikalischen Prozeß zusammen mit den Zeitpunkten vorzustellen? Wir starteten mit Z und Z′ als zwei verschiedenen Zustandsräume, die verschiedenen Zeitpunkten entsprechen. Die Zeitrichtung t′ > t haben wir nach dem Operator M definiert. Sein adjungierter wirkt M∗ : C∗ (Z) −→ C∗ (Z′ ). Da er einen realen physikalischen Prozeß beschreibt, der vorwärts in der Zeit stattfindet, gilt also t′ > t. Aus mathematischer Sicht sind t und t′ nur zwei Indizes, mit denen wir die verschiedenen Räume Z und Z′ indiziert haben. Von einer “physikalischen Zeitrichtung” wissen die Formeln nichts. Als nächstes haben wir die Operatoren X und X∗ definiert und festgestellt, daß X ein Markowoperator ist. Normalerweise bildet ein Markowoperator im Gegensatz zu seinem adjungierten nicht physikalische Objekte aufeinander ab. Wir haben aber festgestellt, daß er die physikalische als intensive Größen interpretierbaren Dichten von p und p′ aufeinander – und zwar zeitlich vorwärts abbildet, wie es sich für physikalische Objekte gehört – abbildet. Als nächstes haben wir X∗ : C∗ (Z′ ) − → C∗ (Z) gebildet und versuchen diesen Operator als Zustandsänderung zu interpretieren. Das ist sinnvoll, da er der adjungierte eines Markowoperators ist. Wir kommen zum Schluß, daß dieser Operator soetwas wie die umgekehrte Zustandsänderung bezüglich M∗ vermittelt, aber keine Zeitunkehr bedeutet. Auch er bildet vorwärts in der Zeit ab. Für diesen Prozeß müssen also die Indizes t und ′ in anderer Richtung interpretiert werden: t > t′ . Aus mathematischer Sicht gibt es nur die verschiedenen Zustandsräume Z und Z′ , denen wir Indizes t und t′ zuordnen. Zwischen den entsprechenden Banachräumen wirken Operatoren M, M∗ , X und X∗ in verschieden Richtungen. Je nachdem, welchen Prozeß wir betrachten, führen wir in den Indizes eine Ordnung ein. Dazu haben wir die Annahme “physikalische Zeit läuft vorwärts” verwendet, die außerhalb der Mathematik liegt. Den Zusammenhang zwischen zeitlicher und physikalischer Umkehr wollen wir weiter untersuchen. 9.4 Die Umkehrung physikalischer Prozesse 9.4.3 173 Läßt sich ein physikalischer Prozeß umkehren Im weiteren sei stets p′ q′ h h′ = = = = M∗ p M∗ q p/q p′ /q ′ Wir betrachten die Zustandsänderung p′ = M∗ p. Gibt es eine Zustandsänderung (also einen Markowoperator) Y sodaß p = Y ∗ p′ . Es sei ∗ Y = Q−1 p′ M Qp Wir zeigen, daß dieser Operator die geforderten Eigenschaften hat. Offensichtlich ist Y positiv, weil er das Produkt von drei positiven Operatoren ist. Außerdem ist ∗ −1 ∗ −1 ′ Y 1 = Q−1 p′ M Qp 1 = Qp′ M p = Qp′ p = 1 Y ist also ein Markowoperator. Wir untersuchen, welche Abbildungseigenschaften sein adjungierter Y ∗ = Qp MQ−1 p′ hat. Seine Wirkung auf allgemeine Maße ist schwer zu berechnen. Aber es ist einfach seine Wirkung auf p′ zu berechnen. Es ist ′ Y ∗p′ = Qp MQ−1 p′ p = Qp M1 = Qp 1 = p Y ∗ beschreibt also einen physikalischen Prozeß, der die Wirkung von M auf dem Zustand p umkehrt – also den inversen physikalischen Prozeß. Als adjungierter eines Markovoperators bildet er natürlich vorwärts in der Zeit ab, aber kehrt die Wirkung von M∗ um. Natürlicherweise stellt sich folgende Frage: Wenn es möglich ist, eine Zustandsänderung umzukehren, ist es möglich, zwei Zustandsänderungen umzukehren? Wir betrachten p′ = M∗ p, q ′ = M∗ q Kann man eine Zustandsänderung (also einen Markowoperator) Y finden, sodaß p = Y ∗ p′ und q = Y ∗ q ′ . Es stellt sich heraus, daß das im allgemeinen nicht möglich ist. Das läßt sich mit der Jensensche Ungleichung zeigen. 9.4.4 Die Jensensche Ungleichung in P × P Definition: We define a functional H on two arbitrary probability measures p and q as a generalized Legendre transform of hF (g), qi (44) H[p, q] = sup hg, pi − hF (g), qi , p, q ∈ P g∈C Theorem: Then, for an arbitrary Markov operator M it holds H[M∗ p, M∗ q] ≤ H[p, q] , p, q ∈ S∗ , M∗ ∈ M∗ . (45) Proof: Denoting the range of M by R(M) and using Jensen’s inequality (31) in Karamata’s form, we get H[M∗ p, M∗ q] = sup hg, M∗ pi − F (g), M∗ q = sup hMg, pi − MF (g), q ≤ g∈C g∈C ≤ sup hMg, pi − F (Mg), q = sup hh, pi − F (h), q ≤ g∈C h∈R(M) ≤ sup hh, pi − F (h), q = H[p, q] . h∈C 174 9 MULTIPLIKATIONSOPERATOREN. DICHTEN. LEBESGUERÄUME Let us point out that equality H[M∗ p, M∗ q] = H[p, q] holds if (1) MF (g) = F (Mg), and (2) R(M) = C(Z), if M is a deterministic Markov operator with weakly dense range. Remark: There are two places, involving the sign ≤. The first comes from Jensen’s inequality (31) and the second from the enlargement of the set where the supremum was taken from h ∈ R(M) to h ∈ C. Form this, it is clear that equality holds if M is a deterministic Markov operator with weakly dense range. Corollary: As a special case, for q we can choose the equilibrium measure µ of M∗ . Then, we have M∗ µ = µ and (82) becomes H[M∗ p, µ] ≤ H[p, µ], p ∈ P 9.4.5 (46) Die duale Paarung bleibt konstant hg ′, p′ i = hg ′, M∗ pi = hMg ′, pi = hg, pi 9.4.6 Irreversibilität zweier Zustandsänderungen Die oben gestellt Frage nach der Existenz eines solchen Y ∗ kann man jetzt verneinen: So einen Markovoperator gibt es nicht, es sei denn, M ist ein deterministischer Markovoperator (genauer: M∗ wirkt auf die beiden p, q ∈ P wie ein deterministischer Markovoperator). Das kann man folgendermaßen beweisen: Es sei F : R −→ R eine beliebige strikt konvexe Funktion und H ∗ [q, p] = supg∈C hg, qi − hF (g), pi dann gilt für alle Markovoperatoren H ∗ [M∗ q, M∗ p] ≤ H ∗ [q, p] für alle p, q ∈ P, wobei Gleichheit nur gilt, wenn M ein deterministischer Markovoperator ist. (Außerdem ist H ∗ nach unten beschränkt.) Für jeden nicht deterministischen Markovoperator gilt also H ∗ [M∗ q, M∗ p] < H ∗ [q, p] oder H ∗ [q ′ , p′ ] < H ∗ [q, p]. Gäbe es einen Markovoperator Y mit der geforderten Eigenschaft, wäre H ∗ [q ′ , p′ ] > H ∗ [q, p], was ein Widerspruch ist. Bemerkung: Exakt ist die Nichtumkehrbarkeit nur für Zustände p, q gezeigt, auf denen M nicht wie ein deterministischer Markovoperator wirkt. Ein Markovoperator, der auf keinem Zustand wie ein deterministischer Markovoperator wirkt, also einer, der reine Zustände (Diracmaße) immer in gemischte Zustände (keine Diracmaße) abbildet, heißt mischend. Damit ist gezeigt: Ein mischender Markovoperator bilde zwei Zustände in zwei andere Zustände ab. Dann gibt es keinen Markovoperator, der die Zustände zeitlich rückwärts abbildet. Das heißt: Markovoperatoren sind – es sei denn, sie sind deterministisch – zeitlich irreversibel. 175 10 Markowoperatoren und kontinuierliche Zeit In diesem Kapitel betrachten wir Zustandsänderungen unter sich kontinuierlich verändernder Zeit. Im Kapitel zur Modellierung zeitanhängiger Prozesse, werden wir genauer auf die Probleme beim physikalischen Verständnis einer sich kontinuierlich veränderndernden Zeit eingehen. Hier geht es rein mathematische Probleme so einer Beschreibung. Dazu nehmen wir an, daß wir eine Schar von Zuständen p(t) gegeben haben, die sich durch einen Parameter t ∈ R+ parametrisieren lassen. Diesen Parameter nennen wir “Zeit” und die Zustandsschar (p(t)) Trajektorie. Hier betrachten wir also die Zeit im Newtonschen Sinne als absolut und beliebig teilbar gegeben. Unter allen solchen Trajektorien von Zuständen p(t), mit t ∈ R+ spielen die eine besondere Rolle, die die sogenannte “Markoweigenschaft” haben. Grob gesagt bedeutet diese Eigenschaft, daß die Zukunft der Trajektorie nur vom gegenwärtigen Zustand und nicht von der Vergangenheit abhängt. Mathematisch bedeutet die Markoweigenschaft, daß sich die Trajektorie durch eine Halbgruppe beschreiben läßt. Eine Halbgruppe von linearen beschränkten Operatoren T(t), t ∈ R+ ist eine Schar, die die Funktionalgleichung T(t1 + t2 ) = T(t1 )T(t2 ) = T(t2 )T(t1 ), t2 , t1 ∈ R+ (47) erfüllt. Eine solche Halbgruppe ist also ein Homomorphismus der additiven Halbgruppe R+ in die Menge der beschränkten Operatoren. Diese Funktionalgleichung – zusammen mit gewissen Stetigkeitseigenschaften – stellt sich als dermaßen streng heraus, daß die gesamte Schar bereits durch die Kenntnis eines einzigen Operators A (des Generators der Halbgruppe) definiert ist. Dieser Generator läßt sich als Richtung der Tangente der Schar im Zeitpunkt t = 0 interpretieren. Wenn also zum Zeitpunkt t = 0 der Zustand in die “gewünschte Richtung” geschickt wurde, garantiert die Funktionalgleichung ihre eindeutige Fortsetzung auf ganz bestimmte Weise. Die Bestimmung der Trajektorie x(t) für einen gegebenen Generator A und einem Anfangswert x(0) = x0 entspricht dann der Lösung der Differrentialgleichung ẋ(t) = Ax(t), x(0) = x0 (48) im Banachraum. Die Kernfrage der Halbgruppentheorie ist die Frage nach dem Zusammenhang der Halbgruppe T(t) und ihrem Generator A. 10.1 Die Theorie stetiger Halbgruppen im Banachraum Im weiteren stellen wir einige allgemeine Aussagen der Theorie stetiger Halbgruppen in Banachräumen zusammen. Später werden wir uns auf die uns eigentlich interessierenden stetigen Halbgruppen von Markowopertoren interessieren. Es sei X ein Bannachraum, X∗ sein dualer und x bzw. x∗ Elemente darin. Des weiteren betrachten wir lineare Operatoren, die X nach X abbilden und ihre adjungierten. 10.1.1 Operatortopologien Wir betrachten eine Familie von Operatoren T(t) mit t ∈ [0, T ]. Für so eine Famile gibt es verschiedene Stetigkeitsbegriffe. Wir betrachten den Grenzübergang s − → t: • T(t) heißt gleichförmig stetig, falls kT(t) − T(s)k − → 0. 176 10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT • T(t) heißt stark stetig, falls kT(t)x − T(s)xk − → 0 für alle x ∈ X. • T(t) heißt schwach stetig, falls hT(t)x, x∗ i − hT(s)x, x∗ i − → 0 für alle x ∈ X und x∗ ∈ X∗ . • T∗ (t) heißt vage stetig, falls hx, T∗ (t)x∗ i − hx, T∗ (s)x∗ i − → 0 für alle x ∈ X und x∗ ∈ X∗ . Da wir nur Operatoren in einem dualen Raum betrachten, die einen präadjungierten haben, ist eine Operatorfamilie vage stetig, gdw. die präadjungierte schwach stetig ist. 10.1.2 Stetige Halbgruppen beschränkter Operatoren Die Theorie stetige Halbgruppen im Banachraum ist sehr gut in pazy beschrieben. • Eine Familie beschränkter Operatoren heißt Halbgruppe, wenn T(t1 + t2 ) = T(t1 )T(t2 ) = T(t2 )T(t1 ), t2 ≥ t1 ≥ 0 T(0) = I (49) (50) • In Abhängigkeit von der Topologe gibt es gleichförmig, stark, schwach und vage stetige Halbgruppen. Wir interessieren uns in erster Linie für stark stetige Halbgruppen und setzen im weiteren diese Eigenschaft voraus. Der Grund dafür ist, daß nur stark stetige Halbgruppen im Zusammenhang mit Differentialgleichungen im Banachraum stehen. • Satz: T(t) ist stark stetig ⇐⇒ T(t) ist stark stetig für t = 0. Das folgt aus der Halbgruppeneigenschaft und Beschränktheit der Halbgruppenoperatoren. • Offensichtlich ist auch T∗ (t) eine Halbgruppe beschränkter Operatoren, falls T(t) eine ist. Allerdings muß sie nicht stark stetig sein. • Eine Halbgruppe zusammen mit einem Anfangswert x(0) generiert eine Trajektorie x(t) = T(t)x(0). • Ziel im weiteren ist, festzustellen, in welcher Beziehung eine Trajektorie x(t), generiert von einer Halbgruppe, T(t) zur Gleichung ẋ(t) = Ax(t) steht. • Normalerweise wird neben der Stetigkeit noch ein gewisses Verhalten der Halbgruppe für große Zeiten verlangt, etwa kT(t)k ≤ Meωt für gewisses ω < ∞ und M > 0. Wir beschränken uns hier auf kontraktive Halbgruppen. Das sind Halbgruppen mit der Eigenschaft kT(t)k ≤ 1 (für Halbgruppen von Markowoperatoren gilt sogar kT(t)k = 1). Das ist keine prinzipielle Einschränkung, denn durch geeignete Skalierung und Verschiebung läßt sich aus einer Halbgruppe mit kT(t)k ≤ Meωt stets eine geeignete kontraktive Halbgruppe konstruieren. 10.1.3 Unbeschränkte Operatoren Neben beschränkten linearen Operatoren, also solchen, die auf dem ganzen Raum definiert sind und eine beschränkte Norm haben, ist es sinnvoll auch andere lineare Operatoren zu betrachten, unbeschränkte. Dazu wird häufig folgende Definition verwendet: Ein Operator A heißt unbeschränkt, wenn es eine Folge xn gibt mit kxn k = 1 und kAxn k − → ∞. Ein unbeschränkter linearer Operator ist nicht stetig, da ein linearer Operator genau dann stetig ist, wenn er beschränkt ist. 10.1 Die Theorie stetiger Halbgruppen im Banachraum 177 In C ist diese Definition unbefriedigend, da nicht die Unbeschränktheit der Norm hier das entscheidende, sondern der Definitionsbereich ist. Wir werden deshalb einen linearen Operator unbeschränkt nennen, wenn er nicht auf dem ganzen Raum definiert ist. In diesem Sinne werden wir z.B. den Multiplikationsoperator mit einer unstetigen aber beschränkten Funktion auch als unbeschränkt bezeichnen, da er sich nur – wenn überhaupt – auf einem echten Ideal in C definieren läßt. Ein unbeschränkter Operator A läßt sich nicht auf dem ganzen Raum X, sondern nur auf einer Teilmenge D(A) ⊂ X, seinem Definitionsbereich, definieren. Ein unbeschränkter Operator A heißt dicht definiert, falls D(A) = X. Zwei unbeschränkte Operatoren zählen als verschieden, falls sie verschiedene Definitionsbereiche haben, auch wenn sie auf der Schnittmenge übereinstimmen. Diese Bemerkung ist wichtig, weil man unbeschränkte Operatoren oft auf verschiedene Weise fortsetzen kann und die verschiedenen Fortsetzungen völlig verschiedene Eigenschaften haben können. Ein linearer Operator A heißt abgeschlossen, falls aus (xn ∈ D(A), xn − → x, Axn − → y folgt x ∈ D(A), Ax = y. Ein linearer Operator A heißt abschließbar, falls er eine abgeschlossene Erweiterung hat (wird bezeichnet mit A). Bemerkungen: • Beschränkte Operatoren sind stets abgeschlossen. • Abgeschlossenheit bedeutet, der Graph kann unbschränkt sein, hat aber “keine Lücken”. • Abgeschlossene Operatoren sind die “nächstschlechten” nach den beschränkten. • Operatoren, die nicht abgeschlossen sind, sind weitgehend uninteressant. Z.B. ist ihre Resolventenmenge leer. • Ein Operator ist abschließbare, genau dann wenn aus xn ∈ D(A), xn − → 0, Axn − →x folgt x = 0. Adjungierte Operatoren: • Es sei A ein auf D(A) definierter Operator. Wir betrachten hAx, x∗ i = hx, y ∗i, x ∈ D(A) Es ist sinnvoll, die Abbildung y ∗ = A∗ x∗ den zu A adjungierten Operator zu nennen. Das ist aber nur korrekt, wenn y ∗ eindeutig definiert ist. Das ist der Fall, wenn D(A) dicht in X ist. • Für unbeschränkte nicht dicht definierte Operatoren läßt sich ein adjungierter Operator nicht definieren, der entsprechende Wert y ∗ nicht eindeutig festgelegt werden kann. • Der adjungierte eines unbeschränkten Operators ist ebenfalls unbeschränkt, muß aber nicht dicht definiert sein. • Hieraus folgt: Unbeschränkte Operatoren haben im allgemeinen keinen doppelt adjungierten. • Oft werden die Begriffe “dual” und “adjungiert” als Synonyme betrachtet. Für Generatoren von Halbgruppen werden die Begriffe dual und bidual allerdings in einem anderen Sinn als “adjungiert” und “doppelt adjungiert” verwendet. 178 10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT Zeitintegrale Im weiteren werden wir Zeitintegrale über Halbgruppen betrachten. Im allgemeinen ist die Definition von Integralen im Banachraum ein kompliziertes Problem. Handelt es sich allerdings – wie bei uns – um stetige Funktionen, die integriert werden, so lassen sich Integrale einfach als Grenzwerte der entsprechenden Riemannsummen definieren,die – aufgrund der Stetigkeit – konvergieren. 10.1.4 Der Generator einer Halbgruppe Es sei T(t) eine stark stetige Halbgruppe. Wir definieren die Menge 1 D(A) = x ∈ X | ∃ lim (T(t)x − x) t→0 t Die Menge D(A) ist stets nichtleer und linear. Auf D(A) definieren wir den Operator A durch 1 Ax = lim (T(t)x − x) t→0 t und nennen ihn Generator der Halbgruppe T(t). D(A) heißt Definitionsbereich des Generators. 10.1.5 Die Resolvente des Generators einer Halbgruppe Für einen Operator A und einer komplexen Zahl λ betrachten wir die Gleichung λx − Ax = y (51) und untersuchen die Lösbarkeit dieser Gleichung für gegebene rechte Seite y. Die Menge ̺(A) = λ ∈ C ∀y ∈ X, ∃!x ∈ D(A) : λx − Ax = y D.h. in der Resolventenmenge liegen alle die komplexen Zahlen, für die die Gleichung (51) eindeutige Lösung hür alle rechten Seiten hat. Für ein λ ∈ ̺(A) definieren wir die Resolvente als R(λ) = (λI − A)−1 Offensichtlich ist R(λ) ein linearer beschränkter Operator. Eine Resolvente kann zu jedem Operator definiert werden. Für uns ist die Resolvente des Generators einer Halbgruppe von besonderem Interesse. Wir nennen sie Resolvente der Halbgruppe. Das besondere der Resolvente ist ihr Zusammenhang mit der Gleichung (48). Man kann z.B. die Frage stellen,wann hat diese Gleichung eine Lösung für alle Anfangswerte x0 ∈ X. Um das zu untersuchen betrachten wir die Laplacetransformation der Lösung. Es sei x(t) eine ausreichend reguläre Funktion. Dann ist Z ∞ x̂(λ) = e−λt x(t)dt 0 ihre Laplacetransformation. Wir wenden diese Integral auf die Gleichung (48) an und erhalten nach partieller Integration und unter der Annahme, daß sich das Integral und A vertauschen lassen λx̂(λ) − x0 = Ax̂(λ) oder äquivalent λx̂(λ) − Ax̂(λ) = x0 Das ist gerade Gleichung (51). Die Laplacetransformation überführt also die Frage nach der Lösbarkeit der Gleichung (48) auf die Frage nach der Existenz der Resolvente. Tatsächlich ist Gleichung (48) in gewissem Sinne ursprünglicher als Gleichung (51). 10.1 Die Theorie stetiger Halbgruppen im Banachraum 10.1.6 179 Die Yosida-Approximation des Generators einer Halbgruppe Neben der Resolvente ist auch der beschränkte Operator A(λ) = λ2 R(λ) − λI, λ ∈ ̺(A) von Interesse. Er wird Yosida-Approximation von A genannt. 10.1.7 Einige Zusammenhänge Wir führen hier einige Zusammenhänge zwischen den Operatoren A, T(t), R(λ) und A(λ) an, die im weiteren häufig verwendet werden. Die Formeln sind geschrieben als Zusammenhänge zwischen Operatoren. Diese gelten in dieser Form nur, wenn der Generator beschränkt ist. Im allgemeinen gelten sie im starken Sinn angewendet auf Elemente des Definitionsbereiches von A bzw. angewendet auf beliebige Elemente für die Operatoren T(t) und R(λ). Alle Operatoren kommutieren. Z ∞ Z ∞ −λt λR(λ) = λ e T(t)dt = λ e−(λ−A)t dt = λ(λ − A)−1 (52) 0 0 −n n n n t At R = lim I − A (53) T(t) = e = lim n→∞ n→∞ t t n 1 (54) A = T′ (0) = lim (T(t) − I) = lim A(λ) t→0 − t λ→∞ A(λ) = λ2 R(λ) − λI = AλR(λ) = λR(λ)A (55) Der Grenzwert (53) ist der Beweis der Konvergenz des impliziten Eulerverfahrens. Asymptotisch gelten folgende Zusammenhänge zwischen den Grenzwerten der Resolvente und der Halbgruppe: lim λR(λ) = lim T(t) = T(0) = I t→0 − λ→∞ lim λR(λ) = lim T(t) = T(∞) t→∞ − λ→0 Insbesondere die zweite Zeile ist eine brauchbare Methode um die stationären Punkte einer Halbgruppe zu berechnen. T(∞) ist der Projektor in den linearen Raum der stationären Punkte. Für die Yosida-Approximation gilt außerdem T(t)g = = −λt lim e λ→∞ k! k=0 (λ2 R(λ)−λ)t lim e λ→∞ ∞ X (λt)k k 2 λR(λ) g = lim e−λt eλ R(λ)t g = λ→∞ g = lim eλAR(λ)t g = lim eAλ t g λ→∞ λ→∞ Die Halbgruppeneigenschaft von T(t) führt auf eine analoge Beziehung zwischen verschiedenen Resolventen (Hilbert-Identität) T(t)T(s) = T(t + s) R(λ) − R(µ) = (λ − µ)R(λ)R(µ) aus der weitere Eigenschaften der Resolvente folgen: R′ (λ) = −R2 (λ) R(n) (λ) = (−1)n n!Rn+1 (λ) (56) (57) 180 10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT Beweis von (57) aus (56): Es sei µ > λ T(s)T(t) = T(t + s) Z ∞ Z ∞ −λt T(s)R(λ) = e T(t + s)dt = e−λt eλs T(t)dt = 0 Z ∞ Zs s λs −λt −λt = e e T(t)dt − e T(t)dt = 0 0 Z s λs λs = e R(λ) − e e−λt T(t)dt 0 Z ∞ Z ∞ Z ∞ Z s −µs −µs λs −µs λs R(λ) e T(s)ds = R(λ) e e ds − e e e−λt T(t)dt = 0 0 0 ∞ 0 Z R(µ) e(λ−µ)s s −λt R(λ) − e T(t)dt + = µ−λ λ−µ 0 λ−µ 0 R(µ) R(λ) + R(λ)R(µ) = µ−λ λ−µ 10.1.8 Gleichmäßig stetige Halbgruppen Es stellt sich heraus, daß die Generatoren von Halbgruppen prinzipiell ander Eigenschaften haben, in Abhängigkeit davon, in welchem Sinne die Halbgruppe stetig ist. Die Generatoren von gleichmäßig stetigen Halbgruppen sind beschränkt, die von stark stetigen Halbgruppen sind unbeschränkt. Die wichtigste Frage im Zusammenhang von Halbgruppen und Generatoren ist, wann ist ein gegebener Operator der Generator einer Halbgruppe. Im Falle beschränkter Operatoren ist das einfach. Sie sind stets Generatoren. Satz: A ist Generator einer gleichmäßig stetigen Halbgruppe genau dann, wenn A beschränkt ist. Beweis: ⇐=: Es sei A ein beschränkter linearer Operator. Wir definieren tA T(t) = e = ∞ n X t n=0 n! An Diese Reihe konvergiert für alle komplexen t (wir interessieren uns nur für t ∈ R+ ), da die Norm von A beschränkt ist. Unter Benutzung dieser Darstellung läßt sich leicht zeigen, daß T(t) die Halbgruppenfunktionalgleichung erfüllt. Aus der Ungleichung kT(t) − Ik ≤ tkAketkAk folgt die gleichmäßige Stetigkeit von T(t). Aus der Ungleichung 1 T(t) − I − A ≤ kAk · max kT(s) − Ik t 0≤s≤t zusammen mit der gleichmäßigen Stetigkeit folgt, daß A der Generator von T(t) ist. 10.1 Die Theorie stetiger Halbgruppen im Banachraum 181 =⇒: Es sei T(t) eine gleichmäßig stetige Halbgruppe. Dann gilt Z 1 t T(s)ds = I lim t→0 t 0 Hieraus folgt, daß es ein hinreichend kleines sodaß der inverse Operator von R R τ τ > 0 gibt, −1 1 τ T(s)ds existiert. Damit existiert auch 0 T(s)ds und aus der leicht nachzuprüfenden τ 0 Indentität Z τ Z τ +t Z 1 1 t 1 T(t) − I T(s)ds = T(s)ds − T(s)ds t t τ t 0 0 oder äquivalent 1 T(t) − I = t Z τ +t Z τ −1 Z 1 1 t T(s)ds − T(s)ds T(s)ds t τ t 0 0 folgt die Existenz des beschränkten Operators Z τ −1 1 A := lim T(t) − I = T(τ ) − I T(s)ds t→0 t 0 Damit folgt die Behauptung. Desweiteren läßt sich leicht zeigen, daß zwei Halbgruppen gleich sind, wenn sie denselben Generator haben. Aus dem angegebenen Satz folgt: Satz: Die Abbildung t − → T(t) als Abbildung R − → L(X) ist norm-differentierbar und es gilt d T(t) = AT(t) = T(t)A dt Angewendet auf ein Element x0 folgt hieraus mit x(t) = T(t)x0 ẋ(t) = Ax(t), x(0) = x0 Diese Gleichung ist lösbar. Seine Lösung ist x(t) = etA x0 10.1.9 Hauptsatz der Halbgruppentheorie Im Falle, daß die halbgruppe nicht gleichmäßig stetig sondern nur stark stetig ist, ist die Welt wesentlich komplizierter. Es gilt folgender Hauptsatz der Halbgruppentheorie: Es sei T(t) eine stark stetige kontraktive Halbgruppe und A ihr Generator mit dem Definitionsbereich D(A). Dann gilt: 1. x ∈ D(A) =⇒ T(t)x ∈ D(A) für t > 0 2. Die Abbildung x(0) − → x(t) = T(t)x(0) ist stark differenzierbar gdw. x(0) ∈ D(A). 182 10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT 3. Es gilt ẋ(t) = d x(t) = T(t)x(0) = AT(t)x(0) = T(t)Ax(0) = Ax(t) dt 4. Für alle x, t > 0 ist A Z 0 t Rt 0 (58) T(s)xds ∈ D(A) und T(s)xds = T(t)x − x (59) 5. Für x ∈ D(A) gilt T(t)x − x = Z t AT(s)xds 0 6. D(A) = X (A ist dicht definiert) 7. A ist abgeschlossen 8. Für λ ∈ C mit ℜe λ > 0 existiert die Laplacetransformation λ ∈ ̺(A) und R(λ) = (λI − A) −1 = Z R∞ 0 e−λt T(t)xdt und es gilt ∞ e−λt T(t)xdt 0 Der Beweis kann in pazy eingesehen werden. Bemerkungen: • Der Satz stellt einen Zusammenhang zwischen der Funktionalgleichung (49), der Exponentialfunktion und der Diifferentialgleichung (58), der aus der eindimensionalen Theorie gut bekannt ist. Im unendlich-dimensionalen Raum treten Besonderheiten auf, weil A unbeschränkt sein kann. Das äußert sich darin, daß die Differentialgleichung (58) nur für Elemente aus dem Definitionsbereich von A gilt. Die allgemeine Gleichung ist (59). • Die Zuordnung zwischen Generator und Halbgruppe ist eineindeutig: Falls zwei Halbgruppen denselben Generator haben (mit demselbe Definitionsbereich!), sind sie identisch (für jedes t dieselben Operatoren). • Sollte eine stetige Halbgruppe sogar gleichmäßig stetig sein, ist ihr Generator ein beschränkter Operator und umgekehrt. 10.1 Die Theorie stetiger Halbgruppen im Banachraum 10.1.10 183 Wann ist ein Operator ein Generator? Aus Sicht der Anwendung ist natürlich die umgekehrte Frage von Interesse: Wann ist ein gegebener unbeschränkter Operator ein Generator einer Halbgruppe oder: Welche Eigenschaften eines Operators sind hinreichend um ein Generator einer Halbgruppe zu sein. Satz (Hille-Yosida): Es sei A ein dicht definierter abgeschlossener Operator, R+ ⊂ ̺(A) und kλR(λ)k ≤ 1. Dann ist er Generator einer stetigen kontraktiven Halbgruppe. Der Beweis dieses Satzes ist in pazy enthalten. Er ist konstruktiv. Kernpunkt ist die Benutzung der Yosida-Approximation A(λ) (sie wurde im Zusammenhang mit diesem Satz definiert). Die entscheidende Eigenschaft der Yosida-Approximation ist, daß ihre Werte auf D(A) stark gegen die Werte von A konvergieren. Insbesondere gilt lim λR(λ)x = x, x ∈ X λ→∞ − lim A(λ)x = Ax, x ∈ D(A) tA(λ) e x − etA(µ) x ≤ tkA(λ)x − A(µ)xk λ→∞ − lim etA(λ) x = T(t)x, x ∈ X λ→∞ − Bemerkung zur Generator-Eigenschaft: Die Frage, ob ein Operator A ein Generator ist, bedeutet letztlich, wann für einen gegebenen Operator A das Cauchyproblem d x(t) = Ax(t), x(0) = x0 dt (60) lösbar ist (wenn es lösbar ist, wird die Lösung von einer Halbgruppe generiert). Der obige Satz sagt, daß das der Fall ist, wenn die Resolventenmenge nicht leer ist, wenn also die Gleichung (λ − A)x = y für jedes y ∈ X eine Lösung x ∈ X besitzt. Tatsächlich ist damit die Frage nach der Lösbarkeit einer zeitabhängigen Gleichung auf die Lösbarkeit einer zeitunabhängigen, aber von einem komplexen Parameter abhängigen Gleichung geführt worden. Das ist beinahe eine Tautologie. Beide Gleichungen gehen durch die Laplacetransformation ineinander über. Die richtige Definition eines unbeschränkten Operators kann eine schwere mathematische Aufgabe sein, die gleichbedeutend mit der Untersuchung der Lösbarkeit von Gleichungen ist. Das ist gut bekannt in der Theorie partieller Differentialgleichungen. Dort müssen insbesondere für Differentialoperatoren Randbedingungen richtig gestellt werden. Erst das definiert den Operator so, daß entsprechende Gleichungen lösbar werden. Der Beweis der Lösbarkeit einer Gleichung läßt sich nicht automatisieren. Das hängt vom konkreten Operator ab und davon, wie wir ihn definiert haben. Wir können ungeschickt sein und ihn so definieren, daß die Gleichung keine Lösung hat (z.B. zuviele oder zuwenige Randbedingungen). 10.1.11 Summen von Generatoren. Kommutativität. Störungstheorie Eine wichtige Frage ist, wann die Summe A + B ein Generator ist, wenn beide Operatoren für sich Generatoren sind. Das ist für unbeschränkte Operatoren im allgemeinen ein schweres Problem. 184 10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT Für beschränkte Generatoren A und B ist A+B auch beschränkt und folglich ebenfalls ein Generator. Im allgemeinen läßt sich die Halbgruppe et(A+B) aber nicht leicht aus den Halbgruppen etA und etB bestimmen. Insbesondere gilt et(A+B) 6= etA etB wenn die Operatoren A und B nicht kommutieren. Approximativ kann man et(A+B) mit der Trotter-Formel bestimmen. Weiß man von einem Operator A, daß er ein Genrator ist, läßt sich das auch von anderen Operatoren beweisen, die in gewissem Sinn von A dominiert werden. Dazu gibt es eine Reihe von Störungssätzen, die man z.B. in pazy nachlesen kann. Insbsondere ist A + B Generator, wenn B beschränkt ist. Ist B unbeschränkt, dann ist – grob gesagt – A + B Generator, wenn D(B) ⊃ D(A) und eine Abschätzung in der Art von kBxk ≤ kAxk + ckxk möglich ist. 10.1.12 Numerische Bestimmung der Halbgruppe Üblicherweise führt die Approximation einer Gleichung vom Typ (48) zu einer ebensolchen Gleichung in einem endlichdimensionelen Raum. 10.2 Halbgruppen von Markowoperatoren 10.2 185 Halbgruppen von Markowoperatoren Uns interessieren in erster Linie Halbgruppen T(t) von Markowoperatoren in C(Z) und ihre adjungierten in C∗ (Z). Nur solche Halbgruppen haben physikalischen Sinn, denn nur für sie gilt T∗ (t)P ⊂ P. Diese Einschränkung schränkt auch die Menge der Generatoren ein. Die Verbandseigenschaften von C liefert eine strenge Bedingung dafür, daß ein Generator ein Generator einer Halbgruppen von Markowoperatoren ist – das positve Minimumprizip. Die Frage, wann ein Operator ein Generator ist, führt aber auch in diesem Fall auf die Frage nach der Lösbarkeit einer entsprechenden Resolventengleichung. 10.2.1 Eigenschaften der Halbgruppen und Generatoren Es sei T(t) ⊂ M eine Halbgruppe von Markowoperatoren, A ihr Generator (wir nennen ihn Markowgenerator) und R(λ) die Resolvente mit λ > 0. Es gelten folgende offensichtliche Eigenschaften: • kT(t)k = 1 • Die Resolvente existiert für alle λ mit ℜe λ > 0 (folgt aus kT(t)k = 1). • T(t)1 = 1 =⇒ 1 ∈ D(A), A1 = 0. Das heißt 0 ist Eigenwert von jedem Markowgenerator. • T(t) ≥ 0 =⇒ λR(λ) ≥ 0. Es gilt auch die Umkehrung. Beides folgt aus (52). • λR(λ)1 = 1 (folgt aus (52)). Hieraus folgt λR(λ) ∈ M für λ > 0. 10.2.2 Das positive Minimumprinzip Markowoperatoren sind mittelnde Operatoren. Das heißt, es gilt für jedes t ≥ 0 gmin = g(zmin) ≤ (T(t)g)(z) ≤ g(zmax ) = gmax (zu den Definitionen siehe Abschnitt 5.3.6 auf Seite 74). Hieraus folgt (T(t)g − g)(zmin) ≥ 0 , was die Ungleichung (Ag)(zmin) ≥ 0, g ∈ D(A) für A impliziert. D.h., falls T(t) eine Halbgruppe von Markowoperatoren ist, muß ihr Generator diese Ungleichung erfüllen. Es stellt sich heraus, daß auch die Umkehrung richtig ist. Das suggeriert, folgende Definition einzuführen: Definition (positives Minimumprinzip): Ein Operator A mit A1 = 0 erfülle das positives Minimumprinzip, wenn gilt (Ag)(zmin) ≥ 0, g ∈ D(A) wobei zmin der Punkt ist, in dem g sein Minimum annimmt. Es gibt zwei weitere Definition, deren Äquivalenz offensichtlich ist: Definition (negatives Maximumprinzip): Ein Operator A mit A1 = 0 erfülle das negative Maximumprinzip, wenn gilt (Ag)(zmax) ≤ 0, g ∈ D(A) 186 10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT wobei zmax der Punkt ist, in dem g sein Minimum annimmt. Definition (positives Minimumprinzip): Ein Operator A mit A1 = 0 erfülle das positive Minimumprinzip, wenn für ein 0 ≤ g ∈ D(A) gilt g(z) = 0 =⇒ (Ag)(z) ≥ 0 Es gilt folgender Hauptsatz für Markowgeneratoren: Es sei T(t) eine stetige Halbgruppe und A ihr Generator. T(t) ist eine Halbgruppe von Markowoperatoren, genau dann, wenn ihr Generator das positives Maximumprinzip erfüllt. Beweis (=⇒) Es sei T(t) eine Halbgruppe von Markowoperatoren und g ∈ D(A). Dann gilt 1 (T(t)g − g)(zmin ) ≥ 0 =⇒ (Ag)(zmin) ≥ 0 t (⇐=) Es sei D(A) ∋ g ≥ 0. Wir beweisen, daß für jedes λ > 0, R(λ) ≥ 0. Nach Formel(53) folgt dann T(t) ≥ 0. Angenommen, R(λ) 6≥ 0. Dann existiert ein g und ein z0 mit R(λ)g (z0 ) < 0, wobei wir annehmen können, daß z0 der Punkt ist, wo R(λ)g sein Minimum annimmt. Nach Vorausetzung ist dann AR(λ)g (z0 ) ≥ 0. Dann folgt für λ > 0 g(z0 ) = (λ − A)R(λ)g (z0 ) = λR(λ)g (z0 ) − AR(λ)g (z0 ) < 0 g(zmin) ≤ (T(t)g)(z) =⇒ was im Widerspruch zu g ≥ 0 steht. Dieser Satz ermöglicht, ein etwas einfacheres hinreichendes Kriterium zu finden als das HilleYosida-Theorem. Satz: Es sei A ein in C(Z) dicht definierter Operator, der das positives Maximumprinzip erfüllt und desssen Resolventenmenge nicht leer ist. Dann ist A abschließbar, sein Abschluß erfüllt ebenfalls das positive Maximumprinzip und ist Generator einer stetigen Halbgruppe von Markowoperatoren. Der Beweis ist bis auf die Abschließbarkeit (hierzu siehe in 1184) bereits erbracht. 10.2.3 Stationäre Punkte Die adjungierte T∗ (t) einer Halbgruppe T(t) ist offensichtlich wieder eine Halbgruppe. Allerdings muß sie nicht stark stetig sein. Das hat Folgen für die Formulierung von Evolutionsgleichungen (siehe Abschnitt 10.4 auf Seite 189). Außerdem ist T∗ (t) ist eine kommutierende Familie von Operatoren und besitzt damit nach dem Satz von Markow-Kakutani einen gemeinsamen stationären Punkt µ, d.h., es gilt T∗ (t)µ = µ für t ∈ R+ . Dieses µ liegt im Kern von A∗ . Es gilt folgender Satz: Es sei T(t) eine stetige Halbgruppe und A ihr Generator. Dann gilt T∗ (t)µ = µ ⇐⇒ A∗ µ = 0. Beweis: =⇒ Aus T∗ (t)µ = µ folgt für alle g ∈ D(A): 1 1 1 hg, A∗ µi = hAg, µi = lim hT(t)g − g, µi = lim hg, T∗(t)µ − µi = lim 0 = 0 t→0 t t→0 t t→0 t ∗ Da D(A) dicht ist, folgt A µ = 0. ⇐= Der Beweis folgt aus Gleichung (59) gepaart mit µ und A∗ µ = 0. 10.3 Halbgruppen von deterministischen Markowoperatoren 10.3 Halbgruppen von deterministischen Markowoperatoren 10.3.1 Halbflüsse 187 Besondere Bedeutung haben Halbgruppen von deterministischen Markowoperatoren, also T(t) ⊂ Me . Ein deterministischer Markowoperator ließ sich eindeutig durch eine stetige Funktion ϕ : Z −→ Z darstellen. Es lassen sich Halbgruppen von deterministischen Markowoperatoren durch Halbflüsse darstellen. Es sei ϕt eine Schar stetiger Funktionen und T(t) = Mϕt eine Schar deterministischer Markowoperatoren. ϕt ist ein Halbfluß (siehe Abschnitt 8.1.3) genau dann, wenn T(t) eine Halbgruppe ist. Das folgt aus der Identität Mϕt2 ◦ϕt1 = Mϕt1 Mϕt2 Den Zusammenhang zwischen den Stetigkeiten von Halbfluß und Halbgruppe liefert folgender Satz: Folgende drei Aussagen sind äquivalent: • ϕ als Abbildung R+ × Z − → Z ist stetig in der Produkttopologie. • ϕ(t, z) ist stetig bezüglich jeder Variablen • T(t) = Mϕt ist stark stetig in C(Z) Der Beweis kann in 1184 gefunden werden. Nach dem Hauptsatz über deterministischen Markowoperatoren, sind sie äquivalent als algebraische Homomorphismen charakterisiert. D.h., Halbgruppen von deterministischen Markowoperatoren sind äquivalent als Operatorenfamilie T(t) mit T(t)(f · g) = T(t)f · T(t)g (61) charakterisiert. Es stellt sich heraus, daß sich die Generatoren solcher Halbgruppen auch algebraisch charakterisieren lassen. 10.3.2 Generatoren. Derivationen Definition: Ein Operator A heißt Derivation, wenn D(A) eine Unteralgebra ist (d.h. mit f, g ∈ D(A) auch f · g ∈ D(A) gilt), 1 ∈ D(A) und für alle f, g ∈ D(A) A(f · g) = Af · g + f · Ag gilt. Offensichtlich gilt 1 ∈ D(A) =⇒ A1 = 0. Satz: Es sei T(t) eine stetige Halbgruppe und A ihr Generator. T(t) ist eine Halbgruppe von deterministischen Markowoperatoren, genau dann, wenn ihr Generator eine Derivation ist. Beweis: (aus 1184) (=⇒) Angenommen, T(t) ist eine Halbgruppe von algebraischen Homomorphismen, also auch Markowoperatoren. Damit folgt T(t)1 = 1 und folglich 1 ∈ D(A). Es seien f, g ∈ D(A). Dann gilt mit (61) d d T(t)f · T(t)g = Af · g + f · Ag A(f · g) = T(t)(f · g) = dt t=0 dt t=0 Folglich ist f · g ∈ D(A) und A eine Derivation. 188 10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT (⇐=) Es sei f, g ∈ D(A) (das reicht, da D(A) dicht ist). η(s) = T(t − s) T(s)f · T(s)g Dann ist η(0) = T(t)(f · g) η(t) = T(t)f · T(t)g Wir berechnen die Ableitung von η(s) und benutzen dabei T′ (s) = T(s)A: η ′ (s) = −T′ (t − s) T(s)f · T(s)g + T(t − s) T′ (s)f · T(s)g + + T(t − s) T(s)f · T′ (s)g = = −T(t − s)A T(s)f · T(s)g + T(t − s) T(s)Af · T(s)g + + T(t − s) T(s)f · T(s)Ag = = −T(t − s) T(s)Af · T(s)g − T(t − s) T(s)f · T(s)Ag + + T(t − s) T(s)Af · T(s)g + T(t − s) T(s)f · T(s)Ag = 0 Folglich gilt η(0) = η(t). 10.3.3 Derivationen sind unbeschränkt Satz: Derivations sind unbeschränkte Operatoren. Beweis: Es sei A mit A(f g) = f Ag + gAf . Es gilt A1 = 0. Wir nehmen D(A) = C an und beweisen, daß dann A = O sein muß. Es sei z0 und f beliebig (wir zeigen (Af )(z0 ) = 0, hieraus folgt dann A = O). Es sei g = f − f (z0 ). Dann ist g(z0 ) = 0, g+ (z0 ) = 0, g− (z0 ) = 0, 1 1 g+2 (z0 ) = 0, g−2 (z0 ) = 0 und Af = Ag. Wegen g+ , g− ∈ D(A) gilt (Af )(z0 ) = (Ag)(z0 ) = (A(g+ − g− ))(z0 ) = (Ag+ )(z0 ) − (Ag− )(z0 ) = 1 1 1 1 = (Ag+2 · g+2 )(z0 ) − (Ag−2 · g−2 )(z0 ) = 1 1 1 1 = 2g+2 (z0 )(Ag+2 )(z0 ) − 2g−2 (z0 )(Ag−2 )(z0 ) = 0 ∂ = O. Das gilt nur, wenn Das heißt, der Operator bildet f auf die 0 ab, es ist also A = a(z) ∂z g = g+ − g− im Definitionsbereich zerlegt werden kann, was für differenzierbare Funktionen nicht gilt. Das heißt, wenn f differenzierbar ist, kann ich so nicht beweisen, daß Af = 0 ist. Die Unbeschränktheit erkennt man auch so: Es sei kf k = 1. Es gilt Af n Af 1 Af 2 Af 3 Af n = = = = = A(f · f n−1 ) = Af · f n−1 + f · Af n−1 Af 2f · Af 3f 2 · Af nf n−1 · Af Damit wächst kAf n k wie n. Bemerkung: Im endlich dimensionalen Raum sind alle linearen Operatoren beschränkt. Folglich gibt es keine Matrizen, die Derivationen sind und damit auch keine Halbgruppen deterministischer Markowoperatoren. Nimmt man an, daß jedes sinnvolle physikalische Problem einen deterministischen Limit haben sollte (d.h., bei immer mehr zur Verfügung stehender Information im Prinzip deterministisch werden sollte), dann ist die Konsequenz: Probleme in einem endlichen Zustandsraum kann man nicht mit kontinuierlicher Zeit beschreiben. 10.4 Evolutionsgleichungen 10.3.4 189 What is integration by parts? The extension of the integration by parts rule to more general situations is a frequently investigated problem. Actually this is a problem of extending the notion of a derivative. We propose the following extension – based on the algebraic definition of an abstract derivation. Given an abstract derivation A, pairing with some µ ∈ P, we have hf · Ag, µi + hg · Af, µi = hA(f · g), µi = hf · g, A∗µi If µ is the stationary measure of the corresponding semigroup, we have A∗ µ = 0. Hence, hf · Ag, µi = −hg · Af, µi. This is equivalent to (f, Bg)µ = −(g, Bf )µ and is the most general form of the integration by parts rule. This is a pure algebraic formula and does not require any metric structure in Z for the definition of a differential quotient. Bemerkung: In der üblichen Formel für die partielle Integration kommen Randterme vor, beispielsweise gilt Z b Z b ′ g(x)f (x)dx = − g ′ (x)f (x)dx + g(b)f (b) − g(a)f (a) a a ′ Hier ist Af = f . Das Maß µ, das dieser Formel zugrunde liegt ist das Lebesguemaß. Aber A ist kein Generator. Erst geeignete Randbedingungen, mit denen die Randterme wegfallen (z.B. periodische g(b) = g(a), f (b) = f (a)), machen ihn zu einem Generator. 10.4 Evolutionsgleichungen Die ursprüngliche Aufgabe war, durch Lösung einer geeigneten Gleichung die gesuchte Trajektorie zu ermitteln. Diese Trajektorie bei gegebenem Anfangswert ist p(t) = T∗ (t)p0 (62) eine Trajektorie in P. Sie ist Lösung der Gleichung ṗ(t) = A∗ p(t), p(0) = p0 (63) falls T∗ (t) eine stark stetige Halbgruppe in C∗ ist. Die starke Topologie in C∗ ist aber so stark (sie ist auf Pe zur diskreten Topologie äquivalent), daß eine stark stetige Halbgruppe in C∗ gleichmäßig stetig sein muß. Dann ist ihr Generator aber beschränkt. Gleichung (63) hat folglich nur für beschränkte Operatoren A∗ Sinn, etwa für Matrizen im endlich dimensionalen Raum. Schon adjungierte von deterministischen Halbgruppen sind nicht stark stetig (sonst wären Derivationen beschränkt). Im allgemeinen kann man die gesuchte Trajektorie p(t) also nicht durch Lösung der Gleichung (63) ermitteln. 10.4.1 Starke Gleichungen in C Wenn man die Halbgruppe T(t) kennt, kann man ihre adjungierte T∗ (t) durch Bestimmung der adjungierten und dann p(t) nach Gleichung (62) ermitteln. Dazu sind folgende Schritte erforderlich: 1. Bestimmung des Operators A (das kann im allgemeinen schwer sein, da man nur dem Operator A∗ einen physikalischen Sinn geben kann). 190 10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT 2. Lösung der Gleichung ġ(t) = Ag(t), g(0) = g0 (64) für alle Anfangswerte g ∈ D(A). Löst man die Gleichung nur für einen Anfangswert g0 , bestimmt man g(t), was zur Kenntnis der Halbgruppe zu wenig ist. 3. Bestimmung der Trajektorie p(t) aus hg, p(t)i = hT(t)g, p0 i In der Praxis bedeutet die Bestimmung der Halbgruppe die Bestimmung des Integralkerns des Integraloperators, dem die Halbgruppe entspricht. Dieser Integralkern wird häufig Greensche Funktion der Aufgabe oder Greensche Lösung genannt. Diese Methode bietet sich an, wenn man die Gleichung (64) explizit (also in geschlossener Form) lösen kann, was ein seltener Glücksumstand ist. Die Lösung der Gleichung (64) wird “starke Lösung” genannt, Gleichung (64) heißt starke Gleichung oder “Gleichung in starker Form.” Ursprünglich bedeutete die Lösung einer Gleichung stets das Finden der starken Lösung. Dieser Begriff trat erst auf im Zusammenhang mit schwachen Lösungen. 10.4.2 Vage Gleichungen in C∗ Wenn man die Trajektorie nicht explizit finden kann, d.h., die Gleichung (64) nicht explizit lösen kann, dann möchte man sie wenigstens numerisch lösen. Der Ausgangspunkt hierfür ist Gleichung (64) dual gepaart mit dem Anfangswert p0 . Das ergibt (aus starker Differenzierbarkeit folgt vage Differenzierbarkeit) für die linke Seite hġ(t), p0 i = d d d d hg(t), p0i = hT(t)g0 , p0 i = hg0, T∗ (t)p0 i = hg0 , p(t)i dt dt dt dt und für die rechte Seite hAg(t), p0i = hAT(t)g0, p0 i = hT(t)Ag0, p0 i = hAg0 , ø∗ T (t)p0 ihAg0, p(t)i Das ergibt die Gleichung d hg0, p(t)i = hAg0 , p(t)i, g0 ∈ D(A) dt (65) Diese Gleichung heißt – zusammen mit dem Anfangswert p(0) = p0 “vage Gleichung” und seine Lösung “vage Lösung”. Aus der Theorie der schwachen Gleichungen ist bekannt, daß eine Gleichung möglicherweise keine starke, sondern nur eine schwache Lösung hat. Starke und schwache Gleichungen sind also verschiedene Dinge. Was es damit auf sich hat untersuchen wir im nächsten Punkt. Die hier betrachteten Gleichungen (64) und (65) sind im Gegensatz dazu völlig äquivalent. Hat man Gleichung (65) für jeden Anfangswert p0 gelöst, hat man die Halbgruppe T∗ (t) bestimmt. Ihre vage Ableitung für t = 0 ist A∗ . Dieser Operator hat offensichtlich einen präadjungierten A, von dem wir in Gleichung (65) ausgegangen sind. Deshalb hat auch T∗ (t) eine präadjungierte Halbgruppe T(t), die Lösung von Gleichung (64) ist. 10.4 Evolutionsgleichungen 191 Zur numerischen Lösung von (65) betrachtet man einen n-dimensionalen Unterraum von D(A), aufgespannt von einer geeigneten Basis (g1 , ..., gn ) und zerlegt Agi in dieser Basis (entweder approximativ P oder exakt, wenn man einen invarianten Unterraum von A gefunden hat. Das ergibt Agi = j aij gi . Man erhält aus (65) das Gleichungssystem X d hgi , p(t)i = aij hAgj , p(t)i, i = 1, ..., n dt j (66) Setzt man jetzt mi (t) = hgi , p(t)i, erhält man als zu lösendes Gleichungssystem X d mi (t) = aij mj (t), i = 1, ..., n dt j (67) Die Größen mi (t) heißen Momente der Maße p(t). Die approximative Berechnung von p(t) aus mi (t) ist bei guter Wahl der Basis (g1 , ..., gn ) eine klassische Aufgabe und heißt “inverses Momentenproblem” oder einfach “Momentenproblem”. 10.4.3 Schwache Gleichungen in L2 (µ) Für eine gegebene Halbgruppe T(t) und ein stationäres Maß µ ihrer adjungierten T∗ (t) betrachten wir dem Hilbertraum L2 (µ) als Vervollständigung von C in der L2 (µ)-Norm und die Erweiterung S(t) von T(t). Die weiteren Ausführungen sind für die anderen Lebesgueräume analog, sofern nicht spezielle Begriffe aus dem Hilbertaum verwendet werden (Skalarprodukt, Symmetrie, Selbstadjungiertheit). Offensichtlich ist auch S(t) eine Halbgruppe. Tatsächlich ist sie auch stark stetig. Das folgt aus der schon häufig für solche Abschätzungen verwendeten Jensenschen Ungleichung für die konvexe Funktion F (x) = x2 . Theorem: A Markov semigroup T(t) is a strong continuous semigroup in L2 (µ) if T∗ (t)µ = µ. Proof: Let S(t) the extension of T(t) in L2 (µ). T(t) is strong continuous and therefore weak continuous. We take f ∈ C, then, with F (x) = x2 kS(t)f − f k2L2 (µ) = (T(t)f − f )2 , µ = (T(t)f )2 , µ − 2 f · T(t)f, µ + f 2 , µ ≤ ≤ T(t)f 2 , µ − 2 f · T(t)f, µ + f 2 , µ = = 2 f 2 , µ − 2 f · T(t)f, µ = t→0 = 2 f · (T(t)f − f ), µ ≤ 2kf kC |T(t)f − f |, µ − →0 since T(t)f tends to f weakly. Es ist leicht zu zeigen, daß der Generator der Fortsetzung einer stetigen Halbgruppe die Fortsetzung des Generators ist. Es sei B die Fortsetzung von A. Wir leiten im Weiteren eine Gleichung in L2 (µ) für die Dichte h(t) der Trajektorie p(t) bezüglich µ her. Es habe p0 eine Dichte h0 bezüglich µ, wobei wir hier nicht fordern wollen, daß h0 stetig ist sondern nur, daß h0 ∈ L2 (µ). Dann folgt ebenfals aus der Jensenschan Ungleichung, daß p(t) für alle t ∈ R+ eine L2 (µ)-Dichte bezüglich µ besitzt. Das sei h(t). Jetzt folgt aus Gleichung (65) und (g, h(t))µ = hg, Qµh(t)i = hg, p(t)i d d (g0 , h(t))µ = hg0 , p(t)i = hAg0, p(t)i = (Bg0 , h(t))µ = (g0 , B∗ h(t))µ , g0 ∈ D(A) dt dt 192 10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT In dieser Gleichung ist wegen der Dichtheit egal, ob man g0 ∈ D(A) oder g0 ∈ D(B) betrachtet. Außerdem schreiben wir g anstelle von g0 . Schließlich erhalten wir die Gleichung d (g, h(t))µ = (g, B∗ h(t))µ , g ∈ D(B) dt (68) Diese Gleichung wird “schwache Gleichung” oder Gleichung in “schwacher Form” oder Gleichung in “schwache Formulierung” und seine Lösung “schwache Lösung” genannt. Sie ist schwach im Sinne des Hilbertraums L2 (µ) (in dem es wegen der Reflexivität keinen vagen Begriff gibt). Sie folgt aus der vagen Gleichung (65) unter zusätzlichen Annahmen: µ muß stationäres Maß von T∗ (t) sein und p0 muß eine Dichte bezüglich dieses Maßes haben. Das ist eine starke Einschränkung. Oft ist es nämlich erwünscht, die Lösung p(t) mit einem Punktmaß, etwa p0 = δz0 als Anfangswert zu bestimmen. Vor allem Physikaer machen das gern, weil die Lösung dann gerade die Greensche Funktion ist. δz0 hat aber nur bezüglich eines µ, das einen δz0 -Anteil enthält eine Dichte. Das ist meistens ein uninteressanter Fall. Interpretiert man Elemente aus L2 (µ) als Funktionen, die man punktweise verstehen kann, so folgt, wenn h(t) ausreichend regulär ist aus (68) die Gleichung d h(t) = B∗ h(t) dt (69) die “starke Gleichung” in L2 (µ) genannt wird. Offensichtlich ist jede Lösung von (69) auch Lösung von (68). Die Umkehrung ist nicht wahr sondern erfordert zusätzliche Regularität von h(t), die in konkreten Aufgaben nicht gegeben sein kann. Das ist ein prinzipieller Unterschied zu den Begriffen “starke” und “vage” Lösung in C bzw. C∗ . Historisch war die Entwicklung so: Man hat ursprünglich Gleichungen der Form (69) betrachtet. Dann hat man festgestellt, daß für spezielle Probleme dieser Lösungsbegriff nicht mehr ausreichend ist und hat den Begriff der schwachen Lösung, also der Lösung von Gleichung (68) entwickelt. Wir haben gesehen, daß der logische Weg gerade der umgekehrte war: Unter bestimmten weiteren Voraussetzungen (Existenz einer Dichte für den Anfangswert) konnte man Gleichung (68) herleiten. Für deren Lösungsbegriff muß man Elemente aus L2 (µ) nicht selbst als Funktionen, die im Punkt einen Wert haben betrachten, sondern nur als Grenzwerte von Folgen stetiger Funktionen. Anschließend, unter weiteren Voraussetzungen (Regularität) kann man auch eine Gleichung der Form (69) betrachten. Hierbei ist zu bemerken, daß sich das Verständnis eines Elementes aus L2 (µ) als Funktion von Punkten – ohne dessen Gleichung (69) überhaupt nicht zu verstehen wäre – für den Fall, daß µ das Lebesguemaß ist, entwickelt hat. Für allgemeine Maße µ sollte man den Begriff der “starke Gleichung” in L2 (µ) überhaupt vermeiden. 10.5 Darstellungen von Markowgeneratoren 10.5 Darstellungen von Markowgeneratoren 10.5.1 Markowgeneratoren in C({1, ..., n}) 193 Ist Z = {1, ..., n} eine endliche Menge, dann ist C(Z) = Rn . Operatoren sind Matrizen. Markowhalbgruppen sind Familien von Markowoperatoren ω11 (t) · · · ωn1 (t) .. .. .. T(t) = . . . ω1n (t) · · · ωnn (t) mit der zusätzlichen Eigenschaft T(t1 + t2 ) = T(t1 )T(t2 ) , T(0) = I (70) Die Operatoren T(t) und T∗ (t) haben die Form ω11 (t) · · · ωn1 (t) ω11 (t) · · · ω1n (t) .. .. .. .. ∗ .. .. T(t) = , T (t) = . . . . . . ω1n (t) · · · ωnn (t) ωn1 (t) · · · ωnn (t) ωij (t) ist die Wahrscheinlichkeit, daß der i-te Zustand nach der Zeit t zum j-ten Zustand wird. Es gilt 0 ≤ ωij (t) ≤ 1 n X ωij (t) = 1 (71) (72) i=1 Die Bedingung T(0) = I lautet hier ωij (0) = δij (73) Aus der Funktionalgleichung folgt, daß die Funktionen ωij (t) differenzierbar sind. Zusammen mit den Bedingungen (72) und (73) folgt hieraus, daß aii := ωii′ (0) ≤ 0 , aij := ωij′ (0) ≥ 0 (i 6= j) (74) Außerdem gilt wegen (72) aii = − n X i=1 j6=i aij ≤ 0 Das ist die bekannte Bedingung A1 = 0. Die allgemeine Darstellung eines Markowgenerators ist deshalb −a12 − . . . − a1n a12 ··· a1n a21 −a21 − a23 − . . . − a2n · · · a2n 1 A = lim T(t) − I = . . .. . .. .. .. t→0 t . an1 an2 · · · −an1 − . . . − an,n−1 194 10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT mit nichtnegativen Elementen aij ≥ 0. Der Definitionsbereich ist der ganze Raum (wie für alle linearen Operatoren im endlichdimensionalen Raum). Es gilt Ag j = n X j6=i=1 aij (gi − gj ) Tatsächlich erfüllen alle solchen Matrizen das positive Minimumprinzip: Beweis: Es sei g ∈ Rn und imin der Index der kleinsten Komponente von g. Dann ist Ag (zmin ) = Ag i min = n X j6=imin aimin j (gimin − gj ) ≤ 0 da gimin ≤ gj . Die Evolutionsgleichungen in Rn und R∗n lauten ġj (t) = n X aij gi (t) = i=1 ṗi (t) = n X j=1 n X i=1 i6=j aij gi (t) − gj (t) (75) n X aij pj (t) = aij pj (t) − aji pi (t) (76) j=1 j6=i Da die Operatoren beschränkt sind, lassen sich beide Gleichungen in starken Sinn verstehen. Die Komponenten der Matrix A ergeben sich als aij = lim 1t ωij (t) und lassen sich als Übergangst→0 raten oder Übergangsgeschwindigkeiten (Übergangswahrscheinlichkeiten pro Zeit) verstehen. 10.5.2 Markowgeneratoren in C(Z) mit Z ⊂ Rm Es sei Z ein kompaktes Gebiet im Rm . Ein Markowoperator läßt sich als Integraloperator mit einem Integralkern schreiben. Es sei ω(t, z, B) eine Schar solcher Integralkerne mit Z T(t)g (z) = ω(t, z, dz ′ )g(z ′ ) Z Der Halbgruppeneigenschaft entspricht Z ′ ′′ ω(t + t , z, B ) = ω(t, z, dz ′ )ω(t′ , z ′ , B ′′ ) Z Wir berechnen den Generator nach seiner Definition: Z Z 1 1 1 ′ ′ ω(t, z, dz )g(z ) − g(z) = T(t)g − g (z) = ω(t, z, dz ′ ) g(z ′ ) − g(z) t t Z Z t Hier wurde verwendet, daß ω(t, z, Z) = 1. It is clear that the integral is well defined even if 1t ω(t, z, B) tends to a singular value, because g(z ′ ) − g(z) − → 0 for z ′ − → z. This means, g can distingwish near states, badly. Therefore, we decompose the integral in the following way ! Z Z 1 1 + T(t)g − g (z) = ω(t, z, dz ′ ) g(z ′ ) − g(z) t t Z\Bz,ε Bz,ε 195 10.5 Darstellungen von Markowgeneratoren where Bz,ε is a set, tending to {z} for ε − → 0. Before passing to the limit ε − → 0, we expand g(z ′ ) ′ in the first integral into a Taylor series for z ∈ Bz,ε ′ g(z ) = g(z) + m X i=1 (zi′ m ∂ ∂2 1X ′ − zi ) (zi − zi )(zj′ − zj ) g(z) + g(z) + o(|z ′ − z|2 ) , ∂zi 2 i,j=1 ∂zi ∂zj assuming g ∈ C2 (Z). This is possible, because C2 (Z) is dense in C(Z). We assume the existence of the following limits 1 Q(z, B) = lim ω(t, z, B), z 6∈ B t→0 t Z 1 (zi′ − zi )ω(t, z, dz ′ ) + O(ε) ai (z) = lim t→0 t B Z z,ε 1 bij (z) = lim (zi′ − zi )(zj′ − zj )ω(t, z, dz ′ ) + O(ε) t→0 t B z,ε Finally, we obtain m X m X ∂2g ∂g (Ag)(z) = bij (z) + ai (z) + ∂z ∂z ∂z i j i i,j=1 i=1 Z Z g(z ′ ) − g(z) Q(z, dz ′ ) (77) m For fixed z, the matrix B = bij (z) i,j=1 is a non-negative matrix in Rm in the sense of bilinear forms in Hilbert spaces. We have (Bξ, ξ) ≥ 0 for all ξ ∈ Rm since ! Z Z m X ′ ′ ′ (z ′ − z, ξ)2 ω(t, z, dz ′ ) ≥ 0 (zi − zi )(zj − zj )ω(t, z, dz ) ξi ξj = (Bξ, ξ) = i,j=1 Bz,ε Bz,ε with ω(t, z, B) ≥ 0. Moreover, Q(z, B) ≥ 0. For z ∈ B, Q(z, B) can be unbounded. In this case, the integral operator has to be understood as a principal value integral. Note, that expression (77) is a formal one and valid only for inner points of Z. Neither the structure of the operator at boundary points, nor the regularity properties of the coefficients ai , bij , Q are known for general situations. The operator A is bounded, if the differential part is absend and the integral exists in the usual sense. In this case, the integral operator can be written as a dfference Z (Ag)(z) = g(z ′ )Q(z, dz ′ ) − g(z)Q(z, Z) Z as is usually understood as a nonlocal operator describing jumps. The proof of the maximum principle We prove that an operator of type 77 satisfy the positive maximum principle. Let g ∈ D(A) and zmax be the point, where g contains its maximum. We assume that zmax is a inner point. Since g is twice continuous differentable, we have ∂z∂ i g(zmax ) = 0 and the negative Hessian H with Hij = − ∂2 g(zmax ) ∂zi ∂zj 196 10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT is a non-negative matrix in Rm . We have to show Ag (zmax ) ≤ 0. We have m m X ∂ ∂ 2 g(zmax ) X + ai (zmax ) g(zmax ) = Ag (zmax ) = bij (zmax ) ∂z ∂z ∂z i j i i=1 i,j=1 Z = g(z ′ ) − g(zmax ) Q(zmax , dz ′ ) Z Since g(zmax ) is the maximum of g we have g(z ′ ) − g(zmax ) ≤ 0 and since Q(zmax , B) ≥ 0, we have Z Z From m X i,j=1 g(z ′ ) − g(zmax ) Q(zmax , dz ′ ) ≤ 0 ∂ g(zmax ) ∂zi bij (zmax ) = 0 follows ai (zmax ) ∂z∂ i g(zmax ) = 0. Thus, it left to show ∂2 g(zmax ) ∂zi ∂zj ≥0 This is equivalentely to tr(B · H) ≥ 0. H = H∗ ≥ 0 implies the existence of √ H and we have √ √ √ √ h H · B · Hx, xi = hB · Hx, Hxi ≥ 0 √ √ since B ≥ 0. Thus, the matrix H · B · H has a non-negative trace and from the cyclic identity of the trace, tr(A · B · C) = tr(C · A · B), we obtain, finally tr(B · H) = tr(B · √ H· √ √ √ H) = tr( H · B · H) ≥ 0 Equations for the density An equation for probability densities cannot be derived in a strong sense, in general. Assuming, the probability measure p(t) has a density W (t) with respect to the Lebesgue measure, and assuming Q(z, dz ′ ) = Q(z, z ′ )dz ′ , the evolution equation for W (t) is m m X X ∂ ∂2 ∂ ai (z)W (z, t) + bij (z)W (z, t) + W (z, t) = − ∂t ∂zi ∂zi ∂zj i,j=1 i=1 Z Q(z ′ , z)W (z ′ , t) − Q(z, z ′ )W (z, t) dz ′ . + (78) Z This assumed regularity is a rare case. Normally, this is the form in which the ChapmanKolmogorov forward equation is used (see [5]). Note, that the coefficients ai correspond to the Liouville equation and therefore disappear after derivating with respect to time. 197 10.5 Darstellungen von Markowgeneratoren 10.5.3 Dynamical systems and their Liouville equations The first case is the one of deterministic trajectories, i.e. dynamical systems. For t ≥ 0 let ϕt : Z − → Z be a time-family of continuous maps of the state space into itself with the properties ϕt1 +t2 = ϕt2 ◦ ϕt1 (semiflow property) and ϕ0 = id (identity). Then, if certain regularity properties are fulfilled the trajectory zt = ϕt (z0 ) is the solution of an ordinary differential equation, say żt = a(zt ) with initial data z0 . The image of the semiflow ϕt in Z via the canonical embedding is a semigroup of a deterministic Markov operator. ϕt ⇐⇒ T(t) = Mϕt The semigroup property easily follows from the semiflow property. For arbitrary g ∈ C it holds T(t1 + t2 )g = Mϕt1 +t2 g = Mϕt2 ◦ϕt1 g = g ◦ (ϕt2 ◦ ϕt1 ) = (g ◦ ϕt2 ) ◦ ϕt1 = Mϕt1 Mϕt2 g = = T(t1 )T(t2 )g Typical examples for semiflows are shifts and the corresponding generators are differential operators of first order. As usual, the definition of differential operators requires a metric structure in Z, something that is not given in a general topological space. Surprisingly, there is a complete algebraic description of generators of semigroups of deterministic Markov operators. Such a generator is an abstract derivation: A deterministic Markov operator is a algebra homomorphism. Hence, a semigroup T(t) of deterministic Markov operators satisfy T(t)(f · g) = T(t)f · T(t)g. It follows T(t)(f · g) − f · g = f · (T(t)g − g) + (T(t)f − f ) · T(t)g Multiplying by 1/t nad passing to the limit t − → 0 we obtain A(f · g) = f · Ag + g · Af (79) An operator whose domain D(A) is a sub-algebra of C(Z) and satisfyies the algebraic identity (79) and A1 = 0, is called derivation. Thus, the generator of a semigroup of deterministic Markov operators is a derivation. The opposite is true as well (see [1]). Note that no metric is needed to define an abstract derivation. A derivation is always a unbounded operator. This is one reason why in finite dimensional spaces there are no semigroups of deterministic Markov operators. If, for example, Z ⊂ Rm is a compact domain and ż1 = a1 (z1 , ..., zm ) ··· · ··· żm = am (z1 , ..., zm ) (80) is the dynamical system, i.e., the system of differential equations corresponding to the semiflow ϕt , then the corresponding equation to g(z, t) = (T(t)g0 )(z) = g0 ϕt (z) is m X ∂g(z, t) ∂ g(z, t) = ai (z) = ∇g, a(z) ∂t ∂zi i=1 since ∂ ∂ g(z, t) = ∇g ϕt (z) , ϕt (z) = ∇g, a(z) ∂t ∂t (81) 198 10 MARKOWOPERATOREN UND KONTINUIERLICHE ZEIT where [·, ·] is the scalar product in Rm . The right hand side of this equation is the general form of an abstract derivation in a domain of the Euclidean space. The equation, corresponding to p(t, B) = (T∗ (t)p0 )(B) is (assuming that p(t, B) is regular enough to have a density W (z, t) with respect to the Lebesgue measure) m X ∂ ∂ ai (z)W (z, t) . W (z, t) = − ∂t ∂zi i=1 (82) – the Liouville equation of the dynamical system (80). Conversely, (80) is the equation of the characteristics of (81) or (82).