Inhaltsverzeichnis Einleitung 1 1. Kombinatorik 9 1.1 Symbole der Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2 Einordnen von Objekten. Schrittweises Spezifizieren. . . . . . . . . . . . . . . . . . . 12 1.3 Das Prinzip des Schäfers. Äquivalenzklassen gleicher Mächtigkeit . . . . . . . . . . . 12 1.4 Permutationsgruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.5 Teilchen–Statistiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2. Die klassischen Verteilungen 21 2.1 Einige Approximationsformeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2 Die Gewichte der Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.3 Einige kontinuierliche Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.4 Unabhängige identisch verteilte reellwertige Zufallsgrößen . . . . . . . . . . . . . . . 31 2.5 Zur Konstruktion des Poissonprozesses . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.6 Beta–Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.7 Approximative Normalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.8 Abnahmeprüfung, Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Überleitung zum 3. Kapitel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3. Erwartungswert und Kovarianz 53 3.1 Der Erwartungswert als lineares Funktional . . . . . . . . . . . . . . . . . . . . . . . 54 3.2 Sätze aus der Integrationstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.3 Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.4 Beispiele; symmetrisch abhängige Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . 69 3.5 Gaußische Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.6 Die Tschebyschevsche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 3.7 Lokationsschätzer 82 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Zufälligkeit, Entropie und Information 86 4.1 Unabhängige Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.2 Analytische Eigenschaften des Entropiefunktionals . . . . . . . . . . . . . . . . . . . 92 4.3 Die Entropie als Maßzahl für Zufälligkeit; Simulation . . . . . . . . . . . . . . . . . . 97 4.4 Exkurs : Konvexe Funktionen, die Jensensche Ungleichung . . . . . . . . . . . . . . 102 4.5 Huffman–Codes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.6 Gestörte Kanäle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 4.7 Beweis eines Satzes von Shannon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 i ii 5. Irrfahrten auf Graphen, diskrete Potentialtheorie 120 5.1 Beispiele für Irrfahrten auf Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 5.2 Dirichlet–Problem und Poisson–Problem . . . . . . . . . . . . . . . . . . . . . . . . . 125 5.3 Exzessive Funktionen, Optimales Stoppen . . . . . . . . . . . . . . . . . . . . . . . . 131 5.4 Rekurrente Irrfahrten 5.5 Irrfahrten in kontinuierlicher Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 5.6 Stationäre Markov–Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 5.7 Irrfahrten und elektrische Netzwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 5.8 Einige einfache Interaktionsprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 6. Bedingte Wahrscheinlichkeiten 6.1 167 Elementare bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . 167 6.2 Nichtdiskrete bedingte Erwartungen; Ereignisfelder, Mengen von Zufallsgrößen . . . 173 6.3 Bedingte Varianz 6.4 Konstruktion von Wahrscheinlichkeitsbewertungen . . . . . . . . . . . . . . . . . . . 182 6.5 Gestoppte Irrfahrten durch einen Wurzelbaum 6.6 Martingale in diskreter Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 6.7 Kolmogorovs Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 . . . . . . . . . . . . . . . . . . . . . 189 . . . . . . . . . . . . . . . . . . . . . . . . . 206 A. ANHANG : Verbandstheoretische Grundlegung 212 A.1 Boolesche Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 A.1.1 Definition und Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 A.1.2 Teilalgebren und Homomorphismen A.1.3 Der Satz von Stone A.1.4 . . . . . . . . . . . . . . . . . . . . . . . 216 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 Der Satz von Loomis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 A.1.5 Die abstrakte Kennzeichnung der σ–Algebren . . . . . . . . . . . . . . . . . 228 A.2 Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 A.2.1 Das intuitive Rechnen mit Zufallsvariablen . . . . . . . . . . . . . . . . . . . 233 A.2.2 Darstellungstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 A.3 Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 A.3.1 Verteilungen auf polnischen Räumen . . . . . . . . . . . . . . . . . . . . . . . 256 A.3.2 σ–Vollständigkeit und σ–Additivität . . . . . . . . . . . . . . . . . . . . . . . 260 c Prof. Dr. H. Dinges, 18. Dezember 1998 Stochastik für Informatiker (Prof. Dr. H. Dinges, WS 98/99 Frankfurt a.M.) Einleitung Die Wahrscheinlichkeitstheorie ist nicht dafür da, dem Zufall ein Schnippchen zu schlagen. Sie entwickelt eine Sprache, die es erlaubt, über Zufälliges mit Vernunft zu reden. Mathematik treiben heißt, daß man mit den Gegenständen des Denkens operiert und rechnet. Wir wollen hier mit Zufallsgrößen und ihren Verteilungen rechnen, insbesondere mit zufälligen Ereignissen und ihren Wahrscheinlichkeiten. Reellwertige Zufallsgrößen und ihre Erwartungswerte sind begrifflich oft ähnlich aufzufassen wie zufällige Ereignisse mit ihren Wahrscheinlichkeiten. Wir betrachten Zufallsgrößen mit Werten in abstrakten Mengen E, die zunächst als abzählbar angenommen werden und später auch sogenannte polnische Räume sein können. Beispiel : Ein Stoß Karten wird gut gemischt. Der Spieler A erhält k Karten. Was der Spieler A bekommt, ist durch eine Zufallsgröße mit Werten in der Menge E aller k–tupel von Karten beschrieben. Das Ereignis Vier Asse in der Hand“ ist ” ein zufälliges Ereignis. Ob es eintrifft, ist vom Zufall bestimmt. Die Anzahl der Asse in der Hand ist eine reellwertige Zufallsgröße. Zufälligen Ereignissen kann man (mit mehr oder weniger Verstand) Wahrscheinlichkeiten zuordnen; Zufallsgrößen kann man (mit mehr oder weniger Verstand) Verteilungen zuordnen. Die Zuordnung von Wahrscheinlichkeiten und Verteilungen gründet sich immer auf Hypothesen. Das Berechnen von Verteilungen und Wahrscheinlichkeiten unter gewissen Hypothesen ist eine Kunst, die in der Wahrscheinlichkeitstheorie gepflegt wird. Man kann dabei mathematische Fehler machen oder richtig rechnen. Wahrscheinlichkeitstheorie ist Mathematik. Ob die der Rechnung zugrundegelegten Hypothesen irgendeiner Wirklichkeit entsprechen, ist eine andere Frage. In der Statistik stellt man sich dieser weitergehenden Frage; es wird nicht nur rein mathematisch operiert, sondern auch argumentiert. Es wird nicht nur unter irgendwelchen Hypothesen gerechnet; die Hypothesen werden auch entwickelt und in Frage gestellt. Stochastik umfaßt Wahrscheinlichkeitstheorie und Statistik. Das Wort stammt von Jakob Bernoulli (1654 – 1705), einem der Stammväter der Theorie. Sein berühmtes und einflußreiches Buch (1713 posthum veröffentlicht) befaßt sich mit der ars co” niectandi sive stochastice“. Coniectare heißt vermuten und στ oχaζσϑαi ist das entsprechende griechische Wort. Es geht um die Kunst des vernünftigen Vermutens in Situationen, wo der Zufall im Spiel ist oder ins Spiel gebracht werden kann. 1 2 Ob es den Zufall gibt und woher er gegebenenfalls kommt, wird in der Stochastik selten diskutiert. Man kann auch Geschehnissen, die nach der vorherrschenden Meinung völlig deterministisch ablaufen, so gegenübertreten, als wenn Zufall im Spiele wäre. Man sieht bei der stochastischen Betrachtungsweise manchmal mehr, worauf es ankommt, als wenn man sich im Studium der vermuteten Gesetzmäßigkeiten festbeißt. Die Vorlesung wendet sich nicht an solche Studenten, die möglichst schnell in ein Gebiet der aktuellen Forschung eindringen wollen. Sie greift weder in irgendwelche Tiefen mathematischen Schließens noch in irgenwelche Höhen statistischer Argumentationskunst. Wir diskutieren keine speziellen Fragen der statistischen Praxis; und wir wollen uns andererseits nicht in der mathematischen Grundlegung verlieren. Einige grundlegende Ergebnisse der Maßtheorie wollen wir ohne Beweis benützen. Der wichtigste Satz ist der über die Existenz des Erwartungswerts einer beliebigen positiven Zufallsgröße und der Satz über die Existenz von Wahrscheinlichkeitsmaßen auf Produkträumen (gemeinsame Verteilungen von Zufallsgrößen). Die Beweistechniken der Maßtheorie werden wir nicht entwickeln; die Resultate, die wir brauchen, sind auch ohne Beweis verständlich. In den Vorlesungen sollen vor allem auch die Verbindungen der Wahrscheinlichkeitstheorie zu den für jedermann wichtigen mathematischen Disziplinen aufgezeigt werden: Kombinatorik, Analysis, lineare Algebra. Außerdem soll Interesse geweckt werden für Gebiete wie Informationstheorie, Warteschlangentheorie, Graphentheorie u.dgl. Das Programm für die ersten Wochen: I. Die klassischen Techniken des Abz ählens. Binomial– und Multinomialkoeffizienten werden in stochastische Zusammenhänge gestellt. Die Künste des Abzählens werden in Verbindung mit der elementaren Theorie der Permutationsgruppen gebracht. II. Die klassischen Verteilungen. Die Stirling–Formel wird sich bei der Behandlung der Binomialverteilungen und der Poissonverteilungen nützlich erweisen. In der Normalverteilung lernen wir eine erste und zwar eine besonders wichtige Verteilung auf einem nichtabzählbaren Raum kennen. III. Erwartungswert und Varianz. Existenz des Erwartungswerts; einige Grundtatsachen aus der Integrationstheorie werden ohne Beweis zur Sprache kommen. Der Begriff der Kovarianzmatrix wird Verbindungen zur linearen Algebra aufzeigen. c Prof. Dr. H. Dinges, 18. Dezember 1998 3 Einleitung IV. Zufällige Wege durch binäre Bäume. In besonders einfachen Fällen werden Fragen der Simulation und der Codierung erörtert. Der Begriff der Entropie (relative Entropie, Information) wird eine zentrale Rolle spielen. Ein erster Blick auf zentrale Begriffsbildungen Definition : Ein Zufallsmechanismus heißt ein Laplace–Mechanismus, wenn er aus einer endlichen Menge E ein Element auswählt, so daß jedes x, x ∈ E, dieselbe Chance hat. Das Zufallsgeschehen wird durch eine E–wertige Zufallsgröße X beschrieben. Für jede Teilmenge B, B ⊂ E, gilt Ws(X ∈ B) = |B| Anzahl der günstigen Fälle = . |E| Anzahl der möglichen Fälle Die Vorstellung von einem Laplace–Mechanismus beinhaltet, daß man ihn mehrmals unabhängig betätigen kann. Das Zufallsgeschehen wird durch X = (X1 , . . . , Xn ), ein n–tupel von E–wertigen Zufallsgrößen oder eine E × E × · · · × E–wertige Zufallsgröße beschrieben. Unabhängigkeit bedeutet in diesem Fall, daß X = (X 1 , . . . , Xn ) selbst wieder eine Laplace–Variable ist; jedes n–tupel von Punkten in E hat dieselbe Chance. Beispiel : Ein Laplace–Würfel wird 4–mal geworfen. Was ist die Wahrscheinlichkeit des Ereignisses A, daß mindestens eine 6 auftritt. Ein Paar von Laplace–Würfeln wird 24–mal geworfen. Was ist die Wahrscheinlichkeit e daß mindestens eine Doppelsechs auftritt. des Ereignisses A, Lösung : 1) Ws(A) = 1 − Ws (nicht A) = 1 − Ws(X1 6= 6, X2 6= 6, X3 6= 6, X4 6= 6) 4 = 1− 1− = 1 − 65 nach der Näherungsformel (1 − x)n ≈ e−nx , 1 6 4 ≈ 1 − e−2/3 wenn |x| klein und n groß ist . e = 1 − Ws (nicht A) e =1− 1− 2) Ws(A) 1 36 24 ≈ 1 − e−2/3 . Die Approximationen sind nicht sehr genau. e ≈ 0.4914; Genauere Zahlenwerte sind Ws(A) ≈ 0.5177; Ws( A) 1 − e−2/3 ≈ 0.4868. c Prof. Dr. H. Dinges, 18. Dezember 1998 4 Abbildungen : Es sei ϕ eine Abbildung ϕ:E→F ; ϕ : x 7−→ y = ϕ(x) . Wenn X eine E–wertige Zufallsgröße ist, dann bezeichnet Y = ϕ(X) die F – wertige Zufallsgröße, die im Falle, daß X den Punkt x spezifiziert, den Punkt ϕ(x) liefert. Bemerke : Wenn man einen binären Laplace–Mechanismus (Münzwurf) hat, dann kann man ihn dazu benützen, eine Folge von unabhängigen Y1 , Y 2 , . . . zu realisieren, wobei Ws(Y = y) = p(y) mit p(y) ≥ 0, P auf F (endlich) vorgegeben werden kann p(y) = 1 und 2N p(y) ist ganzzahlig für ein geeignetes N . y∈F Wie man die Beschränkung auf rationale p(y), die auch noch ein ganzzahliges Vielfaches von tieren. N 1 2 sein müssen, loswird, werden wir im 4. Kapitel genau disku- Verteilungen auf einer abzählbaren Menge Definition : a) E sei abzählbar. Jedem x ∈ E sei eine Zahl p(x) zugeordnet p(x) ≥ 0 X p(x) = 1 . x∈E Ein solches p(·) heißt eine Wahrscheinlichkeitsgewichtung über E. b) Wir ordnen dann jedem B ⊆ E die Zahl µ(B) = X p(x) x∈B zu und nennen die Mengenfunktion µ(·) : B 7−→ µ(B) das zur Gewichtung p(·) gehörige Wahrscheinlichkeitsmaß. c Prof. Dr. H. Dinges, 18. Dezember 1998 5 Einleitung Es sei X eine E–wertige Zufallsgröße. Jede Hypothese über das Zufallsgeschehen führt zu einer Verteilung von X, (der Verteilung unter dieser Hypothese). Diese Verteilung L(X) (das stilisierte L leitet sich von law , Verteilungsgesetz, ab) wird durch ein Wahrscheinlichkeitsmaß µ(·) beschrieben Ws(X ∈ B) = µ(B) = X µ({x}) = x∈E X Ws(X = x) . x∈B Die Zahl µ(B) ist die Wahrscheinlichkeit (unter der betreffenden Hypothese), daß X einen Wert in B annimmt. In der Statistik betrachtet man die Zufallsgröße X unter konkurrierenden Hypothesen, etwa unter den Hypothesen Hϑ aus einer Familie {Hϑ : ϑ ∈ Θ}, wo Θ eine Parametermenge ist. Man hat dann eine Schar von Verteilungen Lϑ (X): Wsϑ (X ∈ B) = µϑ (B) = X µϑ ({x}) = X pϑ (x) . x∈B x∈E Alle die pϑ (·) sind Wahrscheinlichkeitsgewichtungen pϑ (x) ≥ 0 für alle x ∈ E , X pϑ (x) = 1 . x∈E Wsϑ (X ∈ B) ist die Wahrscheinlichkeit des Ereignisses Hypothese Hϑ . {X ∈ B} unter der Beispiel : Eine verbogene Münze wird geworfen. Der Wertebereich { Zahl“, ” Wappen“} wird bequemerweise mit der Menge E = {0, 1} (1 für Zahl“, 0 für ” ” Wappen“) identifiziert. Ein Münzwurf realisiert eine {0, 1}–wertige Zufallsgröße. ” Ein n–tupel von Münzwürfen realisiert eine E n –wertige Zufallsgröße (X1 , . . . , Xn ); wir erhalten eine zufällige 0–1–Folge der Länge n. Nehmen wir an, die Realisierungen seien unabhängig und identisch verteilt. Diese Annahme schränkt die Schar der Hypothesen über L((X1 , . . . , Xn )) ein. Die Menge der Hypothesen ist nun durch eine einzige Zahl p ∈ [0, 1] zu parametrisieren. Wsp (Xi = 1) = p = 1 − Wsp (Xi = 0) . Wenn δ = (δ1 , . . . , δn ) eine Null–Eins–Folge ist, dann ist Ws((X1 , . . . , Xn ) = δ) = Wsp (X1 = δ1 , X2 = δ2 , . . . , Xn = δn ) = p|δ| (1 − p)n−|δ| wobei |δ| die Quersumme von δ, d.h. die Anzahl der Einsen in δ bezeichnet. c Prof. Dr. H. Dinges, 18. Dezember 1998 6 Es sei nun E nicht eine beliebige abzählbare Menge, sondern eine abzählbare Teilmenge von IR. Die Verteilung L(X) einer E–wertigen Zufallsgröße X kann man dann auch durch die Verteilungsfunktion beschreiben Fϑ (x) = Wsϑ (X ≤ x) = X Wsϑ (X = y) {y:y≤x} Die Verteilungsfunktion Fϑ (·) ist eine monoton ansteigende Funktion mit lim Fϑ (x) = 0 , x→−∞ lim Fϑ (x) = 1 , x→+∞ welche in jedem Punkte rechtsseitig stetig ist lim Fϑ (x + h) = Fϑ (x) h&0 für alle x ∈ IR . Im vorliegenden Falle, wo X nur abzählbar viele Werte annehmen kann, handelt es sich um eine reine Sprungfunktion. Der Begriff der Verteilungsfunktion x 7−→ Fϑ (x) = Wsϑ (X ≤ x) eignet sich aber auch dafür die Verteilung Lϑ (X) einer beliebigen IR–wertigen Zufallsgröße X zu beschreiben. Wir werden im 2. Kapitel Beispiele sehen. Um eine allgemeine Theorie zu entwickeln, braucht man einige Maßtheorie. In der Maßtheorie zeigt man, daß Wsϑ (X ∈ B) für beliebige Borelmengen B durch die Verteilungsfunktion Fϑ (·) eindeutig bestimmt ist. Außerdem kann man beweisen, daß jede isotone rechtsstetige Funktion F (·) mit F (−∞) = 0, F (+∞) = 1 eine mögliche Verteilung L(X) bestimmt. Die allgemeine Theorie wird im 3. Kapitel nur angedeutet werden. Utilitäten und erwartete Utilitäten X sei eine E–wertige Zufallsgröße. Stellen wir uns einen Akteur vor, für den jedes x ∈ E einen gewissen Nutzen f (x) hat; f (·) heißt die Utilitätsfunktion für diesen Akteur. Der Zufall beschert dem Akteur den zufälligen Nutzen f (X); f (X) ist eine reellwertige Zufallsgröße. Man schreibt Eϑ f (X) = X Wsϑ (X = x)f (x) x∈E und nennt diese Zahl den (unter der Hypothese Hϑ ) erwarteten Nutzen; Eϑ f (X) ist der Erwartungswert der Zufallsgröße f (X) unter der Hypothese Hϑ . c Prof. Dr. H. Dinges, 18. Dezember 1998 7 Einleitung Wenn f (·) auf E beschränkt ist oder wenn f (x) ≥ 0 für alle x ∈ E, dann hat die obige unendliche Summe einen Sinn (im zweiten Fall kann der erwartete Nutzen auch den Wert +∞ haben). Bedingt konvergente Reihen, wie etwa 1 1 1 1 + − + − . . . = ln 2 2 3 4 5 kommen in der Theorie der Erwartungswerte nicht vor; sie können auch gar nicht vorkommen, da keine bestimmte Abzählung von E, d.h. keine bestimmte Reihenfolge der Summanden ausgezeichnet ist. Der erwartete Nutzen Eϑ f (X) kann interpretiert werden als der (unter der Hypothese Hϑ ) faire Preis für die Möglichkeit, den zufälligen Nutzen f (X) einzustreichen. 1− Beispiele : 1) Es sei B eine Teilmenge von E. Dem Akteur ensteht der Nutzen = 1, wenn ein x aus B realisiert wird und der Nutzen = 0, wenn das Ereignis {X ∈ / B} eintrifft. Der erwartete Nutzen ist Ws ϑ (X ∈ B). 2) Dem Akteur werden Karten gegeben. Der Nutzen f (x) der Hand“ x sei die ” Anzahl der Asse in der Hand. f (X) ist die zufällige Anzahl der Asse in der Hand. Eϑ f (X) ist die erwartete Anzahl der Asse in der Hand. Es gilt Eϑ f (X) = 1 · Wsϑ (X liefert ein As) + 2 · Wsϑ (X liefert zwei Asse) + 3 · Wsϑ (X liefert drei Asse) + 4 · Wsϑ (X liefert vier Asse) . Denken wir uns E irgendwie abgezählt. Stellen wir uns die Utilität f (·) durch eine E–Spalte dargestellt und die (zur Hypothese Hϑ gehörige) Gewichtung pϑ (·) durch eine E–Zeile. Eine Zeile mit einer Spalte im Sinne der Matrizenrechnung multipliziert, liefert eine Zahl pϑ f = X x∈E pϑ (x)f (x) = Eϑ f (X) . Nehmen wir an, der Akteur verfolgt mehrere Ziele (er plaziert z.B. mehrere Coupons auf einem Roulette–Tisch). Der Gewinn h(x) setzt sich additiv zusammen, im einfachsten Fall h(x) = f (x) + g(x). Der (unter der Hypothese Hϑ erwartete) Gesamtnutzen ist Eϑ h(X) = Eϑ [f (X) + g(X)] = Eϑ f (X) + Eϑ g(X) . Der Erwartungswert (unter einer festen Hypothese Hϑ ) ist ein lineares Funktional auf dem Vektorraum aller möglichen Utilitätsfunktionen. Intensive Beziehungen der Theorie der Erwartungswerte zur linearen Algebra werden im 3. Kapitel entwickelt. c Prof. Dr. H. Dinges, 18. Dezember 1998 8 Hinweis : Jeder weiß, was es heißt, daß zwei Zahlen gleich sind; jeder weiß, was es heißt, daß zwei Mengen gleich sind. Wir wollen mit Zufallsgrößen rechnen. Wir sparen uns grundlagentheoretische Erörterungen, was es heißen soll, daß zwei Zufallsgrößen gleich sind. Der angemessene Gleichheitsbegriff ist meistens der Begriff der fastsicheren Gleichheit von Zufallsgrößen (bzgl. einer Schar von Hypothesen). Der Leser sollte nicht darüber stolpern, daß in Fällen, wo allein schon aus rein logischen Gründen der Wert der reellwertigen Zufallsgröße X den Wert der Zufallsgröße Y nicht übersteigen kann, wir dennoch schreiben X ≤ Y fast sicher. Die Anfügung fast sicher“ dient einfach dem Hinweis, daß wir uns im Kalkül der Zufallsgrößen ” bewegen. c Prof. Dr. H. Dinges, 18. Dezember 1998 1. Kombinatorik Literatur : H. Dinges und H. Rost: Prinzipien der Stochastik, Teubner Studienbücher, 1982 Kai Lai Chung: Elementary Probability Theory with Stochastic Processes, Undergraduate Texts in Mathematics, Springer 1974. 1.1 Symbole der Kombinatorik Notation : zugelassen) k und n seien natürliche Zahlen (manchmal ist auch der Wert 0 a) k! := k(k − 1)(k − 2) . . . · 3 · 2 · 1 ; 0! = 1 = 1! . b) [n]k = (gelesen: n untere Faktorielle k“) ” = n(n − 1) . . . (n − k + 1) c) [n]k := ( n obere Faktorielle k“) ” = n(n + 1) . . . (n + k − 1) d) := n k Speziell: n 0 n(n − 1) . . . (n − k + 1) [n]k n! = = k! k! k!(n − k)! =1= n n (Binomialkoeffizient n über k“) ” 9 10 Die Binomialkoeffizienten für kleine k ≤ n schreibt man gerne als Pascals Dreieck auf 1 1 1 1 1 1 1 3 4 6 1 3 5 1 2 1 6 4 10 15 10 1 5 20 15 1 6 1 ... Satz : n k Sei n ∈ IN und k ≤ n. Dann gilt + n k+1 = n+1 k+1 . Der Beweis kann durch einfaches Rechnen erbracht werden ( Übungsaufgabe!). Man lernt aber mehr über Pascals Dreieck durch eine kombinatorische Überlegung, die auf n der Interpretation von beruht: Die Anzahl der k–Teilmengen einer n–Menge k n ist gleich . Das soll nun bewiesen werden. k Beweis : C(k, n) bezeichne die Anzahl der verschiedenen k–Mengen, die man aus einer n–Menge auswählen kann. Offenbar gilt C(1, n) = n ; C(2, n) = n(n − 1) ; 2 C(n − 1, n) = n . Wir beweisen nun mit einem typischen kombinatorischen Argument: C(k + 1, n + 1) = C(k, n) + C(k + 1, n) . In der (n + 1)–Menge S sei ein Element s ∗ ausgezeichnet. Eine (k + 1)–Teilmenge von S enthält s∗ oder sie enthält s∗ nicht. Eine (k + 1)–Menge, die s∗ enthält, entspricht einer k–Teilmenge von S\{s ∗ }; davon gibt es C(k, n). Eine (k + 1)– Menge, die s∗ nicht enthält, entspricht einer (k + 1)–Teilmenge von S\{s ∗ }; davon gibt es C(k + 1, n). Damit ist die Behauptung bewiesen. C(k + 1, n + 1) = C(k, n) + C(k + 1, n) . c Prof. Dr. H. Dinges, 18. Dezember 1998 1.1 11 Symbole der Kombinatorik Korollar : (Binomischer Lehrsatz) n n (a + b) = a + n 1 a n−1 b+ n 2 a Für alle n gilt n−2 2 b + ... + n n−1 abn−1 + bn . Der Beweis ergibt sich leicht durch vollständige Induktion nach n mit Hilfe des obigen Satzes. Wir bemerken die Spezialfälle: n(n − 1) n n 2 = 1+n+ + + ... + +1 3 n − 1 2 n(n − 1) n ± . . . + (−1)n−1 + (−1)n . 0 = 1−n+ n−1 2 n Die entsprechende Formel für mehrere Unbestimmte heißt der multinomische Lehrsatz. Die Koeffizienten bei den Monomen heißen die Multinomialkoeffizienten. Für drei Unbestimmte haben wir Satz : X n (a + b + c) = k1 +k2 +k3 =n n k1 k2 k3 a k1 b k2 c k3 mit n k1 k2 k3 = n! . k1 !k2 !k3 ! Beweis : Man kann den Beweis durch vollständige Induktion nach n führen. Lehrreicher ist die folgende Überlegung (a + b + c)(a + b + c) . . . (a + b + c) mit n Faktoren Blindes Ausmultiplizieren liefert 3 n Monome mit dem Koeffizienten 1. In einem Monom kommt k1 –mal a, k2 –mal b und k3 –mal c vor. k1 +k2 +k3 = n. Fixieren wir (k1 , k2 , k3 ) ∈ ZZ+ × ZZ+ × ZZ+ mit k1 + k2 + k3 = n. Wieviele Möglichkeiten gibt es auf die Plätze 1, 2, . . . , n Kugeln mit den Farben a, b oder c zu plazieren, so daß genau k1 a–Kugeln, k2 b–Kugeln und die restlichen k3 = n − (k1 + k2) n c–Kugeln sind? Dazu wähle man zuerst die k1 Plätze für a–Kugeln. Es gibt k1 Möglichkeiten. Unter den restlichen n − k Plätzen müssen wir k für b–Kugeln 1 2 n − k1 Möglichkeiten. Insgesamt gibt es also vorsehen. Es gibt k2 n k1 n − k1 k2 = (n − k1 )! n! n! = k1 !(n − k1 )! k2 !(n − k1 − k2 )! k1 !k2 !k3 ! Möglichkeiten. c Prof. Dr. H. Dinges, 18. Dezember 1998 12 1.2 Einordnen von Objekten. Schrittweises Spezifizieren. k Objekte sollen auf n Plätze verteilt werden. Wieviele Möglichkeiten gibt es? a) k Objekte werden k Plätze verteilt, so daß auf jedem Platz genau ein Objekt zu liegen kommt. Es gibt k! Möglichkeiten, z.B. 2 1 5 4 3 (für k = 5) . k! ist auch die Menge der Permutationen von k Elementen. Jede Einordnung entspricht einer Permutation. b) k Objekte sollen auf n Plätze gelegt werden, so daß kein Platz mehrfach belegt wird. Es gibt [n]k Möglichkeiten. z.B. 1 . 5 4 . 2 3 1 2 3 4 5 6 7 (für n = 7, k = 5) . Beweis durch schrittweises Spezifizieren: das erste Objekt findet n mögliche Plätze; für das zweite haben wir (n − 1) mögliche Plätze; etc. c) k Objekte werden auf n Plätze gelegt; wenn mehrere Objekte auf denselben Platz kommen, werden sie in eine lineare Ordnung gebracht ( Türmchenbauen ” auf n Plätzen“). Es gibt [n]k Möglichkeiten 1 3 z.B. 4 2 . . 5 . . . 1 2 3 4 5 6 7 Beweis durch schrittweises Spezifizieren. Das erste Objekt findet n Plätze; das zweite (n + 1) etc. 1.3 Das Prinzip des Schäfers. Äquivalenzklassen gleicher Mächtigkeit. Aufgabe : MISSISSIPPI. Wieviele verschiedenen Wörter kann man mit der ge11! gebenen Population von Buchstaben bilden? Die Antwort 4!4!2! wird sich unten ergeben. c Prof. Dr. H. Dinges, 18. Dezember 1998 1.3 Das Prinzip des Schäfers. Äquivalenzklassen gleicher Mächtigkeit 13 Zwei Beobachter treffen auf eine Herde von Schafen. Der erste Beobachter behauptet, es seien 104 Schafe. Auf die Frage des zweiten, wie er zu diesem Ergebnis gekommen sei, antwortet er, er hätte die Anzahl der Beine gezählt und durch 4 geteilt. Das Prinzip des Schäfers : Die Mächtigkeit |Ω| einer Menge Ω ist zu bestimmen. Identifiziere die Punkte ω ∈ Ω mit den Äquivalenzklassen einer Menge (Ω∗ , ∼), wo alle Äquivalenzklassen dieselbe Mächtigkeit m haben. Dann gilt |Ω| = |Ω∗ | . m Aufgabe : Wieviele verschiedene Teilpopulationen vom Umfang k gibt es in einer Grundmenge der Mächtigkeit n? Eine Teilpopulation von E (auch Multiset genannt) wird beschrieben durch die Vielfachheiten Z(x), mit welcher die Elemente x ∈ E in der Teilpopulation vorkommen. Z(·) ist die Abbildung E → ZZ+ , die jedem x die Vielfachheit Z(x) zuordnet, mit welcher x in der Teilpopulation vorkommt. Im MISSISSIPPI–Beispiel wird die Buchstabenpopulation beschrieben durch die Funktion Z(·), die in den Punkten S“ und I“ den Wert 4, im Punkte P“ ” ” ” den Wert 2, im Punkte M“ den Wert 1 und überall sonst (auf E = Menge der la” teinischen Buchstaben) den Wert 0 hat. Der Umfang der durch Z(·) beschriebenen Population ist die Summe aller Z–Werte, die Quersumme“ kZk = n. ” Nach diesen Vorbereitungen machen wir uns an die Lösung der Aufgaben : 1) Für k = 1. In einer n–Menge gibt es genau n Teilpopulationen vom Umfang k = 1. 2) Für k = 2. Eine Teilpopulation vom Umfang 2 ist entweder durch ein Paar beschrieben oder durch eine Multiplizitätsfunktion, die in genau einem der n Punkte den Wert 2 annimmt. Es gibt n(n + 1) n(n − 1) +n= 2 2 Teilpopulationen vom Umfang 2. Für k ≥ 3 wird ein unangeleitetes Abzählen kompliziert. Wir führen zwei Wege vor, [n]k n+k−1 führen. = die auf das Resultat k k! c Prof. Dr. H. Dinges, 18. Dezember 1998 14 1. Methode : Erinnern wir uns ans Türmchenbauen. Jedes Türmchen liefert uns eine Teilpopulation, wenn wir davon absehen, welche Objekte es waren, die auf den Plätzen 1, 2, . . . , n gelandet sind. Wieviele (im alten Sinne) verschiedene Türmchen liefern dieselbe Population? Offenbar sind es k!. Da es [n]k verschiedene Türmchen gibt, gibt es nach dem k Prinzip des Schäfers [n] k! verschiedene Teilpopulationen vom Umfang k über unserer n–Menge der Plätze. 2. Methode : Sei E = {1, 2, . . . , n}. Eine Teilpopulation repräsentieren wir durch eine nichtfallende Folge wie z.B. 111335788 (k = 9) . Wir bilden daraus die strikt steigende Folge 1 2 3 6 7 10 13 15 16 indem wir zum ersten 0 zum zweiten 1, zum dritten 2, . . . , zum k–ten Element k − 1 dazuaddieren. Wir können so jede von 1 bis n + k − 1 aufsteigende Folge der Länge k erhalten und die Zuordnung ist umkehrbar eindeutig. Es gibt genau n+k−1 strikt aufsteigende Folgen von Zahlen aus {1, 2, . . . , n + k − 1}. (Hier k wurde das Prinzip des Schäfers nicht angewandt.) Das Prinzip des Schäfers gibt Anlaß, an den Begriff der Äquivalenzrelation zu erinnern. Eine binäre Relation ∼“ heißt eine Äquivalenzrelation, wenn gilt ” (i) x ∼ x für alle x (ii) x ∼ y =⇒ y ∼ x (iii) x ∼ y, y ∼ z =⇒ x ∼ z Für jedes x heißt {z : z ∼ x} = Ax die Äquivalenzklasse zu x. Zwei Äquivalenzklassen sind entweder identisch oder disjunkt. Die Gesamtheit der verschiedenen Äquivalenzklassen liefert eine Partition der Grundmenge. Definition: Ein ungeordnetes Paar von Teilmengen der Grundmenge Ω heißt eine Partition von Ω, wenn A ∪ B = Ω, A ∩ B = ∅. Ein ungeordnetes Tripel heißt Partition, wenn A ∪ B ∪ C = Ω, A ∩ B = ∅, A ∩ C = ∅, B ∩ C = ∅ . c Prof. Dr. H. Dinges, 18. Dezember 1998 1.3 Das Prinzip des Schäfers. Äquivalenzklassen gleicher Mächtigkeit Wir schreiben Ω = A + B + C. P 15 S Wir schreiben Ω = i Ai , wenn Ω = i Ai und Ai ∩ Aj = ∅ für i 6= j, und sprechen von einer Partition von Ω. Die nichtleeren A i heißen die Atome der Partition. Eine Partition von Ω kann man mit einer Äquivalenzrelation über Ω identifizieren. Aufgabe : Ω sei eine Menge mit |Ω| = n. Wieviele verschiedene Partitionen gibt es? Anders gefragt: Wieviele verschiedene Äquivalenzrelationen gibt es über der Menge Ω? Lösung für |Ω| = 4: Durch systematisches Auflisten finden wir die Antwort 15 = 1 + 6 + 3 + 4 + 1. Es gibt (soweit wir wissen) keine einfache Formel für den allgemeinen Fall |Ω| = n. Sei ϕ : Ω → E eine Abbildung von Ω nach E. Zu jedem y ∈ E betrachte das volle Urbild {ω : ϕ(ω) = y} = ϕ−1 ({y}). Wir haben eine Partition Ω= X ϕ−1 ({y}) . y∈E Die dazugehörige Äquivalenzrelation ist ω 0 ∼ ω 00 ⇐⇒ ϕ(ω 0 ) = ϕ(ω 00 ) . Jede Äquivalenzrelation über Ω, d.h. jede Partition von Ω kann man sich als durch eine Abbildung entstanden denken. Man kann z.B. die Abbildung ϕ(·) wählen, welche jedem ω seine Äquivalenzklasse zuordnet. Lösung der MISSISSIPPI–Aufgabe : Betrachte 11 Scrabble–Klötzchen, auf denen die Buchstaben notiert sind. Man kann sie auf 11! Weisen in Reihe legen. Verschiedene Anordnungen der Klötzchen führen u.U. zum gleichen Wort. Zu jedem Wort gibt es genau 4!4!2! verschiedene Anordnungen der Klötzchen. Das Prinzip des Schäfers ist anwendbar. Wir werden auf das Prinzip in allgemeinerem Zusammenhang nochmals zu sprechen kommen. Aufgaben : 1) n Personen sind versammelt. Jeder gibt jedem die Hand. Wieviele Handschläge n(n − 1) n . gibt es? = 2 2 2) n Personen sind versammelt. Jeder klopft jedem auf die Schulter. Wie oft wird geklopft? n(n − 1) . c Prof. Dr. H. Dinges, 18. Dezember 1998 16 Beachte : Wenn eine Menge abgezählt werden soll, machen Sie sich immer klar, welches die Dinge sind, die zu zählen sind, und wann diese Dinge als gleich bzw. als verschieden zu gelten haben! 1.4 Permutationsgruppen Definition : Eine Permutation der Elemente einer endlichen Menge E ist eine bijektive Abbildung von E auf sich. E π1 @ π2 @ R @ - E E π Permutationen kann man hintereinanderschalten. Die Gesamtheit aller Permutationen ist eine Gruppe. Sie hat die Ordnung |E|! ( volle symmetrische Gruppe“). ” Eine Teilmenge der vollen symmetrischen Gruppe, die mit je zwei Elementen auch das Produkt“ enthält, heißt eine Permutationsgruppe über E. ” Für die Darstellung einer Permutation π sind verschiedene Methoden im Gebrauch. Sei E = {a, b, c, d, e, f }. Eine Permutation π 1 wäre z.B. π1 : a d b c c a d b e f f e , a 7−→ d, b 7−→ c, . . . Bequemer ist die Zyklusdarstellung desselben π 1 π1 : (a d b c) (e f ) . Ein weiteres Beispiel: π2 = (b c) (a) (d f e). Hintereinanderschalten von π1 und π2 (zuerst π1 dann π2 wie im Diagramm oben) liefert das Produkt π : (a f d c) (b) (e) . Satz : Jede Permutation kann als Produkt von elementfremden Zyklen dargestellt werden. c Prof. Dr. H. Dinges, 18. Dezember 1998 1.4 17 Permutationsgruppen Der Beweis ist offensichtlich. .................................................. ................ ........... .......... ........ ........ ....... ....... ...... ...... . ...... . . . . . . . . . . . . . . ..... ... .. . ...................... . . . . .... . . ........ .. .... .... . . . . . . . . .. ... .. ... . . . . . . . ... . ........... .. . . . . ... . . . . . . . ... . .. ... ...... . . . .. . . ... . . . . . ........... ... . . ... . . ... . . . . . . . . ... ... ... . ... .. . .. . ..... ... ... . ... . . .. .. ...... . . .. ....... ... ... . . . . ... ........................... ... ... .. ... .. .......... .. ... .... . .. . . . . . . ... .... ...................... .. . ... .... ..... . . ... .. ... .. .... ... .. ..... ... ... ... ... . ... .. ...... .. ... .... ........ ...... .... .. . . . . .. . ..... . . . . . . . . . . . ................ . ..... .. ........... ..... ...... .............. ..... ....... ...... ........ ....... ......... ........ . . . . ............ . . . . . ............................................................ 1. Abzählaufgabe : E sei eine Menge der Mächtigkeit |E| = n. Wieviele verschiedene Permutationen gibt es, die aus genau k 1 Einerzyklen, k2 Zweierzyklen, . . . , kn n–Zyklen besteht? Beispiel : n = 4. k1 = 0, k2 = 2, k3 = 0, k4 = 0. 2 · k2 = 4 = n. Es gibt 3 Permutationen, die in der Zyklennotation genau zwei Zweierzyklen besitzen: (1 2) (3 4); (1 3) (2 4); (1 4) (2 3). Lösung : Wenn k1 + 2k2 + . . . + nkn 6= n, dann gibt es gar keine. Wenn k1 + 2k2 + . . . + nkn = n, dann ist die gesuchte Anzahl n! . (Das Prinzip des Schäfers ist anwendbar). k 1 ! k 2 ! 2 k2 k 3 ! 3 k3 · . . . · k n ! n kn 2. Abzählaufgabe : A sei eine Menge ( Alphabet“) mit N Elementen ( Buch” ” staben“). Ein angeordnetes n–tupel heißt ein Wort der Länge n über dem Alphabet A. Es gibt offenbar N n verschiedene Wörter. Gegeben seien Zahlen ki mit X ki = n . Wir suchen Wörter, in welchen k1 –mal der erste Buchstabe, k2 –mal der zweite, . . . vorkommt. Wieviele verschiedene gibt es? Antwort : n! = k1 ! k 2 ! . . . k N ! n k1 . . . k N (Multinomialkoeffizient). Für den Beweis empfiehlt es sich, das folgende Prinzip im Kopf zu haben. Definition : G sei eine Permutationsgruppe über Ω. Es sei x ∈ Ω. Gx bezeichne die Gruppe derjenigen π aus G, die x festlassen. G x heißt dann die Fixgruppe von x. c Prof. Dr. H. Dinges, 18. Dezember 1998 18 Definition : Man sagt von einer Permutationsgruppe G, daß sie transitiv auf der Grundmenge Ω operiert, wenn es zu jedem Paar x, y mindestens ein π ∈ G gibt mit π(x) = y. Proposition : Wenn G transitiv auf Ω wirkt, dann haben alle Fixgruppen dieselbe Mächtigkeit. |Gx | = m für alle x. Es gibt auch genau m Permutationen in G, welche ein gegebenes x in ein gegebenes y überführen. Es gilt |G| = m · |Ω| . Die Anwendung auf Abzählprobleme geschieht folgendermaßen. Ω ist abzuzählen. Man finde eine Permutationsgruppe, die transitiv auf Ω operiert. Man bestimme die Mächtigkeit m der Fixgruppen. Lösung der Abzählaufgabe : G sei die Gruppe aller Permutationen der Buchstaben in einem Wort der Länge n. (|G| = n!). Ω sei die Menge der Wörter mit ki Buchstaben der i–ten Sorte. G operiert transitiv of Ω. x sei das Wort, welches mit k1 Buchstaben der ersten Sorte beginnt, dann k 2 Buchstaben der zweiten Sorte hat, . . . Die Fixgruppe Gx hat k1 ! · k2 ! · . . . · kN ! Elemente n! = (k1 ! · . . . · kN !) · |Ω| . q.e.d. Ein Beispiel aus der Geometrie : Es sei G die abstrakte Gruppe aller Drehungen, die einen Würfel in sich überführen. Jedes g ∈ G liefert eine Permutation der a) Eckenmenge E, |E| = 8 b) Menge F aller Flächen, |F | = 6 c) Menge K aller Kanten, |K| = 12. Bestimme |G|. Außerdem: Wieviele g gibt es, die a) eine gegebene Ecke, b) eine gegebene Fläche, c) eine gegebene Kante festlassen? Antwort : zu a): = 3; zu b): = 4; zu c): = 2 3 · |E| = 4 · |F | = 2 · |K| = 24 = |G| . c Prof. Dr. H. Dinges, 18. Dezember 1998 1.5 19 Teilchen–Statistiken 1.5 Teilchen–Statistiken A) n Teilchen sind auf z Zellen zu verteilen. Wenn das irgendwie bewerkstelligt ist, sprechen die Physiker von einem Mikrozustand. Man muß zuerst fragen 1) Was sind die zulässigen Mikrozustände? 2) Wann sollen zwei Mikrozustände als gleich gelten? Erst dann kann man fragen, wieviele gleichberechtigte“ Mikrozustände es gibt. ” In der Tat muß man in der statistischen Physik drei Fälle unterscheiden: 1) (Boltzmann) : Die Teilchen haben ihre Identität. Zwei Mikrozustände sind nur dann gleich, wenn jedes Teilchen in derselben Zelle liegt. 2) (Bose–Einstein) : Zwei Mikrozustände sollen gleich heißen, wenn die Besetzungszahlen aller Zellen dieselben sind. 3) (Fermi–Dirac) : Zulässige Mikrozustände sind nur die, wo jede Zelle höchstens einmal besetzt ist ( Pauli–Verbot“). Der Mikrozustand orientiert sich ebenso” wenig wie in 2) an einer Individualität der besetzenden Teilchen. zu Fall 1) : Es gibt NB (z, n) = z n gleichberechtigte Mikrozustände. n P n1 , . . . , n z ni –mal besetzt ist. ( zi=1 ni = n). Davon haben übrigens die Eigenschaft, daß die i–te Zelle genau [z]n gleichberechtigte Mikrozustände. n! Die Mikrozustände entsprechen den Teilpopulationen vom Umfang n aus einer Grundmenge mit z Elementen. zu Fall 2) : Es gibt NBE (z, n) = [z]n z gleichberechtigte Mikrozustände. = zu Fall 3) : Es gibt NF D (z, n) = n n! Die Mikrozustände entsprechen den n–Teilmengen einer Grundmenge mit z Elementen. Die Anzahlen N (z, n) kann man auch durch Induktion nach z bestimmen. Wenn man schon weiß, wieviele gleichberechtigte Mikrozstände es für z − 1 Zellen gibt, dann gewinnt man N (z, n), indem man über alle Möglichkeiten summiert, wie man die Besetzung der z–ten Zelle spezifizieren kann. Man überlegt zunächst N (1, n) und hat dann für z > 1 c Prof. Dr. H. Dinges, 18. Dezember 1998 20 (i) NB (z, n) = Pn s=0 (ii) NBE (z, n) = Pn n s NB (z − 1, n − s) s=0 NBE (z − 1, n − s) (iii) NF D (z, n) = NF D (z − 1, n) + NF D (z − 1, n − 1) . Diese Formeln können natürlich auch ohne unsere Interpretationen betrachtet werden. (i) z n = n X n s=0 (ii) (iii) z+n n z n = s = (z − 1)n−s (klar aus dem binomischen Lehrsatz) n X z−1+k k k=0 z−1 n + z−1 n−1 (vgl. Satz in 1.1) . B) Wir wollen Mikrozustände mit Hilfe eines Zufallsmechanismus spezifizieren, so daß jeder gleichberechtigte“ Mikrozustand dieselbe Chance hat. ” 1. Fall (Boltzmann) : Wir ziehen aus einer Urne mit z Kugeln. Das Ergebnis der ersten Ziehung spezifiziert die Zelle des ersten Teilchens. Es wird zurückgelegt und unabhängig wieder rein zufällig gezogen etc. Nach n Ziehungen haben wir den Mikrozustand spezifiziert. (Ziehen mit Zurücklegen) 2. Fall (Bose–Einstein) : Die dazu passende Disziplin des Ziehens aus einer Urne heißt Pólyas Urnenschema: Man ziehe zuerst aus einer Urne mit z unterschiedlich gefärbten Kugeln. Die gezogene sowie eine weitere derselben Farbe wird zurückgelegt. Sodann ziehe man aus dieser neuen Urne mit (z+1) Kugeln. Die gezogene Kugel und eine weitere derselben Farbe wird zurückgelegt, etc. Nach n Ziehungen spezifizieren die Häufigkeiten der gezogenen Farben eine Teilpopulation vom Umfang n aus einer Grundmenge mit z Elementen. Jede Teilpopulation hat dieselbe Chance. (ohne Beweis!) 3. Fall (Fermi Dirac) : Wir ziehen n–mal ohne Zurücklegen. Die Menge der gezogenen Kugeln spezifiziert die Menge der besetzten Zellen. Man kann natürlich auch auf einen Schlag mit einer Schaufel, die genau n Kugeln erfaßt, die Ziehung vornehmen. c Prof. Dr. H. Dinges, 18. Dezember 1998 2. Die klassischen Verteilungen Literatur : W. Feller : An Introduction to Probability Theory and Its Applications, Vol. I, 3rd Ed., Wiley, 1968 H. Dinges und H. Rost: Prinzipien der Stochastik, Teubner Studienbücher, 1982 In der Stochastik interessiert man sich selten für absolute Häufigkeiten (Anzahl der Möglichkeiten). Die relativen Häufigkeiten sind es, die als Wahrscheinlichkeiten interpretiert werden. Bei den relativen Häufigkeiten kommen Gesichtspunkte der Approximation in den Blick. Es ist es nicht ratsam, die Quotienten großer Zahlen ohne jede Vorbereitung numerisch auszuwerten, wenn es gilt, sich von der Größe der Wahrscheinlichkeiten ein Bild zu machen. Man benützt die Methoden der Analysis um übersichtliche Approximationen zu erhalten. Wir behandeln die analytischen Fragen hier etwas ausführlicher als üblich, um das Wissen derjenigen Studenten aufzufrischen, die sich zusammen mit der Stochastik über Analysis prüfen lassen wollen. 2.1 Einige Approximationsformeln A) Aufgabe : 25 Personen sind versammelt. Mit welcher Wahrscheinlichkeit haben sie alle an verschiedenen Tagen Geburtstag? Die Anzahl der Möglichkeiten, k = 25 Objekte auf n = 365 Plätze so zu verteilen, daß auf keinen Platz mehr als ein Objekt zu liegen kommt, ist [n] k . Die Anzahl aller gleichberechtigten Möglichkeiten ist nk . Die Wahrscheinlichkeit ist [n]k nk n n−1 n−k+1 ... n n n 1 2 k−1 = 1· 1− 1− ... 1 − . n n n = 21 22 Eine bekannte Näherungsformel besagt: Wenn n groß ist und k wesentlich kleiner, dann gilt approximativ [n]k k2 ∼ exp − nk 2n ! . In unserem Zahlenbeispiel ergibt sich die Wahrscheinlichkeit exp − 625 2 · 365 = exp(−0.856) = 0.425 . Plausibilitätsbetrachtung : [n]k 1 − ln k = − ln 1 − n n 2 − ln 1 − n k−1 − . . . − ln 1 − n . Die Taylor–Reihe für f (x) = − ln(1 − x) lautet 1 1 1 − ln(1 − x) = x + x2 + x3 + . . . + xn + . . . 2 3 n wenn |x| < 1 . (Man beachte, daß die gliedweise Differentiation die geometrische Reihe liefert 1 = 1 + x + x2 + . . . + xn−1 + xn + . . . 1−x Als Summe der Taylor–Reihen − [n]k − ln k n k−1 X = j = j=1 1 n k−1 X 1 j ! Pk−1 1 + 2 2n k−1 X 1 (k − 1) · k , 2 j j n 2 1 + 3 3n j=1 ln 1 − k−1 X für |x| < 1 . ) ! j2 = 1 ergibt sich k−1 X j 3 ! + ... 1 1 k ,... (k − 1) k − 3 2 P 1 k m+1 . . . . 1k−1 j m ist von der Größenordnung m+1 Wenn n so groß ist, daß n12 · 13 k 3 n1 · 21 (k − 1)k, dann haben wir 1 [n]k ≈ exp − k(k − 1) nk 2n . B) Das arithmetische Mittel der Zahlen 1, 2, . . . , n ist n+1 2 . Der Schüler C.F. Gauß konnte die Zahlen 1, 2, . . . , 100 so schnell addieren, daß sein Lehrer überrascht war. (Ob Gauß das Prinzip des Schäfers anwandte, berichtet die Anekdote nicht.) c Prof. Dr. H. Dinges, 18. Dezember 1998 2.1 23 Einige Approximationsformeln Das geometrische Mittel der Zahlen 1, 2, . . . , n ist ungefähr Stirlings Formel n! ≈ √ 2πn · n n e n e. Genaueres sagt . Genauer √ 1 n −n n! = 2πn · n · e · exp S n 1 12n mit >S 1 n > 1 12n − 1 360 · 1 n3 für alle n = 1, 2, . . .. Logarithmisch geschrieben 1 1 1 ln n − n + ln(2π) + S 2 2 n 1 1 1 1 = n+ ln n + − n+ + ln(2π) − T 2 2 2 2 ln n! = mit T 1 n+ 21 n+ < 1 24 · 1 n+ 12 1 n+ 1 2 ! für n = 0, 1, 2, . . .. Plausibilitätsbetrachtung : gilt dann Es sei f (·) eine Funktion, die schön glatt ist. Es n+ 21 f (k) + f (k + 1) + . . . + f (n) ≈ Z f (x) dx . k− 21 Wenden wir das auf f (x) = lnx an n+ 21 ln[k(k + 1) · . . . · (n − 1)n] ≈ = n+ 1 1 ln n + 2 2 Z k− 21 n+ 1 ln x dx = [x · ln x − x]k− 12 2 − n+ 1 2 − k− 1 1 ln k − 2 2 + k− 1 2 Für festes k und großes n bekommen wir die Hauptterme in der asymptotischen Entwicklung von ln n!. Den konstanten Term 12 ln(2π) oder die Größenordnung des gegen 0 strebenden −T 1 n+ 21 erhält man nicht so einfach. Wir kommen darauf zurück. c Prof. Dr. H. Dinges, 18. Dezember 1998 24 Man überzeuge sich mit dem Taschenrechner, daß Stirlings Formel schon für recht kleine n eine brauchbare (d.h. mit einem kleinen relativen Fehler behaftete) Approximation von n! liefert. (Prüfe n = 3, 2, 1, 0). Wozu braucht man Approximationsformeln für die Zahlen n!, die man doch auch genau ausnehmen kann? Ein kleiner Taschenrechner schafft es sicher bis etwa n = 70. Wie groß in etwa ist (70)! ? These : Eine Approximationsformel ist hilfreich, wenn (i) die Ungenauigkeit erträglich ist (im interessierenden Bereich) (ii) das Wesentliche klar hervortritt. In diesem Sinne ist die Stirling–Formel sehr hilfreich, wie wir sehen werden. 2.2 Die Gewichte der Binomialverteilung Ein Beispiel für eine binomialverteilte Zufallsgr öße X : Aus einer Urne, in welcher die roten Kugeln die relative Häufigkeit p haben, wird n–mal mit Zurücklegen gezogen. Die Anzahl X der roten Kugeln in der Stichprobe ist binomialverteilt zum Parameter (n, p). Definition : Man sagt von einer Zufallsgröße X, sie sei binomialverteilt zum Parameter (n, p), wenn Ws(X = k) = n k pk (1 − p)n−k für k = 0, 1, . . . , n . Versichern Sie sich mit Hilfe des binomischen Lehrsatzes, daß die Summe der angegebenen Gewichte tatsächlich 1 ergibt. Satz : Ein Experiment mit der Erfolgswahrscheinlichkeit p wird n–mal unabhängig durchgeführt. Die Anzahl X der Erfolge ist dann binomialverteilt zum Parameter (n, p). Beweis : Das Ereignis {X = k} hat positive Wahrscheinlichkeit für k = 0, 1, . . . , n. {X = k} tritt genau dann ein, wenn in k Versuchen Erfolg und n in (n − k) Versuchen Mißerfolg eintritt. Es gibt genau Möglichkeiten, die k Erfolge zu allokieren; jede dieser einzelnen Möglichkeiten hat die Wahrscheinlichkeit pk (1 − p)n−k . c Prof. Dr. H. Dinges, 18. Dezember 1998 2.2 25 Die Gewichte der Binomialverteilung Wir werden die Gewichte b(k; (n, p)) = n k pk (1 − p)n−k unten genauer studieren. Es sollte plausibel sein, daß für große n (und p ∈ (0, 1) fest) alle diese Gewichte klein sind. Die Wahrscheinlichkeiten Ws(X = k) sind aber nicht sehr klein, wenn k in der Nähe von n · p ist. Man rechne zur Übung nach b(k; (n, p)) < b(k + 1; (n, p)) falls b(k; (n, p)) > b(k + 1; (n, p)) falls k <n·p k >n·p . Wie klein ist das größte der Gewichte? (Benütze Stirlings Formel) Aufgabe : In einer Urne befinden sich M rote und N − M schwarze Kugeln (und sonst nichts). Man ziehe n–mal ohne Zurücklegen (n ≤ N ). X sei die Anzahl der roten Kugeln in der Stichprobe. Berechne die Gewichte h(k; (n, M, N )) := Ws(X = k). Definition : Man sagt von einer Zufallsgröße X, sie sei hypergeometrisch verteilt zum Parameter (n, M, N ), wenn gilt Ws(X = k) = 1 N n M k N −M n−k für alle k ∈ ZZ . M (Für k < 0 und k > M ist gleich 0 zu setzen; entsprechend für den zweiten k Faktor.) Prüfe, ob sich die angegebenen Gewichte zu 1 aufsummieren. Wenn dies auf analytischem Wege schwerfällt, überlege das folgende wahrscheinlichkeitstheoretische Argument. Ziehen wir aus der Urne von oben n–mal. Wir wählen damit eine n–Menge aus der N aller Kugeln so aus, daß jede n–Menge dieselbe Chance hat. Wieviele der –Menge N möglichen n–Mengen sind günstig für das Ereignis {X = k}? n Satz : Für die Gewichte h(k; (n, M, N )) der hypergeometrischen Verteilungen gilt h(k; (n, M, N )) = h(k; (M, n, N )). Beweis mit Hilfe einer Modellvorstellung : In einer Urne befinden sich N weiße Kugeln (und sonst nichts). Versehen wir M Kugeln mit einem roten Punkt und unabhängig davon rein zufällig n Kugeln mit einem grünen Punkt. Was können wir über die Anzahl X derjenigen Kugeln sagen, die zwei Punkte erhalten haben? c Prof. Dr. H. Dinges, 18. Dezember 1998 26 n , M Zum Nachdenken empfohlen : Wenn N sehr groß ist und N N nicht groß, dann ist die hypergeometrische Verteilung zum Parameter (n, M, N ) ähnlich zur Binomialverteilung. Definition : Man sagt von einer Zufallgröße X, sie sei poissonverteilt zum Parameter λ, wenn Ws(X = k) = e−λ · λk k! für k = 0, 1, 2, . . . . Prüfe, daß sich die Gewichte zu 1 aufsummieren. (0 < λ < ∞). Es gibt kein Urnenexperiment, welches exakt auf eine poissonverteilte Zufallsgröße X führt. Es geht nur näherungsweise. Die Poissongewichte p(k; λ) sind ähnlich zu λ den Binomialgewichten b k; n, n , wenn n groß ist. Die Poissonverteilung kann also als eine Approximation gewisser Binomialverteilungen angesehen werden. Sei k ∈ ZZ+ fest, λ ∈ (0, ∞) fest. Satz : Für n → ∞, pn = 1 n λ gilt dann lim b(k; (n, pn )) = p(k, λ) . n→∞ Beweis : n k 1 λ n k λ 1− n n−k λ [n]k 1 k λ 1− = k n k! n n λ 1− n −k . Der erste und der letzte Faktor konvergieren gegen 1, der vorletzte Faktor gegen e −λ . Eine Situation, in welcher eine geometrisch verteilte Zufallsgröße vorkommt: Ein Experiment mit der Erfolgswahrscheinlichkeit p wird unabhängig wiederholt. Die Wartezeit T bis zum ersten Erfolg ist dann eine geometrisch verteilte Zufallsgröße mit dem Erwartungswert 1p . Es gilt: Ws(T = k) = (1 − p)k−1 · p für k = 1, 2, 3, . . . c Prof. Dr. H. Dinges, 18. Dezember 1998 2.2 27 Die Gewichte der Binomialverteilung Hinweis : Das p ist hier einfach als Parameter zu sehen, von Erwartungswerten sprechen wir im nächsten Kapitel. Die Verteilung ist auf N = {1, 2, 3, . . .} konzentriert; manche Autoren betrachten auch geometrisch verteilte Zufallsgrößen, wo der Träger der Verteilung {0, 1, 2, . . .} ist oder auch {m, m + 1, m + 2, . . .}; man muß da also aufpassen. Die Wartezeit bis zum ersten Erfolg, wenn man schon weiß, daß die ersten m − 1 Versuche erfolglos waren, ist in diesem Sinne auch eine geometrisch verteilte Zufallsgröße. Die Gewichte der Verteilung sind bis zu einer Stelle gleich Null, dann kommt das größte Gewicht und von da an geht es mit den konstanten Faktor (1 − p) abwärts von Gewicht zu Gewicht. Satz : Ws(T = k|{T ≥ m}) = c · (1 − p) für k = m, m + 1, . . .. Bemerke : Die Konstante ergibt sich aus der Normierung 1 = c · [(1 − p)m + (1 − p)m+1 + . . .] = c · (1 − p)m · Also c = p · 1 1 = (1 − p)m · . 1 − (1 − p) p 1 (1−p)m . Der Satz heißt der Satz von der Gedächtnislosigkeit der geometrischen Verteilung. Die weitere Wartezeit ist immer noch geometrisch verteilt, wenn man bis zum (m − 1)-ten Versuch erfolglos war. — Die Sprechweise wenn man schon weiß“ greift ” vor. Man kann aber schon hier definieren, was man unter einer bedingten Gewichtung versteht. Definition : Sei X eine E-wertige Zufallsgröße, E abzählbar. für x ∈ E Ws(X = x) = p(x) (Bemerke p(x) ≥ 0 für alle x und P x p(x) = 1) Sei B eine Teilmenge von B mit Ws(X ∈ B) > 0. Man definiert dann p(x|B) = c · p(x) 0 für x∈B für x∈E\B c so, daß die Summe der Gewichte gleich 1 ist, also c = Ws(X ∈ B), p(x|B) = 1 · 1B (x) · p(x) für alle x ∈ B. Ws(X ∈ B) c Prof. Dr. H. Dinges, 18. Dezember 1998 28 Das Wahrscheinlichkeitsmaß zu dieser Gewichtung bezeichnet man mit L(X|{X ∈ B}), die bedingte Verteilung von X, gegeben {X ∈ B}. Für alle A ⊆ B bezeichnet man Ws(X ∈ A|{X ∈ B}) = X p(x|B) = x∈A Ws(X ∈ A ∩ B) . Ws(X ∈ B) Der konkrete Fall der geometrischen Verteilung mit bedingenden Ereignissen {T ≥ m} ist analytisch besonders einfach - eben gerade wegen der Gedächtnislo” sigkeit“ der geometrischen Verteilung. Die Ged ächtnislosigkeit wird uns bei der Exponentialverteilung wieder begegnen. Die geometrische Verteilung ist als das diskrete Analogon zur Exponentialverteilung zu verstehen. Der Parameter p der geometrischen Verteilung entspricht der Rate“ λ bei der Exponentialverteilung. Der ” Parameter p1 entspricht dem Erwartungswert λ1 der Exponentialverteilung mit Träger [0, ∞). 2.3 Einige kontinuierliche Verteilungen Definition : Man sagt von einer Zufallsgröße U , sie sei gleichmäßig (oder uniform) verteilt im Intervall (0, 1), wenn Ws(U ∈ (x, y)) = y − x für alle 0 < x < y < 1 . Man sagt von einer Zufallsgröße V , sie sei uniform verteilt im Intervall (a, b), wenn Ws(V ∈ (x, y)) = y−x b−a für alle a < x < y < b . Beispiele : 1) Ein Glücksrad wird gedreht. Der Winkel Intervall (0, 2π). Φ ist dann uniform verteilt im 2) X sei uniform verteilt in (a, b) mit b − a sehr groß. Betrachte U := X − [X]. (Für jedes x ∈ IR bezeichnet [x] die größte ganze Zahl, die kleiner oder gleich x ist). U ist annähernd uniform verteilt in (0, 1); U ist sogar exakt uniform verteilt, wenn b − a ganzzahlig ist. Definition : Man sagt von einer positiven Zufallsgröße T , sie sei exponentiell verteilt mit dem Erwartungswert λ1 , wenn gilt Ws(T > t) = exp(−λt) für alle t > 0 . Man schreibt auch Ws(T ∈ (t, t + dt)) = λe−λt dt für alle t > 0 . und nennt λe−λt die Dichte der Exponentialverteilung mit dem Erwartungswert c Prof. Dr. H. Dinges, 18. Dezember 1998 1 λ. 2.3 29 Einige kontinuierliche Verteilungen Satz : Sei U gleichmäßig verteilt in (0, 1). X = − ln(1 − U ). Dann ist X exponentiell verteilt mit dem Erwartungswert 1. Beweis : X ist eine positive Zufallsgröße. Für t > 0 gilt Ws(X > t) = Ws(− ln(1 − U ) > t) = Ws(ln(1 − U ) < −t) = Ws(1 − U < e−t ) = Ws(U > 1 − e−t ) = e−t . Satz : Sei X exponentiell verteilt mit dem Erwartungswert λ1 und sei c > 0, Y = c · X. Dann ist Y exponentiell verteilt mit dem Erwartungswert λc . Beweis : Y ist eine positivwertige Zufallsgröße. Für t > 0 gilt 1 Ws(Y > t) = Ws(cX > t) = Ws(X > t) c 1 λ t . = exp −λ t = exp − c c Definition : Man sagt von einer reellwertigen Zufallsgröße Z, sie sei standardnormalverteilt (oder N (0, 1)–verteilt), wenn Ws(Z ∈ (x, y)) = Die Funktion Zy 1 1 √ exp − z 2 dz 2 2π x 1 1 exp − z 2 ϕ(z) = √ 2 2π für alle x < y . heißt die Dichte der Standardnormalverteilung oder auch die gaußische Glockenkurve. Satz : Es gilt +∞ R ϕ(z)dz = 1. −∞ Beweis : [ Z ϕ(z)dz]2 = = Z ϕ(x)dx · Z Z = Z∞Z2π = Z∞ 0 0 0 Z ϕ(y)dy 1 1 exp − (x2 + y 2 ) dx dy 2π 2 1 1 exp − r 2 dϕ rdr 2π 2 1 r · e− 2 r2 dr = 1 . c Prof. Dr. H. Dinges, 18. Dezember 1998 30 Definition : Das unbestimmte Integral der gaußischen Glockenkurve heißt die gaußische Fehlerfunktion Φ(z) = Zz ϕ(y)dy . −∞ Eine Zufallsgröße Z ist genau dann standardnormalverteilt, wenn Ws(Z ∈ (x, y)) = Φ(y) − Φ(x) für alle x < y . Definition : Man sagt von einer reellwertigen Zufallsgröße X, sie sei N (µ, σ 2 )–verteilt, wenn Z := 1 (X − µ) σ N (0, 1)–verteilt ist . Eine Zufallsgröße X ist genau dann N (µ, σ 2 )–verteilt, wenn Satz : Ws(X ∈ (x, y)) = Φ = Zy x y−µ σ 1 −Φ x−µ σ 1 exp − 2 √ 2πσ 2 v−µ σ 2 ! dv für alle x < y . Der Beweis ist einfach. Die Ableitung von Φ 1 √ 2πσ 2 1 exp − 2 (x − µ)2 2σ x−µ σ ist . Diese Funktion heißt die Dichte der Normalverteilung mit dem Mittelwert µ und der Varianz σ 2 (µ ∈ IR, σ 2 > 0). Ihr Bild findet sich auf den Zehn–Mark–Scheinen zusammen mit einem Bild von C.F. Gauß (1777–1855). Satz : Es sei X N (0, 1)–verteilt und U = Φ(X). U ist dann in (0, 1) gleichmäßig verteilt. Beweis : Φ(·) ist eine monotone Transformation, welche die reelle Achse auf (0, 1) abbildet. Φ−1 (·) bezeichne die Umkehrabbildung. Für 0 < u < v < 1 gilt Ws (Φ(X) ∈ (u, v)) = Ws X ∈ Φ−1 (u), Φ−1 (v) = Φ Φ−1 (v) − Φ Φ−1 (u) c Prof. Dr. H. Dinges, = v−u . 18. Dezember 1998 2.4 Unabhängige identisch verteilte reellwertige Zufallsgrößen 31 Verallgemeinerung : Es sei X eine Zufallsgröße mit Werten in einem Intervall mit F (x) := Ws(X ≤ x) strikt monoton und stetig. U = F (X) ist dann in (0, 1) uniform verteilt. 2.4 Unabhängige identisch verteilte reellwertige Zufallsgrößen Definition : Man sagt von einem n–tupel von reellwertigen Zufallsgrößen X1 , . . . , Xn , die Komponenten seien unabhängig identisch verteilt mit der Verteilungsfunktion F (·), wenn Ws (X1 ∈ (x1 , y1 ], X2 ∈ (x2 , y2 ], . . . , Xn ∈ (xn , yn ]) = [F (y1 ) − F (x1 )] · [F (y2 ) − F (x2 )] · . . . · [F (yn ) − F (xn )] = Ws(X1 ∈ (x1 , y1 ]) · . . . · Ws(Xn ∈ (xn , yn ]) für alle x1 < y1 , x2 < y2 , . . . , xn < yn . (Dabei ist F (·) eine isotone rechtsseitig stetige Funktion, die sogenannte Verteilungsfunktion.) In dem Falle, wo F (·) eine Dichte besitzt, d.h. F (x) = Rx p(y)dy, schreibt man auch −∞ Ws (X1 ∈ (x1 , x1 + dx1 ), . . . , Xn ∈ (xn , xn + dxn )) = p(x1 ) · p(x2 ) · . . . · p(xn )dx1 · . . . · dxn Man sagt auch, die Xi seien unabhängige Wiederholungen einer Zufallsgröße X mit der Verteilungsfunktion F . Beispiel : 1) Ein Glücksrad wird n–mal unabhängig gedreht. Die Winkel Φ1 , . . . , Φn sind dann unabhängige in (0, 2π) uniform verteilte Zufallsgrößen. 2) Eine Probe wird n–mal mit einer Präzisionswaage ausgewogen. Die registrierten Gewichte X1 , . . . , Xn sind unabhängig identisch verteilt (mit einer im allg. nicht bekannten) Verteilungsfunktion F (·). F (x) = Ws(X ≤ x). Mit unabhängigen (nicht notwendigerweise identisch verteilten) Zufallsgrößen X, Y, Z, W, . . . werden wir uns später ausführlich beschäftigen. Die Vorstellung von der unabhängigen Wiederholung eines Experiments ist aber so fundamental, daß wir den Platz, wo der allgemeine Begriff der Unabhängigkeit in die Systematik paßt, nicht abwarten wollen. Satz : Es seien X, Y unabhängige N (0, 1)–verteilte Zufallsgrößen. Betrachte für √ den zufälligen Punkt (X, Y ) im IR2 den Abstand vom Nullpunkt R = X 2 + Y 2 . R2 = X 2 + Y 2 ist dann exponentiell verteilt mit dem Erwartungswert = 2. c Prof. Dr. H. Dinges, 18. Dezember 1998 32 Beweis : Für alle t > 0 gilt Ws(R2 > t) = Ws(X 2 + Y 2 > t) Z Z 1 1 1 = exp − x2 exp − y 2 dx dy 2π 2 2 {x2 +y 2 >t} = Z∞ Z2π √ t 0 = 1 1 exp − u2 dϕ u du = 2π 2 − exp − 1 2 u 2 y 6 ∞ √ t = exp − Z∞ √ t 1 t 2 1 exp − u2 u du 2 p x2 + y 2 # # r= # # # # ϕ b x @ b @bb @ b @ bbdr @ @ x = r · cos ϕ y = r · sin ϕ dx dy = r · dϕ · dr Wie könnte man sich unabhängige standardnormalverteilte Zufallsgrößen X, Y besorgen, wenn man einen Zufallsgenerator hat, der in (0, 1) uniform verteilte Zufallsgrößen U, V liefert? 1. Methode : teilt X = Φ−1 (U ), Y = Φ−1 (V ) sind unabhängig standardnormalver- Ws(X ≤ x) = Ws(Φ−1 (U ) ≤ x) = Ws(U ≤ Φ(x)) = Φ(x) . Das Verfahren empfiehlt sich nur für solche Leute, die über Mittel verfügen, die Funktion Φ−1 (·) bequem auszurechnen. 2. Methode :p Konstruiere einen zufälligen Punkt im IR2 mit dem zufälligen Abstand R = (−2) ln(1 − U ) vom Ursprung und dem Winkel 2πV . X = R cos(2πV ) , Y = R sin(2πV ) sind dann unabhängig standardnormalverteilt. In der Tat ist IL(X, Y ) rotationssymmetrisch und X 2 + Y 2 = R2 = (−2) ln(1 − U ) ist exponentiell verteilt mit dem Erwartungswert = 2. c Prof. Dr. H. Dinges, 18. Dezember 1998 2.4 33 Unabhängige identisch verteilte reellwertige Zufallsgrößen Verallgemeinerung : (Chiquadratverteilungen) Seien Z1 , . . . , Zn unabhängig N (0, 1)–verteilt, X = Z12 + . . . + Zn2 . Dann gilt für alle x > 0 Ws(X > x) = const Z∞ 1 n y 2 −1 e− 2 y dy . x Beweis : Ws(X ≥ x) = Z 2 >x} {z12 +...+zn 1 √ 2π n 1 exp − z12 + . . . + zn2 dz1 . . . dzn . 2 Der Integrand ist auf jeder Sphäre n (z1 , . . . , zn ) : (z12 + . . . + zn2 ) = y konstant. Das Maß der Sphäre q o z12 + ... + zn2 ∈ (r, r + dr) ist const ·r n−1 dr. Die Konstante ist die Oberfläche der n–dimensionalen Einheitssphäre Ws(X ≥ x) = Z √ x 1 const ·r n−1 e− 2 r2 dr . Wir benutzen die Integrationsvariable y = r 2 , dy = 2rdr und erhalten die Behauptung. Die Normierungskonstante ergibt sich aus Ws(X ≥ 0) = 1. Man kann sie leicht durch die berühmte Gammafunktion ausdrücken: Definition : Γ(α) = Z∞ 0 (Gammafunktion) uα−1 · e−u du für α > 0 Die Γ–Funktion interpoliert die Fakultätsfunktion Γ(n + 1) = n! für n = 0, 1, 2, . . . . c Prof. Dr. H. Dinges, 18. Dezember 1998 34 Für alle α gilt Γ(α + 1) = αΓ(α). (Beweis durch partielle Integration) Man kann zeigen, daß Γ(·) die einzige logarithmisch konvexe Funktion mit Γ(1) = 1 ist, welche die Funktionalgleichung αΓ(α) = Γ(α + 1) für alle α > 0 erfüllt. Stirlings Formel gilt auch für die Gammafunktion α √ α 1 Γ(α + 1) = 2πα · · exp S e α mit 1 12α >S 1 α > 1 12α − 1 1 360 α3 . Wenn man die Integraldarstellung etwas umformt, wird die Stirlingformel plausibel. Plausibilitätsbetrachtung zur Stirlingformel Γ(α + 1) = Z∞ 0 α u ·e −u α √ α 1 . · exp S du = 2πα e α Wir gewinnen eine Integraldarstellung für exp S exp S 1 α = 1 √ 2πα = r = r Z∞ α 0 u α 1 α e−u+α du α 2π Z∞ v α · exp(−αv + α) dv α 2π Z∞ exp (−α[v − 1 − ln v]) dv 0 0 k(v) -v 1 c Prof. Dr. H. Dinges, 18. Dezember 1998 2.5 35 Zur Konstruktion des Poissonprozesses k(v) = v − 1 − ln v Für große α kommt der weitaus überwiegende Anteil des Integrals vom Integral über eine kleine Umgebung von v = 1. Dort sieht der Integrand sehr ähnlich aus wie exp − α2 (v − 1)2 k 0 (v) = 1 − k (v) = Zv k(v) = Zv 0 1 , v k 00 (v) = 1 v2 k 00 (x)dx , 1 0 k (y)dy = 1 r Da α 2π Z Zv 1 1 (v − x)k 00 (x)dx ≈ (v − 1)2 . 2 α exp − (v − 1)2 dv = 1, haben wir also 2 exp S 1 α −→ 1 für α → ∞ . Genauere Analyse zeigt 1 >S 12α 1 α > ln(Γ(α + 1)) = 2.5 1 1 1 − · 3 . 12α 360 α 1 1 α+ ln α − α + ln 2π + S 2 2 1 α . Zur Konstruktion des Poissonprozesses Es sei h > 0 klein und λ > 0 fest. Ein Experiment mit der Erfolgswahrscheinlichkeit λ · h wird zu den Zeitpunkten h, 2h, 3h, . . . unabhängig wiederholt. Wir bekommen eine zufällige 0–1–Folge ( 1“ für Erfolg, 0“ für Mißerfolg). Für jedes In” ” tervall I = (x, y] ⊆ IR+ sei NI = Anzahl der Erfolge im Zeitintervall I. Offenbar ist NI binomialverteilt. Wenn I1 , I2 , . . . , In disjunkte Intervalle sind, dann sind NI1 , . . . , NIn unabhängige binomialverteilte Zufallsgrößen. Wir können den Grenzübergang h → 0 (bei festem λ) hier nicht mathematisch exakt durchführen. Wir nehmen den folgenden Existenzsatz ohne Beweis hin: c Prof. Dr. H. Dinges, 18. Dezember 1998 36 Satz : (Existenz des poissonschen Punktprozesses) Es existiert eine zufällige Punktmenge in IR, so daß für die Anzahlen der Punkte in den Intervallen I1 , . . . , In gilt 1) NI ist poissonverteilt zum Parameter λ · |I| für jedes I. 2) Wenn I1 , . . . , In paarweise disjunkte Intervalle sind, dann sind N I1 , . . . , NIn unabhängig. Sprechweise : Eine zufällige Punktmenge mit den Eigenschaften 1) und 2) heißt ein poissonscher Punktprozeß mit der Rate λ. Poissonsche Punktprozesse sind äußerst wichtige Modelle. Sie finden z.B. Anwendung bei der Modellierung des radioaktiven Zerfalls. N I ist die Anzahl der Teilchen, die im Zeitintervall I zerfallen, d.h. die Anzahl der Knacke eines den Zerfall registrierenden Geigerzählers. Ein weiteres Beispiel haben wir in der Warteschlangentheorie. Im einfachsten Falle nimmt man da nämlich an, daß die Kunden gemäß einem Poissonprozeß ins System eintreten. NI ist die Anzahl der im Zeitintervall I ankommenden Kunden. Bemerke : Ws(NI > 0) = 1 − exp(−λ · |I|); Ws(NI > 1) = 1 − exp(−λ · |I|) − λ · |I| exp(−λ · |I|) ist klein von der Größenordnung (λ · |I|)2 , wenn |I| klein ist. Wenn für ein festes n I1 , . . . , In disjunkt sind mit der Länge ∆ klein, dann gilt Ws(NI1 > 0, NI2 > 0, . . . , NIn > 0) = [1 − exp(−λ · ∆)]n ≈ [λ · ∆]n Ws(NIj > 0 für j = 1, . . . , n; NIj > 1 für mindestens ein j) ≈ n · [1 − exp(−λ∆)]n−1 · [1 − exp(−λ∆) − λ∆ exp(−λ∆)] λ∆ n+1 . ≈ n 2 Für kleines ∆ ist diese Wahrscheinlichkeit wesentlich kleiner als [λ∆] n . Daraus kann man ableiten, daß in einem Poissonprozeß mit Wahrscheinlichkeit = 1 keine Doppelpunkte vorkommen. (Beweise können hier nicht geführt werden.) Die Theorie des Poissonprozesses ist sehr einfach und transparent, wenn man sich einmal an die Analysis gewöhnt hat. Der Ungeübte wird zunächst lieber noch ein wenig mit dem diskreten Analogon arbeiten wollen, welches dadurch ausgezeichnet ist, daß den Punkten t aus T = {. . . , −2h, −h, 0, +h, +2h, +3h, . . .} unabhängige poissonverteilte Zufallsgrößen N{t} mit dem Erwartungswert λ · h zugeordnet P sind. Die Zufallsgrößen NI = t∈I N{t} sind poissonverteilt für jedes I; und für paarweise disjunkte I1 , . . . , In sind die NIj unabhängig. c Prof. Dr. H. Dinges, 18. Dezember 1998 2.5 37 Zur Konstruktion des Poissonprozesses Wir wollen die Sache aber noch von einer anderen Seite betrachten, von der Seite der sog. Wartezeiten. Ein Experiment mit der Erfolgswahrscheinlichkeit p = h · λ wird zu den Zeitpunkten 0, h, 2h, 3h, . . . unabhängig durchgeführt. τ (m) bezeichne den Zeitpunkt des m–ten Erfolgs nach 0. Es gilt τ (1) < τ (2) < τ (3) < . . . . Alle die τ (m) sind reellwertige Zufallsgrößen; die Wartezeit bis zum m–ten Erfolg ist nämlich endlich mit Wahrscheinlichkeit 1. Satz : Die Zufallsgrößen τ (1) , τ (2) − τ (1) , τ (3) − τ (2) , . . . sind unabhängig identisch verteilt. Dies folgt sofort aus der Konstruktion. Wir studieren nun die Verteilung L(τ (m) ) im Grenzwert h → 0. Die Verteilung L(τ (m) ) ist für endliches h auf {mh, (m + 1)h, . . .} konzentriert. Die Verteilungsfunktion (m) Fh (t) := Wsh τ (m) ≤ t , t≥0 hat Sprünge in den Punkte t = n · h, n ∈ IN. Für h → 0 erhalten wir einen (m) Grenzwert Fh (t), welcher eine Verteilungsfunktion mit Dichte ist. Im Grenzwert h → 0 strebt also L(τ (m) ) gegen eine Verteilung mit Dichte. Für m = 1 kommt die Exponentialverteilumg mit dem Erwartungswert λ1 heraus. Für m = 2, 3, . . . sind die Verteilungen etwas komplizierter; es handelt sich um spezielle Gamma– Verteilungen, wie wir sehen werden. m=1 : Für t = nh haben wir Ws τ (1) > t = Ws τ (1) > nh = Ws (die ersten n Versuche sind erfolglos) = (1 − p)n = (1 − hλ)(1/h)t −→ exp(−λt) h→0 m=2 : Ws τ (2) > t = Ws (unter den ersten n Versuchen ist höchstens ein Erfolg) t = (1 − p)n + np(1 − p)n−1 = (1 − hλ)t/h + · hλ(1 − hλ)t/h−1 h c Prof. Dr. H. Dinges, 18. Dezember 1998 38 1 Ws τ (2) ∈ (t, t + h] h Unter den ersten n Versuchen befindet sich genau ein Erfolg und der (n + 1)–te Versuch ist ebenfalls ein Erfolg = 1 Ws h = 1 np(1 − p)n−1 p = (tλ)(1 − hλ)t/h−1 λ → (tλ)e−λt λ h Ws τ (2) ∈ (s, t] −→ Zt ! (uλ)e−uλ λ du s Allgemeines m : 1 1 Ws τ (m+1) ∈ (t, t + h] = Ws τ (m+1) = (n + 1)h h h Unter den ersten n Versuchen befinden sich genau m Erfolge und der (n + 1)–te Versuch ist ebenfalls ein Erfolg 1 Ws h = 1 h 1 m! = = ! n pm (1 − p)n−m p m 1 [n]m (np)m (1 − p)n−m λ −→ (λt)m exp(−λt) λ m n m! Ws τ (m+1) ∈ (s, t] −→ Zt 1 (λu)m exp(−λu) λ du m! s Definition : Man sagt von einer positiven Zufallsgröße X, sie sei gammaverteilt mit E X = αλ , var X = λα2 , wenn Ws(X ≤ x) = Zx 0 1 (λt)α−1 e−λt λ dt Γ(α) für alle x > 0 . Bemerke : X ist genau dann gammaverteilt mit E X = αλ , var X = λα2 , wenn Y = λX gammaverteilt ist mit E Y = α, var Y = α. Die Zufallsgröße V := αλ X = α1 Y ist gammaverteilt mit E V = 1, var V = α1 1 1 (αv)α e−αv dv Γ(α) v r 1 α 1 exp (−α[v − 1 − ln v]) dv exp −S = 2π v α Ws(V ∈ (v, v + dv)) = mit 1 12α >S 1 α > 1 12α − 1 360 · 1 α3 . c Prof. Dr. H. Dinges, 18. Dezember 1998 2.6 39 Beta–Verteilungen Beispiele : 1) τ (m) sei die Wartezeit bis zum m–ten Punkt in einem Poissonprozeß mit der (m) = m . Rate λ. τ (m) ist dann gammaverteilt mit E τ (m) = m λ , var τ λ2 2) Die Gammaverteilung mit Erwartungswert = λ1 und Varianz = Exponentialverteilung mit dem Erwartungswert = λ1 . 1 λ2 ist die 3) Wenn T 1 , T2 , . . . , T m unabhängig exponentialverteilt sind mit dem 1 Erwartungswert = λ , dann ist T1 + . . . + Tm gammaverteilt mit Erwarm tungswert = m λ und Varianz = λ2 . 4) Z1 , Z2 , . . . , Zn seien unabhängig N (0, 1)–verteilt. X := Z12 + . . . + Zn2 ist dann gammaverteilt mit E X = n, var X = 2n. L(X) ist die Chiquadratverteilung mit n Freiheitsgraden. Das Bild zeigt die Dichten einiger Chiquadratverteilungen. 0.5 0.4 0.3 0.2 0.1 .. .. .. .. ... .. . .. .. .. .. .. . .. ... .. ..... .. .... ... .... .. .. ... ... ..... .... . .. .. .. .. . .. ... ... ... n = 1.... .... .... .. .. ... n = 2................. . .. .. .. . .. n = 6........................ .. .. . .. .. . . . .. ... .. ................................. ......... .. ............. ........ ....... ....... ... ....... ... ........ ... .. . . ........ ... .. .. . ........ . . .... .. .. ......... . . . . . ... .... .......... .. . . ........... . . . . . .. . ...... ............. .. . . . . . . . . ................. ......... .... ... .. ......................... . . . . . . . .... .... .... ................. ..... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ....................... .................... .. 0 2.6 2 4 6 8 10 12 14 Beta–Verteilungen Definition : Man sagt von einer Zufallsgröße X mit Werten in (0, 1), sie sei betaverteilt zum Parameter (α, β), wenn Ws (X ∈ (x, x + dx)) = 1 xα−1 (1 − x)β−1 dx . B(α, β) Die Normierungskonstante B(α, β) = Z1 0 xα−1 (1 − x)β−1 dx , betrachtet als Funktion der Variablen α, β, heißt die Betafunktion. c Prof. Dr. H. Dinges, 18. Dezember 1998 40 Satz : Für alle α, β > 0 gilt B(α, β) = Bemerke : Γ(α) · Γ(β) . Γ(α + β) Für natürliche m, n, 1 ≤ m ≤ n gilt 1 n! = = m· B(m, n + 1 − m) (m − 1)! (n − m)! n m . Beweis des Satzes : 1 Γ(α) 1 = Z∞ x α−1 0 1 Γ(α) · Γ(β) = e 1 dx · Γ(β) −x Z Z Z∞ y β−1 e−y dy 0 xα−1 y β−1 exp(−(x + y)) dx dy . Wir führen neue Integrationsvariable ein w := x + y , u := x , x+y x (1 − u)w , dx dy = w du dw = uw , Γ(α) · Γ(β) Γ(α + β) y = = 1 Γ(α + β) = 1 Γ(α + β) = Z1 0 Z Z Z∞ w w ∈ (0, ∞) , u ∈ (0, 1) (uw)α−1 ((1 − u)w)β−1 e−w w du dw α+β−1 e −w dw Z1 0 0 uα−1 (1 − u)β−1 du uα−1 (1 − u)β−1 du . Die Stochastiker interpretieren diese Rechnung so: Interpretation : Seien X und Y unabhängig gammaverteilt, X zum Parameter (α, ∧), Y zum Parameter (β, ∧). E X = α, var X = α, E Y = β, var Y = β. Seien W =X +Y , U= X . X +Y Dann sind W und U unabhängig mit W gammaverteilt zum Parameter (α+β, ∧) und U betaverteilt zum Parameter (α, β). c Prof. Dr. H. Dinges, 18. Dezember 1998 2.6 41 Beta–Verteilungen y 6 @ @ @ @ @ @ @ @ @ @ @ @ @ @ @ x+y =w x x+y =u - x Ws ({X ∈ (x, x + dx)} ∩ {Y ∈ (y, y + dy)}) 1 1 = xα−1 e−x dx β−1 Γ(α) Γ(β) y e−y dy 1 1 = wα+β−1 e−w dw uα−1 (1 − u)β−1 du Γ(α + β) B(α, β) = Ws ({W ∈ (w, w + dw)} ∩ {U ∈ (u, u + du)}) . Wir beschreiben jetzt eine stochastische Situation, in welcher spezielle betaverteilte Zufallsgrößen vorkommen, nämlich X(1) , X2) , . . . , X(n) , mit X(m) betaverteilt zum Parameter (m, n + 1 − m). Die X(m) sind aber keineswegs unabhängig. Es besteht eine sehr starke Abhängigkeit; es gilt nämlich 0 < X(1) < X(2) < . . . < X(n) < 1 (fast sicher ) . X(m) ist die Wartezeit bis zum m–ten Erfolg“ in einer komplizierteren Situation ” als der oben beschriebenen. Satz : Es seien U1 , . . . , Un unabhängig in (0, 1) uniform verteilt. X(1) sei das kleinste und X(2) das zweitkleinste unter den Uj usw. Dann ist X(m) betaverteilt zum Parameter (m, n + 1 − m). c Prof. Dr. H. Dinges, 18. Dezember 1998 42 Beweis : Für m = 1 : {X(1) ∈ (x, x + dx)} = keines der Uj fällt in (0, x) und eines fällt in (x, x + dx) Ws(X(1) ∈ (x, x + dx)) = n dx (1 − x)n−1 Zy Ws(X(1) ≤ y) = 0 n x0 (1 − x)n−1 dx Für allgemeines m : genau m − 1 der Uj fallen in (0, x) {X(m) ∈ (x, x + dx)} = und eines fällt in (x, x + dx) n−1 n· Ws(X(m) ∈ (x, x + dx)) = m−1 · Ws(U1 < x, . . . , Um−1 < x, Um ∈ (x, x + dx), Um+1 > x, . . . , Un > x) n xm−1 (1 − x)n−m dx = m· m Zy 1 Ws(X(m) ≤ y) = xm−1 (1 − x)n−m dx B(m, n + 1 − m) 0 Es besteht eine enge Beziehung zwischen den Binomialverteilungen und gewissen Betaverteilungen und im ähnlichen Sinn zwischen den Poissonverteilungen und gewissen Gammaverteilungen. Satz : a) Für 1 ≤ m ≤ n und p ∈ (0, 1) gilt 1 B(m, n + 1 − m) = n X k=m n k Zp 0 y m−1 (1 − y)n−m dy pk (1 − p)n−k . b) Für alle m ∈ IN und λ ∈ (0, ∞) gilt 1 Γ(m) Zλ 0 y m−1 e−y dy = ∞ X λk k=m k! c Prof. Dr. H. Dinges, e−λ . 18. Dezember 1998 2.7 Analytischer Beweis : a) Wir vergleichen die Ableitungen 1 pm−1 (1 − p)n−m = B(m, n + 1 − m) d dp b) 43 Approximative Normalität d dλ n X n k=m λk −λ e k! k ! = k p (1 − p) n−k ! = n m n m m pm−1 (1 − p)n−m mpm−1 (1 − p)n−m . λk −λ λk−1 e−λ − e (k − 1)! k! Summation über k = m, m + 1, . . . liefert d dλ ∞ X λk k=m k! e −λ ! d 1 = dλ Γ(m) Zλ y m−1 0 e −y dy Wahrscheinlichkeitstheoretischer Beweis : Seien U 1 , . . . , Un Punkte auf dem IR+ . Die Aussage, daß mindestens 4 Punkte links von p liegen, ist äquivalent mit der Aussage, daß der drittkleinste links von p liegt. Entsprechend für alle m. Für U1 , . . . , Un unabhängig in (0, 1) gleichmäßigverteilt sagt a) die Gleichheit der Wahrscheinlichkeiten aus; für Uj = T1 + . . . + Tj mit unabhängigen exponentiell verteilten Ti ergibt sich b). 2.7 Approximative Normalität Annähernd gleich“ ist ein Begriff, den es in der reinen Mathematik nicht gibt. In der ” angewandten Mathematik spielt er aber eine große Rolle: in gewissen Anwendungszusammenhängen gerät man nicht in die Irre, wenn man so tut als wäre a gleich b; a ≈ b. π ≈ 3.14 z.B. ist zwar mathematisch unsinnig, aber praktisch oft ausreichend. Was das für Zusammenhänge sind, in welchen eine Approximation tauglich ist, muß man diskutieren; eine Approximation ist insofern oft eine Herausforderung. Sehr ungenaue Approximationen sind meistens unnütz; auf der anderen Seite ist nicht jede numerisch einigermaßen genaue ad–hoc“ Approximation nützlich. Schätzens” wert sind Approximationen, die Zusammenhänge transparent machen, d.h. einfach sind und auf Wesentliches hinweisen. Die Stirling–Formel ist von dieser Art. Manche Taylor–Approximationen sind von dieser Art, aber bei weitem nicht alle. Man kann Zahlen approximieren, man kann Funktionen approximieren, man kann aber auch Wahrscheinlichkeitsverteilungen approximieren. Man kann z.B. die Binomialverteilung zum Parameter (n, p) durch die Poissonverteilung mit dem Parameter np (oder durch die mit dem Parameter λ = (n + 1)p) approximieren. Wenn n groß und p klein ist, empfiehlt sich eine solche Approximation für gewisse Zwecke. Allerdings kann man die Approximation nicht im gesamten Bereich gebrauchen, was c Prof. Dr. H. Dinges, 18. Dezember 1998 44 man daran sieht,daß die Poissonverteilungen jede natürlich Zahl k mit einem po λk −λ belegt, während die Binomialverteilungen auf endliche sitiven Gewicht = k! e Mengen konzentriert sind. Besonders beliebt sind in der Stochastik die Approximationen komplizierter Verteilungen durch geeignete Normalverteilungen N (µ, σ 2 ); man interessiert sich vor allem für den zentralen“ Bereich, nicht für die großen Abweichungen vom Mittelwert. ” Genauere Approximationen für annähernd normalverteilte Zufallsgrößen ergeben sich manchmal aus dem sog. Prinzip der großen Abweichungen. Man erhält Approximationen der Verteilungsfunktion von der Gestalt √ q F (x) ≈ Φ ± 2 K(x) + H0 (x) wobei K(x) eine in der Nähe des Zentrums“ x∗ konvexe Funktion ist mit ” ∗ 0 ∗ 00 ∗ K(x ) = 0, K (x ) = 0, K (x ) > 0 . H0 (x) ist eine Korrektur mit H0 (x∗ ) = 0 und H000 (·) klein im Vergleich zu K 00 (·). Wir gewinnen für unsere speziellen Verteilungen zunächst Approximationen der Dichten und leiten dann mit einem Plausibilitätsargument Approximationen der Verteilungsfunktionen von der obigen Gestalt ab. Beispiel 1 : Für manche Zwecke empfiehlt es sich, die Betaverteilung zum Pa x∗ (1−x∗ ) ∗ rameter (α, β) durch die Normalverteilung N x , α+β+1 oder auch durch ∗ ∗ x (1−x ) β α zu approximieren, wobei x∗ = α+β , 1 − x∗ = α+β . Die ApproN x∗ , α+β ximation ist (im zentralen Bereich) gut brauchbar, wenn α und β groß sind. Dies wird plausibel, wenn man die Betadichte folgendermaßen umformt 1 Γ(α + β) α x (1 − x)β dx Γ(α) · Γ(β) x(1 − x) = s p x 1−x x∗ (1 − x∗ ) exp α ln ∗ + β ln x(1 − x) x 1 − x∗ 1 1 1 · exp −S −S +S α β α+β α+β 2π mit S(·) aus Stirlings Formel. Die Funktion K(x∗ , x) = x∗ ln x∗ 1 − x∗ + (1 − x∗ ) ln x 1−x ist konvex als Funktion von x ∈ (0, 1) für jedes feste x∗ . x − x∗ x∗ 1 − x ∗ + = x 1−x x(1 − x) 1 − x∗ x∗ + > 0 für alle x ∈ (0, 1) . x2 (1 − x)2 K 0 (x∗ , x) = − K 00 (x∗ , x) = c Prof. Dr. H. Dinges, 18. Dezember 1998 dx 2.7 45 Approximative Normalität Die Taylor–Entwicklung lautet K(x∗ , x) = 1 1 ∗ 2 ∗ 3 (x − x ) + O (x − x ) . 2! x∗ (1 − x∗ ) Für die Betadichte haben wir also die Approximation √ ∗ q x (1−x∗ ) α+β · exp (−(α + β)K(x∗ , x)) 2π x(1−x) ≈ s · exp −S 1 α −S 1 β +S 1 α+β dx 1 α+β α+β 1 p (x − x∗ )2 exp − ∗ ∗ ∗ 2π 2 x (1 − x∗ ) x (1 − x ) dx . Dies ist die Approximation durch die Dichte der Normalverteilung N x∗ , x∗ (1−x∗ ) α+β . Beispiel 2 : Die Gammaverteilung mit dem Erwartungswert = 1 und der Varianz 1 α hat die Dichte 1 1 (αy)α exp(αy) dy Γ(α) y r α 1 1 = exp (−α[y − 1 − ln y]) dy exp −S . 2π y α Für große α kann man sie durch die Normalverteilung N 1, α1 denn approximieren; y − 1 − ln y = (y − 1) − ln(1 − (1 − y)) 1 1 1 (y − 1)2 − (y − 1)3 + (y − 1)4 − . . . = 2 3 4 für |y − 1| < 1 . Beispiel 3 : (Normalapproximation der Bionomialverteilungen) 1 Wenn X binomialverteilt ist zum Parameter (n, p), dann ist L n+1 X + 21 auf n− 1 3 1 5 1 1 1 2 n+1 , 2 n+1 , 2 n+1 , n+ 1 . . . , n+12 , n+12 konzentriert. Wir approximieren n pk (1 − p)n−k mittels der Stirlingformeln zunächst die Gewichte b(k; (n, p)) = k die Punkte n! = s 2π n+1 √ k! = 2π √ (n − k)! = 2π n+1 e k+ e 1 2 n+1 !n−k+ 1 n−k+ e 1 n+1 exp −T 1 k+ exp S 2 1 2 !n−k+ 1 2 c Prof. Dr. H. Dinges, exp −T 1 2 !! 1 n−k+ 18. Dezember 1998 1 2 !! 46 Mit den Abkürzungen z= k+ 12 n+1 , 1−z = b(k; (n, p)) = p n−k+ 21 n+1 t(k, n − k) = S haben wir 1 n+1 +T 1 k+ 21 +T 1 n−k+ 21 und 1 exp(−(n + 1)K(z, p)) exp(t(k, n − k)) 2π(n + 1)p(1 − p) wobei K(z, p) = z ln z p + (1 − z) ln 1−z 1−p . Dies führt zur Approximation b(k; (n, p)) ≈ 1 n+1 s 1 z+ 2(n+1) ≈ Z 1 z− 2(n+1) (n + 1) 1 n+1 exp − (z − p)2 2π p(1 − p) 2 p(1 − p) s 1 n+1 n+1 exp − (y − p)2 2π p(1 − p) 2 p(1 − p) dy . Es interessieren nun aber nicht so sehr die einzelnen kleinen Gewichte; es soll viel 1 1 mehr die Wahrscheinlichkeit, daß n+1 X + 2 oder X selbst in ein vorgegebenes Intervall fällt, verglichen werden mit der Wahrscheinlichkeit, daß eine normalverteilte Zufallsgröße (mit geeignetem Mittelwert und geeigneter Varianz) in dieses Intervall fällt. m X b(k; (n, p)) k=` ≈ m+1/n+1 Z `/n+1 s 1 n+1 n+1 exp − (y − p)2 2π p(1 − p) 2 p(1 − p) dy . Der Integrand ist die Dichte der Normalverteilung N p, p(1−p) . Sei Y norn+1 malverteilt mit E Y = (n + 1)p, var Y = (n + 1)p(1 − p). Dann haben wir also den Approximationssatz : m X k=` b(k; (n, p)) ≈ Ws(Y ∈ [`, m + 1]). Dies bringt den berühmten Satz von deMoivre–Laplace zum Ausdruck. Dieser besagt, daß die Binomialverteilung zum Parameter (n, p) im zentralen Bereich für große n durch die Normalverteilung N (np, np(1 − p)) oder auch durch die Normalverteilung N ((n + 1)p, (n + 1)p(1 − p)) approximiert werden kann. Die zweite Fassung, so wie sie oben formuliert ist, verdient nach unserer Meinung den Vorzug, c Prof. Dr. H. Dinges, 18. Dezember 1998 2.7 47 Approximative Normalität weil sie eine gewisse Symmetrie beachtet. Wenn X binomialverteilt ist zum Parameter (n, p), dann ist (n − X) binomialverteilt zum Parameter (n, 1 − p). Unser Approximationssatz liefert m X k=` b(k; (n, 1 − p)) ≈ Ws(Z ∈ [`, m + 1]) mit L(Z) = N ((n + 1)(1 − p), (n + 1)p(1 − p)) n−` X j=n−m b(j; (n, p)) ≈ Ws((n + 1) − Z ∈ [n − m, n − ` + 1]) . Dies ist genau wieder die Aussage des Approximationssatzes; denn L((n + 1) − Z) = N ((n + 1)p, (n + 1)p(1 − p)) . Beachte : Bei der Ableitung der Normalapproximationen für die Binomialverteilung haben wir zweierlei Fehler gemacht: 1−z z + (1 − z) ln wurde durch den quadratischen Term in p 1−p der Taylorentwicklung ersetzt. 1) K(z, p) = z · ln 2) Das Integral einer gewissen Funktion über ein Intervall diente zur Approximation des Funktionswerts im Mittelpunkt. Den Diskretisierungsfehler kann man vermeiden, wenn man die Beziehung zwischen den Binomialschwänzen und den Betaschwänzen ausnützt. Die Approximation der Betaschwänze kann man wesentlich verbessern, wenn man sich einige Mühe macht. Eine Approximation, welche sich durch große Genauigkeit auszeichnet ist die folgende. Satz : Sei X betaverteilt zum Parameter (α, β) = ((α+β)x ∗ , (α+β)(1−x∗ )). Es gilt dann mit großer Genauigkeit für alle nicht allzukleinen α, β und alle x ∈ (0, 1) √ Ws(X ≤ x) ≈ Φ ± 2 wobei K(x∗ , x) = x∗ ln x∗ x s (α + β)K(x∗ , x) + (1 − x∗ ) ln + H0 (x∗ , x) 1−x∗ 1−x e +h 1 2K(x∗ , x) ∗ H0 (x , x) = − ln x (1 − x∗ ) 2 (x − x∗ )2 e 1, 1 = − min {(α + β)K(x∗ , x) + H0 (x∗ , x)} . h x α β ∗ (ohne Beweis !) c Prof. Dr. H. Dinges, 18. Dezember 1998 1 1 , α β ! , 48 Bemerke : Wenn man K(x∗ , x) durch den quadratischen Term in der Taylore gänzlich vernachlässigt, führt das auf die entwicklung ersetzt und H0 (x∗ , x), h Normalapproximation √ Ws(X ≤ x) ≈ Φ ± 2 = Φ s s 1 1 (α + β) (x − x∗ )2 ∗ 2 x (1 − x∗ ) α+β (x − x∗ ) x∗ (1 − x∗ ) ! ! In ähnlicher Weise kann man die Schwanzwahrscheinlichkeit der Gammaverteilungen (und damit auch der Poissonverteilungen) approximieren. Satz : Sei Y gammaverteilt mit E Y = 1, var Y = α1 . Es gilt dann mit großer Genauigkeit für alle nicht allzukleinen α und alle y > 0 √ Ws(Y ≤ y) ≈ Φ ± 2 s αL(y) + H0 (y) + e h ! 1 α wobei L(y) = y − 1 − ln y 2L(y) 1 H0 (y) = − ln 2 (y − 1)2 1 e h = − min {αL(y) + H0 (y)} . y α (ohne Beweis !) 2.8 Abnahmeprüfung, Konfidenzintervalle In ähnlicher Weise, wie wir es hier für die Binomial– und Poissonverteilungen getan haben, kann man auch die hypergeometrischen Verteilungen approximieren. Die analytischen Überlegungen sind aber naturgemäß noch komplizierter. Wir wollen sie hier nicht ausführen, sondern uns stattdessen mit einer Anwendungssituation beschäftigen, in welcher die Approximation gute Dienste leistet. Eine solche Anwendungssituation ist die Theorie der Abnahmeprüfung in der statistischen Qualitätskontrolle. A. Abnahmeprüfung : Ein Produzent bietet einem Konsumenten ein Los von N Stück an. n Stück werden überprüft; der Konsument nimmt das Los ab, wenn sich in der Stichprobe höchstens c Prof. Dr. H. Dinges, 18. Dezember 1998 2.8 49 Abnahmeprüfung, Konfidenzintervalle n heißt die Inspektionszahl, c heißt die Abnahmezahl. c defekte Stücke befinden. N X bezeichne die Anzahl der defekten Stücke in der Stichprobe. Der Produzent ist der Meinung, daß das Los mit sehr hoher Wahrscheinlichkeit an∗ genommen werden sollte, wenn der Anteil der defekten Stücke M N höchstens p ist. Der Konsument ist der Meinung, daß das Los mit sehr hoher Wahrscheinlichkeit zurückgewiesen werden sollte, wenn der Anteil der defekten Stücke M N größer als ∗∗ p ist. Wsp∗ (X > c) heißt das Produzentenrisiko . Wsp∗∗ (X ≤ c) heißt das Konsumentenrisiko . Die Agenten müssen sich nun auf einen geeigneten Abnahmeplan (gegeben durch (n, c)) einigen. Die Aufgabe der Mathematiker könnte z.B. so lauten: Finde (n, c), so daß (zu vorgegebenen p∗ , p∗∗ ) das Produzentenrisiko und das Konsumentenrisiko ca. 5% beträgt. Er kann für einige (n, c) die Kennlinie ausrechnen oder, noch besser, durch eine transparente Approximationsformel den Agenten vor Augen führen. Die Kennlinie beschreibt die Abnahmewahrscheinlichkeit als Funktion von p, dem Anteil der defekten Stücke β(p) := Wsp (X ≤ c) Aus mathematischer Sicht ist β(p) die Schwanzwahrscheinlichkeit für eine hypergeometrisch verteilte Zufallsgröße X zum Parameter (n, M ; N ). Man kann versuchen, sie durch die Schwanzwahrscheinlichkeit einer binomaialverteilten Zufallsgröße Y zum Parameter (n, p) zu approximieren. Wenn n groß und p klein ist, dann ist möglicherweise sogar die Poisson–Approximation gut genug um das Produzentenrisiko und das Konsumentenrisiko mit ausreichender Genauigkeit zu bestimmen. Eine beliebte Faustregel besagt: Wenn weniger als 15% Inspektion gemacht werden ” soll und weniger als 15% Defekte im Los erwartet werden, dann ist die Poissonapproximation genügend genau. Für schlechte Qualität, also insbesondere im Bereich des Verbraucherrisikos liefert meist erst die Binomialapproximation genauere Werte für die Abnahmewahrscheinlichkeiten. Wenn die Inspektion mehr als 15% des Loses betrifft, muß man mit der hypergeometrischen Verteilung rechnen.“ Die nachstehenden Kurven zeigen, daß die Näherungen auf Kennlinien führen, die insofern “konservativ“ genannt werden können, daß sie den Entscheidungsträgern weniger versprechen, als was das Stichprobenverfahren wirklich leistet: dem Produzenten und dem Konsumenten erscheint aufgrund der näherungsweise errechneten Kennlinie sein Risiko größer, als es in Wirklichkeit ist. Für Losgrößen N = 100 und N = 1000 sind unten Abnahmewahrscheinlichkeiten gezeichnet, die sich aus der jeweiligen Näherungsformel ergeben. HV beschreibt diese Wahrscheinlichkeit exakt. Es bedeuten: HV: hypergeometrische Verteilung, c Prof. Dr. H. Dinges, 18. Dezember 1998 50 BV: Binomialverteilung, PV: Poissonverteilung, M: Anzahl der defekten Objekte, c: Abnahmezahl, n: Stichprobenumfang. p := M in Prozent notiert auf der Abszissenachse N . ........................ .. .................. ............ ....... .... . ........... ........ ........ ... ...... .... ........... .. ............... ............... ...... ........................ . .......... ....... ............. . ... ..... ....... ........ ... ..... ....... ....... ........ .... ......... ... ......... . .... .......... ..... ....... ... ....... ... ..... ....... ... ... .. .............. ... .. .......... ... . ............... ........... ... ... ... 15% Inspektion ......... ... ... . ........... ... ... ... ....... ..... ... ... . .......... ... . ... ... ...... .... ... .. . . . ......... .. . ... . 100% I. ..... ....45% I. ........... .. ... ... . . ....... ...... ... .. ... . ....... .... . ... . .... .... ....... .. ... .. ... ......... .... . –PV –HV HV–........ ...–BV HV– ... ......... ..... ....... ... ... ...... ..... .. ............ ..... ....... ..... ............. . .. . .... ...... ........... ...... . . .... BV ...... . . . ....... ... . ........ ..... ......... ...... . . .......... .... ...... ............. ....................... ...... ...... ...... 0 2 4 6 8 10 Losgröße N = 100 12 14 16 18 20% n 15 45 100 c 1 3 6 .... ... .......... .... ........ .... .............. ...... . . .. . .... ........ ............ ........ ........ ........ ........ ........................... ........ .......................... ........ ........ ........ ........ ........ ........ ........ ........ . .. .. ... .... ....... .. ... .... ... ..... ....... .... ... .... ...... ....... . .. . ... ..... ...... .. .. ....... ....... ... . ... .. ....... . . .... .. . .. ....... ...... ... . ....... ........ ... .. ....... ...... ... .. . . ... .. ... ... .. .. ... ... ... ... ..... . ... ... .... ... ... ...... . . . ... ... ..... . ... ..... .... .... ..... ...... ..... .... . ..... 20% I. ......40% I. .......60% Inspektion ... . ..... .... ..... .... ...... .. .. ...... ..... ... .. HV–.... .–BV .... . ... ... ..... ... . ... ... ... .. ... ... ... . ... . .... ... .. ... .. ...... ... ... ... .. ... ... ..... ... .. ... .. ..... ......... . ........ ........ ........ ........ ........ ................... ........ ........ ........ ........ ........................ ............ .......... ........ ........ ........ ........ ........ ........... .......... .... . .............. ... .................... .... ... ........ .... .... 0 2 4 6 8 10 Losgröße N = 1000 12 14 16 18 20% n 200 400 600 c 5 30 70 Die obenstehenden Kurven sind numerisch berechnet. Man kann sie mit analytischen Mitteln zu approximieren versuchen. Eine besonders attraktive Form ergibt c Prof. Dr. H. Dinges, 18. Dezember 1998 2.8 51 Abnahmeprüfung, Konfidenzintervalle sich für die Näherungsformeln, wenn man die Schwanzwahrscheinlichkeiten des hypergeometrischverteilten X und des binomialverteilten Y folgendermaßen schreibt β M N = Ws(X ≤ c) √ q = Φ ± 2 K(N, M, n, c) + H0 (N, M, n, c) + Rest √ Ws(Y ≤ c) = Φ ± 2 s c+1 , p + h0 (n + 1)k n+1 c+1 , p + rest n+1 ! wobei die Funktionen K(·), H0 (·) bzw. k(·), ho (·) durch asymptotische Betrachtungen nahegelegt werden. Wir wollen dies aber hier nicht ausführen. Die konkreten Rechnungen würden uns allzuweit ins Studium spezieller elementarer“ Funktionen ” hineinführen. Zum Abschluß der Überlegungen zur Approximation der klassischen Verteilungen diskutieren wir noch ein weiteres Problem der elementaren mathematischen Statistik, nämlich das Problem der Konfidenzintervalle f ür den Parameter einer Binomialverteilung. B. Konfidenzintervalle für den Parameter der Binomialverteilung Ein Experiment mit unbekannter Erfolgswahrscheinlichkeit ist n–mal unabhängig wiederholt worden. Es sind x Erfolge beobachtet worden. Die Hypothese Hp , daß die Erfolgswahrscheinlichkeit gleich p ist, kann zurückgewiesen werden, wenn x sehr viel größer oder sehr viel kleiner als np ist. Man kann aber natürlich nicht ganz sicher sein, daß das Ablehnen der Hypothese Hp zurecht erfolgt. Der Statistiker wünscht vom Mathematiker eine Empfehlung: Weise diejenigen Hp ” zurück, für welche p nicht im Intervall (p− , p+ ) liegt“. Er wünscht also ein Verfahren, wie (p− , p+ ) zu n und x zu bestimmen ist; dieses Intervall wird irgendeine Umgebung von nx sein. Wie groß aber ist dieses Konfi” denzintervall“ zu wählen, wenn man das zufällige Ergebnis nicht überinterpretieren will? Der unkritische Statistiker wird zufrieden sein, wenn ihm der Mathematiker eine Tabelle liefert. Er wird dann dem Experimentator unter Berufung auf die Autorität der Tabelle sagen: Die Erfolgswahrscheinlichkeiten p, die nicht im Konfidenzinter” vall“ (p− , p+ ) liegen, können zurückgewiesen werden. So sieht die Praxis in der Tat oft aus. Vom beratenden Statistiker wird nur gefordert, daß er die passende Tabelle ausfindig macht und daraus die Zahlen p − , p+ entnimmt. Welches ist nun die passende Tabelle und wie wird sie erstellt? Der kritische Statistiker weiß das nicht nur; er kann dem Experimentator auch erklären, warum im vorliegenden Fall die herangezogene Tabelle tatsächlich die passende ist. c Prof. Dr. H. Dinges, 18. Dezember 1998 52 Welche Aufgabe hat der Mathematiker, der die Tabellen erstellt hat, gelöst? Betrachten wir eine Tabelle, die uns für eine beobachtete Anzahl von x Erfolgen das Konfidenzintervall (p− (x), p+ (x)) für die Erfolgswahrscheinlichkeit anempfiehlt. Sie sagt uns insbesondere, daß wir die Hypothese Hp− (x) verwerfen sollten, wenn wir x oder mehr Erfolge beobachten. Das ist ein Verwerfen zu unrecht, wenn die tatsächliche Erfolgswahrscheinlichkeit wirklich so klein ist. Wir machen einen Fehler 1. Art (Verwerfen der wahren Hypothese zu unrecht) mit der Wahrscheinlichkeit Wsp (X ≥ x). Wir verlangen von der Tabelle (zu einer vorgegebenen Zahl α − , wie etwa α− = 0.025) Wsp (X ≥ x) ≤ α− für alle p ≤ p− (x) . Die Tabelle sagt uns weiterhin, daß wir Hp+ (x) verwerfen sollten, wenn wir x oder weniger Erfolge beobachten. Von der Tabelle (zu einer vorgegebenen Zahl α + , wie etwa α+ = 0.025) verlangen wir Wsp (X ≤ x) ≤ α+ für alle p ≥ p+ (x) . In der Tabelle zum Paar (α− , α+ ) = Lösungen p− (x), p+ (x) der Gleichungen Wsp− (X ≥ x) = 1 2 α, 12 α z.B. liefert der Mathematiker 1 α = Wsp+ (X ≤ x) . 2 Um eine Vorstellung von den Lösungen p− , p+ zu bekommen, betrachten wir die Gleichung Λ Wsp x + 21 X + 21 ≥ n+1 n+1 !! α =Λ 2 2 2 1 −1 α = Φ 2 2 Die Näherung von oben liefert (n + 1)k ! x + 21 , p + h0 n+1 x + 21 ,p n+1 ! ≈ 1 −1 α Φ 2 2 . Die (natürlich nur numerisch zu ermittelnden) Lösungen pe− (x), pe+ (x) dieser Gleichung erweisen sich als sehr gute Näherungen für die gesuchten p− (x), p+ (x). Dagegen ist die Normalapproximation nach deMoivre–Laplace für die Praxis meistens nicht hinreichend genau. Daher geben die Bücher über elementare mathematische Statistik üblicherweise (p− (x), p+ (x)) in Tabellenform für ausgewählte n und ausgewählte α (etwa α = 0.05) (siehe z.B. Dinges/Rost: Prinzipien der Stochastik, Teubner 1982, Seite 130, zu α2 = 0.025) c Prof. Dr. H. Dinges, 18. Dezember 1998 2.8 53 Abnahmeprüfung, Konfidenzintervalle Überleitung zu Kapitel 3 Wir haben gesehen, daß man sehr schnell tief in die konkrete Analysis hineingerät, wenn man sich mit den klassischen Verteilungen beschäftigt oder gar mit den gemeinsamen Verteilungen. Im nächsten Kapitel ziehen wir uns wieder aus der speziellen Analysis zurück. Das ist keine endgültige Verabschiedung der Analysis sondern nur eine von der konkreten Analysis. In der höheren Stochastik braucht man auch abstraktere Analysis. Dort wird z.B. geklärt, was es heißt, daß eine Folge von Verteilungen konvergiert oder daß eine Schar von Verteilungen stetig vom Parameter abhängt. In welchem Sinne konvergiert die Verteilung L √ 1 (X − np) np(1−p) mit X bino- mialverteilt zu (n, p) gegen die Standardnormalverteilung N (0, 1)? Die Theorie der Konvergenz von Verteilungen auf dem IR d ist der Anfang einer voraussetzungsvollen mathematische Theorie, die sich auch mit der Konvergenz von Verteilungen auf Funktionenräumen befaßt oder auch mit der Konvergenz von Verteilungen auf dem Raum der (lokalendlichen) Punktmengen (z.B. im Umfeld der Theorie des poissonschen Punktprozesses). Es handelt sich um ein interessantes Anwendungsfeld f ür Begriffsbildungen aus der allgemeinen Topologie und der elementaren Funktionalanalysis. Vom Standpunkt der elementaren Analysis aus gesehen sind Erwartungswert und Varianz einer reellwertigen Zufallsgröße nichts weiter als Kenngrößen von Verteilungen. Der Erwartungswert erscheint als eine Kenngröße für die Lage ( Lokation“) einer ” Verteilung; die Varianz (oder die Standardabweichung) einer Verteilung beschreibt ihre Dispersion um den Erwartungswert. Der Standpunkt der elementaren Analysis führt nicht in natürlicher Weise hinein in die für die Stochastik zentrale Theorie von Erwartungswert und Varianz. Diese überaus wichtige Theorie nimmt einen viel abstrakteren Ausgangspunkt. Sie knüpft direkt an die lineare Algebra an; der Erwartungswert wird einfach als ein lineares Funktional behandelt, die Kovarianz als ein bilineares Funktional. Im Unterschied zur elementaren linearen Algebra haben wir es allerdings mit linearen (bzw. bilinearen) Funktionalen auf unendlichdimensionalen Vektorräumen zu tun; nur dann, wenn das zugrundeliegende Zufallsexperiment nur endlich viele Ausgänge hat, sind wir im endlichdimensionalen Fall. Die technischen Schwierigkeiten, die durch die Unendlichkeit der Dimension entstehen, lassen sich auf einige Kernsätze der Maßtheorie zurückführen, die jeder Anfänger ohne alle Beweise sehr leicht verstehen und sicher anwenden kann. Wir werden diese Kernsätze im Folgenden wie Axiome behandeln. Wer sie hinterfragen will, ist auf die Veranstaltungen oder Lehrbücher zur Maß– und Integrationstheorie zu verweisen. Dem Anfänger kann man versichern: Der abstrakte Standpunkt, der den Erwartungswert in quasi axiomatischer Weise als ein lineares Funktional versteht, f ührt keineswegs weit weg von den elementaren Fragestellungen der Stochastik. Der Erfolg der abstrakten Betrachtungsweise ist darin zu sehen, daß die elementaren Tatsachen mit Hilfe der passenden Begriffsbildung transparent werden. c Prof. Dr. H. Dinges, 18. Dezember 1998 3. Erwartungswert und Kovarianz Standpunkt der elementaren Analysis aus gesehen ist der Erwartungswert einer reellwertigen Zufallsgröße eine Kenngröße der Verteilung L(X), die etwas über die Lage (oder Lokation) der Verteilung aussagt; die Varianz (oder besser die Wurzel aus der Varianz) sagt etwas über die Streuung der Verteilung aus. Wenn man die Verteilung verschiebt, verschiebt sich der Erwartungswert, während die Varianz unverändert bleibt. Wir wollen in diesem Kapitel Erwartungswert und Varianz nicht der Verteilung L(X) zuordnen, sondern den Zufallsgrößen X selbst und schreiben E X bzw. var X. Was wir über die Verschiebung gesagt haben, drückt sich in Formeln so aus: E (X + a) = E X + a , var(X + a) = var X . Es ist hier angebracht, die Konstante a als eine Zufallsgröße aufzufassen, die mit Sicherheit den Wert a annimmt. X + a ist also als die Summe zweier Zufallsgrößen zu interpretieren. (Denkt man an die Fortführung der Theorie der Erwartungswerte zur Theorie der bedingten Erwartungswerte (vgl. Kapitel 5), so ist es auch angebracht, E X nicht als eine Zahl zu betrachten, sondern als eine Zufallsgröße, die mit Wahrscheinlichkeit 1 den Zahlenwert E X annimmt.) Die Quadratwurzel aus der Varianz heißt die Standardabweichung; sie hat ähnliche Eigenschaften wie die Länge eines Vektors in der euklidischen Geometrie. Insbesondere gilt: wenn man die Verteilung um einen Faktor α streckt, multipliziert sich die Standardabweichung mit dem Faktor |α| q √ var(αX) = |α| var X . Der Erwartungswert einer IRd –wertigen Zufallsgröße erscheint vom Standpunkt der Analysis als der Schwerpunkt der Verteilung, also als ein Punkt im IR d . Die Streuung einer Massenverteilung im IRd kann bekanntlich nicht durch eine Zahl oder einen Vektor beschrieben werden; man braucht einen Tensor zweiter Stufe. Was f ür die Mechanik der Trägheitstensor ist, ist für die Stochastik die Kovarianzmatrix. Der Standpunkt der Analysis hat aber, wie schon oben für den eindimensionalen Fall gesagt, für die Stochastik nur sehr begrenzte Fruchtbarkeit. Die Stochastiker sehen Erwartungswert und Varianz nicht als Kenngrößen von Verteilungen, sondern vielmehr als Kenngrößen der Zufallsgrößen selbst, Kenngrößen im Bezug auf eine Hypothese. Die Rechengrößen sind in der Stochastik die Zufallsgrößen selbst und nicht ihre Verteilungen. Der Erwartungswert einer IR d –wertigen Zufallsgröße wird komponentenweise als ein d–tupel von Funktionalen verstanden. Wir bleiben vorerst beim 54 3.1 55 Der Erwartungswert als lineares Funktional eindimensionalen Fall (d = 1). Der Erwartungswert bezüglich einer Hypothese Hϑ wird als ein lineares Funktional auf einem Vektorraum von Zufallsgrößen verstanden. Der Definitionsbereich des Funktionals Eϑ (·) ist im allg. unendlichdimensional. Es ist nur dann endlichdimensional, wenn wir es mit einem Zufallsexperiment mit endlich vielen möglichen Ausgängen zu tun haben. Glücklicherweise lassen sich die technischen Schwierigkeiten, die die Unendlichkeit der Dimension mit sich bringt, leicht auf einige wenige Kernsätze konzentrieren. Diese Kernsätze, die in der Maß– und Integrationstheorie bewiesen werden, wollen wir hier wie Axiome unbewiesen hinnehmen. Der Anfänger kann sie leicht verstehen und sicher anwenden lernen, ohne ihre Beweise zu kennen. 3.1 Der Erwartungswert als lineares Funktional Theorem : (Hauptsatz der Theorie des Erwartungswerts) Zu jeder Wahrscheinlichkeitsbewertung P (·) eines Zufallsexperiments existiert genau ein Funktional E (·) auf dem Kegel der positivwertigen Zufallsgrößen mit den Eigenschaften 1) E (1A ) = P (A) für jedes Ereignis A 2) E (λX) = λ · E X für alle reelle Zahlen λ ≥ 0 und alle X 3) E (X + Y ) = E X + E Y für alle X und Y 4) X1 ≤ X2 ≤ . . .; X = lim ↑ Xn =⇒ E X = lim ↑ E Xn Das Funktional E (·) heißt der Erwartungswert bzgl. der durch die Hypothese gegebenen Wahrscheinlichkeitsbewertung P (·) . Im folgenden betrachten wir den Erwartungswert bzgl. einer fixierten Hypothese. Statt P (A) schreiben wir Ws(A). Bemerke : 1) Der Begriff des Erwartungswerts einer nichtnegativen Zufallsgröße verallgemeinert den Begriff der Wahrscheinlichkeit eines Ereignisses. Man kann nämlich ein Ereignis A identifizieren mit der Zufallsgröße 1A , welche den Wert 1 annimmt, wenn A eintritt und sonst 0 ist. 1 A heißt die Indikatorvariable zum Ereignis A. c Prof. Dr. H. Dinges, 18. Dezember 1998 56 2) Aus den Eigenschaften 2) und 3) ergibt sich für eine positive Zufallsgröße X, die nur endlich viele Werte x1 , . . . , xN annehmen kann EX = Beweis : EX = N X xi Ws(X = xi ) = i=1 X= X i P i xi X x Ws(X = x) . X xi E 1{X=xi } = 1{X=xi } E xi 1{X=xi } = X xi Ws(X = xi ) . 3) Der Erwartungswert einer nichtnegativen Zufallsgrößen ist entweder eine nichtnegative reelle Zahl oder +∞. Für eine nichtnegative Zufallsgröße X gilt E X = 0 genau dann, wenn X = 0 (fast sicher bzgl. der zugrundeliegenden Hypothese). Bemerke auch X ≤ Y =⇒ E X ≤ E Y , d.h. E (·) ist ein monotones Funktional. 4) Eine nichtnegative Zufallsgröße X heißt beschränkt (bzgl. der zugrundeliegenden Hypothese), wenn eine Zahl M existiert, so daß X ≤ M (fast sicher). In diesem Falle gilt E X ≤ M . Eine nichtbeschränkte Zufallsgröße kann sehr wohl einen endlichen Erwartungswert besitzen. Sei z.B. X poissonverteilt zum Parameter λ. Es gilt dann EX = ∞ X k=0 k ∞ X λ` −λ λk −λ e = λ e = λ k! `! `=0 λk −λ e = λ2 ; E X 2 = λ2 + λ k! E ((X − λ)2 ) = E (X 2 − 2λX + λ2 ) = (λ2 + λ) − 2λλ + λ2 = λ . E (X(X − 1)) = X k(k − 1) 5) Man betrachtet auch Zufallsgrößen, die den Wert +∞ annehmen können und man definiert E X = +∞, wenn Ws(X = +∞) > 0. Es gibt aber auch Zufallsgrößen mit Werten in [0, +∞) (endlichwerte Zufallsgrößen), die einen unendlichen Erwartungswert haben. Wenn z.B. X poissonverteilt ist mit λ > 1e , dann hat Y = X X den Erwartungswert E Y = +∞; denn nach Stirlings Formel EY = X ∞ 1 λk −λ X √ e = k ek λk exp −S k! 2πk k=1 k 1 k e−λ Ein interessanteres Beispiel einer endlichwertigen Zufallsgrößen E T = +∞ ist das folgende: c Prof. Dr. H. Dinges, 18. Dezember 1998 T mit 3.1 57 Der Erwartungswert als lineares Funktional Seien Y1 , Y2 , . . . unabhängig identisch verteilt mit 1 = Ws(Y = −1) 2 = Y1 + Y2 + . . . + Yn für n = 1, 2, . . . Ws(Y = 1) = Sn T = inf{n : Sn = 0} (Zeitpunkt des ersten Gleichstands) . Es gilt dann E T = +∞, wie man leicht beweisen kann. 6) Jede (fast sicher) aufsteigende Folge von Zufallsgrößen X1 ≤ X2 ≤ . . . besitzt einen Limes X = lim ↑ Xn . Dieser mag (fast sicher) endlichwertig sein oder nicht. Jedenfalls gilt nach 4) E X = lim ↑ E Xn . Sei X irgendeine nichtnegative Zufallsgröße, M1 ≤ M2 ≤ . . . eine unbeschränkte Zahlenfolge und Xn = min{X, Mn }. Es gilt dann E X = lim ↑ E (Xn ) . Lemma : Zu jeder nichtnegativen Zufallsgröße X Folge X1 ≤ X2 ≤ . . . mit existiert eine aufsteigende 1) X = lim ↑ Xn 2) Xn nimmt nur endlichviele Werte an. Beweis : Xn = Betrachten wir zunächst ein beschränktes X. Setze ∞ X k−1 k=1 2n · 1{X∈( k−1 n 2 , k 2n ]} . Xn entsteht aus X durch Abrundung auf das größte darunterliegende Vielfache n 1 von 2 . Es gilt X = lim ↑ Xn . Die Konstruktion muß nur unwesentlich abgewandelt werden für den Fall eines unbeschränkten X. In jedem Fall gilt E X = lim ↑ E Xn . Satz : Für eine positivwerte Zufallsgröße X sei F (x) = Ws(X ≤ x) die Verteilungsfunktion (unter der gegebenen Hypothese). Es gilt dann EX = Z∞ 0 [1 − F (y)] dy . c Prof. Dr. H. Dinges, 18. Dezember 1998 58 1 .................................................................................................................................................................................................................................................................................................................... .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........................ ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............ ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............. ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ................... ... . . . . . . . . . . . . . . . . . . . . . . . .................................. .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ................ .. . . . . . . . . . . . . . . . . . . . . ...... ... . . . . . . . . . . . . . . . . . . . . ... .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..... .. . . . . . . . . . . . . . . . . . . . .... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .... ... . . . . . . . . . . . . . . . . . . ..... .... . . . . . . . . . . . . . . . . . . . . . . ..................................................... .. . . . . . . . . . . . .. ... . . . . . . . . . . . ... ... . . . . . . . . . . . . . . . . . . . . . . ... ... . . . . . . . . . . . ... ... . . . . . . . . . . . . . . . . . . . . . . ... ... . . . . . . . . . . . .. ... . . . . . . . . . . ....... ... . . . . . . . . . . . . . . . . . . . ......... ... . . . . . . . . ............... ... . . . . . . ............................... ... . . ............ ... . .......... ... ........ ...... ............................................................................................................................................................................................................................................................................................................................................. ........ F (x) x Beweis : 1) Der Integrand [1 − F (y)] ist eine antitone Funktion von y. Das Integral (= Fläche unter der Kurve) ist wohldefiniert. Wenn F (·) genügend schnell R nach +1 ansteigt, ist [1 − F (y)] dy < ∞; wenn F (·) allzu langsam nach 1 ansteigt, dann erhalten wir ein unendliches Integral, also E X = +∞. Wir konzentrieren uns im Beweis auf den Fall E X < ∞ und auch da nur auf den Fall X ≤ M (fast sicher). Dies ist der Fall, wo 1 − F (y) = 0 für alle y > M . Den Beweis im allgemeinen Fall überlassen wir dem Leser. 2) Konstruieren wir wie im Lemma die X n , die nur die Werte 2kn annehmen, und vergleichen wir die Verteilungsfunktionen F n (x) = Ws(Xn ≤ x) mit der Verteilungsfunktion F (x) = Ws(X ≤ x). Wegen X n ≤ Xn+1 gilt für alle x 1 − Fn (x) = Ws(Xn > x) ≤ Ws(Xn+1 > x) = 1 − Fn+1 (x) und lim ↑ Fn (x) = F (x) für jedes x, in welchem F (·) stetig ist. Aus n→∞ bekannten Sätzen aus der elementaren Analysis folgt für die aufsteigende Folge 1 − Fn (·) antitoner Funktionen lim ↑ Z [1 − Fn (y)] dy = Z [1 − F (y)] dy . k 2n 3) Andererseits gilt E Xn = Xk−1 F −F k−1 2n 2n X Xk−1 k−1 k−1 k 1 − F − 1 − F = 2n 2n 2n 2n X X k k−1 k k = 1 − F − 1 − F 2n 2n 2n 2n = Z∞ 1 X k 1−F −→ [1 − F (y)] dy . n→∞ 2n 2n 0 c Prof. Dr. H. Dinges, 18. Dezember 1998 3.1 59 Der Erwartungswert als lineares Funktional Beispiel : Ein Zufallsexperiment mit der Erfolgswahrscheinlichkeit p wird unabhängig wiederholt. T sei der Zeitpunkt des ersten Erfolgs. Berechne E T . Ws(T > k) = Ws (die ersten k Versuche sind erfolglos) = (1 − p) k ET = Z∞ = ∞ X Ws(T > y) dy = Ws(T > k) k=0 0 k=0 ∞ X (1 − p)k = 1 1 = . 1 − (1 − p) p Die Wartezeit bis zum ersten Erfolg hat den Erwartungswert natürlich auch folgendermaßen berechnen ET = ∞ X k Ws(T = k) = k=1 = p X X k(1 − p)k−1 = 1 p. Man könnte E T k(1 − p)k−1 p 1 ; p denn für |x| < 1 gilt 1 1−x 2 d = dx 1 1−x ∞ X d = dx x k 0 ! = ∞ X kxk−1 . 1 Satz : a) Sei X eine Zufallsgröße mit der Dichte p(x)dx. Ws(X ∈ (x, x + dx)) = p(x) dx Dann haben wir F (x) = Zx p(y) dy und 0 EX = Z∞ xp(x) dx . 0 b) Es sei f (·) eine nichtnegative Funktion und Y = f (X). Es gilt dann E Y = E f (X) = Z f (x) p(x) dx . c Prof. Dr. H. Dinges, 18. Dezember 1998 60 Beweis : Z∞ Die Aussage a) ergibt sich durch partielle Integration xp(x) dx = 0 Z∞ [1 − F (x)] dx . 0 Die Aussage b) wollen wir hier nur im Falle beweisen, wo Y nur endlich viele Werte annimmt Y = X y 1{Y =y} X Z Ws(Y = y) = Ws(f (X) = y) = X y Ws(Y = y) = y Z p(x) dx {x:f (x)=y} yp(x) dx = {x:f (x)=y} Z f (x) p(x) dx . Der allgemeine Fall ergibt sich aus einem Approximationsargument. Man kann Y als monotonen Limes schreiben Y = lim ↑ Y n , wo Yn nur endlich viele Werte annimmt. Eine Anwendung des allgemeinen Begriffs des Erwartungswerts, dessen Bedeutung erst später klar werden wird, wenn wir uns mit “Nullereignissen“, d.h. mit Ereignissen mit der Wahrscheinlichkeit 0 befassen, ist das P Lemma von Borel–Cantelli : Seien A1 , A2 , . . . Ereignisse mit Ws(An ) < ∞. Dann ist das Ereignis, daß unendlich viele der A n eintreten, ein Nullereignis. Beweis : Sei N die Anzahl der eintretenden Ereignisse N = 1A1 + 1A2 + . . . = lim ↑ n Es gilt ↑E E N = lim n P n X 1 Ai ! = n X ∞ X 1 Ai . Ws(An ) . Wenn Ws(An ) < ∞, dann hat N einen endlichen Erwartungswert; N ist also insbesondere endlich–wertig mit Wahrscheinlichkeit 1. ∞ P Ws(An ) = +∞ kann man im allgemeinen nicht schließen, daß Bemerke : Aus mit positiver Wahrscheinlichkeit unendlich viele der A n eintreten. c Prof. Dr. H. Dinges, 18. Dezember 1998 3.2 61 Sätze aus der Integrationstheorie 3.2 Sätze aus der Integrationstheorie Notation : 1) Wenn α eine reelle Zahl ist, setzen wir α+ = max{0, α} , α− = max{0, −α} . Es gilt dann α+ + α− = |α| und α = α+ − α− . 2) Wenn f (·) eine reellwertige Funktion auf irgendeinem Definitionsbereich ist, setzen wir f + (x) = max{0, f (x)} , f − (x) = max{0, −f (x)} . Es gilt dann f + + f − = |f | und f = f + − f − . 3) Wenn X eine reellwertige Zufallsgröße ist, setzen wir X + = max{0, X} , X − = max{0, −X} . Es gilt dann X + + X − = |X| und X = X + − X − . Definition : Man sagt von einer reellwertigen Zufallsgröße X, daß sie (unter einer gewissen Hypothese) einen endlichen Erwartungswert besitzt, wenn E X+ < ∞ und E X− < ∞ . In diesem Falle definiert man + − EX =EX −EX . Bemerke : X hat einen endlichen Erwartungswert genau dann, wenn E |X| < ∞. Theorem : Die Gesamtheit aller derjenigen Zufallsgrößen X, die bzgl. einer gewissen Hypothese H einen endlichen Erwartungswert besitzen, ist ein Vektorraum. Betrachten wir zwei Zufallsgrößen als äquivalent bzgl. H, wenn das Ereignis, daß sie verschiedene Werte ergeben, ein Nullereignis bzgl. H ist. Die Gesamtheit der Äquivalenzklassen ist ein Vektorraum L 1 (H). Der Erwartungswert EH (·) ist ein lineares Funktional auf diesem Vektorraum. c Prof. Dr. H. Dinges, 18. Dezember 1998 62 Beweis : 1) Betrachte X und Y aus L1 und Z = X + Y . Es gilt |Z| ≤ |X| + |Y | E (|X| + |Y |) = E |X| + E |Y | < ∞ =⇒ E |Z| < ∞ . Allgemeiner: Für α, β ∈ IR gilt αX + βY ∈ L1 . 2) Wir zeigen E (αX) = α E X für alle α ∈ IR. Zunächst für α ≥ 0: αX = α(X + − X − ) = (αX)+ − (αX)− , E (αX) = α E X. Für α ≤ 0 haben wir (αX)+ = |α|X − , (αX)− = |α|X + αX = (αX)+ − (αX)− = |α|(X − − X + ) = αX + − αX − : E (αX) = α E X . 3) Wir zeigen E (X + Y ) = E X + E Y . Betrachte die Summe Z = X + Y = (X + − X − ) + (Y + − Y − ) = (X + + Y + ) − (X − + Y − ) . Auf der anderen Seite gilt Z = Z + − Z − , also Z + + (X − + Y − ) = Z − + (X + + Y + ) E Z+ + E X− + E Y − = E Z− + E X+ + E Y + E Z = E Z+ − E Z− = E X+ − E X− + E Y + − E Y − = E X + E Y . q.e.d. Die Eigenschaft 4) ( Monotone Stetigkeit“) aus dem Hauptsatz hat nun wichtige ” Konsequenzen für das lineare Funktional E (·) auf dem Vektorraum L1 (H): Satz : (Satz von der monotonen Konvergenz) Seien X1 ≤ X2 ≤ . . . Elemente aus L1 . Wenn E Xn beschränkt ist für n → ∞, dann gilt X∞ := lim ↑ Xn ∈ L1 ; in jedem Falle aber gilt E X∞ = lim ↑ E Xn . Beweis : Betrachte Yn := Xn − X1 . Es handelt sich um eine aufsteigende Folge nichtnegativer Zufallsgrößen. Y∞ := lim ↑ Yn ; E Yn ↑ E Y∞ . Wenn E Y∞ < ∞, dann Y∞ ∈ L1 und X∞ = Y∞ + X1 ∈ L1 E Xn − E X1 = E Yn ↑ E Y∞ = E X∞ − E X1 . c Prof. Dr. H. Dinges, 18. Dezember 1998 3.2 63 Sätze aus der Integrationstheorie Satz : (Lemma von Fatou) Seien X1 , X2 , . . . aus L1 so, daß ein Y ∈ L1 existiert mit Y ≤ Xn für alle n . Dann gilt inf Xn ≤ lim inf E Xn . E lim n→∞ n Beweis : o.B.d.A. Y = 0 also Xn ≥ 0 für alle n. Setze Yn := inf Xm . Es m≥n gilt E Yn ≤ inf E Xm und andererseits Y1 ≤ Y2 ≤ . . . . Daher gilt für m≥n X∞ := lim inf Xn = lim ↑ Yn n→∞ E X∞ = lim ↑ E Yn ≤ lim n n inf E Xm m≥n = lim inf E Xn n→∞ Satz : (Satz von der majorisierten Konvergenz) Seien X1 , X2 , . . . ∈ L1 mit lim Xn = X ∗ (fast sicher). Wenn ein Y ∈ L1 existiert mit |Xn | ≤ Y für alle n, dann gilt X ∗ ∈ L1 und die Erwartungswerte E Xn konvergieren gegen E X ∗ . Kurz gesagt E (lim Xn ) = lim(E Xn ) . Beweis : Es gilt lim inf Xn = X ∗ = lim sup Xn (fast sicher). Fatous Lemma auf (Xn )n und (−Xn )n angewandt liefert den Beweis. Didaktische Anmerkung : Die drei eben bewiesenen Sätze entsprechen den Hauptsätzen der Lebegueschen Integrationstheorie. R In der klassischen Lebesgueschen Theorie studiert man das Integral I(f ) = 01 f (x) dx als ein lineares Funktional auf dem Vektorraum der Lebesgue–integrablen Funktionen über (0, 1). Alle Integrationstheorien brauchen Grenzübergänge. Das aus der Riemannschen Integrationstheorie bekannte Einschließungsargument, welches mit Obersummen und Untersummen arbeitet, erweist sich als zu primitiv für eine befriedigende Integrationstheorie. Die elaborierteren Zugänge zum Begriff des Integrals werden in der Anfängervorlesung selten behandelt. Der Preis, den man für die dem Anfängerverständnis naheliegende Riemannsche Betrachtungsweise zu zahlen hat, ist ein Mangel an Flexibilität in den Anwendungen. In der Riemannschen Integrationstheorie entsteht keine Klarheit, unter welchen Umständen der Grenzübergang unter dem Integral erlaubt ist; die dort übliche Voraussetzung der gleichmäßigen Konvergenz der Integranden ist zu stark für viele wichtige Anwendungen. c Prof. Dr. H. Dinges, 18. Dezember 1998 64 Uns geht es hier um die Anwendungen des Hauptsatzes und nicht um den Beweis; der Beweis würde einen längeren Exkurs in die Maßtheorie erfordern. Ein Proseminar ist ein geeigneterer Platz für diese Überlegungen als eine Vorlesung über elementare Stochastik. Der diskrete Fall : Wir betrachten ein Zufallsexperiment mit abzählbar vielen möglichen Ausgängen ω; ω ∈ Ω, Ω abzählbar. Ein solches Zufallsexperiment kann durch eine Ω–wertige Zufallsgröße W beschrieben werden. Eine Hypothese über das P p(ω) = 1. Zufallsgeschehen ist durch eine Gewichtung zu beschreiben: p(ω) ≥ 0 ω∈Ω Jede zu unserem Zufallsexperiment gehörende reellwertige Zufallsgröße X ist durch eine reellwertige Funktion f (·) auf Ω gegeben. X = f (W ) = X f (ω) 1{W =ω} . Jede nichtnegative Zufallsgröße besitzt einen (endlichen oder unendlichen) Erwartungswert EX = X f (ω) Ws(W = ω) = X p(ω) f (ω) . ω ω Nicht jede reellwertige Zufallsgröße Y = g(W ) besitzt einen Erwartungswert; E Y ist endlich, wenn E Y + und E Y − endlich sind. Der Raum L1 aller Zufallsgrößen mit endlichem Erwartungswert ist ein Vektorraum; dieser ist genau dann endlichdimensional, wenn L(W ) auf eine endliche Menge konzentriert ist, d.h. wenn es eine P endliche Teilmenge Ω∗ von Ω gibt, so daß p(ω) = 1. ω∈Ω∗ Wenn man für eine Zufallsgröße X = f (W ) den Erwartungswert mittels der ex” pliziten“ Formel EX = X p(ω) f (ω) auszurechnen versucht, dann muß man eine unendliche Reihe mit (oft schwer zugänglichen) Summanden p(ω) f (ω) auswerten. Für viele wichtige Zufallsgrößen gibt es bequemere Rechnungen, die auf einem raffinierteren Gebrauch der Linearität beruhen. Wir werden unten eine lange Reihe von Beispielen kennenlernen. In unserem Spezialfall können wir die Linearität des Erwartungswerts ohne Zuhilfenahme des Hauptsatzes direkt beweisen. Die Rechnung ist eine beliebte Prüfungsfrage. Satz : Es seien X und Y reellwertige Zufallsgrößen, die nur endlich viele Werte annehmen können. Es gilt dann E (X + Y ) = E X + E Y . c Prof. Dr. H. Dinges, 18. Dezember 1998 3.3 65 Varianz und Kovarianz Beweis : X= P 1{X=x} = X +Y = x 1{X=x} , X y X x,y = X 1{X=x,Y =y} , = X x X 1{Y =y} = y ! 1{X=x,Y =y} + X X X x 1{X=x,Y =y} X y y X x 1{X=x,Y =y} ! (x + y) Ws(X = x, Y = y) x X ! Ws(X = x, Y = y) + y x Ws(X = x) + x 3.3 y 1{Y =y} x,y x = P (x + y) 1{X=x,Y =y} x E (X + Y ) = Y = X y X y y X Ws(X = x, Y = y) x ! y Ws(Y = y) = E X + E Y . Varianz und Kovarianz Definition a) Für jede reellwertige Zufallsgröße X mit endlichem Erwartungswert definiert man die Varianz (bzgl. der betreffenden Hypothese) var X := E X 2 − (E X)2 . b) Für jedes Paar reellwertiger Zufallsgrößen mit endlicher Varianz definiert man die Kovarianz cov(X, Y ) = E (XY ) − E X · E Y . Satz : Für jede reellwertige Zufallsgröße mit endlichem Erwartungswert gilt 0 ≤ var X ≤ +∞. Es gilt 1) var X = 0 ⇐⇒ X = E X fast sicher 2) Für jede Konstante a gilt var(X + a) = var X 3) var(αX) = α2 var X für alle α ∈ IR 4) var X < ∞, var Y < ∞ =⇒ var(X + Y ) < ∞ . c Prof. Dr. H. Dinges, 18. Dezember 1998 66 Beweis : 0 ≤ E ((X − E X)2 ) = E (X 2 −2X E X +(E X)2 ) = E X 2 −(E X)2 = var X. Daraus ergeben sich die Behauptungen 1) und 2). Die Behauptung 3) ist trivial. Wir zeigen unten das sogenannte Parallelogrammgesetz var(X + Y ) + var(X − Y ) = 2 var X + 2 var Y . Daraus ergibt sich 4). Der Vektorraum der Zufallsgrößen, die bzgl. der Hypothese H endliche Varianz haben, wird oft mit L 2 (H) bezeichnet. Es handelt sich um einen Teilraum des L1 (H). Bemerkung : Sei X eine Zufallsgröße mit endlichem Erwartungswert und der Dichte p(x) dx. Es gilt dann EX = var X = Z Z xp(x) dx , Z |x|p(x) dx < ∞ (x − E X)2 p(x) dx = Z x2 p(x) dx − (E X)2 . Satz : (Bilinearität der Kovarianz) Seien X, Y, Z Zufallsgrößen mit endlicher Varianz. Es gilt dann 1) cov(X, X) = var X 2) cov(αX, βY ) = αβ cov(X, Y ) für alle α, β ∈ IR 3) cov(X + a, Y + b) = cov(X, Y ) für alle a, b ∈ IR 4) cov(X, Y ) = cov(Y, X) 5) cov(X + Y, Z) = cov(X, Z) + cov(Y, Z) Beweis : Die Aussagen 1) und 2) sind trivial. E ((X − E X)(Y − E Y )) = E (XY − X E Y − Y E X + E X · E Y ) = E (XY ) − E X · E Y = cov(X, Y ) . Daraus folgt 3). Die Aussage 4) ist trivial. Für den Beweis von 5) können wir o.B.d.A. annehmen, daß E X = 0, E Y = 0. Wir haben dann cov(X, Z) = E (XZ) , cov(Y, Z) = E (Y Z) cov(X + Y, Z) = E ((X + Y )Z) = E (XZ) + E (Y Z) = cov(X, Z) + cov(Y, Z) . c Prof. Dr. H. Dinges, 18. Dezember 1998 3.3 67 Varianz und Kovarianz Definition : Die Quadratwurzel aus der Varianz heißt die Standardabweichung. Für jedes Paar von Zufallsgrößen mit endlicher positiver Varianz ist der Korrelationskoeffizient die Zahl cov(X, Y ) √ ρ(X, Y ) := √ var X · var Y Satz : (Die Ungleichung von Cauchy–Schwarz) Für jedes Paar von Zufallsgrößen mit endlicher positiver Varianz ist der Korrelationskoeffizient eine Zahl zwischen -1 und +1. Beweis : Wenn Y − E Y ein positives Vielfaches von X − E X ist, dann ist der Korrelationskoeffizient = 1; wenn Y − E Y ein negatives Vielfaches von X − E X ist, dann ist der Korrelationskoeffizient = −1. In allen anderen Fällen gilt ρ2 (X, Y ) < 1, d.h. (cov(X, Y ))2 < (var X)(var Y ) . Der Beweis benützt einen Trick, der aus der linearen Algebra bekannt sein dürfte. Für alle λ ∈ IR gilt var(X − λY ) > 0 ; also 0 < cov(X − λY, X − λY ) = var X − 2λ cov(X, Y ) + λ 2 var Y . Die rechte Seite, als Funktion von λ betrachtet, ist eine quadratische Funktion a − 2bλ + cλ2 mit a > 0, c > 0. sie strebt gegen +∞ für λ2 → +∞ und nimmt ) an. Der Minimalwert ist ihr Minimum im Punkte λ∗ = cb = cov(X,Y var Y a − 2bλ∗ + c(λ∗ )2 = a − b2 = c[ac − b2 ] > 0 . c Dies ergibt die Behauptung. Sprechweise : Man sagt von einem Paar reellwertiger Zufallsgrößen X, Y , sie seien unkorreliert, wenn cov(X, Y ) = 0. Man sagt von n reellwertigen Zufallsgrößen X1 , . . . , Xn , sie seien (paarweise) unkorreliert, wenn cov(Xi , Xj ) = 0 Satz : für alle i 6= j . Wenn X1 , . . . , Xn paarweise unkorreliert sind, dann gilt var(X1 + . . . + Xn ) = var X1 + var X2 + . . . + var Xn . c Prof. Dr. H. Dinges, 18. Dezember 1998 68 Beweis : var(X1 + . . . + Xn ) = cov X i Xi , X j Xj = X cov(Xi , Xj ) = i,j X var Xi . i Satz : (Kosinus–Satz) Seien X, Y Zufallsgrößen mit endlicher Varianz. Es gilt dann var(X + Y ) = var X + var Y + 2 cov(X, Y ) . Beweis : cov(X + Y, X + Y ) = cov(X, X) + cov(X, Y ) + cov(Y, X) + cov(Y, Y ) . Bemerkung : Im unkorrelierten Fall entspricht die Aussage dem Satz von Pythagoras, im allgemeinen Fall dem sogenannten Kosinussatz der euklidischen Geometrie ka + bk2 = kak2 + kbk2 + 2kak · kbk cos(ˆ(a, b)) √ √ var X und var Y entsprechen Längen in der euDie Standardabweichungen klidischen Geometrie; der Korrelationskoeffizient entspricht dem Kosinus des eingeschlossenen Winkels. Korollar : var(X + Y ) + var(X − Y ) = 2 var X + 2 var Y . Der Beweis ist triviale Folgerung aus der Bilinearität. Der entsprechende Satz in der euklidischen Geometrie heißt das Parallelogrammgesetz: ka + bk2 + ka − bk2 = 2kak2 + 2kbk2 . Die Summe der Quadrate der Diagonallängen in einem Parallelogramm ist zweimal die Summe der Quadrate der Seitenlängen. Verallgemeinerung : gilt dann .............................................................................................................. ...... .......... ... .... ...... .......... ...... .... .... .......... ... .... . .... .......... . . .... ... .. .......... . . . . . . . . . . . . . . . . . .. ... ............. .... .... .......... ...... ... . . . . . . . . . . . . . . . .... .. . ... .......... .... .... .... .......... ... ... .... ......... .... ...... ... ............. .................................................................................................................. b a Seien X1 , . . . , Xn Zufallsgrößen mit endlicher Varianz. Es var(X1 + . . . + Xn ) = X cov(Xi , Xj ) . i,j c Prof. Dr. H. Dinges, 18. Dezember 1998 3.3 69 Varianz und Kovarianz Notation : Ein n–tupel reellwertiger Zufallsgrößen X1 , . . . , Xn denkt man sich als einen zufälligen Spaltenvektor X geschrieben. Man definiert den Erwartungswert E X und die Kovarianzmatrix cov(X, X) X1 E X1 .. .. X = . , EX = . , Xn E Xn var X1 , cov(X1 , X2 ), . . . , cov(X1 , Xn ) cov(X2 , X1 ), var X2 , . . . , cov(X2 , Xn ) cov(X, X) = .. .. . . cov(Xn , X1 ), cov(Xn , X2 ), . . . , var Xn Man schreibt auch cov(X, X) = E (XX > ) − (E X)(E X)> . Satz : Die Kovarianzmatrix C = cov(X, X) ist eine symmetrische positiv semidefinite Matrix. Beweis : Bekanntlich nennt man eine symmetrische n × n–Matrix C mit den Einträgen cij positiv semidefinit, wenn für alle ξ = (ξ1 , . . . , ξn ) gilt ξCξ > ≥ 0 , d.h. X i,j ξi cij ξj ≥ 0 . In unserem Falle haben wir 0 ≤ var X i ξi Xi ! X X X ξj Xj = ξi cij ξj . = cov ξi Xi , i j i,j Notation : Sei X eine zufällige m–Spalte mit den Komponenten X 1 , . . . , Xm und Y eine zufällige n–Spalte mit den Komponenten Y 1 , . . . , Yn . Dann definiert man die Kovarianzmatix cov(X, Y ) als die m × n–Matrix mit den Einträgen cov(Xi , Yj ). cov(X, Y ) = E (XY > ) − (E X)(E Y )> . Satz : Es sei X eine zufällige m–Spalte und A eine konstante (d.h. nicht zufällige) d × m–Matrix. Es sei Y eine zufällige n–Spalte und B eine konstante e × n–Matrix. Es gilt dann cov(AX, BY ) = A cov(X, Y )B > . c Prof. Dr. H. Dinges, 18. Dezember 1998 70 Beweis : o.B.d.A. E X = 0, E Y = 0. Dann gilt auch E (AX) = 0, E (BY ) = 0. cov(AX, BY ) = E ((AX)(BY )> ) = E (AXY > B > ) = A E (XY > )B > . Satz : Sind X und Y dann gilt zufällige m–Spalten und Z eine zufällige n-Spalte, cov(X + Y, Z) = cov(X, Z) + cov(Y, Z) . Beweis : o.B.d.A. E Z = 0 und in diesem Falle cov(X, Z) = E (XZ > ) , cov(Y, Z) = E (Y Z > ) cov(X + Y, Z) = E ((X + Y )Z > ) = E (XZ > ) + E (Y Z > ) . Die Bilinearität gilt auch für mehrere Summanden: X X X cov Xi , Yj = cov(Xi , Yj ) . i j i,j Bemerke auch: cov(X, Y ) = (cov(Y, X)) > . 3.4 Beispiele; symmetrisch abhängige Zufallsgrößen 1) Für die Gamma– und Betaverteilungen kann man Mittelwert und Varianz durch elementare Integration ausrechnen. 1 xα−1 e−x dx für x > 0 Ws(X ∈ (x, x + dx)) = Γ(α) EX = E X2 = var X = Ws(Y ∈ (y, y + dy)) = EY = 2 = var Y = EY Z∞ 0 x Γ(α + 1) 1 xα−1 e−x dx = = α Γ(α) Γ(α) Γ(α + 2) = α(α + 1) , Γ(α) 2 2 2 E X − (E X) = α(α + 1) − α = α 1 y α−1 (1 − y)β−1 dy für 0 < y < 1 B(α, β) Γ(α + 1)Γ(β) Γ(α + β) α B(α + 1, β) = = B(α, β) Γ(α + 1 + β) Γ(α)Γ(β) α+β Γ(α + 2)Γ(β) Γ(α + β) α(α + 1) = Γ(α + 2 + β) Γ(α)Γ(β) (α + β)(α + β + 1) 1 αβ α + β + 1 (α + β)2 c Prof. Dr. H. Dinges, 18. Dezember 1998 3.4 71 Beispiele; symmetrisch abhängige Zufallsgrößen 1∗ ) Es seien U1 , U2 , . . . , Un unabhängig in (0, 1) gleichmäßig verteilt und U(1) ≤ U(2) ≤ . . . ≤ U(n) die angeordnete Stichprobe. U(k) ist also die Wartezeit bis zum k–ten Punkt, betaverteilt zum Parameter (k, n + 1 − k), insbesondere k . E U(k) = n+1 Aufgabe : a) Machen Sie sich plausibel, daß die Zwischenräume ∆0 = U(1) , ∆1 = U(2) − U(1) , . . . , ∆n−1 = U(n) − U(n−1) , ∆n = 1 − U(n) symmetrisch abhängig sind, d.h. daß L(∆i0 , ∆i1 , . . . , ∆in ) = L(∆0 , . . . , ∆n ) für jede Permutation (i0 , i1 , . . . , in ) . Hinweis : Eine Kreislinie der Länge 1 mit einem ausgezeichneten Punkt kann man mit den Einheitsintervall identifizieren. Eine Kreislinie der Länge 1 mit n + 1 rein zufällig plazierten Punkten entspricht der hier vorliegenden Situation. b) Beweise, daß für alle i 6= j 1 1 n + 2 (n + 1)2 1 cov(∆i , ∆j ) √ p = − . n var ∆i var ∆j cov(∆i , ∆j ) = (−1) ρ(∆i , ∆j ) = Hinweis : Für alle k = 1, 2, . . . , n + 1 gilt var(U(k) ) = var(∆0 + . . . + ∆k−1 ) = k var ∆0 + k(k − 1) cov(∆0 , ∆1 ) = var ∆0 [k + k(k − 1) ρ] . Aus var(U(n+1) ) = 0 ergibt sich ρ = − var(U(k) ) = 1 n. Daraus ergibt sich für alle k 1 1 k(n + 1 − k) . n + 2 (n + 1)2 c Prof. Dr. H. Dinges, 18. Dezember 1998 72 2) (Multinomialverteilungen) Ein Versuch mit endlich vielen möglichen Ausgängen wird n–mal unabhängig wiederholt. Nk bezeichne die Anzahl der Versuche mit dem k–ten Ausgang (k = 0, 1, . . . , d). Betrachte den Zufallsvektor N = (N0 , N1 , . . . , Nd )> . Wenn pk die Wahrscheinlichkeit des k–ten Ausgangs ist, dann gilt (i) E Nk = npk (ii) var Nk = npk (1 − pk ) (iii) cov(Nk , N` ) = −npk p` für k 6= ` . Beweis : Wir können schreiben N = Y1 + . . . + Y n wobei Yj die zufällige Spalte ist, die in der k–ten Position eine 1 hat, wenn der j–te Versuch den k–ten Ausgang ergibt, und in allen anderen Positionen eine 0 hat. Die Yj (j = 1, 2, . . . , n) sind unabhängig mit der Kovarianzmatrix cov(Y, Y ) = E (Y Y > ) − (E Y )(E Y )> . Diese hat die Diagonalelemente pk − (pk )2 = pk (1 − pk ); der Eintrag in der Position (k, `) außerhalb der Diagonale ist −p k p` . Bemerke : 0= N 0 + N1 + . . . + N d = n 1 var(N0 + . . . + Nd ) = n = 1X 1X var Nk + cov(Nk , N` ) n k n k6=` X k pk (1 − pk ) − X pk p` . k6=` 3) (Hypergeometrische Verteilung) Aufgabe : In einer Urne mit N Kugeln befinden sich M rote. Es wird n– mal ohne Zurücklegen gezogen. Sn bezeichne die Anzahl der roten Kugeln in der Stichprobe. Berechne E Sn und var Sn . c Prof. Dr. H. Dinges, 18. Dezember 1998 3.4 73 Beispiele; symmetrisch abhängige Zufallsgrößen Es wäre sehr umständlich, Summen wie die folgenden auszurechnen: E Sn = ∞ X kh(k; n, M, N ) ; k=0 2 E Sn = ∞ X k 2 h(k; n, M, N ) , j=0 wo die h(k; n, M, N ) die Gewichte der hypergeometrischen Verteilung sind. Es gibt einen viel einfacheren Weg. Setze Yj = 1 oder = 0, je nachdem ob die j–te Ziehung eine rote Kugel ergibt oder nicht. Es gilt Sn = Y 1 + . . . + Y n n X E Sn = j=1 E Yj = n E Y1 var Sn = n var Y1 + n(n − 1) cov(Y1 , Y2 ) . Die Yj sind nämlich symmetrisch abhängig, d.h. L(Yi1 , . . . , YiN ) = L(Y1 , . . . , YN ) für jede Permutation (i1 , . . . , iN ) . Insbesondere haben alle Yj denselben Erwartungswert und dieselbe Varianz. var Yj = p(1 − p) . E Yj = p = M N , Für alle i 6= j gilt cov(Yi , Yj ) = cov(Y1 , Y2 ). Man kann cov(Y1 , Y2 ) leicht direkt ausrechnen E (Y1 Y2 ) = M · (M − 1) , N ·N −1 cov(Y1 , Y2 ) = −p(1 − p) 1 . N −1 Man kann die Rechnung aber auch durch einen Trick vermeiden. Für alle n gilt mit 1 ,Y2 ) ρ = ρ(Y1 , Y2 ) = cov(Y var Y1 var Sn = nσ 2 + n(n − 1)σ 2 ρ = nσ 2 [1 + (n − 1)ρ] . Für n = N ergibt sich var SN = 0 also 1 + (N − 1)ρ = 0, ρ = − N1−1 . Für alle n haben wir also var Sn = nσ 2 n−1 N −n 1− . = np(1 − p) N −1 N −1 c Prof. Dr. H. Dinges, 18. Dezember 1998 74 3∗ ) (Ziehen ohne Zurücklegen) In einer Urne befinden sich N Kugeln auf welchen Zahlen f (ω) notiert sind. Es wird n–mal ohne Zurücklegen gezogen und über die auf den gezogenen notierten Zahlen summiert Sn = f (Z1 ) + f (Z2 ) + . . . + f (Zn ) . Für n = 1 haben wir E S1 = N 1 X f (ω) = f , n var S1 = σ 2 = Wir beweisen var Sn = nσ 2 E Sn = n f , N 1 X (f (ω) − f)2 . N N −n . N −1 Beweis : Die Summanden f (Zj ) sind symmetrisch abhängig; insbesondere gilt für alle i = 6 j cov(Yi , Yj ) = cov(Y1 , Y2 ) = σ 2 ρ var Sn = nσ 2 + n(n − 1)σ 2 ρ = nσ 2 [1 + (n − 1)ρ] . Aus var SN = 0 folgt ρ = − var Sn = nσ 2 1 − n−1 N −1 1 N −1 . Daher . Aufgabe : Auf den Kugeln, die ohne Zurücklegen gezogen werden, stehen zwei Zahlen f (ω) und g(ω). Betrachte Sn = n X f (Zj ) , Tn = j=1 n X g(Zj ) . j=1 Berechne cov(Sn , Tn ) . 4) (Pólya–Urnenschema) In einer Urne befinden sich zum Zeitpunkt 0 N Kugeln. Es wird gezogen und dann zusammen mit der gezogenen Kugel eine vom gleichen Typ in die Urne gelegt. Nach n Ziehungen befinden sich also N + n Kugeln in der Urne, (1) Nn vom ersten Typ , X (2) Nn vom zweiten Typ , . . . Nn(`) = N + n . ` Die Typen der gezogenen Kugeln seien Z1 , Z 2 , . . . , Z n . c Prof. Dr. H. Dinges, 18. Dezember 1998 3.4 75 Beispiele; symmetrisch abhängige Zufallsgrößen a) Beweise, daß für alle Permutationen j1 , . . . , jn L(Zj1 , . . . , Zjn ) = L(Z1 , . . . , Zn ) . b) Jedem Typ η einer Kugel sei eine reelle Zahl f (η) zugeordnet. Es sei f= 1 X f (η) , N η wobei über die Population der Typen η zum Zeitpunkt 0 summiert wird. σ2 = 1 X (f (η) − f)2 . N η Berechne für Sn = f (Z1 ) + . . . + f (Zn ) E Sn und var Sn . 5) (Wartezeiten im diskreten Fall) In einem Kartenspiel mit N Karten befinden sich n Asse. Es wird aufgedeckt, bis das erste As kommt, ∆0 Karten, dann weiter bis das zweite As kommt, ∆ 0 + ∆1 Karten usw. ∆0 + . . . + ∆n−1 ist die Position des letzten Asses, ∆n = (N + 1) − (∆0 + . . . + ∆n−1 ) . Aufgabe : Zeige, daß ∆0 , . . . , ∆n symmetrisch abhängig sind. +1 Folgerung E ∆0 = N n+1 . Beispiel : Bei einem normalen gut gemischten Skatblatt muß man im Mittel Karten aufdecken, bis man zum ersten As kommt. 33 5 Bemerke : Die Verteilung L N 1+1 (∆0 + . . . + ∆k−1 ) könnte man als ein diskretes Analogon einer Betaverteilung zum Parameter (k, n + 1 − k) ansehen. Für N → ∞ und festes n konvergiert 1 1 ∆0 , . . . , ∆n−1 L N +1 N +1 gegen die Verteilung L(U(1) , U(2) , . . . , U(n) ), die wir in 1∗ betrachtet haben. (ohne Beweis !) c Prof. Dr. H. Dinges, 18. Dezember 1998 76 3.5 Gaußische Vektoren Man weiß noch nicht sehr viel über die Verteilung eines n–dimensionalen Zufallsvektors X, wenn man nur den Erwartungswert x ∗ = E X und die Kovarianzmatrix C = cov(X, X) kennt. (Außer natürlich, wenn C die Nullmatrix ist; dann ist nämlich L(X) auf den Punkt x∗ konzentriert.) Wenn C den Rang r hat, dann ist L(X) auf einen r–dimensionalen Teilraum T konzentriert, und zwar, wie wir beweisen werden, auf den linearen Teilraum ∗ n T = {x : x − x = Cy mit y ∈ IR } . Das wichtigste Beispiel einer Verteilung eines Zufallsvektors X mit E X = x∗ und cov(X, X) = C (wobei C beliebig positiv semidefinit ist) ist die Normalverteilung N (x∗ , C). Die Normalverteilung N (x∗ , C) besitzt eine Dichte im IRn , wenn C positiv definit ist, also eine Inverse C −1 besitzt. Die Dichte ist p(x)dx = 1 √ 2π n 1 [det C]−1/2 exp − (x − x∗ )> C −1 (x − x∗ ) 2 dx1 . . . dxn . Das Rechnen mit den Dichten ist bei den meisten Gelegenheiten unangemessen. Wir geben im folgenden eine kurze Einführung in die Theorie der gaußischen Zufallsvektoren im Sinne der sog. linearen Theorie. Den Hauptsatz, der die Normalverteilungen als lineare Bilder der Standardnormalverteilungen charakterisiert, können wir allerdings nicht vollständig beweisen, da uns die Hilfsmittel aus der Fourier–Analyse fehlen. Die Aussage des Hauptsatzes ist aber leicht zu verstehen. Der Leser sollte sich zumindest das folgende Korollar fest einprägen: Unkorrelierte gemeinsam gaußisch ” verteilte Zufallsgrößen sind unabhängig.“ Definition : Ein d–Tupel unabhängiger standardnormalverteilter Zufallsgrößen heißt ein gaußischer Einheitsvektor. Satz : Wenn Z1 , . . . , Zd unabhängig normalverteilt sind, dann ist jede Linearkombination X = α 1 Z1 + . . . + α d Zd normalverteilt; L(X) = N (µ, σ 2 ) mit µ = P αj E Zi , σ2 = P α2i var Zi . c Prof. Dr. H. Dinges, 18. Dezember 1998 3.5 77 Gaußische Vektoren Beweis : o.B.d.A. E Zi = 0 , var Zi = 1 für alle i. Die gemeinsame Verteilung von Z1 , . . . , Zd ist dann die rotationssymmetrische Verteilung im IR d mit der Dichte 1 √ 2π d 1 exp − (z12 + . . . + zd2 ) dz1 . . . dzd . 2 Für jedes d–Tupel (α1 , . . . , αd ) mit Verteilung. Insbesondere P α21 = 1 hat X = α1 Z1 +. . . +αd Zd dieselbe L(X) = L(Z1 ) = N (0, 1) . Definition : Man sagt von einem n–Tupel reellwertiger Zufallsgrößen (X1 , . . . , Xn ), es sei (unter der Hypothese H) gemeinsam gaußisch verteilt, wenn jede Linearkombination Y = β 1 X1 + . . . + β n Xn gaußisch verteilt ist. Bemerke : a) Die Komponenten eines gaußischen Einheitsvektors sind gemeinsam gaußisch verteilt. b) (X1 , . . . , Xn ) ist genau dann gemeinsam gaußisch verteilt, wenn (X1 − E X1 , . . . , Xn − E Xn ) gemeinsam gaußisch verteilt ist. c) Es sei X eine zufällige n–Spalte, deren Komponenten gemeinsam gaußisch verteilt sind. Es sei B eine konstante m × n–Matrix. Dann ist Y = BX eine zufällige m–Spalte, deren Komponenten gemeinsam gaußisch verteilt sind. Sprechweise : Von einer zufälligen n–Spalte X sagt man, sie sei ein gaußischer Vektor (unter der Hypothese H), wenn ihre Komponenten gemeinsam gaußisch verteilt sind. Satz (Hauptsatz) : Zu jedem gaußischen Vektor X mit E X = 0 gibt es Matrizen A, B so, daß gilt (i) Z = BX ist ein gaußischer Einheitsvektor (ii) X = AZ (fast sicher). Die gaußischen Vektoren sind also genau diejenigen Zufallsvektoren, die durch eine lineare Transformation aus einem gaußischen Einheitsvektor hervorgehen. c Prof. Dr. H. Dinges, 18. Dezember 1998 78 Schritte des Beweises : 1) X sei ein n–dimensionaler gaußischer Vektor mit der Kovarianzmatrix C vom Rang d. Angenommen B ist eine d × n–Matrix, so daß Z = BX ein d–dimensionaler gaußischer Einheitsvektor ist. Dann gilt Id = cov(Z, Z) = cov(BX, BX) = B · C · B > . In der linearen Algebra sagt man: B bringt C auf Hauptachsengestalt. Man findet die Spalten von B > als Eigenvektoren C y = λ y . Der Eigenwert 0 hat die Vielfachheit n − d. Es existieren λ 1 , . . . , λd > 0 und Spalten y1 , . . . , yd , so daß y> y j j = 1/λj , C yj = λ j yj , y> y j i = 0 für i 6= j . Diese Spalten yj nebeneinandergeschrieben ergeben eine n × d–Matrix, die wir mit B > bezeichnen. λ1 0 CB > = B > .. . 0 0 λ2 ... ... 0 0 .. . 0 ... λd = B>Λ , BCB > = Id . 2) Wenn wir B so wählen, dann ist Z = BX ein d–dimensionaler gaußischer Vektor mit der Identität Id als Kovarianzmatrix. Die Komponenten sind also gemeinsam gaußisch verteilt und sie sind paarweise unkorreliert. Lemma : Gemeinsam gaußisch verteilte Zufallsgrößen, die unkorreliert sind, sind unabhängig. Diese fundamentale Tatsache können wir hier nicht beweisen, da uns die Technik der charakteristischen Funktion nicht zur Verfügung steht. 3) Die Abbildung y 7−→ C y bildet den IRd auf einen d–dimensionalen Teilvektorraum T ⊆ IRn ab. BC hat den Rang d. Die Abbildung y 7−→ B y auf T eingeschränkt, besitzt also eine Umkehrabbildung. (Sie bildet den IR d auf T ab.) Sie wird durch eine n × d–Matrix A gegeben mit AB x = x für alle x ∈ T . In Matrizenschreibweise ABC = C. 4) Wir zeigen nun, daß A das im Hauptsatz Verlangte leistet. Für jede auf T verschwindende Linearform ξ (Zeilenvektor) gilt ξC = 0, also var(ξX) = ξCξ > = 0 . c Prof. Dr. H. Dinges, 18. Dezember 1998 3.6 79 Die Tschebyschevsche Ungleichung ξX ist also fast sicher gleich 0. L(X) ist auf T konzentriert. Daraus ergibt sich ABX X = X fast sicher . = AZ fast sicher mit Z = BX . q.e.d Bemerke : Die Schlüsse beweisen auch eine interessante Aussage über nicht notwendig normalverteilte Zufallsvektoren. Satz : Sei X ein n–dimensionaler Zufallsvektor mit E X = x∗ und cov(X, X) = C. Wenn C den Rang r hat, dann ist L(X) auf den r–dimensionalen Teilraum T = {x : x − x∗ = Cy mit y ∈ IRn } konzentriert. Es existiert eine r × n–Matrix B und eine n × r–Matrix A, so daß BX unkorrelierte Komponenten hat und X = x∗ + AB(X − x∗ ) fast sicher . 3.6 Die Tschebyschevsche Ungleichung Wenn eine Zufallsgröße X kleine Varianz hat, dann weicht sie nur mit kleiner Wahrscheinlichkeit substantiell vom Mittelwert E X ab. Diese Aussage wird durch Tschebyschevs Ungleichung präzisiert. Satz (Tschebyschevs Ungleichung) : Ws(|X − E X| ≥ d) ≤ Beweis : 1 var X für alle d > 0 . d2 Betrachte die Zufallsgröße Y = d · 1{|X−E X|≥d} . Es gilt |Y | ≤ |X − E X| , Y 2 ≤ (X − E X)2 , also var X = E (X − E X)2 ≥ E Y 2 = d2 Ws(|X − E X| ≥ d) . c Prof. Dr. H. Dinges, 18. Dezember 1998 80 Beispiel : Ein Experiment mit der Erfolgswahrscheinlichkeit p wird n–mal unabhängig wiederholt. Die relative Häufigkeit der Erfolge Hn weicht dann nur mit kleiner Wahrscheinlichkeit vom Mittelwert E Hn = p ab. 1 1 p(1 − p) . d2 n Die Abschätzung ist nicht gut; es gibt viel präzisere Abschätzungen, wie wir beim Studium der Bionomialverteilungen gesehen haben. Für gewisse asymptotische Aussagen reicht sie aber aus. Als Anwendung beweisen wir die allereinfachste Version eines wichtigen Satzes aus der reellen Analysis (Approximationssatz von Stone–Weierstraß). Es geht dabei um die gleichmäßige Approximation einer beliebigen stetigen Funktion durch Funktionen aus einer Funktionenalgebra. In unserem Beispiel handelt es sich um die Algebra der Polynome, betrachtet über dem Einheitsintervall [0, 1]. Ws{|Hn − p| ≥ d} ≤ Satz : Zu jeder über [0, 1] stetigen Funktion f (·) existiert eine Folge von Polynomen pn (·), die gleichmäßig gegen f (·) konvergiert. Beweis : Einer Idee von S. Bernstein folgend schlagen wir eine konkrete Folge pn (·) vor; mit Hilfe von Tschebyschevs Ungleichung beweisen wir die gleichmäßige Konvergenz. pn (ϑ) := n X n k=0 k ϑk (1 − ϑ)n−k f k n . Wenn Hn die relative Häufigkeit der Erfolge bei einer Folge von n unabhängigen identisch verteilten Versuchen ist, dann ist nH n unter der Hypothese, daß die Erfolgswahrscheinlichkeit gleich ϑ ist, binomialverteilt zum Parameter (ϑ, n). n k ϑk (1 − ϑ)n−k f (Hn ) nimmt die Werte f n mit den Wahrscheinlichkeiten k an. Eϑ f (Hn ) = pn (ϑ) . Wir haben, wenn |f (·)| ≤ M (f ist beschränkt) für alle ε > 0 |pn (ϑ) − f (ϑ)| ≤ Eϑ |f (Hn ) − f (ϑ)| ≤ 2M Wsϑ (|f (Hn ) − f (ϑ)| ≥ ε) + ε . Da f (·) gleichmäßig stetig ist, existiert zu jedem ε > 0 ein η > 0, so daß {|f (Hn ) − f (ϑ)| ≥ ε} ⊆ {|Hn − ϑ| ≥ η} Wsϑ {f (Hn ) − f (ϑ)| ≥ ε} ≤ Wsϑ (|Hn − p| ≥ η} ≤ 1 1 ϑ(1 − ϑ) . η2 n Für genügend großes n ist das so klein, daß |pn (ϑ) − f (ϑ)| ≤ 2ε . q.e.d. c Prof. Dr. H. Dinges, 18. Dezember 1998 3.6 81 Die Tschebyschevsche Ungleichung Faustregel : Bei der Normalverteilung liegt 95% der Masse weniger als zwei Standardabweichungen vom Mittelwert entfernt. √ Ws(|X − E X| ≥ 2 var X) ≤ 0.05 . Dies folgt aus Φ(−1.960) = 0.025 (siehe Tabelle). Die Tschebyschevsche Ungleichung ergibt hingegen nur die reichlich unscharfe Abschätzung √ 1 Ws(|X − E X| ≥ 2 var X) ≤ = 0.25 . 4 Sie benützt allerdings keinerlei Annahmen über den Typ der Verteilung. Es gibt Beispiele für Verteilungen, wo eine Verbesserung der Abschätzung nicht möglich ist. Ergänzung : Der Median a) Neben dem Mittelwert einer Wahrscheinlichkeitsverteilung (d.h. Erwartungswert einer Zufallsgröße mit dieser Verteilung) ist der Median eine beliebte Maßzahl für die Lage ( Lokation“). Die Zahl m heißt ein Medianwert für ” L(X), wenn Ws(X ≥ m) ≥ 1 , 2 Ws(X ≤ m) ≥ 1 . 2 (Wenn die Verteilungsfunktion strikt steigend ist, dann ist der Medianwert eindeutig bestimmt.) b) Neben der Standardabweichung ist die mittlere absolute Abweichung vom Median eine beliebte Maßzahl für die Streuung τ := E (|X − m|) . c) Das Analogon zur Tschebyschevschen Ungleichung heißt die Markovsche Ungleichung Ws(|X − m| ≥ d) ≤ 1 1 E (|X − m|) = τ . d d Der Beweis sei dem Leser überlassen. Beispiel : Der Sortieralgorithmus Quicksort bringt eine Liste von n Zahlen Z1 , Z2 , . . . , Zn in aufsteigende Reihenfolge. Der Bequemlichkeit halber nehmen wir an, daß alle Zahlen Zi verschieden sind; jedem Zi steht also genau ein Platz πi zu. Es gibt mehrere Versionen des Algorithmus; wir studieren die folgende: Im ersten Schritt wird die erste Zahl Z 1 mit allen n − 1 anderen verglichen; sie wird an die richtige Stelle π1 gerückt; die kleineren kommen nach vorn, die größeren nach hinten. Im zweiten Schritt werden der Abschnitt bis π 1 und Abschnitt von π1 an nach demselben Verfahren weiterbehandelt. c Prof. Dr. H. Dinges, 18. Dezember 1998 82 Beispiele : 1) 2) 6 8 3 5 1 7 5 Vergleiche 3 5 1 6 8 7 2+1 Vergleiche 1 3 5 6 7 8 keine weiteren Vergleiche nötig. Summe = 8 1 3 5 6 7 8 n − 1 Vergleiche 1 3 5 6 7 8 n − 2 Verleiche ... (hier = 15). Nehmen wir an, Die Summe ist (n − 1) + (n − 2) + . . . + 2 + 1 = (n−1)n 2 die Reihenfolge der Zi sei rein zufällig. Die Anzahl der nötigen Vergleiche ist dann eine ganzzahlige Zufallsgröße An mit Werten ≤ (n−1)n . 2 Wir berechnen M (n) = E An . Der erste Schritt benötigt stets (n − 1) paarweise Vergleiche. Wenn Z 1 auf den ihm zustehenden k–ten Platz gerückt ist, werden im zweiten Schritt im Mittel M (k − 1) + M (n − k − 1) Vergleiche nötig. Es gilt M (2) = 1 , M (1) = 0 , M (−1) = 0 M (n) = (n − 1) + = (n − 1) + M (n − 1) = (n − 2) + n 1X [M (k − 1) + M (n − k − 1)] n k=1 n 2X M (k − 1) n k=1 X 2 n−1 M (k − 1) n−1 1 nM (n) − (n − 1)M (n − 1) = 2(n − 1) + 2M (n − 1) M (n) M (n − 1) 2(n − 1) 2 1 − = = 2 − n+1 n n(n + 1) n+1 n M (n) n+1 = 2 = 2 Die Größenordnung von Integral Rb a 1 x 1 2 n X j=2 n X n−1 X 2 1 − j + 1 j=1 j + 1 1 2 + −2 . j +1 n+1 j=1 + 31 + 41 + . . . + 1 n+1 ergibt sich durch Vergleich mit dem dx. Eine leichte Rechnung ergibt 2(n + 1)[ln(n + 1) − 2] ≤ M (n) ≤ 2(n + 1) · ln(n + 1) . c Prof. Dr. H. Dinges, 18. Dezember 1998 3.7 83 Lokationsschätzer Bemerke : lim Man kann zeigen, daß 1 var An n2 = c2 > 0 . Nach Tschebyschevs Ungleichung gilt also lim sup Ws(|An − 2n ln n| ≥ dcn) ≤ n→∞ 1 für alle d > 0 . d2 In diesem Sinne kann man sagen, daß Quicksort ungefähr 2n ln n paarweise Vergleiche benötigt, um eine Menge von n Zahlen anzuordnen. 3.7 Lokationsschätzer Betrachten wir unabhängige identisch verteilte reellwertige Zufallsgrößen X1 , X 2 , . . . , X n , die wir als Messungen einer Größe interpretieren können; 2 2 E X = µ, E ((x − µ) ) = σ < ∞ . Was eine Größe ist und was man unter einer Messung versteht, diskutieren wir hier nicht. Positionsbestimmungen in der Astronomie sind geschichtlich die ersten Beispiele; es sind aber allgemeinere Zusammenhänge, die Pate gestanden haben bei der Namensgebung für die im folgenden diskutierten abgeleiteten Zufallsgrößen und Zahlen. Die Zufallsgröße X = Xn = 1 (X1 , . . . , Xn ) n heißt der Stichprobenmittelwert. Die (zufällige!) Verteilung Mn auf IR, welche die Gewichte n1 in die Punkte X1 + . . . + Xn legt, heißt die empirische Verteilung. Die (vom Zufall abhängige) Varianz von Mn heißt die Stichprobenvarianz V := n 1 X (Xi − X)2 . n Diese Zufallsgröße V hat einen Erwartungswert EV = E (X1 − X)2 = cov X1 − X, X1 − X = var X1 + var X −2 cov(X1 , X) = c Prof. Dr. H. Dinges, 1− 1 σ2 . n 18. Dezember 1998 84 Beachte, daß die Zufallsgröße 2 X 1 Xi − X n−1 den Erwartungswert σ 2 = var X hat, was man damit zum Ausdruck bringt, daß man sie einen erwartungstreuen Schätzer für var X nennt. Beachte auch, daß bei all diesen Rechnungen nur die Unkorreliertheit der X i benutzt worden ist. 1) Nehmen wir an, daß die Xi normalverteilt sind mit der Varianz σ 2 . Der Stichprobenmittelwert ist dann normalverteilt mit der Varianz n1 σ 2 . Für alle c > 0 gilt also 1 Ws X −µ ≥ d √ n σ = 2Φ(−d) . Speziell für d = 1.96 erhalten wir (aus einer Tabelle für die gaußische Fehlerfunktion Φ(·)) 1 Ws X ∈ µ ± 1.96 √ σ n = 1 − 2Φ(−1.96) = 0.95 . Mit 95% Wahrscheinlichkeit differieren der Stichprobenmittelwert X und der ” 1 σ.“ wahre Mittelwert der Meßgröße um höchstens den Betrag 1.96 −√ n Dies ist nur dann eine praktisch nützliche Aussage, wenn σ 2 bekannt ist. Wenn σ 2 unbekannt ist, dann freuen sich manche Praktiker über Näherungswerte für die Zahlen p bzw. t in den Beziehungen 1 √ V = p Ws X ∈ µ ± 1.96 √ n 1 √ V = 0.95 . Ws X ∈ µ ± t √ n Aus Tabellen für die sog. Studentschen t–Verteilungen kann man diese Werte p bzw. t entnehmen. 2) Messungen in der Praxis sind manchmal annähernd aber nie exakt normalverteilt. Dennoch möchte man aus den Beobachtungswerten auf die Lage“ der ” Verteilung L(X) schließen. Bei einem solchen Lokationsschätzungsproblem“ ” gibt es viele Fragen. a) Was sollte man unter der Lage von L(X)“ verstehen? Der Erwartungs” wert µ = E X ist nur einer von den vielen beliebten Lokationsparametern. Ein anderer beliebter Lokationsparameter ist z.B. der Median von L(X). Nehmen wir der Einfachheit halber an, daß der Median von L(X) eindeutig bestimmt ist, d.h. daß es genau eine Zahl m gibt mit 1 Ws(X ≥ m) = = Ws(X ≤ m) . 2 c Prof. Dr. H. Dinges, 18. Dezember 1998 3.7 85 Lokationsschätzer b Ein beliebter Schätzer für den Median ist der Stichprobenmedian“ X; ” bei ungeradem Stichprobenumfang n ist er eindeutig bestimmt; er ist die in der Mitte liegende der Beobachtungswerte. b) Wenn man L(X − m) kennt, dann kann man ausrechnen, wie nahe der b beim wahren Median m liegt. Stichprobenmedian X b ≥ m + √1 d = Ws mindestens die Hälfte der Ws X n Beobachtungen sind ≥ m + √1 n d . Dies ist die Wahrscheinlichkeit, daß ein n–mal unabhängig durchgeführtes der Erfolgswahrscheinlichkeit mit Experiment p = Ws X ≥ m + √1n nd = 12 − ε in mindestens der Hälfte der Fälle erfolgreich ist. Diese Wahrscheinlichkeit kennen wir aus unserem Studium der Bionomialverteilungen recht gut. Wenn wir also wissen, wie X um den Median herum streut, dann können wir mit wenig Mühe Zahlen (n) (n) d− , d+ ausrechnen, so daß b ∈ m − √1 d(n) , m + √1 d(n) Ws X n − n + = 0.95 . (n) (n) Wir können, wenn wir wollen, erreichen, daß d − = d(n) = d+ 1 b Ws X −m ≤ √ d(n) n = 0.95 . Man kann zeigen: Wenn L(X) in der Nähe des wahren Medians m eine strikt positive stetige Dichte p besitzt, dann konvergiert d (n) für b für große n n → ∞. Man kann in diesem Fall sogar zeigen, daß X ähnlich verteilt ist, wie eine normalverteilte Zufallsgröße 1 2 b L X n ≈ N m, τ n mit τ = (2p(m))−1 . Die Mittel für den Beweis haben wir alle parat; für eine technische Durchführung ist hier aber nicht der passende Ort. 3) Die Theorie der Lokationsschätzer ist eine hochentwickelte Theorie. Sie ist hier nicht unser Thema. Ein kurzer Hinweis auf die sog. Huber–Schätzer sollte aber das obige etwas abrunden. Bekanntlich gilt (i) X ist derjenige Wert a, für welchen X (Xi − a)2 X |Xi − b| minimal ist . b ist derjenige Wert b, für welchen (ii) X minimal ist . c Prof. Dr. H. Dinges, 18. Dezember 1998 86 (iii) Sei X ∗ derjenige Wert c, für welchen X ρ(Xi − c) minimal ist , wobei für ein fixiertes ` > 0 ρ(y) = ( 1 2 y2 |y| ` − 1 2 `2 für |y| ≤ ` für |y| ≥ ` . Die Zufallsgröße X ∗ , als Schätzer für die Lage von L(x) betrachtet, heißt der Huber–Schätzer zur Spannweite `. Es handelt sich um einen sehr beliebten Lokationsschätzer, der bei geeigneter Wahl von ` die Vorzüge des Stichprobenmittelwerts und des Stichprobenmedians in erfreulicher Weise vereinigt. Die Wahl von ` aufgrund von Vorwissen über die Verteilung von X und (oder) aufgrund dessen, was man den Daten ansieht, ist allerdings ein Problem. Für große n ist Xn∗ approximativ normalverteilt ∗ ∗ L (Xn ) ≈ N x , 1 ∗ v n . Es ist aber nicht einfach, für eine vorgegebene Verteilung L(X − x∗ ) den Wert v ∗ auszurechnen. c Prof. Dr. H. Dinges, 18. Dezember 1998 4. Zufälligkeit, Entropie und Information 4.1 Unabhängige Zufallsgrößen Der Begriff der Unabhängigkeit gilt als ein Grundbegriff der Stochastik. Unabhängigkeit ist ein Begriff, der sich auf mathematische Modelle, d.h. auf Hypothesen bezieht. Zufallsexperimente, die in keinerlei kausalem Zusammenhang zueinander stehen, sind in jedem vernünftigen mathematischen Ansatz als unabhängige Zufallsexperimente zu modellieren. Umgekehrt kann man aber nicht jede an einem Modell ablesbare Unabhängigkeit von Ereignissen oder von Zufallsgrößen auf das Fehlen kausaler Zusammenhänge zurückführen. Die mathematische Betrachtung kann sich nicht anheischig machen, den philosophischen Begriff des kausalen Zusammenhangs zu erfassen. Unabhängigkeit ist als ein theoretischer Begriff zu behandeln; die Bedeutung zeigt sich erst im Gebrauch innerhalb der Theorie. Die Anwendung ist dann ein Problem anderer Art. Definition : Man sagt von zwei Ereignissen A 1 , A2 , daß sie unabhängig sind (bzgl. der gegebenen Wahrscheinlichkeitsbewertung P (·)), wenn P (A1 ∩ A2 ) = P (A1 ) · P (A2 ) ; Ws(A1 ∩ A2 ) = Ws(A1 ) · Ws(A2 ) , Man könnte auch sagen, A1 und A2 sind genau dann unabhängig, wenn die Indikatorvariablen 1A1 , 1A2 unkorreliert sind: E (1A1 · 1A2 ) − E (1A1 ) · E (1A2 ) = 0 . Was es heißt, daß drei oder mehr Ereignisse unabhängig sind, werden wir unten diskutieren; es heißt jedenfalls mehr als daß die Indikatorfunktionen 1 A1 , . . . , 1An unkorreliert sind. Seien X und Y Zufallsgrößen mit Werten in den abstrakten Räumen E bzw. F . Man sagt, daß sie unabhängig sind (bzgl. der gegebenen Wahrscheinlichkeitsbewertung P (·)), wenn P ({X ∈ B1 } ∩ {Y ∈ B2 }) = P (X ∈ B1 ) · P (Y ∈ B2 ) für alle B1 ⊆ E, B2 ⊆ F . Wenn X und Y nur abzählbar viele Werte annehmen können, dann bedeutet Unabhängigkeit von X und Y offenbar P (X = x, Y = y) = P (X = x) · P (Y = y) für alle x, y . 87 88 Wenn X und Y Dichten haben, dann bedeutet Unabhängigkeit, daß sich die Dichten zur gemeinsamen Dichte multiplizieren r(x, y) dx dy = p(x) dx · q(y) dy . Beispiele : 1) Aus einer Urne mit N Kugeln werden nacheinander zwei Kugeln X und Y gezogen. Beim Ziehen mit Zurücklegen (Hypothese Hm ) sind X und Y unabhängige Zufallsgrößen. Beim Ziehen ohne Zurücklegen (Hypothese H0 ) sind X unabhängig. Es gilt nämlich und Y nicht Ws(X = x, Y = y) = 0 falls x = y 1 1 Ws(X = x, Y = y) = · für alle x 6= y . N N −1 2) Gegeben sei ein gutgemischter Stoß Karten der üblichen Art. (32 Karten mit Werten aus E = {A, K, D, B, 10, 9, 8, 7} und Farben aus F = {Kreuz, Pique, Herz, Karo} .) X sei der Wert der ersten Karte, Y die Farbe der zweiten Karte. Dann sind X und Y unabhängig. Viele Anfänger finden das überraschend! Wir beweisen diese Unabhängigkeit durch eine Symmetrieüberlegung. Es gilt Ws(X = x, Y = y) = p für jedes Paar x, y ; denn kein Wert x ∈ E ist vor irgendeinem anderen Wert x 0 ∈ E ausgezeichnet und keine Farbe y ∈ F ist vor irgendeiner anderen Farbe y 0 ∈ F ausgezeichnet; kein Paar (x, y) ∈ E × F ist vor irgendeinem anderen Paar (x0 , y 0 ) ∈ E 0 × F 0 ausgezeichnet 1= X x∈E, y∈F Ws(X = x, Y = y) = 32 · p , Ws(X = x, Y = y) = also p= 1 32 1 1 1 = · = Ws(X = x) · Ws(Y = y) für alle x, y 32 8 4 Manche Anfänger finden die folgende Rechnung überzeugender: p = P (X = König , Y = Herz ) = P (erste Karte = Herzkönig und zweite Karte ist Herz) = + P (erste Karte ist ein anderer König und zweite Karte ist Herz) 3 8 1 1 1 7 · + · = (7 + 24) = . 32 31 32 31 32 · 31 32 c Prof. Dr. H. Dinges, 18. Dezember 1998 4.1 89 Unabhängige Zufallsgrößen 3) X und Y seien unabhängig gammaverteilt mit E X = α, var X = α, E Y = β, var Y = β . Dann sind W = X + Y und U = U ist betaverteilt. X X+Y unabhängig. W ist gammaverteilt, Den Beweis entnehmen wir dem oben durchgeführten Beweis für die Formel B(α, β) = Γ(α) · Γ(β) . Γ(α + β) (Aus dieser Formel allein folgt die Unabhängigkeit natürlich nicht; wir müssen den Beweis durchgehen.) 4) U1 , U2 , . . . , Un seien unabhängig identisch verteilt. P sei die zufällige Permutation, die die Ui in aufsteigende Reihenfolge bringt. F sei die empirische ” Verteilungsfunktion“ F (x) = n 1X 1 1 . · (Anzahl der i mit Ui ≤ x) = n n i=1 {Ui ≤x} Dann sind P und F unabhängig. Der Beweis ist eine einfache Symmetrieüberlegung. Definition : Man sagt von einem n–tupel von Zufallsgrößen X1 , . . . , Xn (Xi mit Werten in der abstrakten Menge E i ), es sei unabhängig bzgl. der Hypothese H, wenn Ws(X1 ∈ B1 , X2 ∈ B2 , . . . , Xn ∈ Bn ) = Ws(X1 ∈ B1 ) · Ws(X2 ∈ B2 ) · . . . · Ws(Xn ∈ Bn ) für alle B1 ⊆ E1 , B2 ⊆ E2 , . . . , Bn ⊆ En . Definition : Man sagt von einem n–Tupel von Ereignissen A 1 , . . . , An , es sei unabhängig bzgl. der Hypothese H, wenn die Indikatorfunktionen 1A1 , . . . , 1An unabhängig sind, d.h. wenn für alle δ1 , . . . , δn mit δi ∈ Ei = {0, 1} gilt Ws (1A1 = δ1 , 1A2 = δ2 , . . . , 1An = δn ) = Ws (1A1 = δ1 ) · Ws (1A2 = δ2 ) · . . . · Ws (1An = δn ) . Bemerke : Aus der Tatsache, daß die Ereignisse A 1 , A2 , A3 paarweise unabhängig sind, folgt nicht die Unabhängigkeit des Tripels. c Prof. Dr. H. Dinges, 18. Dezember 1998 90 Beispiel : Eine faire Münze wird zweimal unabhängig geworfen. Es sei A1 = der erste Wurf liefert Zahl“ ” A2 = der zweite Wurf liefert Zahl“ ” A3 = beide Würfe liefern dasselbe Ergebnis“ ” Die Ai sind nicht unabhängig; sie sind nur paarweise unabhängig. Hinweis : X = (X1 , . . . , Xd )> sei ein gaußischer Vektor. ξ, η, ζ seien d–Zeilen, so daß ξX, ηX, ζX unkorreliert sind. Dann ist das Tripel unabhängig. Was ein gaußischer Vektor ist, wird später erläutert. Anfänger, die anderswo von gaußisch– (oder normal–) verteilten Zufallsgrößen gehört haben, werden durch die Aussage gelegentlich verwirrt in dem Sinne, daß sie Unabhängigkeit und Unkorreliertheit als verwandte Begriffe ansehen. Die Aussage gilt auch für mehr als drei Linearkombinationen. Satz : Seien X und Y Zufallsgrößen mit Werten in den Räumen E bzw. F und seien ϕ(·), ψ(·) Abbildungen von E bzw. F Z = ϕ(X), W = ψ(Y ) . Wenn X und Y unabhängig sind, dann auch Z und W . ( Unabhängigkeit ” überträgt sich auf transformierte Zufallsgrößen.“) Beweis : Für B ⊆ E bezeichnet ϕ−1 (B) das volle Urbild ϕ−1 (B) = {x : ϕ(x) ∈ B} {Z ∈ B1 } = {X ∈ ϕ−1 (B1 )} {W ∈ B2 } = {Y ∈ ψ −1 P (Z ∈ B1 , W ∈ B2 ) = P (X ∈ ϕ (B2 )} −1 für alle B1 ⊆ E für alle B2 ⊆ F (B1 ), Y ∈ ψ −1 (B)) . Wenn X und Y unabhängig sind, dann ist das das Produkt = P (X ∈ ϕ−1 (B1 )) · P (Y ∈ ψ −1 (B2 )) = P (Z ∈ B1 ) · P (W ∈ B2 ) . Korollar : Wenn X und Y unabhängig sind, dann gilt für jedes Paar reeller Zufallsgrößen von der Form f (X), g(Y ) mit endlicher Varianz E (f (X) · g(Y )) = E f (X) · E g(Y ) ( reelle Zufallsgrößen, die von unabhängigen Zufallsgrößen abgeleitet sind, sind un” korreliert“). c Prof. Dr. H. Dinges, 18. Dezember 1998 4.1 91 Unabhängige Zufallsgrößen Beweis : Man beweist das für U = f (X), V = g(Y ), die nur endlich viele Werte annehmen können und geht dann zu monotonen Limiten über: E X = = i ui · 1{f (X)=ui } · X X j vj · 1{g(Y )=vj } i,j ui vj · E 1{f (X)=ui } · 1{g(Y )=vj } i,j ui vj · P (f (X) = ui ) · P (g(Y ) = vj ) X = E X i ! ui · 1{f (X)=ui } · E X j vj · 1{g(Y )=vj } Warnung : Anfänger, die sich in allzu engen Bahnen mit Zufallsgrößen beschäftigen, bringen manchmal die Begriffe Unabhängigkeit und Unkorreliertheit durcheinander. Die Verwirrung kann nicht entstehen, wenn man bei unabhängigen Zufallsgrößen nicht vorschnell an reellwertige Zufallsgrößen mit endlicher Varianz denkt, sondern an Zufallsgrößen mit Werten in abstrakten Räumen. Richtig ist: 1) Unabhängige reellwertige Zufallsgrößen mit endlicher Varianz sind unkorreliert. 2) Unkorrelierte Indikatorvariablen sind paarweise unabhängig aber nicht notwendigerweise unabhängig. 3) Unkorrelierte gemeinsam gaußisch verteilte Zufallsgrößen sind unabhängig. Exkurs : (Bedingte Wahrscheinlichkeiten, bedingte Verteilungen) Manchmal kann man sich die (durch Rechnungen festgestellte) Unabhängigkeit von X und Y plausibel machen, indem man sich in einem Gedankenexperiment davon überzeugt, daß das Wissen, welchen Wert X annimmt, keinen Informationsgewinn beinhaltet, wenn man darüber spekuliert, mit welcher Sicherheit man das Eintreffen des Ereignisses {Y ∈ B} erwartet. Dieser subjektivistische“ Denkansatz ist ” mit Vorsicht anzuwenden; er zerstört die Symmetrie, die in der Definition der Unabhängigkeit liegt: und es gibt Beispiele, wo er die Intuition des Anfängers gründlich in die Irre führt. Deshalb und auch aus mathematisch–technischen Gründen stellen wir eine Diskussion der Begriffe bedingte Wahrscheinlichkeit“ und bedingte Ver” ” teilung“ zurück. Wir bemerken hier nur, daß der Begriff der bedingten Verteilung technisch unproblematisch ist, wenn die bedingende Zufallsgröße X nur abzählbar viele Werte annehmen kann. Es gilt dann: X und Y sind unabhängig, wenn für alle x mit P ({X = x}) > 0 und alle B ∈ F (Wertebereich von Y ) gilt P ({X = x} ∩ {Y ∈ B}) = P ({Y ∈ B}) P ({X = x}) c Prof. Dr. H. Dinges, 18. Dezember 1998 92 In der Notation, die wir später entwickeln werden, nimmt das die folgende Gestalt an: X, Y unabhängig X, Y, Z unabhängig ⇐⇒ ⇐⇒ L(Y | X) = L(Y ) L(Y | X) = L(Y ) und L(Z | X, Y ) = L(Z) . Bleiben wir hier lieber bei der elementaren, die Zufallsgrößen symmetrisch behandelnden Definition der Unabhängigkeit. Definition : Man sagt von Zufallsgrößen X1 , X2 , X3 , daß sie unabhängig sind (bzgl. der gegebenen Wahrscheinlichkeitsbewertung), wenn für alle B1 , B2 , B3 gilt P ({X1 ∈ B1 } ∩ {X2 ∈ B2 } ∩ {X3 ∈ B3 }) = P ({X1 ∈ B1 }) · P ({X2 ∈ B2 }) · P ({X3 ∈ B3 }) . Man sagt von Ereignissen A1 , A2 , A3 , daß sie unabhängig sind, wenn die Indikatorvariablen unabhängig sind. Bemerkung : Die Ereignisse A1 , A2 , A3 sind genau dann unabhängig, wenn die folgenden vier Gleichungen gelten P (A1 ∩ A2 ) = P (A1 ) · P (A2 ) ; P (A2 ∩ A3 ) = P (A2 ) · P (A3 ) P (A3 ∩ A1 ) = P (A3 ) · P (A1 ) ; P (A1 ∩ A2 ∩ A3 ) = P (A1 ) · P (A2 ) · P (A3 ) Beweis : Eigentlich müßte man für den Nachweis der Unabhängigkeit 23 = 8 Gleichungen bestätigen, nämlich P (1A1 = δ1 , 1A2 = δ2 , 1A3 = δ3 ) = P (1A1 = δ1 ) · P (1A2 = δ2 ) · (1A3 = δ3 ) wo δ1 , δ2 , δ3 die Werte 0 und 1 annehmen können. Vier dieser Beziehungen sind oben geannnt, die nämlich, wo mindestens zwei der δj den Wert 1 haben. Die restlichen vier Beziehungen kann man daraus aber ableiten; beispielsweise P (1A1 = 1, 1A2 = 0, 1A3 = 0) = P (A1 ∩ Ac2 ∩ Ac3 ) = P (A1 ∩ Ac2 ) − P (A1 ∩ Ac2 ∩ A3 ) = P (A1 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) = p 1 − p 1 p2 − p 1 p3 + p 1 p2 p3 = p1 (1 − p2 )(1 − p3 ) . c Prof. Dr. H. Dinges, 18. Dezember 1998 4.2 93 Analytische Eigenschaften des Entropiefunktionals 4.2 Analytische Eigenschaften des Entropiefunktionals Der einmalige Wurf einer fairen Münze liefert 1 bit Zufälligkeit. abhängiges Werfen einer fairen Münze liefert n bits Zufälligkeit. n–maliges un- Der einmalige Wurf eines regelmäßigen Tetraeders liefert 2 bits Zufälligkeit; der einmalige Wurf eines regelmäßigen Oktaeders liefert 3 bits Zufälligkeit. Wieviel Zufälligkeit liefert der einmalige Wurf eines fairen Würfels? Definition : X sei eine Zufallsgröße mit Werten in der abzählbaren Menge E. Es sei π(x) = Ws(X = x) für alle x ∈ E. Man ordnet dann X (oder, besser gesagt, der Verteilung von X) die Zahl H(X) = − X π(x) · lg2 π(x) zu, die Entropie von L(X). (Beachte H(X) ≥ 0). Man sagt : Die einmalige Realisierung von X liefert H(X) bits Zufälligkeit. Daß dies eine vernünftige Sprechweise ist, wird sich aus den folgenden Überlegungen ergeben. Man sollte sich vorstellen, daß die Produktion von Zufälligkeit Aufwand erfordert und die Entropie den Aufwand mißt. Beispiel : Die Gleichverteilung auf einer N –punktigen Menge E hat die Entropie lg2 N . Insbesondere liefert der einmalige Wurf eines fairen Würfels lg2 6 bits Zufälligkeit. Wir werden sehen, daß alle anderen Verteilungen auf der N –punktigen Mengen E weniger Entropie haben als lg 2 N . Analytisches Lemma 1 : a) Die Entropie der gemeinsamen Verteilung zweier Zufallsgrößen X, Y höchstens gleich der Summe der Entropien der Marginalverteilungen H(X, Y ) ≤ H(X) + H(Y ) . b) Genau dann, wenn X und Y unabhängig sind, gilt H(X, Y ) = H(X) + H(Y ) . c Prof. Dr. H. Dinges, 18. Dezember 1998 ist 94 Beweis : 1) Seien X und Y unabhängig Ws(X = x, Y = y) = Ws(X = x) · Ws(Y = y) für alle x ∈ E, y ∈ F . Es gilt dann H(X, Y ) = − = − X x,y Ws(X = x, Y = y) · lg 2 Ws(X = x, Y = y) x,y Ws(X = x, Y = y) · lg 2 (X = x) X − X x,y Ws(X = x, Y = y) · lg 2 (Y = y) = H(X) + H(Y ) 2) Sei p(x) = Ws(X = x), q(y) = Ws(Y = y), r(x, y) = Ws(X = x, Y = y). Es gilt dann −H(X, Y ) + H(X) + H(Y ) = X x,y = X r(x, y) lg r(x, y) − r(x, y) lg x,y X x p(x) lg p(x) − r(x, y) . p(x)q(y) X q(y) lg q(y) y Wir zeigen, daß dies stets ≥ 0 ist, und = 0 nur dann, wenn r(x, y) = p(x)q(y) für alle x, y. Wir leiten das aus einer allgemeineren Ungleichung her, aus dem Seien ϕi ≥ 0, Lemma : X ϕi ln ϕi ≥0. ψi P ϕi = 1, ψi ≥ 0, P ψi = 1. Dann gilt (Wenn die Indexmenge I, in welcher i variiert, unendlich ist, dann kann die Summe auch den Wert +∞ annehmen. Die Summe ist auch +∞ zu setzen, wenn es ein i gibt mit ψi = 0, ϕi > 0. Die Summanden mit ϕi = 0 liefern keinen Beitrag.) Beweis : X ϕi ln ln x ≤ x − 1 für alle x > 0 X X ψi ϕi = − ϕi ln ≥− ϕi ψi ϕi c Prof. Dr. H. Dinges, X X ψi −1 ≥− ψi + ϕi = 0 . ϕi 18. Dezember 1998 4.2 95 Analytische Eigenschaften des Entropiefunktionals Anwendungsbeispiel : Sei P eine auf N Punkte konzentrierte Gewichtung. Es gilt dann H(P ) ≤ lg 2 N und H(P ) = lg 2 N genau dann, wenn P die Gleichverteilung ist. Beweis : 0≤ X Sei Q die Gleichverteilung auf die N Punkte. Es gilt p(x) lg2 p(x) = −H(P ) + lg 2 N . 1/N Hinweis : Das Lemma kann man auch leicht mit Hilfe der Jensenschen Unglei” chung“ beweisen, die wir im Exkurs unten behandeln werden. Im kontinuierlichen Fall definiert man die relative Entropie des Wahrscheinlichkeitsmaßes µ bzgl. des Wahrscheinlichkeitsmaßes ν (auf einem beliebigen meßbaren Raum) wie folgt: H(µ; ν) = +∞, falls µ nicht bzgl. ν totalstetig ist, und sonst H(µ; ν) = Z dµ dµ (X) dµ = IE k log dν dν , wobei X nach ν verteilt ist und k(t) = t log t. Es gilt H(µ; ν) ≥ 0 und = 0 nur dann, wenn µ = ν. In unserem ersten Lemma wird die Gewichtung r(x, y) mit der Produktgewichtung p(x) · q(y) verglichen. Analytisches Lemma 2 : Sei X eine Zufallsgröße mit Werten in einer abzählbaren Menge E und ϕ(·) : E → F eine Abbildung. Es gilt dann H(X) = H(ϕ(X)) + X y Ws(ϕ(X) = y) · Hy mit gewissen Zahlen Hy ≥ 0, die man als die Entropien von bedingten Verteilungen deuten kann. Beweis : Wir berechnen im Falle H(X) < ∞ die Differenz H(X) − H(ϕ(X)) . Dazu betrachten wir für jedes y ∈ F mit Ws(ϕ(X) = y) > 0 die Wahrscheinlichkeitsbewertung Py , welche in die Punkte x mit ϕ(x) = y das Gewicht Ws(X = x) setzt. p(x|y) = Ws(ϕ(X) = y) H(Py ) := − X p(x|y) lg 2 p(x|y) für jedes y mit Ws(ϕ(X) = y) > 0 . x c Prof. Dr. H. Dinges, 18. Dezember 1998 96 Es gilt q(y) = Ws(ϕ(X) = y) , X q(y) = p(x) = Ws(X = x) p(x) , p(x) = q(y)p(x|y) falls y = ϕ(x) . {x:ϕ(x)=y} Daher haben wir H(X) − H(ϕ(X)) = − = − = − X p(x) lg 2 p(x) + x X q(y) y X y q(y) " " X q(y) lg 2 q(y) y X x X p(x|y) lg 2 p(x) − lg2 q(y) p(x|y) lg 2 x p(x) q(y) # = X y # q(y) · Hy . Bemerke : Genau dann gilt H(X) = H(ϕ(X)), wenn eine Abbildung ψ : F → E existiert mit ψ(ϕ(X)) = X fast sicher. Analytisches Lemma 3 : Seien P und Q Wahrscheinlichkeitsgewichtungen auf einer abzählbaren Menge E. Es gilt dann für alle α ∈ (0, 1) (1 − α)H(P ) + αH(Q) ≤ H((1 − α)P + α · Q) ≤ (1 − α)H(P ) + αH(Q) + H{1 − α, α} . (Hierbei ist H{1 − α, α} := −(1 − α)lg2 (1 − α) − α · lg2 α die Entropie der auf zwei Punkte konzentrierten Verteilung mit den Gewichten α, 1 − α . ) Die untere Abschätzung für die Entropie der Mischung“ (1 − α)P + αQ ist genau ” dann exakt, wenn P = Q; die obere Abschätzung genau dann, wenn P und Q trägerfremd sind, d.h. wenn für alle x ∈ E p(x) oder q(x) verschwindet. Beweis : 1) Betrachte die konvexe Funktion k(t) = t lg 2 t für t > 0, k(0) = 0. Für jedes x ∈ E gilt k((1 − α)p(x) + αq(x)) ≤ (1 − α)k(p(x)) + αk(q(x)) H((1 − α)P + αQ) = − X x k((1 − α)p(x) + αq(x)) ≥ (1 − α)(− X k(p(x))) + α(− = (1 − α)H(P ) + αH(Q) . c Prof. Dr. H. Dinges, 18. Dezember 1998 X k(q(x)))) 4.2 Analytische Eigenschaften des Entropiefunktionals 97 2) Bei disjunkten P und Q haben wir für alle x (Fälle unterscheiden !) k((1 − α)p(x) + αq(x) = (1 − α)p(x) lg 2 ((1 − α)p(x)) + αq(x) lg 2 (αq(x)) = (1 − α)p(x) lg 2 p(x) + αq(x) lg 2 q(x) + (1 − α)p(x) lg 2 (1 − α) + αq(x) lg 2 α . Summation ergibt die untere Abschätzung. 3) Eine Zufallsgröße Z mit der Verteilung (1 − α)P + αQ kann man gewinnen als das Bild einer {0, 1} × E–wertigen Zufallsgröße Z ∗ , die in zwei Stufen realisiert wird: In der ersten Stufe führt man ein Experiment durch, welche nur zwei mögliche Ausgänge 0 und 1 hat, den einen mit der Wahrscheinlichkeit (1 − α), den anderen mit der Wahrscheinlichkeit α. Im Falle des Ausgangs 0 wird eine Zufallsgröße X mit der Verteilung P realisiert; im Falle des Ausgangs 1 wird eine Zufallsgröße Y mit der Verteilung Q realisiert. X ist mit Wahrscheinlichkeit (1 − α) durchzuführen, Y mit Wahrscheinlichkeit α; der erwartete Aufwand für die Durchführung von Z ∗ ist also H(1 − α, α) + (1 + α)H(P ) + αH(Q) . ϕ(·) projiziere {0, 1} × E auf E . ϕ(Z ∗ ) hat die Verteilung (1 − α)H(P ) + αH(Q). Nach Lemma 2 gilt H(ϕ(Z ∗ )) ≤ H(Z ∗ ) mit Gleichheit im Falle, daß P und Q disjunkt sind. xq .........1 ...... .............. ....... ...... ........ ..... . . . . ....... . . ........ ...... ....... ..... .........................2 . . . . . . . . ........ . ....... ..................... . ....... . . . . . . . . . ........ ........ ............................... . . . . . ....... ........ ...... .............. ... ....... . . . . . . ....... ...... ...........3 .... ... . . . . . . . . . . . . . ........ ....... ..... ........ .. . . . . . . . . . . . . . . . . ............. ... ........ ...... .. . . . . . . . . . . . . . . . . ...... ........ ........ .... . .. . . . . . . . . . . . . . . . . . . ..... ...... 4 ............ .. . ........ .... ........ ........ ............. ........ .... ........ .............. ....... ............. . . ....... ....... ............... ...... .............. . . .... . . . . . . . . . . ........ ....... ....... .... ....... .... ....... .... ..... ........ .............. ........ ... ...... .... .................... ..... 1 ...................... .... ...... ... .......... . . . . . . . . . . . . . .... ........ .. ...... ....... ..... .... ...... ....... ........ . .... ...... ............. ........ ........ .... .................................. ....... 2 ..................... ................. ........ . . . ...... .............. . . . .... . . ............. ............ ...... . . . . . ........ ...... ....... ...... ........ ..... ...... 3 ................... ...... ...... .............. .... 1−α q α Xq xq xq q q q xq x q Y q x q q q x q x4 Wir haben nun die analytischen Eigenschaften des Entropiefunktionals H(·) beisammen, die uns erlauben, die Entropie als Maßzahl für Zufälligkeit zu verstehen. c Prof. Dr. H. Dinges, 18. Dezember 1998 98 4.3 Die Entropie als Maßzahl für Zufälligkeit; Simulation Theorem : (Simulation) Wenn man ein Zufallsexperiment X mit Hilfe von unabhängigen fairen Münzwürfen simulieren will, dann gilt für die zufällige Anzahl N der benötigten Würfe E N ≥ H(X) . Wenn man es schlau anstellt, dann kann man erreichen, daß für die zufällige Anzahl N ∗ der benötigten Würfe gilt E N ∗ ≤ H(X) + 2 . Beispiele : 1) Sei Ws(X = x) = 14 , Ws(X = y) = 21 , Ws(X = z) = 41 . Wir werfen die Münze: wenn das Ergebnis Zahl“ ist, sagen wir, X hätte den Wert y; wenn ” das erste Ergebnis Wappen“ war, werfen wir nochmals und sagen je nach dem ” Ergebnis ob X den Wert x oder z hat. y @ x @ @ @ @ z Die erwartete Anzahl von Würfen ist E N∗ = 1 2 1+ 1 2 H(X) = − 21 lg2 2= 1 2 3 2 −2 1 4 lg2 1 4 2) Wir wollen ein X simulieren mit 1 = Ws(X = x) = Ws(X = y) = Ws(X = z) 3 x H Hy z x @ @ H Hy @ @ @ z @ @ @ @ @ EN ∗ = 2+ 1 · E N∗ 4 8 = 2.666 . . . 3 H(X) = lg2 3 = 1.5850 E N∗ = c Prof. Dr. H. Dinges, 18. Dezember 1998 = 1 2 1 + 21 2 4.3 Die Entropie als Maßzahl für Zufälligkeit; Simulation 99 Der binäre Wurzelbaum hat x–beschriftete Blätter in den Tiefen 2,4,6,. . . . Dem entspricht die Darstellung der Zahl Ws(X = x) = 31 durch den Binärbruch 1 = 0.01010101 . . . 3 Das allgemeine Verfahren : als Binärbrüche p(x) = ∞ X 2−i δi (x) , Wir schreiben die Gewichte p(x) = Ws(X = x) p(y) = i=1 1 = X ∞ X 2−i δi (y) , . . . i=1 p(x) = x ∞ X i=1 2−i X δi (x) . x Wir sehen in der Tiefe i ein mit x beschriftetes Blatt genau dann vor, wenn δi (x) = 1. Dies liefert uns den Simulationsbaum. (vgl. unten das Lemma von Fano–Kraft) B sei die Zufallsgröße mit Werten im Raum der Blätter b unseres binären Wurzelbaums. ϕ(·) ist die Beschriftung, also X = ϕ(B). Es gilt mit der Notation im 2. analytischen Lemma H(B) = H(X) + X x p(x)H(B|x) ≥ H(X) . Wir zeigen H(B|x) ≤ 2 für alle x und gewinnen daraus H(B) ≤ H(X) + 2 . Lemma : Es gelte qi+1 ≤ 21 qi , i = 1, 2, . . . für die Gewichte q1 , q 2 , . . . ≥ 0 mit Es gilt dann H(Q) ≤ 2. Beweis : X qi = 1 . Sei H ∗ = sup{H(Q) : Q erfüllt die Bedingungen } Es gilt H ∗ ≥ 2, wie man an der Gewichtung q1∗ = 12 , q2∗ = 41 , q3∗ = 81 , . . . sehen kann − ∞ X i=1 2−i lg2 (2−i ) = X i2−i = 2 , c Prof. Dr. H. Dinges, 18. Dezember 1998 100 denn P nxn−1 = d dx 1 1−x = 1 1−x 2 . Wir bemerken außerdem, daß für jede Gewichtung Q, die den Bedingungen genügt, q1 ≥ 12 gilt. Sei nun Q irgendeine solche Gewichtung. Wir schreiben sie als gewichtetes Mittel zweier disjunkter Gewichtungen (die ε i bezeichnen die δ–Gewichtungen) Q = q1 ε1 + (1 − q1 ) ∞ X i=2 qi εi = q1 ε1 + (1 − q1 )Q1 . 1 − q1 Q1 erfüllt die Bedingungen; jedes Gewicht ist höchstens halb so groß wie das voraufgehende Gewicht. Also H(Q1 ) ≤ H ∗ . Nach dem 3. analytischen Lemma über das Entropiefunktional H(Q) = q1 H(ε1 ) + (1 − q1 )H(Q1 ) − q1 lg2 q1 − (1 − q1 ) lg2 (1 − q1 ) . Jede auf zwei Punkte konzentrierte Verteilung hat Entropie ≤ 1: H({q1 , 1 − q1 }) = −q1 lg2 q1 − (1 − q1 ) lg2 (1 − q1 ) ≤ lg2 2 = 1 . 1 ∗ H +1 . 2 Dies gilt für alle Q, die den Voraussetzungen genügen, also H(Q) ≤ (1 − q1 )H ∗ + 1 ≤ 1 H∗ ≤ H∗ + 1 , 2 Beispiel : H∗ ≤ 2 . q.e.d. Simulieren wir X mit Ws(X = x) = 1 − 2 −n , Ws(X = y) = 2−n . Für großes n ist die erwartete Anzahl der x x @ @ x @ x @ @ @ y Münzwürfe bis zum Ende in einem Blatt ≈ P i=1 2−i i = 2 Die Entropie H(X) dagegen ist sehr klein H(x) = −(1 − 2−n ) lg2 (1 − 2−n ) − 2−n lg2 2−n ≈ 0 . Simulation einer langen Folge unabh ängiger Experimente Wir wiederholen die Realisierung von X unabhängig n–mal. Es seien X1 , X2 , . . . , Xn unabhängig identisch verteilt mit Ws(X = x) = p(x) , H(X) = h . Wie wir gesehen haben, kann man Münzwürfe simulieren, wobei (X1 , X2 , . . . , Xn ) durch nh ≤ E Nn ≤ nh + 2 c Prof. Dr. H. Dinges, 18. Dezember 1998 Nn unabhängige 4.3 101 Die Entropie als Maßzahl für Zufälligkeit; Simulation Satz : Zu jedem ε > 0 gibt es eine Simulationsmethode so, daß lim n1 Nn = e h≤h+ε . n→∞ Beweis : Man breche X1 , X2 , . . . in Blöcke der Länge k (X1 , . . . , Xk ), (Xk+1 , . . . , X2k ), (X2k+1 , . . . , X3k ), . . . Wähle k ≥ 1ε · 2 und wende die oben beschriebene Methode auf jeden Block an. Für den i–ten Block braucht man N (i) Münzwürfe. Die N (i) sind unabhängig identisch verteilt. Etwas philosophisch angehaucht und außerhalb des mathematischen Pragmatismus angesiedelt ist die folgende Interpretation von H(X) als erwarteter Information Bevor eine Zufallsgröße X realisiert wird, beschreibt die Verteilung L(X) (d.h. die Gewichtung p(·) = Ws(X = ·) ) die Möglichkeiten. Wenn nun das Faktum, daß X den Wert x angenommen hat, registriert worden ist, haben wir Information gewonnen. Die Zahl − lg 2 p(x) könnte man nun als die Größe dieses Informationsgewinns ansehen. Diese ist (zufälligerweise) recht groß, wenn p(x) klein ist, d.h. wenn ein recht unwahrscheinliches Ereignis {X = x 0 } registriert worden ist; sie ist (zufälligerweise) recht klein, wenn ein ohnehin mit großer Wahrscheinlichkeit zu erwartendes Ereignis {X = x00 } registriert worden ist. Die erwartete Größe der Information ist X p(x) (− lg 2 p(x)) = H(X) . x Die drei analytischen Lemmata über das Funktional H(·) kann man nun folgendermaßen interpretieren: 1) Wenn ein Paar (X, Y ) beobachtet werden soll, dann ist die erwartete Information gleich H(X, Y ). Diese ist gleich H(X) + H(Y ), wenn X und Y unabhängig sind. Im allgemeinen Fall haben wir H(X, Y ) = H(X) + H(Y kX) = H(X) + X x,y = H(X) + X x,y = H(X) + X x mit q(y|x) = r(x,y) p(x) −r(x, y) lg 2 r(x, y) + −r(x, y) lg " p(x) − X r(x, y) p(x) X p(x) lg 2 (p(x) x q(y) lg2 q(y|x) y # = Ws(Y = y|X = x) falls Ws(X = x) > 0. H(Y kX) kann also als die mittlere erwartete bedingte Information interpretiert werden. Wir haben bewiesen H(Y kX) ≤ H(Y ) . c Prof. Dr. H. Dinges, 18. Dezember 1998 102 2) Wenn wir nicht X sondern nur ϕ(X) beobachten wollen, dann ist die erwartete Information gleich H(ϕ(X)); sie ist kleiner als die erwartete Information H(X). Es gilt H(X) − H(ϕ(X)) = H(Xkϕ(X)) = X y Ws(ϕ(X) = y) · H(Py ) . Dadurch, daß wir nur ϕ(X) beobachten, verschenken wir (mit der Wahrscheinlichkeit Ws(ϕ(X) = y)) die bei genauerem Hinsehen (auf X statt auf ϕ(X)) zur Verfügung stehende erwartete bedingte Information. 3) Seien P und Q Wahrscheinlichkeitsgewichtungen und R = (1 − α)P + αQ. Nehmen wir den Fall, wo P und Q trägerfremd sind. Wenn eine nach R verteilte Zufallsgröße Z realisiert wird, dann entscheidet Z zunächst einmal, ob wir in dem Träger von P oder in den von Q gelangen; diese Information hat die Größe H({1 − α, α}) = −(1 − α) lg 2 (1 − α) − α lg 2 α . Darüber hinaus wird entweder (mit Wahrscheinlichkeit = (1 − α)) ein Punkt im Träger von P spezifiziert, was die zusätzliche erwartete Information H(P ) gibt, oder es wird (mit Wahrscheinlichkeit = α) ein Punkt im Träger von Q spezifiziert, was die zusätzliche erwartete Information H(Q) gibt. Die gesamte bei der Realisierung von Z erwartete Information ist also H(R) = H({1 − α, α}) + (1 − α)H(P ) + αH(Q) . H(P ) X HX X H H p(x) X HX X H H 1−α H(R) q(y) @ α@ @ H H H @ @ @ H H H H(Q) Der Aufwand, um in ein Blatt des Wurzelbaums zu gelangen, setzt sich zusammen aus dem Aufwand, von der Wurzel wegzukommen, und dem Aufwand, im Teilbaum in ein Blatt zu gelangen. Wir kommen darauf zurück, wenn wir die Poisson–Gleichung diskutieren. c Prof. Dr. H. Dinges, 18. Dezember 1998 4.4 Exkurs : Konvexe Funktionen, die Jensensche Ungleichung 4.4 103 Exkurs : Konvexe Funktionen, die Jensensche Ungleichung Definition : Eine reellwertige Funktion k(·) auf dem IR n heißt konvex, wenn für alle x, y und λ ∈ (0, 1) gilt k((1 − λ)x + λy) ≤ (1 − λ)k(x) + λk(y) y x z z = (1 − λ)x + λy k(z) ≤ (1 − λ)k(x) + λk(y) Man betrachtet auch Funktionen mit Werten in (−∞, +∞]. Die Definition der Konvexität bleibt dieselbe. Bemerke : Menge. Der Endlichkeitsbereich einer konvexen Funktion ist eine konvexe Eine Teilmenge U eines linearen Raums wird bekanntlich genau dann eine konvexe Menge genannt, wenn x, y ∈ U, λ ∈ [0, 1] =⇒ (1 − λ)x + λy ∈ U . Der Beweis der Aussage ist trivial. Beispiele für konvexe Funktionen: 1) Jede affine Funktion ist konvex. 2) Wenn h und k konvexe Funktionen sind, dann ist auch das punktweise Maximum m := h ∨ k eine konvexe Funktion; denn für beliebige x, y und λ ∈ [0, 1] gilt h((1 − λ)x + λy) ≤ (1 − λ)h(x) + λh(y) ≤ (1 − λ)m(x) + λm(y) k((1 − λ)x + λy) ≤ (1 − λ)m(x) + λm(y) . Also m((1 − λ)x + λy) ≤ (1 − λ)m(x) + λm(y) . Satz : k(·) sei konvex auf U . Sei πi ≥ 0, Indexmenge ist. Für beliebige xi ∈ U gilt dann k X πi xi ≤ X P i∈I πi = 1, wo I eine endliche πi k(xi ) . Beweis durch vollständige Induktion nach n = |I|. c Prof. Dr. H. Dinges, 18. Dezember 1998 104 Der Satz gilt auch für unendliches I. Der Beweis ist in diesem Falle etwas schwieriger. Als Stochastiker bemerken wir, daß tors X ist. EX = Ws(X = x) = πi Andererseits gilt E k(X) = P X P πi xi der Erwartungswert eines Zufallsvek- πi xi . πi k(xi ). Wir haben also k(E X) ≤ E k(X). In der vollen Allgemeinheit heißt diese Ungleichung Jensens Ungleichung. Satz (Jensens Ungleichung) : Funktion k(·) gilt Für jeden Zufallsvektor X und jede konvexe k(E X) ≤ E (k(X)) . Es gibt im wesentlichen zwei Beweise dieser höchst nützlichen Ungleichung. Der erste hält k(·) fest und schreitet von einfachen Verteilungen L(X) zu komplizierteren fort, wie wir das oben angedeutet haben. Der zweite hält L(X) fest und schreitet von einfachen k(·) zu komplizierteren fort. Für affine `(·) haben wir `(E X) = E `(X). Für das punktweise Supremum von affinen Funktionen haben wir die Ungleichung. `( E X) ≤ E (k(X)) für alle ` ≤ k . Nach dem Satz von Hahn–Banach, den wir anschließend behandeln, gilt Jensens Ungleichung also für alle unterhalbstetigen konvexen Funktionen. Der allgemeine Fall folgt dann sofort. Sprechweise : Eine konvexe Funktion k, die sich als das punktweise Maximum von endlich vielen affinen Funktionen darstellen läßt, heißt eine stückweise affine konvexe Funktion. Eine konvexe Funktion, die sich als das punktweise Supremum einer Familie affiner Funktionen darstellen läßt, heißt eine unterhalbstetige konvexe Funktion. Für denjenigen, der den Begriff der Unterhalbstetigkeit kennt, gibt es hier etwas zu beweisen, nämlich den Satz : Jede unterhalbstetige konvexe Funktion ist das punktweise Supremum der Familie aller ihrer affinen Minoranten k(x) = sup `(x) `∈M wobei M = {` : ` affin und `(·) ≤ k(·)} . c Prof. Dr. H. Dinges, 18. Dezember 1998 4.4 105 Exkurs : Konvexe Funktionen, die Jensensche Ungleichung Es handelt sich um eine Version des für die gesamte Funktionalanalysis höchst wichtigen Satzes von Hahn–Banach. Wir beweisen den Satz nicht; wir machen uns nur durch das folgende Bild anschaulich klar, was er bedeutet. k ``` `1 ``` ````` ``` `` ` `2 Satz : Eine zweimal differenzierbare Funktion f (·) auf einem Intervall ist genau dann kovex, wenn f 00 (x) ≥ 0 für alle x. Der Beweis ergibt sich leicht aus dem Mittelwertsatz der Differentialrechnung. Beispiel : Sei k(t) = t ln t für t ≥ 0, k(t) = +∞ für t < 0. k(·) ist konvex. k 0 (t) = ln t + t · Beweis : Bemerke : 1 t , k 00 (t) = 1 t > 0 für alle t > 0 . Wenn s 6= t und λ ∈ (0, 1) , dann gilt k((1 − λ)s + λt) < (1 − λ)k(s) + λk(t) . Als Anwendung erhalten wir den in 4.2 benötigten Seien ϕi ≥ 0 , Satz : X ϕi ln Beweis : X ϕi ln ϕi ≥0. ψi Setze ti = ϕi ψi P ϕi = 1 ; ψi ≥ 0 , P ψi = 1. Es gilt dann und k(ti ) = ti ln ti . Es gilt dann X X ϕi X = ψi k(ti ) ≥ k( ψi ti ) = k( ϕi ) = 0 . ψi Genau dann gilt P ϕi ln ϕi ψi = 0, wenn ϕi = ψi für alle i. c Prof. Dr. H. Dinges, 18. Dezember 1998 106 4.5 Huffman–Codes Wir wollen Wörter über dem Quellenalphabet E = {x, y, . . .} in 0–1–Folgen umcodieren, so daß die Codewörter von links her eindeutig entzifferbar sind ( Präfix– ” Eigenschaft“). Codierungen dieser Art sind als günstig anzusehen, wenn die erwartete Länge des eincodierten Textes möglichst kurz ist. Man wird die Quellenwörter x1 , x2 , . . . im allg. nicht buchstabenweise eincodieren, sondern lieber zuerst in Blöcke zerlegen, etwa in Blöcke gleicher Länge k (x1 , . . . , xk ), (xk+1 , . . . , x2k ), (x2k+1 , . . . , x3k ), . . . Es sind nun die Blöcke, die durch 0–1–Folgen variabler Länge von links her eindeutig entzifferbar dargestellt werden sollen. Aus mathematischer Sicht ist das aber nichts Neues; denn es gilt jetzt einfach Wörter über dem Quellenalphabet E k umzucodieren. Der einfachste Fall ist der, wo die Quellenwörter die Realisierungen von unabhängigen identisch verteilten E–wertigen Zufallsgrößen X1 , X2 , . . . sind. Dies ist eine Idealisierung; reale Quellen liefern die Buchstaben nicht unabhängig; sehr oft kann man aber davon ausgehen, daß die Xi einen solchen stationären Prozeß bilden, in welchem lange Blöcke nahezu“ unabhängig sind. Eine Codierung, die für un” abhängige Blöcke mit den gegebenen Wahrscheinlichkeiten günstig ist, wird auch für die tatsächliche Quelle günstig sein. Man braucht sich daher nur um die Wahrscheinlichkeitsverteilung auf der Menge der Buchstaben (bzw. der Blöcke) zu kümmern. Beispiel : Eine Quelle liefert Wörter a a a a b a b b a a a b . . . mit unabhängigen Buchstaben, wobei a die Wahrscheinlichkeit 0.9 und b die Wahrscheinlichkeit 0.1 hat. Wir zerhacken das Quellenwort in Blöcke der Länge 3 und haben also unabhängige X1 , X2 , . . . mit Ws(X = (a, a, a)) = (0.9)3 = 0.729 Ws(X = (b, a, a)) = (0.1) · (0.9)2 = 0.081 etc. Für diese Quelle mit einem achtbuchstabigen Alphabet werden wir unten einen ziemlich günstigen binären Code konkret angeben. Eine binären Präfixcode stellen wir ganz allgemein durch einen binären Wurzelbaum dar. Wie man vom Codebuch zum Codebaum gelangt zeigt das Beispiel : Sei E = {x, y, z, u, v}. Die Codewörter seien C(x) = 101, C(y) = 011, C(z) = 010, C(u) = 111, C(v) = 110 . c Prof. Dr. H. Dinges, 18. Dezember 1998 4.5 107 Huffman–Codes Keines der Codewörter ist das Anfangsstück irgendeines anderen Codeworts ( Präfix–Eigenschaft“). Der zugehörige Codebaum ist ” r A r u rP P Pr v r r H r x H H AAr r y rP P Pr Die Blätter sind mit den Buchstaben x, y, z, u, v beschriftet. z Der vorgeschlagene Code ist sicherlich nicht günstig; man kann ihn sofort durch eine besseren ersetzen, z.B. r u rP P Pr v r r H Hr x H r A r y AA r HH Hr z r A oder r u rP P Pr v r H Hr x H r y AAr HH Hr z In einem günstigen Code gibt es für alle Knoten, die nicht Blatt sind, genau zwei ausgehende Kanten. Wie erkennt man, ob ein Codebaum günstig ist? Bei einem günstigen Code haben, intuitiv gesprochen, die Blätter b in großer Tiefe |b| kleine Wahrscheinlichkeit π(b). Die Buchstaben mit großer Wahrscheinlichkeit gehören zu Blättern in geringer Tiefe. Entscheidend ist die mittlere Tiefe M (C) := X b |b| · π(b) = X x |C(x)| · π(x) wobei über die Menge der Blätter summiert wird. Satz : b bzw. über die Menge der Buchstaben x Sei π(·) eine Wahrscheinlichkeitsgewichtung auf dem Quellenalphabet E. a) Für jeden binären Präfixcode C(·) gilt M (C) ≥ H(π) = − X b π(b) · lg2 π(b) . b) Es existiert ein binärer Präfixcode C ∗ (·) mit M (C ∗ ) ≤ H(π) + 1 . Wir werden günstige Codes C ∗ konkret konstruieren, die sog. Huffman–Codes. Zuerst beweisen wir aber a). Ein elementares aber wichtiges Hilfsmittel ist der c Prof. Dr. H. Dinges, 18. Dezember 1998 108 Satz : (Ungleichung von Fano–Kraft) Genau dann gibt es einen binären Wurzelbaum mit Blättern in den Tiefen a1 , a2 , . . . , am , wenn X 1 ai 2 ≤1. Beweis : 1) Gegeben sei ein binärer Wurzelbaum mit Blättern in den Tiefen a1 , . . . , am . Lassen wir uns durch faire Münzwürfe durch den Baum führen. Wir gelangen ai 1 in ein vorgegebenes Blatt der Tiefe a i . Die mit der Wahrscheinlichkeit 2 Wahrscheinlichkeit, daß wir überhaupt in einem der ausgezeichneten Blätter landen, ist X 1 ai ≤1. 2 2) Seien a 1 , . . . , am P 1 ai gegeben mit ≤ 1. Die Existenz wird durch 2 a1 a2 vollständige Induktion nach m bewiesen. m = 2 ist trivial 21 + 12 ≤ 1. o.B.d.A. können wir annehmen a1 ≥ a2 ≥ . . . ≥ am−1 = am . Nehmen wir an, wir hätten bereits einen binären Wurzelbaum mit Blättern in den Tiefen a1 , a2 , . . . , am−2 , am−1 − 1 m ai X 1 ≤ 1 =⇒ 2 1 m−2 X 1 1 2 ai am−1 −1 1 2 + ≤1 An das Blatt in der Tiefe am−1 − 1 heften wir zwei Kanten und erhalten den gewünschten Wurzelbaum mit Blättern in den Tiefen a1 , . . . , am−2 , am−1 , am−1 . Wir führen den Schluß von m − 1 auf m. Beweis der Aussage a) des Satzes : Wir haben einen binären Wurzelbaum mit Blättern in den Tiefen a1 , a2 , . . . , am . Wir belegen die Blätter mit Zahlen q(bi ), so daß q(bi ) ≥ ai 1 2 P ai , X q(bi ) = 1 . 1 Wegen ≤ 1 ist das möglich. ai ≥ − lg2 q(bi ). Betrachten wir andererseits 2 die vorgegebene Gewichtung π(bi ). Es gilt nach Jensens Ungleichung M (C) = X = − π(bi ) · |C(bi )| ≥ − X π(bi ) lg2 π(bi ) + X X π(bi ) lg 2 q(bi ) π(bi ) lg2 c Prof. Dr. H. Dinges, π(bi ) q(bi ) ≥ H(X) . 18. Dezember 1998 4.5 109 Huffman–Codes Beweis von b) (Konstruktion eines Huffman–Codes) : P Gegeben sind Zahlen π(x) ≥ 0, π(x) = 1. Bestimme k(x), so daß 2−k(x) ≤ π(x) < 2−k(x)+1 . P k(x) P 1 Es gilt ≤ π(x) = 1. Also gibt es einen binären Wurzelbaum mit 2 Blättern in den Tiefen k(x). k(x) ≥ − lg 2 π(x) ≥ k(x) − 1 . Für seine (bzgl. π(·) ) mittlere Tiefe gilt M ∗ := Beispiel : keiten X π(x) · k(x) ≤ X π(x)[1 − lg 2 π(x)] = H(X) + 1 . Wir haben 8 Buchstaben im Quellenalphabet mit den Wahrscheinlich0.729 0.081 0.081 0.081 0.009 0.009 0.009 0.001 hhh hhhh HH 5H 0.162 h h hhhh hhhh hhh hh 7 hhh 0.271 6 hhh hhhh hhhh 0.109 4 HH 0.018 2H H HH 0.028 H 3H HH H 1 0.01 Die beiden kleinsten Wahrscheinlichkeiten werden jeweils zusammengefaßt in einem Knoten, an den die Summe der Wahrscheinlichkeiten geschrieben wird. Man kann (z.B. durch vollständige Induktion) tatsächlich zeigen, daß der Huffman– Code in der Tat optimal ist, d.h. minimale mittlere Länge hat. Die Konstruktion eines binären Quellencodes kann auch als die Konstruktion eines binären Fragebaums interpretiert werden. Ein Zufallsmechanismus wählt mit der Wahrscheinlichkeit π(x) den Buchstaben x. Mit im Mittel möglichst wenigen Ja– Nein–Fragen ist x zu erfragen. Im Beispiel müssen wir erfragen, welches a–b–Tripel gewählt wurde. Die erste Frage wird sein: Ist es (a, a, a)? Wenn die Antwort Nein ist, müssen wir weiterfragen. c Prof. Dr. H. Dinges, 18. Dezember 1998 110 Ja Nein {(a, a, a)} ? (a, a, a) (a, a, b) PP P {(a, a, b), (a, b, a)} ? {(a, a, b)} ? PP P (a, b, a) PP P {(b, a, a)} ? (b, a, a) (a, b, b) PP P {(a, b, b), (b, a, b)} ? {(a, b, b)} ? PP P (b, a, b) PP P {(b, b, a)} ? (b, b, a) PP P (b, b, b) Merke : Die Anzahl der Ja–Nein–Fragen, die ein geschickter Frager im Mittel braucht, um den Ausgang eines Zufallsexperiments mit der Gewichtung π(·) zu erfragen, ist ungefähr gleich der Entropie von π(·). Der Unterschied ist durch Run” dungsfehler“ zu erklären; er ist nicht größer als 1. Was kommt nun heraus, wenn man einen langen Text mit Hilfe eines Huffman– Codes in eine Null–Eins–Folge umcodiert? Wir erhalten eine von links her eindeutig entschlüsselbare 0–1–Folge, die andererseits vom stochastischen Standpunkt nahezu wie eine Münzwurffolge aussieht; d.h. die Nullen und Einsen sind nahezu“ un” abhängig mit Wahrscheinlichkeit = 12 . Das nahezu“ wollen wir hier nicht weiter ” analysieren. Heuristische Betrachtungen (über den Informationsgehalt einer Quelle) 1) Wenn man einen langen Text in einer Zeitung liest, n Buchstaben über dem endlichen Alphabet E, etwa caabbda . . . addbcc , dann kann man zunächst noch nicht fragen, wieviel Information dieser Text liefert. Denn Information bezieht sich immer auf eine der Betrachtung (einigermaßen willkürlich) zugrundegelegte Folge von Wahrscheinlichkeitsverteilungen ν (1) , ν (2) , ν (3) , wobei für jedes n ν (n) die von ν (n+1) auf E n induzierte Gewichtung ist. Man wird die Folge der ν (n) nicht ganz willkürlich festlegen, sondern aus c Prof. Dr. H. Dinges, 18. Dezember 1998 4.5 111 Huffman–Codes vergleichbaren Texten schätzen“. Dem tatsächlich beobachteten Text x(n) ” kann man dann die Information“ ” − lg2 ν (n) (x(n) ) zuordnen. In vielen interessanten Fällen wird bei vernünftiger Wahl von ν (1) , ν (2) , . . . diese Information“ des tatsächlich beobachteten Textes x(n) ” ungefähr linear ansteigen. Um das genauer zu sagen, nehmen wir an, daß der beobachtete Text aus einem Zufallsgeschehen entstammt, dessen Verteilung µ(1) , µ(2) , µ(3) , . . . allerdings nicht bekannt ist. In den interessanten Fällen gilt mit großer Wahrscheinlichkeit I (n) := − lg2 ν (n) {X (n) } ≈ nh∗ mit großer Wahrscheinlichkeit. Die Zahl h ∗ ergibt sich durch Berechnung des Erwartungswerts E − lg2 ν (n) {X (n) } = − X x(n) µ(n) {x(n) } lg2 ν (n) {x(n) } = H µ(n) + X µ(n) {x(n) } lg2 µ(n) ({x(n) }) ν (n) ({x(n) }) Wenn wir µ(1) , µ(2) , . . . kennen und ν (n) = µ(n) gewählt haben, dann bedeutet das oben Gesagte, daß für große n I (n) ≈ H µ(n) ≈ nh∗ mit großer Wahrscheinlichkeit. Wären in unserer Quelle Blöcke der Länge m e(2m) = µ e(m) ⊗ µ e(m) und allgemeiner unabhängig, dann hätten wir µ e(km) = µ e(m) ⊗ µ e(m) ⊗ . . . ⊗ µ e(m) µ e(km) H µ e(m) = kH µ für k = 2, 3, . . . . Im allgemeinen stationären Fall haben wir H µ(km) ≤ kH µ(m) h∗ = 1 H µ(m) . n→∞ n lim Das alles ist oberflächliche Heuristik. Es ist eine Herausforderung an die Mathematiker, für interessante stationäre Prozesse X1 , X 2 , X 3 , . . . , µ(n) = L(X1 , . . . , Xn ) c Prof. Dr. H. Dinges, 18. Dezember 1998 112 zu beweisen, daß 1 1 H µ(m) = H (L(X1 , . . . , Xm )) m m konvergiert. Der Grenzwert verdient dann den Namen Information pro Zei” chen“. Dies ist der Themenkreis des berühmten Satzes von Shannon und Mc Millan. 2) Ein lehrreiches Experiment mit Schülern ist das folgende: Der Lehrer bittet einen Schüler, eine möglichst willkürliche Null–Eins–Folge der Länge 100 zu Papier zu bringen und andererseits 100 Münzwürfe zu registrieren. Der Lehrer bietet an, zu erraten, welche der Folgen die ehrliche Zufallsfolge und welche die Pseudo–Zufallsfolge ist. Der Lehrer könnte seine Entscheidung z.B. auf einen Test basieren, ob die Runs“ von Nullen und Einsen in der vorgelegten Folge ” geometrisch verteilt sind. Bei einer echten Zufallsfolge bilden nämlich die Runs eine Folge unabhängiger Zufallsgrößen N1 , N 2 , . . . mit Ws(N = 1) = 1 , 2 Ws(N = 2) = 1 , 4 Ws(N = 3) = 1 , 8 ... Die Erfahrung zeigt, daß die von den Schülern produzierten Pseudo– Zufallsfolgen zwar (annähernd) unabhängige Runs besitzen, daß diese aber nicht geometrisch verteilt sind; die Runverteilung ist in der Regel kürzerschwänzig. Das hat zur Folge, daß die Pseudo–Zufallsfolgen, die von den Schülern produziert werden, in der Regel weniger als ein bit Information pro Zeichen enthalten. 4.6 Gestörte Kanäle Das Nachfolgende gibt einen ersten Eindruck von Shannon’s Informationstheorie. Die bahnbrechende Arbeit von Claude E. Shannon aus dem Jahre 1948 trägt den Titel A mathematical theory of communication“. Nachdem heute die Wörter In” ” formation“ und Kommunikation“ Assoziationen hervorrufen, die weit über das von ” Shannon Intendierte hinausgehen, wäre es vielleicht besser, von Shannons Theorie der Redundanz zu sprechen. Quelle −→ gestörter Kanal c Prof. Dr. H. Dinges, −→ Empfänger 18. Dezember 1998 4.6 113 Gestörte Kanäle In der Quelle fällt im Laufe der Zeit viel Information an, die über den gestörten Kanal dem Empfänger übermittel werden soll, und zwar mit sehr großer Wahrscheinlichkeit korrekt. Wegen der zufälligen Störungen im Kanal empfiehlt es sich nicht, dem Kanal allzu konzentrierte Information anzuvertrauen. Der eincodierte Text muß so redundant sein, daß der Empfänger, der den übertragenden Text decodiert, mit sehr kleiner Wahrscheinlichkeit falsch informiert wird. Wieviel Redundanz ist nötig; welche Übertragungsgeschwindigkeit kann man bei geschickter Codierung der Information erreichen? In den Fällen, die wir hier betrachten werden, stellt die Decodierung (d.h. der zweite Pfeil im Diagramm) kein interessantes Problem dar. Es ist die Kanalcodierung (d.h. der erste Pfeil), die uns beschäftigen wird. Wir betrachten den Fall, wo bei der Quelle große Mengen unabhängiger Binärzeichen anfallen. Eine Situation dieser Art liegt z.B. (näherungsweise) vor, wenn man irgendeinen Urtext mit Hilfe des Huffman–Codes in die Quelle einspeist. In diesem Sinne verdient der Gegenstand des vorigen Abschnitts den Namen Quellencodierung. Nehmen wir an: Unser gestörter Kanal macht aus einer 0–1–Folge y der Länge n eine zufällige 0–1–Folge X. Die Verteilung bezeichnen wir mit Ly (X). Wir stellen uns vor, daß X mit großer Wahrscheinlichkeit nicht sehr verschieden von y ist, wenn y eingegeben wird. Dabei messen wir den Abstand mit der Hamming–Metrik“ ” dist(y, x) := n X |xi − yi | = Anzahl der Plätze, in welchen . x und y verschieden sind i=1 Die Idee der Kanalcodierung ist die, daß man dem Kanal nur n–tupel aus einem kleinen Repertoire eingibt; in den Kanal werden nur spezielle Codewörter y = γ(z) eingespeist. Wenn die γ(z) hinreichend verschieden sind, dann kann der decodierende Empfänger mit großer Wahrscheinlichkeit korrekt entscheiden, welches Codewort eingegeben wurde. Er schließt mit (großer Wahrscheinlichkeit korrekt), welches z aus der Quelle kam. Definition : Bk bezeichne die Menge aller 0–1–Folgen der Länge k. a) eine injektive Abbildung γ : B k → Bn heißt ein (n, k)–Code. γ(z) heißt das Codewort zu z. b) Eine surjektive Abbildung δ : B n → Bk mit δ(γ(z)) = z für alle z ∈ Bk heißt eine Decodierung zum (n, k)–Code γ(·) . c) Der Quotient k n heißt die Übertragungsrate. c Prof. Dr. H. Dinges, 18. Dezember 1998 114 1. Beispiel : (Repetitions–Code mit Übertragungsrate 1/3) Quelle mit Zeichen 0 1 Codierung −→ −→ 000 111 mögliche Ausgänge −→ −→ .. . .. . .. . .. . decodierte Zeichen −→ 000 001 010 100 110 101 011 111 −→ 0 −→ 1 2. Beispiel : (Ein (4,2)–Code) Die Blöcke der Länge k = 2 werden in Blöcke der Länge n = 4 codiert, wie folgt 0 0 −→ 0000 0 1 −→ 0111 1 0 −→ 1001 1 1 −→ 1 1 1 0 . Die Decodierung beschreiben wir verbal. Das Decodierungsverfahren hat jedem der 24 = 16 Quadrupel ein Paar zuzuordnen. Wir wollen das (reichlich willkürlich) so machen: Das vierte Zeichen nehmen wir ernst, während wir unter den ersten drei Zeichen höchstens einen Fehler in Betracht ziehen. Dies ergibt in der Tat ein wohlbestimmtes Decodierungsverfahren. Mit welcher Wahrscheinlichkeit ein gesendetes k–Tupel richtig decodiert wird, hängt natürlich vom Wahrscheinlichkeitsgesetz ab, nach welchem der Kanal arbeitet. Wir werden den unten definierten speziellen Kanal BSC(p) genauer untersuchen. Die stochastische Modellierung realer Übertragungskanäle ist eine schwierige Aufgabe, die wir hier nicht angehen können. Man mag an Funkübertragung durch einen (elektrisch unruhigen) Raum denken. Die Mariner–Mars–Sonden der NASA haben bis 1977 einen (32,6)–Code verwendet. (Nach 1977 hat man auf ein System umgestellt, welches nicht in unser Schema paßt.) Man mag auch an Speicherchips denken; der Zustand jedes Speicherplatzes (1 oder 0) ist durch unkontrollierbare Entladungen (hervorgerufen durch thermische Bewegung, radioaktiven Zerfall u.dgl.) ständig gefährdet. Derjenige, der den Zustand abruft, c Prof. Dr. H. Dinges, 18. Dezember 1998 4.6 115 Gestörte Kanäle findet nicht mit Sicherheit das Eingegebene vor. Der Cray–Rechner verwendet einen (64,57)–Code. Um die (als ausreichend angesehene) Sicherung der Information zu garantieren, werden also 64 57 ·N Speicherplätze gebraucht, wenn N bits Information aufzunehmen sind. Die Entwerfer des Cray–Rechners halten also 10% Redundanz f ür angemessen. Wir betrachten den einfachsten Kanal, den man sich denken kann, den binären sym” metrischen Kanal mit Fehlerwahrscheinlichkeit p “ (Kürzel: BSC (p)). Er überträgt alle eingegebenen Zeichen unabhängig voneinander richtig mit Wahrscheinlichkeit 1 − p und falsch mit Wahrscheinlichkeit p. Fehlerwahrscheinlichkeiten in Beispielen : a) Übertragen wir ohne alle Quellencodierung einfach Zeichen für Zeichen, und decodieren wir auch in trivialer Weise! Die Wahrscheinlichkeit, daß das Quellenwort z der Länge k falsch decodiert wird, ist für jedes z ! k 2 1 − (1 − p) = kp − p + . . . (≈ kp für kleine p) . 2 k b) Benützen wir unseren Repetitionscode mit der Übertragungsrate 13 . Die Wahrscheinlichkeit, daß das Quellenwort z der Länge 1 falsch decodiert wird, ist für alle z (z ∈ {0, 1}) Wsγ(z) (δ(X) 6= z) = 3p2 (1 − p) + p3 (≈ 3p2 für kleine p) . Die Wahrscheinlichkeit, daß ein Quellenwort k der Länge z falsch decodiert wird, ist für kleine p ≈ 1 − (1 − 3p2 )k ≈ 3kp2 . c) Bei dem oben beschriebenen (2,4)–Code ist die Wahrscheinlichkeit, daß ein z der Länge 2 falsch übertragen wird h i Wsγ(z) (δ(X) 6= z) = 1 − (1 − p) (1 − p)3 + 3p(1 − p)2 ≈ p für kleine p) . Die Wahrscheinlichkeit, daß ein Quellenwort der Länge k (k gerade) falsch decodiert wird, ist also etwa halb so groß wie die beim trivialen Code. Ist diese Reduktion der Fehlerwahrscheinlichkeit nicht durch die auf 12 reduzierte Übertragungsrate etwas hoch bezahlt? Wirklich überzeugende Codes kann man nur mit einigem Aufwand konstruieren. Zunächst einmal muß man den Text, der aus der Quelle kommt, in lange Blöcke zerteilen (großes k). Wie lang dann die Codewörter zu sein haben, welche Übertragungsgeschwindigkeit nk der Kanal also bewältigen kann, das hängt vom Kanal ab. c Prof. Dr. H. Dinges, 18. Dezember 1998 116 Lassen wir beliebig große k zu: Die maximal erreichbare Übertragungsgeschwindigkeit (bei beliebig klein vorgebbarer Fehlerrate) heißt die Kapazität des Kanals. Diese Kapazität auszurechnen und eine passende Quellencodierung zu finden, ist eine Herausforderung an den Mathematiker. Bemerkung : Ein sehr allgemeines Decodierungsprinzip (für jede Art von gestörten Kanälen) ist die Maximum–Likelihood–Decodierung. Man sucht zu dem empfangenen Wort x dasjenige Codewort y = γ(z) für welches Wsγ(z) (X = x) = max . Wenn es mehrere Lösungen z 0 dieses Maximierungsproblems gibt, muß man irgendeine Festlegung treffen. Jedes δ(·) dieser Art heißt eine mit dem ML–Prinzip verträgliche Decodierung. Das oben angegebene Decodierungsverfahren für unseren (4,2)–Code ist mit dem ML–Prinzip verträglich (für jeden Kanal BSC (p)). Es hat auch die Symmetrieeigenschaft, daß die Fehlerwahrscheinlichkeit für jedes aus der Quelle kommende Paar dieselbe ist. Der Satz von Shannon besagt, grob gesagt: Wenn man bei der Information pro Zeiteinheit, die man dem Kanal zumutet, unterhalb einer kritischen Übertragungsgeschwindigkeit ( Kapazität“ des Kanals) bleibt, dann kann man mit Hilfe eines pas” senden Codierungsverfahrens (und der ML–Decodierung) erreichen, daß das Übertragungssystem beliebig sicher ist. Hohe Sicherheit (bei nahezu optimaler Übertragungsgeschwindigkeit) hat allerdings ihren Preis. Zunächst einmal müssen die Mathematiker sich die Mühe machen, allen Blöcken der Länge k mit Geschick Code–Wörter der Länge n zuzuordnen. Diese Mühe ist nur einmal zu leisten. Der Rechenaufwand dagegen, um zu den empfangenen n–Blöcken nach der ML–Methode die Code–Wörter zu suchen, stellt eine ständige Belastung des Betreibers dar. 4.7 Beweis eines Satzes von Shannon Satz : (Shannon 1948) Für den binären symmetrischen Kanal mit der Fehlerwahrscheinlichkeit p (BSC (p)) hat die kritische Übertragungsrate den Wert a∗ = 1 + p lg2 p + (1 − p) lg 2 (1 − p) = 1 − H({p, 1 − p}) . Genauer gesagt: Seien a < a∗ und ε > 0 vorgegeben. Für alle genügend großen k existiert dann ein (n, k)–Code γ ∗ mit n < k· a1 , so daß (bei jeder ML–Decodierung) c Prof. Dr. H. Dinges, 18. Dezember 1998 4.7 117 Beweis eines Satzes von Shannon die mittlere Fehlerwahrscheinlichkeit (gemittelt über alle k–Tupel z) kleiner als ε ist. 1 X Wsγ ∗ (z) (δ(X) 6= z) < ε . 2k z Zahlenbeispiel : Wir betrachten einen Kanal, der die bits mit Wahrscheinlichkeit 1 1 haben wir die Kapazität 100 umdreht. Für den Kanal BSC 100 1 . 1.09 1 + p lg2 p + (1 − p) lg 2 (1 − p) ≈ 0.92 ≈ Für große k gibt es also eine im Mittel sehr sichere Übertragung, die sich auf Codewörter der Länge n < 1, 1k stützt. — Man kann es fast nicht glauben. Leider gibt es nun aber keine einfache Konstruktion, die die Wahrheit der Aussage augenfällig macht. Der Beweis von Shannons Satz hat ein großes Manko; denn von einem Existenzbeweis erhofft der mathematische Laie kurzatmig auch einen Hinweis auf eine Konstruktion. Einen solchen Hinweis gibt der Beweis aber nicht. Der Wert a ∗ setzt dem Bastler nur eine Marke, bis wohin er vielleicht kommen könnte, wenn es nach einer schlauen Codierung sucht. Shannon hat übrigens auch bewiesen, daß bei einer Übertragungsrate > a∗ der Übertragungsfehler nicht klein gehalten werden kann. Dieses Resultat wollen wir hier aber nicht herleiten. Vorbereitende Bemerkungen über den Hamming–Abstand a) Die Menge Bn = {0, 1}n kann man mit der Menge der Ecken eines n– dimensionalen Würfels identifizieren. Wir betrachten sie einfach als einen metrischen Raum. Die r–Kugel um den Punkte y ist die Menge Br (y) = {x : d(x, y) ≤ r} , d.h. die Menge der 0–1–Folgen, die sich in höchstens r Plätzen von y unterscheiden. (Wir werden uns für r in der Nähe von p · n interessieren.) Die Anzahl der Punkte in der r–Kugel Br (y) ist für jedes Zentrum y |Br (y)| = 1 + n 1 + ... + n r . Man beachte: Die Zahl 21n |Br (y)| kann man interpretieren als die Wahrscheinlichkeit, daß bei einem fairen Münzwurfexperiment der Länge n höchstens r Erfolge eintreten. dafür haben wir in 2.7 eine sehr präzise Näherung gefunden. √ 1 2· |B (y)| ≈ Φ − r 2n s (n + 1)K c Prof. Dr. H. Dinges, r+1 1 , n+1 2 + H0 18. Dezember 1998 r+1 1 , n+1 2 ! , 118 wobei uns H0 (·, ·) hier nicht zu interessieren braucht. Uns interessiert nur 1 = x∗ ln(2x∗ ) + (1 − x∗ ) ln(2(1 − x∗ )) 2 1 1 = 1 + x∗ lg2 x∗ + (1 − x∗ ) lg 2 x∗ . K x∗ , ln 2 2 √ √ Uns genügt hier die grobe Abschätzung (gemäß Φ(− 2 u) ≈ e−u ) K x∗ , − lg2 r+1 1 |Br | ≈ (n + 1) 1 + lg n 2 n+1 2 r+1 n+1 n−r + lg n+1 2 n−r n+1 . b) Wenn unserem Kanal ein n–tupel y eingegeben wird, dann gibt der ein zufälliges X aus mit Wsy (X = x) = pd (1 − p)n−d mit d = d(x, y) . Der Kanal verteilt die Einheitsmasse in y auf die Punkte x in der Nähe, so daß der Hammingabstand binomialverteilt ist zum Parameter (n, p). Nach Tschebyschevs Ungleichung gilt für r = np + r 2 np(1 − p) ε Wsy (X ∈ / Br (y)) ≤ ε . 2 Wir bemerken für später, daß für alle festen x X Wsy (X = x) = 1 = y X Wsy (X = x) . x Beweis des Satzes : 1) Intuitiv gesprochen ist ein guter (n, k)–Code ein solcher, bei welchem die 2 k Codewörter γ(z) paarweise einen großen Abstand haben. In diesem Falle liegen die Verteilungen Lγ(z) (X) gut voneinander getrennt; es ist daher unwahrscheinlich, daß ein vom Codewort γ(z) hervorgerufenes x einem falschen Codewort γ(z 0 ) zugerechnet wird; die Irrtumswahrscheinlichkeit ist klein für alle möglichen Nachrichten z. Wir beschäftigen uns allerdings hier nicht mit der Irrtumswahrscheinlichkeit als Funktion von z, sondern nur mit der über alle z gemittelten Irrtumswahrscheinlichkeit Π(γ) := 1 X Wsγ(z) (δ(X) 6= z) . 2k z∈B k Hierbei ist δ(·) eine mit dem ML–Prinzip verträgliche Decodierung. Welches δ(·) man im Einzelnen wählt, wirkt sich nicht auf Π(γ) aus, wie man sich leicht überlegt. c Prof. Dr. H. Dinges, 18. Dezember 1998 4.7 119 Beweis eines Satzes von Shannon 2) Es wäre schön, ein γ ∗ zu finden mit Π(γ ∗ ) < ε; und zwar einen (n, k)–Code γ ∗ mit nk = a∗ − δ mit einem kleinen δ > 0. Dieses Ziel erreichen wir hier nicht; wir beweisen nur die Existenz eines solchen γ ∗ . Die Existenz ergibt sich aus der Abschätzung 1 X Π(γ) < ε , |Γ| γ∈Γ wenn n genügend groß ist und nk ≤ a∗ − δ. Dabei ist Γ die Menge aller (n, k)–Codes. Wir bemerken |Γ| = 2n (2n − 1) · . . . · (2n − 2k + 1). Wenn man aus der Menge Γ rein zufällig einen auswählt, dann erhält man mit großer Wahrscheinlichkeit einen guten Code. 3) Wir schätzen die Wahrscheinlichkeit einer Fehlklassifikation durch einen Erwartungswert ab Wsγ(z) (δ(X) 6= z) ≤ IEγ(z) (gr (γ(z), X)) . Hierbei ist r > 0 (wird später gewählt) und h i gr (γ(z), x) = 1 − 1Br (γ(z)) (x) + X 1Br (γ(z 0 )) (x) . z 0 6=z Daß die Abschätzung korrekt ist, ergibt sich so: Wenn für ein x gr (γ(z), x) = 0, dann bedeutet das, daß x in der r–Kugel um γ(z) und in keiner r–Kugel um ein anderes Codewort γ(z 0 ) liegt. Die ML–Decodierung liefert also γ(x) = z. 4) Wählen wir r = np + q 2 ε np(1 − p), dann haben wir X ε IEγ(z) (gr (γ(z), X)) ≤ + IEγ(z) 1Br (γ(z 0 )) (X) . 2 0 z 6=z Der erste Summand ist nach Tschebyschevs Ungleichung größer als die Wahrscheinlichkeit, daß der Kanal das Codewort der Länge n an mehr als r Stellen verändert. Die Summe ist die erwartete Anzahl der falschen r–Kugeln, die das empfangene n–Tupel X enthalten. Wir haben also Π(γ) ≤ 1 X ε IEγ(z) 1Br (γ(z 0 )) (X) . + k 2 2 z 0 6=z Hier haben wir es mit einer Doppelsumme mit 2 k (2k − 1) Summanden zu tun. 1 X 1 2k (2k − 1) X ε Π(γ) ≤ + k n n IEy 1Br (y0 ) (X) . |Γ| γ 2 2 2 (2 − 1) y0 6=y Hier wird über alle Paare verschiedener n–Tupel (y, y 0 ) summiert. Die relative k k −1) Häufigkeit der Codes γ, wo y und y 0 Codewörter sind, ist nämlich 22n (2 (2n −1) . c Prof. Dr. H. Dinges, 18. Dezember 1998 120 5) Für jedes x ist X y0 1Br (y0 ) (x) = |Br | die Anzahl der Punkte in der Hamming–Kugel vom Radius r. Außerdem gilt für jedes der 2n verschiedenen x X Wsy (X = x) = 1 . y Die Doppelsumme über alle Paare erhalten (y, y 0 ) ist also leicht auszuwerten; wir ε 1 1 X Π(γ) ≤ + 2k n |Br | . |Γ| γ 2 2 Damit dies als ε wird, müssen wir nur k = k(n) so wählen, daß kleiner 1 −k − lg2 2n |Br | > lg2 2ε . Nach der in der vorbereitenden Bemerkung diskutierten Abschätzung ist für q 2 großes n und r = np + ε np(1 − p) −k − lg2 1 |Br | ≈ −k + na∗ = −k + n[1 + p lg 2 p + (1 − p) lg 2 (1 − p)] . 2n Damit ist Shannons Satz bewiesen. Eine sehr gut lesbare Darstellung der Informationstheorie liefert F. Topsøe: Informationstheorie, Teubner, 1973. Zu empfehlen ist auch: R.J. Elliece: The Theory of Information and Coding, Addison–Wesley, 1977. c Prof. Dr. H. Dinges, 18. Dezember 1998 5. Irrfahrten auf Graphen, diskrete Potentialtheorie 5.1 Beispiele für Irrfahrten auf Graphen Gegeben sei ein kantenbeschrifteter gewichteter Graph mit der Knotenmenge E. Der Graph darf sehr wohl Schleifen haben, also Kanten, die von x nach x führen. Multiple Kanten lassen wir aber nicht zu; von x nach y gibt es höchstens eine Kante. P (x, y) sei die Zahl, mit der die Kante von x nach y beschriftet ist. Wir fordern P (x, y) ≥ 0 für alle x, y , X P (x, y) = 1 für alle x . y Wir benützen den kantenbeschrifteten Graphen zur Modellierung eines Systems, welches sich in den Zuständen x ∈ E befinden kann und sich im Zeittakt 0,1,2,. . . zufällig weiterentwickelt. Wenn es sich im Zustand x befindet, dann wird es mit der Wahrscheinlichkeit P (x, y) in den Zustand y überführt. Sei X0 der zufällige Zustand zur Zeit 0. X1 , X2 , . . . bezeichne den zufälligen Zustand zu den folgenden Zeitpunkten. Die Verteilung zur Zeit 0, die Anfangsverteilung sei durch die Gewichtung π0 (·) beschrieben. Wir haben dann für alle n und alle Wörter x0 , x1 , . . . , xn Ws(X0 = x0 , X1 = x1 , . . . , Xn = xn ) = π0 (x0 ) · P (x0 , x1 ) · P (x1 , x2 ) · . . . · P (xn−1 , xn ) . Wir beziehen uns immer wieder auf die folgende Vorstellungsweise: In jedem Knoten x steht ein Zufallsmechanismus bereit, der entscheidet, wohin eine Spielmarke, die aus x angekommen ist, zu schieben ist. Die Spielmarke wird zur Zeit 0 gemäß π0 (·) in einen Knoten x gebracht. Mit Wahrscheinlichkeit P (x, y) wird sie entlang der Kante (x, y) weitergeschoben. Die Zufallsmechanismen werden immer wieder unabhängig betätigt. Die Spielmarke nimmt einen zufälligen Weg. Dieser beginnt, bis zur Zeit n betrachtet, entsprechend dem Wort x 0 , . . . , xn mit der angegebenen Wahrscheinlichkeit. e heißt eine Falle, oder auch ein absorbierender Zustand, wenn Ein Knoten x e, x e) = 1. Wenn die Spielmarke in der Falle x e angekommen ist, dann bleibt P (x sie dort. Die Menge der Fallen heißt der Rand von E. Der Rand wird mit ∂E bezeichnet. Die zufällige Zeit ζ, zu welcher die Spielmarke den Rand erreicht, hat 121 122 Werte in {0, 1, . . . , +∞}. ζ ist nicht notwendig endlich mit Wahrscheinlichkeit 1. Wenn Ws(ζ < ∞) = 1, dann ist Xζ eine wohldefinierte Zufallsgröße mit Werten e ∈ ∂E in ∂E. In jedem Falle gilt für jeden absorbierenden Zustand x e) = lim ↑ Ws(Xn = x e) . Ws(Xζ = x n→∞ Wir studieren nun in einigen Beispielen die Wahrscheinlichkeit, einen bestimmten Randpunkt zu erreichen. Beispiele : 1) (Das zweite Problem des Chevalier de Méré, um 1654) Zwei Spieler A und B tragen ein faires Glücksspiel aus. Ein Schiedsrichter wirft wiederholt eine faire Münze; A bekommt einen Punkt gutgeschrieben, wenn Zahl“ erscheint, B erhält einen Punkt auf sein Konto, wenn Wappen“ ” ” erscheint. Das Spiel endet, wenn einer der Spieler n Punkte erreicht hat; dieser ist dann der Gewinner. Welche Aussicht auf Gewinn hat A beim Stande (k, `), wo also A k und B ` Punkte auf dem Konto hat? Wir repräsentieren die Aufgabenstellung Problem der gerechten Teilung des ” Einsatzes“ durch einen kantenbeschrifteten Graphen; von jedem Knoten gehen zwei Kanten aus. Beide sind mit 12 beschriftet. Eine Kante nach rechts entspricht einem Punktgewinn von A, eine Kante nach oben einem Punktgewinn von B. Die Knoten entsprechen den Spielständen (k, `); der auf (k, `) folgende Spielstand ist (k+1, `) oder (k, `+1) mit Wahrscheinlichkeit 12 . Wenn das Spiel beendet ist, interessiert der Spielstand nicht mehr; wir haben deshalb die Spielstände, bei denen Gewinn von A bzw. Gewinn von B eintritt in einen einzigen Knoten zusammengefaßt. Wir notieren die Gewinnwahrscheinlichkeit von A vom Knoten (k, `) aus. Ohne Rechnen ergeben sich die Werte auf der Diagonale und am oberen Rand. 0j B gewinnt ............... ...... . ...... ..... . . . . . ...... ...... ◦ 6 (0,1) ◦ 6 (0,0) ◦ ..... ........ .... ... ... -◦ 6 .......... ......... ...... ...... ...... ...... ...... . - ◦.. ... ... ... ... ... ... ... ... ............ .. ................................. . ........... ... .. . . .. ... ... ... ... . . .. 6 - ◦ (1,1) - ◦ 6 6 -◦ (1,0) A gewinnt -◦ (2,0) c Prof. Dr. H. Dinges, ......... .............. ......... . ..... ..... . ..... ..... .... . ...... . . . . . . . ...... ....... .... . . . . ...... ... . . . . . ..... . .. ..... . . . . . . . . 1/8 ................................. .. 1/4 ......................................... 1/2 ... . . ..... ... .... ..... ........ ..... ........ ........ ... .. .. .... ... . . ... .. .. ... . . ... .... ... .... .... .. .. ........... ... . . . . . . .......................................... 1/2 .......................................... 3/4 ....................... . . .. ... ............. .......... ......... ........ ... . ... ... ... ... . . ... ... ... . ... ... ... ... ... ... ... ... .. .. ..... .. .. .. . .......................................... 7/8 1/2 .......................................... j j j j j j j j j 18. Dezember 1998 1j 5.1 123 Beispiele für Irrfahrten auf Graphen Die Mittelwertregel ergibt für die Gewinnwahrscheinlichkeit im Zustand (1,0) den Wert 11 16 , im Zustand (0,1) den Wert 5 16 . 2) (Ein Problem von Ch. Huygens (1629–1695)) Zwei Spieler A und B treten mit einem Paar fairer Würfel gegeneinander an. Es wird abwechselnd geworfen. B gewinnt, wenn er die Augensumme 7 wirft, A gewinnt, wenn er die Augensumme 6 wirft. Wer hat die bessere Chance, wenn A beginnt? Wir modellieren das Problem durch einen Graphen mit vier Knoten. ..................................................................................................... j a .j 5 .. .. ........... .... ... 36 A ... ... ... ... . ... ... .. ... ... .... .. .. ... .. .. . 5 .. ... 31 .. . ... 36 6 .. .... ... ... .. ... .. ... ... ... .. ... .. . . ... . .. ... ......... 1 .. ... 6 ..................................................................................................... b j a: Spieler A ist am Zug b: Spieler B ist am Zug A: Spieler A hat gewonnen B: Spieler B hat gewonnen B j Die Wahrscheinlichkeit mit einem Paar fairer Würfel die Augensumme 7 6 5 (bzw. 6) zu erreichen ist 36 (bzw. 36 ). Aus der Mittelwertsregel erhalten wir die Wahrscheinlichkeit x, daß A von a ausgehend das Spiel gewinnt und die Wahrscheinlichkeit y, daß er von b ausgehend das Spiel gewinnt; ..................................................................................................... j xj 1 5 ... .. ........... .... ... 36 ... ... .. . . ... ... ... ... ... ... ... ... .... .. . . 5 ... 31 ... 6 .... ... 36 .. .... ... . . ... ... ... ... ... ... ... .. ... . ... ............. 1 .. ... 6 ..................................................................................................... yj x= 5 36 y= 1 6 x= 5 36 31 36 ·1+ ·0+ + 31 36 5 6 ·y ·x · 5 6 ·x (36 · 6 − 31 · 5)x = 5 · 6 0j c Prof. Dr. H. Dinges, x= 30 61 ∼ 0.492 . 18. Dezember 1998 124 3) Ein Problem von A. Engel Abel sagt zu Kain: Wir wollen eine Münze werden bis eines der Wörter 111 oder 101 erscheint; wenn zuerst 111 kommt, gewinnst Du, sonst gewinne ich. Du siehst wohl ein, daß das Spiel fair ist, denn beide Wörter erscheinen mit Wahrscheinlichkeit 81 . Welchen Vorteil hat sich Abel verschafft? Wir modellieren das Spiel durch einen Graphen, dessen Ecken den Stadien auf dem Weg zum Gewinn entsprechen. Start ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... . ............... .5 1 ..... .... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... . ... ... ... ... ... .. ... ... ... . ... . ... ..... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ............ . . . . ......... ...... . ... ... . .. ....... ............. ........ ...... ...... . . . . . . ...... ...... ...... ...... ...... . . . . . ..... ...... ...... ...... .5 .5 .............................................................................. .5 .. ... .5 111 .5 0 11 .5 ............................................................................... ............................................................................... ........ ....... ... .... .. ... . . .. . . . ... .... ... ... ... ... ... .. . ... . . . .... .... ..... ..... ....... ............................. 10 ............................................................................... .5 .5 101 .5 Gesucht sind die Gewinnwahrscheinlichkeiten von Kain. Die Kantenbeschriftung ist der Übersichtlichkeit halber weggelassen. ? ..... ... ... ... ... ... .... .. ... .... .. ... ... ... ... ... ... ... ... ... . ... .. ... ... ... .. ... .. ... . . ... ... ... ... ... ... ... ... .. ... . . ... ... .... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . ... ... ............. . ............. ... . a ? ... ... ... .. ...... ......... ........ ...... ...... . . . . . . ...... ...... ...... ...... ...... . . . . . .. ...... ...... ...... ...... ? ...... ...... ...... ...... . ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... .. .............. ............................................................................... .. ... ................................................................................ ......... ....... ... ... ... . ... .. ... . .. .... .. ... ... ... ... .. . ... . . . ... .... ... ...... .... ......... ..... ...................... ? 1 ............................................................................... c Prof. Dr. H. Dinges, .............................................................................. 0 18. Dezember 1998 5.1 125 Beispiele für Irrfahrten auf Graphen b ............................................................................... a ..... .... .. ... ... .... .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... . ... ... ... ... ... ... ... .. ... . ... ... ... .. ... ... ... ... .. . . ... ... .... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . ... ... ............ . . . . ......... ..... . a a 2 . .. ..... .. ........ ........ ........ ...... . ...... ...... . . . . . . ...... ...... ...... ...... ...... . . . . . .... ...... ...... ...... ? ...... ...... ...... ..... . ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... . ............... + . ... 4 ................................................................................ ........ ........ .. ... ... ... .. . ... .... .. .... .. ... .. .. ... .. ... . . . ... . . . .... ... ..... ....... ...... ............................ 1 ........................................................................... ... 2 .............................................................................. 1 0 Die Mittelwertsregel auf den Zustand 0 angewandt liefert a= 1 1 a+ b , 2 2 a=b. Wenn schon eine 1 da war, gewinnt Kain mit Wahrscheinlichkeit a=b= 1 2 a a 1 + + 2 4 2 = 1 3 ·a+ , 8 4 a= 8 1 2 · = = 0.4 . 5 4 5 Vom Start aus hat also Kain die Gewinnwahrscheinlichkeit a= 1 1 a + b = 0.4 . 2 2 Abel gewinnt mit Wahrscheinlichkeit 0.6. c Prof. Dr. H. Dinges, 18. Dezember 1998 126 5.2 Dirichlet–Problem und Poisson–Problem Das diskete Dirichlet–Problem In den Beispielen war ursprünglich nur nach einer einzigen Zahl gefragt, der Wahrscheinlichkeit, von einem gegebenen Anfangspunkt x 0 aus irgendwann einmal eine e zu erreichen. Es hat sich aber als günstig erwiesen, bei vorgevorgegebene Falle x e e zu erreichen, als Funktion von x 0 zu benem x ∈ ∂E die Wahrscheinlichkeit, x studieren. e Wir verallgemeinern ein wenig: Es sei eine Funktion f(·) auf dem Rand ∂E e e) wird als die Auszahlung interpretiert, die der Spieler kassieren vorgegeben; f(x e erreicht. Wir fragen nach der erwarteten Auszahlung für einen im kann, wenn er x Zustand x startenden Spieler f (x) = Ex (fe(Xζ )) . Es gilt offenbar f (x) = X P (x, y)f (y) y ex e) = f( e) f (x für alle x ∈ E\∂E e ∈ ∂E . für alle x In den Beispielen ist es gelungen, dieses lineare Gleichungssystem zu lösen. Wir hatten e es da zwar nur mit solchen f(·) zu tun, welche in einem Randpunkt den Wert 1 e und in den übrigen Randpunkten den Wert 0 hat. Die Lösung für allgemeine f(·) ergibt sich aber leicht durch eine Linearkombination dieser speziellen Lösungen. Wir wollen nun das allgemeine Prinzip herausarbeiten, nach welchem die lineare Algebra zur Lösung der wahrscheinlichkeitstheoretischen Probleme beiträgt. Definition : E sei eine abzählbare Menge. Eine E × E–Matrix P (·, ·) heißt eine stochastische Matrix, wenn alle Einträge nichtnegativ sind und alle Zeilensummen = 1 sind P (x, y) ≥ 0 für alle x, y ; X P (x, y) = 1 für alle x . y Wir ordnen der stochastischen Matrix P (·, ·) einen kantenbeschrifteten gerichteten Graphen zu, indem wir die x, y mit P (x, y) > 0 mit einer von x nach y gerichteten Kante verbinden und diese Kante mit P (x, y) beschriften. Die Zahlen an den von x ausgehenden Kanten summieren sich zu 1 für jedes x . c Prof. Dr. H. Dinges, 18. Dezember 1998 5.2 127 Dirichlet–Problem und Poisson–Problem Problem : ( Dirichlet–Problem“) ” e mit Es sei P (·, ·) eine stochastische E × E–Matrix. ∂E sei die Menge aller x e e, x e) = 1. Es sei eine Funktion f(·) auf ∂E gegeben. Finde alle Lösungen f (·) P (x des linearen Gleichungssystems f (x) = X P (x, y)f (y) y ex e) = f( e) f (x für alle x ∈ E e ∈ ∂E . für alle x Satz : Sei P (·, ·) eine stochastische E × E–Matrix und fe(·) eine beschränkte Funktion auf ∂E. Es existiert dann mindestens eine beschränkte Lösung des Dirichlet–Problems. Beweis : 1) Wenn ∂E leer ist, dann sind die Konstanten Lösungen. Wir werden später Situationen kennenlernen, wo die Konstanten die einzigen Lösungen sind. 2) Für jedes x ∈ E betrachten wir die in x startende Irrfahrt. Wenn die Irrfahrt den Rand jemals erreicht, dann nennen wir diesen Punkt X ζ . Wir setzen f (x) = Ex (fe(Xζ ); {ζ < ∞}) = = lim n→∞ X e x∈∂E X e x∈∂E ex e) · Wsx (Xζ = x e) f( ex e) · Ws(Xn = x e) . f( f (·) ist eine beschränkte Lösung des Dirichlet–Problems. Wir werden unten Situationen kennenlernen, wo dieses f (·) die einzige Lösung des Dirichlet– e Problems mit den Randwerten f(·) ist. Notation : a) Eine Funktion auf E notieren wir als Spaltenvektor. f 7−→ P f bildet in linearer Weise den Kegel der nichtnegativen Funktionen in sich ab. Die konstanten Funktionen werden dabei in sich abgebildet. b) Einen Zeilenvektor π bezeichnen wir als eine Gewichtung über E. Wenn P |π(x)| < ∞ sprechen wir von einer endlichen Gewichtung. π 7−→ πP bildet in linearer Weise den Vektorraum der endlichen Gewichtungen in sich ab. Dabei werden Wahrscheinlichkeitsgewichtungen in Wahrscheinlichkeitsgewichtungen abgebildet. c) hπ, f i bezeichnet das Matrizenprodukt, wenn c Prof. Dr. H. Dinges, P π(x)f (x) wohldefiniert ist. x∈E 18. Dezember 1998 128 Definition : a) Eine Funktion h(·) heißt harmonisch, wenn sie endlichwertig ist und h(x) = X P (x, y)h(y) für alle x . b) Eine Funktion f (·) heißt exzessiv, wenn 0 ≤ f (x) ≤ +∞ Lemma : für alle x und f ≥ P f . Das punktweise Infimum exzessiver Funktionen ist exzessiv. Beweis : Seien f und g exzessiv und h = f ∧ g das punktweise Minimum. Es gilt h ≥ 0 und für alle x X f (x) ≥ y P (x, y)f (y) ≥ g(x) ≥ Also h(x) ≥ ≥ P y X P (x, y)h(y) y X P (x, y)h(y) y P (x, y)h(y). Ebenso sieht man, daß das punktweise Infimum einer beliebigen Schar exzessiver Funktionen exzessiv ist. Korollar : Zu jeder Funktion f (·) auf E (der Wert +∞ ist zugelassen) existiert b b eine kleinste exzessive Majorante f(·). f(·) ist nämlich einfach das punktweise Infimum aller exzessiven Funktionen über f (·). (Es kann wohl passieren, daß fb identisch = +∞ ist.) Lemma : ( Minimumprinzip“) ” Es sei P (·, ·) eine stochastische E × E–Matrix (E endlich) mit der Eigenschaft, daß es zu jedem x ∈ E einen Weg in einen Randpunkt gibt. Jede exzessive Funktion f (·) und jede harmonische Funktion h(·) nimmt dann ihr Minimum am Rand an. Beweis : Die Endlichkeit von E garantiert, daß f (·) bzw. h(·) den Minimalwert m annimmt. Sei x∗ ein Minimalpunkt m = f (x∗ ) ≥ X y P (x∗ , y)f (y) ≥ X P (x∗ , y)m = m . y Alle y mit P (x∗ , y) > 0 sind also Minimalpunkte. Jeder Weg von x ∗ in einen e ∈ ∂E enthält nur Minimalpunkte; insbesondere ist x e selbst ein Randpunkt x Minimalpunkt. Derselbe Schluß funktioniert auch für das harmonische h(·). c Prof. Dr. H. Dinges, 18. Dezember 1998 5.2 129 Dirichlet–Problem und Poisson–Problem Satz : Es sei E endlich und P (·, ·) so, daß es von jedem x aus einen Weg zu mindestens einem Randpunkt gibt. Das Dirichlet–Problem besitzt dann zu jeder e Randfunktion f(·) genau eine Lösung. Beweis : Die Existenz ist schon bewiesen. Seien f (·) und g(·) Lösungen des e Dirichlet–Problems für die Randfunktion f(·). Die Differenz f (·) − g(·) ist eine harmonische Funktion, die am Rande verschwindet. Der Minimalwert von f (·) − g(·) ist also 0. Auch der Minimalwert von g(·) − f (·) ist 0. Also gilt f = g. Das diskrete Poisson–Problem Neben das Dirichlet–Problem stellen wir nun das sog. Poisson–Problem. Beim Dirichlet–Problem ist ein homogenes lineares Gleichungssystem zu lösen, beim Poisson–Problem dagegen ein inhomogenes Gleichungssystem. Wir nähern uns dem Problem mit den Vorstellungsweisen der Irrfahrten auf Graphen. Eine Spielmarke wird durch die nach P (·, ·) verteilten Zufallsmechanismen durch den Graphen geschickt. Wenn sie von x aus weiter will, ist der Betrag ρ(x) zu e ∈ ∂E sei ρ(x e) = 0; d.h. am Rand entstehen keine Kosten. bezahlen. Für alle x Was sind nun die erwarteten Kosten für eine im Punkt x startende Spielmarke? Offenbar gilt für die erwarteten Kosten m(x) = ρ(x) + X y e) = 0 m(x P (x, y) · m(y) für alle x ∈ E\∂E e ∈ ∂E . für alle x Die Frage nach den Lösungen dieses inhomogenen linearen Gleichungssystems heißt das Poisson–Problem zu ρ(·). Satz : Es sei E endlich und die stochastische Matrix P (·, ·) so, daß es von jedem x aus einen Weg zu einem Randpunkt gibt. Zu jedem ρ(·), welches am Rande verschwindet, gibt es dann genau eine Lösung m(·) des inhomogenen linearen Gleichungssystems m(x) = ρ(x) + X P (x, y)m(y) y e) = 0 m(x Beweis : für alle x ∈ E e ∈ ∂E . für alle x 1. Eindeutigkeit : Sind m(·) und n(·) Lösungen des Poisson–Problems zu ρ(·), dann ist m(·) − n(·) eine am Rand verschwindende harmonische Funktion, also identisch = 0. c Prof. Dr. H. Dinges, 18. Dezember 1998 130 2. Existenz : Sei ρ(·) ≥ 0 . Dem Irrfahrer, der den zufälligen Weg X0 , X1 , X2 , . . . nimmt, entstehen die zufälligen Kosten ρ(X0 ) + ρ(X1 ) + ρ(X2 ) + . . . ≥ 0 . Wenn er gemäß π0 (·) startet, Ws(X0 = x) = π0 (x), dann sind die erwarteten Kosten Eπ0 (ρ(X0 ) + ρ(X1 ) + . . .) = hπ0 , ρi + hπ1 , ρi + . . . , wobei πn = Lπ0 (Xn ). Man schreibt auch πn ρ entsprechend den Konventionen des Matrizenkalküls. Offenbar gilt π1 = π0 P, π2 = π1 P = π0 P 2 , . . .. Die erwarteten Kosten sind also π0 (I + P + P 2 + . . .)ρ . Wenn die Anfangsverteilung auf den Punkt x konzentriert ist, dann sind die erwarteten Kosten der x–te Eintrag in der Spalte m = (I + P + P 2 + . . .)ρ = ρ + P (I + P + . . .)ρ . Es gilt m(x) = ρ(x) + X P (x, y)m(y) . y Wir haben also eine Lösung des Poisson–Problems gefunden, wenn wir nachweisen können, daß m(x) < ∞ für alle x. Betrachten wir das spezielle ρ(·), welches auf E\∂E identisch gleich 1 ist; in jedem inneren Punkt kostet das Weiterkommen den Betrag 1. In diesem Falle haben wir ρ(X0 ) + ρ(X1 ) + . . . = ζ = Zeit bis zum Erreichen des Randes . Wenn wir Ex ζ < ∞ für alle x bewiesen haben, dann sind wir für alle ρ(·) fertig; denn ρ(·) ist auf der endlichen Menge E beschränkt. Warum hat nun die Zeit bis zum Erreichen des Randes einen endlichen Erwartungswert, ganz gleich wo wir starten? Die Wahrscheinlichkeit, von x startend, wieder einmal nach x zurückzukommen, ist ≤ 1 − δ < 1 für alle x ∈ E\∂E. Die Wahrscheinlichkeit von x startend, mindestens k–mal nach x zurückzukommen, ist ≤ (1 − δ)k . c Prof. Dr. H. Dinges, 18. Dezember 1998 5.2 131 Dirichlet–Problem und Poisson–Problem Nx , die Anzahl der Besuche in x hat also endlichen Erwartungswert für jede beliebige Anfangsverteilung π0 ∞ > Eπ0 (Nx ) = Eπ0 1{X0 =x} + 1{X1 =x} + . . . = π0 (I + P + P 2 + . . .) · 1{x} . Summieren wir über alle x ∈ E\∂E, dann erhalten wir für ζ = P Nx x∈E\∂E ∞ > Eπ0 ζ = π0 (I + P + P 2 + . . .) · 1{E\∂E} . Eine wunderschöne Behandlung der Potentialtheorie aus dem Blickwinkel der Stochastik, die mit sehr geringen Vorkenntnissen studiert werden kann, liefert das B üchlein: Dynkin, Juschkewitsch : Sätze und Aufgaben über Markovsche Prozesse Springer 1969, Heidelberger Taschenbücher, Band 51. c Prof. Dr. H. Dinges, 18. Dezember 1998 132 5.3 Exzessive Funktionen, Optimales Stoppen Definition : Sei 0 ≤ ρ(x) ≤ ∞ für alle x ∈ E. Dann heißt die Funktion f := ρ + P ρ + P 2 ρ + . . . = (I + P + P 2 + . . .)ρ = Gρ das Potential von ρ. Satz : Für jedes nichtnegative ρ ist das Potential Gρ eine exzessive Funktion. Beweis : f := Gρ ist eine nichtnegative Funktion, die den Wert +∞ annehmen kann. Wir müssen für jedes x zeigen f (x) ≥ P f (x). Wenn f (x) = +∞, ist nichts zu zeigen. Wenn f (x) < ∞ dann haben wir f (x) − P f (x) = ρ(x) ≥ 0 . Für solche x haben wir P n f (x) ↓ 0; denn P n f (x) = P n ρ(x) + P m+1 ρ(x) + . . . < ∞ . Satz : (Riesz–Zerlegung) Sei f eine exzessive Funktion mit lim ↓ P n f (x) < ∞ für alle x . Dann existiert eine nichtnegative harmonische Funktion h und eine nichtnegative Funktion ρ, so daß f = Gρ + h . Beweis : Betrachte fn := P n f . f = f 0 ≥ f1 ≥ . . . . Der absteigende Limes ist eine endlichwertige Funktion h und es gilt (nach dem Lemma von Fatou) P h = P (lim ↓ fn ) ≤ lim ↓ P fn = lim ↓ fn = h . Es gilt sogar P h(x) = h(x) für alle x; denn für ein x mit P n f (x) < ∞ sind die Funktionen fn+1 , fn+2 , . . . P (x, ·)–integrabel. Also gilt nach dem Satz von der majorisierten Konvergenz P (lim ↓ fm )(x) = lim ↓ (P fn )(x) = h(x) . c Prof. Dr. H. Dinges, 18. Dezember 1998 5.3 133 Exzessive Funktionen, Optimales Stoppen Setze ρ(x) = +∞, wenn f (x) = +∞ und sonst ρ(x) = f (x) − P f (x) . Auf {x : ρ(x) < ∞} gilt ρ + P ρ + . . . + P n ρ = (f − P f ) + P (f − P f ) + . . . + P n (f − P f ) = f − P n+1 f Gρ = lim ↑ (f − P n+1 f ) = f − h . Satz : (die kleinste exzessive Majorante) Die kleinste exzessive Majorante einer beliebigen nichtnegativen Funktion f ergibt sich als der aufsteigende Limes der Folge f0 = f , Beweis : f 1 = f0 ∨ P f 0 , . . . , fn+1 = f0 ∨ P fn , . . . Daß die Folge aufsteigend ist, ergibt sich durch vollständige Induktion fn−1 ≤ fn =⇒ P fn−1 ≤ P fn ; fn = f0 ∨ P fn−1 ≤ f0 ∨ P fn = fn+1 Für den Grenzwert fb := lim ↑ fn gilt nach dem Satz von der monotonen Konvergenz6 P fb = lim ↑ P fn ≤ lim ↑ fn+1 = fb . Wenn g irgendeine exzessive Majorante von f ist, dann gilt P f ≤ P g ≤ g, also f1 ≤ g. Durch vollständige Induktion ergibt sich fn ≤ g für alle n und daher fb ≤ g. Stochastische Interpretation (Optimales Stoppen) Wir geben dem Spieler, der sich im Zustand x befindet, die Wahl, entweder den Betrag f (x) zu kassieren oder sich vom Zufall gemäß P (x, ·) in einen nächsten Zustand versetzen zu lassen. Wie wird er seine Stopp–Strategie einrichten, um den erwarteten Gewinn zu maximieren? Vermindern wir zunächst einmal seine Chance, indem wir die Anzahl der Schritte auf höchstens n limitieren. Für n = 1 wird der in x startende Spieler überlegen: Wenn P ich mich dem Zufall anvertraue und einen Schritt riskiere, dann ist P (x, y)f (y) y der erwartete Gewinn; nur wenn dies echt größer als f (x) ist, lasse ich mich darauf ein. Der erwartete Gewinn ist f1 = f0 ∨ P f0 im Fall n = 1. Bezeichne fn (y) den erwarteten Gewinn, den der in y startende Spieler bei kluger Stoppstrategie erreichen kann, wenn ihm noch höchstens n weitere Schritte gestattet c Prof. Dr. H. Dinges, 18. Dezember 1998 134 sind. Wenn ihm sogar n + 1 weitere Schritte gestattet sind, wird er von x startend entweder f (x) kassieren oder aber einen Schritt wagen, wenn f (x) < X P (x, y)fn (y) . y Bei kluger Strategie gewinnt er so im Mittel fn+1 = f ∨ P fn = fn ∨ P fn . Die Stoppstrategien τn liefern ihm also bei Start in x die erwarteten Gewinne fn (x) = Ex f (Xτn ) ≤ fn+1 (x) = Ex f (Xτn+1 ) ≤ . . . Es ist nicht gesagt, daß die Folge τn ≤ τn+1 ≤ . . . mit Wahrscheinlichkeit 1 gegen einen endlichen Wert τ∞ = lim ↑ τn konvergieren; der Spieler kann im allg. nicht b ganz den erwarteten Gewinn f(x) realisieren, aber er kann diesem Supremum durch eine geeignete Stoppstrategie doch beliebig nahekommen. c Prof. Dr. H. Dinges, 18. Dezember 1998 5.4 135 Rekurrente Irrfahrten 5.4 Rekurrente Irrfahrten E sei abzählbar, P (·, ·) sei eine stochastische E × E–Matrix. Eine Gewichtung π heißt invariant, wenn πP = π. Gibt es außer der trivialen Nullgewichtung noch weitere invariante Gewichtungen? Wir interessieren uns besonders für nichtnegative invariante Gewichtungen. Mit π(·) ist natürlich auch cπ(·) nichtnegativ invariant für jedes c ≥ 0. Gibt es mehrere nichtnegative Gewichtungen, die sich nicht einfach durch einen Faktor unterscheiden? Wir studieren einen Fall, in welchem diese Frage eine einfache Antwort hat. Sprechweise : P (·, ·) sei eine stochastische E × E–Matrix (E abzählbar). a) Ein Zustand x∗ ∈ E heißt rekurrent, wenn ∞ X P n (x∗ , x∗ ) = +∞ . n=0 b) Man sagt, daß y von x aus in n Schritten erreichbar ist, wenn es x1 , . . . , xn−1 gibt mit P (x, x1 ) · P (x1 , x2 ) · . . . · P (xn−1 , y) > 0 , m.a.W., wenn P n (x, y) > 0 . c) Wenn es ein n ≥ 1 gibt, so daß y von x in n Schritten erreichbar ist, dann sagt man, daß y von x aus erreichbar ist. Bemerke : Wenn E ∗ die Menge aller vom rekurrenten Zustand x ∗ aus erreichbaren Punkte ist, dann ist die Einschränkung von P (·, ·) auf E ∗ × E ∗ eine stochastische Matrix. Wir nehmen nun an, daß alle y ∈ E von x ∗ aus erreichbar sind. Es gilt dann offenbar X P n (y, y) = +∞ n für alle y ∈ E und auch X n P n (x, y) = +∞ für alle x, y ∈ E . In diesem Falle heißt P (·, ·) eine irreduzible rekurrente stochastische Matrix. a) Eindeutigkeit der invarianten Gewichtung Satz : Zu einer stochastischen Matrix P (·, ·), die rekurrent und irreduzibel ist, gibt es außer den Konstanten keine exzessiven Funktionen. c Prof. Dr. H. Dinges, 18. Dezember 1998 136 Beweis : Sei f (·) eine nichtnegative Funktion. Interpretieren wir f (x) als die Belohnung, die ein Irrfahrer in x kassieren kann, wenn er es nicht lieber vorzieht sich weiter der Irrfahrt anzuvertrauen. Der Irrfahrer erreicht von jedem Anfangspunkt jeden Punkt y mit Sicherheit; denn er hat eine positive Chance von x ∗ aus und diese Chance erneuert sich bei jedem Besuch in x ∗ . Wähle y so, daß f (y) > supx f (x) − ε. Wenn sich der Irrfahrer beim ersten Besuch in y auszahlen läßt, hat er den erwarteten Gewinn ≥ supx f (x) − ε. Die kleinste exzessive Majorante ist also die Konstante supx f (x), eventuell = +∞. Satz : Es sei P (·, ·) rekurrent und irreduzibel und α(·) so, daß α(x) > 0 für alle x , X α(x)P (x, y) = α(y) für alle y . X β(x)P (x, y) = β(y) für alle y . x Andererseits sei β(·) so, daß β(x) ≥ 0 für alle x , x Es existiert dann eine Konstante C ≥ 0 so, daß β(x) = C · α(x) für alle x . Betrachte die E × E–Matrix Beweis : Q(x, y) = α(y) · P (y, x) · 1 . α(x) 1) Es handelt sich um eine rekurrente irreduzible stochastisches Matrix; dann X 1 X α(y)P (y, x) = 1 für alle x Q(x, y) = α(x) y y Q2 (x, z) = X Q(x, y)Q(y, z) y = 1 X 1 P (y, x)P (z, y)α(z) = α(z)P 2 (z, x) α(x) y α(x) Qn (x, z) = α(z) · P n (z, x) · 1 α(x) 2) Betrachte die Funktion g(·) : g(y) = X Q(x, y)g(y) = y X y = für alle n . β(y) ≥ 0. Es gilt α(y) α(y)P (y, x) · 1 β(y) · α(x) α(y) 1 X β(x) = g(x) . β(y)P (y, x) ≤ α(x) y α(x) Also Qg ≤ g; g ist exzessiv, also konstant nach dem obigen Satz. c Prof. Dr. H. Dinges, 18. Dezember 1998 5.4 137 Rekurrente Irrfahrten Die Existenz einer invarianten echt positiven Gewichtung α(·) wird später bewiesen. Wir geben nun einige Beispiele für den Eindeutigkeitssatz. Beispiel : (Einfache symmetrische Irrfahrt auf ZZ) E = ZZ und P (x, y) = 1 2 1 2 für y = x + 1 0 sonst für y = x − 1 Wenn α(x) = 1 für alle x, dann X α(x)P (x, y) = α(y) für alle y. x P (·, ·) ist offensichtlich irreduzibel. Wir zeigen, daß P (·, ·) rekurrent ist. P 2n (0, 0) = 2n n 2 1 2 · (2n)! · = n!n! 2n 1 2 1 1 exp 0 = √ πn n (nach Stirlings Formel) X P 2n (0, 0) = +∞ . n Wir werden unten sehen, daß bei einer im Nullpunkt startenden einfachen symmetrischen Irrfahrt die erwartete Anzahl von Besuchen in x vor der Rückkehr nach 0 gleich 1 ist für alle x. (Man würde das auf den ersten Anhieb nicht vermuten.) Beispiel : (Einfache symmetrische Irrfahrt auf ZZ2 ) Der Zustandsraum ist das Gitter ZZ2 . Jeder Punkt x hat vier nächste Nachbarn y, die Punkte mit der Hammingdistanz 1 P (x, y) = 1 4 0 für y mit |y − x| = 1 sonst Die konstante Gewichtung α(x) ≡ 1 ist invariant. P (·, ·) ist offenbar irreduzibel. Wir zeigen die Rekurrenz P X 2n (0, 0) = 2n n 2n · 1 2 · 2n n P 2n (0, 0) = +∞ . 2n · 1 2 1 1 ≈ · exp 0 πn n n Bemerke : Die einfache symmetrische Irrfahrt auf dem Gitter ZZ d mit d ≥ 3 ist nicht rekurrent. c Prof. Dr. H. Dinges, 18. Dezember 1998 138 Beispiel : (Geburts– und Todesprozeß) Es sei E = {0, 1, 2, . . .}. Wir deuten x ∈ E als den Umfang einer Population. In jedem Zeittakt kann ein Individuum dazukommen oder eines wegsterben. Satz : Es sei P (x, y) = 0 px q x 1 − p x − qx falls falls falls falls |y − x| > 1 y =x+1 y =x−1 y=x mit px > 0 für alle x, qx > 0 für x ≥ 1, px + qx ≤ 1 für alle x . q1 · q 2 · . . . · q x Setze gx = für x = 1, 2, . . . p1 · p 2 · . . . · p x Die Matrix P (·, ·) ist genau dann rekurrent, wenn ∞ X gx = +∞ . x=1 Beweis : Wir untersuchen die exzessiven Funktionen. 1) Für ein f (·) mit f ≥ P f gilt f (0) ≥ p0 · f (1) + (1 − p0 )f (0) also f (0) ≥ f (1) Für alle x ≥ 1 gilt f (x) ≥ px · f (x + 1) + qx · f (x − 1) + (1 − px − qx )f (x) px · [f (x + 1) − f (x)] ≤ qx [f (x) − f (x − 1)] . Für die Zuwächse ∆x = f (x + 1) − f (x) gilt also ∆x ≤ qx qx qx−1 q1 ∆x−1 ≤ · · ... · · ∆0 = gx · ∆0 px px px−1 p1 f (x + 1) − f (0) = ∆x + ∆x−1 + . . . + ∆0 ≤ [gx + gx−1 + . . . + g1 + 1] · ∆0 . 2) Wenn 1 + g1 + g2 + . . . < ∞, dann können wir eine nichtkonstante exzessive Funktion fa (·) zu genügend kleinem a > 0 konstruieren: fa (0) = 1, fa (1) = 1 − a und fa (x) = 1 − a(1 + g1 + . . . + gx−1 ) c Prof. Dr. H. Dinges, für x = 2, 3, . . . 18. Dezember 1998 5.4 139 Rekurrente Irrfahrten 3) Im Falle 1 + g1 + g2 + . . . = +∞ beweisen wir die Rekurrenz. Es sei f ∗ (0) = 1 und allgemein f ∗ (x) die Wahrscheinlichkeit, von x ausgehend jemals die 0 zu treffen. f ∗ (·) ist eine beschränkte exzessive Funktion. Nach den Überlegungen in 1) gilt f ∗ (x + 1) − f ∗ (0) = [1 + g1 + . . . + gx ] · [f ∗ (1) − f ∗ (0)] f ∗ (0) − f ∗ (1) = [1 + g1 + . . . + gx ]−1 · [f ∗ (x + 1) − f ∗ (0)] . Dies impliziert f ∗ (0) − f ∗ (1) = 0 und f ∗ (x) = 1 für alle x, die Wahrscheinlichkeit von x ausgehend nach 0 zu gelangen ist 1; von 0 ausgehend kommt man mit Sicherheit wieder nach 0 zurück. b) Konstruktion der invarianten Gewichtung. Exkursionen Wir betrachten einen Wurzelbaum mit der Blättermenge B und der Menge S der inneren Knoten. Den von der Wurzel w weg gerichteten Kanten seien Zahlen e t) = 1 für alle s ∈ S. Wir sprechen von einem e t) ≥ 0 zugeordnet mit P Q(s, Q(s, t kantenbeschrifteten Wurzelbaum. Stellen wir uns einen Irrfahrer vor, der vom Knoten s gemäß den Wahrscheinliche ·) in einen der Folgeknoten geschickt wird. Die Zufallsmechanismen, keiten Q(s, die in den s ∈ S aufgestellt sind, operieren unabhängig. Sie operieren auch unabhängig, wenn demnächst der Irrfahrer mehrmals durch den Wurzelbaum geschickt wird, immer wieder in der Wurzel beginnend, sobald ein Blatt erreicht ist. e ·) assoziieren wir eine Knotenbeschriftung auf S ∪ B, Zur Kantenbeschriftung Q(·, nämlich e e 1 , s2 ) · . . . · Q(s e n−1 , s) , qe(s) = Q(w, s1 ) · Q(s wenn (w, s1 , . . . , sn−1 , s) der Weg von der Wurzel nach s ist, q(w) = 1. qe(s) ist also die Wahrscheinlichkeit, daß der Irrfahrer beim Durchlaufen des Baums von der Wurzel aus den Knoten s passiert. ζ bezeichne die zufällige Zeit bis zum Erreichen eines Blatts. Wir nehmen an, daß e ·) so ist, daß ζ mit Wahrscheinlichkeit 1 endlich ist. die Blätterbeschriftung Q(·, Ew ζ kann endlich oder auch +∞ sein. Offenbar gilt Eζ = X s6=w qe(s) = X b∈B |b|qe(b) und andererseits, wegen qe(w) = 1 = Eζ = X s∈S qe(s) . P b∈B qe(b) Die Anzahl der Folgeknoten zu den s ∈ S mag übrigens durchaus abzählbar unendlich sein. c Prof. Dr. H. Dinges, 18. Dezember 1998 140 Bemerkung : Im Falle, daß ζ mit Wahrscheinlichkeit 1 endlich ist, ist X ζ eine Zufallsgröße mit Werten in der abzählbaren Menge B. Man kann auch im Falle, wo ζ mit positiver Wahrscheinlichkeit den Wert +∞ annimmt, zeigen, daß es ein Wahrscheinlichkeitsmaß IP w (·) auf der Menge Ω aller Wege durch den Baum gibt, so daß für alle s der Weg mit der Wahrscheinlichkeit q(s) durch s läuft. Betrachten wir als Beispiel den vollständigen binären Wurzelbaum, dessen sämtliche Kanten mit 12 beschriftet sind. Die Menge Ω aller Wege kann man hier mit der Menge aller Null–Eins–Folgen (δ1 , δ2 , . . .) identifizieren. Der zufällige Weg entspricht einer Folge von unabhängigen Münzwürfen. IPw (·) entspricht dem Lebesguemaß auf [0, 1], wenn man der Null–Eins–Folge (δ 1 , δ2 , . . .) die reelle Zahl ∞ P i=1 2−i δi zuord- net. Die abzählbar vielen Zahlen ∈ [0, 1], die in mehrfacher (d.h. zweifacher) Weise durch eine Null–Eins–Folge repräsentiert sind, müssen wir uns als Wahrscheinlichkeitstheoretiker nicht bekümmern. Das Beispiel zeigt, daß im Falle IPw (ζ < ∞) < 1 nichtdiskrete Maße auf der überabzählbaren Ω ins Spiel kommen. Diesen Fall wollen wir hier nicht weiter verfolgen. Wir konstruieren nun eine rekurrente Irrfahrt S, indem wir die in einem Blatt angekommene Irrfahrt sofort wieder in der Wurzel beginnen lassen und die Zufallsmechanismen bei jedem Durchgang immer wieder unabhängig betätigen. Das ergibt eine Irrfahrt mit der Übergangsmatrix Q(·, ·) auf S. Einmaliges Durchlaufen des Baums entspricht dann einer Exkursion der Wurzel in die Wurzel. Satz : Für die so konstruierte Irrfahrt X0 , X1 , X2 , . . . auf S ist q(·) eine invariante Gewichtung. Es ist die einzige invariante Gewichtung mit q(w) = 1. Der Beweis ist trivial. Satz : Sei P (·, ·) eine stochastische E × E–Matrix und x ∗ ein rekurrenter Zustand. Setze π(x∗ ) = 1 und für y 6= x∗ π(y) = Ex∗ (Anzahl der Besuch in y vor Rückkehr nach x∗ ). Es gilt dann πP = π . Beweis : Sei B die Menge aller Wörter b = (x∗ , x1 , . . . , xn−1 , x∗ ) mit xi 6= x∗ für alle i ≤ n − 1 c Prof. Dr. H. Dinges, 18. Dezember 1998 5.4 141 Rekurrente Irrfahrten und S die Menge aller Wörter s = (x∗ , x1 , . . . , xj ) mit xi 6= x∗ für alle i ≤ j . S∪B kann als Wurzelbaum mit der Wurzel (x ∗ ) verstanden werden. Wir beschriften die Kanten mit ∗ e t) = Q((x e Q(s, , x1 , . . . , xj−1 , x), ((x∗ , x1 , . . . , xj−1 , x, y)) = P (x, y) . Wegen der Rekurrenz von x∗ erhalten wir eine Irrfahrt, die mit Wahrscheinlichkeit 1 in einem Blatt b ∈ B landet. Wir lassen die Irrfahrt nach Erreichen eines Blattes sofort wieder in der Wurzel starten; m.a. Worten wir identifizieren alle Blätter mit der Wurzel x∗ . Dies liefert uns eine rekurrente Irrfahrt auf S mit der invarianten Gewichtung {q(s) : s ∈ S} X s∈S q(s) = Ex∗ (τ{x∗ } ) , wobei Ex∗ (·) auf die P (·, ·)–Irrfahrt auf E bezogen ist und τ{x∗ } = inf{n : n > 0, Xn = x∗ } . Wir definieren nun für jedes y ∈ E, y 6= x∗ π(y) = IEx∗ (Anzahl der Besuche in y vor Rückkehr nach x∗ ) = {s:s π(x∗ ) = 1 . X endet in Es gilt für alle y ∈ E X x π(x) · P (x, y) = q(s) x} X x {s:s = {t:t X endet in X endet in y} q(s) · P (x, y) q(t) = π(y) y} Also ist π(·) eine invariante Gewichtung, πP = π. Bemerke : X x π(x) = X x q(s) = IEx∗ (τ{x∗ } ) . c Prof. Dr. H. Dinges, 18. Dezember 1998 142 Sei P (·, ·) die ZZ × ZZ–Matrix zur einfachen symmetrischen Irrfahrt Beispiel : P (x, x + 1) = 1 = P (x, x − 1) für alle x . 2 Die konstante Gewichtung π(x) = 1 für alle x ∈ ZZ ist invariant. Die erwartete Anzahl der Besuche in y von x∗ = 0 aus bis zur ersten Rückkehr nach x∗ = 0 ist π(y) = 1 für alle y. Dieses Resultat mag überraschen. Bei oberflächlicher Betrachtung könnte man meinen, daß die erwartete Anzahl der Besuche in y vor der Rückkehr nach x∗ klein ist, wenn y weit weg von x∗ liegt. Dies ist aber nicht so, wie der Satz zeigt. c) Der Satz von Perron–Frobenius Satz : (Perron 1903) E sei endlich und Q(·, ·) sei eine E × E–Matrix mit nichtnegativen Einträgen so, daß alle Potenzen Q2 , Q3 , . . . irreduzibel sind. Es gilt dann a) Es gibt nur einen einzigen Eigenwert mit maximalem Betrag. Dieser Eigenwert λ ist einfach. b) Wenn man die Eigenzeile `(·) zu λ so normiert, daß `Q = λ` , X `(x) = 1 , dann gilt `(x) > 0 für alle x . c) Die Eigenspalte r(·) zu λ normieren wir so, daß Qr = λr , X `(x)r(x) = 1 , dann gilt r(x) > 0 für alle x . Es gilt lim n→∞ 1 Qn (x, y) = r(x)`(y) . λn Beweis : Zu jeder Zeile ξ mit nichtnegativen Einträgen und trachte man die Zeile η mit den Einträgen η(y) = P P ξ(x) = 1 be- X 1 ξ(x)Q(x, y) x,y ξ(x)Q(x, y) x Die Abbildung ξ 7−→ η bildet ein kompaktes Simplex in sich ab; nach dem Brouwerschen Fixpunktsatz existieren Fixpunkte. Wir haben also für einen solchen Fixpunkt c Prof. Dr. H. Dinges, 18. Dezember 1998 5.4 143 Rekurrente Irrfahrten P `Q = λ` mit λ > 0, `(x) = 1. Wähle einen solchen Fixpunkt, für welchen λ maximal ist. Wegen der Irreduzibilität von Q hat er strikt positive Einträge, `(x) > 0; denn wenn es eine zu ` nicht proportionale Eigenzeile è für den Eigenwert λ gäbe, wäre für ein geeignetes c auch ` − c è eine Eigenzeile 6= 0 mit nichtnegativen Einträgen, wobei aber `(x∗ ) − c è(x∗ ) = 0 für mindestens ein x∗ ; das ist unmöglich. Ebenso gewinnt man die Eigenspalte r(·). Qr = λr, Betrachte die Matrix P (x, y) = P `(x)r(x) = 1. 1 1 · Q(x, y) · r(y) . r(x) λ Es handelt sich um eine stochastische Matrix. Für alle n gilt P n (x, y) = 1 1 · n Qn (x, y) · r(y) . r(x) λ P (·, ·) und alle Potenzen P 2 , P 3 , . . . , sind irreduzibel. Die invariante Gewichtung e (·) mit zu P (·, ·) ist π X e (x) = r(x) · `(x) , π x e (x)P (x, y) = π e (y) . π Um c) zu beweisen, genügt es den folgenden Satz zu beweisen. Satz : Es sei P (·, ·) eine stochastische Matrix, so daß P, P 2 , P 3 , . . . irreduzibel sind. Es gilt dann e (y) , lim P n (x, y) = π n→∞ e (·) die einzige invariante Wahrscheinlichkeitsgewichtung zu P (·, ·) ist. wobei π Beweis : X y e (y)P (y, x) = π e (x) > 0 , π Xπ e (y) P (y, x) = 1 . e y π (x) Für jedes feste x betrachten wir die Gewichtung py = Es gilt e (y) π P (y, x) . e π (x) X py = 1 und für jede Wahrscheinlichkeitsgewichtung π(·) y X y py · πP (x) π(y) = . e (y) e (x) π π c Prof. Dr. H. Dinges, 18. Dezember 1998 144 Nach Jensens Ungleichung gilt für jedes konvexe k(·) πP (x) k e (x) π X =k y π(y) py · e (y) π ! ≤ X y π(y) py · k e (y) π . e (x) und summieren über x Wir gewichten mit π X x πP (x) e (x) · k π e (x) π Xπ e (y) π(y) e (x) P (y, x) · k π e e (y) π x y π (x) X π(y) e (y) · k π . e (y) π y X ≤ = Für das Funktional π 7−→ F (π) = haben wir also X x π(x) e (x) · k π e (x) π F (π) ≥ F (πP ) ≥ F (πP 2 ) ≥ . . . e . Daher Wenn k(·) strikt konvex ist, dann gilt F (π) = F (πP ) nur für π = π lim ↓ F (πP n ) πP n = e) F (π e . −→ π Aus diesem Konvergenzsatz für die Potenzen aperiodischer stochastischer Matrizen ergibt sich die Aussage c) des Satzes von Perron–Frobenius wie folgt lim P n (x, y) = π(y) = r(y) · `(y) n 1 1 lim · n Qn (x, y) · r(y) = r(y) · `(y) n r(x) λ 1 lim n Qn (x, y) = r(x) · `(y) .. n λ c Prof. Dr. H. Dinges, 18. Dezember 1998 5.5 145 Irrfahrten in kontinuierlicher Zeit 5.5 Irrfahrten in kontinuierlicher Zeit Stochastische Konstruktion Sei λ(·) strikt positiv auf E und Q(·, ·) eine stochastische E × E–Matrix mit verschwindender Diagonale. Denken wir uns in jedem Knoten x des Graphen E einen Zufallsmechanismus postiert, der mit Wahrscheinlichkeit Q(x, y) auf den Knoten y verweist. Die Zufallsmechanismen operieren unabhängig. Seien T1 , T2 , . . . unabhängig exponentialverteilt mit E T = 1 und unabhängig von den in den Knoten postierten Zufallsmechanismen. Ein Irrfahrer, der im Knoten X 0 1 beginnt, verweilt dort die Zeit λ(X · T1 und springt dann gemäß Q(X0 , ·) in den 0) 1 · T2 und springt dann gemäß Q(X1 , ·) Knoten X1 , verweilt dort die Zeit λ(X 1) in den Knoten X2 , . . .. Nach ∞ vielen Sprüngen, wenn es solche in endlicher Zeit geben sollte, wird der Irrfahrer in einem Zusatzpunkt ∂ ( Friedhofspunkt“) ” e t ∈ E ∪ {∂} die Position zum Zeitpunkt t festgehalten. Sei X e t = X0 X 1 λ(X0 ) · T1 =: τ1 für 0≤t< e t = X1 X für τ1 ≤ t < τ 1 + et = ∂ X für ζ := lim ↑ τk ≤ t . 1 λ(X1 ) · T2 =: τ2 ··· Offenbar gilt für alle x, y ∈ E lim h↓0 1 e t+h = y | X e t = x = λ(x) · Q(x, y) . Ws X h λ(x) heißt die Sprungrate im Punkt x; Q(·, ·) heißt die Skelettmatrix der Irrfahrt e t : t < ζ}. {X Wir nähern uns diesen Irrfahrten in kontinuierlicher Zeit von seiten der Analysis. Satz : Sei Q(·, ·) eine stochastische E × E–Matrix mit Q(x, x) = 0 für alle x. λ(·) sei eine strikt positive Funktion auf E, die wir zunächst als beschränkt annehmen. Wir setzen A(x, y) = λx · Q(x, y) für x 6= y A(x, x) = −λx für alle x P t (·, ·) = exp(t · A) = I + tA + 1 2! c Prof. Dr. H. Dinges, t2 A2 + 1 3! t3 A3 + . . . 18. Dezember 1998 146 Dann ist P t (·, ·) eine stochastische Matrix für alle t ≥ 0 und es gilt P s · P t = P s+t für alle s ≥ 0, t ≥ 0 . 1 lim (P t+h − P t ) = P t · A = A · P t . h↓0 h Beweis : 1) Sind A, B kommutierende Matrizen, A·B = B ·A, mit beschränkten Summen der Absolutbeträge der Zeileneinträge. Es gilt dann eA · eB = eA+B . In der Tat gilt für n = 0, 1, 2, . . . (A + B) A e ·e n B ! ! ! n n n−2 n n−1 Bn A · B2 + . . . + A ·B+ = A + n 2 1 n ∞ X 1 = k! 0 = ∞ X 1 n! 0 A k ! · ∞ X 1 0 `! B ` ! (A + B)n = eA+B . Insbesondere gilt also exp(sA) · exp(tA) = exp((s + t)A) . 2) Für unsere A(·, ·) sind alle Zeilensummen = 0. Damit sind auch die Zeilensummen von A2 , A3 , . . . gleich 0. Die Zeilensummen von exp(tA) = I + tA + 1 2 2 t A +... 2! sind = 1. 3) exp(tA) = lim (I + n→∞ t n A)n Für genügend kleine n hat I + nt A für t ≥ 0 nichtnegative Einträge. Also ist P t eine stochastische Matrix für alle t ≥ 0. 4) 1 h (P h − I) = A + O(h) für h → 0 (P t+h − P t ) = P t (P h − I) = (P h − I)P t . c Prof. Dr. H. Dinges, 18. Dezember 1998 5.5 147 Irrfahrten in kontinuierlicher Zeit Sprechweise : Die eben konstruierte Schar {P t : t ≥ 0} heißt die stochastische Halbgruppe zur infinitesimalen Matrix A. Die Matrix Q(·, ·) heißt Skelettmatrix zur Halbruppe. λx = −A(x, x) heißt die Sprungrate in x. Wir betrachten nun den allgemeineren Fall, wo λ(·) auch unbeschränkt sein kann. Wir beginnen aber vom anderen Ende. Dabei folgen wir den Bezeichnungen im Standardwerk: K.L. Chung: Markov Chains with Stationary Transition Probabilities Springer Grundlehren Bd. 104 (1967). E sei abzählbar. Eine E×E–Matrix P (·, ·) heißt substochastisch, Definition : wenn X P (x, y) ≥ 0 für alle x, y ; y P (x, y) ≤ 1 für alle x . Eine Familie substochastischer Matrizen {P t (·, ·) : t ≥ 0} heißt eine Standard– Halbgruppe, wenn (i) P s · P t = P s+t für alle s, t (ii) lim P s = I (d.h. P s (x, y) → 0 für alle x 6= y, P s (x, y) → 1 für alle x) s→0 Lemma : Für jede Standard–Halbgruppe existiert A(x, y) = lim s→0 1 s P (x, y) s für alle x 6= y . (ohne Beweis ! ) Wir setzen für alle x ∈ E 1 s→0 s (iii) λx = −A(x, x) = lim (1 − P s (x, x)) und nennen x eine stabilen (reinen) Zustand, wenn λ x < ∞. Die Zahl λx heißt die Sprungrate im Zustand x. Die Matrix 1 s→0 s (iv) A = lim (P s − I) heißt die infinitesimale Matrix. c Prof. Dr. H. Dinges, 18. Dezember 1998 148 Wir betrachten im folgenden nur Standard–Halbgruppen mit endlichen Sprungraten. Satz : a) Zu jeder E × E–Matrix A(·, ·) mit A(x, y) ≥ 0 −A(x, x) ≥ X für x 6= y A(x, y) y6=x für alle x (λx = −A(x, x)) existiert mindestens eine Standard–Halbgruppe {P t : t ≥ 0} mit lim h↓0 1 (P h (x, y) − I(x, y)) = A(x, y) für alle x, y . h b) Es gibt in jedem Falle eine minimale solche Standard–Halbgruppe {Pe (t) : t ≥ 0} zur Matrix A(·, ·). Wenn diese minimale Halbgruppe aus stochastischen Matrizen besteht, dann gibt es keine weiteren Standard–Halbgruppen. Beweisskizze : Wir konstruieren die minimale Halbgruppe wie oben. Ein in x 0 startender Irrfahrer bleibt dort eine exponentiell verteilte Haltezeit mit dem Erwartungswert 1/λ(x0 ) und springt dann nach x1 mit der Wahrscheinlichkeit Q(x0 , x1 ) = 1 · A(x0 , x1 ) λ x0 und in den Friedhofspunkt“ ∂ mit der Wahrscheinlichkeit 1 − ” t Pe (x, y) = Wsx P x1 Q(x0 , x1 ) usw. (Irrfahrer befindet sich in y zur Zeit t) liefert die minimale Standard–Halbgruppe. Bemerke : Auch im Falle −A(x, x) = P y6=x nicht notwendigerweise stochastische Matrizen. 1. Beispiel : t A(x, y) für alle x sind die Pe (·, ·) (Reiner Geburtsprozeß) E = {0, 1, 2, . . .} Q(x, x + 1) = 1 für alle x , −A(x, x) = λx , Q(x, y) = 0 für alle y 6= x + 1 A(x, x + 1) = λx . c Prof. Dr. H. Dinges, 18. Dezember 1998 5.5 149 Irrfahrten in kontinuierlicher Zeit P Wenn mit lim 1 λx t = +∞, dann existiert genau eine Standard–Halbgruppe { Pe : t ≥ 0} 1 eh (P (x, y) − I(x, y)) = A(x, y) für alle x, y . h Man stelle sich eine Population vor, die mit der Rate λ x wächst, wenn sie aus x Individuen besteht. Die Abstände zwischen den Zeitpunkten, wo sie wächst, sind unabhängig exponentiell verteilt mit Erwartungswerten, deren Summe divergiert. P 1 Wenn λx < ∞, dann ”explodiert“ die Population vor dem Zeitpunkt t > 0 mit positiver Wahrscheinlichkeit. 2. Beispiel : (Einfachste Warteschlangen) In ein System kommen in einem stationären Strom mit der Rate λ · dt Kunden. Wir nehmen an, daß es sich um einen Poissonstrom im Sinne von Kapitel 2 handelt. Die Kunden warten, daß ihr Anliegen bearbeitet wird und verlassen das System, wenn das Anliegen fertig bearbeitet ist. Die Bearbeitungszeiten seien unabhängige identisch verteilte Zufallsgrößen mit dem Erwartungswert µ1 . Um die Sache einfach zu machen, nehmen wir an, daß sie exponentiell verteilt sind. Auf diesen Fall paßt nämlich die Theorie der Markovprozesse ganz direkt. Die Anzahl der Kunden im System ist dann nämlich eine Irrfahrt auf dem Zustandsraum E = {0, 1, 2, . . .} a) Es mögen beliebig viele Bearbeiter zur Verfügung stehen. Die Matrix der Sprungtendenzen ist dann A(x, x + 1) = λ , A(x, x − 1) = xµ , A(x, x) = −(λ + xµ) A(x, y) = 0 für |y − x| > 1 . Ganz gleich, wo die Irrfahrt zur Zeit 0 beginnt, nach langer Zeit befindet sich eine annähernd poissonverteilte Anzahl von Kunden im System. Der Erwartungswert E Xt der Anzahl der Kunden im System ist (für t → ∞) lim E Xt = t→∞ λ . µ (Wir werden allgemeinere Geburts– und Todesprozesse im nächsten Abschnitt behandeln.) b) Es möge nur ein Bearbeiter zur Verfügung stehen A(x, x + 1) = λ , −A(0, 0) = λ , A(x, x − 1) = µ für x = 1, 2, . . . −A(x, x) = λ + µ für x = 1, 2, . . . A(x, y) = 0 für |y − x| > 1 . c Prof. Dr. H. Dinges, 18. Dezember 1998 150 Wenn λ < µ, dann entwickelt sich eine stationäre Warteschange, geometrisch verteilt mit lim Ws(Xt > 0) = t→∞ λ . µ Im Falle λ ≥ µ stellt sich kein stationärer Zustand“ ein. ” Bemerke : Die Formel für E x im Fall a) und für Ws(X > 0) im Fall b) ergibt sich aus einer Bilanzüberlegung, die man auch in allgemeineren Fällen anstellen kann. In einem langen Zeitintervall T fällt die Arbeitslast µλ · T an. Sie muß bewältigt werden. Im Fall a) sind stets X Bearbeiter am Werk. Die abgeleistete Arbeit ist also T · E X. Im Fall b) ist die abgeleistete Arbeit T · Ws(X > 0). Sprechweise : Wir denken an Irrfahrten auf dem Graphen mit den Knotenmenge E . Die Knoten x heißen reine Zustände. Die Wahrscheinlichkeitsgewichtungen auf E heißen gemischte Zustände. Ein gemischter Zustand heißt ein station ärer Zustand, wenn er sich in der Zeit nicht verändert. Im Falle diskreter Zeit ist ein P stationärer Zustand eine Gewichtung ν(·) mit ν(x)Q(x, y) = ν(y) für alle y. x Im Falle kontinuierlicher Zeit ist ein stationärer Zustand eine Gewichtung µ mit µP t = µ für alle t. c Prof. Dr. H. Dinges, 18. Dezember 1998 5.6 151 Stationäre Markov–Ketten 5.6 Stationäre Markov–Ketten Sei Q(·, ·) eine rekurente irreduzible stochastische E × E–Matrix und ν(·) die invariante Gewichtung. (Sie ist bekanntlich bis auf eine multiplikative Konstante eindeutig bestimmt.) Wenn ν(·) ein Wahrscheinlichkeitsmaß, dann existiert ein stationärer E–wertiger Prozeß . . . , X−1 , X0 , X1 , X2 , . . . mit der Eigenschaft Ws(Xm = x0 , Xm+1 = x1 , . . . , Xm+` = x` ) = ν(x0 ) · Q(x0 , x1 ) · Q(x1 , x2 ) · . . . , ·Q(x`−1 , x` ) für alle m, alle ` ≥ 0 und alle x0 , . . . , x` . Betrachten wir den zeitumgekehrten station ären Prozeß . . . , Y−1 , Y0 , Y1 , Y2 , . . . = . . . , X1 , X0 , X−1 , X−2 , . . . Es gilt für alle m, ` ≥ 0 und alle y0 , . . . , y` Ws(Ym = y0 , Ym+1 = y1 , . . . , Ym+` = y` ) e 0 , y1 ) · Q(y e 1 , y2 ) · . . . , · Q(y e m−1 , ym ) = ν(y0 ) · Q(y mit der Matrix e Q(y, x) = ν(x) · Q(x, y) · Bemerke : X y 1 . ν(y) ν(x) · Q(x, y) = ν(y) = X z e ν(z) · Q(z, y) . Wir stellen uns zu Q(·, ·) einen Massenfluß durch den Zustandsraum vor. Im Knoten x befindet sich zur Zeit m die Masse ν(x). In der Zeitspanne von m bis m + 1 fließt der Anteil ν(x)Q(x, y) nach y; durch die Kante (x, y) fließt also in jedem Zeittakt die Masse ν(x)Q(x, y). e ·). In jedem Zeittakt fließt In derselben Weise erhalten wir einen Massenfluß zu Q(·, die Masse e ν(y) Q(y, x) = ν(x)Q(x, y) e ·) ist also der zeitumgekehrte Fluß. durch die Kante (y, x). Dieser Fluß zu Q(·, c Prof. Dr. H. Dinges, 18. Dezember 1998 152 Sprechweise : Die rekurrente irreduzible stochastische E × E–Matrix Q(·, ·) erzeugt einen zeitumkehrbaren Fluß durch E, wenn es eine Gewichtung ν(·) gibt mit ν(x)Q(x, y) = ν(y)Q(y, x) für alle x, y . Man sagt in diesem Fall auch, daß die Gewichtung ν(·) die individuellen Bilanzrelationen erfüllt. Bemerke : a) Wenn ν(·) die individuellen Bilanzrelationen erfüllt, dann ist ν(·) eine stationäre Gewichtung; denn X ν(x)Q(x, y) = x X x ν(y)Q(y, x) = ν(y) für alle y ∈ E . b) Wenn Q(·, ·) einen zeitumkehrbaren Fluß definiert, dann gewinnt man die invariante Gewichtung ν ∗ (·) mit ν ∗ (x∗ ) = 1 sehr leicht folgendermaßen. Für alle y mit Q(x∗ , y) > 0 haben wir ν ∗ (y) = ν ∗ (x∗ ) · Q(x∗ , y) . Q(y, x∗ ) Für die z, die man in zwei Schritten von x ∗ aus erreichen kann, gewinnt man ν ∗ (z) in derselben Weise. c) Wenn man von einer Matrix Q(·, ·) nicht weiß, ob sie einen zeitumkehrbaren Fluß erzeugt, dann kann man mit dem Ansatz in b) versuchen, ein ν ∗ aufzubauen. Wenn es da zu keinen Inkonsistenzen kommt, hat man die invariante Gewichtung gefunden. Beispiel : (Geburts– und Todesprozesse) Sei Q(·, ·) eine rekurrente irreduzible stochastische Q(x, x + 1) + Q(x, x − 1) = 1 für alle x. ZZ + × ZZ+ –Matrix mit Der stationäre Fluß ist zeitumkehrbar. In einem Zeittakt kann nämlich die Masse nur um einen Schritt nach rechts oder einen Schritt nach links verschoben werden. Wir haben ν(x − 1)Q(x − 1, x) = ν(x)Q(x, x − 1) ; denn es kann (wegen der Rekurrenz) nicht mehr Masse durch die Kante (x − 1, x) nach rechts fließen als nach links. ν(x) Q(x − 1, x) = ν(x − 1) Q(x, x − 1) für alle x . c Prof. Dr. H. Dinges, 18. Dezember 1998 5.6 153 Stationäre Markov–Ketten Bemerke : Wenn der Graph zur Matrix Q(·, ·) in zwei Teilgraphen, die nur e) verbunden sind, zerfällt, dann läuft im stationären über eine einzige Kante (x∗ , x Zustand über diese Kante ebensoviel Masse in die eine wie in die andere Richtung. e) = ν(x e)Q(x e , x∗ ) . ν(x∗ )Q(x∗ , x Beim Geburts– und Todesprozeß ist jede Kante (x, x + 1) eine solche separierende Kante. Es ist unnatürlich, Geburts– und Todesprozesse in diskreter Zeit zu betrachten. Wir studieren nun Prozesse in kontinuierlicher Zeit mit der Skelettmatrix Q(·, ·). Sie sind dadurch gegeben, daß man in allen Knoten x Sprungtendenzen λ x vorgibt. Die infinitesimale Matrix ist A(x, x) = −λx für alle x A(x, y) = λx · Q(x, y) für alle y 6= x . Wenn die Sprungtendenzen λx nicht in unangenehmer Weise groß werden, dann gibt es genau eine Standard–Halbgruppe P t : t ≥ 0} mit lim h↓0 1 (P h (x, y) − I(x, y)) = A(x, y) . h Man kann dann ohne die Gefahr von Mißverständnissen schreiben P t = exp(t · A) für t ≥ 0 . Wir haben eine invariante Gewichtung µ(·) µP t = µ für alle t ≥ 0 nämlich µ(x) = X x 1 λx · ν(x), wo νQ = ν; denn für alle y µ(x)A(x, y) = ν(y) · X 1 1 (−A(y, x)) + ν(x) · λx Q(x, y) = 0 . λy λ x6=y x Wir haben einen stationären Prozeß {Xt : t ∈ IR} mit Ws(Xt0 = x0 , Xt1 = x1 , . . . , xtl = x` ) = µ(x0 )P t1 −t0 (x0 , x1 ) · P t2 −t1 (x1 , x2 ) · . . . · P t` −t`−1 (x`−1 , x` ) für alle t0 ≤ t1 ≤ . . . ≤ t` und alle x0 , x1 , . . . , x` . Zu diesem Prozeß gehört ein stationärer Massenfluß in kontinuierlicher Zeit. Im Zeitintervall (t, t + h) fließt durch die Kante (x, y) die Masse µ(x)A(x, y)h + o(h) = ν(x)Q(x, y)h + o(h) für h → 0 . Genau dann ist dieser zeitlich kontinuierliche stationäre Massenfluß zeitlich umkehrbar, wenn die Skelettmatrix Q(·, ·) einen zeitumkehrbaren Fluß in diskreter Zeit hervorruft. c Prof. Dr. H. Dinges, 18. Dezember 1998 154 Beispiel : (Geburts– und Todesprozesse) E = ZZ+ . A(x, x + 1) = p(x) , A(x, x − 1) = q(x) , A(x, y) = 0 für |y − x| > 1 . A(x, x) = −(p(x) + q(x)) . Natürlich auch q(0) = 0) . p(x) > 0 für alle x . a) Ein Markovprozeß mit IP(Xh = y) − δ(x, y) = hA(x, y) + o(h) für h → 0 heißt ein Geburts– und Todesprozeß in kontinuierlicher Zeit. b) Die eingebettete Markov–Kette Y 0 , Y1 , . . . hat die Einschrittübergangswahrscheinlichkeit Q(x, x + 1) = p(x) , p(x) + q(x) Q(x, x − 1) = q(x) . p(x) + q(x) c) Die individuellen Bilanzrelationen können erfüllt werden µ({x})Q(x, x + 1) = µ({x + 1}) · Q(x + 1, x) ⇐⇒ für alle x ∈ ZZ+ µ({x + 1}) Q(x, x + 1) = µ({x}) Q(x + 1, x) ⇐⇒ µ({x}) = µ({0}) · p(0) · p(1) p(2) p(x − 1) p(x) + q(x) · · ... · · q(1) q(2) q(x − 1) q(x) für alle x . p(2) Es hängt von der Folge p(1) q(1) , q(2) . . . . ab, ob die Folge der Gewichte eine endliche Summe hat. In jedem Falle gibt es aber ein σ–endliches Q–invariantes Maß. d) Es hängt nicht nur von den Quotienten p(x−1) q(x−1) sondern auch von den Beträgen p(x) + q(x) ab, ob der zugehörige Prozeß in kontinuierlicher Zeit explodiert. e) Für jede Funktion f haben wir Af (x) = X A(x, y)f (y) y = p(x)[f (x + 1) − f (x)] − q(x)[f (x) − f (x − 1)] p(x) q(x) = [p(x) + q(x)] · f (x + 1) − f (x) + f (x − 1) . p(x) + q(x) p(x) + q(x) c Prof. Dr. H. Dinges, 18. Dezember 1998 5.6 155 Stationäre Markov–Ketten Jedenfalls dann, wenn die Folge {p(x) + q(x) : x ∈ ZZ + } beschränkt ist haben wir kAf k∞ ≤ const kf k∞ . Es gibt aber auch noch andere Fälle, in welches es genau eine stochastische Halbgruppe {P t : t ≥ 0} gibt mit 1 (P h − I)(x, y) −→ A(x, y) h für alle x, y . (Beispiele unten!) f) Wenn die Matrix A(·, ·) der Bedingung genügt kAf k∞ ≤ const kf k , dann ist P t = exp(tA) eine wohldefinierte Halbgruppe stochastischer Matrizen. Wie oben finden wir ein endliches oder σ–endlices ρ mit ρP t = ρ für alle t . ρ({x}) = µ({x}) · [A(x, x)]−1 , p(x) ρ({x + 1}) = . ρ({x}) q(x + 1) g) In eine Warteschlange kommen Kunden gemäß einem konstanten Poisson” strom“ mit der Intensität grl. Für paarweise disjunkte Intervalle auf der Zeitachse haben wir unabhängige Anzahlen von Kunden; diese Anzahlen sind poissonverteilt mit dem Erwartungswert λ· Länge des Zeitintervalls. (i) Nehmen wir an, daß jeder Kunde unabhängig von allen anderen die Schlange nach einer exponentiellen Zeit mit dem Erwartungswert = µ1 wieder verläßt. Man sollte sich vorstellen, daß beliebig viele Schalter offen sind und die Bearbeitung seines Problems eine exponentiell verteilte Zeit beansprucht. Xt sei die Länge der Schlange zur Zeit t. {Xt : t ≥ 0} ist dann ein Markovprozeß zum Generator A(·, ·) mit A(x, x + 1) = λ für alle x , A(x, x − 1) = µx für x = 1, 2, . . . A(x, x) = −(λ + µx) , A(x, y) = 0 für |y − x| > 1 . Die bis auf eine multiplikative Konstante eindeutig bestimmte invariante Verteilung ist die Poissonverteilung 1 ρ({x}) = x! x λ µ λ · exp − µ für x = 0, 1, 2, . . . (ii) Nehmen wir an, daß nur ein Schalter geöffnet ist und jeder Kunde den Schalter eine exponentiell verteilte Zeit T beansprucht, E T = µ1 mit µ > λ. c Prof. Dr. H. Dinges, 18. Dezember 1998 156 Die Länge der Schlange Xt ist ein Markovprozeß mit dem Generator A(·) A(x, x − 1) = µ für x = 1, 2, . . . A(x, x + 1) = λ , A(x, x) = −(λ + µ) , A(x, y) = 0 für |y − x| > 1 . Die stationäre Wahrscheinlichkeitsverteilung ist die geometrische Verteilung λ ρ({x}) = 1 − µ −1 für x = 0, 1, 2, . . . Wenn µ ≤ λ dann explodiert der Prozeß. Merke : Im zeitkontinuierlichen Fallen lauten die individuellen Bilanzrelationen ρ({x})A(x, y) = ρ({y})A(y, x) für alle x, y Man kann nicht bei jedem A(·, ·) erwarten, daß es eine nichtnegative Lösung ρ(·) gibt. Und, wenn es eine gibt, ist auch nicht klar, ob sie zu einem stationären Prozeß Lµ (X) gehört; denn die Übergangshalbgruppe {P t (·, ·) : t ≥ 0} ist durch A(·, ·) im allg. nicht eindeutig bestimmt. c Prof. Dr. H. Dinges, 18. Dezember 1998 5.7 157 Irrfahrten und elektrische Netzwerke 5.7 Irrfahrten und elektrische Netzwerke Gegeben ist eine E × E–Matrix C(·, ·) mit C(x, y) = C(y, x) ≥ 0 C(x) := X für alle x, y ; C(x, y) > 0 C(x, x) = 0 für alle x . y Wir interpretieren die Punkte von E als die Knoten in einem endlichen elektrischen Netzwerk und die Zahl C(x, y) als die Leitfähigkeit der Verbindung von x nach y. (Die Leitfähigkeit ist das Reziproke des Ohm’schen Widerstands.) Die Gesamtheit der (x, y) mit C(x, y) > 0 macht E zu einem ungerichteten Graphen ohne Schleifen und ohne Mehrfachkanten. Wir nehmen an, daß dieser Graph zusammenhängend ist. I. Irrfahrt im spannungslosen Zustand Wir gewinnen eine stochastische E × E–Matrix, wenn wir definieren P (x, y) = 1 · C(x, y) . C(x) Diese stochastische Matrix definiert eine irreduzible rekurrente Irrfahrt in diskreter Zeit mit der stationären Verteilung C(·). (Wir verzichten darauf, die Gewichtung auf die Gesamtmasse 1 zu normieren). In der Tat sind die individuellen Bilanzrela” tionen“ erfüllt C(x) · P (x, y) = C(y) · P (y, x) für alle x, y . Die stationäre Irrfahrt ist also reversibel. Wir können auch eine Irrfahrt in kontinuierlicher Zeit mit C(·, ·) assoziieren, indem wir die C(x, y) als Übergangsraten interpretieren. Ein Irrfahrer hält sich eine expo1 im Zustand x und springt dann nentiell verteilte Zeit mit dem Erwartungswert C(x) gemäß P (x, ·) in einen der Nachbarknoten. Für die Übergangswahrscheinlichkeiten {P t (·, ·) : t ≥ 0} gilt P t = exp(t · A) mit A(x, y) = lim h&0 −C(x) 1 h P (x, y) − δ(x, y) = C(x, y) h für y = x für y = 6 x. Wir bemerken am Rande: Die stationäre Verteilung ist hier die Gleichverteilung auf E. Für die Anzahl der Übergänge von x nach y in einer langen Zeit T gilt: 1 1 NT (x, y) = C(x, y) . T →∞ T |E| lim c Prof. Dr. H. Dinges, 18. Dezember 1998 158 II. Spannungen e Wir wählen eine Teilmenge ∂E von E aus und geben uns dort eine Funktion f(·) vor. Da der Graph zusammenhängend ist, gibt es von jedem Knoten aus einen Weg in einen Randpunkt“. Wir stellen uns dazu vor, daß in den Randpunkten“ x des ” ” Netzwerkes das Potential fe(x) durch Verbindung mit externen Spannungsquellen e = 0.) Im Netzwerk fixiert wird. (Aus Bequemlichkeit nehmen wir an min f(x) x∈∂E fließen nun Ströme i(x, y) gemäß den Potentialdifferenzen in den Punkten x und y und zwar (nach dem Ohm’schen Gesetz) i(x, y) = C(x, y) · (f (x) − f (y)) = −i(y, x) . Die Berechnung von f (·) erfolgt mittels des Kirchhoffschen Gesetzes. Dieses besagt, daß in den inneren“ Knotenpunkten genausoviel Strom zu– wie abfließt. Für ” x ∈ E\∂E gilt also 0= X X i(x, y) = y y C(x, y)(f (x) − f (y)) " = C(x) f (x) − X P (x, y)f (y) y # . f (·) ist also die (eindeutig bestimmte!) Lösung des Dirichletproblems f (x) = P y P (x, y)f (y) für x ∈ E\∂E f (x) = fe(x) für x ∈ ∂E . Zur Erinnerung Die Eindeutigkeit der Lösung ergibt sich aus dem Minimumsprinzip für harmonische Funktionen. Die Existenz gewinnt man am leichtesten durch die Betrachtung der Irrfahrt zu P (·, ·) : f (x) = Ex (fe(Xτ )) , wo τ der Zeitpunkt ist, zu welchem die (in x startende) Irrfahrt X 0 , X1 , . . . den Rand zum ersten Male trifft. Wir werden unten eine andere Methode zur Bestimmung von f (·) diskutieren. Wir betrachten nun f (·) als gegeben und notieren A = {x : f (x) = X y P (x, y)f (y)} ⊇ E\∂E , H = {x : f (x) > P f (x)} ⊆ ∂E , N = {x : f (x) < P f (x)} ⊆ ∂E . In den Punkten aus A ist das Potential ausgeglichen“, in denen aus H ist es ” hoch“, in denen aus N ist es niedrig“. ” ” c Prof. Dr. H. Dinges, 18. Dezember 1998 5.7 159 Irrfahrten und elektrische Netzwerke III. Stromzufluß e Um das Potential f(·) auf dem Rand in H ∪N aufrecht zu erhalten, müssen Ströme in den hohen Rand H eingeleitet und vom niedrigen Rand abgeführt werden. Wir nehmen einen zusätzlichen Knoten w dazu und definieren i(w, x) = −i(x, w) = C(x)(f (x) − P f (x)) Beachte: i(w, x) > 0 für x∈H i(w, z) < 0 für z∈N i(w, y) = 0 für y∈A. für alle x ∈ E . P e i(w, ·) heißt der Ein– und Ausfluß zu f(·). Die Zahl ej = i(w, x) nennen wir x∈H den Gesamtfluß zu fe(·). P i(w, z); denn wegen f (y) − P f (y) = 0 für alle y ∈ E\(H ∪ N ) Beachte ej = − haben wir X x∈H z∈N i(w, x) + X i(w, z) = z∈N = = X y∈E C(y)(f (y) − P f (y)) y∈E C(y)f (y) − X X y,x X C(x)P f (x) x∈E C(y, x)f (y) − X C(x)P (x, y)f (y) = 0 . x,y IV. Irrfahrt zur Randfunktion fe(·) Wir konstruieren eine stationäre Irrfahrt in diskreter Zeit auf E ∪ {w}, bei der die e Flüsse die eben aus f(·) abgeleiteten i(·, ·) sind. Der Übergangskern Pe (·, ·) ist folgendermaßen zu bestimmen: (i) Wenn x ∈ / N ∪ {w} Pe (x, y) = P (x, y) = 1 C(x, y) für y ∈ E , C(x) Pe (x, w) = 0 . 1 i(w, y) / H. = i(w, y) für y ∈ H und = 0 für y ∈ (ii) Pe (w, y) = P e i(w, x) j x∈H (iii) Für z ∈ N definieren wir Pe (z, w) = 1 − e f(z) P f (z) (hier ist die Annahme wichtig, daß min fe(z) = 0.) c Prof. Dr. H. Dinges, 18. Dezember 1998 160 (iv) Für z ∈ N , y ∈ E setzen wir Pe (z, y) = (1 − Pe (z, w)) · P (z, y) = fe(z) · P (z, y) . P f (z) In Worten: Von der Stromquelle“ w aus gelangt man gemäß Pe (w, ·) auf den hohen ” Rand; die Übergangswahrscheinlichkeiten zwischen inneren Punkten sind die alten P (·, ·); vom niederen Rand gelangt man mit einer gewissen Wahrscheinlichkeit in die Stromquelle“ w und mit Wahrscheinlichkeiten proportional zu den alten zurück in ” die alten Knoten. Zur stochastischen Matrix Pe (·, ·) bestimmen wir die (bis auf eine Konstante) eine(·). deutig bestimmte invariante Gewichtung µ Satz Die invariante Gewichtung zu Pe (·, ·) ist e(w) = e µ j e(y) = C(y) · f (y) für y ∈ E\N µ e(z) = C(z) · P f (z) für z ∈ N . µ Beweis 1) Das, was von y ∈ E nach x ∈ E hineinfließt, ist e(y)Pe (y, x) = C(y)f (y)P (y, x) . µ Für alle x ∈ E haben wir somit X y∈E e(y)Pe (y, x) = µ = X C(y)f (y)P (y, x) y∈E X C(y, x)f (y) y = C(x) X P (x, y)f (y) y = C(x) · P f (x) . e(x) ; Für x ∈ N ist das das gewünschte µ e(x) wegen P f (x) = f (x) ; für x ∈ E\(N + H) ergibt sich µ e(x) ; für x ∈ H fehlt der Betrag C(x)(f (x) − P f (x)) zu µ dies ist aber gerade der von w her geleistete Beitrag e(w)Pe (w, x) i(w, x) = µ für x ∈ H. c Prof. Dr. H. Dinges, 18. Dezember 1998 5.7 161 Irrfahrten und elektrische Netzwerke 2) Von den Punkten z am niederen Rand fließt der Anteil P f (z) − f (z) P f (z) nach w. Durch die Leitung von z nach w fließt also e(z)Pe (z, w) = C(z)(P f (z) − f (z)) = −i(w, z) . µ Wir bemerken noch über die Flüsse im Inneren: Die konstruierte stationäre Irrfahrt ist nicht reversibel. Die Differenz dessen, was (im stationären Zustand der Irrfahrt) von x nach y fließt, und dem, was von y nach x fließt, ist gerade der Strom i(x, y). In der Tat gilt e(x)Pe (x, y) − µ e(y)Pe (y, x) = C(x)f (x)P (x, y) − C(y)f (y)P (y, x) µ = C(x, y)(f (x) − f (y)) = i(x, y) . Bemerke Stellen wir uns eine Batterie vor, deren negativer Pol das Potential e 0 hat, während das Potential f (w) am positiven Pol größer als max f(x) ist. Wir denken uns w mit x ∈ H durch eine Kante mit der Leitfähigkeit C(w, x) = i(w, x) e f (w) − f(x) verbunden. Außerdem sei w mit z ∈ N durch eine Kante mit der Leitfähigkeit C(z, w) = i(z, w) e f(z) e verbunden. Wir haben dann das vorgegebene f(·) auf ∂E durch einen geschlossenen Stromkreis realisiert. V. Thomsons und Dirichlets Minimalprinzip Wir haben zu den Randspannungen e f(·) auf ∂E den Ein– und Ausstrom“ gewonnen ” i(w, x) für x ∈ ∂E . Wir erinnern an die Vorzeichen X i(w, x) > 0 für i(w, z) < 0 für i(w, y) = 0 für i(w, x) = 0 . x∈H , z∈N , y ∈ E\(H ∪ N ) , x c Prof. Dr. H. Dinges, 18. Dezember 1998 162 e Wir fragen nun, wie man aus i(w, ·) die Randspannungen f(·)+const zurückgewine nen kann. Wir werden f(·) durch ein Minimalprinzip kennzeichnen. Die folgenden P Konstruktionen gehen von einem beliebigen i(w, ·) mit i(w, x) = 0 aus. Der x∈E Schlüsselbegriff für die Resultate ist die Energiedissipation“. Wir erinnern uns, daß ” ein Strom I, der von einer Spannungsdifferenz U durch einen Ohm’schen Widerstand R getrieben wird, die Leistung U I = RI 2 = R1 U 2 = CU 2 abgibt. Sprechweise Sei i(w, ·) irgendwie vorgegeben mit P x i(w, x) = 0 . a) Wenn j(x, y) = −j(y, x) für alle x, y ∈ E und X j(x, y) = i(w, x) y∈E für x ∈ E , dann nennen wir j(·, ·) einen Strom mit der Ein– und Ausströmung i(w, ·). b) Für eine solche Strömung j(·, ·) nennen wir die Zahl 1X 2 1 1 X 2 j (x, y) R(x, y) = j (x, y) 2 x,y∈E C(x, y) 2 x,y die Energiedissipation. Satz (Thomsons Prinzip) Sei f (·) eine Funktion auf E, i(x, y) = (f (x) − f (y))C(x, y) für alle x, y ∈ E und i(w, ·) die dazugehörige Ein– und Ausströmung. Unter allen Strömen j(·, ·) mit dieser Ein– und Ausströmung ist i(·, ·) derjenige mit minimaler Energiedissipation. Beweis Setze d(·, ·) = j(·, ·) − i(·, ·). X d(x, y) = 0 für alle x ∈ E. Es gilt d(x, y) = −d(y, x) für alle x, y ∈ E und y 1X 2 j (x, y)R(x, y) = 2 x,y = 1X (i(x, y) + d(x, y))2 R(x, y) 2 x,y X 1X 2 i (x, y)R(x, y) + i(x, y)d(x, y)R(x, y) 2 x,y x,y + X i(x, y)d(x, y)R(x, y) = x,y = X 1X 2 d (x, y)R(x, y) 2 x,y x,y (f (x) − f (y))C(x, y)d(x, y)R(x, y) x,y (f (x) − f (y))d(x, y) = 0 . X c Prof. Dr. H. Dinges, 18. Dezember 1998 5.7 163 Irrfahrten und elektrische Netzwerke Dual zu Thomsons Prinzip ist die folgende Charakterisierung des Potentials f (·) durch ein Minimalprinzip. Sie ist zwar auch von Thomson (≈ 1879) entdeckt worden, wird aber üblicherweise nach Dirichlet benannt. Satz (Dirichlets Prinzip) Unter allen Funktionen g(·) auf E mit e g(x) = f(x) für x ∈ ∂E hat die Lösung dissipation f (·) des Dirichlet–Randwertproblems die minimale Energie- 1X 1X (g(x) − g(y))2 C(x, y) ≥ (f (x) − f (y))2 C(x, y) . 2 x,y 2 x,y Betrachte das innere Produkt“ ” X 1 (g(x) − g(y)) · C(x, y) · (f (x) − f (y)) . hg, f i := 2 x,y Beweis e Sei L der Raum der g(·) mit g(x) = f(x) für x ∈ ∂E. Die Funktion f (·) ∈ L hat genau dann minimale Norm in L, wenn für alle g(·) ∈ L gilt hg − f, f i = 0 , oder äquivalent damit hg, f i = hf, f i . Wir haben aber in der Tat wegen i(x, y) = (f (x) − f (y)) · C(x, y) = −i(y, x) mit P i(x, y) =: i(w, x) für alle x y∈E hg, f i = = = 1 X (g(x) − g(y)) · C(x, y) · (f (x) − f (y)) 2 x,y 1 X (g(x) − g(y)) · i(x, y) 2 x,y X x = X g(x) · x∈∂E X i(x, y) y g(x) · i(w, x) = hf, f i für alle g ∈ L . c Prof. Dr. H. Dinges, 18. Dezember 1998 164 Konsequenz Die Lösung des Dirichlet–Randwertproblems kann man als Limes f = lim fn gewinnen. Beginne mit irgendeiner Funktion f 0 (·) auf E mit e f0 (x) = f(x) für x ∈ ∂E, und konstruiere f1 , f2 , . . . wie folgt: Wähle einen inneren Punkt x∗ , in welchem f0 (·) nicht harmonisch ist, und setze f1 (x∗ ) = X P (x∗ , y)f0 (y), y f1 (x) = f0 (x) für x 6= x∗ . f1 (·) hat eine echt kleinere Engergiedissipation als f 0 (·): 1X 1X (f0 (x) − f0 (y))2 C(x, y) − (f1 (x) − f1 (y))2 C(x, y) 2 x,y 2 x,y = X h y i (f0 (x∗ ) − f0 (y))2 − (f1 (x∗ ) − f1 (y))2 C(x∗ , y) = (f02 (x∗ ) − f12 (x∗ ))C(x∗ ) − 2f0 (x∗ )C(x∗ ) + 2f1 (x∗ )C(x∗ ) X P (x∗ , y)f1 (y) X P (x∗ , y)f0 (y) = (f02 (x∗ ) − f12 (x∗ ))C(x∗ ) − 2(f0 (x∗ ) − f1 (x∗ ))C(x∗ )f1 (x∗ ) = (f0 (x∗ ) − f1 (x∗ ))2 C(x∗ ) > 0 . Durchlaufen wir nun immer wieder die Punkte von E, in welchen die Funktion noch nicht harmonisch ist, dann konvergiert die Funktionenfolge gegen die Funktion, in welcher die Energiedissipation minimal ist. Eine elementare Einführung in diese Betrachtungen findet sich bei P.G. Doyle & J.L. Snell: Random Walks & Electrical Networks, The Carus Math. Monography 22 (1984). Weitergehendes findet sich in F.P. Kelly : Reversibility and Stochastic Networks, Wiley (1979). c Prof. Dr. H. Dinges, 18. Dezember 1998 5.8 165 Einige einfache Interaktionsprozesse 5.8 Einige einfache Interaktionsprozesse Bisher haben wir uns einen einzelnen Irrfahrer vorgestellt, der durch eine Menge von Plätzen (englisch sites“) irrt, getrieben von einer stochastischen Übergangsma” trix J(i, j) oder (im Falle kontinuierlicher Zeit) getrieben von einer Matrix von Sprungtendenzen A(i, j). Wenn wir nun mehrere Irrfahrer ins System setzen, dann kann man im einfachsten (nicht besonders interessanten) Fall annehmen, daß sie sich unabhängig bewegen. Interessanter wird es, wenn wir Interaktionen zulassen. Wir interessieren uns hier nicht für die Individualität der Irrfahrer; wir achten nur darauf, wie stark besetzt die einzelnen Plätze i ∈ I zu den verschiedenen Zeiten sind. Der Zustandsraum für die folgenden Markov–Prozesse in kontinuierlicher Zeit ist der Raum Ξ der Konfigurationen über der endlichen Menge von Plätzen I. Es ist allerdings so, daß nicht von jedem Anfangspunkt ξ (0) jede Konfiguration η erreichbar ist. Der Raum der von ξ (0) aus erreichbaren Konfigurationen ist eine Teilmenge Ξ(0) . Wir suchen Gleichgewichtszustände für einige interessante Markov–Ketten mit Zustandsraum Ξ. I. Nullreichweiten–Interaktion Sei I eine endliche Menge von Plätzen und J(·, ·) eine stochastische E × E– Matrix, welche auf der Diagonalen verschwindet. Nehmen wir weiter an, daß J(·, ·) P J(i, j) = 1. Weiter sei eine Funktion c(·) auf ZZ+ doppeltstochastisch ist, d.h. i mit c(0) = 0 gegeben. Eine Konfiguration ξ ∈ Ξ = (ZZ+ )I ist zu deuten als das System der Vielfachheiten, mit welchen die Plätze besetzt sind; ξ gibt an, wieviele Teilchen auf den einzelnen Plätzen sitzen. Wir gewinnen folgendermaßen aus J(·, ·) und c(·) den Generator einer stochastischen Halbgruppe {P t : t ≥ 0} auf Ξ . Zunächst stochastisch formuliert: Wenn in i n Teilchen sitzen, dann springt jedes von ihnen mit der Rate c(n) dt weg und im Falle eines Sprungs mit Wahrscheinlichkeit J(i, j) nach j. Aus der Konfiguration ξ wird dann also eine, die in i ein Teilchen weniger und in j ein Teilchen mehr hat. Dies gibt eine Matrix A(ξ, η), die außerhalb der Diagonalen Nullen überall dort hat, wo ξ und η sich nicht in der einfachen Weise unterscheiden, daß an einer Stelle i ein Teilchen weniger und an einer anderen Stelle j ein Teilchen mehr sitzt. Man könnte schreiben η = (δi ◦ βj )ξ = ξij ( Geburt in j“ und gleichzeitig Tod in i“) . ” ” c Prof. Dr. H. Dinges, 18. Dezember 1998 166 Die Matrix A(·, ·) hat sehr viele Nullen, sie ist nur für sehr eng benachbarte Konfigurationen positiv mit A(ξ, ξij ) = ξi · c(ξi ) · J(i, j) und negativ in der Diagonalen −A(ξ, ξ) = X i∈I ξi · c(ξi ) = λ(ξ) . Von einem ξ aus kann man höchstens diejenigen η erreichen, welche ebensoviele Teilchen enthalten. Auf jeder dieser Mengen gibt es genau ein invariantes Wahrscheinlichkeitsmaß. Berechnen wir dieses zunächst im Falle a) J(i, j) = J(j, i) . Wir versuchen, die individuellen Bilanzrelationen zu erfüllen, und finden ρ({ξ}) = Z −1 Y 1 i∈I ξi ! · λ(ξi ) mit λ(n) = 1 , c(1) · c(2) · . . . · c(n) denn für alle i, j gilt ρ({ξ}) · ξi · c(ξi ) · J(i, j) = ρ({ξij }) · ξi · c(ξj ) · J(j, i) . b) Auch im Falle, wo J(·, ·) doppeltstochastisch ist, d.h. X J(i, j) = 1 , j X J(i, j) = 1 , i rechnet man ebenfalls leicht nach, daß unser ρ({ξ}) invariant ist. c) Allgemeinere Fälle sind kaum explizit zu behandeln. Berühmte Beispiele : 1) c(n) = λ1 für alle n = 1, 2, . . . Unser ρ(·) ist dann das Produkt von Poissonverteilungen oder besser die Einschränkung des Produkts von Poissonverteilungen auf die Menge P ξ(i) = N } (λ = 1 o.B.d.A.). {ξ : i∈I Dies entspricht der Maxwell–Boltzmann–Statistik. 2) c(n) = n1 für alle n = 1, 2, . . . Die Sprungtendenz für jedes Teilchen auf einem Platz ist umso kleiner, je mehr Teilchen dort liegen. Die invariante Verteilung ist hier die Einschränkung des P Produkts von Gleichverteilungen auf {0, . . . , N } I auf {ξ : ξi = N } . i∈I Dies entspricht der Bose–Einstein–Statistik. c Prof. Dr. H. Dinges, 18. Dezember 1998 5.8 167 Einige einfache Interaktionsprozesse II. Einfache Exklusionsinteraktion Sei Ξ = {0, 1}I . Jede Konfiguration ξ entspricht der Menge aller besetzten Plätze, d.h. einer Teilmenge von I . Wir definieren A(ξ, η) so: Übergänge von ξ nach η = (δi ◦ βj )ξ passieren mit der Rate J(i, j), wenn ξi = 1 und ξj = 0; andere Übergänge in infinitesimaler Zeit gibt es nicht. A(ξ, ξ) = − X X J(i, j) . i:ξi =1 j:ξj =0 P Wenn J(·, ·) irreduzibel ist, dann gibt es auf jedem {ξ : i∈I ξi = N } genau ein invariantes Maß νN (·). Die gleichmäßige Verteilung auf Ξ ist invariant. Dies entspricht der Fermi–Dirac–Statistik. Verallgemeinerung : A(ξ, (δi ◦ βj )ξ) = 0 , außer wenn ξi = 1, ξj = 0 . Im übrigen darf diese Übergangsrate aber von ξ abhängen, z.B. A(ξ, (δi ◦ βj )ξ) = ci (ξ) · J(i, j) mit ci (ξ) > 0 falls ξi = 1. Es sei J(·, ·) irreduzibel. Man kann in diesem Falle die individuellen Bilanzrelationen im allg. nicht erf üllen, und man kann auch die invarianten Maße im allg. nicht explizit hinschreiben. Es gibt aber den interessanten Spezialfall J(i, j) = J(j, i). Man kann dann durch geschickte Wahl der Sprungtendenzen erreichen, daß das unten definierte Maß ρ N (·) invariant wird. Nehmen wir Ui,j (1, 1) = uij = uji für i 6= j, im übrigen Ui,j (0, 0) = Ui,j (1, 0) = Ui,j (0, 1) = 0, und dazu ci (ξ) = exp X {j:j6=i} −1 ρN ({ξ}) = ZN Uij (ξi , ξj ) , falls ξi = 1 1 X exp − Ui,j (ξi , ξj ) . 2 i6=j Man rechnet leicht nach, daß die individuellen Bilanzrelationen für ρN (·) erfüllt sind. Weitere Überlegungen dieser Art finden sich in F. Spitzer: Random Fields and Interacting Particle Systems, Lecture Notes, Math. Assoc. of America (1971), 122 Seiten. c Prof. Dr. H. Dinges, 18. Dezember 1998 6. Bedingte Wahrscheinlichkeiten In einem informellen Sinn sind hier schon gelegentlich bedingte Wahrscheinlichkeiten vorgekommen (z.B. bei den Lemmata zum Entropiefunktional). Wir skizzieren hier nun die Anfangsgründe einer tiefergehenden Theorie. 6.1 Elementare bedingte Wahrscheinlichkeiten e ein Ereignis, welches (bzgl. der WahrscheinlichkeitsbewerDefinition : Sei B tung P (·)) positive Wahrscheinlichkeit hat. a) Für jedes Ereignis Ae heißt die Zahl e := P (Ae | B) e P (Ae ∩ B) e P (B) e . die bedingte Wahrscheinlichkeit von Ae gegeben B b) Für jede positive Zufallsgröße Z heißt die Zahl e := E (Z | B) 1 e P (B) E (Z · 1Be ) e . die bedingte Erwartung von Z gegeben B Für Zufallsgrößen, die keinen Erwartungswert besitzen ( E Z + = +∞ = E Z − ) bleibt die bedingte Erwartung undefiniert; für reellwertige Zufallsgrößen mit Erwartungswert definiert man e := E (Z + | B) e − E (Z − | B) e . E (Z | B) Bemerke : e = P (A e | B) e . E (1Ae | B) e ein. Dies reicht nicht aus Die obige Definition führt ein bedingendes Ereignis B für eine kraftvolle Theorie. Wir wenden uns den bedingenden Zufallsgr ößen und später auch den bedingenden Teilereignisfeldern zu. Die Symbole E (Z|X) und ∗ E (Z| A ) sollen einen Sinn bekommen. 168 6.1 169 Elementare bedingte Wahrscheinlichkeiten Definition : Sei X eine Zufallsvariable (mit Werten in einem abstrakten Raum E), welche nur abzählbar viele Werte annehmen kann. (Wir sprechen von einer diskreten Zufallsgröße.) pi = P (X = xi ) ≥ 0 X pi = 1 . Für jede positive Zufallsgröße Z definieren wir E (Z | X) als eine Zufallsgröße Z 0 = f (X), welche den Wert zi = E (Z | {X = xi }) = f (xi ) annimmt, wenn das Ereignis {X = xi } eintritt. E (Z | X) ist also eine Funktion von X, wobei die Funktion f (·) auf dem Wertebereich von X, die das Verlangte leistet, nur in den Werten x mit P ({X = x}) > 0 eindeutig bestimmt ist. E (Z | X) = f (X) . Satz vom totalen Erwartungswert : a) Wenn Z 0 = E (Z | X), dann E Z 0 = E Z . f0 von der Gestalt A f0 = {X ∈ B} gilt b) Für jedes Ereignis A Beweis : E (1Ae0 · Z 0 ) = E (1Ae0 · Z) . E (E (Z | X)) = = X i P (X = xi ) · E (Z | {X = xi }) i E (Z · 1{X=xi } ) = E Z . X Wenn wir nur über die i mit xi ∈ B summieren, erhalten wir die Aussage b). Speziell für Z = 1Ae P P e e 1 = {X = xi } = B i e = P (A) X i haben wir für jede Partition des sicheren Ereignisses e i ) · P (A e|B e i) P (B ( Satz von der totalen Wahrscheinlichkeit“) ” c Prof. Dr. H. Dinges, 18. Dezember 1998 170 Beispiel : Ein Stoß mit 32 Karten wurde gut gemischt. Ein Spieler, welcher den Gewinn 1 erhält, wenn die zweite Karte ein Herz ist, und sonst leer ausgeht, hat die Gewinnerwartung 1 E Z = E 1{zweite Karte ist Herz} = . 4 Wenn ihm nun die Möglichkeit gegeben wird, die Farbe F erfahren, dann ist seine Gewinnerwartung die Zufallsgröße der ersten Karte zu Z 0 = E (Z | F ) , 7 welche den Wert 31 hat, wenn {F = Herz} eintritt, und den Wert {F 6= Herz} eintritt. Wir haben 0 EZ = 8 31 , wenn 3 8 7 + 24 1 1 7 · + · = = =EZ . 4 31 4 31 4 · 31 4 Die explizite Definition der bedingten Erwartung E (Z | X) gefällt dem Anfänger; sie öffnet aber nicht die Tür zu einem tieferen Verständnis der Theorie. Im Hinblick auf Verallgemeinerungen verdienen implizite Charakterisierungen des Operators E (· | X) : Z 7−→ E (Z | X) den Vorzug. Die erste Charakterisierung, die wir hier diskutieren wollen, funktioniert in der Tat für alle Z mit endlichem Erwartungswert; die zweite funktioniert nur für die Z mit endlicher Varianz. Vorbereitende Definition : a) Die Gesamtheit aller Ereignisse von der Gestalt {X ∈ B} heißt das von X erzeugte Ereignisfeld. Es wird üblicherweise mit AX bezeichnet. b) Eine Zufallsgröße Y heißt AX –beobachtbar, wenn {Y ∈ C} ∈ AX für alle C . Wenn wir den Begriff des Wertebereichs einer nichtdiskreten Zufallsgröße erörtern, wird genaueres über die Art der Mengen B, die hier in Betracht genommen werden, gesagt werden. Unter sehr allgemeinen Umständen gilt der Hebungssatz : Die Zufallsgröße Y ist genau dann AX –beobachtbar, wenn es eine Abbildung f (·) gibt, so daß Y = f (X). c Prof. Dr. H. Dinges, 18. Dezember 1998 6.1 171 Elementare bedingte Wahrscheinlichkeiten Im Kontext dieses Kapitels ist der Hebungssatz eine Selbstverständlichkeit, da X als diskret vorausgesetzt ist. Es gibt aber etwas zu beweisen, wenn X nicht diskret ist und Y Werte in einem abstrakten Raum annimmt. Erste Charakterisierung der bedingten Erwartung E (· | X) : Z sei eine Zufallsgröße mit endlichem Erwartungswert. Eine Zufallsgröße Z 0 repräsentiert genau dann die bedingte Erwartung E (Z | X), wenn gilt a) Z 0 ist AX –beobachtbar. b) ∀ Ae ∈ AX : E (Z · 1Ae) = E (Z 0 · 1Ae) . Man notiert in diesem Falle Z 0 = E (Z | X) P –fastsicher. oder Z 0 = E (Z | AX ) P –fastsicher . Der Zusatz P –fastsicher“ wird unten seine Aufklärung erfahren, wo wir uns mit dem ” Gleichheitsbegriff für Zufallsgrößen in einem allgemeineren Kontext beschäftigen. Man beweise als Übungsaufgabe: Wenn Z von X unabhängig ist, dann ist die Konstante E Z ein Repräsentant der bedingten Erwartung. Zweite Charakterisierung der bedingten Erwartung E (· | X): Z sei eine Zufallsgröße mit endlicher Varianz. Eine Zufallsgröße Z 0 repräsentiert genau dann die bedingte Erwartung E (Z | X), wenn gilt a) Z 0 ist AX –beobachtbar. b) Für alle AX –beobachtbaren Y gilt 0 2 2 E ((Z − Z ) ) ≤ E ((Z − Y ) ) . Bemerke : Bekanntlich ist der Erwartungswert a 0 einer Zufallsgröße Z mit endlicher Varianz derjenige Punkt, bzgl. dem das quadratische Moment der Verteilung minimal (nämlich gleich der Varianz) ist. a0 = E Z ⇐⇒ E (Z − a)2 ist minimal für a = a0 . Der Steiner’sche Verschiebungssatz präzisiert die Aussage: ∀ a ∈ R : E (Z − a)2 = E (Z − E Z)2 + (E Z − a)2 = var Z + (E Z − a)2 . Um die Verhältnisse im Umfeld der bedingten Erwartungen aufzuklären, definieren wir im nächsten Abschnitt den Begriff der bedingten Varianz. Dort wird auch die Äquivalenz der beiden Charakterisierungen (im Falle endlicher Varianz) klar werden. c Prof. Dr. H. Dinges, 18. Dezember 1998 172 Anhang : Zur Interpretation bedingter Wahrscheinlichkeiten Die bedingte Erwartung E (Z | X) heißt manchmal der Erwartungswert von Z, wenn man den Wert von X schon kennt. Genauer müßte man sagen: wenn man den Wert von X kennt und darüberhinaus nichts Relevantes erfahren hat. Das folgende Beispiel zeigt, daß die Interpretation ihre Tücken hat. Aufgabe : Einem Spieler A werden verdeckt drei Karten vorgelegt, von welchen eine ein As ist. Der Spieler gewinnt, wenn er das As aufdeckt. Er deutet zunächst auf eine Karte, die er in Erwägung zieht. Ein Schiedsrichter mischt sich ein. Er legt offen, daß eine der nicht in Erwägung gezogenen Karten nicht das As ist, und bietet dem Spieler an, seinen Tip nochmals zu überdenken. Wie ist die Gewinnwahrscheinlichkeit, wenn der Spieler die Gelegenheit nützt und die dritte Karte aufdeckt? (In einer amerikanischen Fernsehshow hat man das mit drei Türen gemacht, wobei hinter einer der Türen ein Auto als Preis wartete.) Lösung : Wenn der Spieler wechselt, gewinnt er mit Wahrscheinlichkeit 2/3; er verliert nämlich genau in dem Fall, in dem er mit seiner ersten Erwägung richtig lag. Modifikation der Szene : Statt eines wissenden Schiedsrichters mischt sich ein unwissender Spieler ein und deckt eine der vom Spieler A nicht in Erwägung gezogenen Karten auf. Wenn diese aufgedeckte Karte das As ist, wird neu gemischt. Wenn die aufgedeckte Karte nicht das As ist, darf der Spieler A seinen endgültigen Tip abgeben. Sollte nun der Spieler A von der Möglichkeit des Umsattelns Gebrauch machen, wenn die aufgedeckte Karte nicht das As ist? Lösung : Der Spieler A gewinnt mit Wahrscheinlichkeit 1/2, ob er nun umsattelt oder nicht. Kommentar : 1) Im geänderten Szenario erfährt unser Spieler (im Fall, daß der Beobachter nicht die Gewinnkarte aufdeckt) nichts, was ihm einen der beiden möglichen Tips günstiger erscheinen ließe als den anderen. — Diese Aussage klingt einleuchtend. Wenn man aber einmal etwas gründlicher und allgemeiner darüber nachdenkt, was es wohl heißen könnte, wenn jemand sagt, daß er das und jenes weiß und darüberhinaus nichts Relevantes über eine Sache weiß, dann wird man früher oder später recht ratlos. Denken wir an den Verurteilten, dem gesagt wird, daß er in der folgenden Woche exekutiert wird, und daß er den Tag am Vortage seiner Exekution noch nicht wissen wird. Der Verurteilte schließt, daß der Samstag nicht der Hinrichtungstag sein kann, weil sonst ja c Prof. Dr. H. Dinges, 18. Dezember 1998 6.1 173 Elementare bedingte Wahrscheinlichkeiten am Freitag abend alles klar wäre. Nachdem nun aber der Samstag ausscheidet, kommt logischerweise auch der Freitag nicht in Betracht, weil ja sonst am Donnerstag alles klar wäre, usw. Der Verurteilte kommt zum Ergebnis, daß die ihm erteilte Auskunft in sich unsinnig ist. Als er dann am Donnerstag zur Exekution abgeholt wird, muß er aber doch zugeben, daß er am Mittwoch noch nichts gewußt hat. Bedeutet das nun, daß die Auskunft über sein Nichtwissen am Vortage völlig irrelevant oder vielleicht sogar unsinnig ist ? 2) Unser Spieler im zweiten Szenario hat erfahren, daß eine der drei Karten nicht in Betracht kommt und nichts Relevantes darüberhinaus: beide Möglichkeiten haben dieselbe Wahrscheinlichkeit 1/2. Unser Spieler im ersten Szenario hat aber offenbar etwas Relevantes erfahren. Wenn er seinen vorläufigen Tip rein zufällig abgibt und dann wechselt, gewinnt er mit Wahrscheinlichkeit 23 . Er hat offenbar nicht nur erfahren, daß die vom Schiedsrichter aufgedeckte Karte eine Niete ist; der Schiedsrichter hat auch einen Teil seines Wissens preisgegeben, zwar nicht in jedem Fall, aber doch mit einer gewissen Wahrscheinlichkeit. — Und dies kann ein schlauer Akteur u.U. ausnützen, wie das Beispiel zeigt. c Prof. Dr. H. Dinges, 18. Dezember 1998 174 6.2 Nichtdiskrete bedingte Erwartungen; Ereignisfelder, Mengen von Zufallsgrößen Die Theorie der bedingten Erwartungen ist eines der Kernstücke von Kolmogorovs Grundlegung der Wahrscheinlichkeitstheorie aus dem Jahre 1933. Kolmogorov zeigte auf, daß zum Nachweis der Existenz (und P –fastsicheren Eindeutigkeit) von bedingten Erwartungen die Begriffsbildungen und Resultate der Maß– und Integrationstheorie, die zu Beginn des Jahrhunderts entwickelt worden sind, ausreichen. F ür unsere Einführung steht uns die Maß– und Integrationstheorie nicht zur Verfügung. Um das Rechnen mit bedingten Erwartungen auf sichere Füße zu stellen, stützen wir uns auf ein Prinzip, welches wir zwar nicht beweisen, aber doch (nach einigen Vorbereitungen) einwandfrei formulieren können. Die Vorbereitungen betreffen den Begriff der Gleichheit von Zufallsgrößen sowie den Begriff der Meßbarkeit bzgl. eines e (kurz: A e –Beobachtbarkeit). Ereignisfeldes A Gleichheit : Bei allen unseren (keineswegs ganz elementaren) Operationen mit Zufallsgrößen konnten wir der Frage ausweichen, was es denn heißen soll, daß zwei Zufallsgrößen gleich sind. Wir haben es verabsäumt, irgendwelche Gesamtheiten von Zufallsgrößen zu Mengen wohlunterschiedener Objekte zu machen. — Ein solches Versäumnis gilt übrigens dem Reinen Mathematiker unserer Tage als schwerer Kunstfehler. Rechengrößen müssen für ihn immer Elemente einer Menge sein. Daß der Begriff der Gleichheit von Zufallsgrößen seine Tücken hat, fällt gelegentlich schon im Schulunterricht auf, z.B. bei der Erörterung des sog. starken Gesetzes der großen Zahlen. Beispiel : Denken wir uns ein Experiment mit unbekannter Erfolgswahrscheinlichkeit unendlich oft unabhängig wiederholt. Hn bezeichne die relative Häufigkeit der Erfolge in den ersten n Wiederholungen. Nach dem sog. starken Gesetz der großen Zahlen konvergiert die Folge H n . In irgendeinem Sinne gilt also lim sup Hn = lim inf Hn . Man kann die Aussage auch folgendermaßen ausdrücken: Für jedes ε > 0 konvergiert die absteigende Folge der Ereignisse (ε) AN ∞ [ := max Hn − min Hn > ε N ≤n≤N +` N ≤n≤N +` `=1 für N → ∞ gegen das Nullereignis. Es ist für viele Anfänger unbefriedigend, wenn man ihnen sagt, daß es keine natürliche Antwort auf die Frage gibt, was es denn heißt, daß der Durchschnitt einer absteigenden Folge von Ereignissen das unmögliche Ereignis“ ist. Es ist aber nicht daran ” c Prof. Dr. H. Dinges, 18. Dezember 1998 6.2 Nichtdiskrete bedingte Erwartungen; Ereignisfelder, Mengen von Zufallsgrößen 175 zu rütteln: Der Gleichheitsbegriff für Ereignisse und der daraus abgeleitete Gleichheitsbegriff für Zufallsgrößen ist ein Bestandteil der mathematischen Modellierung und nicht durch die Wirklichkeit vorgegeben. Im übrigen ist zu bemerken: Wenn man ein starkes Gesetz der großen Zahlen beweisen will, dann muß man sich auf einen abgeschwächten Begriff der Gleichheit von oberem und unterem Limes beziehen, nämlich auf den Begriff der P –fastsicheren Gleichheit für passende Wahrscheinlichkeitsbewertungen (siehe unten). Wir wollen uns zunächst damit begnügen, den Gleichheitsbegriff für (E–wertige) Zufallsgrößen auf den Gleichheitsbegriff für Ereignisse zurückzuführen; den Gleichheitsbegriff für Ereignisse, der in der Theorie der σ–vollständigen Boole’schen Verbände axiomatisch zu fassen wäre, wollen wir undiskutiert lassen. In der Theorie, die wir hier ins Auge fassen, nehmen Zufallsgrößen ihre Werte stets in sog. polnischen Räumen an; warum das eine vernünftige Forderung ist, können wir allerdings hier nicht erläutern. Die wichtigsten Wertebereiche E sind für uns die Räume Rd und die abzählbaren Mengen. (Die Rd –wertigen Zufallsgrößen heißen bekanntlich auch Zufallsvektoren, die Zufallsgrößen mit Werten in einer abzählbaren Menge heißen bekanntlich diskrete Zufallsgrößen.) Definition : Eine E–wertige Zufallsgröße Z ist dadurch gegeben, daß jedem borelschen B ⊆ E ein wohlbestimmtes Ereignis {Z ∈ B} zugeordnet ist. Von der Zuordnung ist zu fordern, daß sie ein σ–Homomorphismus ist, d.h. {Z ∈ E} = sicheres Ereignis {Z ∈ E\B} = ¬{Z ∈ B} für alle borelschen B {Z ∈ ∞ [ Bi } = ∞ [ {Z ∈ Bi } für alle Folgen B1 , B2 , . . . . Die Zufallsgrößen Z1 und Z2 sind gleich, wenn die Ereignisse {Z 1 ∈ B} und {Z2 ∈ B} für alle borelschen B gleich sind. Bemerke : Um die Gleichheit von Z1 und Z2 nachzuweisen, genügt es, die Gleichheit der Ereignisse {Z1 ∈ S} und {Z2 ∈ S} für alle S aus einem Erzeugendensystem der Borelalgebra nachzuweisen. Es gibt auch noch ganz andere Beschreibungen der Gleichheit von Zufallsgrößen mit Werten in einem metrischen Raum (E, d(·, ·)), z.B. gilt Z1 = Z2 ⇐⇒ {d(Z1 , Z2 ) > 0} = Nullereignis . Um das zu beweisen, müßten wir auf den Kalkül der Zufallsgrößen eingehen. Wir müßten z.B. nachweisen, daß d(Z1 , Z2 ) eine wohldefinierte Zufallsgröße ist. Wir wollen uns hier aber nicht in Grundlagenfragen verlieren, die im praktischen Umgang mit Zufallsgrößen keine Rolle spielen. c Prof. Dr. H. Dinges, 18. Dezember 1998 176 Für den Kalkül der bedingten Erwartungen ist ein abgeschwächter Gleichheitsbegriff maßgeblich, ein Gleichheitsbegriff, der auf eine vorgegebene Wahrscheinlichkeitsbewertung P (·) Bezug nimmt. Dieser Begriff der P –fastsicheren Gleichheit, der auch in anderen Zusammenhängen wichtig ist, wird folgendermaßen definiert: Definition : Sei P (·) eine Wahrscheinlichkeitsbewertung. Die E–wertigen Zufallsgrößen Z1 und Z2 heißen P –fastsicher gleich, wenn P ({Z1 ∈ B} 4 {Z2 ∈ B}) = 0 für alle borelschen B . (4 bezeichnet die symmetrische Differenz von Ereignissen.) Bemerke : Man kann leicht zeigen Z1 = Z2 P –fastsicher ⇐⇒ P ({d(Z1 , Z2 ) > 0}) = 0 . Beispiel : (fortgesetzt) Denken wir an eine verbogene Münze, die von einem Zufallsmechanismus aus einem Reservoir ausgewählt und dann unabhängig geworfen wird. Man kann zeigen, daß für jede so konstruierte Wahrscheinlichkeitsbewertung P (·) die Folge der H n P –fastsicher konvergiert, d.h. lim inf Hn = lim sup Hn n→∞ n→∞ P –fastsicher . P (| lim sup Hn − lim inf Hn | > ε) = 0 für alle ε > 0 . (ε) lim ↓ P (AN ) = 0 N →∞ für die oben konstruierten Folgen (ε) (A N )N . Der P –fastsichere Grenzwert der Hn ist übrigens P –fastsicher gleich der (zufälligen!) wahren“ Erfolgswahrscheinlichkeit der vom Zufallsmechanismus gewählten ” Münze. Reichlich verkürzt drückt man diese Einsichten manchmal so aus: Die unbekannte ” Erfolgswahrscheinlichkeit eines Experiments bestimmt sich aus dem Grenzwert der relativen Häufigkeiten der Erfolge bei unabhängiger Wiederholung.“ Meßbarkeit : Während in den elementaren Zugängen zur Maß– und Integrationstheorie die Meßbarkeitsstruktur als vorgegeben behandelt wird, muß die Meßbarkeit in der Theorie der bedingten Erwartungen zum Thema gemacht werden. e eine Ereignisalgebra, d.h. ein σ–vollständiger Boole’scher Verband, dessen Sei A e –beobachtbare Zufallsgröße Z ist Elemente als Ereignisse interpretiert sind. Eine A c Prof. Dr. H. Dinges, 18. Dezember 1998 6.2 Nichtdiskrete bedingte Erwartungen; Ereignisfelder, Mengen von Zufallsgrößen 177 e zugedadurch gegeben, daß den borelschen Mengen B Ereignisse {Z ∈ B} ∈ A e ordnet sind (wobei gefordert ist, daß B 7−→ {Z ∈ B} ∈ A ein σ–Homomorphismus ist.) e . Die Zufallsgröße Z heißt Ae0 –beobachtbar Sei nun Ae0 ein Teilereignisfeld von A e 0 oder A –meßbar, wenn {Z ∈ B} ∈ Ae0 für alle borelschen B , oder anders gesagt, wenn das von Z erzeugte Ereignisfeld in Ae0 enthalten ist. Die hier skizzierten Begriffe von Gleichheit und Meßbarkeit (bzgl. eines Teilereignisfeldes) reichen aus, um den Hauptsatz der bedingten Erwartungen zu formulieren. Da wir hier den Beweis nicht führen, sprechen wir nicht von einem Satz sondern von einem Prinzip von der Existenz und der eindeutigen Bestimmtheit der bedingten Erwartungen : e0 e ; und sei A Sei P (·) eine Wahrscheinlichkeitsbewertung auf einem Ereignisfeld A e –beobachtbaren Zufallsgröße Z mit ein Teilereignisfeld. Zu jeder reellwertigen A 0 E |Z| < ∞ existiert eine Zufallsgröße Z mit den Eigenschaften a) Z 0 ist Ae0 –beobachtbar. f0 ∈ Ae0 b) ∀ A E (Z 0 · 1Ae0 ) = E (Z · 1Ae0 ) . Jede weitere Zufallsgröße mit den Eigenschaften a) und b) ist P –fastsicher gleich Z 0 . Man notiert Z 0 = E (Z | Ae0 ) P –fastsicher, und man sagt: Z 0 ist eine Version der bedingten Erwartung. Anfänger haben häufig wenig Achtung vor reinen Existenzsätzen, d.h. vor Existenzsätzen, die kein konstruktives Element in sich tragen. Sie sind dann verblüfft, wenn man aus Existenz– und Eindeutigkeitssätzen konkrete Rechenregeln ableiten kann. Dies ist hier der Fall: Satz : Der Operator der bedingten Erwartungen E (· | Ae0 ) (zur Wahrscheinliche0 ) hat die Eigenschaften e⊇A keitsbewertung P (·) auf A 1) (Additivität) Für alle Paare Z1 , Z2 gilt E (Z1 + Z2 | Ae0 ) = E (Z1 | Ae0 ) + E (Z2 | Ae0 ) c Prof. Dr. H. Dinges, P –fastsicher . 18. Dezember 1998 178 2) (Herausziehen von Faktoren) Wenn W eine beschränkte Ae0 –meßbare Zufallsgröße ist, dann gilt für alle Z E (W · Z | Ae0 ) = W · E (Z | Ae0 ) P –fastsicher . 3) (Monotone Stetigkeit) Sei Z1 ≤ Z2 ≤ . . . P –fastsicher und Z = lim ↑ Zi P –fastsicher. Es gilt E (Z | Ae0 ) = lim ↑ E (Zi | Ae0 ) P –fastsicher . 4) (Jensen’s Ungleichung) Für jedes konvexe k(z1 , . . . , zd ) und jedes d–Tupel integrabler Zufallsgrößen Z1 , Z2 , . . . , Zd gilt E (k(Z1 , . . . , Zd ) | Ae0 ) ≥ k(E ((Z1 , . . . , Zd ) | Ae0 )) P –fastsicher . 5) (Satz von der totalen Wahrscheinlichkeit) e0 ⊇ A f∗ (Ereignisfeld), dann gilt für alle Z e⊇A Wenn A Beweis : f∗ ) f∗ ) = E (Z | A E (E (Z | Ae0 ) | A P –fastsicher . ad 1) Die Zufallsgröße Z 0 := E (Z1 | Ae0 ) + E (Z2 | Ae0 ) = Z10 + Z20 ist Ae0 –beobachtbar; f0 ∈ Ae0 gilt und für jedes A E (Z 0 · 1Ae0 ) = E ((Z10 + Z20 ) · 1Ae0 ) = E (Z10 · 1Ae0 ) + E (Z20 · 1Ae0 ) = E (Z1 · 1Ae0 ) + E (Z2 · 1Ae0 ) = E ((Z1 + Z2 ) · 1Ae0 ) . Also ist Z 0 eine Version der bedingten Erwartung E (Z1 + Z2 | Ae0 ) . ad 2) Die Zufallsgröße Z ∗ := W · E (Z | Ae0 ) = W · Z 0 ist Ae0 –beobachtbar. Für jedes e0 –beobachtbare W mit nur endlich vielen Werten W = P α · 1 A i A e0 und jedes Ae0 ∈ Ae0 haben wir i ∗ 0 E (Z · 1Ae0 ) = E (W · Z · 1Ae0 ) = = X X αi · E (1Ae0 · Z 0 · 1Ae0 ) i αi · E (1Ae0 · Z · 1Ae0 ) = E (W · Z · 1Ae0 ) . i Also ist Z ∗ eine Version der bedingten Erwartung von W · Z. Für allgemeine e0 –beobachtbare W benützen wir eine monotone Approximation (von W + A und W − ) durch Zufallsgrößen mit endlich vielen Werten und wenden 3) an. f0 ∈ A e0 gilt ad 3) Z ∗ := lim ↑ E (Zi | Ae0 ) = lim ↑ Zi0 ist Ae0 –beobachtbar. Für jedes A ∗ 0 E (Z · 1Ae0 ) = lim ↑ E (Zi · 1Ae0 ) = lim ↑ E (Zi · 1Ae0 ) = E (Z · 1Ae0 ) . Also ist Z ∗ eine Version der bedingten Erwartung E (Z | Ae0 ) . c Prof. Dr. H. Dinges, 18. Dezember 1998 6.2 Nichtdiskrete bedingte Erwartungen; Ereignisfelder, Mengen von Zufallsgrößen 179 ad 4) Jede konvexe (unterhalbstetige) Funktion k(·) auf dem Rd kann als Supremum von abzählbar vielen affinen Funktionen dargestellt werden. Es genügt, die Jensen’sche Ungleichung für Maxima von endlich vielen affinen Funktionen zu beweisen. Der Beweis liegt auf der Hand. ∗ e ) P –fastsicher. Wir zeigen ad 5) Sei Z 0 = E (Z | Ae0 ) P –fastsicher und Z ∗ = E (Z | A ∗ e ) P –fastsicher . Z ∗ = E (Z 0 | A e0 gilt e∗ ∈ A e ∗ –beobachtbar, und für jedes A e∗ ⊆ A Z ∗ ist A E (Z ∗ · 1Ae∗ ) = E (Z 0 · 1Ae∗ ) = E (Z · 1Ae∗ ) . c Prof. Dr. H. Dinges, 18. Dezember 1998 180 6.3 Bedingte Varianz Wie in 6.1 angekündigt, befassen wir uns nun mit der bedingten Varianz im allgemeinen Fall. 0 e . Für jede e⊇A Definition : Sei P (·) eine Wahrscheinlichkeitsbewertung auf A Zufallsgröße Z, welche endliche Varianz hat, definieren wir die bedingte Varianz e 0 . Mit Z 0 = E (Z | A e 0 ) definieren wir gegeben A e 0 ) := E ((Z − Z 0 )2 | A e 0) var(Z | A Satz 1 : P –fastsicher . Es gilt e 0 ) = E (Z 2 | A e 0 ) − Z 02 . var(Z | A Beweis : e 0 ) = 0 P –fastsicher gilt Wegen E ((Z − Z 0 ) | A 2 e0 e 0) ) = E ((Z − Z 0 + Z 0 )2 | A E (Z | A e 0 ) + 2 · Z 0 · E (Z − Z 0 | A e 0 ) + E (Z 02 | A e 0) = E ((Z − Z 0 )2 | A 0 e ) + Z 02 . = E ((Z − Z 0 )2 | A Satz 2 : (Charakterisierung der bedingten Erwartung) Wenn eine Zufallsgröße Z endliche Varianz hat, dann ist ihre bedingte Erwartung e 0 –beobachtbare Zufallsgröße Z 0 , von welcher der quagekennzeichnet als diejenige A dratische Abstand minimal ist. d.h. e 0 –beobachtbar} . E ((Z − Z 0 )2 ) = min{E (Z − Y )2 : Y ist A Beweis : 0 e –beobachtbare Y gilt Für jedes A 2 e0 e0) ) = E ((Z − Z 0 + Z 0 − Y )2 | A E ((Z − Y ) | A e 0 ) + 2(Z 0 − Y ) · E (Z − Z 0 | A e 0 ) + (Z 0 − Y )2 = E ((Z − Z 0 )2 | A e 0 ) + (Z 0 − Y )2 . = var(Z | A Wenn wir den Erwartungswert bilden, ergibt sich e 0 ) + E (Z 0 − Y )2 . E ((Z − Y )2 ) = E var(Z | A Das Minimum wird nur erreicht, wenn Z 0 − Y = 0 P –fastsicher. Bemerke : Der Charakterisierungssatz verallgemeinert den oben erwähnten Steiner’schen Verschiebungssatz. c Prof. Dr. H. Dinges, 18. Dezember 1998 6.3 181 Bedingte Varianz Die Rechnung zeigt auch den Satz 3 : (Satz von der vollständigen Varianz) 0 0 e )) + var(E (Z | A e ))) . var Z = E (var(Z | A Beispiele zum Begriff der bedingten Varianz : (Summen zufälliger Länge) 1) Seien Y1 , Y2 , . . . unabhängig identisch verteilt mit endlicher Varianz, und sei N eine davon unabhängige Zufallsgröße mit Werten in {0, 1, 2, . . .}. Für die Summe W = Y 1 + Y2 + . . . + Y N gilt dann E (W ) = E N · E Y var(W ) = E N · var Y + (var N ) · (E Y )2 Beweis : E (W | {N = k}) = k · E Y E (W | N ) = N · E Y EW = E (E (W | N )) = EN ·EY var(W | {N = k}) = k · var Y var(W | N ) = N · var Y var W = E (var(W | N )) + var(E (W | N )) = E N · var Y + var(N · E Y ) . Der erste Summand erfaßt die Schwankung von Y , der zweite die Schwankung von N . 2) Y1 , Y2 , . . . seien unabhängig identisch verteilt mit var Y + < ∞ und α = Ws(Y < 0) positiv. Wir berechnen Erwartungswert und Varianz von X = Y1 + . . . + Yτ −1 , wobei τ = inf{k : Yk < 0} . Sei Ye + eine Zufallsvariable mit der Verteilung L(Y | {Y > 0}). Offenbar ist τ geometrisch verteilt mit E τ = α1 , var τ = 1−α α2 . E (X | {τ = k}) = (k − 1) · E Ye E (X | τ ) = (τ − 1) · E Ye + + + E X = E (τ − 1) · E Ye 1 + = − 1 · E Ye α c Prof. Dr. H. Dinges, 18. Dezember 1998 182 var(X | {τ = k}) = (k − 1) · var Ye + var X = E (var(X | τ )) + var(E (X | τ )) + + = E (τ − 1) · var Ye + var τ · (E Ye )2 1−α 2 1−α + + · (E Ye )2 . = · E (Ye )2 + α α Beispiel : (Gaußische Vektoren) Seien Z, X1 , . . . , Xm gemeinsam gaußisch verteilt mit dem Erwartungswert 0. E (Z | (X1 , . . . , Xm )) ist dann eine Linearkombination der X j . Es gilt E (Z | X) = ξX = ξ1 X1 + . . . + ξm Xm P –fastsicher, wenn ξ so gewählt ist, daß Z − ξX und X unkorreliert sind . Beweis : o.B.d.A. nehmen wir an, daß die m × m–Matrix C = cov(X, X) nichtsingulär ist. Es gibt dann genau eine m–Zeile ξ, so daß 0 = cov(Z − ξX, X), nämlich ξ = cov(Z, X) · C −1 . Da Z − ξX und X gemeinsam gaußisch verteilt sind, folgt aus der Unkorreliertheit die Unabhängigkeit. (Dieser Satz ist in Kapitel 3.5 diskutiert worden.) Z − ξX ist daher unkorreliert zu jeder Zufallsgröße g(X) 0 = E ((Z − ξX) · g(X)) . Es ist 2 2 2 E ([Z − (ξX + g(X))] ) = E [(Z − ξX) ] + E (g (X)) nur minimal, wenn g(X) = 0 fastsicher. Also ist ξX die bedingte Erwartung. (Die ξ i heißen die Regressionskoeffizienten.) c Prof. Dr. H. Dinges, 18. Dezember 1998 6.4 6.4 Konstruktion von Wahrscheinlichkeitsbewertungen 183 Konstruktion von Wahrscheinlichkeitsbewertungen Aus der Sicht eines Reinen Mathematikers, dem die intendierten Anwendungen einer mathematischen Theorie als der Theorie äußerlich gelten, ist die Wahrscheinlichkeitstheorie ein Teilgebiet der Maßtheorie. Die Wahrscheinlichkeitstheorie ist in seinen Augen die Theorie der normierten Maße auf σ–vollständigen Boole’schen Verbänden, allerdings in einer ihn merkwürdig anmutenden Terminologie: Die σ–vollständigen e∈A e heißen Ereignisfelder oder Ereignisalgebren; und für A e Boole’schen Algebren A e e heißt P (A) die Wahrscheinlichkeit des Ereignisses A bzgl. der Wahrscheinlichkeitsbewertung P (·). Man kann in der Tat eine rein mathematische Theorie auf den folgenden Axiomen aufbauen: e = 1 − P (A) e für alle A e∈A e . (i) P (¬ A) e = P (A) e + P (B), e e das Nullereignis ist. (ii) P (Ae ∪ B) wenn Ae ∩ B (iii) Immer wenn eine Folge von Ereignissen monoton gegen das Nullereignis absteigt, dann konvergieren die P –Werte nach 0 : Ae1 ⊇ Ae2 ⊇ . . . , ∞ \ Aen = Nullereignis =⇒ lim & P (Aei ) = 0 . Es fragt sich, wohin das Studium einer solchen Theorie den Anfänger führt. Es ergibt zwar durchaus anspruchsvolle Mathematik, wenn man Kolmogorovs Theorie der bedingten Erwartungen und weiter die Theorie der Martingale auf einer formalen Grundlage entwickelt. Es ist aber fraglich, ob ohne die Vorstellungsweisen und Metaphern der Stochastik ein adäquates Verständnis für die Reichweite der Theoreme entstehen kann. Das Erlernen der maßtheoretischen Techniken auf Vorrat wollen wir dem Anfänger nicht empfehlen. Wir empfehlen das Studium der Maßtheorie im Anschluß an eine erste Einführung in die Stochastik. Wir wollen hier einige Hinweise geben, welche Rolle gewisse Teile der rein mathematischen Maßtheorie für die höhere Stochastik spielen. Die Stochastik muß die Wahrscheinlichkeitsbewertungen, die studiert werden sollen, aus eigener Kraft konstruieren; sie kann sich nicht auf (von der Natur oder von irgendwem sonst) vorgegebene Gegenstände beziehen. Unsere Konstruktion des Poisson’schen Punktprozesses und unsere Beschreibung von Irrfahrten, Warteschlangenprozessen u.ä. genügen zwar nicht allen Ansprüchen an mathematische Strenge, ergeben aber doch schon eine erste Grundlage für mathematisch anspruchsvolle Problemlösungen. Man muß die Grundlagen etwas tiefer legen, wenn man auch stochastische Prozesse wie den der Brownschen Bewegung erfassen will. (Das Problem wurde mit adhoc–Methoden zuerst von N. Wiener 1923 gelöst.) Ein zentraler Punkt in Kolmogorovs Grundlegung aus dem Jahre 1933 war die Beschreibung aller möglichen gemeinsamen Verteilungen von unendlich vielen reellwertigen Zufallsgrößen; damit wurde die Tür zu einer allgemeinen Theorie der stochastischen Prozesse aufgestoßen. c Prof. Dr. H. Dinges, 18. Dezember 1998 184 Es hat sich gezeigt, daß die Begriffe der Punktmengentopologie gute Dienste leisten, wenn es gilt, interessante Wahrscheinlichkeitsbewertungen zu konstruieren. Auf die entsprechende Maßtheorie auf topologischen Räumen können wir hier zwar nicht eingehen; wir wollen das Problem der Konstruktion von nichtdiskreten Wahrscheinlichkeitsbewertungen aber doch nicht ganz ausklammern. Wir werden einen Existenzsatz für Wahrscheinlichkeitsmaße auf der Menge der Pfade durch einen Wurzelbaum unendlicher Tiefe exakt formulieren und plausibel machen; und wir werden anschließend sehen, daß die elementare Konstruktion recht weit trägt, indem wir nämlich beliebige abzählbar erzeugte Ereignisfelder mit solchen Wurzelbäumen in Verbindung bringen. Ereignisfelder Aus der Sicht des reinen Mathematikers ist ein Ereignisfeld nichts weiter als ein σ– vollständiger Boole’scher Verband, d.h. eine partiell geordnete Menge, deren Ordnung gewissen Forderungen genügt. Aus der Sicht dessen, der ein Zufallsgeschehen modelliert, ist das Ereignisfeld die Menge der beobachtbaren Ereignisse. Das Operieren mit Ereignissen wird von den Anwendern als unproblematisch empfunden. Unter Mathematikern gilt es aber als ausgemacht, daß das Operieren mit den Elementen eines abstrakten“ Boole’schen ” Verbandes mehr Verständnisschwierigkeiten bereitet als das Operieren mit Teilmengen (einer Grundmenge Ω). Es wird daher aus didaktischer Rücksicht empfohlen, davon auszugehen, daß die Ereignisse durch Teilmengen einer Grundmenge Ω dargestellt sind. Indem man die Punkte ω von Ω als Versuchsausgänge interpretiert und die Ereignisse als Mengen von Versuchsausgängen, suggeriert man dem Studenten eine unproblematische Ähnlichkeit der kontinuierlichen Theorie mit der Theorie der diskreten Zufallsexperimente. Diese didaktische Strategie geht für eine Weile gut; wenn man es aber irgendwann doch nicht mehr vermeiden kann, ernsthaft von Nullmengen und vom Nullereignis zu reden, stellt sich heraus, daß die Ähnlichkeit mit dem Diskreten ihre Grenzen hat und daß die Vorstellungswelt der Mengen von Versuchsausgängen einem tieferen Verständnis nicht dienlich ist. — Möglicherweise wird die Wahrscheinlichkeitstheorie irgendwann ein Anlaß sein, die Kontroversen um das Wesen des Kontinuums wieder aufzunehmen, die in der sog. Grundlagenkrise der Analysis zu Beginn des Jahrhunderts heftig ausgefochten wurden und mit dem Sieg der mengentheoretischen Betrachtung geendet haben. Die inhaltliche Äquivalenz der Herangehensweisen an die Ereignisfelder (abstrakter Verband versus Mengensystem) ergibt sich aus einem berühmten Satz von Loomis aus dem Jahre 1936. Der Satz besagt, daß jeder σ–vollständige Boole’sche Verband σ–isomorph ist zu einer σ–Algebra modulo einem Nullmengenideal über einer geeigneten Grundmenge Ω. Die Konstruktion von Loomis ist allerdings in keiner Weise geeignet, die intuitiven Vorstellungen von Ereignisfeldern zu fördern. Wir wollen die unfruchtbare Frage nach einer natürlichen Wahl der Grundmenge vermeiden und bevorzugen auch bei der Behandlung der diskreten Ereignisfelder den abstrakten c Prof. Dr. H. Dinges, 18. Dezember 1998 6.4 185 Konstruktion von Wahrscheinlichkeitsbewertungen Standpunkt. Es gibt bei uns keine Versuchsausgänge ω; in diskreten Ereignisfeldern gibt es aber sehr wohl Elementarereignisse. e heißt diskret, wenn es von einer Partition Definition : Ein Ereignisfeld A des sicheren Ereignisses erzeugt ist. Die Elemente der Partition heißen die Elemene oder auch die Atome. Offenbar besteht A e aus der Gesamtheit tarereignisse von A aller Ereignisse, die sich als disjunkte Vereinigung der Elementarereignisse darstellen e ist genau dann diskret, wenn es eine Zufallsgröße lassen. Man kann auch sagen: A e erzeugt. In diesem Fall X mit abzählbar vielen möglichen Werten gibt, welche A gilt e = {{X ∈ B} : B Teilmenge des Wertebereichs} . A Die Atome sind diejenigen Ereignisse {X = x}, die nicht das Nullereignis sind. e ein diskretes Ereignisfeld ist, dann ist es leicht, einen vollständigen ÜberWenn A e zu gewinnen. blick über alle möglichen Wahrscheinlichkeitsbewertungen auf A e Die Wahrscheinlichkeitsbewertung P (·) auf A ist vollständig beschrieben, wenn man die Wahrscheinlichkeiten der Atome kennt. Wenn Ae1 , Ae2 , . . . die Atome sind, dann sind die Zahlen pi = P (Aei ) nichtnegative Zahlen, die sich zu 1 aufsummieren. Umgekehrt liefert jedes System von Zahlen p i mit pi ≥ 0 e: Wahrscheinlichkeitsbewertung auf A e = P (A) X ei ⊆A} e {i:A pi P pi = 1 eine e . für jedes Ae ∈ A e ein beliebiges Ereignisfeld. Für jedes Teilsystem S e ⊆A e gibt es offensichtlich Sei A e e e e = A ; man nennt B e das von S ein kleinstes S umfassendes Teilereignisfeld B e S e ein Erzeugendensystem für B e ist. erzeugte Teilereignisfeld, und man sagt, daß S e heißt abzählbar erzeugt, wenn es ein abzählDefinition : Ein Ereignisfeld A e bares Erzeugendensystem für A gibt. Man beweist leicht das e ist genau dann abzählbar erzeugt, wenn es eine Lemma : Ein Ereignisfeld A Folge von Partitionen des sicheren Ereignisses gibt, deren Atome alle zusammene bilden. Man kann auch sagen: A e ist genommen ein Erzeugendensystem von A genau dann abzählbar erzeugt, wenn es von einer Folge von diskreten Zufallsgrößen e erzeugen: Y1 , Y2 , . . . erzeugt wird. Gegeben seien Partitionen, die A e 1 = Ae11 + Ae12 + Ae13 + . . . e 1 = Ae21 + Ae22 + Ae23 + . . . e 1 = Ae31 + Ae32 + Ae33 + . . . .. . c Prof. Dr. H. Dinges, 18. Dezember 1998 186 Wir konstruieren dazu eine aufsteigende Folge von diskreten Ereignisfeldern, eine sog. diskrete Filtrierung e0 ⊆ A e1 ⊆ A e2 ⊆ A e3 ⊆ . . . . A ist das triviale Ereignisfeld, welches nur aus dem sicheren Ereignis e1 und e n ist das von den ersten n Partitionen erzeugte dem Nullereignis e0 besteht. A Ereignisfeld. e0 A e n sind die Ereignisse der Gestalt Wir bemerken : Die Atome von A Ae1i1 ∩ Ae2i2 ∩ . . . ∩ Aenin , die nicht das Nullereignis liefern. e n ist, dann gilt Bemerke : Wenn P(·) eine Wahrscheinlichkeitsbewertung auf A e1i ∩ A e2i ∩ . . . ∩ A eni ) = P(A e1i ) · P(A e2i | A e1i ) · P(A e3i | A e1i ∩ A e2i ) · . . . P( A n 1 2 1 2 1 3 1 2 . . . · P(Aenin ) | Ae1i1 ∩ Ae2i2 ∩ . . . ∩ Aen−1in−1 ) , falls die bedingenden Ereignisse echt positive Wahrscheinlichkeiten haben. e0 ⊆ A e1 ⊆ A e 2 ⊆ . . . assoziieren wir nun einen WurzelZur diskreten Filtrierung A e n ; ein Knoten baum: Die Knoten s in der Tiefe n entsprechen den Atomen von A t in der Tiefe n + 1 ist mit einem Knoten s in der Tiefe n genau dann verbunden, wenn das entsprechende Ereignis Aet in dem Ereignis Aes enthalten ist. A @ 1 @ A @ 0 @ @ @ @ @ A @ 2 @ @ @ r r r r r r @ r @ r @ r HH Hr Wurzelbäume Wir betrachten einen Wurzelbaum, in welchem jeder Knoten S höchstens abzählbar viele unmittelbare Nachfolger hat. Wir setzen nicht voraus, daß der Baum beschränkte Tiefe hat. 1) Die Menge aller Knoten (oder Scheitel“) bezeichnen wir mit S. Ein Scheitel, ” der keinen Nachfolger hat, heißt ein Blatt. B bezeichne die Menge aller Blätter. Die Elemente von S r B heißen die inneren Scheitel. 2) Eine endliche Folge von unmittelbar aufeinanderfolgenden (s0 , s1 , . . . , sn ) nennen wir ein Wegstück (der Länge n). c Prof. Dr. H. Dinges, 18. Dezember 1998 Scheiteln 6.4 Konstruktion von Wahrscheinlichkeitsbewertungen 187 3) Pfade beginnen für uns hier immer in der Wurzel. Pfade, die nicht in einem Blatt enden, sind unendlich lang. 4) Ω bezeichnet die Menge aller Pfade. ζ(ω) bezeichnet die Lebenszeit des Pfades ω: ζ(ω) = n, wenn ω in einem Blatt in der Tiefe n endet und ζ(ω) = +∞ für unendlich lange Pfade ω. 5) Wenn ζ(ω) ≥ n, dann bezeichnet Zn (ω) den Scheitel von ω in der Tiefe n. Für jedes n ist somit Zn∧ζ(ω) (ω) eine wohlbestimmte Abbildung von Ω in S. 6) Für jeden Knoten s bezeichnet As die Menge aller durch s laufenden Pfade. Bemerke, daß es für jedes Paar As1 , As2 nur die Möglichkeiten A s1 ∩ A s2 = ∅ oder As1 ⊆ As2 oder As2 ⊆ As1 gibt. Für jedes s ∈ S r B ist As die disjunkte Vereinigung der At zu den unmittelbaren Nachfolgern t von s. Von den Kantenbeschriftungen zu den Scheitelbeschriftungen Die Kanten (s, t) eines Wurzelbaums seien beschriftet: P (s, t) ≥ 0 , X t P (s, t) = 1 für alle s ∈ S r B . (Die Summe ist über alle t zu erstrecken, die unmittelbar auf s folgen.) Ausgehend von der Kantenbeschriftung P (·, ·) konstruieren wir zu jedem s ∗ eine Scheitelbeschriftung π ∗ (·) = πs∗ (·) wie folgt (i) π ∗ (s) = 1 für alle s auf dem Weg von der Wurzel bis s ∗ . (ii) π ∗ (s) = 0, wenn As ∩ As∗ = ∅. (iii) π ∗ (s) = P (s∗ , s1 ) · P (s1 , s2 ) · . . . · P (sk−1 , s), wenn (s∗ , s1 , s2 , . . . , sk−1 , s) der Weg ist, welcher s∗ mit s verbindet. Wir gewinnen aus dieser Scheitelbeschriftung π ∗ (·) eine Mengenfunktion Ps∗ (·), welche zunächst nur für die Argumente As erklärt ist: Ps∗ (As ) = πs∗ (s) für alle s ∈ S . Wir interpretieren Pw (As ) als die Wahrscheinlichkeit, daß eine Irrfahrt, die von der Kantenbeschriftung P (·, ·) reguliert wird, den Scheitel s trifft. Ps∗ (·) interpretieren wir als die bedingte Wahrscheinlichkeit, wenn schon bekannt ist, daß die Irrfahrt durch s∗ läuft. Die Interpretation findet ihre Rechtfertigung in einem Theorem, dessen ausgereifte Form in der Literatur unter dem Stichwort Satz von Ionescu– ” Tulcea“ zu finden ist. c Prof. Dr. H. Dinges, 18. Dezember 1998 188 Satz : Für jedes feste s∗ gibt es genau ein Wahrscheinlichkeitsmaß Ps∗ (·) auf der von den As über Ω erzeugten σ–Algebra mit Ps∗ (As ) = πs∗ (s) für alle s ∈ S. Beispiel : Betrachten wir den vollständigen binären Wurzelbaum. Die Menge Ω aller Pfade kann man mit der Menge aller Null–Eins–Folgen identifizieren; wenn man der Null–Eins–Folge ω = (δ1 (ω), δ2 (ω), . . .) die Zahl ∞ X i=1 2−i · δi (ω) zuordnet, dann ist das nahezu eine Bijektion von Ω auf das Einheitsintervall [0, 1]. Die abzählbar vielen sog. dyadischen Punkte in [0, 1] haben zwei Urbilder, die übrigen Punkte haben genau ein Urbild. Wenn nun alle Kanten mit dem Wert 1/2 beschriftet werden, dann liefert der Fortsetzungssatz von Ionescu–Tulcea das Lebesgue– Maß auf (0, 1]. Wir bemerken : Die Scheitel des vollständigen binären Wurzelbaums entsprechen in natürlicher Weise den dyadischen Intervallen, die Scheitel in der Tiefe n den dyadischen Intervallen k k−1 , n n 2 2 , k = 1, 2, 3, . . . , 2n . Die zu unserer Kantenbeschriftung gehörende Scheitelbeschriftung ordnet also jedem solchen dyadischen Intervall den Wert 1/2 n , d.h. seine Länge, zu. Von den Scheitelbeschriftungen zu den Kantenbeschriftungen e ein Ereignisfeld, welches von einer diskreten Filtrierung Sei nun wie oben A e n : n = 0, 1, 2, . . .} erzeugt wird. {A e . Wir gewinnen dazu 1) Sei P(·) eine Wahrscheinlichkeitsbewertung auf A zunächst einmal eine Scheitelbeschriftung π(·) auf dem dazugehörigen Wurzelbaum: π(s) = P(Aes ) = P(Ae1i1 ∩ . . . ∩ Aenin ) . Wir bemerken, daß sich die π(·)–Werte in den unmittelbaren Nachfolgern t P von s zu π(s) aufsummieren: π(s) = t π(t) (für jedes s). Ausgehend von π(·) gewinnen wir eine Kantenbeschriftung auf dem Teilbaum, der aus den Scheiteln s mit π(s) > 0 besteht. Für die Kanten (s, t) dieses Teilbaums setzen wir nämlich P (s, t) = π(t) . π(s) c Prof. Dr. H. Dinges, 18. Dezember 1998 6.4 Konstruktion von Wahrscheinlichkeitsbewertungen 189 Offenbar gelangt man mit der Konstruktion von oben von dieser Kantenbeschriftung zur gegebenen Scheitelbeschriftung π(·); sie liefert also nach dem Satz von Ionescu–Tulcea ein Wahrscheinlichkeitsmaß auf der Menge der Pfade auf dem Teilbaum. e n : n = 0, 1, 2, . . .} 2) Auf dem Wurzelbaum, welcher von der Filtrierung { A erzeugt wird, sei eine Scheitelbeschriftung gegeben, so daß für alle s gilt: Wenn man die π(t) über alle t, die unmittelbar auf s folgen, summiert, erhält man π(s). e n eine WahrscheinlichkeitsbewerDiese Scheitelbeschriftung liefert auf jedem A tung νn (·); und diese νn (·) setzen einander fort. Die Frage, ob solche ν n (·) zu e gehören, ist im allgemeinen nicht einer Wahrscheinlichkeitsbewertung auf A einfach zu beantworten. Ebenfalls nicht leicht ist es im allgemeinen, einen vollständigen Überblick über die Gesamtheit aller Wahrscheinlichkeitsbewertungen auf einem gegebenen (abzählbar e zu gewinnen. Gibt es überhaupt Wahrscheinlichkeitsbeerzeugten) Ereignisfeld A wertungen auf einem vorgegebenen σ–vollständigen Boole’schen Verband? Die Frage wird im Anhang A.3.2 diskutiert. c Prof. Dr. H. Dinges, 18. Dezember 1998 190 6.5 Gestoppte Irrfahrten durch einen Wurzelbaum Gegeben sei ein Wurzelbaum, in welchem jeder Scheitel s höchstens abzählbar unendlich viele unmittelbare Nachfolger hat. S bezeichnet die Menge der Scheitel, B die Menge der Blätter; Ω bezeichnet die Menge aller Pfade (von der Wurzel ausgehend, unendlich lang oder in einem Blatt endend); ζ(ω) bezeichnet die Lebenszeit (= Länge des Pfades ω). Zu s ∈ S bezeichnet A s die Menge aller durch s laufenden Pfade; A ist die von As erzeugte σ–Algebra über Ω. Beachte : Die Konstruktionen in diesem Abschnitt beziehen sich auf Teilmengen von Ω, Funktionen auf Ω und Abbildungen von Ω. Wir wollen aber nicht ganz auf die Sprache der Ereignisse und Zufallsgrößen verzichten. Die Menge As wird als das Ereignis gedeutet, daß ein in der Wurzel startender Irrfahrer durch den Scheitel s läuft. Die Mengen aus A werden mit den beobachtbaren Ereignissen identifiziert. Endliche Stoppzeiten Eine Teilmenge von S nennen wir einen transversalen Schnitt durch den Baum, wenn die dazugehörenden As eine Partition von Ω bilden, wenn also jeder Pfad ω durch genau eines der As hindurchläuft. Einen transversalen Schnitt beschreiben wir durch die Funktion σ(·), welche dem Pfad ω die Tiefe zuordnet, in welcher er den transversalen Schnitt durchläuft. Zu einem solchen σ(·) bezeichnet Aσ die von der Partition erzeugte diskrete σ–Algebra. Aσ heißt auch die Menge der bis zur zufälligen Zeit σ(·) beobachtbaren Ereignisse. Die diskrete σ–Algebra Aσ wird offenbar erzeugt von der Abbildung Zσ : Ω → S welche jedem Pfad ω seinen Scheitel in der Tiefe σ(ω) zuordnet, den Scheitel im transversalen Schnitt also, durch welchen ω läuft. Wir bemerken weiter: Die Menge {ω : σ(ω) = n} ist eine Vereinigung von Mengen A s zu Scheiteln s in der Tiefe n (für n = 0, 1, 2, . . .). Wir fragen nun umgekehrt, welche Funktionen σ(·) auf Ω zu einem transversalen Schnitt gehören. Neben σ(·) ≤ ζ(·) ist zu fordern: Wenn σ(ω) = n und ω 0 bis in die Tiefe n mit ω übereinstimmt, dann gilt auch σ(ω 0 ) = n (n = 1, 2, . . .). Äquivalent damit ist die Forderung, daß die Menge {ω : σ(ω) = n} Vereinigung von Mengen As zu Scheiteln s in der Tiefe n ist (für jedes n). Beispiel : Zu jedem n liefert ζ(·) ∧ n einen transversalen Schnitt. Die dazugehörige diskrete σ–Algebra bezeichnen wir mit ∗ An := Aζ∧n . c Prof. Dr. H. Dinges, 18. Dezember 1998 6.5 191 Gestoppte Irrfahrten durch einen Wurzelbaum Die Menge {ω : ζ(ω) ∧ n = n} ist die Vereinigung aller A s zu Scheiteln s in der Tiefe n. Für jedes σ(·) zu einem transversalen Schnitt ist auf der Menge {ω : σ(ω) = n} die Spur von Aσ gleich der Spur von A∗n ; mit anderen Worten A ∩ {ω : σ(ω) = n} ∈ Aσ ⇐⇒ A ∩ {ω : σ(ω) = n} ∈ A∗n . Wir werden den Begriff der Stoppzeit in einem allgemeineren Kontext benötigen und definieren daher Definition : (Stoppzeit) e e n )n eine Filtrierung, d.h. eine aufsteigende Folge von Sei A ein Ereignisfeld und (A e e e2 ⊆ . . . Teilereignisfeldern A0 ⊆ A1 ⊆ A a) Eine Zufallsgröße σ(·) mit Werten in {0, 1, 2, . . . , +∞} heißt eine Stoppzeit e n )n , wenn bzgl. der Filtrierung (A en {σ ≤ n} ∈ A für alle n . e σ als die Gesamtheit aller Ereignisse b) Für eine Stoppzeit σ(·) definieren wir A e e A ∈ A mit en Ae ∩{σ ≤ n} ∈ A für alle n . e σ heißt die Gesamtheit der bis zur Zeit σ beobachtbaren Ereignisse. A Bemerke : Wir lassen den Wert +∞ als möglichen Wert von σ(·) zu. Wenn {σ = +∞} das Nullereignis ist, sprechen wir von einer endlichen Stoppzeit. Wenn für eine Wahrscheinlichkeitsbewertung P (·) gilt P ({σ = +∞}) = 0, dann sagen wir, σ(·) sei P –fast sicher endlich. Bemerke, daß eine (P –fast sicher) endliche Stoppzeit nicht notwendigerweise (P–fast sicher) beschränkt ist. Im Falle einer diskreten Filtrierung kann man die endlichen Stoppzeiten mit den transversalen Schnitten durch den entsprechenden Wurzelbaum identifizieren. Lemma : a) Wenn σ und τ Stoppzeiten sind, dann auch σ ∧ τ und σ ∨ τ . e σ ein Ereignisfeld, d.h. eine σ–vollständige b) Für jede Stoppzeit σ(·) ist A e Boole’sche Algebra ⊆ A. eσ ⊆ A eτ . c) Wenn σ(·) ≤ τ (·), dann gilt A c Prof. Dr. H. Dinges, 18. Dezember 1998 192 d) Wenn σ ≤ τ beschränkte Stoppzeiten sind und τn = (σ ∨ n) ∧ τ für n = 0, 1, 2, . . . , dann steigen die τn in kleinen Schritten auf von τ0 = σ bis zu τN = τ für alle genügend großen N . τn+1 = τn + 1 = n + 1 τn auf dem Ereignis {σ ≤ n < τ } auf dem Komplement . Beispiel : Eine Münze wird unendlich oft geworfen. Wir modellieren das Zufallsgeschehen durch den vollständigen binären Wurzelbaum. Ω ist die Menge der Pfade, die wir mit der Menge aller unendlichen Null–Eins–Folgen identifizieren: ω ↔ (δ1 (ω), δ2 (ω), δ3 (ω), . . .). Die Scheitel s in der Tiefe n wollen wir mit den Null–Eins–Folgen der Länge n identifizieren. Für einen Scheitel s in der Tiefe n ist As die Menge derjenigen unendlichen Null–Eins–Folgen, die in den ersten n Positionen die Einträge von s haben. Für eine endliche Stoppzeit σ(·) ist Z σ die Abbildung, welche der unendlichen Folge ω sein Anfangsstück der Länge σ(·) zuordnet. Die Aσ –meßbaren Funktionen f (ω) = F (δ1 (ω), δ2 (ω), . . .) sind die, die nur von den ersten σ Einträgen abhängen, die also denselben Wert in Punkten ω und ω 0 haben, welche dieselben Einträge bis zur Position σ(ω) = σ(ω 0 ) haben. Die Wartezeit bis zum ersten Erfolg“ ist eine Stoppzeit τ (·). Im Punkt (0,0,0,0,. . . ) ” hat sie den Wert +∞. Für alle übrigen ω haben wir τ (ω) < ∞. Bei allen nichttrivialen Wahrscheinlichkeitsbewertungen ist τ (·) fast sicher endlich, aber nicht fast sicher beschränkt. Gehen wir zurück zu unserem Wurzelbaum. Es sei P (·, ·) eine Kantenbeschriftung X P (s, t) ≥ 0 , t P (s, t) = 1 für alle s ∈ S r B . Definition : Eine Funktion f (·) auf der Scheitelmenge S heißt (bzgl. der Kantenbeschriftung P (·, ·)) a) supermedian, wenn f (s) ≥ X t P (s, t)f (t) für alle s ∈ S r B . b) submedian, wenn f (s) ≤ X t P (s, t)f (t) für alle s ∈ S r B . c Prof. Dr. H. Dinges, 18. Dezember 1998 6.5 193 Gestoppte Irrfahrten durch einen Wurzelbaum c) konkordant, wenn f (s) = X t P (s, t)f (t) für alle s ∈ S r B . Bei den supermedianen Funktionen läßt man den Wert +∞ zu und fordert − t P (s, t)f (t) < ∞ . Entsprechend erlaubt man bei den submedianen Funktionen den Wert −∞. Eine Funktion ist konkordant, wenn sie sowohl supermedian als auch submedian ist. Jeder Satz über supermediane Funktionen (und später für Supermartingale) ist auch ein Satz über submediane Funktionen (und später Submartingale). Es hat keine systematischen (sondern allenfalls traditionelle) Gr ünde, wenn mance Sätze im Super“–Fall und andere im Sub“–Fall bewiesen werden. ” ” P Satz : Wenn f (·) und g(·) supermediane Funktionen sind, dann ist auch das punktweise Minimum supermedian. Sei nämlich h(s) = f (s) ∧ g(s). Dann gilt X t P (s, t)h(t) ≤ X t P (s, t)f (t) ≤ f (s) und ebenso X t P (s, t)h(t) ≤ g(s) . Es gibt reichlich konkordante Funktionen und zwar sogar auch nichtnegative konkordante Funktionen. Konstruktion von konkordanten Funktionen Sei P (·, ·) eine strikt positive Kantenbeschriftung mit zugehöriger Scheitelbeschriftung µ(·) . 1) Sei Q(·, ·) eine weitere Kantenbeschriftung. Q(s, t) ≥ 0 , X t Q(s, t) = 1 für alle s ∈ S r B . Die Scheitelbeschriftung zu Q(·, ·) sei ν(·); also µ(s) = P (ω, s1 ) · P (s1 , s2 ) · . . . · P (sn−1 , s) ν(s) = Q(ω, s1 ) · Q(s1 , s2 ) · . . . · Q(sn−1 , s) , falls (ω, s1 , s2 , . . . , sn−1 , s) der Weg von der Wurzel in den Scheitel s ist. Der Quotient f (s) = ν(s) µ(s) ist dann eine konkordante Funktion. c Prof. Dr. H. Dinges, 18. Dezember 1998 194 In der Tat gilt für die unmittelbaren Nachfolger t von s µ(t) = µ(s) · P (s, t) ν(t) = ν(s) · Q(s, t) und daher X P (s, t)f (t) = t X t P (s, t) · ν(s) X ν(s) · Q(s, t) Q(s, t) = f (s) . = µ(s) · P (s, t) µ(s) t 2) Sei auf der anderen Seite f (·) eine strikt positive konkordante Funktion. Wir setzen dann ν(s) = µ(s)f (s) und Q(s, t) = ν(t) ν(s) und gewinnen so eine weitere strikt positive Kantenbeschriftung. In der Tat gilt für alle s ∈ S r B X Q(s, t) = X ν(t) t t ν(s) = f (t) 1 X P (s, t)f (t) = 1 . = µ(s) f (s) f (s) t X µ(t) t · Wenn f (·) nichtnegativ, aber nicht strikt positiv ist, dann gewinnt man immerhin eine Kantenbeschriftung auf dem Teilbaum der Scheitel s mit f (s) > 0. Interpretation : 1) Eine konkordante Funktion f (·) kann man sich als die Auszahlung in einem fairen Spiel vorstellen. Ein Irrfahrer läuft durch den Wurzelbaum. In jedem Scheitel s darf er f (s) kassieren und ausscheiden; er kann aber auch weitermachen und verliert dadurch im Mittel nichts an Gewinnerwartung; denn der erwartete Gewinn nach einem weiteren Schritt ist X P (s, t)f (t) = f (s) . t Es ist wohl plausibel, daß der Spieler auch dann nichts an Gewinnerwartung verliert, wenn er sich entscheidet, zur beschränkten Stoppzeit σ(·) die Auszahlung Xσ = f (Zσ ) zu kassieren. Wir werden das im nächsten Abschnitt in allgemeinerer Form beweisen. 2) Sei nun f (·) eine supermediane Funktion. Dem Spieler, der sich im Scheitel s befindet, ist zu raten, sofort die Auszahlung f (s) zu kassieren; die Gewinnerwartung nach einem weiteren Schritt ist nämlich höchstens gleich f (s), und die Sache wird nicht besser, wenn er zu einer beschränkten Stoppzeit kassiert. c Prof. Dr. H. Dinges, 18. Dezember 1998 6.5 195 Gestoppte Irrfahrten durch einen Wurzelbaum Satz : Wenn f (·) submedian ist, dann gilt für die Zufallsgrößen Xσ = f (Zσ ), Xτ = f (Zτ ) zu jedem Paar beschränkter Stoppzeiten σ(·) ≤ τ (·) Xσ ≤ E (Xτ | Aσ ) P –fastsicher . Beweis : 1) Wie oben konstruieren wir Stoppzeiten (σ n )n , die in kleinen Schritten von σ0 (·) = σ(·) zu τ (·) aufsteigen σn (·) = (σ(·) ∨ n) ∧ τ (·) und wir zeigen Xσn ≤ E (Xσn+1 | Aσn ) P –fastsicher . Es folgt dann X σ = X σ0 ≤ E (Xσ1 | Aσ ) ≤ E (E (Xσ2 | Aσ1 ) | Aσ ) = E (Xσ2 | Aσ ) ≤ E (E (Xσ3 | Aσ2 ) | Aσ ) = E (Xσ3 | Aσ ) ≤ . . . . Da Xσn = Xτ für alle genügend großen n, folgt die Behauptung. 2) Die diskrete σ–Algebra Aσn ist von Zσn erzeugt. Auf einigen Atomen As = {ω : Zσn = s} haben wir σn+1 (ω) = σn (ω). Auf den übrigen Atomen As von Aσn , nämlich auf den As ⊆ {ω : σ(ω) ≤ n < τ (ω)} , haben wir σn (ω) = n und σn+1 (ω) = σn (ω) + 1 = n + 1. Für diese gilt P(Zσn+1 = t | {Zσn = s}) = P (s, t) und somit E (f (Zσn+1 ) | {Zσn = s}) = X t P (s, t)f (t) ≥ f (s) . Also haben wir fastsicher E (Xσn+1 | Zσn ) ≥ Xσn . c Prof. Dr. H. Dinges, 18. Dezember 1998 196 Bemerke : Die Bedingung, daß τ (·) beschränkt ist, kann nicht ersatzlos aufgegeben werden. Zwar gilt für jede (P–fastsicher) endliche Stoppzeit τ (·), daß σn (·) ↑ τ (·) (P–fast sicher). Daraus kann man aber im allg. nicht schließen, daß E (Xτ | Aσ ) größer oder gleich dem aufsteigenden Limes lim ↑ E (Xσn | Aσ ) ist. (Für den Kenner: Man braucht die gleichmäßige Integrabilität des Submartingals (Xσn )n . ) Die Glücksspieler haben immer wieder darüber spekuliert, wie man sich bei einem Schritt–für–Schritt fairen (oder sogar subfairen) Spiel durch geschicktes Plazieren der Einsätze doch eine positive Gewinnerwartung sichern könne. Dem folgenden hypothetischen Spielsystem gab man den Namen Martingal: Der Spieler beteiligt sich an einer Folge von Spielen, wo ihm im Falle von Gewinn“ das Doppelte des Einsatzes ” ausgezahlt wird, während im Falle von Verlust“ der Einsatz verlorengeht. ” Im ersten Spiel setzt er eine DM; solange er verliert, verdoppelt er für die nächste Runde den Einsatz. Wenn nach k Runden zum ersten Mal Gewinn“ eintritt, dann ” wird ihm von der Bank das Doppelte seines Einsatzes 2 k , also der Betrag 2k+1 ausgezahlt. Dem steht der bis dahin geleistete Einsatz gegenüber 1 + 2 + 22 + . . . + 2k = 2k+1 − 1 . Der Spieler gewinnt also insgesamt mit Sicherheit 1 DM, wenn er nur sicher ist, daß jemals Gewinn“ eintritt. ” Dem steht die mathematische Aussage gegenüber, daß es bei einem in jedem Schritt fairen Spiel kein Spielsystem mit echt positiver Gewinnerwartung gibt. Dieses Pa” radoxon“ findet seine Aufklärung in der Martingaltheorie. Martingal heißt übrigens auch ein bestimmter Hilfszügel im Zaumzeug des Pferdes. Die Zusammenhänge in der Namensgebung scheinen nicht geklärt zu sein. Es ist auch nicht klar, welche Vorstellungen J.L. Doob bewegt haben, das mathematische Objekt, welches wir im nächsten Abschnitt studieren, Martingal zu nennen. c Prof. Dr. H. Dinges, 18. Dezember 1998 6.6 197 Martingale in diskreter Zeit 6.6 Martingale in diskreter Zeit Die Martingale nehmen heute einen zentralen Platz in der Stochastik ein. Das liegt daran, daß man häufig durch die Konstruktion passender Martingale verwickelte Sachverhalte aufklären kann. In der Angewandten Mathematik geht es gerade um solche Sachverhalte. Vom Standpunkt der Reinen Mathematik dagegen reduziert sich die Theorie der Martingale (in diskreter Zeit) im wesentlichen auf zwei Aussagen, die insofern nicht sehr tief liegen, als sie relativ einfach zu beweisen sind. Der eine Satz ist der Satz vom ausgeschlossenen Spielsystem bzw. das Optional Stopping Theorem. Der andere besagt, daß beschränkte Submartingale fastsicher konvergieren. Nachdem wir die nötigen Begriffsbildungen in übersichtlichen Situationen vorbereitet haben, wollen wir hier zum Abschluß die Beweise der Hauptsätze durchführen. Die Leser, die noch keine Erfahrungen mit allgemeiner Maßtheorie haben, mögen sich an den oben beschriebenen Situationen der diskreten Filtrierungen orientieren. Definition : Gegeben sei eine Filtrierung eines meßbaren Raums (Ω, A) A0 ⊆ A1 ⊆ A2 ⊆ . . . . Eine Stoppzeit τ (·) ist eine A–meßbare Funktion mit Werten in {0, 1, 2, . . . , +∞} mit {ω : τ (ω) ≤ n} ∈ An für alle n . Die Gesamtheit aller bis zur Zeit τ (·) beobachtbaren Ereignisse ist die σ–Algebra Aτ aller Ereignisse A mit A ∩ {τ ≤ n} ∈ An für alle n . Definition : Eine Folge von Zufallsgrößen (Xn )n heißt adaptiert an die Filtrierung, wenn Xn An –meßbar ist für n = 0, 1, 2, . . .. Sei P(·) ein Wahrscheinlichkeitsmaß auf (Ω, A). Eine adaptierte Folge (Xn )n mit E (|Xn |) < ∞ für alle n heißt (bzgl. P(·)) Martingal , wenn für alle n gilt Xn = E (Xn+1 | An ) P–fastsicher ; Submartingal , wenn für alle n gilt Xn ≤ E (Xn+1 | An ) P–fastsicher ; Supermartingal , wenn ≥ an der Stelle von ≤ steht ; c Prof. Dr. H. Dinges, 18. Dezember 1998 198 Ergänzende Bemerkungen Manchmal betrachtet man statt des (Sub–, Super–)Martingals lieber die Differenzenfolge ∆n := Xn − Xn−1 , n = 1, 2, . . . . ∆n ist An –meßbar mit (∗) ≥ 0 E (∆n | An−1 ) = 0 ≤0 für Submartingale für Martingale für Supermartingale . Umgekehrt gewinnt man zu einer Folge (∆ n )n mit ∆n An –meßbar und (∗) ein (Sub–, Super–)Martingal, wenn man (mit einem beliebigen A0 –meßbaren X0 ) setzt Xn := X0 + ∆1 + ∆2 + . . . + ∆n . Im Falle E (∆n | An−1 ) = 0 für alle n nennt man die Folge (∆n )n eine Martingaldifferenzenfolge. Beispiel : Seien ∆1 , ∆2 , . . . unabhängige Zufallsgrößen mit E (∆n ) = 0 für alle n, dann ist der Summenprozeß Sn = ∆ 1 + ∆ 2 + . . . + ∆ n ein Martingal bzgl. der Filtrierung ( An )n , in welcher An die durch (S1 , . . . , Sn ) erzeugte σ–Algebra ist. Doob’s Zerlegung : Sei (Xn )n ein Submartingal und ∆n := Xn − Xn−1 , Dann liefert e n = ∆n − E (∆n | An−1 ) . ∆ e n := X0 + ∆ e1 + ∆ e2 + ...∆ en X e n ist An−1 –meßbar mit ein Martingal und An := Xn − X 0 = A0 ≤ A1 ≤ A2 ≤ A3 ≤ . . . P –fastsicher . Beweis : denn Daß die Folge (An ) ansteigt, ist gerade die Submartingaleigenschaft; e n = E (∆n | An−1 ) P –fastsicher . An − An−1 = ∆n − ∆ In der Fachsprache drückt man den Sachverhalt so aus: Ein Submartingal (X n ) kann in eindeutiger Weise in ein Martingal und einen vorhersagbaren von 0 aus ansteigenden Prozeß zerlegt werden: e n + An Xn = X (mit A0 = 0) . c Prof. Dr. H. Dinges, 18. Dezember 1998 6.6 199 Martingale in diskreter Zeit Theorem : (vom ausgeschlossenen Spielsystem) Sei Xn = X0 + ∆1 + . . . + ∆n ein Supermartingal und Hn ≥ 0 An−1 –meßbar für alle n. (Man sagt: H ist vorhersagbar.) Dann liefert Yn = H 1 · ∆ 1 + H 2 · ∆ 2 + . . . + H n · ∆ n ein Supermartingal. Beweis : E (Yn − Yn−1 | An−1 ) = E (Hn · ∆n | An−1 ) = Hn · E (∆n | An−1 ) ≤ 0 . Die Konstruktion hat sich als so wichtig erwiesen, daß man eine eigene Notation geschaffen hat, nämlich (Y )n = (H · X)n . Beispiel : Hn (ω) Seien σ(·) ≤ τ (·) Stoppzeiten und = 0, = 1, = 0, wenn n < σ(ω) wenn σ(ω) ≤ n < τ (ω) wenn τ (ω) ≤ n , kurz geschrieben Hn (ω) = 1[σ(ω),τ (ω)) (n) oder noch kürzer H = 1[σ,τ ) . Man nennt den Prozeß (Hn )n das stochastische Intervall von σ(·) bis τ (·) (linksseitig einschließlich der Randpunkte, rechtsseitig ohne den Randpunkt). Der Prozeß (Hn )n erfüllt die Voraussetzungen des Satzes vom ausgeschlossenen Spielsystem; wir erhalten also ein Supermartingal Y zum Supermartingal X (Y )n = (1[σ,τ ) · X)n . Mit der Bezeichnung τn = (σ ∨ n) ∧ τ haben wir Y n = X τn − X σ . Interpretation : Wir denken an einen Spieler, der sich (mit variablen Einsätzen) an einer Serie von Spielen beteiligt. Im n–ten Spiel wird für den festen Einsatz h ≥ 0 die (zufällige!) Auszahlung h · ∆n ausgeschüttet und der Einsatz zurückerstattet. Die Annahme, daß (Xn )n ein Supermartingal ist, bedeutet gerade, daß jedes einzelne Spiel ∆ n nichtpositive bedingte Erwartung hat (für jemanden, der nicht in die Zukunft schauen kann, d.h. nur über das zur Zeit n − 1 verfügbare Wissen verfügt). Der Satz besagt: Auch wenn der Spieler seine Einsätze Hn (jeweils mit dem Wissen, das zur Zeit (n−1) verfügbar ist!) irgendwie plaziert, c Prof. Dr. H. Dinges, 18. Dezember 1998 200 bleibt er doch in einer unvorteilhaften Situation. Im Beispiel steigt der Spieler zum Zeitpunkt σ(·) mit dem Kontostand Y σ = 0 ins Spielgeschehen ein und scheidet zum Zeitpunkt τ (·) mit dem Gewinn“ Yτ = Xτ − Xσ wieder aus. Die Situation ” ist insofern unvorteilhaft, als der Gewinn, den er zu einer beschränkten Stoppzeit kassieren kann, stets negativen Erwartungswert hat: E (Yτ ) ≤ 0. Dies ergibt sich aus dem folgenden Theorem: Theorem : ( Optional Stopping Theorem“) ” Sei (Xn )n ein Supermartingal und σ(·) ≤ τ (·) beschränkte Stoppzeiten. Es gilt dann E (Xτ | Aσ ) ≤ Xσ P –fastsicher . Beweis : Wir führen den Beweis genauso wie oben im Spezialfall diskreter Filtrierungen. Die Stoppzeiten σn (·) = (σ(·) ∨ n) ∧ τ (·) steigen von σ(·) in kleinen Schritten zu τ (·) auf und erreichen τ (·) nach endlich vielen Schritten. Wir zeigen E (Xσn+1 | Aσn ) ≤ Xσn P –fastsicher. Wenn σn+1 nicht gleich σn ist, dann hat σn den Wert n und σn+1 den Wert n + 1. Dies passiert für die ω mit σ(ω) ≤ n < τ (ω) , also auf dem Ereignis An := {σ(·) ≤ n} r {τ (·) ≤ n} ∈ An . Auf der Menge An haben Aσn und An dieselbe Spur. Also gilt E (Xσn+1 − Xσn | Aσn ) = 1An · E (Xn+1 − Xn | An ) ≤ 0 P –fastsicher . Hinweis für Kenner : Wenn man an (Xn )n keine zusätzlichen Bedingungen stellt, dann kann man nicht erwarten, daß die Ungleichung für alle (fastsicher endlichen) Stoppzeiten τ (·) gilt. Man kann die Ungleichung aber für alle Stoppzeiten τ (·) beweisen, wenn das Supermartingal in dem folgenden Sinne gleichmäßig integrabel ist: ∀ε>0∃M ∀n E (|Xn | · 1{|Xn |≥M } ) < ε . Man kann hier sogar Stoppzeiten τ (·), die den Wert +∞ annehmen, zulassen, wenn man Xτ auf der Menge {τ = +∞} als den Limes der X n definiert. (Daß der Limes P –fastsicher existiert, werden wir sehen.) c Prof. Dr. H. Dinges, 18. Dezember 1998 6.6 201 Martingale in diskreter Zeit Häufig wird dieser Satz, der die gleichmäßige Integrierbarkeit von (Xn ), nicht aber die Beschränktheit der Stoppzeiten voraussetzt, als das Optional Stopping Theorem bezeichnet. Den Begriff der gleichmäßigen Integrierbarkeit wollen wir hier aber nicht weiterverfolgen. Beispiel : Konkretisieren wir das hypothetische Spielsystem Martingal“, wel” ches wir am Ende von 6.5 diskutiert haben. Seien Z 1 , Z2 , . . . unabhängig mit 1 = Ws(Z = −1) (Martingaldifferenzen) 2 = Z1 + . . . + Zn (Martingal) Ws(Z = 1) = Xn Hn (ω) = 2n−1 · 1[0,τ (ω)) (n) (vorhersagbarer Prozeß) , wo τ (ω) = inf{n : Zn = +1} . Für das Martingal (Y )n = (H · X)n haben wir Yn (ω) = 1, 1 − 2n , wenn τ (ω) ≤ n wenn τ (ω) > n . Wenn nämlich τ (ω) = k ≤ n, dann steht den kumulierten Einsätzen 1+2+. . .+2k−1 der Gewinn 2k im k–ten Spiel gegenüber; wenn dagegen τ (ω) > n, dann ist der Kontostand nach dem (n − 1)–ten Setzen vor dem n–ten Spiel −1 − 2 − 22 − . . . − 2n−1 = 1 − 2n . Das Martingal (Yn )n ist nicht gleichmäßig integrabel; denn für alle M > 1 und genügend große n gilt n E (|Yn | · 1{|Yn |≥M } ) = (2 − 1) · 1 1 =1− n . 2n 2 Es kann also keine Rede davon sein, daß der Erwartungswert für gleichmäßig in n klein wird. M → ∞ Lemma : a) Wenn (Xn )n ein Martingal ist und k(·) eine konvexe Funktion, so daß die Zufallsgrößen Yn = k(Xn ) endlichen Erwartungswert besitzen, dann ist (Y n )n ein Submartingal. b) Wenn (Xn )n ein Submartingal ist und k(·) eine isotone konvexe Funktion, so daß die Zufallsgrößen Yn = k(Xn ) endlichen Erwartungswert haben, dann ist (Yn )n ein Submartingal. c Prof. Dr. H. Dinges, 18. Dezember 1998 202 Nach der Jensen’schen Ungleichung gilt Beweis : E (k(Xn+1 ) | An ) ≥ k(E (Xn+1 | An )) P –fastsicher . In der Situation b) schließen wir aus der Annahme E (Xn+1 | An ) ≥ Xn fastsicher und der Isotonie von k(·) E (Yn+1 | An ) = E (k(Xn+1 ) | An ) ≥ k(Xn ) = Yn fastsicher . Beispiele : 1) Wenn (Xn )n ein Martingal ist, dann ist (|Xn |)n ein Submartingal. Wenn (Xn )n ein Submartingal ist, dann auch (Xn+ )n . √ 2) k(x) = x + 1 + x2 ist eine isotone, strikt konvexe Funktion. Für alle x ≥ 0 gilt k(x) ≤ 1 + 2x. Daher gilt: Für jedes Submartingal (Xn )n ist Yn = k(Xn ) ein Submartingal mit + E (Yn ) ≤ 1 + 2 · E (Xn ) . Wir werden den berühmten Martingalkonvergenzsatz nicht wie üblich mit Doob’s Upcrossing Inequality“ beweisen, sondern unter Zuhilfenahme der Eigen” schaften der Funktion k(·). Die Eigenschaften von k(·), die wir wirklich brauchen, sammeln wir als Vorbereitende Bemerkungen : e und alle α > 0 ist 1) Für alle x e) := {x : k(x) − [k(x e ) + k 0 (x e)(x − x e)] < α} Uα (x e. Wir setzen eine Umgebung von x e, x) = k(x) − [k(x e ) + k 0 (x e)(x − x e)] F (x e, x) ≥ 0 sowie und bemerken F (x e, x) ≥ α ⇐⇒ x ∈ e) . F (x / U α (x Zu jedem ε > 0 und jedem λ existiert ein α > 0, so daß für |x| ≤ λ der e) kleiner ist als ε. Durchmesser von Uα (x c Prof. Dr. H. Dinges, 18. Dezember 1998 6.6 203 Martingale in diskreter Zeit 2) Für beschränkte Zahlenfolgen (xn )n gilt (xn )n konvergent ⇐⇒ ⇐⇒ (m) wobei τα ∀α>0∃m: ∀n≥m ∀α>0∃m: τα(m) xn ∈ Uα (xm ) = +∞ , := inf{` ≥ m und x` ∈ / Uα (xm )} . 3) Für Folgen von Zufallsgrößen (Xn )n , die fastsicher beschränkt sind, gilt (Xn )n fastsicher konvergent ⇐⇒ ⇐⇒ ⇐⇒ ∀ β > 0, α > 0 ∃m : P (X` ∈ Uα (Xm ) für alle ` ≥ m) ≥ 1 − β ∀ β > 0, α > 0 ∃m : P (τα(m) < ∞) < β 4) Für n > m gilt {τα(m) ≤ n} = {F (Xm , Xτ (m) ∧n ) ≥ α} α α · 1{τ (m) ≤n} ≤ F (Xm , Xτ ∧n ) α Theorem : ( Martingalkonvergenzsatz“) ” a) Jedes normbeschränkte Martingal konvergiert fastsicher. b) Wenn für ein Submartingal die Folge der Erwartungswerte E (Xn+ ) beschränkt ist, dann konvergiert es fastsicher. Beweis : 1) Aus der Beschränktheit von E (Xn+ ) folgt die Normbeschränktheit des Submartingals (Xn )n ; denn E (|Xn |) = 2 E (Xn+ ) − E Xn ≤ 2 E (Xn+ ) − E X0 . Die Formulierung b) hat den mnemotechnischen Vorteil, daß sie an den Satz aus der elementaren Analysis erinnert: Jede nach oben beschränkte aufsteigende Folge konvergiert. Die Submartingale gelten den Stochastikern als Analogon zu den ansteigenden Folgen. Man präge sich ein: Jedes nach oben beschränkte Submartingal konvergiert. 2) Wir haben gesehen: Wenn (Xn )n ein Submartingal ist, dann auch (Xn+ )n . Wir betrachten für λ > 0 die Stoppzeit τ = τλ := inf{k : Xk+ ≥ λ} . c Prof. Dr. H. Dinges, 18. Dezember 1998 204 Das Optional Stopping Theorem angewandt auf τ ∧ n ≤ n liefert Xτ+∧n ≤ E (Xn+ | Aτ ∧n ) E 1{τ ≤n} · Xτ+∧n ≤ E 1{τ ≤n} · Xn+ und wegen λ · 1{τ ≤n} ≤ Xτ+ · 1{τ ≤n} P λ · P (τ ≤ n) ≤ E 1{τ ≤n} · Xn+ max Xk ≥ λ 0≤k≤n ≤ 1 E (Xn+ ) λ (“Doob’s Maximumsungleichung“) . Wenn E (Xn+ ) beschränkt ist, dann gilt für alle n P (τλ < n) ≤ 1 · const λ und somit P sup Xk+ k > λ ≤ P (τλ < ∞) ≤ 1 · const . λ Die Zufallsgröße supk Xk+ ist also fastsicher endlich. Hinweis : Die Abschätzung der Schwanzwahrscheinlichkeiten garantiert nicht die Endlichkeit des Erwartungswerts; und in der Tat kann das Supremum einen unendlichen Erwartungswert haben. Als Übung studiere man das altehrwürdige Spielsystem Martingal“ von oben. ” 3) Wenn (Xn )n ein normbeschränktes Martingal ist, dann sind (Xn+ )n und (Xn− )n fastsicher beschränkt. Jedes Submartingal ist die Summe aus einem Martingal und einem ansteigenden Prozeß ( Doob’s Zerlegung“). Wenn es normbeschränkt ist, ist also auch ” (Xn− )n fastsicher beschränkt. 4) Sei (Xn )n ein normbeschränktes Submartingal und Yn = k(Xn ) mit k(x) = x + p 1 + x2 . (Yn )n ist ein normbeschränktes Submartingal. Setze k+ = lim ↑ E (k(Xn )) = lim ↑ E (Yn ) . n→∞ Zu vorgegebenen α > 0, β > 0 wähle m so groß, daß E (Ym ) ≥ k+ − α · β . c Prof. Dr. H. Dinges, 18. Dezember 1998 6.6 205 Martingale in diskreter Zeit (m) Mit τ = τα aus den vorbereitenden Bemerkungen betrachten wir für alle n ≥ m die Stoppzeiten m ≤ τα(m) ∧ n ≤ n . Nach dem Optional Stopping Theorem gilt k+ − αβ ≤ E (Ym ) ≤ E (Yτ ∧n ) ≤ E (Yn ) ≤ k+ . Andererseits gilt E (Yτ ∧n − Ym | Am ) = E (k(Xτ ∧n ) − k(Xm ) | Am ) = E k 0 (Xm )[Xτ ∧n − Xm ] | Am + E (F (Xm , Xτ ∧n ) | Am ) ≥ k 0 (Xm ) E (Xτ ∧n − Xm | Am ) + E α · 1{τ (m) ≤n} | Am α Der erste Summand ist fastsicher positiv. Integration liefert . αβ ≥ E (Yτ ∧n ) − E (Ym ) ≥ αP (τα(m) ≤ n) , d.h. P τα(m) ≤ n ≤ β für alle n . Nach der Vorbereitung 3) beweist das die fastsichere Konvergenz von (X n )n . Bemerke : Aus der fastsicheren Konvergenz X n → X∞ folgt bekanntlich nicht die Konvergenz in der Norm. Zum Nachweis von lim E (|Xn − X∞ |) = 0 n→∞ braucht man die gleichmäßige Integrabilität. Beispiel : (Zum Hauptsatz der Differential– und Integralrechnung“) ” 1) An sei die σ–Algebra über (0, 1], die von der Partition des Einheitsintervalls in die dyadischen Intervalle k−1 , 2n k , 2n k = 1, 2, . . . 2n erzeugt wird. Bekanntlich erzeugt die Mengenalgebra über (0, 1]. ∞ S An die Borelalgebra Der Wurzelbaum zur Filtrierung (An )n ist der vollständige binäre Wurzelbaum. c Prof. Dr. H. Dinges, 18. Dezember 1998 206 2) Das Lebesguemaß entspricht der Kantenbeschriftung, die jede Kante mit beschriftet. 3) Sei f (·) Lebesgue–integrabel und F (·) die Stammfunktion F (x) = Xn (ω) = 2 n k/2 Z f (y) dy = 2n F (k−1)/2n k 2n −F k−1 2n für ω ∈ f (y) dy. 0 Betrachte dazu für n = 0, 1, 2, . . . die Treppenfunktionen n Rx 1 2 k−1 k , n . 2n 2 4) Die Folge (Xn )n ist ein normbeschränktes Martingal. Der Martingalkonvergenzsatz liefert die fastsichere Konvergenz X n → X∞ . 5) Das Martingal ist sogar gleichmäßig integrabel (ohne Beweis!). Daraus ergibt sich Z |Xn − X∞ | → 0 und X∞ = f Lebesgue–fastsicher . 6) Man erinnere sich an die elementare Analysis: Man kann nicht für alle Stammfunktionen F (·) erwarten, daß die Folge der Differenzenquotienten 1 [F (x + hn ) − F (x)] hn für hn → 0 in einem vernünftigen Sinn konvergiert. Ohne einschränkende Voraussetzungen an den Integranden f (·) kommt man in der klassischen Differential– und Integralrechnung nicht weit. Man sollte also nicht die Differenzenquotienten betrachten sondern die Mittelwerte über immer feiner werdende Partitionen des Intervalls. c Prof. Dr. H. Dinges, 18. Dezember 1998 6.7 207 Kolmogorovs Gesetz der großen Zahlen 6.7 Kolmogorovs Gesetz der großen Zahlen Das starke Gesetz der großen Zahlen lautet in seiner Urform: Wenn Z 1 , Z2 , . . . unabhängige identisch verteilte Zufallsgrößen sind und die Verteilung L(Z) einen endlichen Erwartungswert hat, dann konvergiert 1 (Z1 + Z2 + . . . + Zn ) n fast sicher und zwar gegen die Zahl E Z. Es ist im Laufe der Zeit viel Mühe darauf verwendet worden, die Rolle der Voraussetzungen für die fastsichere Konvergenz ganz auch in allgemeineren Situationen herauszustellen. Daß Zufallsgrößen ohne Erwartungswert nicht in die Theorie der Gesetze der großen Zahlen passen, erkannte bereits Daniel Bernoulli (1700–1782). Um dies zu beleuchten, diskutierte er z.B. das sog. Petersburger Paradox, welches auch in modernen Lehrbüchern noch manchmal erscheint (siehe z.B. Durett). Allgemeinere Situationen schwächen entweder die Annahme der Unabhängigkeit ab oder sie betrachten unabhängige nicht identisch verteilte Zufallsgrößen. Wir wollen hier nicht umfassend über Grenzwertsätze berichten. Wir diskutieren vielmehr einige Sätze, die sich natürlich an die obigen Überlegungen über Martingale anschließen. Als Verallgemeinerung der Tschebyschev’schen Ungleichung Ws(|X − E X| ≥ ε) ≤ 1 var X ε2 beweisen wir die Ungleichung von Kolmogorov Seien Z1 , Z2 , . . . unabhängig mit E Zn = 0. Dann gilt für alle λ > 0 und alle n Ws max |Z1 + . . . + Zm | ≥ λ ≤ 0≤m≤n 1 var (Z1 + . . . + Zn ) . λ2 Beweis : 1) Wir schwächen die Voraussetzung ab, indem wir nur annehmen, daß Z 1 , Z2 , . . . eine Martingaldifferenzenfolge ist. Es sei also eine Filtrierung gegen und eine Folge von An –meßbaren und Zufallsgrößen Zn mit A0 ⊆ A1 ⊆ A2 ⊆ . . . E (Zn | An−1 ) = 0 für alle n . Die Folge der Partialsummen Xn := Z1 + . . . + Zn ist also ein Martingal mit X0 = 0 . c Prof. Dr. H. Dinges, 18. Dezember 1998 208 2) Betrachte die bedingten Varianzen der Zuwächse Vn := E Zn2 | An−1 und ihre Erwartungswerte vn = E Vn . Wegen E (Xn | An−1 ) = Xn−1 haben wir 2 var (Xn | An−1 ) = E Xn2 | An−1 − Xn−1 2 = E (Xn−1 + Zn )2 | An−1 − Xn−1 = E 2Xn−1 Zn + Zn2 | An−1 = Vn . var Xn = E (var (Xn | An−1 )) + var (E (Xn | An−1 )) = E Vn + var Xn−1 = vn + vn−1 + . . . + v1 = var Z1 + var Z1 + . . . + var Zn . 3) Mit diesen Notationen lautet die zu beweisende Behauptung Ws max 0≤m≤n 2 Xm ≥λ 2 ≤ 1 1 var Xn = 2 E Xn2 . 2 λ λ Der Beweis ergibt sich aus Doob’s Ungleichung angewandt auf das positive Submartingal (Xn2 )n . Für die Stoppzeit 2 τ = inf{m : Xm ≥ λ2 } und die beschränkten Stoppzeiten τ ∧ n ≤ n haben wir wegen Xτ2∧n · 1{τ ≤n} ≥ λ2 · 1{τ ≤n} λ2 · Ws(τ ≤ n) ≤ E Xτ2∧n ≤ E Xn2 . Sätze wie der folgende lassen sie einprägsam formulieren, wenn man sich einer allgemein üblichen Sprechweise bedient. Sprechweise : Man sagt von einer Folge reellwertiger Zufallsgrößen Z1 , Z2 , Z3 , . . ., daß sie dem starken Gesetz der großen Zahlen genügt, wenn 1 n (Z1 + . . . + Zn ) fastsicher konvergiert. Satz ( Kolmogorov’s Kriterium“) ” Seien Z1 , Z2 , . . . unabhängig mit E Zn = 0. Wenn ∞ X 1 k2 var Zk < ∞ , dann genügt die Folge dem starken Gesetz der großen Zahlen. c Prof. Dr. H. Dinges, 18. Dezember 1998 6.7 209 Kolmogorovs Gesetz der großen Zahlen Beweis : 1) Wir schwächen die Annahme wie oben ab: Z1 , Z2 , . . . sei eine Martingaldifferenzenfolge mit vn = E Zn2 . Wir fordern 1v22 + 2v22 + v332 + . . . < ∞. Wir zeigen, daß die Folge Tk := 1 2 1 Xk = 2 (Z1 + . . . Zk )2 2 k k fastsicher nach 0 konvergiert. 2) Zu α > 0 und m betrachte die Stoppzeit τ = τα(m) := inf{k : k ≥ m, Tk ≥ α2 } . Wir zeigen ∀α>0 ∀ε>0 ∃ m : Ws τα(m) < ∞ < ε . Es geht darum, bei festem α > 0, m < n die Wahrscheinlichkeit (m) Ws τα ≤ n abzuschätzen. Als Grundlage dient unsere Annahme über die Varianzen der Zuwächse des Prozesses. 3) Tτ ∧n · 1{τ ≤n} ≥ α2 · 1{τ ≤n} α2 · Ws({τ ≤ n} ≤ E (Tτ ∧n ) = E Tm + E (Tτ ∧n − Tm ) . Den Zuwachs Tτ ∧n − Tm schreiben wir als Summe Tτ ∧n − Tm = (Tm+1 − Tm ) · 1{τ >m} + (Tm+2 − Tm+1 ) · 1{τ >m+1} + . . . . . . + (Tn − Tn−1 ) · 1{τ >n−1} Wir zeigen unten in 4) E (Tk − Tk−1 ) · 1{τ >k−1} ≤ 1 vk k2 und haben dann für alle n α2 · Ws(τ ≤ n) ≤ E Tm + = ∞ X 1 v 2 k k k=m+1 ∞ X 1 1 (v + . . . v ) + vk . 1 m 2 m k2 k=m+1 Es bleibt dann zu zeigen, daß diese Summe für m → ∞ nach 0 strebt. Dies ist eine Angelegenheit der elementaren Analysis, die unter dem Namen Kroneckers Lemma“ bekannt ist und anschließend beweisen wird. ” c Prof. Dr. H. Dinges, 18. Dezember 1998 210 4) Tk − Tk−1 = = 1 1 (Xk−1 + Zk )2 − X2 k2 (k − 1)2 k−1 " k−1 k 2 # − 1 Tk−1 + 2 1 Xk−1 Zk + 2 Zk2 . k2 k Wegen {τ > k − 1} ∈ Ak−1 und E (Zk | Ak−1 ) = 0 haben wir E (Tk − Tk−1 ) · 1{τ >k−1} ≤ 1 1 2 Z · 1 ≤ 2 vk . E {τ >k−1} k k2 k Lemma : (Kroneckers Lemma) Seien v1 , v2 , v3 , . . . Zahlen und 0 < b 1 < b2 < . . . mit lim bn = +∞ so, daß die Folge sn := vn v1 v2 + + ... + b1 b2 bn konvergiert. Dann gilt lim 1 n→∞ bn Beweis : (v1 + . . . + vn ) = 0 . (durch partielles Summieren) bn+1 sn − (v1 + . . . + vn ) v1 v2 vn = (bn+1 − b1 ) + (bn+1 − b2 ) + . . . + (bn+1 − bn ) b1 b2 bn = (bn+1 − b1 )s1 + (bn+1 − b2 )(s2 − s1 ) + (bn+1 − b3 )(s3 − s2 ) + . . . . . . + (bn+1 − bn )(sn − sn − 1) = (b2 − b1 )s1 + (b3 − b2 )s2 + . . . + (bn+1 − bn )sn . Wenn man durch bn+1 dividiert, erhält man eine Folge, die gegen s = lim s n konvergiert. Also haben 1 bn+1 (v1 + . . . + vn ) −→ 0 . Mit dem Ziel, das klassische Gesetz der großen Zahlen auf Kolmogorovs Kriterium zurückzuführen, geben wir eine kleine Einführung in die c Prof. Dr. H. Dinges, 18. Dezember 1998 6.7 211 Kolmogorovs Gesetz der großen Zahlen Technik des Stützens Lemma : wenn X n (truncation) Eine Zufallsgröße Z hat genau dann einen endlichen Erwartungswert, Ws(|Z| > n) < ∞ . Der Beweis ist trival, wenn man bemerkt E |Z| = Z∞ Ws(|Z| > t) dt . 0 Korollar : Seien Z1 , Z2 , . . . unabhängig identisch verteilt mit E |Z| = ∞. Die Wahrscheinlichkeit, daß X n = n1 (Z1 + . . . + Zn ) konvergiert, ist dann gleich 0. Beweis : Xn = Die Ereignisse An := X 1 1 1 X n−1 + Zn . (Z1 + . . . + Zn ) = 1 − n n n Ws(An ) = X n 1 n |Zn | > 1 o sind unabhängig mit Ws(|Zn | > n) = ∞ . Nach dem zweiten Lemma von Borel–Cantelli treten mit Wahrscheinlichkeit 1 unendlich viele der An ein. Die Folge der X n hat daher mit Sicherheit unendlich viele Sprünge einer vorgegebenen Höhe. Lemma : Seien Z1 , Z2 , . . . unabhängig identisch verteilt mit E Zn = 0. Sei Yn = Zn · 1{|Zn |≤n} . Dann gilt 1 1 (i) (Z1 + . . . + Zn ) − (Y1 + . . . + Yn ) −→ 0 fast sicher n n (ii) (iii) 1 E (Y1 + . . . + Yn ) −→ 0 n X 1 n2 var Yn < ∞ c Prof. Dr. H. Dinges, 18. Dezember 1998 212 Beweis : 1) Nach dem Lemma von Borel–Cantelli treten nur endlich der Ereignisse {Y n 6= Zn } ein; denn X Ws (Yn 6= Zn ) = X Ws(|Zn | > n) < ∞ . (Z1 + . . . + Zn ) − (Y1 + . . . Yn ) konvergiert fastsicher 2) | E Yn | ≤ E |Yn | = E |Z| · 1{|Z|>n} hat. −→ 0, da |Z| endlichen Erwartungswert 3) Bemerke 1 1 1 + + + ... ≤ 2 2 k (k + 1) (k + 2)2 = 1 1 1 + + + ... 2 k k(k + 1) (k + 1)(k + 2) 1 2 1 + < 2 k k k Wenn (k − 1)2 < t < k 2 , dann gilt h(t) := ∞ X 1 n=1 n2 · 1(0,n2 ] (t) = 1 1 2 + + ... < . 2 2 k (k + 1) k Also ist sh(s2 ) beschränkt E Yn2 ≤ E (Z 2 ∧ n2 ) = = Z∞ 0 ∞ X 1 n2 n=1 E Yn2 Zn2 Ws(Z 2 > t) dt 0 1(0,n2 ] (t) · Ws(Z 2 > t) dt ≤ Z∞ h(t) · Ws(Z 2 > t) dt = Z∞ h(s2 ) · Ws(|Z| > s) · 2s ds < ∞ . 0 0 Das Lemma liefert genau das, was wir brauchen für den Beweis von Kolmogorovs starkem Gesetz der großen Zahlen : Die unabhängigen Zufallsgrößen Yn − E Yn sind unabhängig mit Erwartungswert 0; die mit n12 multiplizierten Varianzen haben eine endliche Summe. Das Kolmogorovsche Kriterium ist anwendbar und liefert die fastsichere Konvergenz von 1 (Z1 + Z2 + . . . + Zn ) . n c Prof. Dr. H. Dinges, 18. Dezember 1998 A. ANHANG : Verbandstheoretische Grundlegung Unsere Einführung entwickelt die Grundbegriffe der Stochastik (Ereignis, Zufallsgröße, Wahrscheinlichkeit) in Umgebungen, in welchen die Studenten des zweiten Studienjahrs schon Erfahrungen oder zumindest Vorstellungen haben: Kombinatorik, elementare Analysis, lineare Algebra und Matrizenrechnung. Wir machen dann weiter mit Informationstheorie, Bäumen und Graphen sowie schließlich (als Einladung in die höhere Stochastik) bedingten Erwartungen und Martingalen. Wir erwarten keine Kenntnisse in der (dem Anwender ohnehin kaum nahezubringenden) Maß– und Integrationstheorie. Für diejenigen, die für ein tieferes Eindringen in die Stochastik feste mathematische Grundlagen brauchen, entwickeln wir nun im Anhang eine verbandstheoretische Grundlegung, welche ohne Abstriche an der mathematischen Strenge den intuitiven Denkweisen der Stochastik mehr entgegenkommt als die stochstikferne Maßtheorie. Dem nicht speziell an Grundlagen Interessierten wird es genügen zu wissen, daß es eine Begründung gibt, so wie er weiß, daß die naive Mengenlehre in irgendeinem Sinne auch begründet werden kann. Die Begründung ist nicht dafür gedacht, daß jeder Student sie studiert. Der Inhalt von A.1 ist wohlbekannt; die Abschnitte A.2 und A.4 enthalten Neues. A.1 Boolesche Algebren A.1.1 Definition und Rechenregeln Definition : Eine partiell geordnete Menge mit einem kleinsten und einem größten Element (V, ⊆, 0, 1) heißt ein Boolescher Verband oder eine Boolesche Algebra, wenn gilt 1) Zu je zwei Elementen a, b existiert das Minimum a ∧ b und das Maximum a ∨ b. (In einer partiell geordneten Menge heißt ein Element c das Minimum oder auch das Infimum von a und b, wenn gilt (i) c ⊆ a, c ⊆ b und (ii) ∀ d : (d ⊆ a, d ⊆ b) =⇒ d ⊆ c. Analog ist der Begriff des Maximums erklärt.) 213 214 2) Zu jedem a ∈ V gibt es genau ein Element ¬a ∈ V mit a ∧ (¬a) = 0 a ∨ (¬a) = 1 . und 3) Für je drei Elemente a, b, c gilt (a ∧ b) ∨ c = (a ∨ c) ∧ (b ∨ c) (a ∨ b) ∧ c = (a ∧ c) ∨ (b ∧ c) . Der Boolesche Verband heißt σ–vollst ändig, wenn gilt 4) Für jede Folge a1 , a2 , . . . existiert das Infimum ∞ V an . (Dabei qualifiziert a als Infimum, wenn a die größte untere Schranke ist, d.h. (i) a ⊆ an für alle n (ii) ∀ b : (b ⊆ an für alle n) =⇒ b ⊆ a. Das Infimum, wenn es existiert, ist offenbar eindeutig bestimmt; man bezeichnet es mit ∞ V n=1 an . Analog ist das Supremum einer Folge definiert.) Rechenregeln : Aus den Axiomen 1), 2), 3) kann man viele nützliche Rechenregeln ableiten. Man kann Rechenfertigkeiten entwickeln. Wir erwähnen einige besonders wichtige Formeln a∧b = b∧a , a∨b=b∨a (a ∧ b) ∧ c = a ∧ (b ∧ c) , ¬(¬a) = a , (a ∨ b) ∨ c = a ∨ (b ∨ c) ¬(a ∧ b) = (¬a) ∨ (¬b) a ⊆ b ⇐⇒ a ∧ (¬b) = 0 ⇐⇒ (¬a) ∨ b = 1 . Für den weiteren Kalkül lohnt es sich, die folgenden Notationen einzuführen. Wir schreiben a + b = c oder auch a = c − b genau dann, wenn a ∧ b = 0 und a ∨ b = c. Wir schreiben a \ b für a − a ∧ b = a ∧ (¬b) . c Prof. Dr. H. Dinges, 18. Dezember 1998 A.1 215 Boolesche Algebren Hinweis : Man kann die Rechenregeln in einem auch mit Hilfe der Operationen \ und + beschreiben. a \ b ist für alle Paare (a, b), a + b dagegen nur für gewisse Paare definiert. Die Rechenregeln in einer Booleschen Algebra erweisen sich als Spezialfall von Rechenregeln in allgemeineren algebraischen Strukturen (H, 0, \, +). Solche algebraischen Strukturen haben wir ausführlich diskutiert in H. Dinges: Zur Algebra der Maßtheorie. Bulletin of the Greek Math. Soc. 19 (1978) Das folgende Lemma werden wir beim Beweis des Satzes von Loomis brauchen. Wenn (V, ⊆, 0, 1) ein σ–vollständiger Boolescher Verband ist, dann Lemma : gilt a) Zu jeder Folge a1 , a2 , . . . existiert das Supremum ¬ ∞ _ an = ∞ ^ (¬an ) . ! = ∞ W an und es gilt b) Für jedes b gilt b∧ ∞ _ an ∞ _ (b ∧ an ) . Beweis : zu a) Für jedes n gilt V V (¬ai ) ⊆ ¬an , V ¬ (¬ai ) ⊇ an . a := ¬ (¬ai ) majorisiert also alle an . Wenn c alle an majorisiert, dann gilt ¬c ⊆ ¬an für alle n , also ¬c ⊆ ^ (¬ai ), c ⊇ ¬ ^ (¬ai ) = a . Also ist a das kleinste Element aus V , welches alle a n majorisiert. zu b) Für alle n gilt b ∧ an ⊆ b ∧ Betrachte c := b ∧ ∞ W an − ∞ W ∞ W ai ; also gilt (b ∧ an ) . ∞ W (b ∧ an ) ⊆ b ∧ Für alle n gilt c ∧ (b ∧ an ) = 0, also c ∧ b ⊆ ¬an , c ∧ b ⊆ V W W ¬(c ∧ b) ⊇ ¬ (¬an ) = an , c ∧ b ∧ an = 0. Andererseits gilt c ⊆ b ∧ W an . Also gilt c = 0. c Prof. Dr. H. Dinges, 18. Dezember 1998 ∞ W V an . (¬an ), 216 Aufgabe 1 : Es bedeuten a, b, c elektrische Relais oder Netze von Relais. Zwei beliebige von diesen können in Reihe oder parallel geschaltet werden. Zwei Netze, die miteinander in solcher Beziehung stehen, daß entweder durch beide Strom fließt oder durch beide nicht, betrachten wir als äquivalent. a ∨ b bedeutet, daß a und b parallel zu schalten sind, a ∧ b, daß sie in Reihe zu schalten sind. Es bedeute ¬a ein Netz, das stets eingeschaltet ist, wenn a ausgeschaltet ist und umgekehrt, 0 ein Netz, durch welches kein Strom fließen kann, und 1 ein Netz, durch welches stets Strom fließt. Beweise, daß sämtliche Axiome einer Booleschen Algebra erfüllt sind. Hinweis : (a ∨ b) ∧ c = (a ∧ c) ∨ (b ∧ c) bedeutet z.B., daß es gleichgültig ist, ob man zuerst a und b parallel schaltet und das so entstandene System mit c in Reihe schaltet, oder ob man zuerst a und b in Reihe schaltet, dann b und c in Reihe schaltet und danach die beiden so entstandenen Systeme parallel schaltet. Die beiden Systeme sind miteinander äquivalent in dem Sinne, daß sie den Strom gleichzeitig durchlassen oder nicht. r r a r r b r r r c r r a r r = r b r c r r c r r r Ebenso überlege man das zweite Distributivgesetz r r a r Aufgabe 2 : r c r b r r r = r r a r r c r r r r b r c r r r Beweise, daß für beliebige System von Relais a, b, c gilt (a ∧ b) ∨ (b ∧ c) ∨ (c ∧ a) = (a ∨ b) ∧ (b ∨ c) ∧ (c ∨ a) . Beweise, daß diese Identität in jedem Booleschen Verband gilt. (Siehe auch unten: Anwendung des Satzes von Stone.) Aufgabe 3 : Zwei Plätze Q und S sind durch drei Straßenzüge verbunden, wobei jeder Straßenzug einige Zugbrücken enthält, welche mit den unten angegebenen c Prof. Dr. H. Dinges, 18. Dezember 1998 A.1 217 Boolesche Algebren Wahrscheinlichkeiten angehoben sind. Die Schließungen erfolgen unabhängig. Mit welcher Wahrscheinlichkeit ist S von Q aus zugänglich? r Q 0.25r @ @ @ 0.1r r r 0.4r 0.1r 0.25r r r r 0.1r @ @ r @ r S Die Antwort ist 0.952575. Didaktische Hinweise : 1) Wir haben nicht den Eindruck, daß das formale Rechnen in Booleschen Algebren für den Studenten eine nützliche Vorübung ist, wenn es gilt, das Rechnen mit Ereignissen einzuüben. Das Rechnen in Mengenalgebren erfüllt den didaktischen Zweck viel direkter. Die obigen Aufgaben verstehen wir daher lieber als Anwendungen und nicht als Vorübungen. 2) Das Rechnen mit Ereignissen und Zufallsgrößen ist von den Techniken her dasselbe wie das Rechnen mit Mengen und Abbildungen. Wenn man die Isomorphie jedoch von der didaktischen Seite her betrachtet, ergibt sich ein ganz anderer Eindruck. Die abstrakte Mengenlehre ist arm an Bildern und Diagrammen; man hat eigentlich nicht viel mehr zur Verfügung als Varianten des aus der Schule bekannten Venn–Diagramms. Die Stochastik auf der anderen Seite lebt von den vielfältigen Visualisierungsmöglichkeiten. An einem guten Diagramm sieht man, was passieren kann; das Ereignis, um das es geht, wird bildlich repräsentiert und nicht die Menge der Versuchsausgänge“, für welche das Er” eignis eintritt. Die Bilder von Bäumen, Graphen, Pfaden u.dgl. sollen zeigen, worauf es ankommt. Die Darstellung eines Ereignisses durch eine Menge zeigt im allg. nichts. Sie ist didaktisch wertlos. A.1.2 Teilalgebren und Homomorphismen Definition : Eine Teilmenge W einer (V, ⊆, 0, 1) heißt Teilalgebra, wenn gilt σ–vollständigen Booleschen Algebra (i) a ∈ W =⇒ ¬a ∈ W (ii)f a, b ∈ W =⇒ a ∧ b ∈ W (Das Suffix steht für finit“.) ” Man spricht von einer σ–vollständigen Teilalgebra, wenn auch noch gilt (ii) a1 , a2 , . . . ∈ W =⇒ ∞ V ai ∈ W c Prof. Dr. H. Dinges, 18. Dezember 1998 218 Bemerkungen : 1) Wir fordern nicht nur, daß die Teilmenge W mit der induzierten partiellen Ordnung eine (σ–vollständige) Boolesche Algebra ist. Es ist wichtig, daß die Infimumsbildung in W die Infimumsbildung in V ist. 2) Zu jeder Teilmenge S ⊆ V gibt es eine kleinste S umfassende Teilalgebra W und eine kleinste S umfassende σ–vollständige Teilalgebra Wσ . W heißt die von S erzeugte Teilalgebra, Wσ die von S erzeugte σ–vollständige Teilalgebra. Wenn Wσ = V , dann nennt man S ein Erzeugendensystem von V . 3) Wenn S abzählbar ist, dann ist W ebenfalls abzählbar. Wσ ist nur dann abzählbar, wenn S endlich ist. Die Teilalgebra W heißt diskret, wenn sie ein Erzeugendensystem besitzt, welches aus abzählbar vielen paarweise disjunkten Elementen c1 , c2 , . . . besteht. In diesem Falle besteht W aus den endlichen Summen und deren Komplementen; Wσ besteht aus den abzählbaren Summen, die man mit diesen Atomen“ cj bilden kann. ” Hinweis : Alle für die Stochastik interessanten σ–vollständigen Booleschen Verbände sind abzählbar erzeugt. Es bringt aber keine Vorteile, die abzählbare Erzeugtheit in die Begriffsbestimmung des Ereignisfeldes aufzunehmen. Lemma : Sei S = {s1 , s2 , . . . , sN }. Für alle Null–Eins–Folgen der Länge N ε = (ε1 , . . . , εN ) definieren wir sε als den zu ε gehörenden Durchschnitt der Elemente si bzw. ¬si nach dem Muster des Beispiels (N = 4) ε = (1, 0, 0, 1) 7−→ sε = s1 ∧ (¬s2 ) ∧ (¬s3 ) ∧ s4 . Die sε sind paarweise disjunkt. Die von S erzeugte Teilalgebra besteht aus den N Summen, die man mit diesen sε bilden kann. W hat also höchstens 22 Elemente. Definition : Eine Teilmenge J einer (V, ⊆, 0, 1) heißt ein Ideal in V , wenn σ–vollständigen Booleschen Algebra (i) n ∈ J =⇒ n ∧ a ∈ J für alle a ∈ V (ii)f n1 , n2 ∈ J =⇒ n1 ∨ n2 ∈ J . Sie heißt σ–Ideal, wenn auch noch gilt (ii) n1 , n2 . . . ∈ J =⇒ ∞ W ni ∈ J . c Prof. Dr. H. Dinges, 18. Dezember 1998 A.1 219 Boolesche Algebren Lemma : Sei J ∗ irgendeine Teilmenge von V . Das kleinste J ∗ enthaltende σ–Ideal J besteht aus den Elementen der Gestalt n = a1 ∧ n∗1 + a2 ∧ n∗2 + . . . mit ai ∈ V, ni ∈ J ∗ . ∞ W Beweis : Jede abzählbare Vereinigung (bi ∧ n∗i ) kann man auch als disjunkte Vereinigung von Elementen ai ∧ n∗i schreiben. Die Gesamtheit dieser abzählbaren Vereinigungen ist ein σ–Ideal. Satz : Sei J ein σ–Ideal in V . Wir erhalten eine Äquivalenzrelation auf V , wenn wir definieren a = b(mod J) ⇐⇒ a \ b ∈ J und b\a ∈J . Die Menge V /J aller Äquivalenzklassen ist partiell geordnet, wenn wir setzen a ⊆ b(mod J) ⇐⇒ a \ b ∈ J Bezüglich dieser Ordnung ist V /J ein σ–vollständiger Boolescher Verband. Der Beweis ist trivial. Spezialfall : mit Sei A eine σ–Algebra über einer Menge Ω, d.h. ein Mengensystem (i) Ω ∈ A (ii) A ∈ A =⇒ Ω \ A ∈ A (iii) A1 , A2 , . . . ∈ A =⇒ ∞ S Mit der Teilmengenrelation Algebra. (mengentheoretisches Komplement) Ai ∈ A ⊆ ist (mengentheoretische Vereinigung) (A, ⊆, ∅, Ω) eine σ–vollständige Boolesche Ein σ–Ideal N in einer σ–Algebra A nennt man auch ein Nullmengenideal. Das Tripel (Ω, A, N) nennt man auch einen meßbaren Raum mit Nullmengenstruktur. Die Menge A / N aller Äquivalenzklassen ist eine σ–vollständige Boolesche Algebra. c Prof. Dr. H. Dinges, 18. Dezember 1998 220 Definition : Seien (U, ⊆, 0, 1) und (V, ⊆, 0, 1) σ–vollständige Boolesche Algebren und η eine Abbildung von U in V mit (i) η(0) = 0 , η(1) = 1 (ii) η(¬u) = ¬η(u) für alle u ∈ U (iii) η ∞ W ui = ∞ W η(ui ) für alle Folgen u1 , u2 , . . . . Dann heißt η ein σ–Homomorphismus von U . Die Menge der Elemente, die η in die Null abbildet, heißt der Kern von η. (Es handelt sich offenbar um ein σ–Ideal Nη in U .) Das Bild von U in V bezeichnen wir mit V η . (Es handelt sich offenbar um eine σ–vollständige Teilalgebra von V .) Satz : (Homomorphiesatz) Sei η : V ←− U ein σ–Homomorphismus. Dann gilt V η ' U/Nη (σ–isomorph). Beweis : u1 = u2 (mod Nη ) =⇒ η(u1 ) = η(u2 ) . Wir können η also als eine Abbildung von U/N η auf Vη verstehen. Diese Abbildung bildet die Menge der Äquivalenzklassen injektiv und surjektiv auf V η ab. Die Umkehrabbildung eines bijektiven σ–Homomorphismus ist automatisch ein σ–Homomorphismus. Spezialfall : Zu einer meßbaren Abbildung ϕ : (Ω, A) −→ (Ω0 , A0 ) betrachten wir die Volle–Urbild–Abbildung“ ” η : A 3 {ω : ϕ(ω ∗ ) ∈ A0 } ←−| A0 ∈ A0 . Es handelt sich um einen σ–Homomorphismus: denn η(Ω0 ) = Ω η(Ω0 \ A0 ) = Ω \ η(A0 ) η ∞ [ A0n ! = ∞ [ η(A0n ) . Das Bild von A0 unter η nennt man die von ϕ erzeugte Teil–σ–Algebra; man bezeichnet sie mit Aϕ . Der Kern Kϕ besteht aus allen A0 mit {ω : ϕ(ω) ∈ A0 } = ∅. Aϕ ist σ–isomorph zu A0 / Kϕ . c Prof. Dr. H. Dinges, 18. Dezember 1998 A.1 221 Boolesche Algebren Finite Variante : Es ist klar, was man unter einem Homomorphismus einer Booleschen Algebra in eine andere Boolesche Algebra versteht. Genau so wie im σ– vollständigen Fall beweist man den Homomorphiesatz und die Isomorphie des Bildes mit dem Booleschen Verband der Äquivalenzklassen modulo dem Kern. Satz : (Eindeutigkeitssatz) Seien η 0 und η 00 σ–Homomorphismen η0 : V ← U ; η 00 : V ← U . Wenn η 0 (s) = η 00 (s) für alle s ∈ S ⊆ U , dann stimmen η 0 und η 00 auf der von S erzeugten σ–vollständigen Teilalgebra überein. Beweis : Die Gesamtheit aller b ∈ U mit η 0 (b) = η 00 (b) ist eine σ–vollständige Teilalgebra, welche S umfaßt. Hinweise : 1) Es ist nicht leicht, Kriterien anzugeben, die garantieren, daß eine auf einem Erzeugendensystem S ⊆ U vorgegebene Abbildung η 0 : V ← S zu einem σ–Homomorphismus fortgesetzt werden kann. Im Falle, wo der Definitionsbereich V die Borelalgebra auf IR ist, werden wir unten einen Existenzsatz beweisen. S ist dort die Menge der Abschnitte (−∞, s]. 2) Leicht ist die Kennzeichnung aller σ–Homomorphismen, wenn der Zielraum die triviale Boolesche Algebra ist, die nur aus den beiden Elementen 0 und 1 besteht. Dann ist nämlich ein Homomorphismus von U nichts anderes als ein δ–Inhalt und ein σ–Homomorphismus nichts anderes als ein δ–Maß auf U . Im nächsten Abschnitt werden wir sehen, daß die δ–Inhalte und die δ–Maße so uninteressant nicht sind, wie es auf den ersten Blick scheinen mag. 3) Mit Wahrscheinlichkeitsmaßen, die keine δ–Maße sind, beschäftigen wir uns erst in späteren Abschnitten dieses Anhangs. Diese Überlegungen haben dann nichts mit dem Begriff des σ–Homomorphismus zu tun. 4) Der Kernpunkt unserer Theorie sind die Zufallsgrößen. Zufallsgrößen sind für uns σ–Homomorphismen von der Borelalgebra eines polnischen Raums in ein beliebiges Ereignisfeld hinein. η : (V, ⊆, 0, 1) ←− (E, B, ∅, E) B 7→ η(B) = {X ∈ B} . Es wird sich zeigen, daß der Begriff der Konvergenz von Zufallsgrößen ein entscheidendes Hilfsmittel ist, um einen Überblick über die Gesamtheit V E aller E–wertigen V –beobachtbaren Zufallsgrößen zu gewinnen. c Prof. Dr. H. Dinges, 18. Dezember 1998 222 A.1.3 Der Satz von Stone Satz : (Stone, 1936) Jede Boolesche Algebra ist isomorph zu einer Mengenalgebra. Vorbemerkung zum Beweis : Um die Konstruktion von Stone durchsichtig zu machen, bedienen wir uns des Begriffs des δ–Inhalts auf (V, ⊆, 0, 1). Die Punkte ω von Stones Darstellungsraum Ω entsprechen nämlich den δ–Inhalten δω (·) auf V. Man kann einen δ–Inhalt auf vielerlei Weisen beschreiben. 1) Ein δ–Inhalt ist ein Punkt in {0, 1} V mit gewissen Eigenschaften. Die Menge der δ–Inhalte ist also eine Teilmenge Ω von {0, 1} V . Es wird zu zeigen sein, daß es viele δ–Inhalte gibt. Ω ist eine kompakte Teilmenge des Raumes {0, 1}V , den wir mit der Produkttopologie ausstatten. 2) Ein δ–Inhalt partitioniert V V = {a : δω (a) = 1} + {a : δω (a) = 0} = Vω(1) + Vω(0) . Notwendig und hinreichend dafür, daß die Partitionierung V = V (1) + V (0) zu einem δ–Inhalt gehört, sind die folgenden Bedingungen an V (1) : (i) 1 ∈ V (1) (ii) a ∈ V (1) ⇐⇒ ¬a ∈ / V (1) (iii) Für jedes b ∈ V gilt a ∈ V (1) ⇐⇒ (a ∧ b ∈ V (1) oder a ∧ (¬b) ∈ V (1) ) . Wir bemerken für später die Konsequenz a ∈ V (1) , b ∈ V (1) ⇐⇒ a ∧ b ∈ V (1) . 3) Wir stellen uns die a ∈ V als Fragen vor, die einem Akteur ω vorgelegt werden und die dieser in finitkonsistenter“ Weise mit Ja“ oder Nein“ be” ” ” antwortet. Man braucht dem Akteur ω nicht alle Fragen a vorzulegen, um herauszufinden, was die Menge V (1) der für ihn wahren Aussagen ist. Es genügt, wenn man ihm die s aus einem Erzeugendensystem S vorlegt. Das Erzeugendensystem S denken wir uns fest gewählt. Wenn der Akteur ω die Fragen s1 , s2 , . . . , sn mit δ1 , δ2 , . . . , δn beantwortet (δi = 1, wenn si für ihn wahr ist; δi = 0, wenn si für ihn falsch ist), dann entnehmen wir daraus, daß unter den Aussagen sε = sε11 ∧ sε22 ∧ . . . ∧ sεnn genau eine (und zwar c Prof. Dr. H. Dinges, 18. Dezember 1998 A.1 223 Boolesche Algebren sδ = sδ11 ∧. . .∧sδnn ) wahr ist. Finite Konsistenz bedeutet, daß ein für ihn wahres sδ niemals das Nullelement 0 ∈ V ist. (Zur Notation ein Beispiel: S(1001) = s1 ∧ (¬s2 ) ∧ (¬s3 ) ∧ s4 ). Lemma : Jedes finitkonsistente Antwortensystem (S, δ(·)) definiert genau einen δ–Inhalt auf V . Beweis : Gestalt Die Elemente der von S a = a(1) + a(2) + . . . + a(N ) , erzeugten Booleschen Algebra haben die (disjunkte Vereinigung) wo jedes a(j) ein Durchschnitt von irgendwelchen s und ¬s mit s ∈ S ist. Das Anwortensystem (S, δ(·)) sagt uns, ob irgendein a (j) für den Akteur wahr ist. Höchstens eines kann für ihn wahr sein; und wenn es ein für den Akteur wahres a(j) gibt, dann ist dieses nicht das Nullelement. Das Einselement a = 1 ist für den Akteur wahr. Das finitkonsistente Antwortensystem liefert also genau einen δ–Inhalt. Gibt es nun finitkonsistente Antwortensystem (S, δ(·))? Die Antwort ist positiv, wie wir sofort zeigen werden. Wenn S überabzählbar ist, dann braucht der Nachweis allerdings die transfinite Induktion oder das Zornsche Lemma in voller Schärfe. e vor, der zunächst einmal nur Konstruktion : Wir stellen uns einen Akteur ω e Antworten auf die Fragen aus S ⊆ S bereithält, und das in finitkonsistenter Weise. e e e δ(·)). e δ(·)) Sein Antwortensystem bezeichnen wir mit ( S, Wir zeigen: Was immer (S, sein mag, es läßt sich zu einem konsistenten Antwortensystem (S, δ(·)) fortsetzen. e mit dem finitkonsistenten Antwortensystem 1) Nehmen wir an, dem Akteur ω e e (S, δ(·)) wird eine weitere Frage s∗ ∈ S vorgelegt. Er hat, wenn er mit seiner Antwort konsistent bleiben will, zweierlei zu beachten. Wenn es ein für ihn wahres a0 gibt mit a0 ∧ s∗ = 0, dann kann er die Frage s∗ nicht mit Ja beantworten. Wenn es ein für ihn wahres a00 mit a00 ∧ (¬s∗ ) = 0 gibt, dann kann er s∗ nicht mit Nein beantworten. Die Annahme, daß beide Hemmnisse auftreten, führt zum Widerspruch; denn a0 ∧ s∗ = 0, a00 ∧ (¬s∗ ) = 0 impliziert a0 ∧ a00 = a0 ∧ a00 ∧ (s∗ ∨ (¬s∗ )) = (a0 ∧ s∗ ∧ a00 ) ∨ (a00 ∧ (¬s∗ ) ∧ a0 ) = 0 , was der Annahme widerspricht, daß a 0 und a00 für ihn wahr sind. Dem Akteur bleibt also mindestens eine Möglichkeit, auch noch bei der Antwort auf s∗ konsistent zu bleiben. c Prof. Dr. H. Dinges, 18. Dezember 1998 224 e e δ(·)) 2) Machen wir die Gesamtheit aller finitkonsistenten Fortsetzungen von ( S, zu einer partiell geordneten Menge (Sα , δα (·)) ≤ (Sβ , δβ (·)) ⇐⇒ Sα ⊆ Sβ und δβ (s) = δα (s) für alle s ∈ Sα . Eine totalgeordnete Familie solcher (S α , δα (·)) liefert uns ein finitkonsistentes S Sα . Das Zornsche Lemma garantiert nun die Existenz Antwortensystem auf α maximaler Elemente. Aus 1) folgt, daß der Definitionsbereich eines maximalen Elements die gesamte Menge S ist. Jedes maximale Element definiert uns einen δ–Inhalt auf V , welcher auf Se die vorgegebenen Werte hat. Beweis des Satzes von Stone : Bezeichne mit Ω die Menge aller δ–Inhalte auf der Booleschen Algebra (V, ⊆, 0, 1) ω 0 = ω 00 ⇐⇒ δω0 (a) = δω00 (a) für alle a ∈ V . Jedem a ∈ V ordnen wir eine Teilmenge A a ⊆ Ω zu Aa = {ω : δω (a) = 1} . Die Abbildung η : V 3 a 7−→ η(a) = Aa ⊆ Ω ist dann ein injektiver Homomorphismus; denn 1) η ist ein Homomorphismus (i) η(1) = Ω wegen δω (1) = 1 für alle ω ∈ Ω (ii) η(¬a) = Ω \ η(a) wegen δω (¬a) = 1 ⇔ δω (a) = 0 (iii) η(a ∧ b) = η(a) ∩ η(b) (mengentheoretischer Durchschnitt); denn δω (a ∧ b) = 1 ⇐⇒ δω (a) = 1 und δω (b) = 1 . 2) η ist injektiv, d.h. zu jedem a 6= 0 existiert ein δ–Inhalt δ ω (·) mit δω (a) = 1. Jedes a 6= 0 enthält einen nichtleeren Durchschnitt der Art s ε , gebildet mit gewissen s1 , s2 , . . . , sn ∈ S. Der Akteur handelt zunächst einmal finitkonsistent, indem er auf si mit εi antwortet. Dieses Antwortensystem läßt sich zu einem finitkonsistenten Antwortensystem auf S fortsetzen. Für den entsprechenden δ–Inhalt δω gilt δω (a) = 1. Die Boolesche Algebra (V, ⊆, 0, 1) ist also isomorph zu der Mengenalgebra A über Ω, die aus den Aa besteht. c Prof. Dr. H. Dinges, 18. Dezember 1998 A.1 225 Boolesche Algebren Anwendung : Zu jeder Booleschen Algebra gilt für jedes Tripel a, b, c (a ∧ b) ∨ (b ∧ c) ∨ (c ∧ a) = (a ∨ b) ∧ (b ∨ c) ∧ (c ∨ a) . Beweis : Die Inklusion ⊆ ergibt sich leicht aus den Axiomen; (man braucht dabei sorgar nur die Existenz der Minima und Maxima in der geordneten Menge (V, ⊆)); denn a ∧ b ⊆ a ∨ b, a ∧ b ⊆ b ∨ c, a∧b ⊆ c∨a ; ebenso für b ∨ c und c ∧ a. Der Beweis der Inklusion ⊇ macht mehr Mühe, wenn man von den Axiomen ausgeht. Wenn man aber den Darstellungssatz von Stone beherzigt, dann kann man so tun als ab es sich um mengentheoretische Operationen handelte. Beide Ausdrücke beschreiben die Menge aller ω, welche in mindestens zwei der Mengen a, b, c liegen. Der abzählbare Fall : Um die Konstruktion zu verdeutlichen nehmen wir an, daß die Boolesche Algebra V ein abzählbares Erzeugendensystem besitzt: S = {s1 , s2 , . . .}. 1) Der Akteur beantwortet die Fragen s 1 , s2 , . . . der Reihe nach in finitkonsistenter Weise; er produziert damit eine Null–Eins–Folge δ 1 , δ2 . . . mit der Eigenschaft, daß s(n) = sδ11 ∧ . . . ∧ sδnn 6= 0. Wenn ihm die nächste Frage sn+1 vorgelegt wird, hat er nur zu beachten, daß er diese Frage nicht mit Ja“ beantwortet, wenn s(n) (ω) ∧ sn+1 = 0 und nicht mit Nein“, wenn ”(n) ” s (ω) ∧ (¬sn+1 ) = 0. Jedes konsistente n–tupel (δ1 , δ2 , . . . , δn ) kann er auf mindestens eine Weise zu einer unendlichen Folge (δ 1 , δ2 , . . .) fortsetzen. 2) Wenn wir nicht an den einzelnen ω interessiert sind, sondern nur an der Menge Ω ⊆ {0, 1}S , dann brauchen wir überhaupt kein Auswahlaxiom. Wir stellen uns {0, 1}S als topologischen Produktraum vor. Ω ist eine kompakte Teilmenge; Ω entsteht nämlich dadurch, daß wir in jeder Instanz n endlich viele offen– abgeschlossene Teilmengen von {0, 1} S abziehen. Die Aa sind Vereinigungen von Zylindermengen geschnitten mit Ω. Die Abbildung a 7−→ A a ist ein Homomorphismus auf eine Mengenalgebra über Ω. Nur für den Nachweis der Injektivität brauchen wir das Auswahlaxiom. Beispiel : (Dedekindsche Schnitte) 1) Für jedes n und jedes 2n–tupel rationaler Zahlen 0 ≤ s 1 < t1 < s2 < t2 < . . . < s n < tn ≤ 1 c Prof. Dr. H. Dinges, 18. Dezember 1998 226 bilden wir den formalen Ausdruck (s1 , t1 ] + (s2 , t2 ] + . . . + (sn , tn ] . Wir machen die Menge dieser formalen Ausdrücke zu einem Booleschen Verband (V, ⊆, 0, 1): Das minimale Element 0 ist durch die leere Summe (n = 0) gegeben; das maximale Element 1 ist der formale Ausdruck (0, 1]. X (s0i , t0i ] ⊆ X (sj , tj ] , wenn zu jedem i ein j existiert mit sj ≤ s0i < t0i ≤ tj . Die Axiome sind offensichtlich erfüllt. 2) Es ist leicht, eine zu (V, ⊆, 0, 1) isomorphe Mengenalgebra A∗ über einer Grundmenge Ω∗ anzugeben. Ω∗ könnte Q ∩ (0, 1] oder sonst irgendeine im Einheitsintervall (0, 1] dichte Menge sein und η((s, t]) = {ω ∗ : ω ∗ ∈ Ω∗ , s < ω ∗ ≤ t} η ist offensichtlich ein Isomorphismus. Für Stones Konstruktion ist es natürlich unerheblich, von welchem Ω∗ man ausgeht. 3) V ist abzählbar. Die Gesamtheit S aller (0, r] (r rational) ist ein Erzeugendensystem. Sehen wir, was die Konstruktion von Stone in diesem Falle liefert. Ein Akteur ω hat in finitkonsistenter Weise zu beantworten, ob für ihn (0, r] wahr ist oder nicht. Der Akteur ω0 könnte z.B. alle (0, r] als wahr deklarieren; er ist damit konsistent. Der Akteur ω x könnte sich an einer rellen Zahl x (0 < x ≤ 1) orientieren und ein (0, r] genau dann als wahr deklarieren, wenn x ≤ r; er ist damit konsistent. Wenn x 0 6= x00 , dann auch ωx0 6= ωx00 . Man überlegt sich sofort, daß es über diese ωx hinaus keine finitkonsistenten Akteure gibt. 4) Die Menge Ω aus der Konstruktion von Stone ist also mit dem abgeschlossenen Einheitsintervall [0, 1] zu identifizieren η((s, t]) = {x : x reell mit s < x ≤ t} falls s 6= 0 η((0, r]) = {x : x reell mit x ≤ r} P Es ist klar, was η( (si , ti ]) ist. Die Konstruktion entspricht der Konstruktion der Dedekindschen Schnitte. Die Zerlegung S = {s : δx (s) = 1} + {s : δx (s) = 0} ist der Dedekindsche Schnitt zur rellen Zahl x ∈ [0, 1]. Ein weiteres Beispiel, wo sich die Konstruktion von Stone explizit durchführen läßt, findet sich in G. Aumann: Reelle Funktion, Springer 1956. Seite 74. c Prof. Dr. H. Dinges, 18. Dezember 1998 A.1 227 Boolesche Algebren A.1.4 Der Satz von Loomis Satz : (Loomis, 1947) Zu jeder σ vollständigen Booleschen Algebra (V, ⊆, 0, 1) gibt es einen meßbaren Raum mit Nullmengenstruktur (Ω, Aσ , N) und einen σ–Isomorphismus ησ : V −→ Aσ / N . Vorbereitung : Betrachte zunächst irgendeinen surjektiven Homomorphismus von V auf eine Mengenalgebra A η : V −→ A . Dieser ist genau dann ein σ–Homomorphismus, wenn a1 ⊇ a 2 ⊇ . . . ∞ ^ ai = 0 =⇒ ∞ \ η(ai ) = ∅ . Die Bedingung ist notwendig. Daß sie auch hinreichend ist, sieht man so : Wir betrachten eine beliebige Folge a1 , a2 , . . . mit a = ∞ W ai und zeigen η(a) = Für bn = a1 ∨ . . . ∨ an haben wir (a \ b1 ) ⊇ (a \ b2 ) ⊇ . . . und ∞ T η(a \ bn ) = ∅. Andererseits η(a) − n [ η(ai ) = η(a \ bn ) , ∞ [ η(ai ) = η(a) − ∞ V ∞ S η(ai ). (a \ bn ) = 0, also und im absteigenden Limes η(a) − ∞ [ η(bn ) = ∅ . Beweis des Satzes von Loomis : Sei η ein surjektiver Homomorphismus : η : V → A. Eine Menge der Gestalt ∞ T ∞ V ai = 0 nennen wir eine elementare Nullmenge. Sei Aσ die N ∗ = η(ai ) mit von A erzeugte σ–Algebra und N das von den elementaren Nullmengen erzeugte σ–Ideal in A. 1) η trifft jede Äquivalenzklasse aus Aσ / N , mit anderen Worten : zu jedem A ∈ Aσ existiert ein a ∈ V mit A = η(a)(mod N) . Die A mit dieser Eigenschaft bilden nämlich eine σ–Algebra. Ordnen wir a die N–Äquivalenzklasse ησ (a) von η(a) zu, so ist ησ : V −→ Aσ / N ein surjektiver σ–Homomorphismus. c Prof. Dr. H. Dinges, 18. Dezember 1998 228 2) Um die Injektivität von ησ zu zeigen, müssen wir nachweisen η(a) ∈ N =⇒ a = 0 . Äquivalente Formulierungen dieser Eigenschaft von η sind η(a) ⊆ η(a) ⊆ η(a) ⊆ \[ n m [\ ^ η(anm ), n m [\ m η(anm ), _^ anm = 0 =⇒ a = 0 n m n m [\ anm = 0 für alle n =⇒ a = 0 η(anm ) n m η(anm ) ⊆ =⇒ a ⊆ η(a) =⇒ _^ n m anm ⊆ ^_ n m anm a. Die Injektivität ist gezeigt, wenn gezeigt ist, daß die Prämisse der letzten Implikation unverträglich ist mit der Aussage b := ^_ anm n m ! \ a 6= 0 . Wir führen einen Widerspruchsbeweis für den Fall von Stones Konstruktion. 3) Seien a und die Doppelfolge dann m(1), so daß (b ∧ b⊆ _ a1m m ! a1m(1) ) \a , (anm ) so, daß b := \ a 6= 0: denn 0 6= b = _ m VW n m anm \ a 6= 0. Es gibt (b ∧ a1m ) \ a . Weiter gibt es m(2), so daß (b ∧ a1m(1) ∧ a2m(2) ) \ a 6= 0: denn 0 6= b ∧ a1m(1) = _ m (b ∧ a1m(1) ∧ a2m ) \ a . In dieser Weise fortfahrend erhalten wir m(1), m(2), . . ., so daß 0 6= (b ∧ a1m(1) ∧ . . . ∧ anm(n) ) \ a für alle n . 4) Im Falle der Konstruktion von Stone ist η(a) die Menge der Akteure ω, TS welche die Frage a mit Ja“ beantworten. η(anm ) ist die Menge der ” n m Akteure η, die für eine passende Folge m(1), m(2), . . . jede der Fragen a nm(n) (n = 1, 2, . . .) mit Ja“ beantworten ” \[ ω∈ η(anm ) ⇐⇒ ∀ n ∃ m(n) : ω ∈ η(anm(n) ) n m ⇐⇒ ∃ m(·) : ∀ n ω ∈ η(anm(n) ) . c Prof. Dr. H. Dinges, 18. Dezember 1998 A.1 229 Boolesche Algebren Die Prämisse \[ n m η(anm ) ⊆ η(a) bedeutet also, daß ein Akteur ω, der zu irgendeiner Folge m(·) alle Fragen anm(n) mit Ja“ beantwortet, gezwungen ist, die Frage a mit Ja“ zu ” ” beantworten. Nach der Konstruktion von Stone realisiert ein solcher Zwang notwendigerweise schon nach endlich vielen Schritten, und zwar dadurch, daß für ein hinreichend großen n a1m(1) ∧ a2m(n) ∧ . . . ∧ anm(n) ∧ (¬a) = 0 . Nach 3) gibt es aber eine Folge, für welche alle diese Durchschnitte ungleich 0 sind. Im Falle des Homomorphismus von Stone haben wir also η(a) ∈ N =⇒ a = 0. Der σ–Homomorphismus ησ : V −→ Aσ / N ist injektiv. e , als Boolesche Algebra betrachtet, nicht abzählbar erWenn ein Ereignisfeld A zeugt ist, dann ist Stones Darstellungsraum Ω eine reichlich bizarre Menge. Die Topologen mögen das vielleicht nicht so empfinden; denn immerhin ist Ω eine kompakte Teilmenge des Produktraums {0, 1} V . Die Stochastiker fühlen sich durch Stones Konstruktion jedenfalls nicht dazu animiert, sich unter Ω oder gar den Punkten ω etwas vorstellen zu wollen. Der Darstellungssatz von Stone gilt ihnen nur als Bestätigung, daß alle Rechenregeln, die man aus der Mengenalgebra kennt, auch in beliebigen Booleschen Algebren gelten. Der Darstellungssatz von Loomis garantiert darüberhinaus, daß das Rechnen in meßbaren Räumen mit Nullmengenstruktur (Ω, A, N) ein getreues Abbild des Rechnens in Ereignisfeldern ist. Man darf allerdings die Nullmengenstruktur nicht unberücksichtigt lassen, wie der folgende Satz zeigen wird. Wir halten fest: Die Gleichheit in der Menge und auch die Gleichheit in der σ–Algebra A ist eine Fiktion; was allein zählt, ist die Gleichheit in A / N. e. A / N ist σ–isomorph zum Ereignisfeld A A.1.5 Die abstrakte Kennzeichnung der σ–Algebren Satz : Eine σ–vollständige Boolesche Algebra (V, ⊆, 0, 1) ist genau dann σ– isomorph zu einer σ–Algebra, wenn sie viele δ–Maße zuläßt. Es ist zu fordern, daß für jedes a 6= 0 ein δx (·) existiert mit δx (a) = 1. V ist in diesem Falle σ–isomorph mit einer σ–Algebra über der Menge der δ–Maße. c Prof. Dr. H. Dinges, 18. Dezember 1998 230 Beweis : 1) Wir zeigen zunächst, daß es Ereignisfelder gibt, die überhaupt keine δ–Maße zulassen. Die Borelalgebra über dem Einheitsintervall modulo den Lebesgue– Nullmengen ist ein solches Ereignisfeld. Es sei δx (·) ein δ–Maß auf V . Für jede abzählbare Partition des sicheP ren Ereignisses, e 1 = ∞ i=1 ai , gilt δx (ai ) = 1 für genau ein i(x). Die σ–Additivität eines W–Inhalts ρ(·) kann man bekanntlich auch durch die monotone σ–Stetigkeit im Nullpunkt charakterisieren. Für δ–Inhalte bedeutet die σ–Additivität von δx (·) a1 ⊇ a2 ⊇ . . . δx (ai ) = 1 für alle i =⇒ ∞ ^ ai 6= 0 . Betrachten wir eine Folge von Partitionen des sicheren Ereignisses e 1= X (n) ai für n = 1, 2, . . . i (n) Es gibt genau eine Folge in (x), so daß δx ain (x) = 1. Aus der σ–Additivität von δx (·) folgt ∞ V (n) ain (x) 6= 0. Wenn es nun in einem V Partitionen gibt, so daß für jede Folge i(n) ∞ V n=1 keine δ–Maße. eine Folge von (n) ai(n) = 0, dann gibt es auf V Im oben genannten Fall betrachte man die Folge der dyadischen Partitionen. 2) Es sei A eine σ–Algebra (über einer Menge Ω) und ζ : V −→ A ein surjektiver σ–Homomorphismus. Jeder Punkt ω ∈ Ω liefert dann ein δ–Maß δ ω (·) auf V δω (a) = 1 ⇐⇒ ω ∈ ζ(a) . Zwei Punkte ω 0 , ω 00 liefern genau dann dasselbe δ–Maß, wenn es kein A = ζ(a) gibt, welches die Punkte trennt. Betrachte in Ω die Äquivalenzrelation ω 0 ∼ ω 00 ⇐⇒ {A : A 3 ω 0 } = {A : A 3 ω 00 } . Die Äquivalenzklassen bilden eine Menge D; ihre Punkte interpretieren wir als δ–Maße. A, das Bild von V unter ζ können wir als eine σ–Algebra D über D auffassen. 3) Sei V irgendein Ereignisfeld und D die Menge aller δ–Maße auf V . Betrachte η : V 3 a 7−→ η(a) := {x : δx (a) = 1} ⊆ D . Dies ist ein σ–Homomorphismus auf eine σ–Algebra D über D. η ist genau ein σ–Isomomorphismus, wenn η(a) = ∅ =⇒ a = 0, also a 6= 0 =⇒ Es existiert ein δ–Maß, welches a den Wert 1 gibt. c Prof. Dr. H. Dinges, 18. Dezember 1998 A.1 231 Boolesche Algebren Fazit : Die Ereignisfelder, die zu einer σ–Algebra σ–isomorph sind, sind sehr spezieller Natur. Konstruktion : (Verkleinerung des Darstellungsraums) Sei V eine σ–vollständige Boolesche Algebra (Ω, A, N), so daß V ' A / N (σ– isomorph). Wir sagen von einem Ω∗ ⊆ Ω (Ω∗ nicht in A), daß es in Ω voll ist, wenn jede A–meßbare Obermenge von Ω∗ nur um eine N–Menge von Ω abweicht. Ω∗ ⊆ A, A ∈ A =⇒ A = Ω (mod N) . Sei A∗ die Spur“ von A auf Ω∗ und N∗ die Spur von N ” ∗ ∗ A = {Ω ∩ A : A ∈ A} , ∗ ∗ N = {Ω ∩ N : N ∈ N} . Dann ist auch (Ω∗ , A∗ , N∗ ) ein Darstellungsraum für V , d.h. V ' A∗ / N∗ . Beweis : η : A 3 A 7−→ Ω∗ ∩ A ∈ A∗ ist ein surjektiver σ–Homomorphismus. Wir zeigen die Injektivität Ω∗ ∩ A = Ω∗ ∩ B =⇒ Ω= (A 4 B) = ∅ =⇒ C(A 4 B) ⊇ Ω∗ ! =⇒ C(A 4 B) = Ω =⇒ A 4 B ∈ N . q.e.d. Bemerke : In derselben Weise können wir den Darstellungsraum für eine finite Boolesche Algebra verkleinern. Die Mengenalgebra A über Ω ist isomorph zu ihrer Spur A∗ über Ω∗ ⊆ Ω, wenn Ω∗ ⊆ A ∈ A =⇒ A = Ω. Zum Beispiel können wir für die Boolesche Algebra aller Pn (si , ti ] von oben, Ω = [0, 1] als Ω∗ jede in (0, 1] dichtliegende Menge wählen. Didaktische Konsequenz Es ist Schlamperei, wenn man den Studenten sagt: Eine Ereignisalgebra ist eine σ–Algebra über einer Grundmenge, deren Punkte man Versuchsausgänge nennt. Wahr ist: Jedes Ereignisfeld besitzt eine Darstellung e ' A / N, wo (Ω, A, N) ein meßbarer Raum mit Nullmengenstruktur ist. Würde A man darauf bestehen, daß das Ereignisfeld wirklich σ–isomorph zu einer σ–Algebra ist, so würde das bedeuten, daß man sich auf diejenigen σ–vollständigen Booleschen Algebren beschränkt, die viele δ–Maße zulassen. Dafür gibt es keinen Grund. Wenn man die Sätze von Stone und Loomis angemessen verwenden will, dann muß man den Gleichheitsbegriff für Punkte im Darstellungsraum Ω und den für Teilmengen von Ω in Ω und in A zurücknehmen, so daß nur der Gleichheitsbegriff in A / N bleibt. Wir dürfen eben nicht alle Ingredienzien der Konstruktion, welche c Prof. Dr. H. Dinges, 18. Dezember 1998 232 vom Auswahlaxiom wilden Gebrauch machen, einzeln in den Blick nehmen. Alle Stochastiker wissen natürlich, daß man die strikte Gleichheit in der σ–Algebra nicht ernstnehmen darf. Die wenigsten aber verraten dieses Wissen auch ihren Studenten. Die Auskunft, daß Ereignisalgebren σ–Algebren sind, kann nach meinen Erfahrungen die Intuition der Studenten sehr leicht in eine falsche Richtung lenken. Wenn der Anfänger statt mit Ereignisfeldern mit abstrakten meßbaren Räumen ohne Nullmengenstruktur konfrontiert wird, wenn er also über den abstrakten Gleichheitsbegriff in Ereignisfeldern getäuscht wird, kann er leicht auf falsche Gedanken kommen. Ich meine, daß man mit den Wahrscheinlichkeitstripeln als axiomatischem Fundament einen an den Denkgewohnheiten der Anwender vorbeigehenden halbherzig allgemeinen Standpunkt etabliert, über den sich niemand freuen kann. Ein Bemühen um mathematische Sicherheit, das bei den Wahrscheinlichkeitstripeln landet, geht an der Intuition ebenso vorbei, wie am Satz von Loomis. Es scheint mir offensichtlich zu sein, e den geeigneten Rahmen daß die abstrakten σ–vollständigen Booleschen Algebren A e mit bieten, in technischer wie in intuitiver Hinsicht. Wo es nötig ist, kann man A Hilfe eines (Ω, A, N) darstellen. Die halbherzige Abstraktion stört die Begriffsentwicklung. Die volle Abstraktion braucht natürlich in einer Einführungsveranstaltung nicht thematisiert zu werden; in einer Einführung kann man einiges unbewiesen und unbegründet lassen. Man darf aber die intuitiven Vorstellungen nicht durcheinanderbringen. Nichtintuitive technisch unzureichende Beweis– und Begründungsansätze, die falsche Fährten legen, müssen unbedingt vermieden werden. Die Anwender rechnen mit Vorliebe ohne Ω nur mit Zufallsgrößen; denn um die Zufallsgrößen läßt sich eine gesunde Intuition bauen. Zufallsgrößen nehmen Werte in vernünftigen Räumen an. Über diese Werte läßt sich reden. (Mit der Schwierigkeit kann man fertig werden, daß manche, an die Analysis gewöhnte Studenten nicht sofort einsehen wollen, daß es möglicherweise das Ereignis {X = x} für jedes festgewählte x gleich dem unmöglichen Ereignis ist. Dazu später mehr.) Die Zufallsgrößen sind das Konkrete für den Stochastiker. Es muß das Ziel der Einführungsveranstaltung sein, daß der Student mit ihnen mindestens ebenso souverän umgehen kann, wie das unter den Anwendern der Brauch ist. Die Wahrscheinlichkeitstripel stören dieses Programm; sie stellen eine mathematische Verkünstelung dar, die in der Angewandten Mathematik fehl am Platz ist. Insofern ist der Wunsch der Anwender nach einer Stochastik ohne W–Tripel zu unterstützen. Das bedeutet natürlich nicht, daß man die Erkenntnisse der Maßtheorie nicht zur Kenntnis nimmt. Die Erkenntnisse der Theorie werden nur etwas abstrakter interpretiert, nämlich als Erkenntnisse für Wahrscheinlichkeitsbewertungen auf abstrakten Ereignisalgebren. Wozu dienen denn nun überhaupt die Ereignisalgebren, wenn die wirklichen Grundbausteine der Theorie die Zufallsgrößen sind? Die Antwort lautet: Die Rolle der abstrakten Ereignisalgebra im Hintergrund ist es, die Zufallsgrößen auf einen gemeinsamen Boden zu bringen und den Gleichheitsbegriff festzuhalten. Ein unüberlegt fixierter Darstellungsraum (Ω, A, N) kann für konkrete Fragestellungen ein Hemmnis sein. Man beginne daher nicht mit der Konstruktion eines Darstellungsraums. Oft ist es schon ein wesentlicher Schritt auf dem Weg zur Problemlösung, c Prof. Dr. H. Dinges, 18. Dezember 1998 A.1 233 Boolesche Algebren wenn man eine passende Darstellung der relevanten Teilalgebra konzipiert hat. Man braucht überzeugende Bilder um etwas zu sehen! Wie sollte man aber irgendetwas ablesen können an einem Darstellungsraum, der mit Hilfe des Zornschen Lemmas konstruiert“ worden ist? Konkrete Darstellungsräume (Ω, A, N) können nützlich ” sein. Sie sind aber nicht die verbindliche Grundlage einer Modellierung. So, wie der Student akzeptiert, daß ein Vektor kein Zahltupel ist, obwohl er durch ein Zahlentupel dargestellt werden kann, so kann er auch verstehen lernen, daß ein Ereignis keine Teilmenge eines Grundraums ist, obwohl es durch eine solche dargestellt werden kann. In seinen erkenntniskritischen Untersuchungen zur Entwicklung der Wissenschaft in der Neuzeit schreibt E. Cassirer (1920): Gegenüber der empiristischen Lehre, die ” die Gleichheit bestimmter Vorstellungsinhalte als eine selbstverständliche psychologische Tatsache hinnimmt und für die Erklärung des Prozesses der Begriffsbildung verwendet, ist mit Recht darauf verwiesen worden, daß von Gleichheit irgendwelcher Elemente nur dann mit Sinn geredet werden kann, wenn bereits eine Hinsicht festgestellt ist, in welcher die Elemente als gleich oder ungleich bezeichnet werden sollen. Diese Identität der Hinsicht, des Gesichtspunkts, unter welchem die Vergleichung stattfindet, ist jedoch ein Eigenartiges und Neues gegenüber den verglichenen Inhalten selbst.“ Dem stimmen wir zu. Die Frage, ob zwei Ereignisse gleich sind oder verschieden, ist eine Frage der gedanklichen Konstruktion. Das hat noch nichts mit der Beziehung eines Modells auf die Wirklichkeit zu tun. Es gibt keine Gleichheit schlechthin. Gleichheitsdefinitionen fallen nicht vom Himmel; sie müssen gemacht werden. Im Begriff der Ereignisalgebra kommt das klar und deutlich zum Ausdruck. Die Gleichheit wird beim abstrakten Zugang ordentlich benannt. Hingegen werden im Begriff des Darstellungsraums (Ω, A, N) Gleichheitsbegriffe ins Spiel gebracht, die dann wieder zurückgenommen werden müssen, mit dem Effekt, daß am Ende nur der Gleichheitsbegriff in A / N übrigbleibt. Der Umweg lohnt sich nur, wenn die Mengen Ω und A in Hinblick auf das jeweilige Problem geschickt gewählt werden. c Prof. Dr. H. Dinges, 18. Dezember 1998 234 A.2 Zufallsgrößen A.2.1 Das intuitive Rechnen mit Zufallsvariablen Eine Zufallsgröße mit Werten im polnischen Raum E heißt auch ein zufälliger Punkt oder ein zufälliges Element von E. Manchmal spricht man auch von einer Zufallsvariablen. Die Bezeichnung Variable“ ist insofern passend, als das Operieren ” mit Zufallsvariablen Analogien aufweist mit dem geläufigen (aber selten thematisierten) Operieren mit abhängigen“ und unabhängigen“ Variablen in der klassischen ” ” Analysis. Wir werden sehen: I. Variable kann man zusammenbauen: Wenn X 1 , . . . , Xd Variable sind, dann ist X = (X1 , . . . , Xd ) eine Variable mit Werten im Produktraum. Variable kann man in Funktionen (oder Abbildungen) einsetzen: Wenn X eine Variable ist und g(·) eine Abbildung, dann ist Y = g(X) eine Variable. II. Die Gesamtheit aller D–wertigen Variablen wird durch einen Vervollständigungsprozeß aus der Gesamtheit besonders einfacher D–wertiger Variablen gewonnen. III. Wenn g(·) im Limespunkt X = lim X (n) stetig ist, dann gilt g(X) = lim g(X (n) ) . IV. Bei funktionalen Zusammenhängen Y = f (X, Z) kann man unter gewissen Bedingungen die Rolle von unabhängigen“ und ” abhängigen“ Variablen vertauschen. In diesem Falle hat man dann für ein ” geeignetes g(·) X = g(Y, Z) . (Letzteres erinnert an den Satz von der impliziten Funktion.) Unser Zugang zum Begriff der Zufallsvariablen ist eine Absage an die reduktionistische Herangehensweise, die den Namen Zufallsvariable“ als Synonym für eine ” meßbare Abbildung (eines beliebigen meßbaren Raums in einen beliebigen meßbaren Raum) benützt. c Prof. Dr. H. Dinges, 18. Dezember 1998 A.2 235 Zufallsgrößen Prinzip I (Meßbarkeit) Wenn g(·) eine borelmeßbare Abbildung ist g(·) : D1 × . . . × Dd −→ E , dann kann man als Argumente auch Zufallsvariable X i (Xi mit Werten in Di , i = 1, . . . , d) einsetzen und erhält dann eine E–wertige Zufallsvariable Y = g(X1 , . . . , Xd ) . In der elementaren Analysis unterscheidet man zwischen den unabhängigen Veränderlichen x1 , . . . , xd und der abhängigen Veränderlichen y = g(x1 , . . . , xd ). Der Mathematiker wählt x = (x1 , . . . , xd ) ∈ D = D1 × . . . × Dd völlig frei, g(·) rechnet ihm dann den Wert y aus. Diese Vorstellung paßt in der Stochastik nicht. Sowohl die Werte der Xi als auch der Wert von Y wird vom Zufall spezifiziert. Hier wie dort beschreibt g(·) die funktionale Abhängigkeit. Didaktische These : Auch auf der elementarsten Ebene sollte man den Begriff der Borelmeßbarkeit verwenden. Es legt der Intuition falsche Spuren, wenn manche Dozenten bei den Studenten den Eindruck erwecken, daß Borelmeßbarkeit von Abbildungen eine technisch raffinierte Verallgemeinerung von stückweiser Stetigkeit und Riemann–Meßbarkeit ist. Meßbarkeit manifestiert sich nicht durch angenehme lokale“ Eigenschaften wie Stetigkeit oder Differenzierbarkeit. Auf die vollen Urbild– ” ” Abbildungen“ kommt es an. Borelmeßbarkeit ist als theoretischer Begriff zu behandeln; was er bedeutet, kann sich nur aus der Art und Weise, wie man mit ihm umgeht, erschließen. Es wäre völlig verfehlt, wenn ein Dozent (außerhalb einer Vorlesung über Grundlagenprobleme der Analysis) den Studenten einen Eindruck davon vermitteln wollte, durch welche Eigenschaften sich borelsche Mengen von nichtborelschen unterscheiden. Borelmengen sind einfach der Typ von Mengen, den man braucht, um eine ordentliche Theorie zu betreiben. e –beobachtbare Zufallsgröße) Formale Definition : (E–wertige A e sei ein abstraktes Ereignisfeld (d.h. eine abstrakte σ–vollständige Boolesche AlA e –beobachtbare Zufallsgröße gebra), E sei ein polnischer Raum. Eine E–wertige A X ist ein σ–Homomorphismus e 3 {X ∈ B} ...................... B ∈ B . X :A e –beobachtbaren Zufallsgrößen. e E bezeichnen wir die Menge aller E–wertigen A Mit A E e Die Gleichheitsdefinition in A ist klar: X = Y ⇐⇒ {X ∈ B} = {Y ∈ B} für alle B ∈ B . Die Gesamtheit aller Ereignisse {X ∈ B} mit B ∈ B heißt die von X erzeugte eX ⊆ A e . Die technische Begründung von Prinzip I ist der (nur mit Teilalgebra A einigem Aufwand) beweisbare c Prof. Dr. H. Dinges, 18. Dezember 1998 236 e –beobachtbare Zufallsgrößen sind, Xi mit Werten Satz : Wenn X1 , X2 , . . . , Xd A in Ei , dann ist X = (X1 , X2 , . . . , Xd ) eine Zufallsgröße mit Werten in E = d Y Ei . i=1 Es wäre wohl didaktisch ungeschickt, dem Studenten gegenüber diesen Satz zu problematisieren. Der Student wird ihn als Selbstverständlichkeit akzeptieren. Wenn die Theorie in Ordnung ist, muß der Satz ja wohl gelten. Der maßtheoretisch sozialisierte Stochastiker wird kein Problem sehen: Das Produkt von polnischen Räumen ist ein polnischer Raum (und das gilt sogar für abzählbare Produkte); und meßbare Abbildungen des Grundraums Ω kann man zu einer meßbaren Abbildung in den Produktraum zusammenfassen“. ” Wir werden zeigen: Wenn man abzählbar viele Zufallsgrößen zusammenfaßt, entsteht wirklich eine Zufallsgröße. (Überabzählbare Zusammenfassungen lehnen wir ab.) In unserem Zugang bedarf der Satz eines Beweises. Zunächst haben wir nur: Jedem Rechteck B1 ×. . .×Bd ist ein Ereignis ξ(B2 ×. . .×Bd ) = {X1 ∈ B1 }∧. . .∧{Xd ∈ Bd } zugeordnet. Zu zeigen ist, daß ξ(·) sich in eindeutiger Weise zu einem σ– Homomorphismus fortsetzen läßt. In unserem Beweis wird die Polnizität eine hilfreiche Rolle spielen. Bemerkungen : e –beobachtbaren Zufallsgrößen mit Werten in der zweipunktigen Menge 1) Die A {0, 1} könnte man mit den Ereignissen Ae (oder vielleicht besser mit den Indikatorfunktionen 1Ae identifizieren). Nach dem Darstellungssatz von Loomis entsprechen diese den N–Äquivalenzklassen von {0, 1}–wertigen meßbaren Funktionen auf dem Darstellungsraum (Ω, A, N). 1A : (Ω, A, N) → ({0, 1}, Potenzmenge) . 2) Wir werden sehen, daß man E–wertige Zufallsgrößen durch N–Äquivalenzklassen von meßbaren E–wertigen Funktionen auf (Ω, A, N) darstellen kann. ϕ : (Ω, A, N) → (E, B) . Die folgenden Bedingungen an die A–meßbaren Funktionen ϕ(·) und ψ(·) sind äquivalent i) ϕ(·) und ψ(·) stellen dieselbe Zufallsgröße X dar ii) {ω : ϕ(ω) ∈ B} = {ω : ψ(ω)} ∈ B}(mod N) für alle borelschen B iii) {ω : ϕ(ω) 6= ψ(ω)} ∈ N c Prof. Dr. H. Dinges, 18. Dezember 1998 A.2 237 Zufallsgrößen Bemerke : Die Menge {ω : ϕ(ω) 6= ψ(ω)} ist A–meßbar, weil (ϕ, ψ)(ω) eine meßbare Abbildung nach E × E ist und die Diagonale in E × E borelmeßbar ist. 3) Der Darstellungssatz von Loomis trägt nicht weit, wenn es darum geht, σ– Homomorphismen einer beliebigen σ–Algebra A0 (über Ω0 ) in den Quotienten A / N durch eine Punktabbildung darzustellen. Zu einem σ–Homomorphismus η : A / N ← A0 . gibt es nicht notwendigerweise eine σ–Homomorphismus ηe : A ← A0 , aus welchem das gegebene η durch Äquivalenzbildung hervorgeht. Und selbst wenn wir ein solches ηe hätten, könnten wir es nicht notwendigerweise durch die volle Urbildabbildung einer A–meßbaren Punktabbildung erzeugen. Es ist im allg. nicht zu erwarten, daß es eine Punktabbildung ϕ(·) gibt, so daß gilt ϕ : (Ω, A) → (Ω0 , A0 ) mit ηe(A0 ) = {ω : ϕ(ω) ∈ A0 } für alle A0 ∈ A0 . Man braucht einige Struktur im Zielraum, wenn man zum σ–Homomorphismus η eine Punktabbildung finden will. Strategisches : Es wäre natürlich überhaupt nicht im Sinne unserer Didaktik, wenn man den Studenten diese Grundlagenfragen vorlegte. Wir wollen den Studenten nur das Prinzip I vorlegen. Die übliche maßtheoretische Vorgehensweise ist sicherlich nicht gewissenhafter. Die motivierenden Beispiele legen es keineswegs nahe, daß die Maßtheoretiker auch beliebige meßbare Abbildungen von beliebigen meßbaren Räumen als Zufallsgrößen gelten lassen wollen. Die Studenten, die sich an Anwendungen orientieren wollen, stutzen zurecht, wenn sie von den Mathematikern so überfahren werden. Es ist keine gute Tradition, daß die Mathematiker eine Kluft aufreißen zwischen ihrer sauberen“ Betrachtungsweise und der Art und Weise, wie ” die Anwender über Zufallsgrößen denken. Daß einige Willkür im Spiele ist, stellen kritische Studenten schnell fest, wenn sie keine befriedigenden Anworten bekommen auf die Frage, was es heißt, daß zwei Zufallsgrößen gleich sind oder fast gleich im Hinblick auf eine (Schar von) Wahrscheinlichkeitsbewertung(en). Die Gleichheiten in A und in Ω erweisen sich bei allen Beantwortungsversuchen nicht nur als mathematische Fiktion sondern auch als didaktische Probleme. Ein abstraktes Ereignisfeld mit einer abstrakten Gleichheit erscheint uns nicht nur technisch sauberer, sondern auch der Intuition näher zu sein. Im übrigen liegt unser Zugang auch auf der Linie der Denkweise der professionellen Stochastiker. Man hält sich den Zwang vom Leibe, den Grundraum auswechseln zu müssen, wenn es nötig wird, das Ereignisfeld anzureichern (bei randomisierten Entscheidungen beispielsweise). Das alte Ereignisfeld bleibt im erweiterten Ereignisfeld als Teilereignisfeld bestehen. c Prof. Dr. H. Dinges, 18. Dezember 1998 238 Prinzip II (Folgenstetigkeit) D und E seien polnische Räume. Sei X (1) , X (2) , . . . eine Folge von D–wertigen e –beobachtbaren Zufallsgrößen, welche konvergiert A X = lim X (n) (sichere Konvergenz) . n→∞ Für jede Abbildung h(·) : D → E, die im Limespunkt“ X stetig ist, gilt dann ” h(X) = lim h(X (n) ) (sichere Konvergenz) . n→∞ (Was es heißt, daß die Folge X (n) gegen X konvergiert, muß noch erklärt werden.) Bemerkung : Die Menge der Unstetigkeitsstellen des borelmeßbaren h(·) ist bekanntlich eine Borelmenge Dh . Zu fordern ist {X ∈ D \ Dh } = e 1 (sicheres Ereignis) . In der elementaren Analysis verwendet man viel Mühe darauf, eine solide Vorstellung von einer konvergenten Folge zu entwickeln. Es ist vor allem der Begriff der Cauchy– Folge, der entwickelt werden muß; erst in der Vervollständigung von Q zu IR wird die Idee von der konvergenten Folge ergiebig. Genauso ist es in der Stochastik. Die diskreten Zufallsgrößen sind der Ausgangspunkt. Alle anderen gewinnt man als Limiten von Cauchy–Folgen diskreter Zufallsgrößen. In der Vervollständigung, der e –beobachtbaren Zufallsgrößen gibt es dann viele e E aller E–wertigen A Menge A konvergente Folgen. Prinzip III (Vollständigkeit) e a) Jedes X ∈ A gewinnen. E kann man als Limes einer Cauchy–Folge diskreter Zufallsgrößen e b) Jede Cauchy–Folge in A E konvergiert. E e und dem Hinweis : Die Analogie zwischen dem Begriff der Cauchy–Folge in A Begriff der Cauchy–Folge in E ist sehr verläßlich. Die Grenze der Analogie wird aber dort erreicht, wo man (wie in der elementaren Analysis üblich) von der Folgenkonvergenz und Folgenstetigkeit zur Konvergenz und Stetigkeit in einem topologischen Raum übergehen möchte. Die Logiker weisen gelegentlich (ohne große Resonanz) darauf hin, daß man ein nicht gerade schwaches Auswahlaxiom braucht, wenn man aus der Folgenstetigkeit einer Funktion f (x), 0 ≤ x ≤ 1, die ε–δ–Stetigkeit erschließen will. Den Studenten verrät man davon nichts. Der Begriff der Folgenstetigkeit verschwindet später still und leise. Wenn die Studenten Punktmengentopologie c Prof. Dr. H. Dinges, 18. Dezember 1998 A.2 239 Zufallsgrößen studieren, wird ihnen nahegelegt, die Folgenstetigkeit nur noch als ein Kuriosum zu sehen; sie sollen nur noch an Umgebungen, abgeschlossene Hüllen u.dgl. denken. In der Stochastik kann die Folgenstetigkeit nicht verabschiedet werden. Der Begriff der sicheren“ Konvergenz von Zufallsgrößen gehört zu keiner Topologie. Es ist wie beim ” Begriff der fastsicheren Konvergenz in der Maßtheorie. Es gibt Folgen mit der Eigenschaft, daß jede Teilfolge eine konvergente Teilfolge besitzt und alle konvergenten Teilfolgen denselben Limes haben und die dennoch nicht konvergieren. Das ist nach Ansicht der Bourbaki–geschulten Mathematiker eine Pathologie des Konvergenzbegriffs. Die Bourbaki–orientierten Dozenten haben daher keine hohe Meinung vom Begriff der fastsicheren Konvergenz. Für sie ist es eher ein Kuriosum (welches allenfalls wegen der Mühen beim Beweis interessiert), wenn irgendwo fastsichere Konvergenz festzustellen ist. Demgegenüber betonen die nicht vom Bourbaki–System verdorbenen Stochastiker die zentrale Bedeutung der fastsicheren Konvergenz insbesondere beim individuellen Ergodensatz, beim Martingalkonvergenzsatz, oder beim Beweis, daß man viele stochastische Prozesse so einrichten kann, daß die Pfade rechtsstetig mit linksseitigen Limiten sind. Die pfadweise“ Betrachtung ist das Salz in der ” Suppe der Stochastik. Sogar in der Theorie der schwachen Konvergenz (von Wahrscheinlichkeitsmaßen auf einem polnischen Raum) benutzt man mit großem Gewinn den Begriff der fastsicheren Konvergenz: zu einer schwach konvergenten Folge von Maßen konstruiert man fastsicher konvergente Zufallsgrößen mit den vorgegebenen Verteilungen. Definitionsbereich und Wertebereiche : In der elementaren Analysis muß der Student Rechenschaft ablegen über den genauen Definitionsbereich jeder Abbildung g(·). Dies ist z.B. dann wichtig, wenn nach der Umkehrbarkeit der Abbildung gefragt ist. Gibt es zu g(·) : D → E ein h(·) : E → D , so daß h(g(z)) = z für alle z ∈ D und g(h(x)) = x für alle x ∈ E? Für jedes z, welches der Mathematiker in D wählt, soll der Bildpunkt g(z) durch h(·) wieder nach z abgebildet werden. h(·) interessiert auf dem genauen Wertebereich E. In der Stochastik ist die Frage nach dem genauen“ Definitionsbereich von g(·) fehl ” am Platze. Der Zufall spezifiziert den Wert von Z; und in vielen Fällen ist für jedes feste z ∗ das Ereignis {Z = z ∗ } das unmögliche Ereignis. In solchen Fällen kann man g(·) in jedem einzelnen z ∗ abändern ohne den funktionalen Zusammenhang X = g(Z) zu verändern. Generell gilt für die Gleichheit funktionaler Zusammenhänge: Wenn für g1 (·) : D → E , g2 (·) : D → E e , {g1 (Z) 6= g2 (Z)} = {Z ∈ {z : g1 (z) 6= g2 (z)}} = O c Prof. Dr. H. Dinges, 18. Dezember 1998 240 dann gilt g1 (Z) = g2 (Z) . Sei NZ die Gesamtheit aller borelschen Mengen N mit e (unmögliches Ereignis) . {Z ∈ N } = O NZ ist dann ein σ–Ideal in der Borelalgebra über D. Wir erhalten eine Äquiva- lenzrelation in der Gesamtheit aller borelmeßbaren Abbildungen g : D → E, wenn wir definieren g1 ∼ g2 ⇐⇒ {z : g1 (z) 6= g2 (z)} ∈ NZ . NZ Man kann übrigens zeigen e ) für alle B ∈ B . g1 ∼ g2 ⇐⇒ {g1 (Z) ∈ B} = {g2 (Z) ∈ B}( in A NZ Der funktionale Zusammenhang X = g(Z) bestimmt also g(·) nur bis auf diese Äquivalenz. Auch die Frage nach dem genauen“ Wertebereich von g(·) ist fehl am Platze. Wenn ” wir h(X) bilden wollen, kommt es auf h(·) nur bis auf NX –Äquivalenz an. Wertebereiche von Zufallsgrößen : Unsere Zufallsgrößen X nehmen stets Werte in einem polnischen Raum E an; und die transformierenden Abbildungen führen immer von einem polnischen Raum in einen polnischen Raum. Wenn E 0 ≤ E, dann wollen wir gelegentlich eine E 0 –wertige Zufallsgröße als eine E–wertige Abbildung auffassen; z.B. wollen wir manchmal eine ZZ–wertige Zufallsgröße als eine reellwertige Zufallsgröße auffassen. Dabei ist der folgende Satz aus der Theorie der polnischen Räume zu beachten: Jede Gδ – Menge E 0 in einem polnischen Raum E ist selbst ein polnischer Raum (Bourbaki, Topologie générale IX). Dabei versteht man unter einer G δ –Menge einen abzählbaren Durchschnitt von offenen Mengen. Sei X eine E–wertige Zufallsgröße und E 0 eine Gδ –Menge mit {X ∈ E 0 } = sicheres Ereignis. Dann kann man X auch als eine E 0 –wertige Zufallsgröße X 0 auffassen. Umgekehrt kann man eine E 0 –wertige Zufallsgröße X 0 als eine E–wertige Zufallsgröße X auffassen, wenn E 0 eine Gδ –Menge in E ist. {X ∈ B} = {X 0 ∈ B ∩ E 0 } für alle borelschen B in E . c Prof. Dr. H. Dinges, 18. Dezember 1998 A.2 241 Zufallsgrößen Beachte : Auch solche Auffassungswechsel führen nicht zu einem Begriff des ge” nauen“ Wertebereichs einer Zufallsgröße X. Der Durchschnitt aller der Gδ –Mengen E 0 mit {X ∈ E 0 } = sicheres Ereignis ist häufig leer. Im allgemeinen Fall ist die Suche nach einem für X natürlichen“ Wertebereich sinnlos. Bei einer diskreten Zufalls” größe X ∗ gibt es diese Schwierigkeiten nicht; man kann sehr wohl wirklich fragen, welche Werte die Zufallsgröße nun wirklich annehmen kann. Dort hat man e 1 = {X ∗ = x1 } + {X ∗ = x2 } + . . . e einfach weglassen. und man kann die xj mit {X ∗ = xj } = O Bei diskreten X und Y zeichnen wir die Konstanzbereiche: ................................ ....... ........... ...... ........ ..... ....... .... ...... . . . . ... ... . . . ... . . . . . . . . . . . . .... . . ... . . . . . . . . . . . . . .. ... ......... . .. . ............. . . . . . ... ... . .. . .. . .. . .. ..... .. . . . . ... ... . .. . . . . . . . . ... .. . . . . . ... . ... . .. . .. . .. . . .. . ..... .. . . ... . . ..... . .. . .. . .. . .... .... ..... ... ... . . . . . ... . ... . .. . .. . ..2 .. . . . . .... .. . .. . .. . . .. . .. . .. ... ................ . ... . . . . .... . . . . . . .. . .. ... ....................... . .. . .. . . . . . . . . .... . . . . . . . . .... .. ................................ . . . .. . . . . . .. . . . . . . ........ . . . . ....... ................................... .. . . . . . . . . .. . . . . . . . . . ............ .. ...................................................... ... . . ............................................. .. . . .... . ...................................... . . . . . ... . ...........4 . . ...... ................. .. ... ..................................... ........................................ .. ... . .......... ... ....................................................... ... ... . . . ............ ... ............. .. .. ........... . .... ..... . . . . .... .......... . .. . . .. .... ........... .... . .......... ... ..... .... . . . . . .... .... . . . . . .. .... ..... . . .1 . . .... ......... .... . ... ... . .... .. . .. .... .. ... ......... . . . ... .. . ... ............. . . ..... .. .... ......... ...... ... .. ............ ... ... ... ... ... ... . . . ... ... .......................... ... .................................. ... ... ....... ................................ ... ....................................... ... ................................................................... . . . ... . ..... .......... .. .. .. .............................. . .. ...... .........................................3 ........................................................ ........... ........... ............ ........................... x x x x ................................ ....... ........... ...... ........ ..... ....... ..... ...... . . . . .. ... . . 1 ............ ... . . . .............. . ..... ... . . . . . . . . . . . . . . ... . ........ . . . ... . . . . . . . . . . . . ........ . . . . . . . ..... .. . . . . . . . . . . . . . ... . .... . . ... . . ............ . .................... . . . . . . . . . . . . ..... . . . .. . . . . . . . . ......... ... .. . . . . . . .2 . . . . ............................. ...... . . . .. . ... . . . . . . ..................... .. . .. . .. .. . ... .... . . . . . . .............................. . .. .... .... .. . .. ....... . .......... . . . . . . . . . . .. ... ... . . . ............................ . .. .... .... .. . .. .... .... .. .... .... .... . . ........... . . . . . . . . . . . . . . . . . ... ... ............. . . . . . . . . . . . . . . . . . . . . . . . . . . .. ........................ .. . .. . .. . . .. . .. . .. .. . .. . .. . . .. . .. . .. . . .. . .... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. ... .. .... .... .. . .. .... .... .. . .. .... .... .. .... .... .... .. .... .... .... . . . . . . . . . . . . . .3 . . . . . . . . . . ... . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . ...... .. . . . . . .. . .. . . .. . .. . .. . . .. . .. . . . . .. . .. . ........................... .. .. .... .. . .. . .. .... .. . .. . .. .. . .. . .. .... .. ............................................... ...... .. . .. .... .... .. . .. .... .... .. .... .. ............................................................................ . . . . .. . . ... . . . . . ........ .. . .. .... .... .. .... .................................................................................................... .... . . . . . . . ....... .. . . ................................... .... . . .. .... .. ...........................................................4 ... . .. ......... ..... . ................................................................................... ... .. ................................................................ .. . ... ........................................ . .............................. ... ................. ... ... ... ... ... ... ... . .. ... ... ... .... ... ... ... ..... . .... . . . .... .... ...... ...... ....... ....... ........ ......... ..................................... y y y y · · · Nach alledem, was wir über die Unestimmtheit in den Wertebereichen gesagt haben, könnte es auf den ersten Blick überraschen, daß man die Frage nach der Umkehrbarkeit einer funktionalen Beziehung sehr wohl stellen kann. Die Frage hat eine überraschend einfache Antwort. Die allgemeine Fassung des entscheidenden Satzes heißt der allgemeine Hebungssatz. Wir beweisen ihn am Ende des nächsten Abschnitts. Hier formulieren wir einen Spezialfall, der an den Satz von der implizit gegebenen Funktion erinnern sollte. Prinzip IV ( Hebungsprinzip“) ” e –beobachtbare Zufallsgrößen und Y = f (X, Z) mit einem borelmeßSeien X, Z A baren f (·, ·). Genau dann gibt es ein borelmeßbares g(·, ·) mit X = g(Y, Z), wenn e (Y,Z) beobachtbar ist. X bzgl. der von (Y, Z) erzeugten Teilalgebra A Bemerke : 1) Fragen der Konvergenz von Zufallsgrößen oder der Stetigkeit von Abbildungen scheinen hier keine Rolle zu spielen. Dennoch ist es wichtig, daß X Werte c Prof. Dr. H. Dinges, 18. Dezember 1998 242 in einem polnischen Raum annimmt. Irgendwo versteckt spielt die Topologie doch eine Rolle. Für meßbare Abbildungen, die Werte in abstrakten meßbaren Räumen annehmen, kennen wir kein Hebungsprinzip. 2) Es gibt noch weitere gute Gründe für die Forderung, daß die Zufallsgrößen Werte in polnischen Räumen annehmen. Im polnischen Fall hat man einen guten Überblick über die Gesamtheit aller σ–Homomorphismen von B in e , d.h. einen guten Überblick über die Gesamtheit A e E aller E–wertigen A e– A beobachtbaren Zufallsgrößen. Zu diesem Überblick verhilft uns das Vollständigkeitsprinzip. Die Zufallsgrößen sind die Limiten von Cauchy–Folgen diskreter Zufallsgrößen. Manchmal darf man sich auch im kontinuierlichen Fall die Partitionen des sicheren Ereignisses wie Partitionen einer Grundmenge Ω vorstellen. Zwar entsprechen (nach dem Satz von Loomis) die Ereignisse {X ∈ B} keinen Mengen sondern vielmehr N–Äquivalenzklassen von Mengen. Zu jedem E existiert aber, wie wir unten im Darstellungssatz beweisen werden, eine Abbildung ϕ(ω), wo {ω : ϕ(ω) ∈ B} das Ereignis {X ∈ B} für alle B ∈ B repräsentiert. Das ist der Grund, daß Bilder wie die folgenden die Intuition nicht irreleiten. Die Polnizität ist aber wichtig. Zu einem σ–Homomorphismus 0 A/N ← A mit einer σ–Algebra A0 , die nicht die Borelalgebra eines polnischen Raums ist, ist das Bild schwerlich zu rechtfertigen. Bei reellwertigen X und Y stellen wir uns Höhenlinien vor: ................................ ........... ....... ...... ...................... ........ .... ....... ... ..... .... . . . . ... ... ........................... . . . . . . ... . . . ..... ...... .. ... .... . . . . . . . . . .... ...... ... ... ................... . . . . . . ..... ... .... 00........... .............. .... . . ... . ... ... ..... .... . . . . . . . . . .... ....... ... .... ... ... .... ..... . . . ... ... ... . ...... .... . . . . . . . .... ... ... .... ... .......... ... ... ... .. ... .... ... ... ... ... ... .... . .................. ... .. . . . .... ... ... .............. ... ... .. . . . . . ......... ... ... ... ...... .. ....... . . . . ... ... ... ....... .. .. . . . ...... ... ... ... ........ ...... .. . . . . ... ... ... ...... ...... .. . ... ... ... ..... ..... .. ..... . . . . ... ... .. .... ..... .. ... ..... .... .... ... ... .......................................... ... ..... .. ..... .......... .. ..... ... .... ......... .. ... .... .... ... ........ .. .... ... .... ... ....... .... ....... ... . .. ..... ... . . . . . . . . . . . . . . . 0 ..... ..... .... ... .. ...... ..... ...... .... .. .. ..... ....... ... ... ...... ... ... ........ ... ... .. ......... ... ....... .. ... . .......... ..... . ... .......... . ............. .. ........ . .. . . . .. . . . . . . . . . . . . . . . . .............. .......... ... .. . . . . . . . .................. ... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ................................ . ... . . ... ... ... .... ........... ............ ... .............. ............ .... ........................................................ ........ .... ... .... ..... ...... ....... ....... ......... ....... ...................................... x x A.2.2 y0 ......................... 00 ............... .......... ............ ... ..... .......... ........ ................... .... ...... .... ... .......... . . . . . . . . . .................... .................... ....... ..... ... . . . . . . ...... ....... . . ... ... ... ...... .. ... . ...... ... ... ... ... ... .... .......... ... ... ......... ......... .... .... .. ..... .. ............ .................. .... .... ......... . ...... ..... .... . ... .... . . . .. ...... . . . . . . . . . . .. ..... .... ...... ... ..... .. .. .... ........ ... .. .. .... ........ .............. ... ... .. ..... .. .. .... . . . . . ...... .. .. . ..... ..... . .. . ..... ...... ....... .... .. .... .. ... ... .. .. ....... ... ... .. ... ...... ... ...... ... .. .. ... ... ... ... .... .... ........ .... .... .. ... ... ... ... .. ..... ... .. ... .. .... .. ............................................ .... . . .. ..... ..... ...... ... .... ... ... ............ ... ..... ... . .. ... ... ... ... ... ........ ... ... ... .. .... .... .... ................ . .. .. .. .... ... ........ .... ..... ....... ...... .. ... . . . . ... .. .... ..... ..... . ... ... . ... .. ....... .. . . . . . . . . . ..... .. ... ... .. ... . ..... .. ... .. ... .... .... .... ....... .... .. .... .. ... .. .. ... ... .. .. ..... ... .. .. .... .. ...... .. . ............................................. .... .. ..... ..... ....... .. .. .... ........... .. ....... .. .. .. ......... .... ........ .... ......... .... . . .... . . . ........... ..... .... ..... ..... .. ..... . . . . ... .................. . ... . ... .... .... ... .... ........ ... .. ....... ... ... ........ .... .... ... ... .... ............ .... .. . . . . .. .. .. .............. . . .......... .. .. ......... ....... .... .. .. . . . . . . . . . . . . . ........... . . . . ... . .... . ..... ... . ... .......... .... ............... ... ... ......... ... .......... ....... ... ....... ... . . ... ................... ... . . ..... .. .. . ...... ...... .. ... .......... ... ... ... ......................................................... .... ..... ..... ... ... ........... .. . . ........... .. . .. ...... . . ... ... . . . . . . . . . . . ... ... .. ........................................................................................... ..... . . .. ... .. ... .. ... ... ... .... .. .. .. .. ... ... .... .. .. ... .. ..... .. ..... .... ..... ..... ...... ............................ . ............... .. .. .. ... . . . .... ......................................................................... ....... . . .... .. ...... ..... .... .... ..... ..... .......... ...... . .... ... ....... ............. ... ............... ....................... ........ y Darstellungstheorie Dies ist nun wieder ein technischer Abschnitt. Für den fortgeschrittenen Stochastikstudenten soll dargelegt werden, welche harten mathematischen Sätze hinter den c Prof. Dr. H. Dinges, 18. Dezember 1998 A.2 243 Zufallsgrößen Prinzipien des intuitiven Rechnens mit Zufallsgrößen stehen. Der Satz von Loomis wird sich als ein höchst wirksames Beweisprinzip erweisen. Wir werden aber darauf achten, daß die spezielle Konstruktion von Stone, (die ja hochgeradig unanschaulich ist und das Auswahlaxiom in der allerstärksten Version benützt,) den intuitiven Gehalt der Aussagen nicht verdunkelt. Reellwertige Zufallsgrößen : Jedes reellwertige X ist jedenfalls eindeutig bestimmt durch die abzählbar vielen Ereignisse {X ≤ r} mit r rational; denn die Gesamtheit der Intervall {(−∞, r] : r rational } erzeugt die Borelalgebra auf IR. Wir fragen nun, welche Scharen von Ereignissen ξ = [ξr , r rational ] geeignet sind, eine Zufallsgröße X zu definieren: {X ≤ r} = ξr für alle r. Aus dem Studium der Gesamtheit X aller definierenden Scharen ξ wird sich ein Hinweis auf den angemessenen Konvergenzbegriff in X ergeben. (X wird nicht zu einem topologischen Raum gemacht; nur abzählbare Operationen sind erlaubt.) Satz : (Charakterisierung der reellwertigen Zufallsgr ößen) Sei ξ irgendeine isotone rechtsstetige Familie von Ereignissen {ξ r : r ∈ Q} mit (i) r < s ⇒ ξr ⊆ ξs Isotonie . (ii) ξx = ^ ξr für x rat. (Rechtsstetigkeit) . r>x (iii) ^ r e , ξr = O _ r ξr = e 1. Es gibt dann genau eine IR–wertige Zufallsgröße X mit {X ≤ x} = ξx für alle x . Der Beweis wird unten in aller Ausführlichkeit geführt. Historischer Hinweis : In Kolmogorovs Grundlegung von 1933 und in vielen darauf aufbauenden Untersuchungen gibt es nur reellwertige Zufallsgrößen. f (·) auf Ω heißt A–meßbar, wenn {ω : f (ω) ≤ λ} ∈ A für alle λ . Die reellwertigen Zufallsgrößen spielen in mancherlei Beziehung eine besondere Rolle. Die Vorstellung, daß es sich bei f (·) um eine Abbildung handelt, ist nicht immer die natürliche. In der Integrationstheorie und in der Theorie der Banachräume Lp (Ω, A, P ) steht der Abbildungsgesichtspunkt nicht vornean. Man erhält die Elemente f vielmehr durch einen Vervollständigungsprozeß aus der Menge der Linearkombinationen von Indikatorfunktionen. c Prof. Dr. H. Dinges, 18. Dezember 1998 244 Einer der Hauptpunkte in Kolmogorovs Grundbegriffen war die Theorie der bedingten Erwartungen auf der Grundlage des Satzes von Radon–Nikodym. Wenn man dQ in den Lehrbüchern behannachsieht, wie die Randon–Nikodym Dichten f = dP delt werden, stellt man fest, daß die Vorstellung von einer Abbildung fernliegt. Es gibt Beweise, die von Projektionen im L2 (Ω, A, P ) ausgehen, also zunächst mit Hilbertraumideen arbeiten, und dann mit einem Monotonieargument zu einer Projektion des L1 (Ω, A, P ) gelangen. Andere Beweise stützen sich aauf die Jordan–Hahn–Zerlegung von signierten Maßen: für jedes rationale r zerlegt man den Grundraum so, daß Q − rP rein negativ ist auf dem einen Teil Ω r und rein negativ auf dem Rest Ω \ Ωr . Die Zerlegung ist bis auf P –Nullmengen eindeutig. Es gilt r < s =⇒ Ωr ⊆ Ωs (mod NP ) . Dieses Bild haben wir in unserem Charakterisierungssatz vor Augen. Besonderheiten der reellwertigen Zufallsgr ößen : Bei vielen Zugängen zu den reellwertigen Zufallsgrößen spielt die Ordnungsstruktur und (oder) die Gruppenstruktur von IR eine wesentliche Rolle. Wenn das Hebungsprinzip in manchen sonst sehr modernen Lehrbüchern nur für reellwertige Zufallsgrößen bewiesen wird, dann ist das vermutlich auf die besonderen Bequemlichkeiten zurückzuführen, die der Wertebereich IR bietet. Für allgemeines polnisches E muß an die Stelle von Monotonieargumenten ein Approximationsprinzip allgemeinerer Art treten. Obwohl wir der Ansicht sind, daß dieses allgemeinere Approximationsargument das Vollständigkeitsprinzip (Prinzip III) viel klarer herausarbeitet als die zunächst einmal angestellten Überlegungen über monotone Konvergenz, hat u.E. der folgende erste Beweisansatz einigen didaktischen Wert. IR e e –beobachtbaren) Zufallsgrößen ist eines von Die Gesamtheit A der rellwertigen (A denjenigen mathematischen Objekten, die mit Gewinn aus verschiedenen Blickwinkeln betrachtet werden können. Wir wollen uns nicht auf den knappsten Zugang verlassen, da es darum geht, das Vorstellungsvermögen anzuregen und den Wunsch nach Verallgemeinerung plausibel zu machen. Der Standpunktwechsel bei der Behandlung reellwertiger Zufallsgrößen lohnt sich sehr oft und sollte daher bei passenden Gelegenheiten immer wieder geübt werden. Ein Student, beispielsweise, der Martingale nur als Folgen von Radon–Nikodym– Dichten sieht, hat große Nachteile gegenüber einem, der es auch gelernt hat, Pfade zu zeichnen und sich ein Bild von den Oszillationen zu machen. Ähnliches ist vom individuellen Ergodensatz zu sagen. Das Lemma von Garsia für E. Hopfs Maximallemma oder das etwas ältere Lemma von A. Brunel beeindruckt den Funktionalanalytiker durch Knappheit und durch die Nähe zu den geläufigen Begriffsbildungen der positiven Kontraktion; dem Stochastiker sagen Pfadbilder aber mehr. Pfadbilder entsprechen den im vorigen Kapitel empfohlenen Vorstellungsweisen. Im folgenden stellen wir zu Beweiszwecken verbandstheoretische Überlegungen in den Vordergrund. c Prof. Dr. H. Dinges, 18. Dezember 1998 A.2 245 Zufallsgrößen Der Bequemlichkeit halber charakterisieren wir nicht den Raum der reellwertigen e –beobachtbaren ZufallsZufallsgrößen. Wir studieren vielmehr die IR + –wertigen A größen. Wenn wir den Punkt +∞ hinzufügen, können (oder müssen) wir auf die W Forderung ξr = e 1 verzichten. Es ist leicht, auf IR+ eine Metrik einzuführen, die diesen Raum vollständig macht (mit der üblichen Definition der Konvergenz nach +∞). Wir brauchen eine solche Metrik hier aber nicht. Die Gesamtheit der IR+ –wertigen Zufallsgrößen als vollständig geordnete Menge 1) X wird zu einer partiell geordneten Menge, wenn wir setzen ξ ⊆ η ⇐⇒ ηx ⊆ ξx für alle x . Man sieht leicht, daß gilt ξ ≤ η ⇐⇒ ηs ⊆ ξt für alle rationalen s < t . (X, ⊆) hat ein größtes und ein kleinstes Element und für jede Folge ξ (n) gibt es das Supremum und das Infimum in X η = X − sup ξ (n) ξ = X − inf ξ (n) ⇐⇒ ηx = ⇐⇒ ξx = ^ ξx(n) n ^ y>x ξey mit ξey = _ ξy(n) . n e die man durch Supremumsbildung erhält muß rechtsstetig ge(Die Schar ξ, macht werden.) Wir schreiben η = lim ↑ ξ (n) , wenn ξ (1) ↓≤ ξ (2) ≤ . . . und η = X − sup ξ (n) . Entsprechend wir ξ = lim ↓ ξ (n) , wenn ξ (1) ≥ ξ (2) ≥ . . . und schreiben ξ = X − inf ξ (n) . 2) Jeder Folge ξ (n) ξ∗ zuordnen n können wir den oberen Limes ξ ∗ und den unteren Limes ξ ∗ := lim ↓ X − sup ξ (n) : n ≥ N ≥ lim ↑ X −inf ξ (n) : n ≥ N =: ξ∗ . N ξ (n) Wir sagen von einer Folge n N , daß sie gegen ξ konvergiert und schreiben ξ = X − lim ξ (n) , wenn ξ∗ = ξ = ξ ∗ . Offenbar konvergiert die Folge genau dann, wenn ^ _ N n≥N ξs(n) ⊆ _ ^ (n) ξt für alle s < t . N n≥N c Prof. Dr. H. Dinges, 18. Dezember 1998 246 3) Für die Folge ξ (n) n mit ξs(n) = {X (n) ≤ s} bedeutet die X–Konvergenz gegen ξ, daß für alle s < t gilt (i) ξs ⊆ (ii) W V V W N n≥N N n≥N {X (n) ≤ t} {X (n) ≤ s} ⊆ ξt . Diese Formeln bereiten auf die Definition der Konvergenz von E–wertigen eE Zufallsgrößen vor. Wir können im Raum der E–wertigen Zufallsgrößen A keine Ordnung einführen. Dennoch werden die Formeln (i) und (ii) ähnlich lauten. 4) Die Vollständigkeit von IR+ wird gebraucht, wenn man zu jedem X, welches man als Limes erhält einen σ–Homomorphismus e 3 {X ∈ B} ← B ∈ B A konstruieren will. Es kommt darauf an, daß für alle s < t < u (aus Q) {X ≤ s} ⊆ _ ^ N n≥N {X (n) ≤ t} ⊆ ^ _ N n≥N {X (n) ≤ t} ⊆ {X ≤ u} . Zur Konstruktion des σ–Homomorphismus ziehen wir den Satz von Loomis e ' A / N. Zu jeder rechtsstetigen heran. Wir haben (Ω, A, N) , so daß A isotonen Schar ξ = [ξs : s > 0, rational ] finden wir eine A–meßbare IR+ – wertige Funktion f (ω), so daß {ω : f (ω ≤ s} = ξs (mod N) (s rational ) e einen Repräsentanten Die Konstruktion erfolgt so: Wir wählen zu jedem ξs ∈ A As ∈ A und setzen As = \ At (mengentheoretischer Durchschnitt) . t>s As ist ein Repräsentant von ξs ; denn s < t =⇒ As ⊆ At (mod N) . Die Schar [As : s > 0} ist nun im mengentheoretischen Sinn isoton und rechtsstetig. Setze f (ω) = inf{s : ω ∈ As } f (ω) = +∞, falls ω ∈ / [ As . s c Prof. Dr. H. Dinges, 18. Dezember 1998 A.2 247 Zufallsgrößen Für alle reellen λ gilt {ω : f (ω) ≤ λ} = \ s>λ As ∈ A . f (·) ist also A–meßbar im klassischen Sinn und B 3 B 7−→ {ω : f (ω) ∈ B} ∈ A e –wertigen Zufallsgröße X zu ξ liefert einen Repräsentanten der A B 3 B 7−→ {X ∈ B} = N –Äquivalenzklasse von {ω : f (ω) ∈ B} . 5) Wenn f (ω) und g(ω) A–meßbare Repräsentanten von ξ bzw. η ∈ X sind, dann gilt ξ ≤ η( in X) ⇐⇒ {ω : f (ω) > g(ω)} ∈ N ⇐⇒ f ≤ g N –fast überall . Wenn f (n) (ω) ein Repräsentant von ξ (n) ist, dann ist g(ω) = sup{f (n) (ω)} ein Repräsentant von X − sup(ξ (n) ) n h(ω) = inf {f (n) (ω)} ein Repräsentant von X − inf(ξ (n) ) . n Genau dann konvergiert (ξ (n) )n in X, wenn für N–fast alle ω lim inf f (n) (ω) = lim sup f (n) (ω) . n→∞ n→∞ Die Konvergenz in X entspricht also der N–fastsicheren Konvergenz A– meßbarer IR+ –wertiger Funktionen. Der vollständige Raum aller E–wertigen Zufallsgr ößen e E mit allgemeinem polnischen E Für den Beweis des Vollständigkeitsprinzips in A steht uns keine vollständige Ordnung in E zur Verfügung. Wir müssen etwas anders vorgehen. Dazu brauchen wir einige Vorbereitungen. Notationen : a) E bezeichnet einen polnischen Raum, ρ(·, ·) eine Metrik, die E vollständig macht. Für A ⊆ E definieren wir ρ(x, A) = inf{ρ(x, y) : y ∈ A} für α > 0 Aα = {x : ρ(x, A) < α} = {x : ρ(x, y) < α für ein y ∈ A} . b) K = K(x∗ , r) = {x : ρ(x∗ , x) < r} heißt die Kugel mit dem Radius r um den Mittelpunkt x∗ . M = {x∗1 , x∗2 , . . .} sei eine überall dichte Menge. K sei die Menge aller Kugeln zu x∗ ∈ M , r > 0 rational. c Prof. Dr. H. Dinges, 18. Dezember 1998 248 Bemerke : e, welches von E \ Aα einen Abstand < α hat, kann nicht in A liegen; 1) Ein x e ∈ A, y ∈ E \ Aα =⇒ ρ(x e, y) ≥ α. Also gilt denn x (E \ Aα )α ⊆ E \ A . e ∈ A =⇒ K(x e, α) ⊆ Aα x 2) e∈ e, α) ∩ A = ∅ x / Aα =⇒ K(x Wenn nichts anderes gesagt ist, ist α > 0 rational angenommen. 3) K ∈ K, α > 0 rational =⇒ K α ∈ K. 4) Jede offene Menge U kann mit Kugeln ∈ K überdeckt werden. e ist wie immer das unmögliche Ereignis. Wir betrachten e sind fest. O E und A e –beobachtbare Zufallsgrößen X, Y, X (1) , X (2) , . . . E–wertige A Lemma : X = Y ⇐⇒ {X ∈ K} ⊆ {Y ∈ K α } für alle K ∈ K, α > 0 . Der Beweis ist trivial. Definition : (Sichere Konvergenz) Wir sagen, daß die Folge (X (n) )n sicher gegen X konvergiert und schreiben X = lim X (n) (sicher) , wenn für alle K ∈ K, α > 0 gilt (i) {X ∈ K} ⊆ (ii) V W N n≥N W V N n≥N {X (n) ∈ K α } {X (n) ∈ K} ⊆ {X ∈ K α } oder äquivalent damit (i’) V N (ii’) V N K α} ! {X (n) ∈ K} ∧ {X ∈ / K α} ! {X ∈ K} ∧ W n≥N W n≥N {X (n) ∈ / e =O e =O c Prof. Dr. H. Dinges, 18. Dezember 1998 A.2 249 Zufallsgrößen Das entspricht der Charakterisierung der deterministischen Folgen x 1 , x2 , . . ., die gegen x konvergieren. Für jedes K, α sind die Möglichkeiten ausgeschlossen (i) x ∈ K und xn ∈ / K α für unendlich viele n (ii) xn ∈ K für unendlich viele n und x ∈ / Kα . Wenn alle diese Möglichkeiten ausgeschlossen sind, gilt x = lim x n . Definition : (Cauchy–Folge) Wir nennen (X (n) )n eine Cauchy–Folge, wenn für alle K ∈ K, α > 0 (iii) V N W n≥N W {X (n) ∈ K} ∧ n≥N {X (n) ∈ / K α} ! e = O. Man beweist leicht das Lemma : a) Wenn X und Y Limes von (X (n) )n sind, dann X = Y . b) Jede konvergente Folge ist Cauchy–Folge. Insofern sind die Definitionen also in sich stimmig. Die schlüssige Bestätigung der Definition ergibt sich aus dem Vollständigkeitsprinzip, welches wir nun beweisen werden. Konstruktion zum Beweis der Aussage a) im Prinzip III : X sei eine Zufallsgröße. Wir approximieren X durch eine Folge X (n) , wo X (n) nur Werte in M = {x∗1 , x∗2 , . . .} annimmt. 1) Für n = 1, 2, . . . wird E überdeckt durch die Kugeln 1 K x1 , n 2 1 , K x2 , n 2 ,... Dazu betrachten wir die Partition (n) E = B1 (n) + B2 + ... mit (n) B1 1 1 (n) = K x1 , n , Bj+1 = K xj+1 , n 2 2 c Prof. Dr. H. Dinges, \ j X i=1 (n) Bi 18. Dezember 1998 250 Wir erhalten eine Zufallsgröße X (n) , wenn wir setzen (n) {X (n) = xj } = {X ∈ Bj } (n) (n) e 1 = {X ∈ B1 } + {X ∈ B2 } + . . . = {X (n) = x1 } + {X (n) = x2 } + . . . . 2) Wir zeigen X = lim X (n) . Betrachte K ∈ K, α > 0 beliebig und N so groß, daß 21n < α für n ≥ N . Dann haben wir (i) (n) xj ∈ / K α =⇒ Bj {X ∈ K} (n) X = j e ∩ K = ∅, {X ∈ K} ∧ {X ∈ Bj } = O {X ∈ K} ∧ {X (n) = xj } X ⊆ sj ∈K α {X ∈ K} ∩ {X (n) = xj } {X ∈ K} ∧ {X (n) ∈ K α } ⊆ (n) xj ∈ K =⇒ Bj (ii) {X (n) ∈ K} X = xj ∈K X = xj ∈K ⊆ Kα {X (n) = xj } (n) {X ∈ Bj } ⊆ {X ∈ K α } Daraus 1. {X ∈ K} ⊆ 2. W n≥N V n≥N {X (n) ∈ K α } {X (n) ∈ K} ⊆ {X ∈ K α } Die Konvergenz ist sogar gleichmäßig in dem Sinne, daß man N unabhängig von K zu α bestimmen kann. Damit ist die Aussage a) von Prinzip III vollständig bewiesen. Bemerke : Im Falle E = IR+ können wir viel einfacher vorgehen. Wir erhalten eine isotone gegen ein gegebenes X konvergierende Folge X (n) folgendermaßen X (n) = k−1 2n = X∈ k−1 k , 2n 2n für k = 1, 2, . . . Zum Beweis der Aussage b) in Prinzip III brauchen wir den allgemeinen c Prof. Dr. H. Dinges, 18. Dezember 1998 A.2 251 Zufallsgrößen e = A / N; E ein polnischer Raum. Zu jedem Darstellungssatz : Sei (Ω, A, N), A E e X ∈ A existiert eine meßbare Abbildung ϕ : (Ω, A) −→(E, B) , e ist, für alle so daß {ω : ϕ(ω) ∈ B} ∈ A ein Repräsentant von {X ∈ B} ∈ A borelschen B. E e (Wir sagen in diesem Falle, daß ϕ ∈ AE ein Repräsentant von X ∈ A ist.) E e . Beweis : Es bezeichne DE die Menge der repräsentierbaren Elemente von A E E e Wir werden D = A zeigen. Es ist bequem, E um einen isolierten Punkt ∂, den Friedhofspunkt“ zu erweitern und (E ∪ {∂})–wertige Repräsentanten ϕ(·) zu ” konstruieren mit {ω : ϕ(ω) = ∂} ∈ N. E e 1) Für jedes diskrete X ∈ A gilt X ∈ DE {X = x1 } + {X = x2 } + . . . = e1 in A . Wähle Repräsentanten A0j ∈ A für {X = xj } und setze A1 = A01 , Aj+1 = A0j+1 \ j X i=1 Ai , j = 1, 2, . . . , A∂ = Ω \ ∞ X i=1 Ai ! {ω : ϕ(ω) = xj } = Aj , {ω : ϕ(ω) = ∂} = A∂ . Offenbar repräsentiert ϕ(·) das gegebene diskrete X. 2) Es seien X (n) ∈ DE mit (X (n) )n Cauchy–Folge. Wir zeigen die Existenz eines Limes in DE . Die Cauchy–Eigenschaft besagt für alle K ∈ K, α > 0 N (K, α) := \ N [ n≥N {ω : ϕ(n) (ω) ∈ K} ∧ [ n≥N {ω : ϕ(n) (ω) ∈ / K α } ∈ N . Für ein ω, welches in keiner dieser abzählbar vielen N–Mengen liegt, existiert ein N = N (ω, K, α), so daß ϕ(n) (ω) ∈ K für mindestens ein n ≥ N =⇒ ϕ(n) (ω) ∈ K α für alle n ≥ N . Für jedes solchermaßen reguläre ω existiert (wegen der Vollständigkeit von E) der Limes ϕ(ω). Für die nichtregulären ω setzen wir ϕ(ω) = ∂. 3) Es ist zu zeigen, daß ϕ(·) A–meßbar ist. Für jedes offene O haben wir ϕ(ω) ∈ O ⇐⇒ ϕ(n) (ω) ∈ O für schließlich alle n ⇐⇒ ω ∈ \ [ N n≥N {ω : ϕ(n) (ω) ∈ O} ∈ A c Prof. Dr. H. Dinges, 18. Dezember 1998 252 4) Weiter gilt für jedes K ∈ K, α > 0 ϕ(ω) 6= ∂ und ϕ(n) (ω) ∈ K unendlich oft =⇒ ϕ(ω) ∈ K α . Für das von ϕ(·) dargestellte X gilt also ^ _ N n≥N {X (n) ∈ K} = N \ [ N n≥N {ω : ϕ(n) (ω) ∈ K} ⊆ {X ∈ K α } N und nach 3) {X ∈ K} = {ω : ϕ(ω) ∈ K} N = \ [ N n≥N {ω : ϕ(n) (ω) ∈ K} ⊆ N ^ _ N n≥N {X (n) ∈ K} E e ). Das zeigt X = lim X (n) (sichere Konvergenz in A E e 5) Nun läßt sich aber jedes X ∈ A als Limes einer Folge diskreter X (n) gewinnen. Also ist jedes X darstellbar. Und jede Cauchy–Folge hat einen Limes. Aus dem Satz von Loomis wissen wir, daß jedes Ereignisfeld σ–isomorph zu einem A / N ist. Damit ist das Vollständigkeitsprinzip bewiesen. Beweis von Prinzip II : e = A / N an. Wir nehmen wieder A 1) h : D → E borelmeßbar. In D und E nehmen wir Metriken, bzgl. derer D bzw. E vollständig sind. Betrachte zu ε > 0, δ > 0 rational D δ,ε := {(x0 , x00 ) ∈ D × D : ρ(x0 , x00 ) < δ, ρ(h(x0 ), h(x00 )) ≥ ε} ST ε δ D δ,ε ist eine Teilmenge der Diagonale; sie besteht aus denjenigen (x, x), für welche h(·) in x unstetig ist. Die Menge der Unstetigkeiten von h(·) ist also eine Borelmenge Dh . 2) Wählen wir Repräsentanten ϕ(ω) von X, ϕ(n) (ω) von X (n) . Es gilt ϕ(ω) = lim ϕ(n) (ω) für alle ω außerhalb einer N–Menge. Nach Voraussetzung ist auch {ω : ϕ(ω) ∈ Dh } ∈ N. Für alle regulären ω haben wir h(ϕ(ω)) = lim h(ϕ(n) (ω)) . E e ). Das zeigt h(X) = lim h(X (n) ) (sicher in A Der Satz von Loomis impliziert nun das Folgenstetigkeitsprinzip. c Prof. Dr. H. Dinges, 18. Dezember 1998 A.2 253 Zufallsgrößen Beweis von Prinzip I : e = A / N, X i ∈ A e Ei , ϕi (ω) ∈ AEi , E = A ∞ Y Ei i=1 ϕ(ω) = (ϕ1 (ω), ϕ2 (ω), . . .) : (Ω, A) −→(E, B) Die meßbare Abbildung ϕ(·) repräsentiert die E–wertige Zufallsgröße X = (X1 , X2 , . . .). Satz : e = A / N. Sei wieder A ϕ : (Ω, A) −→ (E, B) ψ : (Ω, A) −→ (E, B) . Die beiden meßbaren Abbildungen repräsentieren genau dann dieselbe Zufallsgröße e E , wenn X∈A {ω : ϕ(ω) 6= ψ(ω)} ∈ N . Beweis : Die Bedingung ist offensichtlich hinreichend. Wenn ϕ(·) und ψ(·) dasselbe X repräsentieren, dann haben wir für jedes Rechteck B × C ⊆ E × E mit B∩C =∅ {ω : (ϕ, ψ)(ω) ∈ B × C} = {ω : ϕ(ω) ∈ B} ∩ {ω : ψ(ω) ∈ C} e . = {X ∈ B} ∧ {X ∈ C} ={X ∈ B ∩ C} = O N N Das Komplement der Diagonalen in E × E kann man mit abzählbar vielen B × C dieser Art überdecken. Dies ergibt {ω : ϕ(ω) 6= ψ(ω)} = {ω : (ϕ, ψ)(ω) ∈ / Diagonale} ∈ N . q.e.d. Der Hebungssatz, Einführung : Sei Aϕ die von einer Punktabbildung ϕ : Ω → (Ω0 , A0 ) erzeugte σ–Algebra. Jedes A0 –meßbare g(ω 0 ) ist f (ω) = g(ϕ(ω)) Aϕ –meßbar. c Prof. Dr. H. Dinges, 18. Dezember 1998 254 Der Hebungssatz in seiner einfachsten Version besagt, daß jedes reellwertige Aϕ –meßbare f (·) von dieser Gestalt ist (wobei das darstellende g(·) allenfalls in Ausnahmefällen eindeutig bestimmt ist). Die Voraussetzung, daß f (·) reellwertig ist, erweist sich als unnötig. Es genügt anzunehmen, daß der Wertebereich E ein polnischer Raum ist. Für jedes E–wertige Aϕ –meßbare f (·) gibt es ein g(·) mit f (ω) = g(ϕ(ω)) (E, B) ......... ...... ..... ..... . . . . ..... .... ..... .... ..... . . . . ... ....... ... f (ω) (Ω, Aϕ ) Bemerke : ..... ..... g(ω 0 ) ..... . ..... . ..... ϕ - (Ω0 , A0 ) Statt f (ω) = g(ϕ(ω)) können wir auch schreiben {ω : f (ω) ∈ B} = ϕ−1 {ω 0 : g(ω 0 ) ∈ B} für alle borelschen B . In der Sprache der Zufallsgrößen besagt die oben formulierte Version des Hebungssatzes: Zu jeder Aϕ –beobachtbaren Zufallsgröße X gibt es eine A0 –beobachtbare Zufallsgröße Y so, daß {X ∈ B} = ϕ−1 ({Y ∈ B}) für alle borelschen B . Wenn wir den Hebungssatz weiter verallgemeinern (und schließlich beweisen), wollen wir an der Voraussetzung festhalten, daß der Wertebereich der darzustellenden Zufallsgröße polnisch ist. E sei ein fixierter polnischer Raum. Die Annahme der Aϕ –Meßbarkeit ist es, die wir verallgemeiner wollen. Wenn wir Aϕ als das Bild von A0 (bzgl. des σ–Homomorphismus ϕ−1 (·)) auffassen, ist klar, was zu tun ist: Wir gehen zu allgemeinen Ereignisfeldern über. Seien U und V Ereignisfelder und η:V ← U ein σ–Homomorphismus. Sei U E die Gesamtheit aller U –beobachtbaren E– wertigen Zufallsgrößen. Zu jedem Y ∈ U E erhalten wir eine V –beobachtbare Zufallsgrößen X ∈ V E , wenn wir definieren {X ∈ B} = η({Y ∈ B}) für alle borelschen B ⊆ E . Diese Abbildung bezeichnen wir ηE : V E ← U E . Der allgemeine Hebungssatz besagt nun, daß die Surjektivität von η die Surjektivität von η E nach sich zieht. c Prof. Dr. H. Dinges, 18. Dezember 1998 A.2 255 Zufallsgrößen Allgemeiner Hebungssatz : Sei η : V ←− U ein surjektiver σ–Homomorphismus. Zu jeder V –beobachtbaren Zufallsgröße X existiert dann ein U –beobachtbares Y mit X = η E (Y ) . Beweis . 1) Wir können annehmen U V = A0 / N0 zu (Ω0 , A0 , N0 ) = A0 / N0η mit N0η ⊇ N0 η(·) ordnet den Elementen von A0 / N0 ihre Äquivalenzklassen modulo N0η zu. 2) Zur (A0 / N0η )–beobachtbaren Zufallsgröße X existiert nach dem Darstellungssatz ψ(ω 0 ) : (Ω0 , A0 ) −→(E, B) mit {ω 0 : ψ(ω 0 ) ∈ B} = {X ∈ B} für alle B ∈ B. 0 Nη Dieses ψ(ω 0 ) können wir auch zur Darstellung einer ( A0 / N0 )–beobachtbaren Zufallsgröße Y benutzen {ω 0 : ψ(ω) ∈ B} = {Y ∈ B} . N 0 Es gilt X = η E (Y ). B ..... . .. ..... ..... ..... ..... . . . .... ..... ..... .... ..... . . . . . . . . .. {X ∈ ·} V Bemerkung : beweisen. ..... . .... . {Y ∈ ·} .... . ..... . .......... η U Für E = IR+ kann man den Hebungssatz auch folgendermaßen Zum gegebenen X betrachte die Schar [ξr : r > 0, rat] = [{X ≤ r} : r > 0, rat] . c Prof. Dr. H. Dinges, 18. Dezember 1998 256 Zu jedem dieser ξ ∈ V wählen wir ζer ∈ U mit η(ξer ) = ξr . Es gilt s < t =⇒ ξes ⊆ ζet (mod Nη ) . Wir machen diese Schar isoton und rechtsstetig in U , indem wir setzen ζx := ^ r>x ζer (Infimumbildung in U ) . Offenbar gilt η(ζx ) = ξx = {X ∈ X} für alle x. [ζx : x ≥ 0] definiert eine U –beobachtbare Zufallsgröße Y η({Y ≤ x}) = {X ≤ x} . Daraus folgt η({Y ∈ B}) = {X ∈ B} für alle B. Damit haben wir η IR+ (Y ) = X. Spezialfall : (Beweis von Prinzip IV) e –beobachtbare Zufallsgröße. Für jedes A e Z –beobachtbare Sei Z eine D–wertige A X existiert ein borelsches g(·) mit X = g(Z) E ....... ....... ..... ..... . . . . ..... .... ..... .... ..... . . . . .... ....... .. ..... . X .... . g .... . ..... - Z ..... . D e = A / N zu Die Pfeile für X und Z sind symbolisch zu verstehen. Wenn A (Ω, A, N) gebildet ist, dann werden X und Z durch N–fast eindeutig bestimmte A–meßbare Abbildungen repräsentiert. c Prof. Dr. H. Dinges, 18. Dezember 1998 A.3 257 Wahrscheinlichkeiten A.3 A.3.1 Wahrscheinlichkeiten Verteilungen auf polnischen Räumen Definition : Wenn E ein polnischer Raum ist, dann bezeichen wir mit M1 (E) die Menge aller Wahrscheinlichkeitsmaß auf der Borelalgebra. Die Elemente µ, ν, . . . heißen (Wahrscheinlichkeits–) Verteilungen auf E. Die wichtigsten Eigenschaften von M1 (E) sind die folgenden: Die schwache Konvergenz macht M1 (E) zu einem polnischen Raum. Die diskreten Verteilungen liegen dicht. Eine Teilmenge ist genau dann bedingt kompakt, wenn sie straff ist. Diese Theorie zu erlernen, ist ein Muß für jeden Mathematiker, der in der Stochastik über die Anfangsgründe hinauskommen will. Sie ist ebenso wichtig wie die Martingaltheorie. Es gibt hervorragende Bücher über diese beiden für die höhere Stochastik fundamentalen Richtungen der Maßtheorie. Wir halten es für günstig, wenn der Student diese Theorie erst dann in Angriff nimmt, wenn er schon einen Eindruck von der elementaren Stochastik gewonnen hat. Die Denk– und Sprechweisen der elementaren Stochastik sind eine gute Unterstützung beim Studium der Maßtheorie. Es erleichtert den Umgang mit Verteilungen, wenn man sie als die Verteilungen von Zufallsgrößen auf einem Ereignisfeld mit einer Wahrscheinlichkeitsbewertung interpretiert. Es liegt fast auf der Hand, wie die Theorie der Räume M1 (E) mit unserer abstrakten Theorie der E–wertigen Zufallsgrößen zu verbinden ist. Wir machen dennoch einige Anmerkungen für den Kenner der Theorie. Definition : a) V sei eine σ–vollständige Boolesche Algebra, eine Ereignisalgebra also. Wir nennen P (·) auf V eine Wahrscheinlichkeitsbewertung, wenn P (v) ≥ 0 für alle v und e 1 = v1 + v2 + . . . =⇒ 1 = P (v1 ) + P (v2 ) + . . . b) Wenn V eine σ–Algebra ist, sprechen wir wie üblich von einem Wahrscheinlichkeitsmaß. Bemerke : Wenn P (·) eine Wahrscheinlichkeitsbewertung auf V ein σ–Ideal mit ist und N P (v) = 0 für alle v ∈ N , dann können wir P (·) auch als Wahrscheinlichkeitsbewertung auf V /N deuten. c Prof. Dr. H. Dinges, 18. Dezember 1998 258 Satz : Sei η : V ←− U ein σ–Homomorphismus. a) Jede Wahrscheinlichkeitsbewertung P (·) auf V liefert eine Bild–Wahrscheinlichkeitsbewertung Q = (P )η∗ auf U , wenn wir setzen Q(u) = P (η(u)) . b) Die Wahrscheinlichkeitsbewertungen auf V η stehen in eineindeutiger Beziehung zu den Wahrscheinlichkeitsbewertungen auf U/N η . (Wie immer ist Vη das Bild und Nη der Kern von η.) Der Beweis ist eine direkte Konsequenz des Homomorphiesatzes. Sprechweise : Sei P (·) = Ws H (·) eine Wahrscheinlichkeitsbewertung auf der Ereignisalgebra V ( Wahrscheinlichkeit unter der Hypothese H“). ” a) Das Bildmaß bzgl. einer Zufallsgröße X heißt dann die Verteilung von X unter der Hypothese H µ = LH (X) = LP (X); µ(B) = WsH ({X ∈ B}) = P ({X ∈ B}) . b) Wenn X 1 , X2 , . . . V –beobachtbare Zufallsgrößen sind, dann heißt (X , X , . . .) die gemeinsame Verteilung der X i . LH 1 2 Satz : Zu jeder Verteilung µ auf E = E1 ×E2 ×. . . existieren auf einer geeigneten Ereignisalgebra V eine Wahrscheinlichkeitsbewertung P (·) und Zufallsgrößen X 1 ∈ V E1 , X 2 ∈ V E2 , . . . so daß LP (X1 , X2 , . . .) = µ . Wenn g : E1 × E2 × . . . −→ F eine borelsche Abbildung ist, dann ist L(g(X1 , X2 , . . .)) das Bild von µ bzgl. g(·). Dieses Bild bezeichnen wir gelegentlich mit (µ)g ∗ . ν(C) = (µ)g∗ (C) = µ({(x1 , x2 , . . .) : g(x1 , x2 , . . .) ∈ C}) = P ({g(X1 , X2 , . . .) ∈ C}) Die folgenden Beispiele zeigen, wie man den Satz benützen kann, um gewisse Konstruktionen und Tatsachen, die sich zunächst nur auf Verteilungen beziehen, mit Hilfe der Sprache der Zufallsgrößen transparenter machen. c Prof. Dr. H. Dinges, 18. Dezember 1998 A.3 259 Wahrscheinlichkeiten 1. Beispiel : µ, ν, ρ seien Wahrscheinlichkeitsmaße auf IR mit den Verteilungsfunktionen F (x), G(x), H(x). Man definiert das Faltungsprodukt µ ∗ ν als das Wahrscheinlichkeitsmaß mit der Verteilungsfunktion (F ∗ G)(z) := +∞ Z −∞ F (x − y)dG(y) Dieses Faltungsprodukt gilt µ∗ν = ν ∗µ (µ ∗ ν) ∗ ρ = µ ∗ (ν ∗ ρ) Beweis : Denken wir uns unabhängige Zufallsgrößen X, Y, Z mit L(X) = µ, L(Y ) = ν, L(Z) = ρ . Dann haben wir L(X + Y ) = µ ∗ ν. In der Tat gilt Ws(X + Y ≤ z) = E 1{X+Y ≤z} = E 1{X+Y ≤z} |X = E E 1{Y ≤z−X} |X = E (G(z − X)) = Z G(z − x)dF (x) = (F ∗ G)(z) . Diese Interpretation liefert sofort L(X + Y + Z) = µ ∗ ν ∗ ρ. 2. Beispiel : Ein Wahrscheinlichkeitsmaß µ auf IR heißt unbegrenzt teilbar, wenn es zu jedem n ∈ IN ein Wahrscheinlichkeitsmaß µ 1/n gibt mit µ1/n ∗ µ1/n ∗ . . . ∗ µ1/n = µ . In der Sprache der Wahrscheinlichkeitstheorie heißt das: Zu jedem n gibt es auf einem geeigneten Wahrscheinlichkeitsraum Zufallsgrößen X0 , X1/n , X2/n , . . . , X1 , so daß die Zuwächse Xk/n −Xk−1/n unabhängig identisch verteilt sind und L(X) = µ. Kolmogorov ging 1933 zunächst einmal nur davon aus, daß man über die Menge der Wahrscheinlichkeitsmaße auf IR und auf IRk gut Bescheid weiß; man hat da die Verteilungsfunktionen als handhabbare Beschreibungen von Maßen (auf Grund des Fortzsetzungssatzes von Caratheordory). Kolmogorov zeigt, daß man durch verträgliche Scharen die Maße auf den unendlichen Produkträumen kennzeichnen; und diese Kennzeichnung überträgt sich nach dem Satz von Ulam sofort auf Produkte polnischer Räume. c Prof. Dr. H. Dinges, 18. Dezember 1998 260 Q Mit Kolmogorovs Version für überabzählbare Produkte t Et haben wir nichts im Sinn; die überabzählbaren Produkt–σ–Algebren sind uninteressant. Verteilungen für stochastische Prozesse mit überabzählbarer Parametermenge werden im Endeffekt immer als Wahrscheinlichkeitsbewertungen auf polnischen Funktionenräumen konN struiert, selbst wenn in manchen Zugängen die pathologische Produktalgebra Bt zunächst irgenwo vorkommen mag. Die pfadweise Betrachtung ist die natürliche Herangehensweise; dabei spielt die fastsichere Konvergenz eine zentrale Rolle. Die Theorie der Maße auf polnischen Räumen ist auch das wichtigste Mittel für die Konstruktion von Wahrscheinlichkeitsbewertungen auf abstrakten meßbaren Räume ' A / N. In vielen konkreten en (Ω, A) und auf abstrakten Ereignisfeldern A Anwendungen bietet sich ein Darstellungsraum Ω an, der in natürlicher Weise eine polnische Struktur trägt; man könnte sagen, daß (Ω, A) durch Vergessen der polnischen Struktur aus einem (E, B) entsteht. Das partielle Vergessen von Struktur ist ein in allen Bereichen der Mathematik bewährtes Verfahren, um in der strukturverarmten Menge das, worauf es ankommt, deutlich hervortreten zu lassen. Viele Wahrscheinlichkeitsbewertungen werden im Endeffekt aus einer Verteilung auf einem polnischen Raum hergeleitet. R.M. Dudley beschreibt in dem Appendix E Patholo” gies of compact nonmetric spaces“ seines Lehrbuchs Real Analysis and Probability“ ” (1989), wie die polnischen Räume zu ihrer zentralen Rolle gekommen sind. Neben dem einfachen Vergessen der topologischen Struktur gibt es ein weiteres beliebtes Verfahren zur Konstruktion von Wahrscheinlichkeitsmaßen auf abstrakten σ–Algebren. Der Grundraum wird in einer Weise verkleinert, daß die Spur der ursprünglichen σ–Algebra als Definitionsbereich des Maßes taugt. Man geht zu einer Trägermenge mit dem äußeren“ Maß 1 über. ” Satz : Sei (Ω, A, N) ein meßbarer Raum mit Nullmengenstruktur. Zu Ω ∗ ⊆ Ω betrachte die Spuren“ ” ∗ ∗ A = {Ω ∩ A : A ∈ A} , ∗ ∗ N = {Ω ∩ N : N ∈ N} . Sei P (·) eine Wahrscheinlichkeitsbewertung auf A / N mit Ω∗ ⊆ A ⊆ A =⇒ P (A) = 1 . Dann erhält man die Wahrscheinlichkeitsbewertung P ∗ auf A∗ / N∗ , wenn man setzt P ∗ (Ω∗ ∩ A) = P (A) für alle A ∈ A. Beweis : Man muß nur zeigen, daß Ω∗ ∩ A1 = Ω∗ ∩ A2 =⇒ P (A1 ) = P (A2 ) . Dies ist einfach. c Prof. Dr. H. Dinges, 18. Dezember 1998 A.3 261 Wahrscheinlichkeiten Aus algebraischer Sicht erscheint die Konstruktion noch einfacher. Satz : Sei P eine Schar von Wahrscheinlichkeitsbewertungen auf der σ– vollständigen Booleschen Algebra (V, ⊆, e0, e 1). Sei N ein σ–Ideal in V , so daß für alle n ∈ N P (n) = 0 für alle P ∈ P. Dann kann man P auch als eine Schar von Wahrscheinlichkeitsbewertungen auf V ∗ = V /N auffassen. Wenn (Ω∗ , A∗ , N∗ ) ein Darstellungsraum für V ∗ ist V ∗ ' A∗ / N∗ , dann liefert jedes P ∈ P ein Wahrscheinlichkeitsmaß auf A∗ welches auf N∗ verschwindet. A.3.2 σ–Vollständigkeit und σ–Additivität Es leuchtet ein, daß man sich in der Wahrscheinlichkeitstheorie nicht auf endliche Verbindungen beobachtbarer Ereignisse beschränken will, wenn das nicht durch mathemtische Notwendigkeiten erzwungen ist. Abzählbare Vereinigungen und Durchschnitte von Ereignissen bereiten der Vorstellungskraft keine nennenswerten Schwierigkeiten. So haben die Anwender keine Probleme mit der Forderung der Mathematiker, daß die Gesamtheit der beobachtbaren Ereignisse als ein σ–vollständiger Verband anzusehen ist. Wie aber kommt die σ–Additivität in die Stochastik? Warum sollten sich die Anwender dem Comment der Maßtheoretiker beugen? Kann man sich nicht auch sinnvolle Modellierungen vorstellen, bei welchen die σ–Additivität der Wahrscheinlichkeitsbewertungen nicht gewährleistet ist? Unsere Antwort lautet: Schwierigkeiten mit der σ–Additivität der ins Auge gefaßten Wahrscheinlichkeitsinhalte können nur daher kommen, daß man den Gleichheitsbegriff für die beobachtbaren Ereignisse unpassend gewählt hat. Dies zu beweisen ist das Anliegen des folgenden Abschnitts. Zunächst einmal verschaffen wir uns einen Überblick über alle möglichen Vervollständigungen einer Booleschen Algebra V zu einem Ereignisfeld V σ . Welche dieser Vσ zu den ins Auge gefaßten Inhalten auf V passen, werden wir danach diskutieren. Satz : Sei V eine Boolesche Algebra und (Ω, A) die Darstellung nach dem Satz von Stone: v ↔ Av . Zu jedem σ–vollständigen Vσ , in welchem V als Erzeugendensystem enthalten ist, existiert dann ein σ–Ideal N in Aσ , so daß Vσ ' Aσ / N (σ–isomorph) mit v ↔ N–Äquivalenzklasse von Av für alle v ∈ V . Beweis : e 1) Für den Beweis stützen wir uns auf die Konstruktion von Loomis zu V σ . Ω bezeichne die Menge aller δ–Inhalte auf V σ . e : δω η(a) = {ω e (a) = 1} für a ∈ Vσ . c Prof. Dr. H. Dinges, 18. Dezember 1998 262 e σ bezeichne die von diesen η(a) erzeugte σ–Algebra und N e das von den A elementaren Nullmengen erzeugte σ–Ideal. Nach dem Satz von Loomis gilt e , e σ /N Vσ ' A e –Äquivalenzklasse von η(a). wobei a ↔ A e auf Vσ sei ω = π(ω e ) die Einschränkung auf V , 2) Für einen δ–Inhalt ω aufgefaßt als ein δ–Inhalt auf V , d.h. als ein Punkt im Stoneschen Ω. e π(·) : (Ω, Aσ ) ←− Ω eπ ⊆ A e σ . Sie besteht aus den Mengen erzeugt eine σ–Algebra A e : π(ω e ) ∈ A0 } mit A0 ∈ Aσ {ω und ist erzeugt von den Mengen e : π(ω e ) ∈ A v } = {ω e : δω π −1 (Av ) = {ω e (v) = 1} mit v ∈ V . Allgemein ist π −1 (A0 ) die Menge aller δ–Inhalte auf Vσ , deren Einschränkung auf V zu A0 gehört. 3) e π (σ–isomorph) . π −1 : Aσ ←→ A A ⊆ Aσ .. ....... ... ... ... ... ... ... .... . ....... ... ................................................................ .... . .... . .... ζ .... ..... eπ A .... . .... ........ V ⊆ Vσ ................................................. e σ /N e A ........ .... .... .... ... . . ... σ ... .... .... ... . . . ... ... ...... ....... η e π ist offensichtlich eine Teil–σ–Algebra von A e σ ; jedem Element ist im Sinne A eines σ–Homomorphismus ein Element aus V σ zugeordnet. Die zusammengesetzte Abbildung ζ ist ein σ–Homomorphismus mit ζ(A v ) = v für alle v ∈ V . Da Vσ von V erzeugt ist, ist ζ surjektiv und nach dem Homomorphiesatz gilt Vσ ' Aσ /(Kern ζ) = Aσ / N v ←→ N –Äquivalenzklasse von Av . q.e.d. Definition : Eine σ–vollständige Boolesche Algebra Vσ heißt eine Vervollständigung der Booleschen Algebra V , wenn V ⊆ Vσ und V erzeugt Vσ . c Prof. Dr. H. Dinges, 18. Dezember 1998 A.3 263 Wahrscheinlichkeiten Satz : (Ω, A) sei die Stonesche Darstellung von V ; v ↔ A v . Jedes σ–Ideal N in Aσ , welches keines der Av enthält, definiert eine Vervollständigung Vσ = Aσ / N . v ←→ N –Äquivalenzklasse von Av . Der Beweis ist trivial. Wir haben damit einen vollständigen Überblick über alle möglichen Vervollständigungen einer Booleschen Algebra V (bis auf σ–Isomorphie). Definition : Ein normierter Inhalt ρ(·) auf V vollständigung Vσ , wenn v (1) ⊇ v (2) ⊇ . . . lim & ρ(v (n) 6= 0 =⇒ ∞ ^ heißt Prämaß für die Ver- v (n) 6= e0 (in Vσ ) . Fortsetzungssatz von Caratheodory : Wenn ρ(·) ein Prämaß für Vσ ist, dann besitzt es genau eine Fortsetzung zu einer Wahrscheinlichkeitsbewertung ρ(·) auf Vσ . Der Beweis ist genau so wie im Falle von σ–Algebren. Zuerst betrachtet man aufsteigende Folgen v1 ⊆ v 2 ⊆ . . . v+ = ∞ _ vn und definiert ρ+ (v + ) = lim ↑ ρ(vn ). Man zeigt, daß ρ+ (·) auf V + wohldefiniert ist. Es gilt v1 ⊆ v2 ⊆ . . . , v10 ⊆ v20 ⊆ . . . ∞ _ vm ⊆ Sodann definiert man für alle a ∈ Vσ ∞ _ vn0 =⇒ lim ↑ ρ(vm ) ≤ lim ↑ ρ(vn0 ) ρ(a) = inf{ρ+ (v + ) : v + ≥ a} . Dieses ρ(·) ist dann die gesuchte Fortsetzung. Der Beweis ist wie im klassischen Fall der Mengenalgebra. Daß je zwei Prämaße, die ρ(·) fortsetzen, gleich sind, sieht man ebenfalls genau so wie im Mengenfall. Satz : V. Sei Vσ = Aσ / N eine Vervollständigung von V und ρ(·) ein Inhalt auf Sei ρb(·) der Inhalt auf A mit ρb(Av ) = ρ(v) und sei ρ∗ (·) seine Fortsetzung zu einem Maß auf Aσ . Genau dann ist ρ(·) Prämaß für Vσ , wenn ρ∗ (N ) = 0 für alle N ∈ N . c Prof. Dr. H. Dinges, 18. Dezember 1998 264 Beweis : 1) ρb(·) ist Prämaß auf A. Wenn nämlich Av(1) ≥ Av(2) ≥ mit Av(n) 6= ∅ für alle n . Es gibt dann (nach der Konstruktion von Stone) eine δ–Inhalt δ ω (·) mit δω (v (n) ) = 1 für alle n. Wir haben also ein Prämaß. ∞ T Av(n) 6= ∅. Auf A ist jeder Inhalt 2) Wenn ρ(·) so ist, daß ρ∗ (N ) = 0 für alle N ∈ N, dann kann man ρ∗ auch als eine Wahrscheinlichkeitsbewertung auf Aσ / N auffassen. Dieses ist die eindeutige Fortsetzung von ρ(·) zu einer Wahrscheinlichkeitsbewertung auf Vσ . Satz : Sei P eine Menge von normierten Inhalten auf der Booleschen Algebra V . Dann existiert eine Vervollständigung VP mit 1) Jedes ρ(·) ∈ P besitzt eine Fortsetzung zu einer Wahrscheinlichkeitsbewertung auf VP . 2) Wenn Vσ eine weitere Vervollständigung ist, für welche alle ρ(·) ∈ P Prämaße sind, dann existiert ein surjektiver σ–Homomorphismus Vσ −→ VP . Beweis : Jedes ρ(·) liefert ein Nullmengenideal Nρ in Aσ . Betrachte T NP = Nρ . VP = Aσ / NP ist die gesuchte am wenigsten differenzierende Verρ vollständigung. Konstruktion : Zur Verdeutlichung betrachten wir eine Boolesche Algebra V , die von einer abzählbaren Menge {s1 , s2 , . . .} erzeugt ist. Wir deuten die sn als Fragen, die wir an die Natur richten können. Es geht jetzt aber nicht darum, daß uns die Natur (im Zuge der Realisation des Experiments) diese Fragen mit Ja oder Nein beantwortet. Wir bitten vielmehr einen Akteur, jeder zusammengesetzten Frage s(n) = sε11 ∧ sε22 ∧ . . . ∧ sεnn eine nichtnegative Zahl ρ(s(n) ) zuzuordnen, die angibt, mit welcher Sicherheit er die Antwortenfolge (ε1 , . . . , εn ) erwartet; (εi = 1 für i–te Frage wird mit Ja ” beantwortet“, εi = 0 für Antwort Nein.) Wir fordern vom Akteur Konsistenz in dem folgenden Sinn c Prof. Dr. H. Dinges, 18. Dezember 1998 A.3 265 Wahrscheinlichkeiten 1) 1 = ρ(e 1) = ρ(s1 ) + ρ(¬s1) 2) ρ(s(n) ) = ρ(s(n) ∧ sn+1 ) + ρ(s(n) ∧ (¬sn+1 )) 3) ρ(s(n) = 0 falls s(n) = e 0 (unmögliches Ereignis). Ein solches ρ(·) sollte, intuitiv gesprochen, als eine Wahrscheinlichkeitsbewertung gelten können. Die σ–Vollständigkeit des Ereignisfeldes und die σ–Additivität der Wahrscheinlichkeitsbewertung sind jetzt Angelegenheit der mathematischen Konstruktion. Diese Konstruktion führen wir nun durch. Wir charakterisieren die meßbaren Räume mit Nullmengenstruktur (Ω∗ , A∗ , N∗ ), die geeignet sind, eine Fortsetzung von ρ(·) zu einer Wahrscheinlichkeitsbewertung auf A∗ / N∗ zu tragen. Die vom Akteur gelieferten Zahlen versammeln wir als Knotenbeschriftung im binären Baum zu S; z.B. ... ... ..r ..r ....... ....... ....... ....... ρ ....... ....... 111 ....... ....... . . . . . . . . . . . . .. .. ..r ..r .... .... .... .... .... .... ρ11 .... .... . .... .... .... ... . . . ... .. ....... .... .............. ....... ....... .... ....... ....... .... ....... ............. .... . . . . . . . . ....... ... ....... .... ....... ....... .... ....... .... .... ..... .... .... .... .... .... .... .... .... .... .... .... .... .... ... ..... .... ....... .... ....... .... .............. .......... ....... ....... ....... ....... ....... ... r r r r r r ... r ... r ... r ... . .... ... .... .... . . . ...... ....... ... ............. ....... .... ... 1 .................... ...................... .... . . . . . . . . . . ....... .. ..... .... .... 10....................... .... ... ....... .... .... .... .... .... ... .... .... .... .... 0.......... ... .. .... ....... .... ....... .... ....... .... .............. ........ ....... . 00...................... .... r ρ r r ρ 1 r ρ r ρ r ... ρ101 r ... ρ100 r ... ρ001 r ... ρ000 In jeder Tiefe summieren sich die ρ–Werte zu 1; einige mögen auch = 0 sein. Diese ρ–Werte sind die Gewichte der Atome der von {s 1 , . . . , sn } erzeugten Booleschen Algebra V (n) . ∞ S V = V (n) ist die von {s1 , s2 , . . .} erzeugte Boolesche Algebra. Zunächst einmal beschreiben wir die Darstellung von Stone. Ω ist die Menge aller δ–Inhalte von ω. Jedes ω entspricht einem unendlichen Pfad. Für ein s(n) ist As(n) die Menge der Pfade, die durch den Knoten s(n) gehen; entsprechend ist Av für jedes v ∈ V definiert. A ist die Mengenalgebra, die aus den A v besteht. ρ(·) liefert uns einen Inhalt ρb(·) auf A. Dieser läßt sich zu einem Wahrscheinlichkeitsmaß ρ(·) auf Aσ fortsetzen. Jede Vervollständigung von V ist σ–isomorph zu einer Restklassenalgebra A / N, wobei N ein σ–Ideal in A ist, welches keines der Av enthält. Wenn wir erreichen wollen, daß ρ(·) zu einer Wahrscheinlichkeitsbewertung auf A / N Anlaß gibt, dann dürfen wir N nicht zu groß wählen. v (1) ⊇ v (2) ⊇ . . . lim & ρ(v (n) ) 6= 0 =⇒ c Prof. Dr. H. Dinges, ∞ \ Av(n) ∈ /N . 18. Dezember 1998 266 Mehr brauchen wir nicht! Es kommt nur darauf an, die abzählbaren Durchschnitte absteigender Ereignisfolgen, deren Wahrscheinlichkeiten nicht nach 0 absteigen, vom unmöglichen Ereignis in Vσ zu unterscheiden. Beispiel : von Betrachten wir die abstrakte Boolesche Algebra V , die erzeugt wird 1 1 ,1 ¬s1 = 0, = 2 2 1 1 1 3 1 3 , ,1 ¬s2 = 0, , = + + 4 2 4 4 2 4 1 1 3 1 5 3 7 = + + + , , , ,1 8 4 8 2 8 4 8 s1 s2 s3 ... mit den durch die Notation nahegelegten Operationen ∨, ∧ und ¬. e1 = (0, 1], e 0 = leere Summe, z.B. s1 ∧ (¬s2 ) ∧ (¬s3 ) = 1 5 , . 2 8 Der zu {s1 , s2 , s3 , . . .} gehörende binäre Baum ist der vollständige binäre Baum; denn für jedes (ε1 , . . . , εn ) gilt sε11 ∧ sε22 ∧ . . . ∧ sεnn 6= e0. Die von {s1 , . . . , sn } erzeugte Boolesche Algebra V (n) hat also genau 2n Atome: e 1= 0, 1 + 2n 1 2 + ... + , 2n 2n 2n − 1 ,1 . 2n Der Stonesche Darstellungsraum ist die Menge Ω aller unendlichen 0–1–Folgen. Wir können V nun z.B. folgendermaßen durch eine Mengenalgebradarstellen. Wir wählen irgendeine in (0, 1) dichte Menge Ω ∗ und setzen für v = A∗v k−1 k := x : x ∈ Ω , n < x ≤ n 2 2 ∗ k−1 k 2n , 2n und entsprechend für alle v ∈ V . Das Überalldichtsein von Ω∗ garantiert, daß keines der A∗v mit v 6= e0 die leere Menge ist. Die Operationen in A∗ = {A∗v : v ∈ V } sind die Mengenoperationen. Nicht jeder Inhalt ρ(·) auf V ist ein Prämaß auf A∗ . Die Bedingung lautet a(1) ≥ a(2) ≥ . . . lim & ρ(a(n) ) = 0 =⇒ c Prof. Dr. H. Dinges, ∞ \ A∗a(n) 6= ∅ . 18. Dezember 1998 A.3 267 Wahrscheinlichkeiten Dies kann man als eine Bedingung an Ω ∗ verstehen oder, besser noch, als eine Bedingung an die Äquivalenzrelation auf Aσ , die von der Gleichheit von Mengen ” auf Ω∗“ geliefert wird. Die von einem überalldichten Ω∗ gelieferten Darstellungen von V stellen nicht den allgemeinsten Fall einer Vervollständigung von V dar. Für die allgemeinen Darstellungen braucht man allgemeine Nullmengenideale in Aσ , welche kein Stonesches Av enthalten. Wenn eine Münze mit unbekannter“ Erfolgswahrscheinlichkeit p unendlich oft ” unabhängig geworfen wird, dann wird der Akteur mit der Hypothese Hp die Wahrscheinlichkeit ρ(·) so festlegen ρ (sε11 ∧ . . . ∧ sεnn ) = p P εi (1 − p)n− P εi . Bei der Wahl seiner Vervollständigung des Ereignisfeldes V hat der Akteur mit einem einzigen Hypothese Hp große Freiheiten. Die Freiheiten sind umso eingeschränkter, je mehr Hypothesen auf dem Ereignisfeld in Betracht gezogen werden sollen. Die Frage, ob das Ereignis der Nichtkonvergenz (der relativen Häufigkeiten der Erfolge) das unmögliche Ereignis ist, hängt von der speziellen Wahl der Vervollständigung von V ab; sie ist nichts der Situation inhärentes. c Prof. Dr. H. Dinges, 18. Dezember 1998