Stochastische Methoden Vorlesungsskript WS 2005/2006 Universität Kaiserslautern Rainer Siegmund-Schultze 23. Februar 2006 Inhaltsverzeichnis 1 Einleitung 2 2 Grundbegriffe 4 2.1 2.2 2.3 2.4 Vorbemerkungen zur Axiomatik Unabhängigkeit von Ereignissen Unendliche Ereignisräume . . . Die Verteilungsfunktion . . . . der WT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 8 9 15 3 Abgeleitete Zufallsgrößen und Unabhängigkeit 18 4 Bedingte Verteilungen 21 5 Die geometrische und die Exponentialverteilung 24 6 Binomialverteilung, Normalverteilung und der Grenzwertsatz von Moivre-Laplace 25 7 Erwartungswert und Varianz 7.1 Kovarianzmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Das schwache Gesetz der großen Zahlen im Fall endlicher Varianz 7.3 Mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . 37 43 44 46 8 Ein Anwendungsbeispiel für das Gesetz der großen Zahlen: Der Kodierungssatz von Shannon 50 9 Das Lemma von Borel-Cantelli und die fast sichere Konvergenz der Häufigkeiten 57 1 10 Das Starke Gesetz der großen Zahlen für unabhängige Zufallsgrößen 62 11 Einige Grundbegriffe der Mathematischen Statistik 69 11.1 Hypothesentests und relative Entropie . . . . . . . . . . . . . . . 73 12 Stochastische Prozesse 79 12.1 Markowsche Prozesse mit diskretem Zustandsraum und diskreter Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 13 Anhang: Integration über Maßräumen 13.1 Nichtnegative Funktionen . . . . . . . 13.2 Das Integral reellwertiger Funktionen . 13.3 Vektorwertige Funktionen . . . . . . . 13.4 Lp -Räume meßbarer Funktionen . . . 13.5 Die Jensensche Ungleichung . . . . . . 14 Index 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 100 102 104 104 107 108 Einleitung Diese Vorlesung wird Sie mit den Grundlagen einer Teildisziplin der Mathematik vertraut machen, in deren Zentrum der Zufallsbegriff steht. Zufall ist eigentlich der Inbegriff von Regellosigkeit und steht damit zunächst in einem ziemlichen Gegensatz dazu, daß die Mathematik ja gerade diejenige Wissenschaft ist, die die in der Realität anzutreffenden formalisierbaren Regeln und Strukturen und die daraus logisch ableitbaren Aussagen untersucht, etwa in klassischen Disziplinen wie der Algebra, der Geometrie, Zahlentheorie, Analysis oder mathematischer Logik. Sie stellt Modelle bereit, mit deren Hilfe sich Vorhersagen über das Verhalten realer Systeme, abgeleitet aus deren strukturellen Eigenheiten und inneren Gesetzmäßigkeiten, ergeben. Andererseits wird ein eintretendes Ereignis als zufällig bezeichnet, wenn es sich gerade nicht auf irgendeine Weise aus den bekannten Anfangsbedingungen und Gesetzmäßigkeiten heraus erklären läßt. Seit je versucht der Mensch, die einer Abfolge von Ereignissen zugrunde liegenden inneren Gesetzmäßigkeiten umfassend zu ergründen, um aus dieser Erkenntnis Nutzen zu ziehen. Der (objektive) Zufall ist aber ein Moment, in dem etwas im Kern grundloses passiert, etwas, das in dem konkreten Ergebnis unvorhersehbar ist, sich nicht aus der Vergangenheit eindeutig ableiten läßt. Wie kann denn das definitiv unvorhersehbare Gegenstand einer wissenschaftlichen, noch dazu mathematischen Disziplin sein?? Es ist doch eigentlich -an dieser Stelle- eine Bankrotterklärung der Wissenschaft schlechthin, oder nicht? Tatsächlich sind viele Menschen der Auffassung, so etwas wie Zufall gäbe es gar nicht, d.h. wenn wir etwas als zufällig ansehen, hätten wir nur nicht das notwendige genaue Wissen über Anfangsbedingungen oder die Gesetzmäßigkeiten. 2 Von A. Einstein gibt es die berühmte Feststellung: ”Der liebe Gott würfelt nicht!” Ganz bestimmt gibt es unzählige Situationen, in denen es tatsächlich sehr schwer oder unmöglich ist, schon alleine die notwendigen Informationen zu sammeln, obwohl die Gesetzmäßigkeiten der Abfolge möglicherweise genau bekannt sind. 1. So weiß man seit langem, daß z.B. die Differentialgleichungen, die die Strömung von Flüssigkeiten und Gasen beschreiben, in bestimmten Situationen (niedrige Viskosität, hohe Strömungsgeschwindigkeiten) folgendes Verhalten zeigen: Macht man bei der Bestimmung der Anfangsbedingungen einen (unvermeidlichen) Fehler der Ordnung ε, dann beträgt die Abweichung nach einer Zeiteinheit schon 10ε, nach zwei Zeiteinheiten 100ε u.s.w., das heißt nach n Zeiteinheiten 10n ε. Der Fehler wächst also exponentiell mit der Zeit. (!Pct!) Es ist in solchen Situationen natürlich unmöglich langfristige Vorhersagen zu treffen. Man müßte alle eingehenden Parameter mit einer Genauigkeit von 100 Stellen messen, um den Zustand des Systems nach 100 Zeitschritten auch nur annähernd vorherzusagen, was selbstverständlich physikalisch völlig unrealistisch ist. Die besten Meßapparaturen liefern vielleicht 10 bis 15 gültige Stellen. Von D. Ruelle stammt die Bemerkung: ”Consider an air molecule in a room. Now remove a single electron from the far edge of the universe–10 billion light years away. The gravitational force (!) acting on the air molecule will now be ever-so-slightly different. Nevertheless, after only about fifty collisions with other air molecules, which takes place in a fraction of a second, the path of the target molecule will have diverged so much from its original trajectory that it will miss one of the molecules it would have hit originally; thereafter, the new and old trajectories will have nothing in common.” In der Theorie der Dynamischen Systeme nennt man ein solches Verhalten sensible Abhängigkeit von den Anfangsbedingungen, populär geworden ist dies als ”Schmetterlingseffekt” im Sinne der ”Chaostheorie”, oder eben ”kleine Ursache-große Wirkung”. Klar ist also, daß es -ob man nun die Existenz von objektivem Zufall anerkennt oder nicht- ständig Situationen gibt, in denen zumindest subjektiver Zufall eine Rolle spielt, d.h. die praktische Unmöglichkeit der Bestimmung der Systemparameter, so genau, um über das Eintreten oder nicht Eintreten eines bestimmten Ereignisses vorher urteilen zu können. 3 2. Die moderne Physik in Gestalt der Quantenmechanik kennt Situationen, in denen schon die bloße Annahme irgendeiner Form von Vorbestimmtheit in unauflösbare logische Widersprüche führt, in denen also nicht viel mehr übrig bleibt, als die Existenz sogar von objektivem Zufall zu akzeptieren. Da in einer vollständig deterministisch ablaufenden Welt offenbar kein Raum für freien Willen bleibt (vgl. aktuelle Diskussionen zu dieser Problematik!), ist dieser Umstand eher als glücklich anzusehen. Wir werden uns bald mit einem solchen aus physikalischer Sicht rein zufälligen Phänomen, dem Zeitpunkt des radioaktiven Zerfalls eines instabilen Atoms, etwas näher beschäftigen im Zusammenhang mit dem Begriff der Exponentialverteilung, einem grundlegenden Begriff in der Wahrscheinlichkeitstheorie. Was also kann Mathematik überhaupt leisten in Situationen, in denen Vorhersage extrem schwierig oder unmöglich ist? Der Schlüssel zur Antwort liegt zum Einen im Gesetz der großen Zahlen, einer zunächst empirischen Beobachtung, daß unter gleichartigen Bedingungen auftretende Zufallsereignisse auf lange Sicht eine merkwürdige Konstanz der Häufigkeiten zeigen, die die Regellosigkeit der Einzelereignisse asymptotisch ’aushebelt’. Es ist, ein wenig paradoxerweise, gerade so, daß um so zufälliger ein Ereignis tatsächlich ist, man sich um so mehr auf das Gesetz der großen Zahlen verlassen kann. Überall dort hingegen, wo man sich nicht sicher sein kann, ob es nicht doch einen verborgenen inneren Zusammenhang gibt, der gerade diese beobachtete Ereignisabfolge generiert, bleibt die Zulässigkeit der Anwendung der Gesetze der Wahrscheinlichkeitstheorie zweifelhaft. Einschub: Himmelsmechanik -KAM-Theorie als gegenteiliges Beispiel, ebenso Mathematik: ’normale Zahlen’ !Pict! 2 2.1 Grundbegriffe Vorbemerkungen zur Axiomatik der WT Als mathematische Disziplin ist die Wahrscheinlichkeitstheorie in gewissem Sinne Maßtheorie. Die allgemeine Situation ist folgende: Wir betrachten irgendeine Menge M von Elementarereignissen m ∈ M . (!Pic!) Wir stellen uns vor, daß aufgrund eines hier nicht näher zu beschreibenden Vorgangs ein Element von M zufällig ausgewählt wird, also eines der elementaren Ereignisse m ∈ M . Wir möchten nun für eine Teilmenge M 0 ⊆ M wissen, wie wahrscheinlich es ist, daß das ausgewählte Element m gerade in M liegt. D.h., wie wahrscheinlich das zusammengesetzte (also i.A. nicht mehr elementare) Ereignis M 0 ist. 4 Beispiel. Ein Fahrzeug fährt von A nach B, es trifft nach einer Zeit t > 0 in B ein. Dieser eine Zeitpunkt t ∈ R+ =: M ist von vielen praktisch unvorhersehbaren kleinen Details beeinflußt. M 0 könnte etwa die Menge (0, 2) sein, was der Aussage entspricht, daß das Fahrzeug weniger als zwei Stunden benötigt. Dieses Ereignis setzt sich zusammen aus allen möglichen konkreten Fahrzeiten t unter zwei Stunden. Also sollte eine Wahrscheinlichkeitsverteilung eine Funktion sein, die bestimmten Teilmengen M 0 ⊆ M eine Zahl zwischen 0 und 1 zuordnet (1 ∼ = 100%). (Wir werden später sehen, daß es schon im obigen Beispiel unmöglich ist, tatsächlich allen Teilmengen von M auf konsistente Weise eine solche Wahrscheinlichkeit zuzuschreiben.) Das ist zunächst nur eine (mehr oder weniger begründete) quantitative Angabe, ein Maß dafür, wie plausibel das Ereignis M 0 ist. Plausibel klingt natürlich wenig präzise, und subjektiv. Nehmen wir das allereinfachste Beispiel: Jemand wirft eine (perfekt symmetrische) Münze. Dann ist M = {’Zahl’, ’Kopf’}, was wir einfacher durch M = {0, 1} symbolisieren wollen. Es ist nun, wenn der Werfer nicht schummelt, ’plausibel’, beiden möglichen Elementarereignissen jeweils 50% ∼ = 0, 5 der Wahrscheinlichkeit zuzuschreiben. Tatsächlich besitzt hier das Plausible einen objektiven Charakter. Dieses Experiment ist ja auf die eine oder andere Weise unzählige Male durchgeführt worden, und man beobachtet immer wieder, daß, wenn man es lange genug probiert, die Anzahl der 1’en (’Kopf ’) tatsächlich nahe bei 50% liegt. =⇒Gesetz der großen Zahlen Das erscheint sogar ein wenig eigenartig: Gibt es irgendeine ominöse ausgleichende Kraft, die dafür sorgt, daß nach 7 mal ’0’ entsprechend viele ’1’ folgen, damit sich alles auf 50% einpegelt? (’ausgleichende Gerechtigkeit’)? Tatsächlich neigen viele intuitiv zu einer ähnlichen Sichtweise, bzw. wenn es ’nicht so gut läuft’ zum Gegenteil (’Pechsträhne’). Was steckt hinter dieser Gesetzmäßigkeit? Wenn wir 100x die Münze werfen, ist doch schließlich [0, 0, 0, ..., 0] ebenso wahrscheinlich wie [1, 0, 1, 0, 1, ..., 0] oder [1, 1, 1, ..., 1]! Wieso werden Folgen mit nahezu 50% Eins-Anteil ’bevorzugt? Antwort: Es gibt einfach unglaublich viel mehr 100’er-Folgen, deren ’1’-Anteil zwischen 45% und 55% liegt, als solche, wo dieser Anteil etwa zwischen 0% und 10% liegt. Das Verhältnis der Anzahlen liegt bei mehr als 1016 ! Bei 1000’er-Folgen ist es schon größer als 10161. Betrachtet man Folgen der Länge 10000, dann gibt es mehr als 1022 mal so viele Sequenzen, deren ’1’-Anteil zwischen 45% und 55% liegt, als alle übrigen zusammengenommen (also als diejenigen, deren ’1’Frequenz um mehr als 5% vom Idealwert abweicht). Es bestehen also weitaus größere Chancen, ein einzelnes markiertes Sandkorn in der Sahara zu finden, als diese 5% Abweichung bei einer Folge aus 10000 Münzwürfen. Was hier am einfachsten möglichen Beispiel (die Menge der Elementarereignisse besteht nur aus zwei Elementen genau gleicher Wahrscheinlichkeit) 5 erläutert wurde, deckt sich mit der allgemeinen Beobachtung (empirisches Naturgesetz): Bei reproduzierbaren Zufallsvorgängen pegelt sich die Häufigkeit des Auftretens eines beliebigen Ereignisses M 0 auf seine Wahrscheinlichkeit P (M 0 ) ein: 1 N P (M 0 ), wobei f (M 0 ) N groß N 1 f1N (M 0 ) : = #{i : mi ∈ M 0 , 1 ≤ i ≤ N }. Hier ist mi das bei der i-ten Beobachtung eintretende zufällige Elementarereignis. Bemerkung: Es wurde hier bewußt nicht etwa limN →∞ N1 f1N (M 0 ) = P (M 0 ) geschrieben, weil es sich hier um reale Beobachtungen handelt, bei denen naturgemäß der Limesbegriff wegen der Endlichkeit jeder Beobachtungsreihe nicht streng anwendbar ist. Der Versuch einer solchen ’empirischen’ Limes-Definition des Begriffs Wahrscheinlichkeit durch Richard von Mises anstelle der axiomatischen Begründung (im Rahmen der Maßtheorie)durch Andrej N. Kolmogorov hat sich deshalb nicht durchsetzen können. Wir setzen nun zunächst voraus, M sei eine endliche Menge (im ersten Beispiel mit dem Fahrzeug ist M = R+ , also überabzählbar unendlich). Wie wir eben an dem einfachen Beispiel des Münzwurfes gesehen haben, läßt sich das empirische Naturgesetz ’Gesetz der großen Zahlen’ in sehr vielen Fällen durchaus näher begründen. Seien nun zwei sich gegenseitig ausschließende Ereignisse M 0 , M 00 ⊆ M gegeben, also M 0 ∩ M 00 = ∅. (!pic!) Wenn wir davon ausgehen, daß 1 N f (M 0 ) N 1 1 N f (M 00 ) N 1 P (M 0 ) sowie P (M 00 ) dann ergibt sich aus der Disjunktheit der beiden Mengen sofort 1 N 1 N f1 (M 0 ∪ M 00 ) = f1 (M 0 ) + f1N (M 00 ) N N P (M 0 ) + P (M 00 ). Aus dieser (heuristischen!) Betrachtung folgt, daß -für den Fall der Endlichkeit von M - die Mengenfunktion P folgende Eigenschaften haben muß: a) b) P : P(M ) 7→ [0, 1] (Mengenfunktion) P (M ) = 1 (Normiertheit) c) P (M 0 ∪ M 00 ) = P (M 0 ) + P (M 00 ) falls M 0 ∩ M 00 = ∅ (Additivität). Das heißt, P muß ein normiertes Maß auf der endlichen Menge M sein. Es folgt sofort aus c), daß gelten muß P (∅) = 0, außerdem ergibt sich durch 6 vollständige Induktion für ein beliebiges System paarweise disjunkter Teilmengen {Mi }ni=1 , Mi ⊆ M, Mi ∩ Mj = ∅ für i 6= j: ! n n X [ P P (Mi ) (endliche Additivität). Mi = i=1 i=1 Bemerkung 1.: Aufgrund von c) kennen wir P komplett, wenn wir pm := P ({m}) für jedes Elementarereignis m ∈ M kennen: X pm . P (M 0 ) = m∈M 0 0 Hier haben wir entscheidend benutzt, daß M (und demzufolge auch MP ) endlich 0 ist, denn für überabzählbar unendliches M ist der Ausdruck m∈M 0 pm nicht definiert, während für abzählbar unendliches M 0 die endliche Additivität nicht ausreicht, um die Formel zu begründen. Bemerkung 2.: Wenn aufgrund der Symmetrie der Situation klar ist, daß alle Elementarereignisse gleiche Chance haben, so wie im Fall der (perfekten) Münze oder eines perfekten Würfels, beim Roulette oder Zahlenlotto, dann gilt wegen c) pm = P (M 0 ) = 1 , also #M #M 0 . #M Dies wird üblicherweise durch die Feststellung: Wahrscheinlichkeit = (Anzahl der günstigen Fälle)/(Anzahl aller Fälle) zum Ausdruck gebracht, die sich aber wie gesagt nur auf den Fall bezieht, daß alle Einzelfälle gleichwahrscheinlich sind. Damit ist die Bestimmung von Wahrscheinlichkeiten im Fall der Symmetrie eine Aufgabe der Kombinatorik geworden, nämlich geht es nur noch um die kombinatorische Bestimmung der Anzahl der Elemente von endlichen Mengen. Bemerkung 3.: Der Begriff des Elementarereignisses und damit die passende Wahl der Menge M ist situationsbedingt. So kann es sein, daß für eine bestimmte Frage nicht die konkret gewürfelte Augenzahl eines Würfels von Interesse ist, sondern nur, ob die Zahl gerade oder ungerade ist. Dann können wir die zusammengesetzten Ereignisse M u = {1, 3, 5} bzw. M g = {2, 4, 6} durch f = {’g’, ’u’} zu EleVergröberung des Ereignisraumes M = {1, 2, ..., 6} zu M mentarereignissen vereinfachen. Bemerkung 4.: Die letzten beiden Bemerkungen sind von einiger Bedeutung für die Wahrscheinlichkeitstheorie endlicher Mengen, denn sie führt dazu, daß 7 man im Prinzip nicht nur im Fall von Symmetrie sondern in viel allgemeinerem Sinne für endliches M die Kombinatorik als Säule der diskreten Wahrscheinlichkeitstheorie ansehen kann: Sind nämlich alle auftretenden Einzelwahrscheinlichkeiten pm rationale Zahlen rRm , wobei R ein gemeinsamer Nenner ist, dann können wir den den Ereignisraum M künstlich durch Verfeinerung so modifizieren, daß das Elementarereignis m ∈ M durch die Menge M m := {[m, 1], [m, 2], ..., [m, rm ]} von geordneten Paaren ersetzt wird, wobei wir allen diesen Paaren dieselbe Wahrscheinlichkeit R1 zuordnen. Damit sind wir im durch Bemerkung 2. beschriebenen Fall. 2.2 Unabhängigkeit von Ereignissen Ein zentraler Begriff in der Stochastik ist die Unabhängigkeit. Dabei geht man zunächst davon aus, zwei zufällige Ereignisse M 0 , M 00 in ganz alltäglichem Sinn als unabhängig voneinander anzusehen, wenn ihr Zustandekommen in keinerlei kausalem Zusammenhang steht, wenn also die Information darüber, daß M 0 eingetreten ist, nicht den geringsten Rückschluß auf die Frage zuläßt, ob M 00 eingetreten ist. Wenn wir etwa zwei Würfel gleichzeitig werfen, dann kann man bei (fairem) Wurf davon ausgehen, daß etwa die Information, der erste Würfel zeige die 1, nichts daran ändert, daß für die Augenzahl des zweiten Würfels die Gleichverteilung anzunehmen ist. In der allgemeinen Situation bedeutet das folgendes: Wenn wir das zu einer Wahrscheinlichkeitsverteilung gehörende Zufallsexperiment unter identischen Bedingungen sehr oft (N mal) durchführen, dann können wir aufgrund der (heuristischen) Relation 1 N f (M 0 ) P (M 0 ) N groß N 1 davon ausgehen, daß die Anzahl der Fälle, in denen M 0 eintritt, nahe bei N 0 := [N · P (M 0 )] liegt. (Hier bezeichnet [x] den ganzen Teil einer reellen Zahl x.) Nun haben wir vorausgesetzt, daß das Eintreten von M 0 keinen Rückschluß zuläßt bzgl. M 00 . Wenn wir also nur jene ≈ N 0 Experimente betrachten, in denen jeweils M 0 eingetreten ist (und die restlichen für den Augenblick vergessen), dann wird der Anteil derjenigen Versuche, in denen sich auch M 00 ereignet hat wegen 1 N0 f (M 00 ) 0 N N0 1 groß P (M 00 ) nahe bei P (M 00 ) liegen. Dazu genügt es, daß N 0 hinreichend groß ist, als N · P (M 0 ). Falls nicht gerade P (M 0 ) = 0 ist, können wir also davon ausgehen, falls N groß genug ist. Der Fall P (M 0 ) = 0 soll uns im Moment nicht interessieren (er bedeutet, daß wir von vornherein davon ausgehen können, daß M 0 nicht eintreten wird). (!pic!) 8 Also wird die Anzahl der Fälle, in denen M 0 und M 00 eintreten, d.h. M 0 ∩M 00 , nahe bei N 0 · P (M 00 ) = [N · P (M 0 )] · P (M 00 ) ≈ N · P (M 0 )P (M 00 ) liegen. Die Heuristik zeigt also, daß 1 N f (M 0 ∩ M 00 ) N N 1 groß P (M 0 )P (M 00 ). Folglich kommen wir zu der Relation u) P (M 0 ∩ M 00 ) = P (M 0 )P (M 00 ) für M 0 , M 00 unabhängig. Daher definiert man die Unabhängigkeit zweier Ereignisse M 0 , M 00 durch die Gültigkeit der Relation u). Bezeichnet etwa im oben betrachteten Beispiel M 0 das Ereignis {[1, 1], [1, 2], ..., [1, 6]} (d.h. der erste Würfel zeigt eine 1) und M 00 das Ereignis {[1, 3], [2, 3], ..., [6, 3]} (der zweite Würfel zeigt eine 3), dann gilt aufgrund der Symmetrie und damit Gleichwahrscheinlichkeit aller 36 möglichen Elementarereignisse [i, j] : P (M 0 ) P (M 0 ∩ M 00 ) 1 1 = = P (M 00 ) sowie 36 6 1 = P ({[1, 3]}) = = P (M 0 )P (M 00 ) 36 = 6 wie erwartet. Beispiel: Wir betrachten den Wurf zweier Münzen, wobei eine Seite wie üblich mit 0, die andere mit 1 bezeichnet wird. Der Ereignisraum ist also M = {[i, j] : i, j ∈ {0, 1}}. M 0 , M 00 seien die Menge M 0 := {[i, j] ∈ M : i + j ist gerade} = {[0, 0], [1, 1]} bzw. M 00 := {[i, j] ∈ M : i = 1}. Wieder ist leicht zu sehen, daß gilt P (M 0 ∩ M 00 ) = P ({[1, 1]}) = 1 = P (M 0 )P (M 00 ). 4 Das Beispiel zeigt, daß Unabhängigkeit auch bestehen kann, wenn es sich nicht einfach um Ereignisse handelt, von denen sich jedes nur auf eins von zwei völlig getrennten Objekten bezieht ( M 0 ist eine gemeinsame Eigenschaft der beiden Münzen). 2.3 Unendliche Ereignisräume In der klassischen Phase der Wahrscheinlichkeitstheorie wurde in allererster Linie der eben betrachtete Fall eines endlichen Ereignisraumes M in Betracht gezogen und man untersuchte die dabei auftretenden kombinatorischen Fragen, etwa im Zusammenhang mit Glücksspielen. Wenden wir uns nun dem Fall zu, daß die zugrundeliegende Menge M nicht mehr endlich, aber wenigstens abzählbar unendlich ist, etwa die Menge der natürlichen Zahlen N. Wie oben schon festgestellt, reicht in diesem Falle die 9 Eigenschaft c) nicht aus, um die Wahrscheinlichkeiten von zusammengesetzten Ereignissen auf die von Elementarereignissen zurückzuführen. Aber auch in diesem Fall kann man ähnliche heuristische Häufigkeitserwägungen wie oben anstellen, und zu dem Schluß kommen, daß man sinnvollerweise anstelle von c) die entsprechend stärkere Forderung stellen muß: Für ein beliebiges System paarweise disjunkter Teilmengen {Mi }∞ i=1 mit Mi ⊆ M, Mi ∩ Mj = ∅ für i 6= j soll gelten ! ∞ ∞ X [ P (Mi ) . Mi = c’) P i=1 i=1 Dies impliziert erneut P (∅) = 0 und natürlich auch c), wenn wir einfach M3 = M4 = ... = ∅ wählen. Diese Eigenschaft heißt σ-Additivität. Aus ihr ergibt sich dann auch im abzählbar unendlichen Fall die Eigenschaft X pm P (M 0 ) = m∈M 0 0 für beliebige Teilmengen von M ∈ P(M ). Bemerkung: Es gibt normierte Mengenfunktionen auf P(N), die endlich additiv, aber nicht σ-additiv sind, z.B. solche, die jeder natürlichen Zahl n ∈ N das Maß 0 zuordnen, obwohl sie N das Maß 1 geben (Normiertheit). Diese ’exotischen’ Maße sind aber nicht konstruktiv angebbar und spielen in der üblichen Wahrscheinlichkeitstheorie keine Rolle. Eine Mengenfunktion mit den Eigenschaften a), b) und c’) ist im Sinne der Maßtheorie ein normiertes (σ-additives) Maß auf dem Mengensystem P(M ) über der abzählbaren Menge M . Wir stellen fest, daß im betrachteten Fall weiterhin jeder beliebigen Teilmenge von M ein Maß (Wahrscheinlichkeit) zugeordnet werden kann. Dieser Umstand geht im Falle eines überabzählbar unendlichen M im Allgemeinen leider zwangsläufig verloren. Bestimmten -allerdings wiederum ’exotischen’, nicht konstruktiven Teilmengen von R kann man im Allgemeinen auf keine sinnvolle Weise eine Wahrscheinlichkeit zuordnen (wenn man die σ-Additivität berücksichtigt). Sie sind nicht meßbar. Damit werden Wahrscheinlichkeitstheorie und Mathematische Statistik in diesen Fällen erheblich komplizierter, weil man sich oft um die Frage der Meßbarkeit Gedanken machen muß. Wir müssen uns also im überabzählbaren Fall auf eine echte Teilmenge A ⊂ P(M ) beschränken, P wird also nur noch eine Abbildung von A nach [0, 1] sein. Definition 1 Eine Teilmenge von P(M ) heißt σ-Algebra (über M ), falls die folgenden Eigenschaften erfüllt sind: 1. M ∈ A 2. für jedes M 0 ∈ A liegt auch M \ M 0 in A. S ∞ 3. für alle Folgen (Mi )∞ i=1 , Mi ∈ A gilt auch i=1 Mi ∈ A. 10 Es wird also gefordert, daß das sichere Ereignis meßbar sein soll, weiterhin mit einem Ereignis auch das komplementäre Ereignis, und da die σAdditivität des Wahrscheinlichkeitsmaßes eine wichtige Eigenschaft ist, auf die man nicht verzichten will, ist es sinnvoll zu fordern, daß A gegenüber der Bildung abzählbarer Vereinigungen abgeschlossen sein soll. Aus 1. und 2. folgt sofort, daß auch die leere Menge (das unmögliche Ereignis) ∅ zu A gehört, und aufgrund der aus der elementaren Mengenlehre bekannten Beziehung zwischenT Komplementbildung und der Vereinigung von S∞ ∞ Mengen (M \ i=1 (M \Mi ) = i=1 Mi ) ergibt sich aus 1.-3., daß eine σ-Algebra auch gegenüber der Bildung abzählbarer Durchschnitte abgeschlossen ist: ∞ \ Für alle Folgen (Mi )∞ , M ∈ A gilt auch Mi ∈ A. i i=1 i=1 Beispiele für σ-Algebren über einer beliebigen Menge M sind: - das System {∅, M } (es ist allerdings nicht besonders interessant, Wahrschenlichkeitstheorie auf dieser σ-Algebra zu betreiben) - die komplette Menge P(M ) (aber wie gesagt ist diese σ-Algebra im Allgemeinen zu groß). Eine wichtige Eigenschaft von σ-Algebren ist, daß der Durchschnitt eines beliebigen Systems von σ-Algebren selbst wieder eine σ-Algebra ist: Sei I eine Indexmenge (evtl. überabzählbar) und (Aα )α∈I ein System von σ-Algebren über einer Menge M . Dann gilt: T Lemma 2 α∈I Aα ist eine σ-Algebra. Der Beweis dieser Aussage ist ganz einfach: Alle Aα enthalten das T Element M wegen 1., also auch ihr Durchschnitt. Wenn eine Menge M 0 in α∈I Aα enthalten ist, dann ist es in allen Aα enthalten, folglich ist nach 2. auch M \ M 0 in allen Aα enthalten, als auch in deren Durchschnitt, und analog wird 3. gezeigt. Diese Aussage ermöglicht die Konstruktion von σ-Algebren, die reichhaltig genug sind, um z.B. für den Fall M = R alle Intervalle (a, b) und allgemeiner alle offenen Mengen zu umfassen, andererseits aber nicht zu groß sind (wie schon festgestellt ist etwa P(M ) für überabzählbares M ungeeignet). Wir werden uns in dieser Vorlesung haupsächlich mit abzählbaren M und dem Fall befassen, daß M der d-dimensionale euklidische Raum Rd (bzw. eine geeignete Teilmenge davon) ist. Es sei O das System der offenen Teilmengen eines metrischen (oder allgemeiner topologischen Raumes) M , z.B. des Rd . T Definition 3 Die σ-Algebra B(M ) := {A : A ist σ-Algebra über M , A ⊃ O} heißt die Borelsche σ-Algebra über dem metrischen (topologischen) Raum M . Eine Teilmenge M 0 ⊆ M heißt Borel-meßbar, wenn M 0 ∈ B(M ). 11 Bemerkung: Da P(M )⊃ O, gibt es mindestens eine σ-Algebra, die O umfaßt. Wir werden später sehen, daß die auf diese Weise definierte σ-Algebra gut an die Belange der Wahrscheinlichkeitstheorie angepaßt ist. Es sei A eine σ-Algebra über einer Menge M . Dann heißt das Tupel [M, A] meßbarer Raum. Definition 4 P heißt Wahrscheinlichkeitsmaß auf dem meßbaren Raum [M, A] falls: 1. P : A 7−→ [0, 1], 2. P (M ) = 1, 3. P ist σ-additiv. Das Tupel [M, A, P ] heißt Wahrscheinlichkeitsraum. Ein Wahrscheinlichkeitsmaß ist der Spezialfall eines Maßes. Definition 5 µ heißt Maß auf dem meßbaren Raum [M, A] falls: 1. µ : A 7−→ [0, +∞], 2. µ ist σ-additiv. Das Tupel [M, A, µ] heißt Maßraum. D.h. ein Wahrscheinlichkeitsmaß ist ein (auf 1) normiertes Maß. Ein Wahrscheinlichkeitsmaß ist also auch im allgemeinen Fall ein Objekt, das bestimmten Teilmengen einer umfassenden Menge M , nämlich den meßbaren Teilmengen (Ereignissen) ihre Wahrscheinlichkeit zuschreibt, wobei P (M ) = 1 und σ-Additivität gelten. Wir sind nun auch in der Lage, etwa mit dem Fall der Menge Rd zu arbeiten, als meßbare Mengen wählen wir B(Rd ). Aus der Analysis ist bekannt, daß es auf B(Rd ) genau ein ausgezeichnetes Maß µL (das Lebesguesche Maß) gibt, das die folgenden beiden Eigenschaften besitzt: 1. µL ([0, 1]d ) = 1 und 2. µL (B) = µL (B + x) für alle B ∈ B(Rd ) und x ∈ Rd , wobei B + x := {y ∈ Rd : y − x ∈ B} die um den Vektor x verschobene Menge B ist. Dieses Maß verallgemeinert den klassischen Volumenbegriff auf alle Borelschen Mengen (sogar auf eine noch größere σ-Algebra, die Lebesguesche σ-Algebra, die wir hier aber nicht betrachten). Dieses (unendliche, da µL (Rd ) = +∞) Maß, wird, eingeschränkt auf die σ-Algebra B([0, 1]d ) (also wenn wir den Maßraum [[0, 1]d , B([0, 1]d ), µL ((·) ∩ [0, 1]d )] betrachten) wegen 1. zu einer Wahrscheinlichkeitsverteilung. Diese heißt Gleichverteilung auf [0, 1]d . Generell können wir für jede Borelsche Menge C ⊂ Rd , die endliches positives ein Wahrscheinlichkeitsmaß einführen, die Maß hat, durch den Ansatz µLµ((·)∩C) L (C) Gleichverteilung auf C. So wie im Falle einer endlichen Teilmenge E von Z die Gleichverteilung auf E durch Normierung des Zählmaßes # entsteht: #((·)∩E) #(E) , genauso ist dies nun 12 im überabzählbaren Fall des Rd , wobei anstelle der Eigenschaft der diskreten Gleichverteilung, allen Elementarereignissen gleiche Wahrscheinlichkeit zuzuordnen, nun die Eigenschaft 2. getreten ist, wobei wir vorauszusetzen haben, daß in 2. sowohl B als auch B + x ganz in C liegen. (!pic!) (Sofern Sie in der Analysis noch nicht mit dem Lebesgueschen Maß vertraut gemacht wurden, denken Sie zunächst einfach an das übliche d-dimensionale Volumen von Mengen.) Das Lebesguesche Maß µL auf [Rd , B(Rd )] ist kein endliches Maß, denn es gilt ja µL (Rd ) = +∞. Es ist aber immer noch σ-endlich im Sinne von: Definition 6 Ein Maß µ auf einem meßbaren Raum [M, A] S∞heißt σ-endlich, falls es eine Folge (Mi )∞ von Mengen aus A gibt, so daß i=1 i=1 Mi = M gilt, sowie µ(Mi ) < +∞. S Denn es gilt ja x∈Zd (0, 1]d + x = Rd sowie µL ((0, 1]d +x) = µL ((0, 1]d ) = 1 nach Definition des Lebesgueschen Maßes. Bemerkung. Die Gleichverteilung auf einer Teilmenge B ⊂ Rd , 0 < µ(B) < +∞ hat die Eigenschaft, daß alle Elementarereignisse die Wahrscheinlichkeit 0 haben! Es gilt nämlich für alle x ∈ Rd daß µL ({x}) = 0. Ein Maß mit dieser Eigenschaft heißt diffus. Es ist im Gegensatz zum abzählbaren oder endlichen Fall nicht mehr so, daß ein Wahrscheinlichkeitsmaß durch seine Werte auf sämtlichen Elementarereignissen definiert ist, denn es gibt sehr viele diffuse W-Maße auf ein und derselben Menge B ⊂ Rd , 0 < µ(B) < +∞ (z.B. jede Gleichverteilung auf einer Teilmenge B 0 ⊂ B läßt sich ja auch als Verteilung auf B ansehen). Einschub: Vitali-Konstruktion einer nicht-meßbaren Menge. Über die Gleichverteilungen hinaus ist das Lebesguesche Maß Grundlage für die Konstruktion einer großen und zentral wichtigen Klasse von W-Verteilungen. Betrachten wir zunächst irgendeine Rstückweise-stetige nicht-negative Funktion f auf dem Rd mit der Eigenschaft Rd f dx = 1. Dann definiert Z µf (C) := f dx C R R eine normierte Mengenfunktion µf . Das Integral C f dx läßt sich auch als 1C f dx schreiben, wobei 1C die Indikatorfunktion der Menge C ist, d.h. 1 für x ∈ C 1C (x) = . 0 sonst d Sei nun (Ci )∞ i=1 eine Folge von disjunkten Mengen aus B(R ). Dann gilt 1Sni=1 Ci = n X i=1 1Ci %n→∞ 1S∞ i=1 Ci 13 (punktweise). Nun folgt aus dem Satz von Lebesgue über monotone Konvergenz die σ-Additivität der normierten Mengenfunktion µf , da Z Z Z ∞ [ S f dx = 1 ∞ f dx = lim 1Sni=1 Ci f dx µf ( C i ) = S i=1 Ci ∞ i=1 i=1 = = lim n→∞ ∞ Z X i=1 n→∞ Ci Z Sn i=1 f dx = lim f dx = Ci n→∞ Ci ∞ X n Z X i=1 f dx Ci µf (Ci ). i=1 Also ist µf eine W-Maß. Man nennt µf die Wahrscheinlichkeitsverteilung mit der Dichtefunktion f . So ist die Gleichverteilung auf [0, 1]d gegeben durch ihre Dichtefunktion 1[0,1]d . So übernimmt hier die Dichtefunktion (kurz: Dichte) die Rolle, die die Einzelwahrscheinlichkeiten im endlichen oder abzählbaren Fall innehaben: Sie bestimmt eindeutig das jeweilige W-Maß, und für die Gleichverteilung auf einer (Borel-)meßbaren Menge B (d.h. B ∈ B(Rd )) gilt 1 f ≡ µL1(B) analog zu P ({m}) ≡ #(M ) für einen endlichen W-Raum M . Bemerkung: Auf einer abzählbar unendlichen Menge (z.B. N) gibt es keine Gleichverteilung. Die eben getroffene Voraussetzung, daß f stückweise stetig sein soll, läßt sich ersetzen durch die erheblich schwächere Forderung, daß f meßbar ist: Definition 7 Eine Funktion f von einem meßbaren Raum [A, A] in einen weiteren [A0 , A0 ] heißt meßbar, falls f −1 (B) ∈ A für alle B ∈ A0 gilt. Bemerkung: Diese Definition ist analog zur allgemeinen Stetigkeitsdefinition, wo gefordert wird, daß das Urbild jeder offenen Menge wieder offen ist. d d Ist nun f eine meßbare R Funktion von [R , B(R )] in [R, B(R)] mit den Eigenschaften f ≥ 0 und Rd f dx = 1 (in der Analysis wird das LebesgueIntegral meßbarer Funktionen eingeführt), dann lassen sich die obigen Betrachtungen (einschließlich des Nachweises der σ-Additivität) ungeändert auf diesen Fall ausweiten. (In vielen Fällen werden uns aber stückweise stetige Funktionen genügen, so daß man zur Not auch mit dem Riemannschen Integralbegriff auskommt.) Bemerkung: Die Dichte ist nicht vollkommen eindeutig definiert, man kann sie auf einer Menge N ∈ B(Rd ) mit µL (N ) = 0 beliebig abändern, ohne daß sich etwas am durch sie definierten W-Maß ändern würde. So kann man sie in einem einzelnen Punkt x ∈ Rd letztlich völlig beliebig wählen. Längst nicht alle W-Maße auf [Rd , B(Rd )] besitzen jedoch eine Dichte(funktion)! Es ist leicht einzusehen, daß etwa die durch 1 falls 0 ∈ C δ0 (C) := , C ∈ B(Rd ) 0 sonst gegebene W-Verteilung δ0 -die Einpunktverteilung auf 0 - keine Darstellung über eine Dichte (bezogen auf das Lebesguesche Maß) zuläßt. In der Analysis 14 wird bewiesen, daß eine Wahrscheinlichkeitsverteilung P auf [Rd , B(Rd )] genau dann über eine Dichtefunktion darstellbar ist, wenn sie absolut stetig ist, d.h. wenn P (N ) = 0 für alle N ausB(Rd ) mit µL (N ) = 0 (Lebesgue-NullMengen) erfüllt ist (Satz von Radon-Nikodym). Da für die Einpunktverteilung in 0 ja δ0 ({0}) = 1 gilt, fällt sie nicht in diese Klasse. Man unterscheidet auf [Rd , B(Rd )] folgende Typen von Grund-Typen von Verteilungen: a) diskrete Verteilungen: P (A) = 1 für eine bestimmte endliche oder abzählbare Menge A b) singuläre Verteilungen P (N ) = 1 für eine bestimmte Lebesgue-Nullmenge ( µL (N ) = 0) c) diffuse Verteilungen: P (A) = 0 für jede endliche oder abzählbare Menge A d) absolut stetige Verteilungen. Diskrete W-Maße sind singulär, denn jede abzählbare Menge hat das Lebesguesche Maß 0. Alle absolut stetigen W-Maße sind diffus, d.h. sie ordnen beliebigen einelementigen Mengen {x}, x ∈ Rd das Maß 0 zu. Es gibt aber auch diffuse W-Maße, die singulär sind, also deren ganze Masse auf einer 0-Menge (bzgl. µL ) sitzt. Jede W-Verteilung läßt sich darstellen als Mischung P = αP1 + βP2 + γP3. , α + β + γ = 1, α, β, γ ≥ 0, wobei P1 eine diskrete, P2 eine diffuse singuläre und schließlich P3 eine absolut stetige Wahrscheinlichkeitsverteilung sind. Wie schon gesagt läßt sich nur der absolut stetige Anteil P3 über eine Dichte charakterisieren. 2.4 Die Verteilungsfunktion Wenngleich wir gesehen haben, daß Wahrscheinlichkeitsmaße auf [Rd , B(Rd )] nicht immer durch eine Dichtefunktion beschrieben werden könne, so lassen sie sich doch generell eindeutig durch einen anderen Typ von Funktionen beschreiben, nämlich durch ihre Verteilungsfunktion. Dazu erinnern wir zunächst an den Begriff eines Halbrings von Mengen: Definition 8 Es sei M eine Menge. Eine Teilmenge H von P(M ) heißt Halbring, falls mit M 0 , M 00 ∈ H auch M 0 ∩ M 00 ∈ S H und es endlich viele paarweise disjunkte Mi ∈ H gibt, so daß M 0 \ M 00 = i Mi gilt. In der Maßtheorie wird gezeigt, daß zwei endlicheTMaße µ1 , µ2 , die auf einem Halbring H übereinstimmen, auch auf σ(H) := {A : A ist σ-Algebra über M , A ⊃ O} übereinstimmen, d.h. aus µ1 (M 0 ) = µ2 (M 0 ) für alle M 0 ∈ H folgt µ1 (M 0 ) = µ2 (M 0 ) für alle M 0 ∈ σ(H). Nun bildet das System Q aller halbQ offenen (Hyper-)Quader des Rd der Form di=1 (ai , bi ] einen Halbring und jede offene Teilmenge des Rd läßt sich als abzählbare Vereinigung von solchen Quadern darstellen, so daß σ(Q) = σ(O) = B(Rd ) die Borelschen Mengen des Rd sind. 15 Also ist ein W-Maß P auf [Rd , B(Rd )] eindeutig durch die Wahrscheinlichkeiten sämtlicher halboffener Quader festgelegt. Nun ist es nicht schwer mittels der (endlichen) Additivität von P zu zeigen (Übungsaufgabe), daß es sogar genügt, Qd (−∞, b ] für beliebiges b = (b1 , ..., bd ) ∈ Rd zu die Werte FP (b) := P i i=1 kennen, um eindeutig auf P schließen zu können. FP : Rd 7→ [0, 1] heißt Verteilungsfunktion von P . Sie besitzt folgende Eigenschaften Satz 9 1. FP (b(n) ) → 0 für jede Folge d {b(n) }∞ n=1 , b(n) = (b(n),1 , b(n),2 , ..., b(n),d ) ∈ R mit mini∈{1,...,d} b(n),i → −∞,, d 2. FP (b(n) ) → 1 für jede Folge {b(n) }∞ n=1 , b(n) ∈ R mit b(n),i → +∞, i ∈ {1, ..., d}, 3. FP (a) ≤ FP (b) falls a, b ∈ Rd , ai ≤ bi , i ∈ {1, ..., d}, (Monotonie), 4. FP (b(n) ) → FP (b) für jede Folge b(n) ∈ Rd mit b(n),i ≥ bi , b(n),i → bi , i ∈ {1, ..., d} (Rechts-Stetigkeit). B e w e i s. Wir zeigen zunächst die rechtseitige Stetigkeit der Verteilungsfunktion, also Punkt 4. Sei b0 > b beliebig gewählt (also b0i > bi , i = 1, 2, ..., d). Aus der Konvergenz b(n) → b folgt, daß für genügend großes n gilt: b0i > b(n),i ≥ bi , i = 1, 2, ..., d. Also gilt wegen d Y i=1 (−∞, b0i ] ⊃ d Y i=1 (−∞, b(n),i ] ⊇ d Y (−∞, bi ] (1) i=1 auch FP (b0 ) ≥ FP (b(n) ) ≥ FP (b) (2) 0 wenn n genügend groß ist. Sei eine Folge {b0(k) }∞ k=1 so gewählt, daß b(k) → b 0 0 sowie b(k),i > b(k+1),i > bi für alle k und alle i = 1, 2, ..., d. Dann ist Wk := Qd Qd T 0 k Wk = i=1 (−∞, bi ], i=1 (−∞, b(k),i ] eine absteigende Mengenfolge mit 0 also gilt (s. Übungsaufgabe 2.2) P (Wk ) = FP (b(k) ) → FP (b) für k → ∞. Aus (2) folgt nun auch, daß FP (b(n) ) → FP (b) für n → ∞. Um Punkt 1. zu zeigen, bemerken wir zunächst, daß aus der Bedingung an {b(n) } folgt, daß bei beliebig großem k ∈ N für genügend große n d Y i=1 (−∞, b(n),i ] ⊆ Ak := {x ∈ Rd : xi ≤ −k für mindestens ein i} gilt. Folglich gilt FP (b(n) ) ≤ P (Ak ), falls n gnügend groß ist. Es gilt aber T k Ak = ∅, und {Ak } ist eine absteigende Mengenfolge. Also folgt aus der Stetigkeit von P , daß P (Ak ) → 0 und somit geht auch FP (b(n) ) gegen 0. 16 T Um Punkt 2. zu zeigen, stellen wir fest, daß sich aus der Beziehung P ( k Wk ) = S limk P (Wk ) für jede absteigende Mengenfolge Wk auch P ( k Wk ) = limk P (Wk ) für jede aufsteigende Folge ergibt, weil dann [ \ \ P ( Wk ) = P (Rd \ (Rd \ Wk )) = 1 − P ( (Rd \ Wk )) k k k d = 1 − lim P (R \ Wk ) = lim P (Wk ). k k Nun können wir Punkt 2. völlig analog zu 4. beweisen, indem wir eine Folge 0 0 0 {b0(k) }∞ k=1 so wählen, daß b(k) → (+∞, +∞, ..., +∞) sowie b(k),i < b(k+1),i für Qd alle k und alle i = 1, 2, ..., d gilt. Dann ist nämlich Wk := i=1 (−∞, b0(k),i ] S aufsteigend und k Wk = Rd . Q Q Punkt 3. folgt sofort aus der Additivität ( di=1 (−∞, a] ⊆ di=1 (−∞, b]). Bemerkungen: 1. Man kann diesen Satz auch kurz so formulieren, daß jede Verteilungsfunktion monoton, stetig in −∞ und +∞ sowie rechtsseitig stetig ist. 2. Daß die linksseitige Stetigkeit i.A. nicht gilt liegt daran, daß für b0(k) % S Qd Qd b, b0(k) < b nur k i=1 (−∞, b0(k),i ] = i=1 (−∞, bi ) folgt, die aufsteigende FolQd ge hat nicht etwa i=1 (−∞, bi ] als Limesmenge. Ist aber P absolut stetig, Qd Qd dann gilt auch die linksseitige Stetigkeit, denn i=1 (−∞, bi ) i=1 (−∞, bi ] \ ist eine Nullmenge bezüglich des Lebesgueschen Maßes, also auch bezüglich P (Übungsaufgabe). Im eindimensionalen Fall ( d = 1) ist (−∞, b] \ (−∞, b) = {b}, also sicher eine P -Nullmenge, wenn P diffus ist, so daß für d = 1 die Verteilungsfunktionen aller diffusen W-Verteilungen stetig sind. 3. Im Fall d = 1 gilt sogar, daß die Eigenschaften 1.-4. genau die Verteilungsfunktionen von Wahrscheinlichkeitsmaßen auf dem meßbaren Raum [R, B(R)] charakterisieren: Zu jeder Funktion auf dem R mit diesen Eigenschaften gibt es genau ein W-Maß, das die betreffende Funktion als Verteilungsfunktion hat. Das ergibt sich daraus, daß man zunächst aus der Funktion die ’Wahrscheinlichkeiten’ (wir haben das Maß ja noch nicht konstruiert) beliebiger halboffener Intervalle der Form (a, b] bestimmen kann als F (b) − F (a), und diese Werte bilden in ihrer Gesamtheit eine σ-additive Mengenfunktion auf dem Halbring der halboffenen Intervalle. In der Maßtheorie wird gezeigt, daß es zu einer solchen σ-additiven Mengenfunktion immer eine eindeutig bestimmte Wahrscheinlichkeitsverteilung gibt. Die σ-Additivität folgt recht einfach aus der Rechts-Stetigkeit. Für d > 1 muß noch eine weitere Forderung gestellt werden, die sichert, daß die Wahrscheinlichkeiten aller halboffenen Quader nicht-negativ sind. Diese Forderung lautet etwa im Fall d = 2: F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) ≥ 0 für beliebige x2 ≥ x1 , y2 ≥ y1 . (!pic!) Für größere d läßt sich eine (entsprechend kompliziertere) analoge Bedingung herleiten. 17 3 Abgeleitete Zufallsgrößen und Unabhängigkeit In den meisten Situationen, in denen ein Ereignis als zufällig angesehen wird, interessiert man sich nur für einen Teilaspekt dieses Ereignisses bzw. für daraus abgeleitete Größen. So ist in dem allerersten Beispiel, wo es um die Bewegung eines Fahrzeuges von A nach B ging, genau genommen die gesamte Fahrt in ihrem Ablauf durch das Wechselspiel zufälliger äußerer Einflüsse mit den Handlungen des Fahrers charakterisiert, und die Gesamtfahrzeit ergibt sich als eine Funktion des zeitlichen Ablaufs der Fahrt. Beim Wurf eines Würfels interessiert nur die obenliegende Zahl, aber nicht, in welcher Orientierung der Würfel liegenbleibt, wobei diese Orientierung ja ebenfalls ein zufälliges Ergebnis des Wurfes ist. Um diese Situation in einen allgemeinen Rahmen zu bringen, betrachten wir einen Wahrscheinlichkeitsraum [M, A, P ] sowie eine meßbare Abbildung ξ von c, A]. b Bei der zufälligen [M, A, P ] in irgendeinen weiteren meßbaren Raum [M Auswahl eines Elementes m aus M gemäß P wird in einem anschaulichen Sinn c ausgewählt, nämlich ξ(m). Das dazugehörige W-Maß auch ein Element aus M b c Q auf [M, A] entsteht durch den Transport des Maßes P mittels ξ: b 7→ P (ξ −1 (A)) b∈A b ∈ [0, 1]. Q:A b in A liegt, Hierbei haben wir benutzt, daß ξ meßbar ist und folglich ξ −1 (A) b b b falls A ∈ A. Wir müssen nun nachweisen, daß die auf A definierte nichtnegative Mengenfunktion Q normiert und σ-additiv ist. c = M , woraus sofort Q(M) c = 1 folgt. Außerdem sind bei Zunächst ist ξ −1 (M) jeder Abbildung Mengen ebenfalls disjunkt und es gilt disjunkter die Urbilder S bα )α∈I . Daraus bα für beliebige Mengensysteme (A bα = S−1 ξ A ξ −1 A α∈I α∈I folgt nun unmittelbar die σ-Additivität von Q = P ◦ ξ −1 : ! !! ! ∞ ∞ ∞ ∞ [ [ [ X bi bi bi bi Q A = P ξ −1 A =P ξ −1 A = P ξ −1 A i=1 i=1 = ∞ X i=1 i=1 i=1 bi für beliebige (A bi )∞ , A bi ∈ A b mit A bi ∩ A bj = ∅, i 6= j. Q A i=1 c A] b Wir können also auch im strengen Sinne davon sprechen, daß ξ auf [M, b c eine (abgeleitete) Zufallsgröße generiert, [M , A, Q] ist ein Wahrscheinlichkeitsraum. In der Wahrscheinlichkeitstheorie ist es üblich, die Funktion ξ selbst als Zufallsgröße (oder Observable) zu bezeichnen. Seien nun auf [M, A, P ] zwei Zufallsgrößen ξ1 , ξ2 gegeben, d.h. zwei meßbare b i ], i = 1, 2. Dann ist [ξ1 , ξ2 ] : m ∈ M 7−→ ci , A Abbildungen ξi : [M, A] 7→ [M c c c1 × M c2 . Wenn [ξ1 (m), ξ2 (m)] ∈ M1 × M2 zunächst eine Abbildung von M in M c c b b wir auf M1 × M2 die Produkt-σ-Algebra A1 ⊗ A2 := ∩{B : B σ-Algebra b 1, A b 2 } betrachten, also die von c1 × M c2 , A b1 × A b2 ∈ B für A b1 ∈ A b2 ∈ A über M b b b b allen Mengen der Gestalt A1 × A2 mit A1 , A2 beide meßbar erzeugte σ-Algebra, 18 c1 × M c2 , A b1 ⊗ A b 2 ], also dann ist [ξ1 , ξ2 ] eine meßbare Abbildung von [M, A] in [M eine Zufallsgröße. Definition 10 Die beiden Zufallsgrößen ξ1 , ξ2 heißen unabhängig (voneinb 1 und A b 2 die beiden b(1) ∈ A b(2) ∈ A ander), falls für zwei beliebige Mengen A −1 b −1 b Ereignisse ξ1 (A(1) ), ξ2 (A(2) ) ∈ A unabhängige Ereignisse sind. Ein exemplarisches Beispiel kann wieder im Zusammenhang mit dem Wurf zweier Würfel angegeben werden. In diesem Falle wählen wir als Menge M := {[k, l] : k, l ∈ {1, 2, ..., 6}}, P ist die Gleichverteilung und ξ1 , ξ2 sind beides c := {1, 2, ..., 6}, nämlich ξ1 ([k, l]) = k, ξ2 ([k, l]) = l. Abbildungen von M in M Die beiden Zufallsgrößen sind also nichts anderes als die Angabe der Augenzahl jeweils nur eines der beiden Würfel. Man überzeugt sich leicht von deren Unabhängigkeit. Bemerkung: Der vorher eingeführte Begriff der Unabhängigkeit zweier Mengen M 0 , M 00 geht aus der eben gegebenen Definition als Spezialfall hervor, wenn man als Zufallsgrößen die Indikatorfunktionen 1M 0 und 1M 00 wählt, die in {0, 1} abbilden. Um das zu sehen muß man nur zeigen, daß mit M 0 , M 00 auch M \ M 0 , M 00 und M \ M 0 , M \ M 00 jeweils unabhängige Mengenpaare bilden. Daß z.B. die Komplemente zweier unabhängiger Mengen ebenfalls unabhängig sind, läßt sich wie folgt sehen: P ((M \ M 0 ) ∩ (M \ M 00 )) = P (M \ (M 0 ∪ M 00 )) = 1 − P (M 0 ∪ M 00 ) = 1 − (P (M 0 \ M 00 ) + P (M 00 \ M 0 ) + P (M 0 ∩ M 00 )) = 1 − (P (M 0 \ M 00 ) + P (M 00 \ M 0 ) + 2P (M 0 ∩ M 00 )) + P (M 0 ∩ M 00 ) = 1 − P (M 0 ) − P (M 00 ) + P (M 0 ∩ M 00 ) = 1 − P (M 0 ) − P (M 00 ) + P (M 0 )P (M 00 ) = (1 − P (M 0 ))(1 − P (M 00 )) = P ((M \ M 0 )P (M \ M 00 )) . Die eben gegebene Definition der Unabhängigkeit von zwei Zufallsgrößen verallgemeinert sich sinngemäß auf den Fall mehrerer Zufallsgrößen. Definition 11 Ein endliches System von Zufallsgrößen ξ1 , ξ2 , ..., ξn heißt vollständig b b b(1) ∈ A unabhängig (voneinander), falls für n beliebige Mengen A 1 , A(2) ∈ T Q n n −1 b 2 , ..., A b(n) ∈ A b n die Beziehung P b(i) ) = b(i) ) A ξ (A P ξ −1 (A i=1 i i=1 i erfüllt ist. Bemerkung: Allgemein folgt aus der paarweisen 19Unabhängigkeit der Zufallsgrößen ξ1 , ξ2 , ..., ξn , d.h. der Unabhängigkeit von ξi , ξj für i 6= j, noch nicht deren vollständige Unabhängigkeit. 19 Beispiel: Wir betrachten den fairen Wurf dreier Münzen mit dem zufälligen Ergebnis [m1 , m2 , m3 ] ∈ {0, 1}3. Sei ξ1 := 1{m1 =m2 } , ξ2 := 1{m1 =m3 } und ξ3 := 1{m2 =m3 } . Man prüft leicht, daß je zwei dieser Zufallsgrößen unabhängig voneinander sind, jedoch gilt P (ξ1 = ξ2 = ξ3 = 1) = 1/4 6= 3 Y P (ξi = 1) = 1/8. i=1 Wie wir gesehen haben, gilt für zwei unabhängige Zufallsgrößen ξi : [M, A] 7→ b i ], i = 1, 2 auf einem Wahrscheinlichkeitsraum [M, A, P ] die Beziehung c [M i , A b i , i = 1, 2. b1 ) ∩ ξ −1 (A b2 )) = P (ξ −1 (A b1 ))P (ξ −1 (A b2 )), A bi ∈ A P (ξ1−1 (A 2 1 2 Dies können wir auch schreiben als b i , i = 1, 2. b1 × A b2 )) = P (ξ −1 (A b1 ))P (ξ −1 (A b2 )), A bi ∈ A P ([ξ1 , ξ2 ]−1 (A 1 2 b1 ⊗ A b 2 ] (also c1 × M c2 , A Wir bezeichnen nun das W-Maß P ([ξ1 , ξ2 ]−1 (·)) auf [M das durch Maßtransport mittels der Zufallsgröße [ξ1 , ξ2 ] aus P entstehende Maß kurz mit Q1,2 und entsprechend die W-Maße P (ξ1 −1 (·)) bzw. P (ξ2 −1 (·)) auf b 1 ] bzw. [M b 2 ] mit Q1 , Q2 . Dann gilt also c1 , A c2 , A [M b i , i = 1, 2. b1 × A b2 ) = Q1 (A b1 )Q2 (A b2 ), A bi ∈ A Q1,2 (A In der Maßtheorie wird gezeigt: Satz 12 Sind [M1 , A1 , µ1 ], [M2 , A2 , µ2 ] zwei Maßräume mit µi (Mi ) < +∞, i = 1, 2, dann gibt es genau ein Maß µ1 ×µ2 auf dem meßbaren Raum [M1 ×M2 , A1 ⊗ A2 ] mit der Eigenschaft µ1 × µ2 (A1 × A2 ) = µ1 (A1 )µ2 (A2 ), Ai ∈ Ai , i = 1, 2, das Produktmaß von µ1 und µ2 . Es gilt also in unserem Fall zweier unabhängiger Zufallsgrößen ξ1 , ξ2 die Beziehung Q1,2 := P ([ξ1 , ξ2 ]−1 (·)) = P (ξ1−1 (·)) × P (ξ1−1 (·)) = Q1 × Q2 . Das bedeutet: Satz 13 Zwei Zufallsgrößen ξ1 , ξ2 sind genau dann unabhängig voneinander, c1 × M c2 , A b1 ⊗ A b 2 ] erzeugte W-Maß das wenn das von ihnen gemeinsam auf [M b i ], i = 1, 2 ci , A Produktmaß der jeweils von ξ1 bzw. ξ2 erzeugten Maße auf [M erzeugten W-Maße ist. Bemerkung: Dies gilt auch für endlich viele Q (und sogar abzählbar viele) Zufallsgrößen ξ1 , ..., ξn , d.h. P ◦ [ξ1 , ..., ξn ]−1 = i P ◦ ξi , genau dann, wenn diese vollständig unabhängig sind. Dies folgt genau wie eben aus der Definition der vollständigen Unabhängigkeit. 20 4 Bedingte Verteilungen Wir kommen nun zu einem weiteren zentralen Begriff der Wahrscheinlichkeitstheorie, der bedingten Wahrscheinlichkeit. Zunächst stellen wir fest, daß die konkrete Wahl eines W-Maßes zur Modellierung eines Zufallsvorganges in starkem Maße von den Informationen abhängt, über die wir verfügen. Wir hatten z.B. gesehen, daß die Information, daß die Elementarereignisse als vollkommen gleichberechtigt anzusehen sind, zwangsläufig zur Gleichverteilung führt. Bzw. daß die Information, daß zwei Zufallsgrößen unabhängig sind, die Produkt-Verteilung als ihre gemeinsame Verteilung impliziert. Oft ist es so, daß ein Zufallsvorgang eintritt, wir jedoch zunächst nur eine bestimmte Zufallsgröße (Observable) dieses Vorgangs beobachten können, d.h. eine abgeleitete Größe, die uns noch nicht die volle Information über das tatsächlich vorliegende Elementarereignis offenbart. Dennoch hat die Tatsache, c angenommen hat, plaudaß die betreffende Zufallsgröße ξ z.B. den Wert a ∈ M siblerweise einen gewissen informativen Wert, unser Wissen über die möglichen Ausgänge des Zufallsvorganges hat sich verändert. Das zwingt uns zu einer Neufestlegung der Wahrscheinlichkeitsmaßes. Wie sollen wir dieses neue W-Maß P (·|ξ = a) auf [M, A] aber wählen? Bemerkung: Das gestaltet sich recht kompliziert für den Fall, daß die Zufallsgröße ξ überabzählbar viele Ausgänge haben kann, also für überabzählbares c M. c endlich oder abzählbar unendWir nehmen also von jetzt ab an, daß M lich ist. Dann können wir aber auch annehmen, daß P (ξ = a) > 0 gilt, denn wegen der σ-Additivität von P gilt X X 0 = 0. 1P (ξ=a0 )=0 P (ξ = a0 ) = P ◦ ξ −1 ({a0 : P (ξ = a0 ) = 0}) = c a 0 ∈M c a 0 ∈M c : P (ξ = a0 ) = 0} hat also insgesamt die Wahrscheinlichkeit Die Menge {a0 ∈ M −1 0 bzgl. P ◦ ξ , derartige a0 werden wir also niemals beobachten. Zunächst ist klar, daß sämtliche Elementarereignisse m, die mit ξ = a unvereinbar sind (also m ∈ / ξ −1 ({a})) nun unmöglich geworden sind, d.h. es muß gelten P ({m}|ξ = a) = 0 für m ∈ / ξ −1 ({a}). Es wird also gelten P (ξ −1 ({a})|ξ = a) = 1, d.h. P (·|ξ = a) wird effektiv nur ein W-Maß auf der meßbaren Teilmenge Ma := ξ −1 ({a}) von M sein. (!pic!) Solche Wahrscheinlichkeitsmaße gibt es zwar zunächst sehr viele, aber aus ähnlichen Häufigkeitsbetrachtungen heraus wie weiter oben ist es plausibel anzunehmen, daß das Verhältnis der Wahrscheinlichkeiten P (M 0 ), P (M 00 ) für zwei 21 Teilmengen M 0 , M 00 von Ma mit P (M 00 ) 6= 0 durch die Neufestlegung unberührt bleiben soll, d.h. P (M 0 )/P (M 00 ) = P (M 0 |ξ = a)/P (M 00 |ξ = a). Da dies insbesondere auch für M 00 = Ma gelten soll, kommen wir zu folgender: Definition 14 Es sei P ein W-Maß auf dem meßbaren Raum [M, A], ξ eine c, A] b abbildet, wobei M c als endlich oder abzählbar Zufallsgröße, die [M, A] in [M c mit P (ξ = a) > 0 heißt unendlich angenommen wird. Für beliebiges a ∈ M P (·|ξ = a) := (P (ξ −1 ({a})))−1 P ((·) ∩ ξ −1 ({a})) bedingte Wahrscheinlichkeitsverteilung unter der Bedingung ξ = a. Wir betrachten folgenden Spezialfall: ξ sei die Indikatorfunktion einer Menge M 0 mit P (M 0 ) > 0. Dann ergibt die gerade gegebene Definition für P (·|1M 0 = 1) = (P (M 0 ))−1 P ((·) ∩ M 0 ). Statt P (·|1M 0 = 1) schreibt man P (·|M 0 ). Wir erhalten für beliebiges meßbares M 00 ⊆ M P (M 00 |M 0 ) = P (M 00 ∩ M 0 ) (wobei P (M 0 ) > 0), P (M 0 ) und nennen dies bedingte Wahrscheinlichkeit des Ereignisses M 00 unter der Bedingung M 0 . Sind insbesondere M 0 , M 00 unanbhängige Ereignisse, P (M 0 ) > 0, dann gilt offenbar P (M 00 )P (M 0 ) P (M 00 |M 0 ) = = P (M 00 ), P (M 0 ) was intuitiv vernünftig ist: Die Beobachtung eines von dem gegebenen M 00 unabhängigen Ereignisses verändert die ursprüngliche Wahrscheinlichkeit für M 00 nicht. Eine nützliche Beziehung ist die sogenannte Formel der totalen Wahrscheinlichkeit: Satz 15 Es sei (Mi )∞ i=1 eine disjunkte Zerlegung von M in meßbare Mengen, d.h. ∪i Mi = M, Mi ∩ Mj = ∅ für i 6= j. Dann gilt für beliebiges M 0 ∈ A X P (M 0 ) = P (M 0 |Mi )P (Mi ). i:P (Mi )>0 B e w e i s. Aus der Definition der bedingten Wahrscheinlichkeiten sowie der σ-Additivität von P folgt unmittelbar X i:P (Mi )>0 P (M 0 |Mi )P (Mi ) = X i:P (Mi )>0 = P( ∞ [ ∞ X i=1 (M 0 ∩ Mi )) = P (M 0 ∩ i=1 0 = P (M ). 22 P (M 0 ∩ Mi ) = P (M 0 ∩ Mi ) ∞ [ i=1 Mi ) Ebenso elementar ist der Beweis der Bayesschen Formel:22 Satz 16 Unter den Voraussetzungen des vorhergehenden Satzes gilt: P (Mi |M 0 ) = P P (M 0 |Mi )P (Mi ) , falls P (Mi ), P (M 0 ) > 0. 0 j:P (Mj )>0 P (M |Mj )P (Mj ) B e w e i s. P (M 0 |Mi )P (Mi ) 0 j:P (Mj )>0 P (M |Mj )P (Mj ) P = = P (M 0 ∩ Mi ) P (M 0 ∩ Mi ) P = ∞ 0 0 j:P (Mj )>0 P (M ∩ Mj ) j=1 P (M ∩ Mj ) P P (M 0 ∩ Mi ) = P (Mi |M 0 ). P (M 0 ) . Bemerkung: Wir haben bei der Begründung der Definition des bedingten Wahrscheinlichkeitsmaßes intuitiv mit der Vorstellung gearbeitet, daß das Eintreten eines Ereignisses mit dem Eingehen einer Information gleichzusetzen ist, die die Bewertung anderer Ereignisse -in Form eines W-Maßes- verändert. Tatsächlich läßt sich Information quantifizieren. Daß dies unabhängig vom semantischen Gehalt der Information möglich ist, ist eine der überraschenden Entdeckungen des 20. Jahrhunderts und war Grundlage der Entwicklung der mathematischen Informationstheorie durch Shannon 1948. Die Informationstheorie ist inhaltlich eng mit der Wahrscheinlichkeitstheorie verbunden und ist die mathematische Grundlage für die technische Möglichkeit, Informationen beliebigen Inhalts effektiv zu übertragen und zu speichern. Ein zentraler Begriff der Informationstheorie ist der Begriff Entropie. Wir haben mit den uns nun zur Verfügung stehenden elementaren wahrscheinlichkeitstheoretischen Begriffen ein grundlegendes Repertoire zur Konstruktion angepaßter w-theoretischer Modelle für eine schon recht große Klasse praktischer Fragestellungen zur Verfügung. Dennoch ist bei der Wahl des passenden Wahrscheinlichkeitsraumes Umsicht geboten im Hinblick auf die Frage, wie die zugrundeliegenden Informationen in die konkrete Wahl einfließen sollen. Eine Reihe von bekannten wahrscheinlichkeitstheoretischer ’Paradoxa’ beruht darauf, daß ein auf den ersten Blick naheliegender Ansatz nicht adäquat ist. Einschub: Gefangenenparadox 1 23 5 Die geometrische und die Exponentialverteilung Wir wollen nun die erarbeiteten Hilfsmittel anwenden, um zwei wichtige Klassen von Verteilungen zu definieren, die im Grunde denselben Zufalls-Mechanismus charakterisieren, nur einmal im Falle einer diskreten, N-wertigen Zufallsgröße, und im zweiten Fall einer Zufallsgröße über [R+ , B(R) ∩ R+ ]. Zunächst der einfachere diskrete Fall. Angenommen wir werfen immer wieder eine Münze, bis zum ersten Mal 0 10 erscheint. Z sei die notwendige Anzahl von Würfen. Dabei sollen 0 00 und 0 10 nicht unbedingt die gleiche Wahrscheinlichkeit haben, d.h. p := P ({0}), q := P ({1}), p + q = 1. Natürlich nehmen wir an, daß die Würfe vollständig voneinander unabhängig sind. Es ist sogar einfacher, die Wahrscheinlichkeit pn := P (Z = n), daß im nten Wurf zum ersten Mal die 1 auftaucht, direkt auszurechnen. Wir wählen aber, um für den stetigen Fall vorbereitet zu sein, einen anderen Weg. Bemerkung: Die Betrachtung jetzt ist -vorerst- heuristischer Art, denn wenn wir von einer ’Zufallsgröße’ Z reden, müßten wir ja den zugrundeliegenden W-Raum angeben, und die meßbare Abbildung Z : [M, A] 7−→ [N, P(N)]. M wäre zu wählen als Menge aller unendlichen 0 − 1-Folgen ausgestattet mit einer passenden σ-Algebra sowie einem passenden W-Maß, und Z sollte dann jeder solchen 0 − 1-Folge den Zeitpunkt des ersten Auftretens der 1 zuordnen. Diese Konstruktion werden wir erst später durchführen, wir werden aber an dieser Stelle nur inhaltliche Argumente vorbringen, die die abgeleitete Verteilung von Z spezifizieren. Nun betrachten wir P (Z = n+1|Z > n). Es ist inhaltlich ’klar’, daß die Tatsache, daß die ersten n Würfe jeweils eine 0 als Ergebnis hatten, keinen Einfluß auf den nächstfolgenden Wurf haben darf, denn wir hatten die Unabhängigkeit vorausgesetzt. Demzufolge gilt P (Z = n + 1|Z > n) = q. Also erhalten wir die Beziehung pn+1 Pn = q. 1 − i=1 pi Wir haben offenbar p1 = q, also gilt p2 = q(1 − q) = qp. Durch vollständige Induktion folgt nun leicht pn+1 = qpn , denn es gilt pn+1 = q(1 − n X i=1 pi ) = q(1 − n−1 X i=1 n−1 = pn − qpn = ppn = pqp pi − p n ) = qpn . Im diskreten Fall ist dies ein -wie gesagt etwas umständlicher- Weg, die geometrische Verteilung mit Erfolgswahrscheinlichkeit q > 0 abzuleiten: pn := q(1 − q)n−1 . Wie wir aber auf diese Weise gesehen haben, ist dies 24 der einzige Verteilungstyp (auf N), bei dem die bedingte momentane Erfolgswahrscheinlichkeit (unter der Bedingung, daß der Erfolg bisher nicht eingetreten ist) konstant q ist. Nun können wir analog den kontinuierlichen Fall behandeln. So behauptet die Physik (aus gutem Grund), daß der Zerfall eines zu irgendeinem Zeitpunkt 0 (beispielsweise der Urknall, eine Supernovaexplosion oder der Zerfall eines Vorgängeratoms) entstandenen radioaktiven Atoms dadurch charakterisiert ist, daß ein solches Atom eine von der bisher verflossenen Zeit absolut unabhängige, also konstante Tendenz besitzt, demnächst absolut zufällig zu zerfallen. Wenn also F die Verteilungsfunktion ist, die den zufälligen Zerfallszeitpunkt τ ≥ 0 beschreibt, dann gilt: a) F (t) = 0, t ≤ 0, (t) = F (h). b) F (t+h)−F 1−F (t) Mit anderen Worten, vor 0 kann das Atom nicht zerfallen sein, weil es da noch gar nicht existierte, und wenn es bis t noch nicht zerfallen ist, dann ist es wie vollkommen ’frisch’ entstanden, zerfällt also innerhalb der nächsten h Zeiteinheiten mit genau der selben W’kt, wie es während der ersten h Momente hätte zerfallen können. Man kann zeigen (Übungsaufgabe), daß die einzigen Verteilungsfunktionen auf R, die a) und b) gleichzeitig erfüllen, von der Gestalt F (t) = 1 − e−λt sind, wobei wieder -wie im diskreten Fall- λ ein Parameter ist, der von dem konkreten instabilen Isotop abhängt. Er heißt Zerfallsrate (oder (konstante) Ausfallrate, wenn es statt um ein Atom etwa um den Zeitpunkt des Versagens eines Gerätes geht, für das die Konstantheit der Rate halbwegs realistisch ist). Entsprechend heißt eine Verteilung Pλ mit der Verteilungsfunktion F (t) = Fλ (t) = 1 − e−λt Exponentialverteilung mit Ausfallrate λ. Bemerkung: In der Physik ist es üblich, statt λ den Zeitpunkt t1/2 als Parameter anzugeben ( Halbwertszeit), für den F (t1/2 ) = 1/2 gilt, so daß λ = tln1/22 . Die zur Verteilungsfunktion Fλ gehörende Verteilung ist, wie leicht zu sehen ist, absolut stetig und hat die Dichtefunktion (bzgl. des Lebesgueschen Maßes) Fλ0 (t) = fλ (t) = λe−λt , t ≥ 0. 6 Binomialverteilung, Normalverteilung und der Grenzwertsatz von Moivre-Laplace Wir hatten zu Beginn der Vorlesung im Fall des Münzwurfes eine heuristische Begründung gegeben, warum sich die Häufigkeit von ’Kopf’ bzw. ’Zahl’ auf die Wahrscheinlichkeit 1/2 ’einpegelt’, und hatten gesehen, daß dabei keine irgendwie ’lenkende, ausgleichende Kraft’ im Spiel ist, sondern daß der Anteil derjenigen Kombinationen, deren Anteil von ’Kopf’ um mehr als z.B. 5% von der Idealzahl 0, 5 abweicht, mit wachsender Wurfzahl astronomisch klein wird, etwa bei 10000 Würfen schon in der Größenordnung 10−22 liegt. Andererseits wurde bemerkt, daß bei dieser Anzahl von Versuchen N = 104 eine Abweichung um 0, 5% noch völlig normal ist. Die Wahrscheinlichkeitstheorie beantwortet die 25 Frage nach der ’Normalität’ der -unvermeidlichen- Abweichung vom Idealwert mit Hilfe des Zentralen Grenzwertsatzes und der Gaußschen Normalverteilung, und dies werden wir in einem einfachen Fall demonstrieren. Dazu betrachten wir, etwas allgemeiner, nun den oftmaligen Wurf mit einer asymmetrischen Münze, d.h. wir wollen nicht unbedingt annehmen, daß ’Kopf’ =1 b und ’Zahl’ =0 b gleichwahrscheinlich sind, sondern mit Wanrscheinlichkeit 0 < p < 1 bzw. q := 1 − p eintreten. Wir betrachten nun N unabhängige Würfe mit dieser Münze. Wie groß ist nun die Wahrscheinlichkeit, daß genau k mal 1 auftritt? Wenn wir das Ergebnis des j-ten Wurfes mit ξj , 1 ≤ j ≤ N bezeichnen, dann fragen wir also PN nach der Wahrscheinlichkeit des zusammengesetzten Ereignisses j=1 ξj = k. Es ergibt sich: N X [ ξj = k = P {ξj = 1 für j ∈ W, ξj = 0 sonst} pN : =P k j=1 = X W ⊆{1,2,...,N } #W =k W ⊆{1,2,...,N } #W =k P ({ξj = 1 für j ∈ W, ξj = 0 sonst}) , denn die angegebene Zerlegung ist eine Zerlegung in Elementarereignisse. Aufgrund der (vollständigen) Unabhängigkeit der einzelnen Würfe voneinander erhalten wir nun X X = pk q N −k = pk q N −k 1 W ⊆{1,2,...,N } #W =k W ⊆{1,2,...,N } #W =k = pk q N −k · #{W ∈ P({1, 2, ..., N }) : #W = k}. N ! Teilmengen Aus der Kombinatorik ist bekannt, daß es genau := k!(NN−k)! k mit k Elementen einer N -elementigen Menge gibt, 0 ≤ k ≤ N . Also erhalten wir N pN = pk q N −k . k k Die auf diese Weise eingeführte Wahrscheinlichkeitsverteilung auf der Menge {0, 1, ..., N } heißt Binomialverteilung mit den Parametern N, p und wird mit B(N, p) Der Name nimmt auf das Auftauchen der Binomialkoeffizi bezeichnet. N enten in dem Verteilungsgesetz Bezug. Diese diskrete Verteilung, die in k vielen Anwendungen auftaucht, ist auch Ausgangspunkt für zwei weitere sehr wichtige Verteilungstypen, die Normalverteilung und die Poissonsche Verteilung. Wir beginnen mit der Normalverteilung, die in der Stochastik sowie der Mathematischen Physik eine zentrale Rolle spielt. Dazu analysieren wir den N pk q N −k genauer. In der Analysis wird die Stirlingsche Formel Ausdruck k bewiesen, nämlich die folgende Aussage 26 Satz 17 Es gilt die Beziehung n! = √ 2πn n n e α(n), wobei α(·) eine Funktion mit der Eigenschaft limn→∞ α(n) = 1 ist. Die Stirlingsche Formel gestattet also die Berechnung der Fakultätsfunktion mit einem prozentualen Fehler, der mit wachsendemn beliebig klein wird. Daher N ! = k!(NN−k)! ist sie auch zur Analyse der Binomialkoeffizienten geeignet, k sofern sowohl N als auch k und N − k große Zahlen sind. Aus der Stirlingschen Formel folgt nach kurzer Rechnung: Lemma 18 Für alle ε > 0 existiert eine natürliche Zahl K > 0 so daß für beliebige natürliche Zahlen N, k mit k, N − k > K die Abschätzung r k(N − k) 0 k N (p ) (1 − p0 )N −k ∈ (1 − ε, 1 + ε) 2π k N erfüllt ist, wobei p0 = k/N . N D.h. läßt sich mit beliebig kleinem prozentualem Fehler durch die k p Größe ( 2πN p0 (1 − p0 )(p0 )k (1 − p0)N −k )−1 annähern, falls k, N − k groß genug sind. Wir fixieren nun ε, und folglich K. Wir wollen das Verhalten der binomialen Wahrscheinlichkeiten pN k für große N , aber für alle k bestimmen, daher müssen wir den Fall k ≤ K bzw. N − k ≤ K separat betrachten. Für k ≤ K gilt N! ≤ N (N − 1)...(N − k + 1) ≤ N k ≤ N K . k!(N − k)! Also erhalten wir K k N −k pN ≤ N K q N −K k ≤N p q NK N = K q = q √ N N √ N q ! K N q . √ Nun gilt bekanntlich für jede reelle Zahl x > 0, daß N x →N →∞ 1, und es gilt √ K √ N beliebig genau 1, falls N genügend groß sogar N N →N →∞ 1. Also ist N√Nq ist. Da q = 1 − p, p > 0, sehen wir, daß es eine Zahl K 0 > 0 gibt, so daß für N√ K q < a := 1 − p/2 < 1 wird. Wir erhalten also N > K 0 der Ausdruck N√Nq für N > K 0 und k ≤ K die Abschätzung N pN k <a , d.h. sämtliche Einzelwahrscheinlichkeiten mit kleinem k (k ≤ K) werden mit großem N exponentiell schnell klein. Der Fall N − k ≤ K ist wegen der Symmetrie der Binomialkoeffizienten völlig analog, nur tauschen p und q = 1 − p ihre Rollen. Wir erhalten 27 Lemma 19 Es existieren eine reelle Zahl a, 0 < a < 1, und eine Zahl K 0 , so daß N pN für N > K 0 k <a erfüllt ist, falls k ≤ K oder aber N − k ≤ K gilt. Nun werden wir mit Hilfe der Stirlingschen Formel zeigen, daß nicht nur die Einzelwahrscheinlichkeiten pN k mit kleinem k, sondern auch alle anderen Einzelwahrscheinlichkeiten in N exponentiell klein werden, sofern sich k/N = p0 nennenswert vom Idealwert p unterscheidet. Wir erinnern daran, daß wir ein ε > 0 fixiert hatten. Lemma 20 Es existieren ein a0 , 0 < a0 < 1, und ein K 00 , so daß 0 N pN für N > K 00 k < (a ) falls |p − k N| = |p − p0 | ≥ ε. B e w e i s. 1. Für k ≤ K oder k ≥ N − K gilt die Behauptung aufgrund des vorhergehenden Lemmas mit K 00 := K 0 , a0 := a. 2. Sei k > K, N − k > k. Wir erhalten aufgrund der Stirlingschen Formel (aus Lemma 18) pN k r k(N − k) 0 k (p ) (1 − p0 )N −k < (1 + ε) 2π N √ k N −k N p 1−p < (1 + ε) √ 1 − p0 2π p0 p0 1−p0 !N √ p 1−p . < (1 + ε) N p0 1 − p0 !−1 pk (1 − p)N −k x 1−p 1−x An dieser Stelle untersuchen wir die Funktion gp : x 7−→ xp ,x ∈ 1−x (0, 1). Es ist günstig, zum Logarithmus überzugehen. Wir erhalten ln gp (x) = x(ln p − ln x) + (1 − x)(ln(1 − p) − ln(1 − x)) und folglich durch Differentiation (ln gp (x))0 = ln p − ln x − 1 − ln(1 − p) + ln(1 − x) + 1 1 1 = ln( − 1) − ln( − 1). x p Die Ableitung von ln gp ist also streng monoton fallend in (0, 1) und nimmt für x = p den Wert 0 an. Also hat ln gp (und folglich auch g) für x = p ein (einziges) absolutes Maximum. Es gilt, wie man leicht sieht, gp (p) = 1. Daher ist die in 28 (0, 1) stetige Funktion gp (x) für |x − p| ≥ ε durch eine Konstante c < 1 nach oben beschränkt. Wir erhalten also für |p0 − p| ≥ ε: √ 1/2 N √ N √ N N N pk < (1 + ε) N c = 1+ε N . c √ √ Nun gehen wieder sowohl N 1 + ε als auch N N für N → ∞ gegen 1, es gibt Konstanten c0 < 1 und C > 0, so daß für N > C gilt 0 N pN k < (c ) . 3. Wir fügen nun Schritt 1. und 2. zusammen und erhalten mit K 00 := max(C, K 0 ), a0 := max(c0 , a) die Behauptung des Lemmas. Wir haben gesehen, daß bis auf Werte von k in der Nähe des Idealwertes pN sämtliche Einzelwahrscheinlichkeiten der Binomialverteilung B(N, p) gleichmäßig exponentiell klein sind. Daraus ergibt sich nun ein interessanter Satz 21 (Satz über große Abweichungen) Es sei ε > 0 und P das Verteilungsgesetz einer binomialverteilten Zufallsgröße ξ mit Parametern N und 0 < p < 1. Dann existiert eine Konstante 0 < d < 1 sowie ein D > 0 so daß P (|ξ − pN | ≥ N ε) < dN für N > D. B e w e i s. Wir erhalten aufgrund des vorhergehenden Lemmas für N > K 00 X X P (|ξ − pN | ≥ N ε) = pN (a0 )N k < k∈{0,1,...,N } k |N −p|≥ε ≤ N (a0 )N = ( √ k∈{0,1,...,N } k |N −p|≥ε Na0 )N , √ und nun können wir erneut die Beziehung N N → 1 sowie a0 < 1 ausnutzen, um die Behauptung des Satzes zu erhalten. Dieser Satz ist ein Spezialfall einer in der Wahrscheinlichkeitstheorie unter dem Namen Prinzip der großen Abweichungen bekannten Aussage. Wir haben gesehen, daß für jede fixierte prozentuale Abweichung vom zu erwartenden Wert pN beim Wurf von N asymmetrischen Münzen die Wahrscheinlichkeit einer solchen oder größeren Abweichung exponentiell (in N ) klein wird. Was ist nun aber für großes N eine normale Abweichung? Detaillierte Antwort darauf gibt der Grenzwertsatz von Moivre und Laplace, ein spezieller Fall des Zentralen Grenzwertsatzes der Wahrscheinlichkeitstheorie. Dieser Satz begründet auch die ausgezeichnete Rolle, die eine bestimmte Verteilung, nämlich die (Gaußsche) Normalverteilung, in der Stochastik und anderen Gebieten der Mathematik spielt. Dazu versuchen wir zuerst zu einer Vermutung über die Größenordnung typischer Abweichungen zu kommen. N 29 Wie wir gesehen haben, liegen die größten Werte von pN k in der Nähe von k ≈ pN . Wählen wir etwa k = bpN c, das heißt gleich der größten ganzen Zahl, die pN nicht übersteigt, so erhalten wir mit der Stirlingschen Formel genau wie k weiter oben wegen p0 = N ≈ p näherungsweise pN k !−1 k(N − k) 0 k 0 N −k 2π (p ) (1 − p ) ≈ pk (1 − p)N −k N −1 p 2πN p(1 − p)pk (1 − p)N −k pk (1 − p)N −k ≈ r = 1 1 √ p . N 2πp(1 − p) √1 . Die größten Werte von pN k sind also von der ungefähren Größenordnung N √ Es bedarf etwa N solcher Werte, um insgesamt 1 zu erhalten. Diese Argumentation ist nicht streng, führt aber zu der Vermutung, daß die typischen √ Abweichungen vom Idealwert pN die Größenordnung N haben könnten. Wir √ probieren daher den Ansatz k = pN + r N für fixiertes r und wollen ausrechnen, was wir für dieses (durch die reelle Zahl r) bestimmte ganze k als Näherung für pN k erhalten. Zunächst stellen wir fest,√daß auch für negatives r ≥ −R (für irgendein festes R) der Ausdruck pN + r N positiv wird, wenn N genügend groß ist, weil die Wurzelfunktion q wächst als pN . (Es gilt für q viel langsamer √ 2 r2 großes N pN + r N ≥ N (p − N ) ≥ N (p − RN ) > N (p − p2 ) = N p2 > 0, denn R2 N → 0 für N → ∞). Die Aussage ist, daß 2 r √1 √ 1 e− 2pq N 2πpq eine sehr gute Näherung für pN k ist: Satz 22 Für beliebiges R > 0 und beliebiges ε > 0 existiert ein K > 0, derart daß −1 r2 1 1 − 2pq √ √ pN ∈ (1 − ε, 1 + ε) e k N 2πpq √ falls k = pN + r N (mit |r| ≤ R) und falls N ≥ K. B e w e i s. Wir stützen uns wieder auf die Stirlingsche Formel. Wie wir eben gesehen √ haben, gibt es ein K0 , so daß für N > K0 aus |r| ≤ R folgt k = pN + r N > N p2 . Andererseits gilt analog √ q N − k = qN − r N > N > 0, 2 falls N > K1 für ein passend gewähltes K1 > 0. Daraus folgt, daß wir für genügend großes N sowohl k! als auch (N − k)! (und natürlich N !) durch die Stirlingsche Formel mit einer Genauigkeit (1 ± ε) nach oben beziehungsweise unten abgechätzt werden können. Genau wie am√Anfang von Schritt 2. in Lemma 20 erhalten wir nun für beliebiges k = pN + r N , |r| ≤ R, falls N > K2 (K2 30 passend gewählt in Abhängigkeit von R) r k(N − k) 0 k N pk 2π (p ) (1 − p0 )N −k p−k (1 − p)−(N −k) N p p0 1 − p0 N −k 2πN p0 (1 − p0 )( )k ( ) pN k p 1−p ∈ (1 − ε, 1 + ε), d.h. ∈ (1 − ε, 1 + ε). k Hier haben wir wieder der Kürze halber p0 = N = p + √rN gesetzt. Nun ist p0 für genügend großes N beliebig genau bei p (der Fehler ist für alle r, |r| ≤ R höchstens √RN ). Daher erhalten wir für passendes K3 > 0, daß für alle N > K3 p p0 k 1 − p0 N −k ) ( ) p 1−p −N p p p0 1 − p 1−p0 2πN pq ( ) ) pN ( k p0 1 − p0 pN k 2πN p(1 − p)( ∈ (1 − 2ε, 1 + 2ε), ∈ (1 − 2ε, 1 + 2ε). also (3) Wie im Beweis von Lemma 20 betrachten wir nun wieder die Funktion gp : x 7−→ 1−x p x 1−p , x ∈ (0, 1), allerdings für Werte in der Nähe von p. Wir hatten x 1−x gesehen, daß ln gp in (0, 1) die Ableitung ln( x1 − 1) − ln( p1 − 1) besitzt. Diese hat den Wert 0 für x = p. Um ln gp mit Hilfe der Taylorformel genügend genau abschätzen zu können, berechnen wir noch die zweite Ableitung und erhalten 1 (ln gp )00 (x) = x21−x , der Wert an der Stelle x = p ist also − pq . Daraus ergibt sich nach dem Taylorschen Satz: ln gp (p + h) = − 1 2 h + Dp (h)h2 2pq für genügend kleine |h| (genauer |h| < min(p, q)), wobei Dp eine stetige Funktion von h ist, die für h → 0 gegen 0 konvergiert. Wir setzen dies in (3) ein und erhalten 2 p N ( 1 −D ( √r )) r 2πN pqe 2pq p N N ∈ (1 − 2ε, 1 + 2ε), also pN k p 1 r 2 −r 2 Dp ( √r ) N pN 2πN pqe 2pq ∈ (1 − 2ε, 1 + 2ε). k Daraus ergibt sich sofort die Abschätzung p 2 1 2πN pqe 2pq r ∈ (1 − 3ε, 1 + 3ε), pN k falls N genügend groß ist (N > K4 , wobei K4 eine Konstante ist, deren Wert von R und ε abhängt). Dies ist gleichbedeutend mit der Aussage des Satzes. Wir kennen nun mit beliebig kleinem (für große N ) prozentualem Fehler die Einzelwahrscheinlichkeiten pN k der Binomialverteilung mit den Parametern N, p √ p ≤ R (R ist auch beliebig, aber der Fehler für solche Werte k so daß rk := k−N N hängt von R ab). 31 Bem. Durch eine leichte Verfeinerung des eben geführten Beweises sieht √ man, daß der Fehler sogar dann noch beliebig klein in N wird, wenn R/ 6 N gegen 0 geht. Wir können nun den angekündigten Zentralen Grenzwertsatz der Wahrscheinlichkeitstheorie für den Spezialfall binomialverteilter Zufallsgrößen beweisen: Theorem 23 (Moivre-Laplace) Es sei 0 < p < 1, q = 1 − p und (ξN )∞ N =1 eine Folge binomialverteilter Zufallsgrößen mit den Parametern N, p. Seien die Zufallsgrößen ξbN gegeben durch ξbN := √1N (ξN − pN ). Dann gilt für beliebiges x ∈ R für die Verteilungsfunktion FξbN dieser Zufallsgrößen 1 lim F b (x) = √ N →∞ ξN 2πpq Z x r2 e− 2pq dr. −∞ B e w e i s. Wir wählen zunächst zwei reelle Konstanten a < b. Sei PξbN die zu ξbN gehörende Wahrscheinlichkeitsverteilung. Dann gilt aufgrund des vorher√ p ) für beliebiges ε > 0 gehenden Satze (mit rk := k−N N X √ √ pN +a N <k≤pN +b N < PξbN ((a, b]) X < √ 2 1 1 e− 2pq rk (1 − ε) 2πpqN (4) (5) √ √ pN +a N <k≤pN +b N 2 1 1 √ e− 2pq rk (1 + ε) 2πpqN falls N genügend groß ist. Wir betrachten die Summe 1 √ N = 1 √ N X 1 2 e− 2pq rk √ √ pN +a N <k≤pN +b N X 1 2 e− 2pq rk . a<rk ≤b k∈N∪{0} Betrachten wir nun √ sämtliche Werte√rk für k = 0, 1, 2, ..., N , dann ist der kleinste mögliche Wert − N p, der größte N q, und aufeinanderfolgende Werte haben alle den Abstand √1N . Damit bildet 1 √ N X 1 2 e− 2pq rk a<rk ≤b k∈N∪{0} √ √ ab dem N , wo − N p ≤ a, N q ≥ b gilt, eine Riemannsche Approximation Rb r2 des bestimmten Riemannschen Integrals a e− 2pq dr mit der Schrittweite √1N . Der Ausdruck konvergiert demzufolge für N → ∞ gegen dieses Integral (der 32 Integrand ist eine stetige beschränkte Funktion. Nun ergibt sich aus (4) für genügend große N Z b r2 1 (1 − ε) √ e− 2pq dr < PξbN ((a, b]) 2πpq a Z b r2 1 < (1 + ε) √ e− 2pq dr. 2πpq a Daraus folgt, da ε beliebig war, die Existenz des Limes Z b r2 1 e− 2pq dr. lim PξbN ((a, b]) = √ N →∞ 2πpq a Nun gilt für beliebiges x ∈ R und beliebiges reelles a > −|x| ≤ FξbN (x) = PξbN ((−a, x]) + PξbN ((−∞, −a]) PξbN ((−a, x]) ≤ PξbN ((−a, x]) + (1 − PξbN ((−a, a])). Daher ergibt sich mit N → ∞ für beliebiges a > −|x| Z x r2 1 √ e− 2pq dr ≤ liminfFξbN (x) ≤ limsupFξbN (x) N →∞ 2πpq −a N →∞ Z x r2 1 ≤ √ e− 2pq dr 2πpq −a Z a r2 1 + 1− √ e− 2pq dr . 2πpq −a (6) (7) Wir benutzen nun folgende Aussage aus der Analysis: r2 Lemma 24 Die reelle Funktion e− 2 , r ∈ R ist auf dem Interval (−∞, +∞) √ R∞ r2 integrierbar und hat das Integral −∞ e− 2 dr = 2π. Also ist R∞ √ √ 2πpq (Substitution r → r pq), und folglich gilt Z a r2 1 √ e− 2pq dr →a→∞ 1 (8) 2πpq −a r2 −∞ e− 2pq dr = sowie √ 1 2πpq Z x −a r2 e− 2pq dr →a→∞ √ 1 2πpq Z x r2 e− 2pq dr. −∞ Nun folgt aus (6) die Aussage des Theorems, wenn wir auf beiden Seiten der Abschätzung a gegen +∞ gehen lassen. Wie wir gesehen haben, wird für große N die Verteilung der Zufallsgröße ξbN R x − r2 2p(1−p) dr beschrieimmer besser durch die Funktion F (x) := √ 1 −∞ e 2πp(1−p) ben. Diese Funktion erfüllt alle Kriterien, die wir für eine Verteilungsfunktion 33 auf R abgeleitet haben: Es gilt limx→−∞ F (x) = 0, limx→∞ F (x) = 1 (wegen (8)), die Funktion ist monoton wachsend und die Funktion ist als Integral über eine stetige Funktion stetig differenzierbar (also nicht nur rechts-stetig, wie gefordert war). Also gibt es eine Wahrscheinlichkeitsverteilung mit dieser Verteilungsfunktion. Diese Wahrscheinlichkeitsverteilung hängt von dem Parameter p ab. Sie ist der Spezialfall eines Verteilungstyps, der durch die Verteilungsfunktionen der Form Z x (r−c)2 1 Φc,σ (x) := √ e− 2σ2 dr, σ > 0, c ∈ R 2πσ −∞ p p(1 − p)). gegeben ist (in unserem Fall ist der Parameter c = 0 und σ = Die entsprechende Wahrscheinlichkeitsverteilung heißt Normalverteilung mit Mittelwert c und Standardabweichung σ. Sie wird mit N (c, σ 2 ) bezeichnet (das Quadrat σ 2 der Standardabweichung heißt Varianz der Normalverteilung). Die Funktion Φc,σ läßt sich, wie bewiesen werden kann, nicht durch irgendwelche (endlichen) Kombinationen der üblichen elementaren Funktionen (Polynome, Potenzen, Sinus, Logarithmus usw.) ausdrücken. Sie läßt sich nur auf die Verteilungsfunktion der Standardnormalverteilung N (0, 1) mit c = 0, σ = 1 zurückführen. Es gilt die Beziehung Φc,σ (x) = Φ0,1 ( x−c ), σ oder anders ausgedrückt, wenn ξ eine normalverteilte Zufallsgröße mit Mittelwert c und Standardabweichung σ ist, dann ist die abgeleitete Größe ξ−c σ standardnormalverteilt (Übungsaufgabe). Aufgrund ihrer Bedeutung in der Stochastik (insbesondere auch der Statistik) und anderen mathematischen und naturwissenschaftlichen Gebieten wurde die Funktion Φ := Φ0,1 schon lange tabelliert und ist in Programmpaketen und auf wissenschaftlichen Taschenrechnern implementiert. Wie wir gesehen haben, besitzt die Normalverteilung N (c, σ 2 ) die Dichtefunktion (bezüglich des Lebesgueschen Maßes) ϕc,σ (x) = 2 − x2 √ 1 e− 2πσ (x−c)2 2σ2 , d.h. . Diese Funktion (Gaußsche Glockenkurve) ist für x → ϕ0,1 (x) = √12π e ±∞ extrem schnell fallend, nicht nur exponentiell, sondern noch sehr viel schneller. (!pic!) Das führt dazu, daß die Annäherung von Φ an 0 bzw. 1 für x → ±∞ gleichfalls sehr viel schneller als exponentiell erfolgt. Bemerkung: Das erscheint zunächst etwas paradox, da wir gesehen hatten, daß Abweichungen der Größenordnung aN, a < p, q (vom zu erwartenden Wert pN ) bei der Binomialverteilung, als deren Limes wir die Normalverteilung erhalten haben, nur exponentiell (in N ) unwahrscheinlich sind. Es ist aber zu beachten, daß wir eine Skalierung mit dem Faktor √1N vorgenommen haben, 34 d.h. daß eine Abweichung von aN bei Zu√ 2 √ der ursprünglichen binomialverteilten −a2 N ist, fallsgröße nun einer Abweichung a N entspricht, und e−(a N) = e√ wie erwartet, nur exponentiell klein in N (aber super-exponentiell in N ). Wir fassen noch einmal zusammen, daß uns auf dem Weg von der Binomialverteilung zur Normalverteilung eine Reihe von grundlegenden Ergebnissen der Wahrscheinlichkeitstheorie (im Spezialfall) begegnet ist: Das (schwache) Gesetz der großen Zahlen: Die Wahrscheinlichkeit, daß Z die relative Häufigkeit N des Auftretens eines Ereignisses bei oftmaliger unabhängiger Wiederholung des Zufallsexperiments um mehr als ε von dessen Wahrscheinlichkeit p abweicht, geht bei beliebigem ε > 0 gegen Null. Der Satz über große Abweichungen besagt sogar, daß diese Wahrscheinlichkeit exponentiell schnell gegen Null geht. Der Satz von Moivre-Laplace als Spezialfall des Zentralen √ Grenzwertsatzes besagt, daß Abweichungen der Größenordnung 1/ N zu erwarten sind, und gibt eine√Asymptotik für die Wahrscheinlichkeit von Abweichungen der Größe r/ N in Form der Normalverteilung. Anders ausgedrückt summieren sich viele kleine unabhängige Größen der Größenordnung 1/N bei passender Skalierung zu einer normalverteilten Größe um den zu erwartenden Wert (in unserem Falle p). Schließlich haben wir gesehen, daß sogar die unskalierten Einzelwahrscheinlichkeiten in der Nähe von N p immer genauer durch die Dichtefunktion der Normalverteilung berechnet werden können (Satz 22). Eine solche Aussage heißt in der Wahrscheinlichkeitstheorie Lokaler Grenzwertsatz bzw. (etwas umständlicher) Lokaler zentraler Grenzwertsatz. Aussagen dieses Typs können mit modernen Mitteln unter weitaus allgemeineren Voraussetzungen gezeigt werden. Bevor wir uns damit beschäftigen, leiten wir noch einen weiteren wichtigen Verteilungstyp aus der Binomialverteilung ab. Wir betrachten diesmal den Fall, daß bei einer binomialverteilten Größe nicht nur der Parameter N groß ist, sondern daß p (also die Wahrscheinlichkeit des betrachteten Einzelereignisses bei N -maliger unabhängiger Wiederholung eines Experiments) entsprechend klein ist, etwa die Größe λ/N hat, λ > 0 (im Gegensatz zu den Betrachtungen zum Satz von Moivre-Laplace, wo p fixiert war). So ist etwa bei modernen Schaltkreisen die Ausfallwahrscheinlichkeit eines einzelnen Transistors, etwa im Verlaufe eines Monats, extrem klein, dafür ist die Anzahl dieser Elemente auf einem Chip recht groß, im Bereich von einigen hundert Millionen Transistorfunktionen bei aktuellen CPU’s. Eine solche Situation ist uns im Zusammenhang mit Übungsaufgabe 4.3 begegnet. 35 Wir erhalten für die Einzelwahrscheinlichkeit pN k (bezüglich B(N, λ/N )) folgende Asymptotik k N −k λ λ N N lim pk = lim 1− k N →∞ N →∞ Nk N N −k k λ λ N (N − 1)...(N − k + 1) = lim 1− k! N →∞ Nk N N −k λk λ = , lim 1 − k! N →∞ N N −j N , 0 ≤ j ≤ k − 1, λ −k wegen 1 − N →N →∞ denn jede der k Größen Weiter ergibt sich Exponentialfunktion lim pN k N →∞ = konvergiert für N → ∞ gegen 1. 1 und aufgrund der Stetigkeit de N λ N λ λk λk = lim 1 − lim eln(1− N ) k! N →∞ N k! N →∞ λk limN →∞ N (− Nλ + Nλ R( Nλ )) λk limN →∞ N ln(1− Nλ ) = . e e k! k! Hier haben wir die Taylorentwicklung der Funktion ln in der Umgebung von 1 benutzt, und R(x) ist eine stetige Funktion von x, |x| < 1 mit R(x) → 0 für x → 0. Wir erhalten also schließlich λk −λ e . = lim pN k N →∞ k! = Die (positiven) Limeswerte ∞ X k=0 P∞ λk k=0 k! λk −λ k! e summieren sich zu 1: ∞ X λk λk −λ e = e−λ = e−λ eλ = 1, k! k! k=0 ist die (für alle λ konvergierende) Taylorreihe der Funktion λ 7−→ denn eλ . Das ist durchaus nicht selbstverständlich, denn wie wir gesehen haben sind für p = const. die Limites aller Einzelwahrscheinlichkeiten pN k Null und haben als Summe ebenfalls Null. Wir erhalten also im Limes eine Wahrscheinlichkeitsverteilung (die von einem Parameter λ abhängt). Diese heißt Poissonsche Verteilung mit Parameter λ. Damit haben wir -auf recht einfache Weise im Vergleich zur Ableitung der Normalverteilung, und ohne Skalierung- folgende Aussage bewiesen: Satz 25 Die Einzelwahrscheinlichkeiten der Binomialverteilung B(N, λ/N ) konvergieren für N → ∞ gegen die entsprechenden Einzelwahrscheinlichkeiten der Poissonschen Verteilung mit Parameter λ. Diese Aussage wird manchmal Gesetz der kleinen Zahlen genannt (unter Bezug darauf, daß die Erfolgswahrscheinlichkeit p klein wird). 36 7 Erwartungswert und Varianz Nachdem wir uns mit einigen wichtigen Verteilungstypen beschäftigt haben, wollen wir nun einige allgemeine numerische Charakteristika von reellen oder vektorwertigen Zufallsgrößen (bzw. deren Verteilungen) einführen. Ausgangspunkt soll die Analogie zwischen einem Wahrscheinlichkeitsmaß und einer Massenverteilung sein. Wir können uns ein beliebiges Wahrscheinlichkeitsmaß auf dem Rd (mit der σ-Algebra der Borelschen Mengen) als Verteilung einer Gesamtmasse 1 im euklidischen Raum veranschaulichen, und wenn das Wahrscheinlichkeitsmaß eine Dichtefunktion besitzt, entspricht deren Wert der jeweiligen lokalen Massedichte. Bekanntlich spielt in der Physik in diesem Zusammenhang der Begriff des Schwerpunktes eine besondere Rolle. Entsprechende Bedeutung besitzt er auch in der Stochastik, insbesondere im Zusammenhang mit dem Gesetz der großen Zahlen. Hier heißt diese Größe Erwartungswert (oder auch Mittelwert). Betrachten wir zuerst den eindimensionalen Fall. Definition 26 Gegeben sei ein Wahrscheinlichkeitsmaß P auf [R, B(R)]. Falls die Funktion | · | : x ∈ R 7−→ |x| ∈ R+ bezüglich P integrierbar ist, also R +∞ R +∞ −∞ |x|P (dx) < +∞ gilt, heißt die reelle Zahl −∞ xP (dx) Erwartungswert des Wahrscheinlichkeitsmaßes. Entsprechend wird, für eine beliebige reellwertiR ge Zufallsgröße ξ : [M, A, P ] 7−→ [R, B(R), P ◦ ξ −1 ] die Zahl M ξ(m)P (dm) = R +∞ xP ◦ ξ −1 (dx), also der Erwartungswert des Wahrscheinlichkeitsmaßes P ◦ −∞ ξ −1 , als Erwartungswert Eξ der Zufallsgröße ξ bezeichnet, sofern |ξ(·)| integrierbar ist. Bemerkung: Der Erwartungswert einer Zufallsgröße hängt also nur von P ◦ ξ −1 ab, d.h. zwei Zufallsgrößen, die dieselbe Verteilung auf [R, B(R)] generieren, haben auch denselben Erwartungswert. Entsprechend lautet die Definition im mehrdiemensionalen Fall: d d Definition R 27 Für ein Wahrscheinlichkeitsmaß P auf [R , B(R )], das die Bedingung Rd |xj |P (dx) < +∞, j = 1, 2, ..., d, erfüllt, heißt der Vektor R RRd x1 P (dx) d x2 P (dx) Z R · xP (dx) = Rd · R x P (dx) Rd d Erwartungswert(vektor) von P . Bemerkung: Die IntegrierbarkeitRaller Koordinatenfunktionen |xj | ist gleichbedeutend mit der Endlichkeit von Rd ||x||P (dx) (Übungsaufgabe). Der Erwartungswert charakterisiert also den geometrischen Schwerpunkt eines Wahrscheinlichkeitsmaßes. Alle von uns bisher betrachteten konkreten Wahrscheinlichkeitsverteilungen besitzen einen Erwartungswert. So ist 37 der Erwartungswert der Zweipunktverteilung, die der 1 die Wahrscheinlichkeit p ∈ [0, 1] und der 0 die Wahrscheinlichkeit 1−p = q zuweist, ist 1·p+0·q = p R1 der Erwartungswert der Gleichverteilung auf [0, 1] ist 1/2 = 0 xdx PN der Erwartungswert der Gleichverteilung auf {1, 2, ..., N } ist N2+1 = N1 i=1 i der Erwartungswert P der geometrischen Verteilung mit ErfolgswahrscheinlichP∞ P∞ ∞ keit p ist p−1 = i=1 jp(1 − p)j−1 = p i=1 jq j−1 = p p12 ( i=1 j(−h)j−1 ist die Taylorreihe der Funktion x12 , entwickelt an der Stelle 1, setze h = −q) der Erwartungswert mit Ausfallrate λ ist entspre- R ∞der Exponentialverteilung R∞ ∞ chend λ−1 = 0 xλe−λx dx = λ 0 xe−λx dx = λ −λ−1 xe−λx − λ−2 e−λx 0 (also ist sowohl bei der diskreten als auch der stetigen Wartezeitverteilung die Ausfallrate reziprok zur mittleren Wartezeit) der Erwartungswert der Binomialverteilung B(N, p) ist N p, denn N N X X N −1 N pk q N −k pk q N −k = N Np = k k−1 k k=0 = Np N X N −1 k−1 k=1 = N p(p + q) N −1 k=1 pk−1 q N −1−(k−1) = N p = N p1 N −1 X k=0 N −1 , N −1 k pk q N −1−k der Erwartungswert ist also der Wert, der genau dem Idealwert der Anzahl des Auftretens der 1 (s. voriges Kapitel) entspricht, bei dem die relative Häufigkeit genau p ist (N p ist natürlich i.A. keine ganze Zahl) der Erwartungswert der Normalverteilung N (c, σ 2 ) ist c: Z +∞ (x−c)2 1 √ xe− 2σ2 dx 2πσ −∞ Z +∞ Z +∞ (x−c)2 (x−c)2 1 1 − 2σ2 (x − c)e e− 2σ2 dx = √ dx + c √ 2πσ −∞ 2πσ −∞ Z +∞ x2 1 xe− 2σ2 dx + c · 1 = c, = √ 2πσ −∞ x2 denn die Funktion f (x) = xe− 2σ2 ist ungerade (f (−x) = −f (x)) und absolut integrierbar, daher ist ihr Integral 0 der Erwartungswert der Poissonschen Verteilung mit Parameter λ ist λ: ∞ X λk k e−λ k! = λ k=0 = λ ∞ X λk−1 −λ e (k − 1)! k=1 ∞ X k=0 38 λk −λ e =λ k! Die hauptsächliche Relevanz des Erwartungswertes liegt, wie wir noch sehen werden, im Gesetz der großen Zahlen begründet, ansonsten ist er natürlich nur ein einfaches, grobes Charakteristikum einer Verteilung. Er erlaubt aber im Falle einer positiven Zufallsgröße die Abschätzung der Wahrscheinlichkeit großer Werte: Lemma 28 (Markovsche Ungleichung) Es sei P ein Wahrscheinlichkeitsmaß auf [R+ , B(R) ∩ R+ ] mit Erwartungswert E(P ). Dann gilt für alle c > 0 P ([c, ∞)) ≤ E(P ) . c B e w e i s. Es gilt, falls der Erwartungswert von P existiert, Z Z Z ∞ 1 ∞ 1 ∞ cP (dx) ≤ xP (dx) P ([c, ∞)) = P (dx) = c c c c c Z 1 ∞ E(P ) ≤ xP (dx) = . c 0 c Lemma 29 Der Erwartungswert der Summe zweier reellwertiger (vektorwertiger) Zufallsgrößen ξ1 , ξ2 (über demselben Grundraum [M, A, P ]) existiert, wenn beide Zufallsgrößen einen Erwartungswert besitzen, und ist gleich der Summe der beiden Erwartungswerte. B e w e i s. Wir erinnern zunächst daran, daß mit ξ1 , ξ2 auch [ξ1 , ξ2 ] eine Zufallsgröße über [M, A, P ] ist (d.h. eine meßbare Abbildung). Die Abbildung [x1 , x2 ] 7−→ x1 + x2 ist ebenfalls meßbar (von [R2 , B(R2 )] in [R, B(R)] bzw. von [R2d , B(R2d )] in [Rd , B(Rd )] im Vektorfall), denn sie ist stetig (Kurs Analysis). Die Verknüpfung meßbarer Abbildungen ist meßbar. Also ist ξ1 + ξ2 eine Zufallsgröße. Nun gilt Z E(ξ 1 + ξ2 ) = (ξ1 (m) + ξ2 (m))P (dm) Z ZM ξ2 (m)P (dm) ξ1 (m)P (dm) + = M M = Eξ 1 + Eξ2 . Während der Erwartungswert der Summe von Zufallsgrößen immer die Summe der Erwartungswerte ist, gilt die entsprechende Aussage für das Produkt im Allgemeinen nur unter der zusätzlichen Annahme der Unabhängigkeit: Lemma 30 Der Erwartungswert des Produkts zweier unabhängiger reellwertiger Zufallsgrößen ξ1 , ξ2 (über demselben Grundraum [M, A, P ]) existiert, wenn beide Zufallsgrößen einen Erwartungswert besitzen, und ist gleich dem Produkt der beiden Erwartungswerte. 39 B e w e i s. Wir hatten gesehen, daß zwei Zufallsgrößen ξ1 , ξ2 über demselben Grundraum [M, A, P ] genau dann unabhängig sind, wenn P ◦ [ξ1 , ξ2 ]−1 = P ◦ ξ1 −1 × P ◦ ξ2 −1 erfüllt ist. Folglich erhalten wir mit dem Satz von Fubini (Maßtheorie) Z Eξ1 ξ2 = ξ1 (m)ξ2 (m)P (dm) M Z = x1 x2 (P ◦ ξ1 −1 × P ◦ ξ2 −1 )(d[x1 , x2 ]) R2 Z Z −1 = x2 (P ◦ ξ2 )(dx2 ) x1 (P ◦ ξ1 −1 )(dx1 ) R R Z Z −1 = x1 (P ◦ ξ1 )(dx1 ) x2 (P ◦ ξ2 −1 )(dx2 ) R R Z Z = ξ1 (m)P (dm) ξ2 (m)P (dm) = Eξ 1 Eξ2 . M M Bemerkung: Der Satz von Fubini besagt, daß für zwei σ-endliche Maße µ1 , µ2 die Identität Z f (m1 , m2 )(µ1 × µ2 )(d[m1 , m2 ]) M1 ×M2 Z Z f (m1 , m2 )µ1 (dm1 ) µ2 (dm2 ) = M2 M1 R für jede meßbare Funktion f : M1 ×M2 7−→ R erfüllt ist, für die M1 |f (m1 , m2 )|µ1 (dm1 ) für µ2 -fast alle m2 existiert und als Funktion von m2 bezüglich µ2 integrierbar ist. Definition 31 Wenn für zwei -nicht unbedingt unabhängige- Zufallsgrößen ξ1 , ξ2 der Erwartungswert Eξ1 ξ2 existiert und die Relation Eξ1 ξ2 = Eξ1 Eξ2 erfüllt, dann heißen diese Größen unkorreliert. Bemerkung. Die Unkorreliertheit ist eine schwächere Eigenschaft als die Unabhängigkeit, denn es gibt unkorrelierte Zufallsgrößen, die abhängig sind (Übungsaufgabe). Wie wir festgestellt haben, charakterisiert der Erwartungswert (falls er existiert) nur den ’Schwerpunkt’ einer Zufallsgröße ξ, macht aber i.A. keine Angabe darüber, wie sehr diese Zufallsgröße von diesem Schwerpunkt abweichen kann (für positive Zufallsgrößen gibt die Markovsche Ungleichung allerdings eine grobe Abschätzung für die Wahrscheinlichkeit solcher Abweichungen, während ohne diese Positivitätsbedingung keinerlei allgemeingültige Abschätzung aus dem Erwartungswert alleine möglich ist). Es liegt aufgrund der Markovschen Ungleichung nahe, die (abgeleitete) positive Zufallsgröße ξ 0 := (ξ − Eξ)2 zu betrachten, also das Quadrat der Abweichung der betrachteten Zufallsgröße ξ von ihrem eigenen Erwartungswert. Falls 40 ξ 0 einen Erwartungswert besitzt -also große positive bzw. negative Abweichungen genügend unwahrscheinlich sind- heißt diese Größe Varianz von ξ und wird mit Varξ bezeichnet. Lemma 32 Eine reellwertige Zufallsgröße ξ : [M, R besitzt genau R A, P ] 7−→ 2 2 dann eine (endliche) Varianz Varξ, wenn Eξ = M (ξ(m)) P (dm) < +∞ (ξ ist quadratisch integrierbar) erfüllt ist, und es gilt die Beziehung Varξ = Eξ 2 − (Eξ)2 . B e w e i s. Zunächst impliziert sowohl die Existenz der Varianz (nach Definition von ξ 0 ) als auch die Endlichkeit von Eξ 2 (wegen +∞ > Eξ 2 > E|ξ|) die Integrierbarkeit von ξ, d.h. die Existenz von E|ξ|. Dann ist wegen der Beziehung 0 ≤ ξ 0 = (ξ − Eξ)2 = ξ 2 − 2ξEξ + (Eξ)2 ≤ ξ 2 + 2|ξ| · |Eξ| + (Eξ)2 die Größe ξ 0 genau dann (bezüglich P ) integrierbar, wenn ξ 2 integrierbar ist (nach Lemma 29). In diesem Falle gilt Eξ 0 = E(ξ − Eξ)2 = E(ξ 2 − 2ξEξ + (Eξ)2 ) = Eξ 2 − 2EξEξ + (Eξ)2 = Eξ 2 − (Eξ)2 . Unmittelbar aus der Markovschen Ungleichung ergibt sich nun eine erheblich bessere Abschätzung für Abweichungen vom Mittelwert, ohne Positivitätsbedingung (aber um den Preis der Existenz der Varianz). Falls der Erwartungswert Eξ existiert, ist zumindest das Integral R Bemerkung. (ξ(m) − Eξ)2 µ(dm) =Var(ξ) als Integral über eine positive meßbare Funktion immer definiert, allerdings u.U. unendlich. Lemma 33 (Chebyschevsche Ungleichung) Es sei ξ : [M, A, P ] 7−→ R eine reellwertige Zufallsgröße mit Eξ 2 < +∞. Dann gilt für beliebiges c > 0 P (|ξ − Eξ| ≥ c) ≤ Varξ . c2 B e w e i s. Wir erhalten unter der angegebenen Bedingung, also falls die Varianz exitiert, aus der Markovschen Ungleichung P (|ξ − Eξ| ≥ c) = P ((ξ − Eξ)2 ≥ c2 ) ≤ E(ξ − Eξ)2 Varξ = 2 . 2 c c Die Varianz ist also (über die Chebyschevsche Ungleichung) ein Maß für die Wahrscheinlichkeit von Abweichungen vom Mittelwert (Streuung) einer reellen Zufallsgröße. Solche Abweichungen sind -falls die Varianz existiert- reziprok quadratisch in c unwahrscheinlich, während die Markovsche Ungleichung nur -und auch nur für positive Zufallsgrößen- ein reziprok proportionales Abfallen der Wahrscheinlichkeit großer Werte liefert. Sämtliche von uns bisher betrachteten konkreten Wahrscheinlichkeitsverteilungen besitzen auch eine Varianz. So ist für eine Zufallsgröße ξ 41 die Varianz im Fall der Zweipunktverteilung p · 12 + q · 02 − (Eξ)2 = p − p2 = pq R1 die Varianz der Gleichverteilung auf [0, 1] ist 1/12 = 0 x2 dx − ( 12 )2 = 13 − 41 die Varianz der Gleichverteilung auf {1, 2, ..., N } ist 2 N N +1 (N + 1)(2N + 1) (N + 1)2 1 X 2 N2 − 1 = i − = − 12 N i=1 2 6 4 die Varianz der geometrischen Verteilung mit Erfolgswahrscheinlichkeit p ist q p2 die Varianz der Exponentialverteilung mit Ausfallrate λ ist entsprechend λ−2 die Varianz der Binomialverteilung B(N, p) ist N pq die Varianz der Normalverteilung N (c, σ 2 ) ist σ 2 : Z +∞ (x−c)2 1 (x − c)2 e− 2σ2 dx 2πσ −∞ Z +∞ Z +∞ x2 x2 1 1 2 − 2σ 2 √ dx = √ x e x · xe− 2σ2 dx 2πσ −∞ 2πσ −∞ h Z +∞ i+∞ x2 x2 1 − 2σ 2 2 − 2σ2 2 √ dx e +σ −x · σ e −∞ 2πσ −∞ Z +∞ x2 1 √ 0 + σ2 e− 2σ2 dx 2πσ −∞ 2 σ √ = = = = die Varianz der Poissonschen Verteilung mit Parameter λ ist λ. Während der Erwartungswert immer additiv ist, ist die Varianz der Summe zweier Zufallsgrößen (mit endlichem Varianz) nur dann gleich der Summe der Varianzen, wenn die Größen unkorreliert sind (also insbesondere, wenn sie unabhängig sind): Satz 34 Für zwei Zufallsgrößen ξ1 , ξ2 (über demselben Wahrscheinlichkeitsraum) mit endlichen Erwartungswerten gilt Var(ξ1 + ξ2 ) =Var(ξ1 )+ Var(ξ2 ) genau dann, wenn Eξ1 ξ2 = Eξ1 Eξ2 erfüllt ist. B e w e i s. Aus der Endlichkeit der Varianzen folgt die Existenz von Eξ1 ξ2 (dies ist das Skalarprodukt in L2 (µ)). Außerdem liegt mit ξ1 und ξ2 auch ξ1 + ξ2 42 in L2 (µ), besitzt also eine Varianz. Nun gilt Var(ξ1 + ξ2 ) − (Var(ξ1 ) + Var(ξ2 )) = E (ξ1 + ξ2 − Eξ1 − Eξ2 )2 2 2 −E (ξ1 − Eξ1 ) − E (ξ2 − Eξ2 ) = Eξ12 + Eξ22 + 2Eξ1 ξ2 − (Eξ1 )2 − (Eξ2 )2 − 2Eξ1 Eξ2 −Eξ12 + (Eξ1 )2 − Eξ22 + (Eξ2 )2 = 2Eξ1 ξ2 − 2Eξ1 Eξ2 . 7.1 Kovarianzmatrix Auch die Varianz besitzt eine mehrdimensionale Verallgemeinerung (den Erwartungswert hatten wir ja gleich zu Beginn auch im Rd definiert). Es seien ξ eine Zufallsgröße über [M, A, P ] mit Werten im Rd , und sie sei quadratisch integrierbar, d.h. E||ξ||2 < ∞. Dann heißt die Matrix Σ2 (ξ) := (ki,j )di,j=1 mit den Einträgen ki,j := E(ξi − Eξi )(ξj − Eξj ) Kovarianzmatrix zu ξ. Wir können auch kürzer Σ(ξ) = E(ξ − Eξ)(ξ − Eξ)0 schreiben, wobei (ξ − Eξ)0 den zu (ξ − Eξ) konjugierten Vektor (Zeilenvektor mit denselben Einträgen) bezeichnet. In der Hauptdiagonalen der Kovarianzmatrix stehen die Varianzen E(ξi − Eξi )2 der Koordinaten von ξ. Da Eξi2 ≤ E||ξ||2 , ist die Endlichkeit dieser Werte aufgrund der gestellten Bedingung gesichert. Aus der Cauchy-Schwarzschen Ungleichung folgt nun auch mit Z |(ξi (m) − Eξi )(ξj (m) − Eξj )|P (dm) ZM = |ξi (m) − Eξi | · |ξj (m) − Eξj |P (dm) M ≤ = Z M (ξi (m) − Eξi )2 P (dm) p Varξi · Varξj < +∞ 1/2 Z M (ξj (m) − Eξj )2 P (dm) die Endlichkeit sämtlicher Kovarianzen sowie wegen Z | (ξi (m) − Eξi )(ξj (m) − Eξj )P (dm)| Z M ≤ |(ξi (m) − Eξi )(ξj (m) − Eξj )|P (dm) pM Varξi · Varξj ≤ die Beziehung |ki,j | ≤ p Varξi · Varξj . 43 1/2 Die Kovarianzmatrix hat die Eigenschaft, daß für jeden Vektor x ∈ Rd die Ungleichung x0 Σ2 (ξ)x ≥ 0 erfüllt ist, denn es gilt x0 Σ2 (ξ)x = d X i,j=1 = E xi xj E(ξi − Eξi )(ξj − Eξj ) d X i,j=1 0 xi xj (ξi − Eξi )(ξj − Eξj ) = Ex (ξ − Eξ)(ξ − Eξ)0 x 2 = E hξ − Eξ, xi ≥ 0. Hier bezeichnet h·, ·i das Skalarprodukt im Rd und wir haben benutzt, daß der Erwartungswert der Summe von Zufallsgrößen gleich der Summe der Erwartungswerte ist. Die Kovarianzmatrix ist also stets positiv-semidefinit. Wie wir gleich sehen werden, ist umgekehrt auch jede positiv-semidefinite Matrix Kovarianzmatrix zu einer (passend gewählten) Zufallsgröße. 7.2 Das schwache Gesetz der großen Zahlen im Fall endlicher Varianz Der Erwartungswert einer Zufallsgröße ist nicht nur ein einfaches numerisches Charakteristikum, sondern er bestimmt unter sehr allgemeinen Voraussetzungen das Verhalten der Summe wenn viele solche Größen addiert werden. Wir hatten das im allereinfachsten Fall einer Zweipunkt-Verteilung auf {0, 1} (BernoulliVerteilung) schon festgestellt: Für beliebiges positives ε wird es bei fortgesetzter unabhängiger Wiederholung des Versuchs immer PNwahrscheinlicher, daß die Anzahl der ’Erfolge’ (Ergebnis 1), also die Summe i=1 ξi in dem Intervall [N (p−ε), N (p+ε)] liegt. Dazu hatten wir die Verteilung der Summe charakterisiert (die Binomialverteilung B(N, p), deren Erwartungswert N p ist) und deren Einzelwahrscheinlichkeiten für großes N abgeschätzt. Die Chebyschevsche Ungleichung erlaubt uns nun, eine solche Aussage recht allgemein zu beweisen. Die betreffenden Zufallsgrößen müssen nicht einmal dieselbe Verteilung besitzen, und sie müssen auch nicht vollständig unabhängig sein, sondern nur paarweise unkorreliert. Allerdings müssen sie, damit die Ungleichung einen Ansatzpunkt hat, alle eine (endliche) Varianz Var(ξi ) aufweisen und wir werden zusätzlich die Existenz einer endlichen oberen Schranke für alle diese Varianzen fordern. Satz 35 (Schwaches Gesetz der großen Zahlen bei beschränkter Varianz)) Es sei {ξi }∞ i=1 eine Folge reeller Zufallsgrößen über einem gemeinsamen Wahrscheinlichkeitsraum [M, A, P ]. Es existiere für alle i der Erwartungswert und die Varianz der Zufallsgröße und es sei supi∈N Var(ξi ) < +∞. Die Größen seien unkorreliert, d.h. für beliebige i 6= j sei Eξi ξj = Eξi Eξj . Dann gilt für beliebiges 44 ε>0 lim P N →∞ ! N N 1 X 1 X ξi − Eξi > ε = 0. N N i=1 i=1 P B e w e i s. Wir bezeichnen mit c das supi∈N Var(ξi ). Der Mittelwert N1 N i=1 ξi 1 PN 1 PN hat den Erwartungswert N i=1 Eξi . Mit sämtlichen ξi liegt auch N i=1 ξi in L2 (P ), besitzt also eine (endliche) Varianz: Var N 1 X ξi N i=1 ! N 1 X ξi N i=1 = E = !2 − N 1 X Eξi N i=1 N N X X 1 2 ξi ξj ξ + 2 E i N 2 i=1 i,j=1 − i6=j !2 N N X X 1 (Eξi )2 + 2 Eξi Eξj N 2 i=1 i,j=1 i6=j = 1 N2 N X i=1 Var(ξi ) ≤ cN c = . N2 N Nun müssen wir nur noch die Chebyschevsche Ungleichung anwenden: ! N N 1 X 1 X ξi − Eξi > ε P N N i=1 i=1 P Var N1 N i=1 ξi c ≤ −→ 0. ≤ ε2 N ε2 N →∞ Der einfache Beweisgedanke ist also der, daß sich die Varianzen der unkorrelierten als Maß ihrer Streuung bei der Summation addieren, so daß P Größen N Var i=1 ξi linear wächst (höchstens wie N c), jedoch bei der Mittelung mit 1 1 N multipliziert sich die Streuung mit N 2 , so daß die erwartete Streuung immer kleiner wird. Trotz des einfachen Beweises (und des Namens ’schwaches Gesetz’, der nur P darauf hinweist, daß man in vielen Fällen sogar die Konvergenz von N1 N i=1 ξi beweisen kann) ist dies eine recht starke und wichtige Aussage. Die Existenz der Varianzen macht ihren Beweis einfach. Wir werden sehen, daß auch die (genauere) Aussage des zentralen Grenzwertsatzes auf der Existenz der Varianzen fußt. 45 7.3 Mehrdimensionale Normalverteilung Wir wollen nun auch die Klasse der Normalverteilungen auf den mehrdimensionalen Fall verallgemeinern. Zunächst betrachten wir eine endliche Folge {ξi }di=1 unabhängiger standard-normalverteilter Zufallsgrößen. Das Verteilungsgesetz des Vektors ξ1 ξ2 · , · ξd d.h. das Produktmaß N (0, 1) × ... × N (0, 1) (d mal) wird als d-dimensionale Standardnormalverteilung N (0, I) bezeichnet. Hier steht 0 für den Nullvektor als Erwartungswert und I für die Einheitsmatrix, die die Kovarianzmatrix dieser Verteilung ist. Aus dem Satz von Fubini folgt, daß N (0, I) die Dichtefunk||x||2 tion (2π)1d/2 e− 2 bezüglich des d-dimensionalen Lebesgueschen Maßes besitzt. Um den allgemeinen Fall untersuchen zu können, benötigen wir eine Aussage darüber, wie sich die Wahrscheinlichkeitsdichte bei einer linearen Transformation berechnet. Lemma 36 Es sei P ein absolut stetiges Wahrscheinlichkeitsmaß auf [Rd , B(Rd )] mit der Dichtefunktion f und A eine invertierbare lineare Abbildung des R d in sich. Die Verteilung von A, aufgefaßt als Zufallsgröße über dem Wahrscheinlichkeitsraum [Rd , B(Rd ), P ], ist absolut stetig mit der Dichtefunktion fA := det A−1 f (A−1 (·)). B e w e i s. Wir müssen zeigen, daß sich die Wahrscheinlichkeit eines beliebigen Menge X ∈ B(Rd ) durch R Integration von fA über diese Menge ergibt. Wir erhalten P ◦ A−1 (X) = A−1 X f (x)dx und wenden nun die Substitution x → y = Ax an. Dabei multipliziert sich das Lebesguesche Maß mit det A−1 und es ergibt sich Z P ◦ A−1 (X) = det A−1 f (A−1 y)dy. X Bemerkung. Wenn A nicht invertierbar ist, ist ARd =ImA ein linearer Unterraum von Rd kleinerer Dimension, dessen Lebesguesches Maß Null ist, aber das Maß bezüglich P ◦ A−1 ist 1. In diesem Fall hat also die Zufallsgröße A eine singuläre Verteilung und somit keine Dichtefunktion. Wenden wir solch eine lineare Transformation auf eine d-dimensionale standardnormalverteilte Zufallsgröße ξ an, so ergibt sich nun als Dichtefunktion 1 (2π)d/2 det A e− ||A−1 x||2 2 = = 1 (2π)d/2 p 46 det A 1 e− (2π)d det AA0 x0 (A−1 )0 A−1 x 2 e− x0 (AA0 )−1 x 2 . Je nach Wahl von A ist Σ2 = AA0 eine beliebige positiv-definite (also symmetrische) Matrix (jede positiv definite Matrix B läßt sich (eindeutig) in der Form B = C 2 = C · C = C 0 C schreiben, wobei C wiederum positiv-definit ist). Man definiert die zentrierte d-dimensionale Normalverteilung N (0, Σ2 ) mit Kovarianzmatrix Σ2 dementsprechend als diejenige Verteilung, die die x0 Σ−2 x e− 2 Dichtefunktion √ 1d besitzt. Tatsächlich ist Σ2 die Kovarianz(2π) det Σ matrix dieser Verteilung, denn Σ2 (A) Z ||x||2 1 (Ax)(Ax)0 e− 2 dx = E(Aξ)(Aξ)0 = d/2 (2π) Rd Z ||x||2 1 = Axx0 A0 e− 2 dx (2π)d/2 Rd Z 2 1 0 − ||x|| 2 dx A0 = A xx e (2π)d/2 Rd = AIA0 = AA0 = Σ2 . Wenn wir nun noch eine Verschiebung um einen beliebigen Vektor c ∈ Rd zulassen, kommen wir zur Definition 37 Es sei c ∈ Rd und Σ2 eine beliebige positiv definite lineare Abbildung des Rd in sich. Die Wahrscheinlichkeitsverteilung mit der Dichtefunktion p 1 (2π)d det Σ2 e− (x−c)0 Σ−2 (x−c) 2 heißt Normalverteilung mit Erwartungswert c und Kovarianzmatrix Σ2 und wird mit N (c, Σ2 ) bezeichnet. Bemerkung. Wenn A nicht invertierbar ist, dann ist AA0 nur positiv-semidefinit und det AA0 = det Σ2 = 0. In diesem Fall ist der Träger von P ◦ A−1 der lineare Unterraum ARd =ImA, d.h. P ◦ A−1 ist singulär und man spricht von einer ausgearteten Normalverteilung. Die Kovarianzmatrix ist immer noch AA 0 , denn die obige Rechnung setzt nicht voraus, daß A invertierbar ist. Da sich jede positiv-semidefinite Matrix als AA0 schreiben läßt, sehen wir, daß alle positivsemidefiniten Matrizen als Kovarianzmatrizen von Zufallsgrößen auftauchen, nämlich z.B. als Kovarianzmatrizen von (u.U. ausgearteten) Normalverteilungen. Wir hatten in Übungsaufgabe 7.2 gesehen, daß im eindimensionalen Fall die Summe zweier unabhängiger normalverteilter Zufallsgrößen wieder normalverteilt ist, mit der Summe der entsprechenden Erwartungswerte und Varianzen. Diese Aussage gilt in beliebigen Dimensionen: Satz 38 Es seien ξ1 , ξ2 zwei unabhängige normalverteilte Zufallsgrößen, ξi besitze den Erwartungswert ci und die Kovarianzmatrix Σ2i , i = 1, 2. Dann ist ξ1 +ξ2 normalverteilt mit Erwartungswert c1 +c2 und Kovarianzmatrix Σ21 +Σ22 . 47 B e w e i s. Es sei C ∈ B(Rd ) eine meßbare Menge. Dann gilt P (ξ1 + ξ2 ∈ = C) 1 1 p · d (2π) det Σ21 det Σ22 Z −2 −2 (x1 −c1 )0 Σ1 (x1 −c1 )+(x2 −c2 )0 Σ2 (x2 −c2 ) 2 (µL × µL )(d(x1 , x2 )) e− 2d (x1 ,x2 )∈R x1 +x2 ∈C = 1 1 p (2π)d det Σ21 det Σ22 Z −2 −2 x 0Σ x +x 0 Σ x − 1 1 12 2 2 2 (µL × µL )(d(x1 , x2 )). · e 2d (x1 ,x2 )∈R x1 +x2 +c1 +c2 ∈C Hier haben wir die Verschiebungsinvarianz des d-dimensionalen Lebesgueschen Maßes ausgenutzt, d.h. die Invarianz unter der Substitution x 7−→ x + c. Nun betrachten wir die Matrix 2 Σ1 0 , Σ2 = 0 Σ22 (2d) benutzen, daß das 2d-dimensionale Lebesguesche Maß µL das Produktmaß µL × µL der beiden d-dimensionalen Lebesguesche Maße ist und erhalten Z 0 −2 1 1 − x Σ2 x (2d) √ = µL (dx). e 2d (2π)d det Σ2 x=(x1 ,x2 )∈R x1 +x2 +c1 +c2 ∈C x1 x1 + x 2 1 2d √ 7−→ 2 , die Wir betrachten im R die Substitution x2 x1 − x 2 I I durch die symmetrische orthogonale Matrix T := √12 = T −1 beI −I (2d) werkstelligt wird. Dabei multipliziert sich µL mit det T = 1, bleibt also unverändert. Es ergibt sich Z 0 −1 −2 −1 1 1 − x T Σ2 T x (2d) √ e µL (dx). 2d (2π)d det Σ2 √x=(x1 ,x2 )∈R 2x1 +c1 +c2 ∈C Nun gilt Σ−2 T : = = = : = T Σ−2 T −2 1 I I I I Σ1 0 I −I 0 Σ−2 2 I −I 2 −2 −2 1 I I Σ1 Σ1 −2 −2 I −I Σ −Σ 2 2 2 −2 −2 1 Σ−2 Σ1 − Σ−2 1 + Σ2 2 −2 2 Σ−2 Σ−2 2 1 − Σ2 1 + Σ2 1 R+ R− , = 2 R− R+ 48 −2 wobei R+ := Σ−2 als Summe zweier positiv definiter Matrizen wieder 1 + Σ2 positiv definit, also invertierbar ist. Daher gilt mit dem Satz von Fubini, mit 1 √ 1 Z := (2π) d det Σ2 P (ξ1 + ξ2 ∈ C) Z = Z = Z = Z Z Z Z x=(x1 ,x2 )∈R2d √ 2x1 +c1 +c2 ∈C √ 2x1 +c1 +c2 ∈C √ 2x1 +c1 +c2 ∈C e− −2 x0 Σ x T 2 Z Z (2d) µL (dx) −2 x0 Σ x T 2 e − e − 14 (x01 R+ x1 +2x01 R− x2 +x02 R+ x2 ) dx2 dx1 Rd Rd 1 0 1 0 dx2 dx1 −1 = Z √ e − 4 x 1 R+ x 1 + 4 x 1 R− R+ R− x 1 2x1 +c1 +c2 ∈C Z +x02 )R+ (x2 +R−1 R− x 1 ) − 14 (x01 R− R−1 + + · dx2 dx1 . e Rd −1 Im inneren Integral könne wir den Summanden x01 R− R+ weglassen (mit Hilfe der Substitution) −1 x2 7−→ x2 − x01 R− R+ und erhalten P (ξ1 + ξ2 ∈ = = = = C) Z −1 1 0 1 0 e − 4 x 1 R+ x 1 + 4 x 1 R− R+ R− Z √ 2x +c +c ∈C Z 1 1 2 1 0 · e− 4 x2 R+ x2 dx2 dx1 Rd Z p −1 1 0 1 0 Z(2π)d/2 det R+ √ e− 4 x1 R+ x1 + 4 x1 R− R+ R− dx1 Z 2x1 +c1 +c2 ∈C p −1 1 0 Z(2π)d/2 det R+ √ e− 4 x1 (R+ −R− R+ R− )x1 dx1 2x1 +c1 +c2 ∈C Z −1 1 0 1 e− 2 x1 4 (R+ −R− R+ R− )x1 dx1 . Z0 x1 +c1 +c2 ∈C √ Hier haben wir in der letzten Zeile x1 7−→ 2x1 substituiert und den Faktor Z 0 nicht ausgerechnet, der Wert ergibt sich später einfacher. Für die im Exponenten 49 auftauchende Matrix ergibt sich 1 −1 R− ) Σ21 + Σ22 · (R+ − R− R+ 4 1 2 −2 −1 −2 −2 = Σ1 + Σ22 R+ − (Σ−2 1 − Σ2 )R+ (Σ1 − Σ2 ) 4 1 −1 −2 −2 2 −2 = Σ21 + Σ22 R+ − (−Σ21 Σ−2 2 + Σ2 Σ1 )R+ (Σ1 − Σ2 ) 4 −1 −2 1 −2 Σ21 + Σ22 R+ + (Σ21 − Σ22 ) Σ−2 R+ (Σ1 − Σ−2 = 1 + Σ2 2 ) 4 1 −2 = Σ21 + Σ22 R+ + (Σ21 − Σ22 )(Σ−2 1 − Σ2 ) 4 1 −2 −2 −2 2 2 = Σ21 + Σ22 (Σ−2 1 + Σ2 ) + (Σ1 − Σ2 )(Σ1 − Σ2 ) = I, 4 −1 −1 also ist 14 (R+ − R− R+ R− ) = Σ21 + Σ22 , d.h. P (ξ1 + ξ2 ∈ C) = Z 0 = Z0 Z Z 2 −1 e− 2 x1 (Σ1 +Σ2 ) 1 0 2 x1 +c1 +c2 ∈C 2 −1 e− 2 (x1 −c1 −c2 ) (Σ1 +Σ2 ) 0 1 2 x1 dx1 (x1 −c1 −c2 ) dx1 . x1 ∈C Wir sehen, daß ξ1 + ξ2 wieder normalverteilt ist, nämlich gemäß N (c1 + c2 , Σ21 + Σ22 ), d.h. Erwartungswerte und Varianzen haben sich addiert. (Die Konstante Z 0 muß den Wert 1 Z0 = p d (2π) det (Σ21 + Σ22 ) haben, damit das Gesamtintegral 1 ergibt.) 8 Ein Anwendungsbeispiel für das Gesetz der großen Zahlen: Der Kodierungssatz von Shannon Eine interessante und auch praktisch wichtige Anwendung findet das Gesetz der großen Zahlen in der Informationstheorie, indem es die Rolle der Entropie als ein Maß für den Informationsgehalt begründet. Interessanterweise wurde erst ganz zu Beginn des Computerzeitalters, Ende der vierziger Jahre des 20. Jahrhunderts, die Tatsache registriert, daß sich Information unabhängig von ihrem semantischen Gehalt quantitativ messen läßt, und dieses Maß ist entscheidend für die Menge an Speicherplatz, die man zu ihrer Aufbewahrung braucht, oder auch für die notwendige Übertragungskapazität bei ihrer Übermittlung. Ebenso wie die Wahrscheinlichkeitstheorie -mit der sie unmittelbar verwandt ist50 wurde in der Informationstheorie zuerst der einfachste Fall betrachtet, nämlich daß die Informationsquelle voneinander unabhängige Dateneinheiten emittiert. Wir stellen uns vor, daß die Information in Form von Buchstaben aus irgendeinem Alphabet A aus d verschiedenen Buchstaben vorliegt. Diese ’Buchstaben’ können beispielsweise die Symbole {0, 1}, die lateinischen Buchstaben einschließlich Interpunktions- und Trennzeichen, oder auch Silben oder Wörter einer Sprache sein. Auf A (genauer P(A)) sei ein Wahrscheinlichkeitsmaß P gegeben, das für jeden einzelnen Buchstaben die Wahrscheinlichkeit seines Auftretens angibt. Wir haben also nur den Begriff Elementarereignis durch den Begriff Buchstabe ersetzt. Nun wird (im einfachsten Fall) eine Informationsquelle durch eine vollständig unabhängige Folge von Zufallsgrößen {ξi }i∈N oder {ξi }i∈Z mit Werten in A = {1, 2, ..., d} modelliert, wobei die ξi alle gemäß P ∼ = {p1 , p2 , ..., pd } verteilt sind. Es ist sinnvoll anzunehmen, daß alle pi positiv sind, denn Buchstaben mit Wahrscheinlichkeit 0 können wir einfach aus dem Alphabet entfernen. Bisher haben wir bekannte Begriffe lediglich mit neuen Namen versehen. Die Informationstheorie stellt aber, wie schon erwähnt, spezifische Fragen. Wir wollen etwa wissen, wieviel Platz auf einem Datenträger die Speicherung der ersten n Buchstaben benötigen wird. Nun gibt es dn Buchstabenfolgen der Länge n, und wenn wir der Einfachheit halber annehmen, daß d = 2m eine Potenz von Zwei ist, dann können wir den Block der ersten n Buchstaben auf jeden Fall mit mn Bit speichern. Diese Vorgehensweise ist aber nicht optimal. Wir werden sehen, daß im Allgemeinen von den dn möglichen n-Blöcken aus der Menge An tatsächlich nur eine winzige Teilmenge realistisch ist. Der Grund ist eine Variante des schwachen Gesetzes der großen Zahlen, die auf Shannon zurückgeht und die die Basis für die Möglichkeit verlustfreier Datenkompression darstellt. Die Idee besteht darin, zu untersuchen, welche Wahrscheinlichkeit der von der Quelle emittierte Block [ξ1 , ξ2 , ..., ξn ] ursprünglich hatte, d.h. im Sinne des Produktmaßes P n auf P(An ). (Ursprünglich deswegen, weil wir den Block (die mehrdimensionale Zufallsgröße) [ξ1 , ξ2 , ..., ξn ] ja schon beobachtet haben, so daß seine Wahrscheinlichkeit nun (a posteriori) 1 ist.) Im unabhängigen Fall, auf den wir uns hier beschränken, ist diese Wahrscheinlichkeit einfach P[ξ1 ,ξ2 ,...,ξn] = pξ1 ·pξ2 ·...·pξn . Wir haben es also mit einer abgeleiteten Zufallsgröße zu tun, die nichts anderes ist als -was für eine wahrscheinlichkeitstheoretische Betrachtung zunächst etwas seltsam anmutet- die (a priori) Wahrscheinlichkeit selber (die der Zufallsgröße [ξ1 , ξ2 , ..., ξn ]). Um nun das Gesetz der großen Zahlen ins Spiel zu bringen, das sich ja auf Summen von Zufallsgrößen bezieht, gehen wir zum Logarithmus über (wie in der Informationstheorie üblich, zur Basis 2) − log2 pξ1 · pξ2 · ... · pξn = n X (− log2 pξi ). i=1 (Wir haben den Negativwert des Logarithmus gewählt, damit wir positive Größen erhalten.) Genau wie die ξi sind auch die Zufallsgrößen − log pξi (vollständig) 51 voneinander unabhängig und besitzen alle dieselbe Verteilung: − log pξ1 nimmt den Wert − log pj mit Wahrscheinlichkeit pj an (j = 1, 2, ..., d), denn ξ1 nimmt den Wert j mit Wahrscheinlichkeit pj an. Da dies nur endlich viele mögliche Werte sind, ist die nichtnegative Zufallsgröße − log pξ1 beschränkt, besitzt also Pd sowohl einen Erwartungswert (nämlich hP := − j=1 pj log pj ) als auch eine endliche Varianz. Damit sind die Voraussetzungen erfüllt, um das schwache Gesetz der großen Zahlen anwenden zu können. Wir erhalten folgende Aussage: Satz 39 (Shannon) Für alle ε > 0 gilt ! n 1 X lim P (− log pξ1 ) − hP > ε = 0. n→∞ n i=1 Pd Definition 40 Die Größe hP := − j=1 pj log pj heißt Entropie der Wahrscheinlichkeitsverteilung P ∼ = {p1 , p2 , ..., pd }. Bemerkung: Diese Definition wird auch auf den Fall erweitert, daß einige der pj = 0 sind. In diesem Fall wird der unbestimmte Ausdruck 0 log 0 als 0 definiert. Nun bedeutet n 1 X (− log pξ1 ) − hP ≤ ε, n i=1 daß − log P[ξ1 ,ξ2 ,...,ξn ] = P[ξ1 ,ξ2 ,...,ξn ] ∈ n X (− log pξ1 ) ∈ [n(hP − ε), n(hP + ε)], i=1 −n(hP +ε) [2 also , 2−n(hP −ε) ] Wir können also für genügend großes n mit beliebig großer Sicherheit davon ausgehen, daß die (a priori) Wahrscheinlichkeit der empfangenen Nachricht die exponentielle Größenordnung 2−nhP hat, unabhängig von der konkret erhaltenen Botschaft. Natürlich kann man die Frage stellen, welchen Sinn es macht, ziemlich genau zu wissen, welche Wahrscheinlichkeit ursprünglich dafür bestand, genau die eben empfangene Botschaft zu erhalten. Der Punkt ist, daß diese Information sehr genau die Abschätzung der Anzahl der realistischerweise als möglich anzusehenden Botschaften (typischen Botschaften) erlaubt: Bis auf eine beliebig geringe Restwahrscheinlichkeit wissen wir ja, daß [ξ1 , ξ2 , ..., ξn ] zu der Menge (n) Atyp,ε := {[i1 , i2 , ..., in ] ∈ An : P[i1 ,i2 ,...,in] ∈ [2−n(hP +ε) , 2−n(hP −ε) ]} 52 gehört. Nun gilt (n) #Atyp,ε X = 1 (n) [i1 ,i2 ,...,in ]∈Atyp = 2n(hP +ε) X 2−n(hP +ε) (n) [i1 ,i2 ,...,in ]∈Atyp ≤ 2n(hP +ε) ≤ 2n(hP +ε) X P[i1 ,i2 ,...,in] (n) [i1 ,i2 ,...,in ]∈Atyp X P[i1 ,i2 ,...,in ] [i1 ,i2 ,...,in ]∈An = 2n(hP +ε) . (n) Die typische Menge Atyp,ε , zu der aller Voraussicht nach der n-Block [ξ1 , ξ2 , ..., ξn ] gehört, hat also für große n eine exponentiell große Anzahl von Elementen der Größenordnung 2nhP . Die Gesamtanzahl der Blöcke in An war dn = 2n log d . Nun gilt Lemma 41 Wenn P die Gleichverteilung auf A ist, ist hP = log2 d, in allen übrigen Fällen ist 0 ≤ hP < log d. B e w e i s. Wir können uns auf den Fall beschränken, daß alle pj > 0 sind, andernfalls müssen wir nur d durch einen kleineren Wert (die Anzahl der positiven pj ) ersetzen. Aufgrund der Jensenschen Ungleichung (s. Anhang) gilt, falls alle pj > 0 −hP = d X pj log2 pj = j=1 d X j=1 pj 1 − log2 pj d X pj ≥ − log2 = − log2 d, p j=1 j denn die Funktion − log2 ist streng konvex. Die Gleichheit gilt genau dann, wenn alle Werte p1j identisch sind, also pj = d1 gilt (Gleichverteilung). Das bedeutet, daß in allen Fällen, außer dem daß sämtliche Buchstaben in A gleichwahrscheinlich sind, die Menge der typischen Blöcke eine exponentiell kleinere Anzahl von Elementen enthält, als die Gesamtmenge An . Um ein beliebiges Element von An eindeutig zu spezifizieren, werden asymptotisch n log2 d Bit benötigt. Um ein Element der typischen Menge zu spezifizieren, kann man ihre Elemente durchnumerieren, und dann die entsprechende Nummer angeben, wozu man asymptotisch nhP Bit benötigt. Ein verlustfreies Datenkompressionsverfahren könnte also folgendermaßen funktionieren: 53 (n) 1. Bestimmen der typischen Menge Atyp,ε und Zuweisung eines Index zu jedem Element (z.B. lexikographische Ordnung) (n) 2. Einlesen von [ξ1 , ξ2 , ..., ξn ] und prüfen, ob es zu Atyp,ε gehört. a) Wenn nicht, speichere Flag, daß Kompression nicht erfolgt (benötigt 1 Bit) plus die ungekürzten n log2 d Bit, die das Element in An eindeutig festlegen. b) Wenn ja, speichere Flag, daß Kompression erfolgreich plus n(hP + ε) Bit, (n) die das Element in Atyp spezifizieren. Während man ohne Kompression also stets n log d benötigt, braucht man mit einem solchen Algorithmus niemals mehr als ein zusätzliches Bit, aber in nahezu allen Fällen reduziert sich die Anzahl der benötigten Speicherplätze hP um den Faktor log < 1 (falls P nicht die Gleichverteilung ist, bei der keine 2d verlustfreie Kompression möglich ist). Bemerkung: Der beschriebene Algorithmus zeigt nur die theoretische Möglichkeit verlustfreier Datenkompression. Tatsächlich ist er in der beschriebenen Form völlig unpraktikabel, da insbesondere der 1. Schritt exponentiell aufwendig ist (sowohl vom Zeitbedarf als auch vom Speicherbedarf ). Man muß die gesamte exponentiell große typische Menge generieren. Tatsächlich verwendet man AlhP ), jedoch nur gorithmen, die dasselbe leisten (Kompression um den Faktor log 2d einen im wesentlichen linear mit der Blocklänge wachsenden Aufwand erfordern (Lempel-Ziv-Algorithmus —>.zip-Fileformat oder sog. arithmetische Kodierer). Aus dem oben angeführten Shannonschen Satz folgt auch sehr leicht, daß hP eine asymptotisch bessere verlustfreie Kompression als um den Faktor log 2d unmöglich ist (insbesondere bietet die Gleichverteilung überhaupt keinen Ansatz für Datenkompression). Es gilt nämlich Satz 42 Es sei ε > 0 und {B (n) } eine Folge von Mengen mit B (n) ⊆ An , #B (n) ≤ 2n(hp −ε) . Dann gilt P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) ) −→ 0. n→∞ B e w e i s. Da nach dem oben bewiesenen Shannonschen Satz die Folge der 54 (n) (n) Mengen Atyp die Eigenschaft P ([ξ1 , ξ2 , ..., ξn ] ∈ Atyp,ε/2 ) −→ 1 hat, gilt n→∞ P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) ) (n) (n) = P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) ∩ Atyp,ε/2 ) + P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) \Atyp,ε/2 ) (n) (n) ≤ P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) ∩ Atyp,ε/2 ) + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 ) X (n) = pi1 pi2 ...pin + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 ) (n) [i1 ,...,in ]∈B (n) ∩Atyp,ε/2 ≤ X (n) (n) [i1 ,...,in ]∈B (n) ∩Atyp,ε/2 2−n(hp −ε/2) + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 ) (n) ≤ #B (n) · 2−n(hp −ε/2) + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 ) (n) ≤ 2n(hp −ε) 2−n(hp −ε/2) + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 ) (n) = 2−nε/2 + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 ), und beide Summanden in der letzten Zeile gehen für n → ∞ gegen 0. Jede Menge von Blöcken der Länge n mit asymptotisch positiver Wahrscheinlichkeit enthält also mindestens (asymptotisch) 2nhP verschiedene Blöcke, zur Spezifizierung eines einzelnen Elementes benötigt man daher mindestens nhP hP Bit. Somit ist eine stärkere verlustfreie Komprimierung als um den Faktor log 2d nicht möglich. Wir sehen, daß die Information über die Wahrscheinlichkeiten pj der einzelnen Buchstaben j pro Buchstabe log2 d − hP Bit wert ist, also sind noch hP Bit pro Buchstabe an Information nötig, um (asymptotisch) die Buchstabenfolge zu spezifizieren, denn insgesamt benötigt man log2 d Bit, um einen Buchstaben aus einem d-Alphabet anzugeben. In diesem Sinne sieht man die Gleichverteilung als die gegebene Wahrscheinlichkeitsverteilung an, wenn nichts weiter über die Buchstabenstatistik bekannt ist. Sie hat die maximal mögliche Entropie (Entropie als ’Maß für die Ungewißheit’). Hingegen ist die Entropie genau dann 0, falls eines der pj = 1 ist (Einpunktverteilung). In diesem Fall ist jeder einzelne Buchstabe gewiß j. (Dann enthält die Folge der Buchstaben keinerlei neue Information.) Wie festgestellt, ist das oben angegebene Kompressionsschema nicht praktikabel, sondern nur von theoretischem Wert, weil es die prinzipielle Möglichkeit hP der Kompression um den Faktor log belegt. 2d Ein praktisch verwenbares -und oft eingesetzter- verlustfreies Kompressionsverfahren ist der Lempel-Ziv-Algorithmus. Wir betrachten den Fall, daß A = {0, 1}, also daß eine binäre Datenquelle (z.B. übliche Zeichen im ASCIICode) komprimiert werden soll. Der Algorithmus funktioniert wie folgt: 1. Initialisiere eine ausreichend große Liste L von 0 − 1−strings variabler Länge und eine Stringvariable v sowie zwei integer-Variable l, p 55 2. Speichere den leeren String o als erstes Listenelement in L. Setze v = o, l = 1, p = 1 3. Lies das nächste ξi ein. 4. Bilde v = v + ξi (Verkettung) 5. Ist v ∈ L? Wenn ja, setze p = IndexL (v) (Position von v in L), gehe zu 3., sonst weiter 6. Füge v an das Ende der Liste an 7. Ausgeben von p mit l binären Stellen 8. Ausgeben von ξi 9. Setze v = o, p = 1 10. Wenn Länge(L) (Anzahl der Einträge) größer gleich 2l , dann setze l = l+1 11. Gehe zu 3. Wie wir sehen, arbeitet der Algorithmus sequentiell, d.h. er erzeugt den komprimierten Code schrittweise aus dem Input, und universell, d.h. er benutzt die Buchstabenverteilung {pj } gar nicht. Betrachten wir seine Arbeitsweise an einem Beispiel: Am Input liege die Folge [101110110011111110...] an. -(Initialisierung) -1 wird eingelesen, v → [1], ist nicht in L, daher: L → [o, [1]] -Ausgabe von 1 (p =Position des Leerstrings in L), einstellig (l = 1) -Ausgabe von 1 (ξ1 ) -v → o, p → 1, l → 2 (ab jetzt zweistellig) -0 wird eingelesen, v → [0], nicht in L, L → [o, [1], [0]] -Ausgabe [01] (p zweistellig) -Ausgabe 0 (ξ2 ) -v → o, p → 1 -1 wird eingelesen, v → [1], ist in L, Position p → 10 (binär 2) -1 wird eingelesen, v → [11], ist nicht in L, daher: L → [o, [1], [0], [11]] -Ausgabe [10] (p zweistellig) -Ausgabe 1 (ξ4 ) -v → o, p → 1, l → 3 -1 wird eingelesen, v → [1], ist in L, Position p → 10 (binär 2) -0 wird eingelesen, v → [10], ist nicht in L, daher: L → [o, [1], [0], [11], [10]] -Ausgabe [010] (p dreistellig) -Ausgabe 0 (ξ6 ) -v → o, p → 1 u.s.w. Der Gesamtoutput ist: [11010101010010000111100110000...] Man überlegt sich leicht, daß die Eingangsfolge durch einen inversen Algorithmus eindeutig aus dem Output des Lempel-Ziv-Verfahrens rekonstruierbar ist. In den ersten Schritten ist die ausgegebene Zeichenfolge länger als der bisher eingelesene Input. Aber nach und nach füllt sich L mit den im Input tatsächlich 56 vorkommenden Blöcken der Länge n. Wenn die Buchstaben nicht gerade gleich(n) verteilt sind, werden dort zunächst nur die Blöcke aus Atyp auftauchen (und erst viel später diejenigen aus dem Komplement). Bei der Ausgabe wird nur der Index des jeweiligen Blockes erzeugt und in einer Länge der Größenordnung (n) log2 #Atyp ausgegeben, also etwa der Länge nhP , sowie das jeweils neue Bit ξi . Man kann auch streng zeigen, daß dieser Algorithmus eine beliebige Quelle zufälliger unabhängiger Symbole asymptotisch optimal komprimiert (in dem Sinne, daß er die durch die Entropie bestimmte maximale asymptotische Kompressionsrate erreicht), und sogar im abhängigen Fall ist das unter schwachen Voraussetzungen richtig. 9 Das Lemma von Borel-Cantelli und die fast sichere Konvergenz der Häufigkeiten Nach diesem ersten Abstecher in das Wechselspiel von Stochastik und Informationstheorie wenden wir uns einer einfachen, aber wichtigen Aussage der Wahrscheinlichkeitstheorie zu, die es uns erlauben wird, zu zeigen, daß bei (vollständig) unabhängiger Wiederholung desselben Zufallsexperiments die Häufigkeiten der Elementarereignisse gegen ihre jeweiligen Wahrscheinlichkeiten konvergieren. Dazu betrachten wir einen meßbaren Raum [M, A]TundSeine Folge ∞ ∞ {Ai }∞ i=1 von Mengen ausA (Ereignissen). Die Menge W = j=i Aj ist i=1 dann offenbar wieder meßbar. Ein Elementarereignis m ∈ M liegt genau dann in W , wenn es in unendlich vielen der Ai liegt. Das Ereignis W ist also mit dem Eintreten unendlich vieler der Ai identisch. Beispiel: Betrachten Sie den meßbaren Raum [R, B(R)] und die Folge der Ereignisse Ai := {x ∈ R : die i-te Nachkommastelle von x ist 7}. Dann ist die betreffende Menge W die Menge derjenige reellen Zahlen, die unendlich viele 7’en in ihre Dezimalentwicklung aufweisen (es ist nicht schwer zu zeigen, daß fast alle -bzgl. des Lebesgueschen Maßes- reellen Zahlen diese Eigenschaft haben). Satz 43 (Lemma von Borel und Cantelli) Es sei P ein Wahrscheinlichkeitsmaß auf dem meßbaren Raum [M, A] und {Ai }∞ i=1 eine Folge von Ereignissen ausA. Dann gilt: T P ∞ S∞ a) Wenn i P (Ai ) < +∞, dann ist P i=1 j=i Aj = 0. P b) Wenn die Ereignisse Ai vollständig unabhängig sind, und i P (Ai ) = +∞, dann ist T ∞ S∞ P i=1 j=i Aj = 1. B e w e i s. 57 S∞ a) Die Folge von Ereignissen j=i Aj ist monoton fallend. Daher gilt ∞ ∞ [ ∞ [ \ P Aj = lim P Aj . i=1 j=i i→∞ j=i S P∞ ∞ Nun ist P ≤ j=i P (Aj ), und wegen der vorausgesetzten Konverj=i Aj P∞ P genz von i P (Ai ) konvergiert die Restsumme j=i P (Aj ) gegen Null. b) Es gilt c ∞ [ ∞ ∞ ∞ \ [ [ P Aj = 1 − P Aj i=1 j=i T∞ = 1−P i=1 j=i ∞ \ ∞ [ i=1 j=i Acj . Die Folge von Ereignissen j=i Aj ist monoton wachsend, daher ist ∞ \ ∞ ∞ [ \ P Acj = lim P Acj . i=1 j=i i→∞ j=i T T∞ TN ∞ c Die Ereignisfolge j=i Acj ist monoton fallend gegen j=i Acj , daher ist P A j=i j = T Q Q N ∞ N c c aufgrund der = limN →∞ j=i P Acj = limN →∞ P j=i P Aj j=i Aj vorausgesetzten vollständigen Unabhängigkeit. Aus der Analysis ist bekannt, P P∞ c daß aus der Divergenz von ∞ (also 1 − P A P (A ) j = +∞, das j j=1 j=1 Q c hatten wir vorausgesetzt) die Divergenz des unendlichen Produkts ∞ j=1 P Aj , Q∞ also j=i P Acj = 0 für alle i, folgt. Also gilt ∞ [ ∞ ∞ \ \ P Aj = 1 − lim P Acj i→∞ i=1 j=i = 1 − lim i→∞ j=i ∞ Y j=i = 1 − 0 = 1. P Acj Bemerkung: Im Falle (vollständig) unabhängiger Mengen Ai besagt also das Lemma von Borel-Cantelli, daß genau dann fast sicher unendlich viele der ErP∞ eignisse Ai eintreten, wenn i=1 P (Ai ) = +∞. Daß dieses Kriterium für abhängige Ereignisse nicht ausreichend ist, sieht man leicht im Falle der Gleichverteilung auf {0, 1} am Beispiel der konstanten Mengenfolge Ai ≡ {0}. Es treten nur für das Elementarereignis 0 unendlich viele der Ai ein, während für 58 das Elementarereignis 1 kein einziges Ai eintritt. Punkt a) des Lemmas benötigt die Unabhängigkeit, wie gesehen, nicht. Wir betrachten nun erneut den einfachen Fall von (vollständig) unabhängigen identisch verteilten Bernoulli-Zufallsgrößen ξi (d.h. Zufallsgrößen mit nur zwei möglichen Werten 0 und 1, wobei p die 1-Wahrscheinlichkeit sein soll). Wir gehen aber diesmal davon aus, daß eine abzählbar-unendliche Kollektion solcher Größen vorliegt, also i = 1, 2, .... Wir wissen, daß die Summe der ersten n dieser ξi (also die Häufigkeit der 1) binomialverteilt gemäß B(n, p) ist und hatten gesehen, daß für jedes ε > 0 die Aussage n P (| 1X ξi − p| > ε) −→ 0 n→∞ n i=1 richtig ist (Schwaches Gesetz der großen Zahlen). Definition 44 Eine Folge von Zufallsgrößen ζi , i = 1, 2, ... (über einem Wahrscheinlicheitsraum [M, A, P ]) konvergiert in Wahrscheinlichkeit (oder auch: dem Maße nach) gegen eine Zufallsgröße ζ, wenn für alle ε > 0 die Beziehung P (|ζi − ζ| > ε) −→ 0 i→∞ erfüllt ist. Im Sinne dieser Definition ist das Schwache Gesetz der großen Zahlen also eine Aussage Pn über die Konvergenz in Wahrscheinlichkeit der Folge der Zufallsgrößen n1 i=1 ξi gegen die deterministische Größe p. Die Konvergenz in Wahrscheinlichkeit ist i.A. schwächer als die folgende Eigenschaft: Definition 45 Eine Folge von Zufallsgrößen ζi , i = 1, 2, ... (über einem Wahrscheinlicheitsraum [M, A, P ]) konvergiert fast sicher gegen eine Zufallsgröße ζ, wenn es eine Menge K ∈ A mit P (K) = 1 gibt, so daß die Beziehung lim ζi (m) = ζ(m) i→∞ für alle m ∈ K erfüllt ist. Beispiel: Wir betrachten wieder den Wahrsch.-Raum [[0, 1], B(R)∩[0, 1], µ L |[0,1] ], also die Gleichverteilung auf dem Einheitsintervall. Wir definieren die Folge der ζi durch m i+1−2m 1 für x ∈ [ i−2 ] 2m , 2m ζi (x) = , i ∈ {2m , 2m +1, ..., 2m+1 −1}, m = 0, 1, 2, ... . 0 sonst Dann ’scannt’ die Folge das gesamte Intervall [0, 1] immer wieder lückenlos durch, für jedes x wird die Zufallsgröße unendlich oft 1 (aber immer seltener). Man sieht leicht, daß die Folge der ζi zwar in Wahrscheinlichkeit, jedoch eben nicht fast sicher gegen 0 konvergiert. Die fast sichere Konvergenz ist echt stärker: 59 Satz 46 Aus der fast sicheren Konvergenz einer Folge von Zufallsgrößen ζi gegen eine Zufallsgröße ζ folgt die Konvergenz in Wahrscheinlichkeit. B e w e i s. Wir wählen ε > 0. Dann gibt es nach Definition der fast sicheren Konvergenz eine Menge K ∈ A mit P (K) = 1, so daß limi→∞ ζi (m) = ζ(m) für alle m ∈ K erfüllt ist. Folglich liegt jedes m ∈ K nur in endlich vielen der T∞ S ∞ Mengen Ai := {m ∈ M : |ζi (m) − ζ(m)| > ε}, also ist K ∩ j=i Aj = ∅. i=1 T S∞ ∞ S∞ Da K das Maß 1 hat, gilt P j=i Aj eine j=i Aj = 0. Nun ist Bi := i=1 absteigende Mengenfolge, daher erhalten wir limi→∞ P (Bi ) = 0, und da Ai ⊆ Bi folgt nun unmittelbar die Behauptung limi→∞ P (|ζi − ζ| > ε) = 0. Es ist also nicht ohne weiteres klar, ob für unsere Folge von Bernoulli-Größen P ξi die stärkere fast sichere Konvergenz der relativen Häufigkeiten n1 ni=1 ξi gegen p gilt, aus dem Schwachen Gesetz der großen Zahlen folgt dies jedenfalls nicht. Es folgt aber aus dem Satz über große Abweichungen unter Benutzung des Borel-Cantelli-Lemmas: Satz 47 (Starkes Gesetz der großen Zahlen für Bernoulli-Größen) Es sei {ξi }∞ i=1 eine vollständig unabhängige Folge von Bernoulli-Größen über dem selben Wahrscheinlichkeitsraum [M, A, P ] mit Erfolgswahrscheinlichkeit p. Dann gilt für P -fast alle m die Beziehung n 1X ξi (m) = p. n→∞ n i=1 lim B e w e i s. Im Satz über große Abweichungen haben wir gezeigt, daß für beliebiges 0 < d < 1 und D ∈ N existieren, derart daß P ε > 0 Konstanten 1 P | n1 ni=1 ξi − p| > ε < dn für n > D erfüllt ist. Wir setzen ε = k , k ∈ Pn P 1 1 N. Also ist n P | n i=1 ξi − p| > k < +∞. Daraus folgt mit Punkt a) im Lemma daß für jedes k ∈ N die Menge U (k) := {m ∈ M : Pn von Borel-Cantelli, | n1 i=1 ξi (m) S − p| > k1 für unendlich viele n ∈ N} das Maß 0 hat. Folglich ist auch U := k∈N Uk eine P -Nullmenge und es gilt P (U c ) = 1. Sei m ∈ U c fixiert / U (k) nach Voraussetzung, gilt P und k ∈ N beliebig gewählt. Da m ∈ P | n1 ni=1 ξi (m) − p| > k1 nur für endlich viele n ∈ N, d.h. | n1 ni=1 ξi (m) − p| P ≤ k1 ab einem (vom m und k abhängigen) Index n0 . Das bedeutet aber, daß n 1 i=1 ξi (m) für dieses m gegen p konvergiert. n Es gibt also eine meßbare Menge (U c ) mit Maß 1, so daß für alle P m ∈ U c der n 1 Pn 1 Mittelwert n i=1 ξi (m) gegen p konvergiert. Es gilt also limn→∞ n i=1 ξi = p fast sicher. Wir betrachten nun den Fall unabhängiger beschränkter identisch verteilter Zufallsgrößen ξi , i = 1, 2, .... Satz 48 (Starkes Gesetz der großen Zahlen für beschränkte Zufallsgrößen) Es sei ξi , i = 1, 2, ..., eine Folge unabhängiger identisch verteilter beschränkter reellwertiger Zufallsgrößen über einem Wahrscheinlichkeitsraum [M, A, P ]. 60 Dann gilt P -fast sicher n 1X ξi = Eξ1 . lim n→∞ n i=1 B e w e i s. 1. Wir betrachten zunächst den Fall nicht-negativer Zufallsgrößen. Die Größen seien beschränkt durch die reelle Zahl C. Wir definieren ξik,l := 1{m∈M :ξ (m)∈[l2−k C,(l+1)2−k C)} , k ∈ N, l ∈ {0, 1, 2, 3, ..., 2k − 1} . Dann gilt i für beliebiges k ∈ N k 2X −1 k l2−k Cξik,l ≤ ξi . ξi := l=0 {ξik,l }∞ i=1 Wir fixieren k und l. Die Folge ist als Folge von aus {ξi }∞ i=1 abgeleiteten Zufallsgrößen vollständig unabhängig und die Elemente sind identisch verteilte Bernoulli-Größen. Wir erhalten aus Satz 47, daß P -fast sicher die folgende Beziehung gilt n 1 X k,l ξi = P (ξ1 ∈ [l2−k , (l + 1)2−k )) . n→∞ n i=1 lim Die abzählbar vielen Limesbeziehungen (für k ∈ N, l = 0, 1, ..., 2k −1) gelten fast sicher gleichzeitig (der Durchschnitt von endlich oder abzählbar vielen Mengen vom Maß 1 hat wieder das Maß 1). Also gilt für P -fast alle m ∈ M für alle k∈N n lim n→∞ = = k 2X −1 l=0 Eξ1k . 1X k ξ (m) n i=1 i (9) l2−k CP (ξ1 ∈ [l2−k , (l + 1)2−k )) Die Folge {ξik }∞ k=1 konvergiert für jedes i ∈ N punktweise monoton wachsend gegen ξi . Außerdem gilt n 0 ≤ n n 1X 1X k 1X ξi (m) − ξi (m) = (ξi (m) − ξik (m)) n i=1 n i=1 n i=1 n ≤ 1 X −k 2 C = 2−k C. n i=1 61 Daraus folgt n 1X k ξi (m) n→∞ n i=1 lim n ≤ lim inf n→∞ 1X ξi (m) n i=1 n ≤ lim sup n→∞ 1X ξi (m) n i=1 n ≤ 1X k ξi (m) + 2−k C. n→∞ n i=1 lim Wegen (9) erhalten wir n Eξ1k ≤ lim inf n→∞ 1X ξi (m) n i=1 n ≤ lim sup n→∞ 1X ξi (m) n i=1 ≤ Eξ1k + 2−k C. Aus dem Satz von Lebesgue über majorisierte Konvergenz (Anhang) ergibt sich, daß das Integral (Erwartungswert) der durch C beschränkten Folge ξ1k für k → 1 Pn ∞ gegen Eξ1 konvergiert. Also gilt P -fast sicher Eξ1 = lim n i=1 ξi (m). n→∞ 2. Wenn die ξi auch negative Werte annehmen können, zerlegen wir ξi = ξi+ − ξi− . Pn Pn Dann gilt Eξ1+ = lim n1 i=1 ξi+ (m), Eξ1− = lim n1 i=1 ξi− (m), also n→∞ Eξ1 n→∞ = E(ξ1+ − ξ1− ) = Eξ1+ − Eξ1− n n 1X 1X + = lim (ξi − ξi− ) = lim ξi . n→∞ n n→∞ n i=1 i=1 10 Das Starke Gesetz der großen Zahlen für unabhängige Zufallsgrößen Das im vorangehenden Abschnitt bewiesene Resultat für beschränkte Zufallsgrößen folgte sehr einfach aus dem Satz über große Abweichungen durch Anwendung des Lemmas von Borel und Cantelli. Das Starke Gesetz der großen Zahlen gilt jedoch für unabhängige identisch verteilte Zufallsgrößen ganz generell ohne weitere Annahmen, sofern der Erwartungswert überhaupt existiert (in der Formulierung des Satzes taucht der Erwartungswert ja als Limesgröße für die Mittelwerte explizit auf). 62 Bemerkung. Die Nichtexistenz des Erwartungswertes kann zweierlei bedeuten: Entweder ist das Integral sowohl des positiven als auch des negativen Teils der Zufallsgröße unendlich. In diesem Fall läßt sich keine generelle Aussage über das asymptotische Verhalten des Mittelwertes treffen. Wenn etwa die ξ i Cauchyverteilt sind, dann ist der Mittelwert wiederum Cauchy-verteilt und pegelt sich überhaupt nicht auf irgendeinen Limes ein (vgl. das Ergebnis der Simulation in der Computer-Übungsaufgabe Blatt 8). Wenn jedoch nur einer der beiden Anteile ein unendliches Integral besitzt, dann ist es nicht schwer zu zeigen, daß der Mittelwert (je nachdem, ob der positive oder negative Teil der Zufallsgröße einen unendlichen Erwartungswert hat) gegen plus oder minus Unendlich strebt. Dieses Resultat wurde von A. Kolmogorov gezeigt. Wir folgen hier einem vergleichsweise einfachen Beweis, der auf Kayhan N. Etemadi zurückgeht und zudem nur die paarweise Unabhängigkeit der Zufallsgrößen benötigt. Der Beweis ist nicht übermäßig schwer zu verstehen. Zunächst ein paar Vorbemerkungen zur Beweisstrategie. Der Grundgedanke besteht darin, die Zufallsgröße in einen beschränkten und einen unbeschränkten Anteil zu zerlegeṅ: ξi = ξi 1ξi ≤C + ξi 1ξi >C . Für den beschränkten Anteil ist der Beweis (wie wir gesehen haben) einfach, der unbeschränkte Anteil bereitet erhebliche Probleme. Diese Probleme mit dem unbeschränkten Teil lassen sich mildern (auf Kosten der Einfachheit im beschränkten Fall), dadurch daß man die Schnittzahl C nicht konstant für alle i wählt, sondern mit i linear wachsen läßt: Ci = i. Wir wählen also die Zerlegung ξi = ξbi + ξˇi , wobei ξbi := ξi 1ξi ≤i , ξˇi := ξi 1ξi >i . Wir werden sehen, daß aus der Existenz des Erwartungswertes mit Hilfe von Borel-Cantelli folgt, daß fast sicher für genügend großes i die Zufallsgrößen ξi und ξbi übereinstimmen, woraus sich ergibt, daß man statt des Mittelwertes der ξi nur den der beschränkten Größen ξbi untersuchen muß. Diese Größen ξbi sind nun leider nicht mehr gleichmäßig beschränkt. Nun läßt sich aber ausnutzen, daß der Mittelwert eine ’träge’ Zufallsgröße ist, der nur langsam auf die gelegentlich auftauchenden sehr großen Werte reagiert. Daher reicht es, den Mittelwert nicht für alle n zu betrachten, sondern nur für genügend dichte Teilfolgen. Für diese Teilfolgen können wir die Chebyshevsche Ungleichung heranziehen -in ähnlicher Weise, wie beim Beweis des Schwachen Gesetzes der großen Zahlen (nur etwas trickreicher). Satz 49 (Starkes Gesetz der großen Zahlen für paarweise unabhängige Zufallsgrößen) Es Sei {ξi }∞ i=1 eine Folge identisch verteilter paarweise unabhängiger reeller Zufallsgrößen über demselben Wahrscheinlichkeitsraum [M, A, P ], deren Erwartungswert existiert. Dann gilt P -fast sicher n 1X ξi = Eξ1 . i→∞ n i=1 lim B e w e i s. 1. Genau wie im Beweis des vorangegangenen Satzes (Punkt 2) sehen wir, daß es genügt positive Zufallsgrößen zu betrachten. 2. Wir setzen ξbi := ξi 1ξi ≤i . Dann existiert für P -fast alle m eine natürliche Zahl N (m), derart daß ξi (m) = ξbi (m) für i ≥ N (m) erfüllt ist. 63 Wir müssen dazu zeigen, daß das Ereignis {ξi (m) > i} fast sicher nur endlich oft eintritt.PDies folgt nach dem Lemma von Borel-Cantelli aus der Konvergenz der Reihe i P (ξi > i). Daher genügt es, diese Konvergenz zu zeigen: ∞ X P (ξi > i) i=1 ∞ X = i=1 ∞ X ≤ P (ξ1 > i) P (ξ1 ≥ i) i=1 ∞ ∞ X X = i=1 j=i ∞ X = j=1 ∞ X = j=0 P (j ≤ ξ1 < j + 1) jP (j ≤ ξ1 < j + 1) jP (j ≤ ξ1 < j + 1). Hier haben wir den Satz benutzt, daß bei einer (Doppel)-Reihe aus positiven Gliedern die Summationsreihenfolge beliebig verändert werden darf. Jeder Summand P (j < ξ1 ≤ j + 1) taucht genau j mal auf. Die letzte Summe läßt sich auch als Integral über eine Treppenfunktion schreiben (s. Anhang, Definition des Integrals): ∞ X P (ξi > i) i=1 ≤ = ∞ X j=0 Z M jP (j ≤ ξ1 < j + 1) bξ1 (m)c P (dm). Hier bezeichnet wieder bxc den größten ganzen Anteil der reellen Zahl x, und wir haben benutzt, daß wir nach 1. ξ1 als nicht-negativ voraussetzen können. Wegen bxc ≤ x erhalten wir nun das gewünschte Ergebnis ∞ X P (ξi > i) i=1 ≤ = Z ξ1 (m)P (dm) ZM ξ1 (m)P (dm) = Eξ1 < +∞. M 64 Also gibt es eine meßbare Teilmenge K von M mit P (K) = 1, so daß für alle m ∈ K die Zufallsgrößen ξi (m) und ξbi (m) für i ≥ N (m) übereinstimmen. Dann gilt für jedes m ∈ K n 1 1X ξi (m) = n i=1 n N (m)−1 X ξi (m) + i=1 1 n n X ξi (m). i=N (m) Der erste der beiden Summanden konvergiertP für n → ∞ gegen 0, der zweite ist nach Definition von N (m) identisch mit n1 ni=N (m) ξbi (m). Also konvergiert P für m ∈ K der Mittelwert n1 ni=1 ξi (m) genau dann gegen irgendeinen Limes, Pn wenn n1 i=N (m) ξbi (m) gegen denselben Limes konvergiert. Auf genau dieselbe Pn Weise können wir bei 1 ξbi (m) die ersten N (m) Glieder wieder anfügen n i=N (m) und sehen, daß es genügt, die fast sichere Konvergenz der Mittelwerte An (m) := Pn b 1 i=1 ξi (m) gegen Eξ1 zu beweisen. n 3. Gemäß der oben skizzierten Beweisstrategie haben wir es nun nur noch mit beschränkten Zufallsgrößen zu tun (sie sind allerdings nicht mehr identisch verteilt und nicht gleichmäßig beschränkt, sonst könnten wir nun einfach den vorangegangenen Satz benutzen). Wir haben bisher die Unabhängigkeit nicht verwendet. Da die Zufallsgröße An beschränkt ist, existiert ihre Varianz, und wir erhalten aufgrund der Chebyshevschen Ungleichung für beliebiges ε > 0 P (|An − EAn | ≥ ε) ≤ VarAn . ε2 (10) Nun ist n VarAn = E = 1X b (ξi − Eξbi ) n i=1 !2 n X 1 (ξbi − Eξbi ) E n2 i=1 !2 . Die Größen (ξbi − Eξbi ) sind paarweise unabhängig (ξbi ist eine aus ξi abgeleitete Zufallsgröße, daher sind mit ξi , ξj auch ξbi , ξbj für i 6= j unabhängig. Daher ist 65 E(ξbi − Eξbi )(ξbj − Eξbj ) = 0 für i 6= j und wir erhalten VarAn = = = = = ≤ n 2 1 X b E ξi − Eξbi 2 n i=1 (11) n n X 1 X bi ≤ 1 Var ξ Eξb2 n2 i=1 n2 i=1 i n n 1 X 2 1 X 2 Eξ 1 = Eξ 1ξ ≤i ξ ≤i n2 i=1 i i n2 i=1 1 1 n Z 1 X ξ 2 (m)1ξ1 (m)≤i P (dm) n2 i=1 M 1 Z n X 1 2 ξ (m) 1ξ1 (m)≤i P (dm) 1 n2 M i=1 Z 1 2 ξ1 (m)1ξ1 (m)≤n P (dm). n M Die Funktionenfolge n1 ξ12 1ξ1 ≤n ≤ n1 ξ1 n = ξ1 ist gleichmäßig nach oben beschränkt durch ξ1 und wegen Eξ1 < +∞ ist ξ1 integrierbar. Daher kann man nach dem Satz von Lebesgue über majorisierte Konvergenz (Anhang) Integration und die Bildung des Limes für n → ∞ vertauschen. Wir erhalten also Z 1 lim ξ12 (m)1ξ1 (m)≤n P (dm) lim VarAn ≤ n→∞ n→∞ n ZM 1 ≤ lim ξ12 (m)P (dm) n→∞ n ZM = 0P (dm) = 0. M Wegen der Chebyshevschen Ungleichung (10) gilt also für jedes ε > 0 P (|An − EAn | ≥ ε) −→ 0. n→∞ Wenn wir zeigen könnten, daß die Größen EAn gegen Eξ1 konvergieren, hätten wir zumindest schon das Schwache Gesetz der großen Zahlen bewiesen (diesmal ohne die Existenz der Varianz, aber unter der stärkeren Voraussetzung, daß die Zufallsgrößen paarweise unabhängig -statt nur unkorreliert- sowie identisch verteilt sind). Tatsächlich gilt ! n n 1X 1X EAn = Eξ1 1ξ1 ≤i = E ξ1 1ξ ≤i n i=1 n i=1 1 n + 1 − dξ1 e . = E ξ1 1ξ1 ≤n n 1e (Hier bezeichnet dxe die kleinste ganze Zahl ≥ x.) Die Zufallsgröße ξ1 1ξ1 ≤n n+1−dξ n ist nach oben beschränkt durch die integrierbare Zufallsgröße ξ1 und konvergiert 66 punktweise gegen ξ1 . Also gilt wieder aufgrund des Satzes über majorisierte Konvergenz lim EAn = Eξ1 . n−∞ 4. Wir wollen aber die fast sichere Konvergenz des Mittels An gegen Eξ1 zeigen. Dazu betrachten wir zunächst nur eine geeignete Teilfolge, nämlich wir setzen nk = ak für ein beliebiges a > 1. Dann gilt nach (10) und (11) ∞ X k=1 nk ∞ 1 X 1 X E ξ12 1ξ1 ≤i 2 2 ε n k=1 k i=1 ! nk ∞ 1 X 1 X 2 E 2 ξ 1ξ ≤i ε2 nk i=1 1 1 P (|Ank − EAnk | ≥ ε) ≤ = k=1 N = X nk + 1 − dξ1 e 1 lim Eξ12 1ξ1 ≤nk 2 ε N →∞ n2k k=1 N = X 1 nk + 1 − dξ1 e lim Eξ12 1ξ1 ≤nk 2 ε N →∞ n2k k=1 ∞ X 1 2 Eξ ε2 1 ≤ 1 2 X 1 Eξ ε2 1 nk ≤ 1 2 X 1 Eξ . ε2 1 k ak − 1 k=1 ! 1 nk ≤ 1ξ1 ≤nk ! nk ≥ξ1 k≥1 a ≥ξ1 k≥1 Nun ist ak − 1 zwar für jedes k kleiner als ak , aber der Quotient geht gegen 1, daher gilt für ein passendes C(a) ∞ X k=1 P (|Ank − EAnk | ≥ ε) ≤ C(a) 2 X −k Eξ1 a ε2 k = C(a) 2 a−k0 (ξ1 ) Eξ1 , ε2 1 − a−1 67 a ≥ξ1 k≥1 wobei k0 (ξ1 ) der erste Index ist, so daß ak ≥ ξ1 ist. Also erhalten wir ∞ X k=1 P (|Ank − EAnk | ≥ ε) ≤ ≤ C(a) Eξ 2 a−k0 (ξ1 ) ε2 (1 − a−1 ) 1 C(a) Eξ1 < +∞. 2 ε (1 − a−1 ) Daraus folgt mit dem Lemma von Borel-Cantelli, daß das Ereignis {|Ank − EAnk | ≥ ε} für beliebiges ε > 0 fast sicher nur endlich oft eintritt. Da EAnk nach 3. gegen Eξ 1 konvergiert, tritt auch das Ereignis {|Ank − Eξ1 | ≥ ε} nur endlich oft ein. Genau wie im Beweis des vorangegangenen Satzes folgt daraus, daß die Teilfolge der Ank fast sicher gegen Eξ1 konvergiert. 5. Für beliebiges a > 1 existiert also eine meßbare Menge K(a) ⊆ M mit P (K(a)) = 1, derart daß Abak c = Abak c (m) für alle m ∈ K(a) gegen Eξ1 konvergiert. n ∈ N bezeichnen wir mit k(n) dasjenige k, für das k Für beliebiges a ≤ n ≤ ak+1 gilt (es kann mehrere solche k geben, dann wählen wir das kleinste). Die Folge k(n) geht für n → ∞ gegen Unendlich. Wir erhalten Ak(n) = = = Also erhalten wir 1 ak(n) n ak(n) k(n) baX c i=1 n X 1 ξbi ≤ k(n) ξbi a i=1 An ≤ 1 ak(n) ak(n)+1 Ak(n)+1 . ak(n) bak(n)+1 X c i=1 ξbi k(n)+1 ak(n) a Ak(n) ≤ An ≤ Ak(n)+1 n n und daraus ak(n) − 1 ak(n)+1 + 1 A ≤ A ≤ Ak(n)+1 . n k(n) ak(n)+1 + 1 ak(n) − 1 Die linke Seite konvergiert, falls m ∈ K(a), für n → ∞ gegen a−1 Eξ1 , die rechte gegen aEξ1 und wir erhalten a−1 Eξ1 ≤ liminfAn (m) ≤ limsupAn (m) ≤ aEξ1 , m ∈ K(a). n→∞ n→∞ Nun wählen wir noch eine Folge aj & 1. Dann gilt für W := j→∞ Aussage P (W ) = 1 und für m ∈ W gilt Eξ1 ≤ liminfAn (m) ≤ limsupAn (m) ≤ Eξ1 , n→∞ n→∞ 68 T j K(aj ) die also existiert für m ∈ W der Grenzwert limn→∞ An (m) = Eξ1 . Unter 2. hatten wir gezeigt, daß es eine Menge K ⊆ PM mit P (K) = 1 gibt, auf der An genau dann konvergiert, wenn das Mittel n1 ni=1 ξi konvergiert. Nun hat die Menge K ∩ W volles Maß und dort gilt n 1X ξi (m) = lim An (m) = Eξ1 , m ∈ K ∩ W. n→∞ n n→∞ i=1 lim Wir haben eben das Starke Gesetz der großen Zahlen für reelle (also eindimensionale) paarweise unabhängige und identisch verteilte Zufallsgrößen gezeigt. Der mehrdimensionale Fall ist ein einfaches Korrolar: Satz 50 (StGdgZ, mehrdimensional) Sei {ξi }∞ i=1 eine Folge identisch verteilter paarweise unabhängiger Zufallsgrößen mit Werten in [Rd , B(Rd )] über demselben Wahrscheinlichkeitsraum [M, A, P ], deren Erwartungswert existiert. Dann gilt P -fast sicher n 1X ξi = Eξ1 . lim i→∞ n i=1 B e w e i s. Wir bezeichnen für i ∈ N mit ξi,j , 1 ≤ j ≤ d, die Komponenten der i-ten Zufallsgöße. Dann sind für fixiertes j die Zufallsgrößen ξi,j , i ∈ N, paarweise unabhängig und identisch verteilt mit Erwartungswert Eξ1,j . Also gilt nach dem vorangegangenen Resultat P -fast sicher n 1X lim ξi,j = Eξ1,j , 1 ≤ j ≤ d. i→∞ n i=1 Also gilt auch P -fast sicher n lim i→∞ 1X ξi = Eξ1 , n i=1 denn die Konvergenz einer Folge von Vektoren ist gleichbedeutend mit der Konvergenz sämtlicher Komponenten. 11 Einige Grundbegriffe der Mathematischen Statistik Wahrscheinlichkeitstheorie und Statistik besitzen einen gemeinsamen Ursprung. Rein wissenschaftlich gesehen ist dieser gemeinsame Ausgangspunkt das Gesetz der großen Zahlen. Historisch gesehen gab das Bemühen, aus Datenerhebungen Schlüsse über den Zustand des Gemeinwesens, über Zusammenhänge und Entwicklungstendenzen zu ziehen, entscheidende Impulse für die Entwicklung der 69 klassischen Wahrscheinlichkeitstheorie. Solche Erhebungen waren von erheblicher Bedeutung für die sich entwickelnden modernen Staaten mit ihren u.U. vielen Millionen Bürgern. So war Statistik zunächst Staat-istik, darin liegt auch der moderne etymologische Ursprung des Begriffs (statistique → l’état, bzw. die latinisierte Form), und er taucht nicht zufällig zuerst in Frankreich auf. In gewisser Weise sind die typischen Fragestellungen in Wahrscheinlichkeitstheorie und Statistik reziprok zueinander: Während die Wahrscheinlichkeitstheorie (zumindest in sehr vielen Fällen) aus Informationen über die zugrundeliegende (theoretische) Verteilung Informationen über die Realisierungen dieser Verteilungen abzuleiten sucht, geht die Statistik von Erhebungen (Stichproben, Zahlenstatistiken) aus, um daraus Informationen über die zugrundeliegenden Wahrscheinlichkeitsverteilungen und ihre Struktur (z.B. Abhängigkeiten: ’Korrelationen’) zu gewinnen, also ein wahrscheinlichkeitstheoretisches Modell. Natürlich sind diese Aussagen nicht völlig absolut zu nehmen, die ’Kompetenzbereiche’ gehen teilweise ineinander über, aber in der Grundtendenz ist es so. Die Tatsache, daß jeweils der Begriff ’Information’ auftaucht, verweist auf den engen Zusammenhang der drei Disziplinen Wahrsdcheinlichkeitstheorie, Mathematische Statistik und Informationstheorie. Jedenfalls besteht Statistik im mathematischen Sinne nicht schlichtweg in der Auflistung endloser Zahlenkolonnen und bestenfalls der Berechnung einiger Mittelwerte und Häufigkeiten, sondern stellt die mathematischen Methoden bereit, aus solchen Daten möglichst zuverlässige Aussagen im schon genannten Sinne zu gewinnen. Grundlegender Ausgangspunkt sind dabei die Gesetze der Wahrscheinlichkeitstheorie, insbesondere natürlich das Gesetz der großen Zahlen (dessen Gültigkeit Statistik erst möglich und sinnvoll macht) und der zentrale Grenzwertsatz, der die besondere Rolle der Normalverteilung in der Mathematischen Statistik begründet. Wir starten also mit einer Menge von konkreten Daten x = (x1 , x2 , ..., xn ) aus einer Gesamtheit möglicher Daten [M n , A⊗n ], nichts anderes als ein meßbarer (Produkt-)Raum also, der in der Statistik Stichprobenraum heißt. Das beobachtete Elementarereignis heißt nun Stichprobe. Was nun noch zum Glück fehlt ist ein Wahrscheinlichkeitsmaß, aber eben dieses (oder zumindest einige seiner Eigenschaften) wollen wir ja gerade ermitteln. Grundsätzlich geht man natürlich davon aus, daß den Daten tatsächlich irgendein Wahrscheinlichkeitsmaß P auf (M n , A⊗n ) zugrundeliegt, in vielen Fällen wird man die Gestalt P = (P0 )n voraussetzen, also die Unabhängigkeit der einzelnen Stichprobenelemente. Ein wichtiger Spezialfall, den wir hier betrachten werden, ist die Annahme, daß P aus einer gewissen (eingeschränkten) Menge von durch einen reellen oder vektorwertigen Parameter θ eindeutig gegebenen Wahrscheinlichkeitsmaßen (Pθ )θ∈Λ⊆Rd stammt, so daß man also die Suche nach der richtigen Verteilung auf die Suche nach dem richtigen Parameter reduziert hat. Diese Vorgehensweise liegt der parametrischen Statistik zugrunde. Bemerkung: Wenn die Menge M endlich ist (und sogar im Prinzip wenn sie abzählbar-unendlich ist), dann läßt sich im Prinzip jede Wahrscheinlichkeitsverteilung auf [M n , A⊗n ] durch einen reellen oder vektorwertigen ’Parameter’ charakterisieren, so daß in diesen Fällen generell die Methoden der parametri70 schen Statistik Verwendung finden könn(t)en. Man geht dann also davon aus, daß es einen wahren Parameter θ0 gibt, den man aus der endlichen Sichprobe natürlich weder beliebig genau noch mit beliebiger Sicherheit ermitteln kann. • Zunächst kann man versuchen, einen einzelnen konkreten Parameterwert θ(x) aus der Stichprobe x abzuleiten, von dem man hofft, daß er dem wahren Parameter θ0 möglichst nahe kommt. Eine solche Zuordnung x 7−→ θ(x) heißt Punktschätzer (Punktschätzung), und θ(·) ist dann nichts anderes als eine sinnvoll gewählte meßbare Abbildung θ(·) : [M n , A⊗n ] 7−→ [Rd , B(Rd )], also eine (reelle oder vektorwertige) abgeleitete Zufallsgröße. Über die Angabe eines solchen Schätzers hinaus, wird man natürlich versuchen, Aussagen über die Güte dieser Schäzung zu machen, etwa kann man den Ausdruck supθ0 ∈Λ EPθ0 (θ0 − θ)2 betrachten, also die maximale quadratische (mittlere) Abweichung des geschätzten Parameters vom wahren, und dann wird man versuchen, diesen Wert durch passende Wahl des Schätzers möglichst klein zu halten. • Eine andere Möglichkeit ist, nicht einen einzelnen Parameterwert anzugeben, sondern ein Intervall [θu (x), θo (x)], in dem θ0 mit möglichst großer Wahrscheinlichkeit α liegen soll, das aber andererseits möglichst klein sein soll. Diese beiden Erwartungen an das Intervall [θu (x), θo (x)] sind direkt konträr, man muß also einen Kompromiß schließen. Üblicherweise legt man sich auf einen fixierten Wert α (z.B. α = 0, 95) fest, und sucht dann die beiden meßbaren Funktionen θu (x), θo (x) so zu wählen, daß die Intervallänge θo (x) − θu (x) möglichst klein ist, jedoch Pθ0 ([θu (x), θo (x)] 3 θ0 ) ≥ α für alle θ0 ∈ Λ gerade noch erfüllt ist (Konfidenzintervall zum Niveau α). • Schließlich kann man -insbesondere dann, wenn man eine Vermutung (=Hypothese) bezüglich möglicher Parameterwerte bereits hat- die Menge Λ in zwei disjunkte Teilmengen H und K (H ∪ K = Λ) zerlegen und einen Hypothesentest durchführen. Dies bedeutet, im Stichprobenraum [M n , A⊗n ] eine meßbare Teilmenge A zu spezifizieren. Wenn die gegebene Stichprobe x zu A (’accept’) gehört, wird die Hypothese, daß θ0 ∈ H ist, angenommen. Wenn x ∈ R := M n \ A (’reject’), dann wird die Hypothese verworfen. Der Test beruht also auf der Auswertung der Bernoulli-Zufallsgröße 1A (x). Natürlich geht es insbesondere darum A so zu wählen, daß für diejenigen θ0 , die zu H gehören, die Wahrscheinlichkeit von A möglichst nahe bei 1 liegt, während umgekehrt für θ0 ∈ K die Wahrscheinlichkeit von R möglichst nahe bei 1 liegen soll. Auch dies ist wieder eine Frage der günstigen Balance, denn bei dieser Herangehensweise kann es einerseits vorkommen, daß die Hypothese fälschlicherweise verworfen wird (θ0 ∈ H aber x ∈ R: Fehler 1. Art) oder aber fälschlicherweise angenommen wird (θ0 ∈ K aber x ∈ A: Fehler 2. Art). Man sieht üblicherweise die fälschliche Ablehnung als gravierender an und verschiebt daher die Balance in die Richtung, daß man die Wahrscheinlichkeit des Fehlers 1. Art für alle 71 θ0 ∈ H unter eine kleine fixierte Zahl ε (durch entsprechende Wahl von A) zu drücken versucht: Pθ0 (A) ≥ 1 − ε, θ0 ∈ H. Die Zahl α := 1 − ε heißt dann Signifikanzniveau des Tests. Das könnte man natürlich dadurch erreichen, daß man einfach A = M n wählt, also die Hypothese stets annimmt. So unwichtig ist aber der Fehler 2. Art nun auch wieder nicht, man wird also unter allen Mengen A eine solche wählen, die einerseits das Signifikanzniveau α einhält, für die andererseits aber λ(θ) := Pθ (R) für θ ∈ K möglichst groß ist. Die Funktion λ(·) : Λ 7−→ [0, 1] heißt Gütefunktion des (jeweiligen) Test. Im (außer in Trivialfällen) unerreichbaren Ideal wäre λ = 1K (Annahme genau dann, wenn θ ∈ H). Ein (durch die Angabe der Menge A festgelegter) Test heißt gleichmäßig bester Test zum Signifikanzniveau α, wenn seine Gütefunktion für alle θ ∈ K nicht schlechter (kleiner) als die jedes anderen Test mit dem selben Signifikanzniveau ist. In der Regel wird es dennoch so sein, daß selbst der gleichmäßig beste Test (zu α) für einige θ ∈ K kleine Werte von λ(θ) produziert (große Fehlerwahrscheinlichkeit 2. Art). Beim Begriff des Hypothesentests spielt es zunächst keine Rolle, daß die Parametermenge eine Teilmenge des Rd ist, man kann ohne weiteres die Menge aller in Betracht gezogenen Wahrscheinlichkeitsverteilungen P selbst mit Λ bezeichnen und in zwei disjunkte Teilmengen H und K zerlegen, ohne eine Parametrisierung zu wählen. Das fällt in das Gebiet der nichtparametrischen Statistik. Z.B. könnte H die Menge aller Normalverteilungen der Gestalt N (c, σ 2 )×n bezeichnen. Das wäre dann ein Test auf Normalverteilung. Wir beschäftigen uns zunächst mit Punktschätzungen für den wahren Parameter θ0 . Betrachten wir als Beispiel den Fall, daß wir begründet annehmen können, das der Stichprobe x = (x1 , x2 , ..., xn ) zugrundeliegende Wahrscheinlichkeitsmaß sei von der Gestalt N (θ0 , 1)×n , d.h. die einzelnen Stichprobenelemente sind unabhängig voneinander erhoben worden und identisch verteilt, nur der Erwartungswert θ0 sei unbekannt (realistischer wäre, daß auch die Varianz unbekannt ist, aber der Einfachheit halber wollen wir das im Moment nicht betrachten). Nun wissen wir aufgrund des Schwachen GesetzesP der großen Zahlen, n daß für genügend großes n der Stichproben-Mittelwert n1 i=1 xi mit großer Wahrscheinlichkeit nahe P bei θ0 liegen wird. (Wir können diese etwas vage Aussage verschärfen: n1 ni=1 xi − θ0 ist aufgrund von Satz 38 wieder normalverteilt mit Erwartungswert 0 und Varianz n1 , woraus sich leicht gute Abschätzungen für den Fehler bei konkretem n gewinnen lassen). liegt es sehr nahe, die PDaher n Stichproben-Funktion (Zufallsgröße) A(x) := n1 i=1 xi als Punktschätzer für θ0 zu verwenden. Zunächst gilt n EPθ0 A(x) = EPθ0 n n 1X 1X 1X xi = E P θ 0 xi = θ0 = θ 0 , n i=1 n i=1 n i=1 der Erwartungswert des Schätzers ist also gleich dem zu schätzenden Parameter. Solche Schätzer heißen erwartungstreu. Die Erwartungstreue ist eine zwar 72 theoretisch recht angenehme, aber praktisch nicht unbedingt notwendige Eigenschaft, da gute Schätzer im Sinne eines möglichst kleinen mittleren Abstandes zum Parameter nicht zwangsläufig erwartungstreu sein müssen. Wir haben uns hier vom Gesetz der großen Zahlen inspirieren lassen, um zu einem plausiblen Schätzer zu kommen, weil der zu schätzende Parameter eben ein Erwartungswert war. Eine andere Methode ist die folgende: Betrachten wir zunächst den Fall, daß die Pθ diskrete Wahrscheinlichkeitsmaße sind. Dann können wir der Stichprobe ihre jeweilige Wahrscheinlichkeit Pθ (x) -genauer Pθ ({x})- zuordnen (was natürlich immer geht, aber bei diffusen Maßen stets 0 ergibt). Ein sinnvoller Schätzer wäre der sogenannte Maximum-LikelihoodSchätzer θML (·) : x ∈ M n 7−→ arg maxθ∈Λ Pθ ({x}), also derjenige Parameterwert, der der beobachteten Stichprobe die größte Wahrscheinlichkeit zuordnet (falls es derer mehrere gibt, nimmt man einen davon, denkbar wäre natürlich, daß das Maximum gar nicht existiert). Im (bzgl. Lebesgue-Maß) absolut stetigen Fall ersetzt man die Einzelwahrscheinlichkeit Pθ ({x}) durch die Dichte pθ (x) von Pθ im Punkt x, also θML (·) : x ∈ M n 7−→ arg maxθ∈Λ pθ (x). Hier müssen natürlich Existenz- und Meßbarkeitsaussagen gegeben sein. In dem von uns betrachteten Beispiel der Normalverteilung mit unbekanntem Erwartungswert erhalten wir θML (x) = argmaxpθ ((x1 , ..., xn )) θ∈R n Y 2 1 1 √ e− 2 (xi −θ) 2π i=1 = argmax θ∈R 1 = argmaxe− 2 Pn i=1 (xi −θ) 2 θ∈R = argmin θ∈R Pn n X (xi − θ)2 . i=1 P Die Funktion θ 7−→ i=1 (xi − θ)2 ist glatt, ihre Ableitung ist 2 ni=1 (θ − xi ) = 2n(θ − A(x)), dies wird 0 genau für θ = A(x), und die zweite Ableitung 2n ist positiv, daher gilt in unserem Beispiel θML (x) = A(x), die Maximum-LikelihoodSchätzung stimmt also (in diesem Fall!) mit dem gemäß dem Gesetz der Großen Zahlen gewählten erwartungstreuen Schätzer überein. Zunächst ist die Wahl dieses ML-Schätzers nur eine Art plausibles ’Kochrezept’, und es ist Aufgabe der Mathematischen Statistik, in geeigneten Klassen von Schätzproblemen zu untersuchen, ob dieser Schätzer der -nach ebenfalls zu wählenden Kriterien- beste ist. 11.1 Hypothesentests und relative Entropie Wir betrachten nun einen speziellen Fall der Hypothesenprüfung, der für das Zusammenspiel von Wahrscheinlichkeitstheorie und Informationstheorie bei der Untersuchung statistischer Fragestellungen exemplarisch ist. Wir betrachten 73 zwei Wahrscheinlichkeitsmaße P und Q auf einer endlichen Menge M . Nun nehmen wir an, wir sollen anhand einer (aus unabhängigen Ziehungen bestehenden) Stichprobe vom Umfang n die Hypothese H, daß die zugrunde liegende Verteilung P ist, gegen die Gegenhypothese K zu einer gegebenen Signifikanz α prüfen, und diese Prüfung soll für große n (also asymptotisch) optimal sein. Wir suchen also eine Teilmenge A(n) ⊆ M n derart, daß P (A(n) ) ≥ α erfüllt ist, jedoch Q(A(n) ) möglichst klein bleibt. Wie wir sehen werden, läßt sich die Suche nach einer optimal trennenden Menge auf eine informationstheoretische Größe zurückführen, die relative Entropie, eine Verallgemeinerung des Begriffes der Entropie. Die Einzelwahrscheinlichkeiten bzgl. P seien mit pm , m ∈ M, bezeichnet, und die bzgl. Q mit qm . Definition 51 Die durch h(P, Q) := X m∈M pm >0 pm log2 pm . qm definierte Größe heißt relative Entropie von P bezüglich Q, wobei log ∞ als +∞ angesehen wird. Die relative Entropie kann also unendlich sein, nämlich genau dann, wenn es ein m ∈ M gibt mit qm = 0, pm > 0. Ebenso wie die Entropie ist auch die relative Entropie immer nicht-negativ, und sie ist genau dann 0, wenn P = Q. Lemma 52 Es gilt h(P, Q) ≥ 0, und die Gleichheit impliziert P = Q. B e w e i s. Wir können uns auf den Fall beschränken, daß für alle m ∈ M aus qm = 0 auch pm = 0 folgt, da sonst mindestens einer der Summanden +∞ ist, während −∞ nicht vorkommt, die Summe ist dann +∞ > 0. 74 Dann treten in der Summe nur endliche Summanden auf. Nun ist die Funktion − log2 streng konvex, also gilt nach Jensen X X qm pm pm log2 pm log2 = − qm pm m∈M pm >0 m∈M pm >0 X qm ≥ − log2 pm pm m∈M pm >0 X = − log2 qm m∈M pm >0 X = − log2 qm m∈M pm >0 ≥ − log2 X m∈M qm ! = 0, , pm > wobei das Gleichheitszeichen höchstens für den Fall gilt, daß alle Zahlen pqm m 0, gleich sind (wir haben zweimal nach unten abgeschätzt, daher ’höchstens’; bei der ersten vorkommenden Ungleichung besagt Jensen, daß sie genau dann zur , pm > 0, gleich sind). Gleichheit wird, wenn alle pqm m Also gilt qm = λpm falls pm > 0 für ein λP> 0 (λ = 0 istPwegen unserer Anfangsannahme ausgeschlossen). Dann folgt pm >0 qm = λ pm >0 pm = λ, also λ ≤ 1. Nun gibt Wenn für alle m mit qm > 0 auch pm > 0 P es zwei Fälle:P gilt, dann ist λ = pm ,qm >0 qm = qm >0 qm = 1, also folgt pm = qm für alle m, also ein m gibt, so daß qm > 0, pm = 0, dann ist P es dagegen P P P = Q. Wenn λ = pm >0 qm = pm ,qm >0 qm < qm >0 qm = 1 und wir erhalten ! X X pm ≥ − log2 pm log2 qm = − log2 λ > 0. qm p >0 p >0 m m Betrachten wir nun den speziellen Fall, daß Q = G, die Gleichverteilung auf M ist, also gm ≡ d1 mit d := #M . Dann gilt X X X h(P, G) = pm log2 dpm = pm log2 pm + pm log2 d pm >0 pm >0 pm >0 = −hP + log2 d. Wir erinnern uns, daß log2 d gerade die maximal mögliche Entropie, nämlich die der Gleichverteilung ist (also G). Die Entropie einer beliebigen Verteilung ist also die Differenz aus log2 d = hG und h(P, G). Nun gilt folgender 75 Satz 53 (Steinsches Lemma) Für jedes ε > 0 existiert eine Folge A(n) von Teilmengen von M n derart, daß P n (A(n) ) −→ 1, Qn (A(n) ) ∈ [2−n(h(P,Q)+ε) , 2−n(h(P,Q)−ε) ] n→∞ (für n genügend groß), und für jedes α ∈ (0, 1) und jede beliebige Folge B (n) von Teilmengen von M n mit P n (B (n) ) ≥ α gilt für beliebiges ε > 0 die Beziehung Qn (B (n) ) ≥ 2−n(h(P,Q)+ε) , wenn n genügend groß ist. (Für h(P, Q) = ∞ ist dies so zu interpretieren, daß man die Mengen A(n) dann so wählen kann, daß Qn (A(n) ) = 0 für alle n gilt.) Bemerkung. Dies bedeutet, daß es in der gegebenen Situation möglich ist, bei beliebiger Signifikanz α ∈ (0, 1) den Fehler 2. Art in der asymptotischen (exponentiellen) Größenordnung 2−nh(P,Q) zu halten, während es unmöglich ist, eine bessere asymptotische Größenordnung zu erzielen. Die relative Entropie hat also die Bedeutung der optimalen asymptotischen Trennbarkeitsrate. B e w e i s. Wir betrachten zuerst den Fall h(P, Q) < ∞. (n) 1. Wir fixieren zunächst ein ε > 0 und betrachten die Menge MP,ε derjenigen (m1 , m2 , ..., mn ) ∈ M n mit der Eigenschaft pm1 pm2 ...pmn ∈ [2−n(hP +ε) , 2−n(hP −ε) ] (n) sowie die Menge MQ,ε derjenigen (m1 , m2 , ..., mn ), so daß qm1 qm2 ...qmn ∈ [2−n(hP +h(P,Q)+ε) , 2−n(hP +h(P,Q)−ε) ] gilt. Nun wissen wir aufgrund des Schwachen Gesetzes der großen Zahlen (spe(n) ziell der Satz von Shannon), daß P n (MP,ε ) für n → ∞ gegen 1 konvergiert. Es (n) ist leicht zu sehen, daß auch P n (MQ,ε ) gegen 1 konvergiert: Wenn ξ gemäß P verteilt ist, hat die nichtnegative (und nach unserer vorläufigen Vorausetzung auch P -fast P sicher endliche) Zufallsgröße − log2 qξ den endlichen Erwartungswert − m∈M,pm >0 pm log2 qm = hP + h(P, Q). Nach dem Schwachen Gesetz der großen Zahlen geht daher für eine unabhängige Folge ξ1 , ξ2 , ...ξn derartiger Zufallsgrößen ! n 1X P n − log2 qξi − (hP + h(P, Q)) > ε n i=1 für n → ∞ gegen 0, woraus die benötigte Aussage sofort durch exponenzieren mit der Basis 2 folgt. 76 (n) (n) Dann geht auch P n (MP,ε ∩ MQ,ε ) gegen 1. Es gilt aufgrund der Definition von (n) MP,ε (n) (n) #(MP,ε ∩ MQ,ε ) (n) ≤ #(MP,ε ) = X X = 2n(hP +ε) 1 (n) m∈MP,ε 2−n(hP +ε) (n) m∈MP,ε X ≤ 2n(hP +ε) pm1 pm2 ...pmn (n) m∈MP,ε = 2n(hP +ε) X P n (m) (n) m∈MP,ε ≤ 2n(hP +ε) . Nun folgt sofort (n) (n) Qn MP,ε ∩ MQ,ε = X Qn (m) (n) (n) m∈MP,ε ∩MQ,ε X = qm1 qm2 ...qmn (n) (n) m∈MP,ε ∩MQ,ε ≤ X (n) 2−n(hP +h(P,Q)−ε) (n) m∈MP,ε ∩MQ,ε (n) (n) = #(MP,ε ∩ MQ,ε )2−n(hP +h(P,Q)−ε) ≤ 2n(hP +ε) 2−n(hP +h(P,Q)−ε) = 2−n(h(P,Q)−2ε) . (n) (n) Für die (von ε abhängige) Mengenfolge A(n) := MP,ε ∩ MQ,ε gilt also sowohl P n (A(n) ) −→ 1 als auch Qn (A(n) ) ≤ e−n(h(P,Q)−2ε) . Durch die Substitution n→∞ ε → ε/2 erhalten wir die obere Abschätzung des Satzes. 2. Sei nun α ∈ (0, 1), ε > 0 und B (n) irgendeine Folge von Teilmengen von n M mit P n (B (n) ) ≥ α. A(n) sei die im ersten Beweisteil konstruierte Mengenfolge. Dann folgt wegen P n (A(n) ) −→ 1, daß für genügend große n die Beziehung n→∞ P n (B (n) ∩ A(n) ) ≥ α/2 > 0 erfüllt ist. Wir erhalten ähnlich wie oben wegen 77 (n) B (n) ∩ A(n) ⊆ MP,ε #(B (n) ∩ A(n) ) = X 1 m∈B (n) ∩A(n) = 2n(hP −ε) X 2−n(hP −ε) m∈B (n) ∩A(n) ≥ 2n(hP −ε) X P n (m) m∈B (n) ∩A(n) = 2n(hP −ε) P n (B (n) ∩ A(n) ) ≥ 2n(hP −ε) α/2 ≥ 2n(hP −2ε) (n) für genügend große n. Also gilt wegen B (n) ∩ A(n) ⊆ MQ,ε für genügend große n Qn (B (n) ) ≥ Qn (B (n) ∩ A(n) ) X = Qn (m) m∈B (n) ∩A(n) = X qm1 qm2 ...qmn m∈B (n) ∩A(n) ≥ X 2−n(hP +h(P,Q)+ε) m∈B (n) ∩A(n) = #(B (n) ∩ A(n) )2−n(hP +h(P,Q)+ε) ≥ 2n(hP −2ε) 2−n(hP +h(P,Q)+ε) = 2−n(h(P,Q)+3ε) . Da ε beliebig war, haben wir damit die zweite Teilaussage (im Fall endlicher relativer Entropie) bewiesen. 3. Die eben bewiesene Aussage, daß Qn (B (n) ) (bei beliebigem ε > 0) für genügend große n mindestens den Wert 2−n(h(P,Q)+ε) hat, sofern P n (B (n) ) ≥ α > 0 (zumindest für große n) gilt natürlich auch für die unter 1. konstruierte Mengenfolge A(n) , denn diese erfüllt sogar P (A(n) ) → 1. Damit haben wir auch die untere Abschätzung für Qn (A(n) ) bewiesen. Wir müssen uns nun noch um den Fall h(P, Q) = +∞ kümmern. In diesem Fall lassen sich die beiden Verteilungen asymptotisch perfekt unterscheiden: Die relative Entropie ist genau dann unendlich, wenn es ein m ∈ M gibt, so daß pm > 0, qm = 0. Wir definieren A(n) := {m ∈ M n : Es existiert ein i0 so daß mi0 = m}. Offenbar gilt Qn (A(n) ) = 0 für alle n. 78 Andererseits gilt für beliebiges ε > 0 P n (A(n) ) = 1 − P n ({m ∈ M n : mi 6= m für alle i}) n Y = 1− P (M {m}) i=1 = 1 − (P (M {m})) = 1 − (1 − pm )n , n und dieser Ausdruck konvergiert für n → ∞ gegen 1 wegen pm > 0. 12 Stochastische Prozesse In vielen Situationen hat man es mit zeitlichen Abfolgen von Zufallsgrößen zu tun, die über einem gemeinsamen Maßraum [M, A, P ] definiert sind, typischerweise entweder mit einer abzählbaren Familie (ξi )i∈Z (bzw. auch (ξi )i∈N ), wobei der Index i nun als diskreter Zeittakt interpretiert wird, oder aber mit einer überabzählbaren Familie (ξt )t∈R (bzw. (ξt )t∈R+ ), hier ist t der (kontinuierliche) Zeitparameter. Eine solche Familie von Zufallsgrößen bezeichnet man als stochastischen Prozeß. Wir hatten schon vorher Beispiele von zeitdiskreten stochastischen Prozessen betrachtet (etwa im Zusammenhang mit dem Starken Gesetz der großen Zahlen), ohne diese Bezeichnung zu verwenden. Wir schreiben im Folgenden allgemein (ξt )t∈T , wobei T je nach Situation eine der Mengen N, Z, R+ oder R sein wird. Alle Eigenschaften einer einzelnen Zufallsgröße ξ mit Werten in einem meßb sind durch ihre Verteilung P ◦ ξ −1 gegeben, jedenfalls soc, A] baren Raum [M lange, wie man sich nur für das Verhalten dieser einen Zufallsgröße interessiert, und wir hatten gesehen, wie man Zufallsgrößen mit bestimmten Eigenschaften konstruieren kann, um einen gegebenen Sachverhalt zu modellieren. Wir haben c, A] b = [R, B(R)] bewiesen, daß die Angabe einer Verteilungsfunkim Falle [M tion oder einer Dichte zu einer eindeutigen Festlegung von P ◦ ξ −1 , also dem Verteilungsgesetz der Zufallsgröße, führen. Eine ganze Familie von solchen Größen ist durch die Angabe jedes einzelnen P ◦ξt−1 , t ∈ T, noch längst nicht eindeutig charakterisiert, da dadurch Abhängigkeiten zwischen den verschiedenen Zeitpunkten nicht erfaßt werden. Daher betrachten wir irgendeine beliebige endliche Sequenz t1 < t2 < ... < tn von Zeitpunkten, ti ∈ T, und die zugehörige Zufallsgröße [ξt1 , ξt2 , ..., ξtn ] mit b ⊗n ]. Das dadurch generierte Verteilungsgesetz P ◦[ξt , ξt , ..., ξt ]−1 cn , A Werten in [M n 2 1 bezeichnen wir mit Pt1 ,t2 ,...,tn , es heißt endlichdimensionale Verteilung (oder auch Randverteilung) des Prozesses zu den Zeitpunkten t1 , t2 , ..., tn . Das System (Pt1 ,t2 ,...,tn )n∈N,t1 <t2 <...<tn∈T dieser endlichdimensionalen Verteilungen hat eine einzige offensichtliche Eigenschaft: Die endlichdimensionalen Verteilungen sind im folgenden Sinne mitein79 b ander verträglich: Es sei A1 , A2 , ..., An−1 irgendeine Folge von Mengen aus A. Dann gilt für i ∈ {1, 2, ..., n} Pt1 ,t2 ,.,ti ,..,tn (A1 × A2 × .. × c M i-te Stelle × .. × An ) = P ◦ [ξt1 , ξt2 , ., ξti , .., ξtn ]−1 (A1 × A2 × .. × c M i-te Stelle × .. × An ) c, .., ξtn ∈ An ) = P (ξt1 ∈ A1 , .., ξti ∈ M = P (ξt1 ∈ A1 , .., ξti−1 ∈ Ai−1 , ξti+1 ∈ Ai+1 , .., ξtn ∈ An ) = Pt1 ,t2 ,..ti−1 ,ti+1 ,..,tn−1 (A1 × A2 × .. × Ai−1 × Ai+1 × .. × An−1 ). (Die Mengen der Form [ξt1 , ξt2 , ..., ξtn ]−1 (A1 × A2 × ... × An ) ∈ A heißen Zylindermengen). Änderung im folgenden Text! b = [Rd , B(Rd )] oder M c, A] c eine endliche Wir betrachten nun den Fall, daß [M oder abzählbare Menge ist. Es stellt sich nun heraus, daß es in diesem Fall zu jeder verträglichen Familie von Wahrscheinlichkeitsmaßen (Pt1 ,t2 ,...,tn )n∈N,t1 <t2 <...<tn auf (respektive) b ⊗n ] auch einen stochastischen Prozeß gibt, der genau diese endlichdimencn , A [M sionalen Verteilungen besitzt. In gewissem (eingeschränkten) Sinne ist dieser Prozeß auch eindeutig. Wir betrachten nun also die Situation, daß wir noch keinen Prozeß (ξt )t∈T und den dazugehörigen Wahrscheinlichkeitsraum [M, A, P ] gegeben haben, sondern nur eine verträgliche Familie von Wahrscheinlichkeitsmaßen (Pt1 ,t2 ,...,tn )n∈N,t1 <t2 <...<tn . Um diese Existenz und Eindeutigkeit zu sehen, betrachten wir zunächst die cT , also die Menge aller Abbildungen m :=(m c. (BeachMenge M b t )t∈T von T in M ten Sie, daß, falls wir doch einen Prozeß schon gegeben haben, für jedes m ∈ M das Objekt (ξt (m))t∈T genau eine solche Abbildung realisiert: Es ordnet jedem c zu.) t ∈ T den Wert ξt (m) ∈ M Nun seien ein n ∈ N, entsprechend viele t1 < t2 < ... < tn sowie eine b gegeben. Dann ist Mengenfolge A1 , A2 , ..., An ∈ A cT : m A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) := {m ∈ M b ti ∈ Ai , i = 1, 2, ..., n} cT ) derjenigen Abbildungen m ∈ M cT , die gerade an den die Teilmenge (von M Stellen ti Werte aus Ai annehmen. Das System der Zylindermengen V := {A(t1 , t2 , ..., tn , A1 , A2 , ..., An )}n∈N,t1 <t2 <...<tn ,A1 ,A2 ,...,An∈A b cT . ist also eine Teilmenge von P M Lemma 54 V bildet einen Mengen-Halbring. 80 Der Beweis ist sehr einfach und wird zur Übung überlassen. Weiter gilt Satz 55 Die durch P (A(t1 , t2 , ..., tn , A1 , A2 , ..., An )) A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) : = Pt1 ,t2 ,...,tn (A1 , A2 , ..., An ), ∈ V gegebene Mengenfunktion P läßt sich eindeutig zu einem WahrscheinlichkeitscT , σ(V)] fortsetzen. maß auf [M Bevor wir diese Aussage beweisen, ist es günstig zu einer kompaktifizierten c überzugehen, insbesondere im Fall M c = Rd . Version von M Wir erinnern an die Konstruktion der Ein-Punkt-Kompaktifizierung der reellen Achse R aus der Analysis. Dazu wird R = R ∪ {∞} betrachtet und das System der offenen Mengen τR wie folgt definiert: Eine Teilmenge O ⊆ R sei offen, wenn O ∩ R im üblichen Sinne offen ist und, falls ∞ ∈ O, es ein x ∈ R gibt, so daß (−∞, −x) ∪ (x, +∞) ⊆ O. Die dazugehörige σ-Algebra der Borelschen Mengen (also die kleinste σAlgebra B(R) = σ(τR ), die τR enthält) läßt sich einfach aus B(R) ableiten: Satz 56 Eine Teilmenge A von R gehört genau dann zu B(R), wenn A ∩ R zu B(R) gehört. B e w e i s. Man prüft sofort, daß das System σ 0 = B(R) ∪ {B ∪ {∞}, B ∈ B(R)} eine σ-Algebra über R ist, die alle τR -offenen Mengen enthält. Daher gilt σ 0 ⊇ B(R). Es gilt {∞} ∈ B(R), denn {∞} ist der abzählbare Durchschnitt der τR offenen Mengen {∞}∪(−∞, −n)∪(n, +∞), n ∈ N. Außerdem gilt offenbarB(R) ⊇ B(R), denn B(R) ist eine σ-Algebra und enthält alle τR -offenen Mengen (einschließlich R). Daher liegt jede Menge der Form B ∪ {∞}, B ∈ B(R) in B(R). Daher gilt σ 0 = B(R). Wir definieren nun das System H der halboffenen Intervalle in R: Wir setzen (a, b] für a < b ∈ R (a, +∞) ∪ {∞} ∪ (−∞, b] für b ≤ a ∈ R (a, +∞) ∪ {∞} für a ∈ R, b = ∞ (a, b] := (−∞, b] für b ∈ R, a = ∞ ∅ für a, b = ∞. H ist ein Halbring und man sieht leicht, daß sich jede offene Teilmenge O von R als abzählbare Vereinigung von Elementen aus H darstellen läßt (man wähle um jeden rationalen Punkt p von O ein halboffenes Intervall der Form (p − ε, p + ε], wobei ε = 21 sup{t : (p − t, p + t] ⊆ O} sowie, falls ∞ ∈ O, noch ein halboffenes Intervall der Form (x, −x], 0 < x ∈ R mit (x, −x] ⊆ O. Damit ist H ein B(R) erzeugender Halbring. 81 d Analog wie im Fall des Rd definierte man nun auch im R halboffene Intervalle als d Y d (a, b] = (ai , bi ], a, b ∈ R i=1 d d d und erhält wieder einen Halbring H ⊆ B(R ), der B(R ) erzeugt. Hier ist d B(R ) die kleinste σ-Algebra, die von τRd erzeugt wird, wobei τRd die d-fache d Produkttopologie von τR ist: Eine Menge O ⊆ R ist offen (∈ τRd ), falls es zu Qd jedem x ∈ O offene Mengen O1 , O2 , ..., Od ⊆ τR gibt, so daß x ∈ i=1 Oi ⊆ O. d Nun kommen wir zu dem wesentlichen Punkt, weswegen wir von Rd zu R gewechselt sind: Die eben wiederholte Definition der Produkttopologie läßt sich auf beliebige d Produkte, nicht nur endliche, verallgemeinern, etwa (R )T : d Eine Teilmenge O ⊆ (R )T heißt offen (∈ τ(Rd )T ), wenn es zu jedem m ∈ O endlich viele Mengen O1 , O2 , ..., On , Oi ∈ τRd und Zeitpunkte t1 , t2 , ..., tn gibt, so daß m ∈ A(t1 , t2 , ..., tn , O1 , O2 , ..., Od ) ⊆ O gilt. Nun gilt der folgende sehr wichtige Satz aus der Analysis (Satz von Tychonov): Bezüglich der Produkttopologie ist das Produkt kompakter Räume d kompakt. (R )T ist also kompakt bezüglich τ(Rd )T . Diese Kompaktheit ist das entscheidende technische Mittel beim c, A] b = B e w e i s von Satz 55. 1. Wir betrachten zunächst den Fall [M d d [R , B(R )]. Es sei W das Teilsystem von V, das entsteht, wenn nur Mengen A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) betrachtet werden, bei denen alle Ii halboffene Ind tervalle im R sind. W ist wieder ein Halbring, denn der Durchschnitt von zwei Mengen A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) und A(t01 , t02 , ..., t0n0 , I10 , I20 , ..., In0 0 ) aus W läßt sich als A(t001 , t002 , ..., t00n00 , I100 , I200 , ..., In00 ) darstellen, wobei die t00i alle möglichen tj und t0j durchlaufen und die Ii00 wieder Durchschnitte von höchstens zwei halboffenen Intervallen, also selbst halboffene Intervalle sind. Das Komplement A(t1 , t2 , ..., tn , I1 , I2 , ..., In )c läßt sich schreiben als disjunkte Vereinigung = A(t1 , t2 , ..., tn , I1 , I2 , ..., In )c n [ d d A(t1 , t2 , ..., tn , I1 , I2 , ..., Ii−1 , Iic , R , ..., R ). i=1 Nun ist Iic = (Ii,1 × ... × Ii,d ) = d [ j=1 c c Ii,1 × ... × Ii,j−1 × Ii,j × R × ... × R c und das eindimensionale Intervall Ii,j ist wieder ein halboffenes Intervall in R. Daraus ergibt sich eine Darstellung von A(t1 , t2 , ..., tn , I1 , I2 , ..., In )c als disjunkte Vereinigung von Mengen in W. Also sind die auftauchenden Mengen alle in 82 W. Dann ist auch A(t01 , t02 , ..., t0n0 , I10 , I20 , ..., In0 0 ) \ A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) = A(t01 , t02 , ..., t0n0 , I10 , I20 , ..., In0 0 ) ∩ (A(t1 , t2 , ..., tn , I1 , I2 , ..., In ))c als solch eine disjunkte Vereinigung von endlich vielen Mengen in W darstellbar,W ist also ein Halbring. 2. Es sei σ(W) die durch W erzeugte σ-Algebra. Dann gilt V ⊆ σ(W), d nd denn wenn Ai ∈ B(R ), i = 1, 2, ..., n, dann ist A1 × ... × An ∈ B(R ) und nd nd weil die halboffenen Intervalle in R die σ-Algebra B(R ) erzeugen, liegt A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) in der von allen Mengen der Form A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) ∈ W erzeugten σ-Algebra und folglich auch in σ(W). Da nun W ⊆ V ⊆ σ(W), gilt σ(V) = σ(W). Wenn wir zeigen können, daß sich das System der Pt1 ,t2 ,...,tn eindeutig von W zu einem Wahrscheinlichkeitsmaß P auf σ(V) = σ(W) fortsetzen läßt, dann c = Rd bewiesen. Dazu genügt haben wir die Aussage des Satzes für den Fall M es nach dem schon im Kapitel über Verteilungsfunktionen zitierten maßtheoretischen Resultat über die eindeutige Fortsetzbarkeit einer solchen Mengenfunktion zu einem Maß zu zeigen, daß P auf W σ-additiv ist. 3. Sei also A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) ∞ [ A(ti,1 , ti,2 , ..., ti,ni , Ii,1 , Ii,2 , ..., Ii,ni ) = i=1 eine Darstellung von A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) ∈ W als disjunkte Vereinigung von Mengen aus W. Wir haben bisher nur Mengen der Gestalt A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) mit geordneter Menge t1 < t2 < ... < tn betrachtet. Nun definieren wir A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) auch für beliebige t1 , t2 , ..., tn , ti 6= tj für i 6= j, indem wir setzen A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) := A(ti1 , ti2 , ..., tin , Ai1 , Ai2 , ..., Ain ), wobei ti1 < ti2 < ... < tin die geordnete Reihenfolge der ti ist. Weiter definieren wir auch A(t1 , t2 , ..., A1 , A2 , ...) für beliebige unendliche d Folgen t1 , t2 , ..., ti 6= tj wenn i 6= j sowie A1 , A2 , ..., bei denen Ai 6= R nur endlich oft gilt, indem wir setzen A(t1 , t2 , ..., A1 , A2 , ...) := A(t1 , t2 , ..., tn , A1 , A2 , ..., An ), d wobei n der letzte Index sei, bei dem An 6= R erfüllt ist. 83 Dann können wir die obige Beziehung wie folgt schreiben A(s1 , s2 , ..., J1 , J2 , ...) ∞ [ = A(s1 , s2 , ..., Ji,1 , Ji,2 , ...), i=1 wobei s1 , s2 , ... alle Werte t1 , t2 , ..., tn sowie ti,1 , ti,2 , ..., ti,ni mit i ∈ N durchläuft (dies sind ja abzählbar viele. Dabei setzen wir Ji,k = Ii,l falls sk = ti,l und d Ji,k = R sonst (und entsprechend für J1 , J2 , ...). d 4. Nun gibt es für jedes n ∈ N ein größtes k ∈ N derart, daß Jk 6= R oder d Ji,k 6= R für irgendein i ≤ n. Dann gilt A(s1 , s2 , ..., J1 , J2 , ...) = A(s1 , s2 , ..., sk , J1 , J2 , ..., Jk ) ∞ [ A(s1 , s2 , ..., Ji,1 , Ji,2 , ...) = ⊇ = i=1 n [ i=1 n [ A(s1 , s2 , ..., Ji,1 , Ji,2 , ...) A(s1 , s2 , ..., sk , Ji,1 , Ji,2 , ..., Ji,k ). i=1 Folglich ist n [ i=1 Ji,1 × Ji,2 × ... × Ji,k ⊆ J1 × J2 × ... × Jk , und wir erhalten für beliebige n n X = = i=1 n X i=1 n X i=1 P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...)) P (A(s1 , s2 , ..., sk , Ji,1 , Ji,2 , ..., Ji,k )) Ps1 ,s2 ,...,sk (Ji,1 × Ji,2 × ... × Ji,k ) = Ps1 ,s2 ,...,sk n [ i=1 Ji,1 × Ji,2 × ... × Ji,k ≤ Ps1 ,s2 ,...,sk (J1 × J2 × ... × Jk ) = P (A(s1 , s2 , ..., J1 , J2 , ...)) . 84 ! Mit n → ∞ folgt ∞ X P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...)) i=1 ≤ P (A(s1 , s2 , ..., J1 , J2 , ...)) . 5. Wir müssen nun noch die ≥-Relation zeigen. Wir fixieren ein ε > 0. d Sei k0 der größte Index, so daß Jk0 6= R . Dann ist A(s1 , s2 , ..., J1 , J2 , ...) = A(s1 , s2 , ..., sk0 , J1 , J2 , ..., Jk0 ). Aufgrund der Stetigkeit von Ps1 ,s2 ,...,sk0 finden wir abgeschlossene Intervalle Jjε ⊆ Jj , j = 1, 2, ..., k0 , derart daß Ps1 ,s2 ,...,sk0 (J1ε × J2ε × ... × Jkε0 ) ≥ Ps1 ,s2 ,...,sk0 (J1 × J2 × ... × Jk0 ) − ε. d Für alle j > k0 setzen wir Jjε = R = Jj . d Entsprechend sei ki der größte Index, so daß Ji,ki 6= R , und nun finden wir ε für jedes i ∈ N offene Intervalle Ji,j ⊇ Ji,j , j = 1, 2, ..., ki , derart daß ε ε ε Ps1 ,s2 ,...,ski (Ji,1 × Ji,2 × ... × Ji,k ) ≤ Ps1 ,s2 ,...,ski (Ji,1 × Ji,2 × ... × Ji,ki ) + ε2−i . i d ε Für alle j > ki setzen wir Ji,j = R = Ji,j . d (Zu beachten ist, daß R sowohl offen als auch abgeschlossen als auch halbd d offen ( R = (0, 0] ) ist.) Wir erhalten ⊆ A(s1 , s2 , ..., sk0 , J1ε , J2ε , ..., Jkε0 ) ∞ [ ε ε ε ). A(s1 , s2 , ..., ski , Ji,1 , Ji,2 , ..., Ji,k i i=1 Nach Konstruktion ist A(s1 , s2 , ..., sk0 , J1ε , J2ε , ..., Jkε0 ) eine abgeschlossene Teild ε ε ε menge des kompakten Raums (R )T ,also ist sie kompakt. Die A(s1 , s2 , ..., ski , Ji,1 , Ji,2 , ..., Ji,k ) i bilden eine offene Überdeckung dieser kompakten Teilmenge. Also existiert ein n, so daß schon A(s1 , s2 , ..., sk0 , J1ε , J2ε , ..., Jkε0 ) n [ ε ε ε ) A(s1 , s2 , ..., ski , Ji,1 , Ji,2 , ..., Ji,k ⊆ i i=1 85 erfüllt ist. Sei k = max0≤i≤n ki . Dann gilt P (A(s1 , s2 , ..., J1 , J2 , ...)) = P (A(s1 , s2 , ..., sk , J1 , J2 , ..., Jk )) ≤ P (A(s1 , s2 , ..., sk , J1ε , J2ε , ..., Jkε )) + ε = Ps1 ,s2 ,...,sk (J1ε × J2ε × ... × Jkε ) + ε ! n [ ε ε ε Ji,1 × Ji,2 × ... × Ji,k + ε ≤ Ps1 ,s2 ,...,sk i=1 ≤ ε+ n X i=1 ε ε ε Ps1 ,s2 ,...,sk Ji,1 × Ji,2 × ... × Ji,k , denn Ps1 ,s2 ,...,sk ist ein Wahrscheinlichkeitsmaß. Wir können nun die Ungleichungskette wie folgt fortsetzen P (A(s1 , s2 , ..., J1 , J2 , ...)) n X Ps1 ,s2 ,...,ski (Ji,1 × Ji,2 × ... × Ji,ki ) + ε2−i ≤ ε+ i=1 n X = 2ε + ≤ 2ε + i=1 ∞ X P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...)) P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...)) . i=1 Da ε beliebig war und wegen 4., gilt also = P (A(s1 , s2 , ..., J1 , J2 , ...)) ∞ X P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...)) . i=1 Wir haben damit gezeigt, daß P auf dem Halbring W σ-additiv ist, sich also zu einem Wahrscheinlichkeitsmaß auf σ(W) fortsetzen läßt, und folglich die c, A] b = [Rd , B(Rd )]. Aussage des Satzes im Fall [M c eine beliebige B(Rd )-meßbare Teilmenge von Rd (also insbe6. Sei nun M d sondere der R selbst oder eine endliche bzw. abzählbare Menge, die wir durch irgendeine bijektive Abbildung in den Rd einbetten), versehen mit der σ-Algebra b=M b auch in B(Rd ) ⊆ B(Rd ). Somit läßt c ∩ B(Rd ). Dann ist jede Menge in A A b auch als Wahrscheinlichkeitsc A] sich jedes Wahrscheinlichkeitsmaß Q auf [M, d d c) = 1). maß auf [R , B(R )] auffassen (mit der Eigenschaft Q(M Analog läßt sich die gegebene verträgliche Familie von Maßen (Pt1 ,...,t n ) auf nd nd n n b ] als verträgliche Familie auf [R , B(R )] ansehen (Pt ,...,t (M c) , A c)n = [(M 1 n 1). Wegen 1.-5. ist die dadurch gegebene Mengenfunktion auf 86 V := {A(t1 , t2 , ..., tn , A1 , A2 , ..., An )}n∈N,t 1 <t2 <...<tn ,A1 ,A2 ,...,An ∈B(R d ) b ⊆ B(Rd ), gilt diese σ-Additivität gewiß auch auf dem Mengenσ-additiv. Da A system V := {A(t1 , t2 , ..., tn , A1 , A2 , ..., An )}n∈N,t1 <t2 <...<tn ,A1 ,A2 ,...,An∈A b. Aus dem im obigen Beweis schon benutzten Satz über die eindeutige Fortsetzbarkeit einer auf einem erzeugenden Halbring σ-additiven Mengenfunktion zu einem Maß erhalten wir nun sofort b = c, A] Satz 57 (Existenz- und Eindeutigkeitsatz von Kolmogorov) Es sei [M d d c [R , B(R )] oder M eine höchstens abzählbare Menge. Dann bestimmt jede verträgliche Familie von Wahrscheinlichkeitsmaßen (Pt1 ,t2 ,...,tn )n∈N,t1 <t2 <...<tn auf cn , A b ⊗n ] eindeutig ein Wahrscheinlichkeitsmaß P auf der σ-Algebra σ(V). [M Dieses heißt der durch (Pt1 ,t2 ,...,tn ) erzeugte stochastische Prozeß. i h cT , σ(V) gehört Bemerkung: Im Sinne eines Wahrscheinlichkeitsmaßes auf M zu jeder verträglichen Familie (Pt1 ,t2 ,...,tn ) also ein eindeutig bestimmter Prozeß. Man findet aber viele weitere Maßräume [M, A, Pe] und ensprechende Familien von Zufallsgrößen (ξt )t∈T , so daß die entsprechenden endlichdimensionalen Verteilungen mit h i (Pt1 ,t2 ,...,tn ) übereinstimmen. Der eben konstruierte Maßraum T c M , σ(V), P ist eine Minimalversion, in der nur solche Aussagen meß- bar sind, die sich auf höchstens abzählbar viele Zeitpunkte ti beziehen. Im Falle c T = R sind daher solche Aussagen wie m M, b t ≡ 1 oder ’ m b t ist stetig’ nicht meßbar. d So ist auch i.A. (Rd )T keine meßbare Teilmenge von (R )T ist, dazu ist die σ-Algebra σ(V) nicht umfassend genug. Es bedarf weiterer, teilweise erheblich komplizierterer maßtheoretischer ’Klimmzüge’, um Versionen des Prozesses mit solchen Eigenschaften zu konstruieren, daß z.B. die genannten Aussagen meßbar werden. c heißt Zustandsraum des Prozesses, ein einzelnes m = (m Die Menge M b t )t cT heißt Trajektorienraum. heißt Trajektorie, M Eine wichtige Eigenschaft, die ein Prozeß evtl. hat, ist die Stationarität: Definition 58 Der durch die verträgliche Familie (Pt1 ,t2 ,...,tn ) bestimmte Prozeß P heißt stationär, falls Pt1 ,t2 ,...,tn = Pt1 +t,t2 +t,...,tn +t für alle n ∈ N, t, t1 < t2 < ... < tn ∈ T erfüllt ist. Bemerkung: Das von uns im unabhängigen Fall bewiesene Starke Gesetz der großen Zahlen (im Sinne der fast sicheren Konvergenz des Zeitmittels gegen 87 c = Rd , T = Z) mit Mitteln der einen i.A. zufälligen Limes) läßt sich (für M Ergodentheorie für beliebige stationäre Prozesse beweisen. Der einfachste Fall eines stationären Prozesses entsteht, wenn wir Pt1 ,t2 ,...,tn := (P0 )n für beliebige t1 < t2 < ... < tn ∈ T setzen, wobei P0 ein beliebiges Wahrc, A] b ist. (Die Familie ist offenbar verträglich). Diescheinlichkeitsmaß auf [M ser Prozeß heißt der i.i.d.-Prozeß zu P0 (independent identically distributed, u.i.v.), manchmal auch weißes Rauschen genannt. Wir wissen genau genommen erst jetzt, daß die Aussage des StGdgZ nicht tatsächlich leer ist, daß es also iid-Prozesse tatsächlich gibt! Eine interessante Familie von Prozessen, die den iid-Fall umfaßt, werden wir nun betrachten. 12.1 Markowsche Prozesse mit diskretem Zustandsraum und diskreter Zeit Die Grundidee besteht darin, daß reale Abläufe, zumindest bei genügend detaillierter Beschreibung, folgende Eigenschaft haben: Die (evtl. zufällige) zukünftige Entwicklung ist allein aus der Kenntnis der Gegenwart ableitbar. Wenn wir also ξ0 = x0 , ξ1 = x1 , ..., ξn = xn kennen, dann ist P (ξn+1 ∈ (·)|ξ0 = x0 , ξ1 = x1 , ..., ξn = xn ) eine Wahrscheinlichkeitsverteilung, die nur von xn abhängt. Wir betrachten hier nur den Fall, daß die Zufallsgrößen Werte aus einer endlichen oder abzählbaren Menge M annehmen, sowie T = N∪{0} (bzw. Z). Im Sinne des eben formulierten ’Dogmas’ starten wir mit zwei Bestimmungsstücken: a) einer Wahrscheinlichkeitsverteilung π = (πa )a∈M auf M (Startverteilung), sowie b) einer Familie (Pa )a∈M = (pa,b )a,b∈M von Wahrscheinlichkeitsverteilungen auf M (Übergangswahrscheinlichkeiten). Wir konstruieren nun die endlichdimensionalen Verteilungen (T = N ∪ {0}) wie folgt induktiv • P0 = π • P0,1,...,n+1 (m0 , m1 , ..., mn , mn+1 ) = P0,1,...,n (m1 , m2 , ..., mn )pmn ,mn+1 . Die bedingte Wahrscheinlichkeit, daß die Trajektorie zum Zeitpunkt n + 1 in mn+1 landet, wenn die gesamte Vergangenheit gegeben ist, soll also nur von dem Wert mn zum Zeitpunkt n abhängen, und gleich pmn ,mn+1 sein. Es soll wieder als Übung überprüft werden, daß dadurch eine kompatible Familie endlichdimensionaler Verteilungen erzeugt wird. Es gibt also genau einen stochastischen Prozeß P = P π,(pa,b ) auf [M N∪{0} , σ(V)], der diese endlichdimensionalen Verteilungen besitzt. Er heißt Markovscher 88 Prozeß (Markovsche Kette) mit Startverteilung π und Übergangsmatrix (pa,b )a,b∈M . Wir wollen uns nun, insbesondere im endlichen Fall #M < +∞, einen Überblick über das Langzeit-Verhalten solcher Markovschen Prozesse verschaffen, das sich, wie wir sehen werden, recht einfach verstehen läßt. Dazu klassifiziert man die Elemente (Zustände) in M im Zusammenhang mit der Übergangsmatrix (pa,b ). Zwei verschiedene Elemente a, b aus M heißen äquivalent a ∼ b, falls man mit positiver Wahrscheinlichkeit (eventuell in mehreren Schritten) von a nach b und umgekehrt gelangt (und wir setzen generell a ∼ a): Definition 59 Die Elemente a, b ∈ M werden äquivalent genannt, wenn a = b gilt oder wenn es zwei endliche Folgen (a1 , a2 , ..., ak ), (b1 , b2 , ..., bl ) gibt, so daß pa,a1 pa1 ,a2 ...pak−1 ,ak pak ,b pb,b1 pb1 ,b2 ...pbl−1 ,bl pbl ,a > 0 ist. Anders gesagt: Wenn wir einen gerichteten Graphen mit Knotenmenge M betrachten, bei dem zwei Knoten x, y genau dann durch eine gerichtetet Kante (x, y) verbunden werden, wenn px,y > 0 ist, dann gilt a ∼ b für a 6= b genau dann, wenn es einen gerichteten Weg von a nach a gibt, der über b führt. Durch diese Relation zerfällt M in (disjunkte) Äquivalenzklassen M = M1 ∪ M2 ∪...∪Mr . Eine Äquivalenzklasse heißt wesentlich (und die darin enthaltenen Elemente wesentliche Zustände), wenn für alle a ∈ M, b ∈ M c die Beziehung pa,b = 0 erfüllt ist. Die restlichen Äquivalenzklassen mit ihren Zuständen heißen unwesentlich. Eine Äquivalenzklasse ist also genau dann wesentlich, wenn kein Weg hinaus führt. Aus der Definition folgt sofort folgende Aussage: Lemma 60 Ist M ⊆ M eine wesentliche Klasse und gilt π(M ) = 1, dann gilt n auch P1,2,...,n (M ) = 1 für alle n ∈ N. Wenn die Startverteilung π auf M konzentriert ist, bleiben die Trajektorien in endlichen Intervallen fast sicher in M . Daraus ergibt sich wiederum mit N Hilfe der σ-Additivität, daß auch P (M ) = 1 gilt, d.h. die Trajektorien bleiben generell fast sicher in M . Nicht viel schwieriger zu sehen ist folgende Aussage für die unwesentlichen Klassen: Lemma 61 Ist M ⊆ M eine unwesentliche Klasse, dann gibt es eine Konstante γ < 1 und eine natürliche Zahl N0 derart, daß für beliebige Startverteilungen π die Abschätzung Pn (M ) ≤ γ n für n ≥ N0 erfüllt ist. B e w e i s. 1. Wir fixieren zunächst irgendein a ∈ M und betrachten den Fall πa = 1, d.h. π = δ{a} , wir starten fast sicher in a. Da M unwesentlich ist, c gibt es einen Zustand b in M sowie ein c ∈ M mit pb,c > 0. Außerdem gibt es einen Weg von a nach b, denn a und b sind äquivalent. (Wenn a = b, dann 89 hat der Weg die Länge 0.) Es gibt also eine Zahl n(a) ∈ N ∪ {0} und Zustände a1 , a2 , ..., an−1 so daß p(a) := pa,a1 pa1 ,a2 ...pan(a)−1 ,b pb,c > 0 gilt. Nun gilt c Pn(a)+1 (M ) ≥ Pn(a)+1 ({c}) ≥ p(a) . Es gilt sogar für alle n > n(a) + 1 (wobei wir der Kürze halber P statt P π,(pa,b ) für den Markovschen Prozeß schreiben, der mit π startet) π,(pa,b ) Pn c c c (M ) = Pn (M ) ≥ Pn(a)+1,n ({c}, M ) = Pn(a)+1 ({c}) ≥ p(a) , denn von c gibt es keinen Weg zurück nach M (sonst wären a und c äquivalent, also c ∈ M). c die Menge derjenigen Zustände, von denen aus es 2. Wir bezeichnen mit M einen Weg nach a gibt: {m ∈ M : ∃x1 , x2 , ..., xl(m) ∈ M mit q (m) := pm,x1 px1 ,x2 ...pxl(m)−1 ,xl(m) pxl(m) ,a > 0}. c ⊇ M und M c enthält nur unwesentliche Zustände. c liegt nicht (Offenbar gilt M c c, ähnlich wie in 1. in M.) Nun gilt offenbar für den Fall πm = 1, m ∈ M cc ) ≥ Pl(m)+n(a)+2 ({c}) ≥ q (m) p(a) Pl(m)+1+n(a)+1 (M und sogar für alle n > l(m) + n(a) + 2 π,(pa,b ) Pn cc ) = Pn (M cc ) ≥ Pl(m)+n(a)+2,n ({c}, M cc ) = Pl(m)+n(a)+2 ({c}) ≥ q (m) p(a) . (M c, sowie q0 die 3. Nun sei n0 die größte der endlich vielen Zahlen l(m), m ∈ M (m) c kleinste der Zahlen q , m ∈ M. Dann gilt für k0 = n0 +n(a)+2 bei beliebigem c π mit πm = 1, m ∈ M π,(pa,b ) P k0 cc ) ≥ q0 p(a) . cc ) = Pk0 (M (M cc starten, dann gilt sogar Pk0 (M cc ) = 1, Wenn wir hingegen mit πm = 1, m ∈ M cc gibt es keinen Weg zurück nach M. c Also gilt sogar für alle m ∈ M denn aus M δ Pk0{m} ,(pa,b ) cc ) ≥ q0 p(a) . (M Schließlich gilt bei ganz beliebiger Startverteilung π X π,(p ) π,(p ) cc cc ) Pk0 a,b (M ) = P1,k0 a,b ({m}, M (12) m∈M = X δ P1π ({m})Pk0{m} m∈M ≥ X ,(pa,b ) cc ) (M P1π ({m})q0 p(a) = q0 p(a) . m∈M 90 4. Wir setzen λ := 1 − q0 p(a) < 1 und zeigen induktiv, daß π,(pa,b ) Pnk0 c) ≤ λn (M für beliebige n ≥ 1 gilt. Für n = 1 ist die Beziehung wegen (12) richtig. Angecc zurück nach nommen, sie sei für n erfüllt. Dann gilt, da es keinen Weg aus M c M gibt X π,(p ) δ ,(p ) c π,(pa,b ) c Pnk0 a,b ({m})Pk0{m} a,b (M ) P(n+1)k ( M) = 0 m∈M X = c m∈M X ≤ δ ,(pa,b ) π,(pa,b ) ({m})Pk0{m} π,(pa,b ) ({m})λ ≤ λn λ = λn . Pnk0 Pnk0 c m∈M c) (M Damit ist die behauptete Beziehung für alle Vielfachen nk0 von k0 bewiesen. Für n0 = nk0 + r, n, r ≥ 1 gilt X π,(p ) δ ,(p ) c π,(p ) c Pn0 a,b (M ) = Pnk0 a,b ({m})Pr {m} a,b (M) m∈M X = c m∈M X ≤ δ ,(pa,b ) π,(pa,b ) ({m})Pr {m} π,(pa,b ) ({m}) = Pnk0 Pnk0 Pnk0 π,(pa,b ) c m∈M also erhalten wir für n ≥ k0 π,(pa,b ) Pn c) ≤ λbn/k0 c . (M c (M) c), (M 1 Daraus folgt schließlich für n ≥ N0 := 2k0 und γ := λ 2k0 π,(pa,b ) Pn n−k 0 π,(p ) c ) ≤ λbn/k0 c ≤ λ k0 (M ) ≤ Pn a,b (M 1 n−k0 1 n/2 = λ k0 ≤ λ k0 = γn. Mit dem Lemma von Borel-Cantelli ergibt sich nun sofort Lemma 62 Für fast alle Trajektorien (ξi ) bezüglich P π,(pa,b ) wird jede unwesentliche Klasse M nur endlich oft besucht. Wie wir gesehen haben, geht die Wahrscheinlichkeit der entsprechenden cc , aus der nie wieder nach M zurückgekehrt wird, exponentiell geMenge M gen 1. Daraus erklärt sich auch die Bezeichnung ’unwesentliche Klassen’. Die entsprechenden Zustände spielen im Langzeitverhalten keine Rolle. 91 Wir betrachten nun wieder den Fall, daß die Startverteilung π ganz auf einer bestimmten wesentlichen Klasse M konzentriert ist, d.h. π(M ). Aufgrund von Lemma 60 können wir in diesem Fall alle anderen Elemente von M einfach weglassen. Wir können also den Fall betrachten, daß alle Elemente von M zueinander äquivalent sind. Dies ist ein spezieller (der wichtigste) Fall der folgenden Definition 63 Die Übergangsmatrix (pa,b )a,b∈M heißt irreduzibel, wenn es genau eine wesentliche Klasse gibt. (Im irreduziblen Fall kann es also auch unwesentliche Zustände geben, wir haben diese aber eben auch noch weggelassen.) Betrachten wir nun zunächst einen weiteren Spezialfall, nämlich daß alle Übergangswahrscheinlichkeiten pa,b > 0 sind. Die Übergangsmatrix heißt dann positiv. In diesem Fall ist es nicht schwer zu zeigen, daß die Anfangssituation (also die Startverteilung) exponentiell schnell vergessen wird. Der Prozeß pegelt sich schnell auf ein stationäres Verhalten ein, im folgenden Sinn: Satz 64 (Exponentielle Konvergenz gegen die stationäre Startverteilung, positiver Fall) Alle Übergangswahrscheinlichkeiten pa,b , a, b ∈ M, seien positiv. Dann existieren eine positive Konstante γ < 1, eine natürliche Zahl N0 und ein Wahrscheinlichkeitsvektor (e πa )a∈M , so daß für beliebige Startverteilung π die Beziehung π,(p ) |e πx − Pn a,b ({x})| < γ n (13) für n ≥ N0 und alle Zustände x ∈ M erfüllt ist. Es gilt π e,(p ) Pn a,b = π e für alle n. Bemerkung: Dies impliziert, daß -egal welche Startverteilung man wählt- für genügend große n das Verhalten des Prozesses praktisch nicht mehr von dem des (eindeutig bestimmten) stationären Prozesses mit der gegebenen Übergangsmatrix zu unterscheiden ist. Wenn γ sehr dicht bei 1 liegt (das kann eintreten, wenn einige der pa,b sehr klein sind), ist es mit der ’schnellen Konvergenz’ natürlich relativ zu sehen. B e w e i s. 1. Wir verwenden zum Beweis eine Technik, die als ’coupling’ bezeichnet wird. Dazu starten wir den Prozeß gleichzeitig in mehreren Versionen mit verschiedenen Anfangsverteilungen und beweisen, daß sich die verschiedenen Trajektorien zu einer einzigen vereinigen. Zur Vereinfachung der Bezeichnungen nehmen wir o.B.d.A. an, daß M = Mk := {1, 2, ..., k} 92 ist. Jeder Zeilenvektor (pa,b )b∈Mk mit fixiertem a kann dann als eine Wahrscheinlichkeitsverteilung auf R+ ⊃ Mk aufgefaßt werden, besitzt also eine Verteilungsfunktion Fa . Wir betrachten weiterhin eine auf [0, 1] gleichverteilte Zufallsgröße ξ. Dann besitzt die abgeleitete Zufallsgröße Fa−1 (ξ) nach dem Simulationsprinzip (ÜA 8.2) die Verteilung (pa,b )b∈Mk . Der Zufallsvektor v = [v (1) , ..., v (k) ] := [Fa−1 (ξ)]ka=1 ∈ (Mk )k besitzt also eine Verteilung Pv (auf (Mk )k ), deren eindimensionale Randverteilungen die einzelnen (pa,b )b∈Mk sind. Wir betrachten nun eine i.i.d.-Folge (vi )i∈N∪{0} , bei dem die vi gemäß Pv verteilt sind. Eine Trajektorie (vi ) ist also ein Element von (Mkk )N , versehen mit der entsprechenden von den Zylindermengen erzeugten σ-Algebra σ(V). Wir benutzen diesen i.i.d.-Prozeß, um den Markovschen Prozeß zu generieren. Dazu betrachten wir den Produktraum Mk × (Mkk ){0,1,2,...,n} mit dem Wahrscheinlichkeitsmaß π × Pvn+1 und die folgende induktiv definierte Sequenz von Zufallsgrößen: η0 : ηi+1 : ζ := [α0 , v0 , ..., vn ] ∈ Mk × (Mkk ){0,1,...,n} 7−→ [α0 , v0 ] ∈ Mk × Mkk , (αi ) [α0 , v0 , ..., vn ] ∈ Mk × (Mkk ){0,1,...,n} 7−→ [αi+1 , vi+1 ] := [vi i = 0, 1, 2, ..., n − 1. , vi+1 ] ∈ Mk × Mkk , Die Folge der Zufallsgrößen (η0 , ..., ηn ) = ([α0 , v0 ], ..., [αn , vn ]) ist also wie folgt aufgebaut: Die zweite Komponente vi wird unverändert aus ζ übernommen, die erste Komponente αi bestimmt sich ausschließlich aus ηi−1 . Daher bildet (η0 , ..., ηn ) einen (auf n + 1 Zeitpunkte begrenzten) Markovschen Prozeß. Betrachten wir nun die ersten Komponenten (α0 , ..., αn ). Es gilt P (αi+1 = ai+1 |α0 = a0 , ..., αi = ai ) P (α0 = a0 , ..., αi = ai , αi+1 = ai+1 ) = P (α0 = a0 , ..., αn = an ) (falls die Bedingung positive Wahrscheinlichkeit hat), und weiter P w1 ,...,wi P (α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi , αi+1 = ai+1 ) = P (α0 = a0 , ..., αi = ai ) 1 X P (α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi , αi+1 = ai+1 ), = Z w ,...,w 1 i wobei Z der Nenner ist. Weiter geht es wie folgt = 1 Z X w0 ,...,wi P (αi+1 = ai+1 |α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi ) ·P (α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi ). 93 Nun ist wie gesehen (η0 , ..., ηn ) = ([α0 , v0 ], ..., [αn , vn ]) ein Markowscher Prozeß, also 1 X P (αi+1 = ai+1 |αi = ai , vi = wi ) = Z w ,...,w 0 i ·P (α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi ) = · 1X Z w P (αi+1 = ai+1 |αi = ai , vi = wi ) P (α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi ) i X w0 ,...,wi−1 = 1 X Z w P (αi+1 = ai+1 |αi = ai , vi = w) ·P (α1 = a1 , ..., αi = ai , vi = w) Da die Zufallsgröße vi von allen α0 , ..., αi unabhängig ist, können wir fortsetzen, wobei sich der Nenner wieder wegkürzt = 1 X Z w ·P (α0 = X w = X w P (αi+1 = ai+1 |αi = ai , vi = wi ) = a0 , α1 = a1 , ..., αi = ai )P (vi = w) P (αi+1 = ai+1 |αi = ai , vi = wi )P (vi = w) P (w(ai ) = ai+1 |αi = ai , vi = w)P (vi = w), (αi ) denn nach Konstruktion ergibt sich αi+1 deterministisch aus αi und vi als vi also X = δw(ai ) =ai+1 P (vi = w) w = X , P (vi = w) w: w (ai ) =ai+1 = P (v (ai ) = ai+1 ) = Pξ (Fa−1 (ξ) = ai+1 ) i = pai ,ai+1 aufgrund des Simulationsprinzips und der Definition von v. Wir haben somit gezeigt, daß der aus (η1 , η2 , ..., ηn ) abgeleitete Prozeß (α1 , α2 , ..., αn ) ein Markovschen Prozeß ist, dessen Übergangsmatrix gerade (pa,b ) ist. Da außerdem α1 nach Konstruktion die Verteilung π besitzt, handelt es sich genau um den Prozeß, von dem wir ausgegangen sind. 94 Bemerkung: Wir haben im 1. Schritt den Prozeß auf anscheinend kompliziertere Weise erneut konstruiert: Die heuristische Idee zur Konstruktion eines Markovschen Prozesses besteht ja darin, daß -angelangt im Zustand a zum Zeitpunkt i- ein ’Würfel’ verwendet wird, der die Verteilung (pa,◦ ) auswürfelt, und daß damit der nächste Zustand b bestimmt wird. Man benutzt also für jedes a einen anderen Würfel. Wir haben stattdessen einen universellen Würfel benutzt, der für alle a gleichzeitig funktioniert, der η-Prozeß protokolliert das Ergebnis v des Wurfes mit dem universellen Würfel und den jeweils erhaltenen neuen Zustand a. Da der Würfel universell ist, können wir ihn im nächsten Schritt dazu verwenden, zwei gekoppelte Versionen des Prozesses zu erzeugen. 2. Wir nehmen nun zwei (nicht notwendig verschiedene) Startverteilungen π (1) , π (2) und betrachten die Menge Mk ×Mk ×(Mkk ){0,1,2,...,n} mit dem W-Maß π (1) × π (2) × Pvn+1 . Genau wie im ersten Schritt generieren wir die Zufallsgrößen ηb0 : [α0 , β0 , v0 , ..., vn ] 7−→ [α0 , β0 , v0 ], (αi ) ηbi+1 : [α0 , β0 , v0 , ..., vn ] 7−→ [vi i = 0, 1, 2, ..., n − 1. (βi ) , vi , vi+1 ], Auch dies ist wieder ein Markovscher Prozeß, was genau wie im ersten Schritt gesehen werden kann, und (α0 , ..., αn ) sowie (β0 , ..., βn ), für sich genommen, sind jeweils Markovsche Prozesse mit derselben Übergangsmatrix (pa,b ), aber evtl. verschiedenen Startverteilungen π (1) , π (2) , denn die induktive Definition der α’s und β’s macht vom jeweils anderen Wert keinen Gebrauch. Sämtliche Zustände der Form [a, b, w] mit a 6= b sind unwesentliche Zustände in dem konstruierten Prozeß: Man kommt in einem Schritt zu dem Zustand [w(a) , w(b) , w0 ] mit w0 := [1, 1, ..., 1], nämlich für 0 ≤ ξ < mini Fi−1 (1) = mini pi,1 , und diese Ereignis besitzt positive Wahrscheinlichkeit, da alle pa,b positiv sind. Der nächste Zustand ist dann [1, 1, w 00 ], und alle folgenden Zustände sind nun von der Form [x, x, u] nach Definition von ηb. 3. Wir benutzen nun Lemma 61. Es folgt die Existenz einer Konstanten δ < 1 und einer natürlichen Zahl K0 , derart daß P (αn 6= βn ) ≤ δ n , n ≥ K0 . (Das Lemma macht zunächst nur eine Aussage über eine einzelne unwesentliche Klasse. Da es aber nur endlich viele unwesentliche Klassen gibt, folgt die exponentielle Konvergenz gegen 0 auch für die Gesamtheit der unwesentlichen Zustände.) 95 Wir erhalten nun für beliebiges x ∈ M π ,(p ) π ,(p ) |Pn 1 a,b ({x}) − Pn 2 a,b ({x})| = |P (αn = x) − P (βn = x)| (14) = |P (αn = x, αn = βn ) + P (αn = x, αn 6= βn ) −P (βn = x, αn = βn ) − P (βn = x, αn 6= βn )| = |P (αn = x, αn 6= βn ) − P (βn = x, αn 6= βn )| ≤ P (αn = x, αn 6= βn ) + P (βn = x, αn 6= βn ) ≤ 2P (αn 6= βn ) ≤ 2δ n , n ≥ K0 . Da die Konstanten δ, K0 in dem Lemma unabhängig von der Startverteilung sind, ist die zuletzt bewiesene Beziehung ebenfalls unabhängig von der konkreten Wahl von π1 , π2 gültig. Nun fixieren wir ein k ∈ N und setzen π1 = π, π2 = π,(p ) Pk a,b . Wir starten also den zweiten gekoppelten Prozeß mit derjenigen Verteilung, in der sich der erste Prozeß erst zur Zeit k > 1 befindet. Aufgrund der Markovschen Eigenschaft sehen wir nun leicht, daß generell folgendes gilt π ,(pa,b ) Pn 1 π,(pa,b ) = Pn π ,(pa,b ) 2 = Pn−k , n ≥ k. Jetzt folgt aus (14) für beliebiges x ∈ M π,(p ) π,(pa,b ) |Pn+k a,b ({x}) − Pn π ,(pa,b ) = |Pn 2 n ({x})| π ,(pa,b ) ({x}) − Pn 1 (15) ({x})| ≤ 2δ , n ≥ K0 . π,(p ) Das bedeutet, daß die Zahlen Pn a,b ({x}) für jedes x ∈ M eine CauchyFolge bilden (in sich konvergent), es existiert also jeweils der Limes π ex := π,(p ) limn→∞ Pn a,b ({x}), und es gilt π,(pa,b ) |e πx − P n Daraus folgt sofort die Existenz X π ex = 1 − x∈M ({x})| ≤ 2δ n , n ≥ K0 . (16) eines γ < 1 wie im Satz gefordert. X X π,(pa,b ) Pn ({x}) − π ex x∈M x∈M X π,(p ) ≤ |e πx − Pn a,b ({x})| x∈M ≤ #M · 2δ n , n ≥ K0 . P ex = 1, π e Da der letzte Ausdruck für n → ∞ gegen 0 konvergiert, gilt x∈M π ist eine Wahrscheinlichkeitsverteilung. Wir wählen π e als Startverteilung. Dann 96 gilt für jedes x ∈ M π e,(p ) |e πx − P1 a,b ({x})| X π ey py,x | = |e πx − y∈M π,(p ) π,(p ) = |(e πx − Pn a,b ({x})) + Pn a,b ({x}) X π,(p ) π,(p ) − (e πy − Pn a,b ({y})) + Pn a,b ({y})py,x| y∈M π,(pa,b ) ≤ |e πx − Pn π,(pa,b ) +|Pn ({x})| + ({x}) − X X y∈M π,(pa,b ) Pn y∈M π,(pa,b ) |e πy − P n ({y})| ({y})py,x|. Die ersten beiden Summanden gehen wegen (16) gegen 0. Für den dritten Summanden erhalten wir X π,(p ) π,(p ) |Pn a,b ({x}) − Pn a,b ({y})py,x | y∈M = π,(p ) |Pn a,b ({x}) π,(pa,b ) ≤ |Pn π,(p ) − Pn+1 a,b ({x})| π,(p ) ({x}) − π ex | + |e πx − Pn+1 a,b ({x})| ≤ 2γ n , n ≥ N0 , π e ,(p ) er geht also ebenfalls gegen 0. Wir haben also gezeigt, daß π e = P0 a,b = π e,(pa,b ) π e,(p ) P1 . Daraus folgt mit vollständiger Induktion sofort π e = Pn a,b , n ∈ N ∪ {0} (mit π e als Startverteilung ist der Markovsche Prozeß stationär), und aus (16) folgt auch sofort (13). Wir haben gesehen, daß es bei gegebener positiver Übergangsmatrix (pa,b ) genau eine stationäre Startverteilung π e gibt. Sie ist dadurch charakterisiert, π e,(pa,b ) daß π e = P1 gilt, daraus folgt dann leicht mit vollständiger Induktion π e,(p ) π e = Pn a,b für alle n. Die Beziehung π e,(pa,b ) π e = P1 läßt sich in Matrixschreibweise ausdrücken π e = (pa,b )e π, wenn π e als Spaltenvektor aufgefaßt wird. Generell gilt, nicht nur im stationären Fall, π,(p ) P1 a,b = (pa,b )π, 97 woraus wieder mit vollständiger Induktion die Beziehung π,(pa,b ) Pn = (pa,b )n π folgt. Der Satz über die exponentielle Konvergenz gegen die (einzige) stationäre Anfangsverteilung gilt nicht nur im positiven Fall, sondern genau dann, wenn die Übergangsmatrix nicht nur irreduzibel, sondern auch aperiodisch ist. Definition 65 Die Markovsche Übergangsmatrix (pa,b ) heißt irreduzibel und aperiodisch, wenn es eine natürliche Zahl n0 gibt, derart daß (pa,b )n0 positiv ist. Satz 66 (Exponentielle Konvergenz gegen die stationäre Startverteilung) Die Übergangsmatrix (pa,b ) sei irreduzibel und aperiodisch. Dann existieren eine positive Konstante γ < 1, eine natürliche Zahl N0 und ein Wahrscheinlichkeitsvektor (e πa )a∈M , so daß für beliebige Startverteilung π die Beziehung π,(pa,b ) |e πx − P n ({x})| < γ n für n ≥ N0 und alle Zustände x ∈ M erfüllt ist. Es gilt π e,(p ) Pn a,b = π e (17) (18) für alle n. B e w e i s. Der Satz folgt sehr leicht aus dem vorangegangenen: Wir betrachten zunächst den Prozeß P , der aus P dadurch entsteht, daß man jeweils n0 Schritte auf einmal macht, wobei n0 die in der Definition der Aperiodizität auftauchende Zahl ist. Es gilt also P 0,1,2,..,n = P0,n0 ,2n0 ,...,nn0 . Der Prozeß ist Markovsch mit Übergangsmatrix (pa,b )n0 . Diese ist positiv. Es gibt also ein eindeutig bestimmtes π e und ein γ, so daß π,(p ) |e πx − Pnn0 a,b ({x})| < γ n für genügend große n gilt, unabhängig von der Startverteilung π. Dann erhalten wir für beliebiges 0 ≤ r < n0 π,(p ) a,b |e πx − Pnn0 +r ({x})| P ,(pa,b ) = |e πx − Pnnr0 98 ({x})|, π,(pa,b ) wobei Pr := Pr wird. Also gilt die Verteilung nach r Schritten ist, wenn mit π gestartet π,(pa,b ) |e πx − P n ≤ γ n−n0 n0 n ≤ γ 2n0 j n ({x})| ≤ γ n0 1 n = γ 2n0 k 1 für genügend große n, und wir können nun γ := γ 2n0 setzen. Damit ist (17) bewiesen, und (18) folgt genau wie im vorangegangenen Satz. .................... Zur Vorbereitung der Prüfung Ziel der Vorlesung und der Übungen war die Vermittlung grundlegender Begriffe und Zusammenhänge der Stochastik. Daher wird es in der Prüfung vor allem darum gehen, die Kenntnis dieser Begriffe und die Sicherheit des Umgangs mit ihnen einzuschätzen. Es wird nicht unbedingt erwartet, daß längere Rechnungen und Beweise ’aus dem Stand’ wiederholt werden können. (Die grundlegende jeweilige Beweisstrategie sollte aber verstanden worden sein.) Ebensowenig wird, da auf diesem Gebiet sehr unterschiedliche Vorkenntnisse vorlagen, allgemeine Maßtheorie Gegenstand der Prüfung sein. Das gilt insbesondere für Studenten aus anderen Fachrichtungen und Lehramtsstudenten. Stattdessen sollten Sie aber belegen können, daß -Ihnen die grundlegenden Definitionen (Wahrscheinlichkeitsverteilungen, Zufallsgrößen, Verteilungsfunktionen, Dichten, Unabhängigkeit, statistische Schätzungen und Tests, Konvergenzarten, Markovsche Prozesse,...) vertraut sind (prüfen Sie Index und Kapitelüberschriften des Skripts sind hier hilfreich, dort tauchen die behandelten Themen in zusammengefaßter Form auf) -Sie die vorgestellten wichtigen Sätze kennen (z.B. Starkes und Schwaches GdgZ, Moivre-Laplace, Borel-Cantelli,...) (s. auch wieder den Index, wird noch ergänzt) -Sie grundlegende Typen von Wahrscheinlichkeitsverteilungen mit ihren in der Vorlesung genannten charakteristischen Eigenschaften kennen Prüfungsfragen könnten etwa, mit steigendem Schwierigkeitsgrad, folgende sein: -Was ist eine Zufallsgröße? -Was besagt das Gesetz der großen Zahlen für die relativen Häufigkeiten von Ereignissen? Worin besteht der Unterschied zwischen der starken und schwachen Form? 99 -Woraus begründet sich die besondere Rolle der Normalverteilung in der Stochastik? Welche Bedeutung hat ihre Varianz? -Können Sie den Beweis des SchwGdgZ skizzieren? -Können Sie die folgende Aussage mit Hilfe des Lemmas von Borel-Cantelli beweisen:... -Wie wird das Steinsche Lemma bewiesen (grundlegende Beweisidee) ... ... Die Auswahl der Themen wird jeweils durch die Herkunfts-Fachrichtung mit beeinflußt. Bitte schauen Sie sich das Skript noch einmal gründlich an. Ich wünsche Ihnen viel Erfolg bei der Vorbereitung und natürlich bei der Prüfung! Ihr Dozent Rainer Siegmund-Schultze 13 Anhang: Integration über Maßräumen In diesem Anhang werden einige in der Vorlesung benötigte Begriffe und Resultate (i.A. ohne Beweis) im Zusammenhang mit dem Integralbegriff zusammengefaßt. Wir setzen generell voraus, daß ein Maßraum [M, A, µ] gegeben ist, wobei µ der Einfachheit halber als σ-endlich angenommen wird. Die meisten hier aufgeführten Resultate verallgemeinern die vom Lebesgueschen (oder auch vom historisch älteren Riemannschen) Integralbegriff bekannten Aussagen lediglich auf den allgemeineren Fall eines Maßraumes [M, A, µ] anstelle des Rd mit dem Lebesgueschen Maß (bzw. Riemannscher Inhalt, elementargeometrisches Volumen). 13.1 Nichtnegative Funktionen Wir beginnen mit dem einfachsten Fall einer sog. (nichtnegativen) Treppenfunktion. Eine meßbare Funktion f : [M, A] 7−→ [R, B(R)] heißt Treppenfunktion, wenn sie nur abzählbar oder endlich viele Werte annimmt, d.h. f (M ) = {ci }∞ i=1 . 100 Definition 67 Sei f eine Treppenfunktion mit den Werten {ci }∞ i=1 und f ≥ 0. Die Summe (nichtnegativer Summanden) Z f dµ := ∞ X i=1 ci >0 ci µ(f −1 (ci )) ≤ +∞ heißt Integral der Treppenfunktion bezüglich µ. Wenn der Wert endlich ist, heißt f integrierbar. Bemerkung. Wenn M abzählbar (oder sogar endlich) ist, sind alle FunktioR nen P auf M Treppenfunktionen und der Integralbegriff reduziert sich auf f dµ = m∈M f (m)µ({m}). Wir multiplizieren also lediglich die Maße der Mengen, auf denen f konstant ist, mit dem entsprechenden Funktionswert und summieren alles. Das Integral ist im nichtnegativen Fall immer definiert, aber nur wenn der Wert endlich ist, heißt die Funktion integrierbar. Die Schreibweise variiert, man schreibt auch (in Fortsetzung R R der vom Riemannschen Integral gewohnten Schreibweise) f (m)µ(dm) oder M f (m)µ(dm). Es ist nun überhaupt nicht schwer, auch für beliebige meßbare Funktionen f ≥ 0 das Integral zu definieren. Wir approximieren zuerst f von unten durch eine Treppenfunktion: j k Sei n ∈ N und sei f(n) (m) := 2−n f2(m) . Die Funktion f(n) erfüllt 0 ≤ −n f −2−n ≤ f(n) ≤ f . Außerdem gilt für n0 ≥ n auch f(n0 ) ≥ f(n) , denn wir haben den Wertebereich R+ in Intervalle der Form [i2−n , (i + 1)2−n) zerlegt und f (m) durch den unteren Intervallendpunkt des betreffenden Intervalls ersetzt. Da für n0 > n die Zerlegung verfeinert wird, ergibt sich f(n0 ) ≥ f(n) . Also gilt f(n) %n→∞ f. f(n) ist meßbar, denn sie nimmt nur die Werte 2−n i, i = 0, 1, 2, ... an (oder −1 −n eine Teilmenge davon) und es gilt f(n) (2 i) = f −1 ([i2−n , (i + 1)2−n )) ∈ A, denn f selbst ist meßbar. Also ist fn eine Treppenfunktion. Wir betrachten die aufsteigende Folge Z Z 0 ≤ f(n) dµ ≤ f(n+1) dµ, n = 1, 2, ... Definition 68 Der (eventuell unendliche) Grenzwert Z Z f dµ := lim f(n) dµ n→∞ heißt Integral bezüglich µ der nichtnegativen meßbaren Funktion f . Wenn gilt R f dµ < +∞, dann heißt f integrierbar. Bemerkung. Wenn f nicht integrierbar ist, kann dies folgende Gründe haben. 101 1. Die Mengen f −1 ([c, +∞)) fallen für c % +∞ gegen ∅, aber ihr Maß fällt nicht schnell genug gegen 0, als daß das Wachstum von f kompensiert werden könnte. 2. Es gibt ein c > 0 mit µ(f −1 ([c, ∞))) = +∞. 3. Die Mengen f −1 ([c, 1]) wachsen für c & 0 (gegen f −1 ((0, 1])) und ihr Maß wächst zu schnell gegen +∞, als daß das Abklingen von f kompensiert würde. Wenn µ ein endliches Maß ist (z.B. ein Wahrscheinlichkeitsmaß), kann nur der erste Fall eintreten. Beim Lebesgueschen Maß µL auf [R, B(R)] sind alle Funktionen der Form |x|α , x 6= 0 f (x) = , α ∈ R, nicht-integrierbar, nämlich für α ≥ 0 wegen 2., 0, x = 0 für α ∈ [−1, 0) wegen 3. und für α ∈ (−∞, −1] wegen 1. Satz 69 Wenn gilt 0 ≤ g ≤ f , und f ist integrierbar, dann ist auch g integrierbar. B e w e i s. Für die approximierenden Treppenfunktionen g(n) , f(n) gilt offenbar ebenfalls g(n) ≤ f(n) ,Ralso aufgrund R der Definition des Integrals der Treppenfunktionen als Summe g dµ ≤ f(n) dµ, und da die aufsteigende Folge (n) R f(n) dµ nach Voraussetzung einen endlichen Grenzwert hat, gilt dies auch für R die aufsteigende Folge g(n) dµ. Wenn f ≥ 0 meßbar ist und C ∈ A, dann ist auch 1C · f ≤ f meßbar (Produkt meßbarer Funktionen) und man definiert Z Z f (m)µ(dm) := 1C · f dµ C in Analogie zum Riemannschen Integral über einer (elementargeometrischen) Menge. Es gilt (wir hatten µ als σ-endlich vorausgesetzt): R Satz 70 Die Mengenfunktion µf : C ∈ A 7−→ C f (m)µ(dm) ∈ R+ ist ein σ-endliches Maß auf [M, A]. Es ist absolut stetig in Bezug auf µ. ( f heißt Dichtefunktion von µf bezüglich µ.) Der Beweis ist nicht schwierig, wenn man den weiter unten angegebenen Satz über monotone Konvergenz benutzt. 13.2 Das Integral reellwertiger Funktionen Nun ist es einfach, die Einschränkung f ≥ 0 wegzulassen: Wir betrachten die meßbare Menge Cf,+ := {m ∈ M : f (m) ≥ 0} und c · |f | als Differenz nichtzerlegen f in der Form f = f+ − f− = 1Cf,+ · f − 1Cf,+ negativer Funktionen mit disjunktem Positivitätsbereich. Wir sehen leicht, daß f+ und f− genau dann beide integrierbar sind, wenn |f | = f+ + f− integrierbar ist. 102 Definition 71 Wir setzen Z f dµ := Z f+ dµ − Z f− dµ, falls mindestens eine der beiden Funktionen f+ , f− integrierbar ist. f heißt integrierbar, wenn |f | integrierbar ist, also genau dann wenn beide Funktionen f+ , f− integrierbar sind. Für nichtnegatives f stimmt diese Definition der Integrierbarkeit mit der schon gegebenen überein. Wenn sowohl f+ als auch f− nicht integrierbar ist (Beispiel: die Funktion x1 sin x), dann ist der Wert des Integrals nicht definiert. Bemerkung. Man kann für M = R, wie beim Riemannschen Integral, Z n f (x)µ(dx) lim n→∞ −n betrachten, und wenn dieser Grenzwert existiert (wie im Beispiel x1 sin x) ein ’uneigentliches’ Integral einführen. Da dessen Wert aber von der Wahl der R ausschöpfenden Mengenfolge {[−n, n]}n∈N bestimmt wird , gelten bei einer solchen allgemeineren Definition viele grundlegende Aussagen nicht mehr. Außerdem gibt es bei allgemeinem M für die Wahl der Mengenfolge kein kanonisches Pendant. Man beschränkt sich daher auf die gegebene Definition des Integrals und befindet sich damit in Analogie zum Begriff der absoluten Summierbarkeit von Reihen. In Ausdehnung der bekannten Integrationsregeln gelten nun folgende Aussagen: Satz 72 (Linearität des Integrals) Wenn f, g integrierbare Funktionen sind und a, b reelle Zahlen, dann ist auch af + bg integrierbar und es gilt Z Z Z (af (m) + bg(m))µ(dm) = a f (m)µ(dm) + b g(m)µ(dm). Satz 73 Für jede integrierbare Funktion f gilt Z Z f dµ ≤ |f | dµ. b sei ein weic, A] Satz 74 (Integral bzgl. eines transportierten Maßes) [M b Dann c, A]. terer meßbarer Raum, ξ eine meßbare Abbildung von [M, A] in [M c b ist eine meßbare Funktion f : [M , A] 7−→ [R, B(R)] genau dann integrierbar bezüglich µ ◦ ξ −1 , wenn f ◦ ξ bezüglich µ integrierbar ist, und es gilt Z Z f dµ ◦ ξ −1 = f ◦ ξdµ. 103 (Die letzte Aussage folgt sehr einfach aus der Definition des Integrals, zunächst für nichtnegative Funktionen, weil (µ ◦ ξ −1 )(f −1 ([i2−n , (i + 1)2−n ))) = µ(ξ −1 ◦ f −1 ([i2−n , (i + 1)2−n ))), und dann auch für reelle Funktionen durch Zerlegung in f+ , f− .) Die folgende Aussage wird sehr oft benötigt. Sie hat die aus der Maßtheorie bekannte Aussage zur Voraussetzung, daß der punktweise Limes meßbarer Funktionen meßbar ist. Satz 75 (von Lebesgue über majorisierte Konvergenz) Es sei {fn }n∈N eine Folge meßbarer Funktionen, f eine integrierbare Funktion mit |fn | ≤ |f |, n ∈ N. Falls der Limes limn→∞ fn (m) für alle m ∈ M existiert, ist limn→∞ fn (·) eine integrierbare Funktion und es gilt Z Z lim fn (m)µ(dm) = lim fn (m)µ(dm). n→∞ n→∞ Häufig kann man folgenden Satz verwenden, der nicht impliziert, daß der Limes der Funktionenfolge integrierbar ist. Satz 76 (von Lebesgue über monotone Konvergenz) Es sei {fn }n∈N eine Folge integrierbarer Funktionen mit der Eigenschaft fn (m) %n→∞ f (m), m ∈ M. Dann gilt Z Z fn dµ %n→∞ f dµ. R Bemerkung. Das Integral f dµ kann hier den Wert +∞ haben, also u.U. ist f nicht integrierbar, jedoch ist f− ≤ (f1 )− offenbar integrierbar. 13.3 Vektorwertige Funktionen Wenn f : [M, A] 7−→ [Rd , B(Rd )] eine vektorwertige meßbare Funktion ist, so heißt sie integrierbar, falls ||f || integrierbar ist, was (Übungsaufgabe Blatt 6) zur Integrierbarkeit sämtlicher Koordinaten |fi | äquivalent ist. (||f || und alle |fi | sind meßbar, denn sie entstehen als Verknüpfung von f mit den stetigen, also meßbaren Abbildungen x 7−→ ||x|| bzw. x 7−→ |xi |.) Man definiert dann R R f1 dµ f2 dµ Z . · f dµ := R · fd dµ 13.4 Lp -Räume meßbarer Funktionen Wir stellen zunächst fest, daß wir den Rd auch als Vektor-Raum von Funktionen auf {1, 2, ..., d} auffassen können: x ∈ Rd : i ∈ {1, 2, ..., d} 7−→ xi . Als Maß µ auf 104 {1, 2, ..., d} wählen wir die Gleichverteilung. Der Rd läßt sich auf verschiedene Weise mit einer Norm versehen: ||x||p := bzw. X |xi |p 1/p ,p ≥ 1 ||x||∞ := max |xi |. (Es gilt ||x||p →p→∞ ||x||∞ .) Mit diesen Normen wird der Rd jeweils zu einem Banachraum (vollständiger normierter Vektorraum). Die übliche euklidische Norm ||x|| = ||x||2 wird durch das Skalarprodukt P hx, yi = xi yi generiert, und der Rd mit dem Skalarprodukt ist ein (endlichdimensionaler) Hilbertraum. Es gilt die Cauchy-Schwarz sche Ungleichung | hx, yi | ≤ ||x|| · ||y||. Im Fall eines allgemeinen Maßraumes [M, A, µ] läßt sich analog vorgehen. Zwei meßbare Funktionen f, g sind hinsichtlich des Maßes µ im allgemeinen Fall nur bedingt unterscheidbar. Wir nennen f und g äquivalent (bzgl. µ), wenn es eine Menge N ∈ A gibt, so daß µ(N ) = 0 gilt und f (m) = g(m) für alle m ∈ / N gilt. Wir schreiben dann f ˜g oder kürzer f ˜g. Dann unterscheiden sich f+ und g+ bzw. f− und g− auch µ nur auf einer Nullmenge und deren Approximationen durch Treppenfunktionen gleichfalls. Man sieht daher, daß die Integrierbarkeit für beide stets gleichzeitig vorliegt und die Werte der Integrale übereinstimmen. Die meßbaren Funktionen bilden einen reellen Vektorraum V. Man prüft leicht, daß aus f1 ˜g1 und f2 ˜g2 auch af1 + bf2 ˜ag1 + bg2 folgt. Also bilden auch die Äquivalenzklassen f = {f }˜ := {g : g meßbar und g˜f } auf natürliche Weise e Aufgrund der Linearität des Integrals bilden die integriereinen Vektorraum V. baren Funktionen einen linearen Unterraum von V und deren Äquivalenzklassen e Wir definieren eine Unterraum L1 (µ) von V. Z ||f ||1 = ||{f }˜ ||1 := |f |dµ für f ∈ L1 (µ). Satz 77 ||·||1 ist eine Norm auf L1 (µ) und diese Norm ist vollständig. (L1 (µ), ||· ||1 ) ist also ein Banachraum. Bemerkung. Der Übergang zu den Äquivalenzklassen ist notwendig, weil sonst alle Funktionen, die äquivalent zur Nullfunktion sind, die Norm 0 hätten. Eine Norm ist aber laut Definition nur auf einem Element eines Vektorraums gleich Null, dem Nullvektor. Entsprechend kann man für beliebiges p ≥ 1 diejenigen Funktionen f (bzw. R deren Äquivalenzklassen f ) betrachten, die die Eigenschaft |f |p dµ < +∞ hae und man definiert ben. Sie bilden wiederum einen Unterraum Lp (µ) von V, Z 1/p ||f ||p = ||{f }˜ ||p := |f |p dµ für f ∈ Lp (µ). 105 Auch in diesem allgemeineren Fall gilt Satz 78 || · ||p , p ≥ 1 ist eine Norm auf Lp (µ) und diese Norm ist vollständig. (Lp (µ), || · ||p ) ist also ein Banachraum. Schließlich bilden die beschränkten Funktionen einen Unterraum von V, soe Wenn f ∈ L∞ (µ), wie deren Äquivalenzklassen eine Unterraum L∞ (µ) von V. dann gibt es mindestens ein f in der Äquivalenzklasse f , das beschränkt ist, also |f | ≤ cf < +∞. Alle anderen Funktionen aus {f }˜ sind beschränkt durch dasselbe cf bis auf eine entsprechende Nullmenge (sie sind µ-wesentlich beschränkt). Das kleinste derartige cf heißt wesentliches Supremum (für jedes einzelne Element der Äquivalenzklasse). Man definiert demzufolge ||f ||∞ := inf sup |f (m)|, f ∈f m∈M und erhält erneut Satz 79 ||·||∞ ist eine Norm auf L∞ (µ) und diese Norm ist vollständig. (L∞ (µ), ||· ||∞ ) ist also ein Banachraum. Eine besondere Rolle unter den Lp -Räumen spielt der L2 (µ). Hier kann man nämlich die Norm aus einem Skalarprodukt erhalten. Wir setzen Z hf, gi := f · gdµ, f, g ∈ L2 (µ). Es gilt nämlich Satz 80 (Cauchy-Schwarzsche Ungleichung) Sind f, g zwei meßbare Funktionen, dann ist Z |f (m)g(m)|µ(dm) ≤ Z f 2 (m)µ(dm) 1/2 Z g 2 (m)µ(dm) 1/2 . Dann ist hf, gi endlich für f, g ∈ L2 (µ), denn f · g ist wegen dieser Ungleichung integrierbar. Nun gilt Satz 81 h·, ·i ist ein Skalarprodukt auf L2 (µ) und die dadurch bestimmte Norm ist vollständig. (L2 (µ), h·, ·i) ist also ein Hilbertraumraum. 106 13.5 Die Jensensche Ungleichung Viele wichtige Ungleichungen in der Mathematik lassen sich auf ein Konvexitätsargument zurückführen, die Jensensche Ungleichung. Zunächst erinnern wir daran, daß eine Teilmenge K des Rd (oder allgemeiner eines Vektorraumes über R) konvex heißt, wenn für zwei Punkte x, y ∈ K und beliebiges λ ∈ [0, 1] auch λx + (1 − λ)y ∈ K gilt. Definition 82 Eine Abbildung f von einer konvexen Teilmenge K des Rd (oder f (x)+f (y) allgemeiner eines Vektorraumes) in R heißt konvex, wenn f ( x+y 2 ) ≤ 2 für alle x, y ∈ K erfüllt ist, und streng konvex, wenn in dieser Beziehung die Gleichheit genau dann gilt, falls x = y. Bemerkung: Konvexe Funktionen sind im Innern des betreffenden konvexen Definitionsbereiches K stetig, also dort auch meßbar (auf dem Rand kann eine konvexe Funktion sogar nicht-meßbar sein, allerdings nicht im Fall d = 1, denn im eindimensionalen Fall sind die einzigen konvexen Mengen -u.U. unendlicheIntervalle, der Rand besteht also aus höchstens zwei Punkten). Im Falle d = 1 gilt: Satz 83 Wenn f stetig und im Innern von K differenzierbar ist, und f 0 (streng) monoton wachsend, dann ist f (streng) konvex. Falls f sogar zweimal differenzierbar ist, ist die Funktion also (streng) konvex, wenn f 00 (positiv) nichtnegativ ist. Dieses Kriterium gilt auch für d > 1 in dem Sinne, daß die positive Semi-Definitheit der zweiten Ableitungsmatrix hinreichend für Konvexität und ihre positive Definitheit hinreichend für die strenge Konvexität ist. Satz 84 (Jensensche Ungleichung) Es sei K abgeschlossen und konvex, f eine meßbare konvexe Funktion mit Definitionsbereich K ⊆ Rd , sowie µ ein Wahrscheinlichkeitsmaß auf [Rd , B(Rd )] mit µ(K) = 1. Dann gilt Z Z f xµ(dx) ≤ f (x)µ(dx), und wenn f sogar streng konvex ist und µ({x}) 6= 1 für alle x ∈ K gilt, dann ist die linke Seite echt kleiner als die rechte. P∞ Ein einfacher Spezialfall ergibt sich, falls µ diskret ist. Dann ist µ = i=1 pi δxi für eine Folge {x1 , x2 , ...} von Punkten aus K und wir erhalten ! ∞ ∞ X X p i xi ≤ f pi f (xi ), i=1 i=1 wobei für streng konvexes f die Gleichheit genau dann gilt, wenn alle xi identisch sind. 107 14 Index σ-Additivität 10 σ-Algebra 10 -Produkt 18 Bayessche Formel 22 bedingte Wahrscheinlichkeit 21 Borel-meßbar 11 Borelsche σ-Algebra 11 Chebyschevsche Ungleichung 41 Coupling 92 Dichtefunktion 14 Einpunktverteilung 14 Elementarereignis 4, 7 σ-endlich 13 endliche Additivität 7 Entropie 23, 52 -relative 74 Erwartungswert 37 Exponentialverteilung 4 Fehler 1. und 2. Art 71 Formel der totalen Wahrscheinlichkeit 22 Gaußsche Glockenkurve 34 Gesetz der großen Zahlen 4, 5, 6 -schwaches 35 Gleichverteilung 12 -diskrete 13 Große Abweichungen 35 Gütefunktion 72 Halbring 15 Halbwertszeit 25 Hypothesentest 71 Information 23 Informationsquelle 51 Konfidenzintervall 71 Konvergenz 108 -dem Maße nach 59 -fast sicher 59 -in Wahrscheinlichkeit 59 Kovarianzmatrix 43 Lebesguesches Maß 12 Lempel-Ziv-Algorithmus 55 Markovsche Ungleichung 39 Maß 12 -absolut stetiges 15 -diffuses 13 -diskretes 15 -Produkt 20 - Lebesguesches 12 -singuläres 15 -Transport eines 18 Maßraum 12 Maximum-Likelihood-Schätzung 73 meßbarer Raum 12 meßbare Menge 14 Meßbarkeit 10 Normalverteilung 34 -mehrdimensionale 46 -Standard 34 Observable 18 Parameter 70 Prozeß -i.i.d. 88 -Markovscher 88 -stochastischer 79 -Stationarität 87 Punktschätzung 71 Randverteilung 79 Schätzung -erwartungstreu 72 -Intervall 71 -Maximum-Likelihood 73 -Punkt 71 sicheres Ereignis 11 Signifikanzniveau 72 Standardabweichung 34 Standardnormalverteilung 34 109 Startverteilung 88 Stationarität 87 Statistik 70 -parametrische 70 Stichprobe 70 Stichprobenraum 70 Streuung 41 Trajektorie 87 Übergangsmatrix 88 -irreduzible 92 -positive 92 Unabhängigkeit 8 -paarweise 19 -vollständige 19 -zweier Ereignisse 9 -zweier Zufallsgrößen 19 Unkorreliertheit 40 unmögliches Ereignis 11 Varianz 34, 41 Verfeinerung des Ereignisraumes 8 Vergröberung des Ereignisraumes 7 Verteilung -absolut stetige 15 -diffuse 13 -diskrete 15 -endlichdimensionale 79 -Exponential 4, 25 -geometrische 24 -Normal 34 -Poissonsche 36 -Produkt 20 -singuläres 15 -verträgliche Familie 80 Verteilungsfunktion 16 Wahrscheinlichkeitsmaß 12 Wahrscheinlichkeitsraum 12 Zählmaß 12 Zerfallsrate 25 Zufallsgröße 18 zusammengesetztes Ereignis 4 Zustandsraum 87 110 Zustände -Äquivalenz 89 -unwesentliche 89 -wesentliche 89 Zylindermengen 80 111