Mehrdimensionale Gaußsche Normalverteilung und Brownsche Molekularbewegung Georg Messerle Diplomarbeit Hauptgutachter: Prof. Dr. Joachim Gwinner Universität der Bundeswehr München Fakultät für Luft- und Raumfahrttechnik Institut für Mathematik und Rechneranwendungen München, 18.05.06 I. Kurzzusammenfassung I. Kurzzusammenfassung Die für den Studenten der Ingenieurwissenschaften überaus komplexe und weitläufige Landschaft der Mathematik, mit Ihren mehr als dreitausend Einzeldisziplinen (Basieux[3]), erfordert im Hinblick auf wichtige Teilgebiete bedarfsgerechte und Zusammenfassungen verständliche, und aber Einführungen. nicht Gerade das unvollständige bei Studenten gefürchtete Gebiet der Stochastik und der mathematischen Statistik, erfordert daher eine genaue Hinführung und Einbettung in die Grundlagen des mathematischen Denkens. In dieser Arbeit werden vor allem Stochastische Prozesse, aber auch Grundlagen der Stochastik systematisch und aufeinander aufbauend erarbeitet und immer im Hinblick auf ihre Einbettung in die Strukturmathematik verständlich erklärt. Schwerpunkte sind dabei zunächst auf den grundlegenden Zusammenhängen und Strukturen gesetzt, sowie in späteren Kapiteln auf der Annäherung eines Wiener-Prozesses mittels der Zufälligen Irrfahrt und der Herleitung der gemeinsamen Verteilungsfunktion. Ihr Verhalten wird für große Zufallsvektoren studiert. Eine Hinführung zur Brownschen Molekularbewegung als die kohärente Fortsetzung des Kalküls der Markov´schen Ketten und der Zufälligen Irrfahrt in Verbindung mit multivariaten Gaußmaßen, bildet den zweiten Hauptteil. Dabei wird gesondert auf mehrdimensionale Bewegungen und das Verhalten der Kovarianzmatrix eines Wiener-Prozesses für differenzielle Zuwächse eingegangen. Diplomarbeit Stochastische Prozesse V Georg Messerle LRT 2002 Bezeichnungen Bezeichnungen ∅,∈, ⊂, ⊃ ⊂ ⊂ mengentheoretische Symbole ⊂ ⊂ Menge der natürlichen bzw. ganzen bzw. rationalen bzw. reellen bzw. komplexen Zahlen o.B.d.A. ohne Beschränkung der Allgemeinheit X(t,ω) Realisation ω der ZV zur Zeit t; äquivalent hierzu werden auch die Notationen Xt und X t (ω ) verwendet. Abbildung; z.B.: ξ : Ω → Z , Abbildung ξ aus dem → Raum Ω in den Raum Z. F,S… Felder und σ-Felder Restriktion von Abbildung f:A→B auf Menge A0 ⊂ A f A0 B Borel´sche σ-Algebra D c ; Ω\D Komplement von D I Einheitsmatrix A×B kartesisches Produkt der Mengen A und B (t ∧ t ) entspricht: min {ti , t j } X t1 ⊗ ... ⊗ X tn die von den Ereignismengen erzeugte Produkt-σ- i j Algebra m Mittelwert E ( Xt X s ) bedingter Erwartungswert Ansonsten werden nur Standardbezeichnungen und Standardschreibweisen verwendet. Diplomarbeit Stochastische Prozesse VI Georg Messerle LRT 2002 Abbildungsverzeichnis Abbildungsverzeichnis Abb. 24.1 Zustandsraum 24 Abb. 30.1 Übergangsgraph einer Markov´schen Kette 30 Abb. 31.1 Übergangswahrscheinlichkeit 31 Abb. 31.2 mehrstufige Übergangswahrscheinlichkeit 32 Abb. 44.1 Pfade eines zufälligen Läufers 44 Abb. 60.1 N(0,1)-Verteilung 60 Abb. 68.1 Entartung der bedingten Verteilung 61 Abb. 71.1 Verhalten der Verteilung für große t 71 Abb. 72.1 Entartung um den Nullpunkt 72 Abb. 76.1 Zwei unabhängige Wiener-Prozesse 76 Abb. 92.1 Stoppzeiten 92 Abb. 93.1 Zweidimensionaler Wiener-Prozess 93 Anmerkung: Sowohl Abbildungen als auch Formeln sind nach Seitenzahlen nummeriert um das Auffinden im Text zu erleichtern. Z.B.: Formel (23.2) bezeichnet die zweite Formel auf Seite 23. Formeln werden nur nummeriert, wenn sich im Text wieder darauf bezogen wird. Diplomarbeit Stochastische Prozesse VII Georg Messerle LRT 2002 II. Inhaltsverzeichnis II. II. Inhaltsverzeichnis I. Kurzzusammenfassung V Bezeichnungen VI Abbildungsverzeichnis VII 1. Motivation 5 2. Aufgabenstellung 6 3. Grundlagen 7 3.1. Mengen, Felder und Filtrationen…………………………………. 7 3.1.1. Algebra und Topologie…………………………………………… 8 3.1.2. Das σ-Feld………………………………………………………….. 10 3.1.3. Borel´sche Menge und mengenerzeugtes σ-Feld…………...12 3.1.4. Filtrationen………………………………………………………… 14 3.2. Der Wahrscheinlichkeitsraum…………………………………….. 15 3.2.1. Einführung………………………………………………………… 15 3.3. Wahrscheinlichkeitsmaße………………………………………….. 18 3.3.1. Inhalte auf σ-Algebren…………………………………………… 18 3.3.2. Maßdefinierende Funktion und Verteilungsfunktion…….. 19 3.3.3. Einschub: Zufallsvariable………………………………………. 20 3.3.4. Dichtefunktion……………………………………………………. 21 3.3.5. Das Lebesgue-Maß……………………………………………….. 21 4. Stochastische Prozesse (SP) 4.1. 23 Definition und Einführung…………………………………………. 23 4.1.1. Einschub: Zustandsräume…………………………………….. 24 4.2. Kenngrößen stochastischer Prozesse……………………………. 25 4.2.1. Verteilungsfunktionen und endlichdimensionale Verteilungen……………………………. 25 4.2.2. Die Trendfunktion…………………………………………………26 Diplomarbeit Stochastische Prozesse 1 Georg Messerle LRT 2002 II. Inhaltsverzeichnis 4.2.3. Die Kovarianzfunktion…………………………………………… 26 4.2.4. Die Korrelationsfunktion……………………………………….. 27 4.3. Eigenschaften stochastischer Prozesse…………………………..27 4.3.1. Stationarität……………………………………………………….. 27 4.3.2. SP mit unabhängigen Zuwächsen……………………………. 28 4.3.3. Die Markov- Eigenschaft………………………………………...28 4.4. Markov´sche Ketten………………………………………………….. 29 4.4.1. Markov´sche Ketten mit diskreter Zeit………………………. 30 4.4.2. Die Gleichung von Chapman-Kolmogoroff………………….. 34 4.4.3. Langzeitverhalten Markov´scher Systeme…………………... 35 4.4.4. Markov´sche Ketten mit stetiger Zeit, Markov-Prozess….. 36 5. Die zufällige Irrfahrt 5.1. 38 Einfacher Random-Walk……………………………………………. 38 5.1.1. Einführung………………………………………………………… 38 5.1.2. Erwartungswert und Varianz………………………………….. 42 5.1.3. Die m-stufigen Übergangswahrscheinlichkeiten………….. 44 5.2. Verhalten eines Random-Walk für große n…………………….. 46 5.2.1. Abschätzung der Aufenthaltswahrscheinlichkeiten für n→∞….………………………………………………………….. 49 5.3. Stetiger Random-Walk als Approximation eines WienerProzesses…………………………………………………………………. 51 5.3.1. Fokker-Planck-Gleichung……………………………………… 54 5.3.2. Der differentielle Random-Walk als Vorstufe des WienerProzesses………………………………………………………….. 55 6. Mehrdimensionale (Gaußsche Normal-)Verteilungen 6.1. 59 Definition und Einführung der Normalverteilung................. 59 6.1.1. Eigenschaften Gaußscher Verteilungen…………………….. 60 6.2. Die Faltungsstabilität der Normalverteilung…………………… 61 6.3. Die bedingte Verteilung und die Markov-Eigenschaft……….. 64 Diplomarbeit Stochastische Prozesse 2 Georg Messerle LRT 2002 II. Inhaltsverzeichnis 6.3.1. Die bedingte Verteilung der Brownschen Bewegung……...66 6.3.2. Die bedingte Varianz…………………………………………….. 69 6.4. Multidimensionale Normalverteilung unabhängiger Zufallsvariablen………………………………………………………. 69 6.4.1. Einschub: Dirac-Distribution………………………………….. 72 6.5. Die Normalverteilung als Lösung der Diffusionsgleichung…. 73 6.5.1. Analytische Ableitung…………………………………………….73 7. Brownsche Bewegung 7.1. 76 Definition und Eigenschaften……………………………………… 76 7.1.1. Physikalische Bedeutung………………………………………. 77 7.1.2. Definition…………………………………………………………… 78 7.2. Die „Topologie“ der Brownschen Bewegung……………………. 78 7.2.1. Einschub: Das Produktsigmafeld…………………………….. 79 7.3. Die Verteilungsfunktion der Brownschen Bewegung………… 82 7.3.1. Der Bezug zum zentralen Grenzwertsatz…………………… 82 7.3.2. Erwartungswert………………………………………………….. 83 7.3.3. Varianz……………………………………………………………...84 7.3.4. Die Inkremente des Wiener-Prozesses………………………. 86 7.4. Darstellung als Markov- bzw. Gauß-Prozess…………………… 87 7.4.1. Einschub: stochastischer Kern………………………………...88 7.4.2. Die Markov-Eigenschaft………………………………………….91 7.4.3. Die starke Markov-Eigenschaft……………………………….. 91 7.4.3.1. Einschub: Stoppzeiten……………………………………. 91 7.5. Mehrdimensionale Stochastische Prozesse…………………….. 93 7.5.1. Verallgemeinerung auf n Dimensionen…………………….. 93 7.5.2. Interpretation als Markov´sche Kette ………………………. 95 7.5.3. Brownsche Bewegung in mehreren Dimensionen……….. 96 7.5.3.1. Diffusionsgleichung für eine mehrdimensionale Bewegung………………………………………………………………. 96 7.5.4. Beispiel: zweidimensionale Brownsche Bewegung………..97 Diplomarbeit Stochastische Prozesse 3 Georg Messerle LRT 2002 II. Inhaltsverzeichnis 7.6. Stetigkeit der Trajektorien………………………………………….. 98 7.6.1. Stetigkeit im Quadratmittel……………………………………..98 7.6.2. Topologisches Analogon…………………………………………. 100 7.7. Die Kovarianzmatrix…………………………………………………. 102 7.7.1. Die Kovarianzfunktion……………………………………………. 102 8. Zusammenfassung 107 9. Glossar 108 10. Literaturverzeichnis 113 Diplomarbeit Stochastische Prozesse 4 Georg Messerle LRT 2002 1.Motivation 1. Motivation Trotz der umfangreichen mathematischen Ausbildung im Ingenieursstudium bleiben für die meisten Studenten viele grundlegende Zusammenhänge unklar. Vor allem die Vorstellung von Räumen und Abbildungen, insbesondere in der Linearen Algebra, stellt eine große Herausforderung für den Studenten dar. Da dieses Kalkül auch Grundlage der Stochastik und der mathematischen Statistik ist, soll diese Arbeit den Einstieg in die komplexe Welt der Stochastischen Prozesse im Allgemeinen und der Brownschen Bewegung im Speziellen, erleichtern. Dies geschieht durch die behutsamen Einführung der Begriffe und systematisches, durch lebensnahe Beispiele aus den Ingenieurwissenschaften unterlegtes Vorgehen. Dabei soll das vielschichtige Gebiet der Stochastischen Prozesse, immer unter Einbeziehung der Grundlagen, von Anfang an erläutert werden und dem Leser an den wesentlichen Stellen sowohl Beweise vorgeführt, als auch phänomenologische Annäherungen ermöglicht werden. Im Vordergrund steht die methodische Aufbereitung des Stoffes durch einen für den Studenten nachvollziehbaren und kohärenten Aufbau, der eine Auseinandersetzung erleichtert und einen raschen Gesamtüberblick zulässt. Unkompliziertheit ohne Unvollständigkeit und Ungenauigkeit ist der Anspruch. Durch eine Herleitung der Begriffe von den Grundlagen an und einer gezielten Vertiefung an den kritischen Stellen, soll den Bedürfnissen des Ingenieurs Rechnung getragen werden. Diplomarbeit Stochastische Prozesse 5 Georg Messerle LRT 2002 2. Aufgabenstellung 2. Aufgabenstellung Beginnend bei den Fundamenten der Wahrscheinlichkeitstheorie wird zunächst auf den Begriff des Wahrscheinlichkeitsraumes hingearbeitet. Besonderes Gewicht wird, im Hinblick auf den Schwerpunkt „Gaußsche Normalverteilung“, auf die Erklärung des Maßbegriffes sowie die Ableitung der Verteilungsfunktion gelegt. Der Begriff des Stochastischen Prozesses wird zunächst von seiner axiomatischen Definition her eingeführt und am Beispiel der Markov´schen Ketten mit diskreter Zeit verdeutlicht. Näher eingegangen wird neben den Markov´schen Ketten auf die zufällige Irrfahrt, die bereits als Vorläufer einer Brownschen Bewegung interpretiert werden kann. Der Schwerpunkt liegt hierbei auf der Betrachtung des Langzeitverhaltens irrfahrender Teilchen und der Approximation des WienerProzesses. Im Kapitel „Gaußsche Normalverteilung“ wird deren Definition und Verallgemeinerung auf n-Dimensionen, sowie ihre physikalische Bedeutung behandelt, sowie das Anfangsverhalten der gemeinsamen Verteilung eines nwertigen Zufallsvektors für Variationen des Parameters t, sei er diskret oder kontinuierlich, studiert. Den Hauptteil bildet die Einführung des Wiener-Prozesses. Dabei wird noch einmal besonders auf die Markov-Eigenschaft eingegangen und die Stetigkeit der Trajektorien nachgewiesen. Unter Ausnutzung der zuvor nachgewiesenen Unabhängigkeit der Inkremente wird die Brownsche Bewegung auch formal den Markov-Prozessen zugeordnet. Darüber hinaus wird die Vorstellung auf mehrere Dimensionen erweitert und die Kovarianzmatrix für eine 3-dimensionale Brownsche Bewegung berechnet. Diplomarbeit Stochastische Prozesse 6 Georg Messerle LRT 2002 4. Stochastische Prozesse 3. Grundlagen 3.1. Mengen, Felder und Filtrationen Nach der Definition des Begründers der Mengenlehre, Georg Cantor, ist eine Menge „eine Zusammenfassung von bestimmten, wohlunterscheidbaren Objekten unserer Anschauung oder unseres Denkens zu einem Ganzen“ (Basieux[14]). Gemäß dieser Definition lassen sich alle Objekte kategorisieren, zusammenfassen und als Menge betrachten. Alles ist eine Menge, und die Vorstellung von den Mengen und ihren Beziehungen untereinander bilden den Grundstein der Mathematik. Besonders wichtig sind die Beziehungen, die zwischen den Mengen bestehen und die ihnen Strukturen aufprägen. Es existieren drei Grundstrukturen: 1. Strukturierung durch Relationen, also Abbildungen aus der Menge X in die Menge Y vermittels einer Beziehung z.B.: x<y, x=y, a ist schöner als b, usw. 2. Die algebraische Struktur, M × M → M , also Abbildungen aus dem kartesischen Produkt [A1] der Menge in die Menge selbst, umgesetzt durch Verknüpfung zweier Elemente zu einem Dritten: a+b=c, a-c=b. 3. Die topologische Struktur, einfach ausgedrückt, die Strukturierung einer Menge M durch Auszeichnung von Teilmengen. Da gerade diese dritte Struktur auch den Grundstein der Stochastik bildet, und darüber hinaus Wahrscheinlichkeitstheorie zusammen zugrunde liegt, mit der werden Algebra die Begriffe aller hier eingeführt, um ein grundlegendes Verständnis zu ermöglichen. Diplomarbeit Stochastische Prozesse 7 Georg Messerle LRT 2002 4. Stochastische Prozesse 3.1.1. Algebra und Topologie a) Topologie Definition: T ⊆ P ( M ) nennt man eine Topologie T auf der Menge M wenn gilt: 1) ∅ ∈T ; M ∈T 2) A1 , A2 ∈ T → A1 ∩ A2 ∈ T 3) Ai ∈ T , i ∈ I → ∪ i∈I Durchschnittsstabilität A i ∈ T Vereinigungsstabilität (M,T) d.h. die Menge M, strukturiert durch die Topologie T, heißt topologischer Raum (TR). Die Elemente Bi ∈ M heißen die Punkte des topologischen Raumes. Die Elemente Ai der Topologie T heißen offene Mengen. Es sei (M,T) ein topologischer Raum und A⊂ M , dann heißt A abgeschlossen, wenn M\A offen ist, also nach Definition gilt: M\A ∈ T (auch: Komplementstabilität) (Jänich[8],Plachky[6]). Beispiele topologischer Räume: 1) M sei eine Menge. Dann ist ihre Potenzmenge eine Topologie auf M. Sie heißt diskrete Topologie, weil jede einelementige Menge offen ist. Sie ist die feinste Topologie, weil die Potenzmenge die Menge aller Mengen und somit auch die Obermenge aller Topologien auf M ist. In einer diskreten Topologie ist jede offene Menge abgeschlossen. 2) M sei wiederum eine Menge. Dann ist T = {∅, M } die gröbste Topologie auf M. Sie heißt triviale Topologie auf M. Da das Komplement von M die Nullmenge ist und umgekehrt, sind auch hier wieder alle Elemente sowohl offen als auch abgeschlossen. 3) Definition und Beispiel: Ein topologischer Raum heißt HaussdorffRaum (oder separierbar), wenn zu jedem x1 , x2 ∈ M , x1 ≠ x2 disjunkte Diplomarbeit Stochastische Prozesse 8 Georg Messerle LRT 2002 4. Stochastische Prozesse Umgebungen U1 ,U 2 ∈ T mit x1 ∈ U1 , x2 ∈ U 2 und U1 ∩ U 2 = ∅ existieren. Diese Forderung (→Kap.7.6.2.)(vgl. ist die Nachweis Grundlage auf des Stetigkeit Konvergenzbegriffes mit dem --Beweis (Merziger/Wirth[37], Jänich[17], Basieux[121]) ). Definition: Eine Abbildung f:X→Y heißt stetige Abbildung, wenn das Urbild jeder offenen Menge wieder offen ist, d.h.: für ein A ∈ Y und A offen in der Topologie T(Y)von Y, gilt f −1 ( A) ∈ X , wobei f −1 ( A) offen in der Topologie T(X) der Menge X sein muss. (→ Kap. 7.6.2.) Die Morphismen der Topologien, d.h. deren strukturerhaltende Abbildungen heißen demnach auch stetige Abbildungen. b) Algebra Unter einer algebraischen Struktur versteht man die Strukturierung einer Menge durch Verknüpfungen. Genauer gesagt, ist eine Verknüpfung eine Funktion ξ : M × M → M , also eine Abbildung aus dem kartesischen Produkt der Trägermenge M in die Menge M selbst. Dabei werden immer zwei Elemente aus M × M mittels einer Verknüpfung zu einem dritten Element verbunden, welches wiederum Teil der Menge M ist. Zu den Verknüpfungen zählen u.a. die Grundrechenoperationen (+, ×,…). Deshalb wird der Umgang mit diesen Operationen in der Schule auch schlicht Algebra genannt. Natürlich können nicht nur einzelne Zahlen (also Elemente des 1 ) miteinander verknüpft werden, sondern es kann sich bei den Elementen auch um Teilmengen einer Menge Ω , oder Mengen im Allgemeinen handeln (Basieux[39]). Diplomarbeit Stochastische Prozesse 9 Georg Messerle LRT 2002 4. Stochastische Prozesse 3.1.2. Das σ-Feld Da es nicht möglich ist, einem einzelnen Punkt ω aus einer Menge Ω eine Wahrscheinlichkeit zuzuordnen, ist man gezwungen mit Teilmengen der Potenzmenge eines Raumes Ω zu arbeiten [A2]. Diese speziellen Teilmengen sind die Felder und σ-Felder. Man benötigt zur systematischen Behandlung der Wahrscheinlichkeit eine Klasse von Teilmengen, welche alle in Frage kommenden Intervalle (also die interessierenden Ereignisse) enthält und auch nach Bildung von abzählbaren Vereinigungen und Durchschnitten derselben abgeschlossen bleibt. Abgeschlossen bedeutet in diesem Zusammenhang, dass alle Mengenoperationen, die mit den Teilmengen innerhalb der Klasse vorgenommen werden, wieder in die Klasse der Teilmengen zurückführen. Beispiel (Abgeschlossenheit): { x} = ∩ ( x − Wir betrachten: n 1 , x] n Jeder Punkt x auf der reellen Achse ist demnach als abzählbarer 1 Durchschnitt der Intervalle ( x − , x] darstellbar. Wenn eine Klasse alle n Punkte enthält und bei der Bildung beliebiger Vereinigungen abgeschlossen ist, enthält sie alle Teilmengen von Ω. (Anmerkung: Im speziellen Fall der später auftretenden σ-Felder, gilt die Abgeschlossenheit nur eingeschränkt: die Klasse der Teilmengen enthält bei Bildung beliebiger Vereinigungen nicht alle Elemente von Ω, sondern nur die sog. „beobachtbaren Ereignisse“.) Definition: Eine Auszeichnung von Teilmengen eines Raumes Ω heißt Feld, wenn folgende Forderungen erfüllt sind: Ω∈F A∈ F Ac ∈ F Diplomarbeit Stochastische Prozesse d.h. F ist komplementstabil 10 Georg Messerle LRT 2002 4. Stochastische Prozesse A, B ∈ F A ∪ B∈ F d.h. F ist vereinigungsstabil Da Ω c = ∅ → ∅ ∈ F Nach dem Gesetz von DeMorgan gilt außerdem: A ∩ B = ( Ac ∪ B c )c daraus folgt: A, B ∈ F → A∩ B∈ F d.h. F ist durchschnittsstabil Dies sind jedoch auch die Bedingungen für die Auszeichnung eines topologischen Raumes. Dennoch ist ein Feld im Sinne der Wahrscheinlichkeitstheorie nicht einfach eine Topologie auf Ω (siehe [A3]). Es handelt sich viel mehr um ein „topologieähnliches“ Gebilde, welches zwar die Bedingung der Abgeschlossenheit erfüllt, aber nicht alle Elemente der Trägermenge Ω enthält. In der Literatur wir oft auch der Begriff Algebra als Synonym für Feld verwendet. Diese Bezeichnung ergibt sich aus der Forderung nach Abgeschlossenheit, d.h. dass man bei speziellen Operationen (z.B. Durchschnittsbildung) in der Klasse F (mit Elementen A(i)) als Resultat immer wieder auf eine Teilmenge Ai ∈ F stößt. Insofern kann man den Begriff Algebra analog verwenden, da gilt: ξ :F × F → F Ein Feld ist eine algebraisierte Topologie auf Ω, eine sog. multiple Struktur. Ein σ-Feld entsteht, wenn das Feld zusätzlich bei Bildung von abzählbar unendlichen Vereinigungen abgeschlossen ist: A1 , A2 ... ∈ F → ∞ ∪A ∈F i und nach DeMorgan: i =1 A1 , A2 ... ∈ F → ∞ ∩A ∈F i i=1 Wozu diese Eigenschaften in der Praxis dienen wird im Kapitel „Wahrscheinlichkeitsraum“ erläutert. Beachte: Nicht jedes Feld ist automatisch auch ein σ-Feld. Diplomarbeit Stochastische Prozesse 11 Georg Messerle LRT 2002 4. Stochastische Prozesse Größtes σ-Feld auf Ω ist die Potenzmenge mit 2Ω Elementen, vgl. diskrete Topologie. Kleinstes σ-Feld ist demnach die triviale Topologie mit der Nullmenge und der Menge selbst als den Elementen. 3.1.3. Borel´sche Menge und mengenerzeugtes σ-Feld Wichtig für das Verständnis der Wahrscheinlichkeitstheorie anhand der Literatur, ist der immer wieder auftretende Begriff der Borel´schen Menge [A3]. In diesem Zusammenhang stößt man zunächst auf eine Klasse von Feldern, die wiederum als „Produkte“ bestimmter Klassen von Teilmengen einer Trägermenge Ω zutage treten. Bei der Untersuchung von Klassen befinden wir uns sozusagen im „2.Stockwerk“ des Gedankengebäudes der Mengen: Im Erdgeschoss sind die Punkte oder Atome von Ω, im ersten Stock die Teilmengen Ai. Klassen sind an sich nichts weiter als Zusammenfassungen von Teilmengen, die durch ihre speziellen Eigenschaften wiederum den Grundstein für eine größere Klasse legen. a) Mengenerzeugtes σ-Feld Definition: A sei eine Klasse von Teilmengen Ai einer Trägermenge Ω. Dann heißt σ(A) das von A erzeugte σ-Feld, wenn gilt: (i) A ⊂ σ(A) (ii) σ(A) ist ein σ-Feld (iii) σ(A) ist „so klein wie möglich“ , dazu später mehr. Diplomarbeit Stochastische Prozesse 12 Georg Messerle LRT 2002 4. Stochastische Prozesse Wie kann nun eine Klasse A ein σ-Feld erzeugen? Man kann sich vorstellen, dass auf einer Trägermenge Ω mehrere verschiedene Auszeichnungen von Teilmengen (Klassen) vorgenommen werden können, die den Bedingungen des σ-Feldes genügen, also selbst σ-Felder sind. Darüber hinaus ergibt ein völlig beliebiger Durchschnitt von σ-Feldern wiederum ein σ-Feld [A4]. Interessiert man sich beispielsweise bei einem Experiment E welche darin besteht, n-mal zu Würfeln, für dessen zufällige Ausgänge, so betrachtet man stets die Teilmenge A1 × ... × An von Ω1 × ... × Ω n . Die Produkte A1 × ... × An mit Ai ∈ A i erzeugen nun aber gerade die Produkt-σ-Algebra A i ⊗ ... ⊗ A n . Existiert nun als Durchschnitt verschiedener σ-Felder ein σ-Feld, welches die Klasse A beinhaltet also A ⊆ σ ( A ) , so heißt σ(A) das von A erzeugte σ-Feld. Das bedeutet, dass die Klasse A in allen erzeugenden Klassen enthalten sein muss, also in gewisser Weise einen „Grundbaustein“ darstellt (sie ist eine toplogische Subbasis des erzeugten Feldes) (Jänich[15]). Das erzeugte Feld σ(A) ist so klein wie möglich wenn gilt: A ⊂ G und G ist ein σ-Feld, dann ist G eines der σ-Felder deren Durchschnitt σ(A) erzeugt, so dass σ(A)wiederum in G enthalten ist (siehe auch [A3]). Eine Trägermenge Ω, versehen mit einer (Borel´schen) σ-Algebra heißt auch Messraum. b) Borel´sche Mengen Es sei I die Klasse der Teilintervalle (siehe unten) von (0,1] . Diese Klasse erzeugt ihrerseits ein σ-Feld B = σ ( I ) . Die Elemente dieses σ-Feldes heißen Borel´sche Mengen. Es handelt sich dabei um einen bestimmten Bereich der Potenzmenge des Einheitsintervalls und zwar um alle Teilintervalle I = {(a, b]: a, b ∈ ; a < b} Diplomarbeit Stochastische Prozesse 13 Georg Messerle LRT 2002 4. Stochastische Prozesse Die Festlegung nur Intervalle zuzulassen, deren rechte Grenze größer als die linke ist, garantiert, dass beim Herausgreifen eines beliebigen Intervalls die Differenz b-a stets positiv ist. Auf diese Weise bildet die Borel´sche σ-Algebra ein „Scharnier“ zwischen Topologie und Maßtheorie und ermöglicht den axiomatischen Zugang zur Wahrscheinlichkeitstheorie (Kap. 3.2.2.). Der Zustandsraum eines Stochastischen Prozesses (Kap. 4.1.) muss dieses Kriterium erfüllen. 3.1.4. Filtrationen Mit dem Fortschreiten der Zeit vermehrt sich unser Wissen. Wir ändern unsere Sichtweise auf die Vergangenheit, streichen vormals gedachte Möglichkeiten aus unserem Gedächtnis und lassen neue zu. Kurz: wir wissen immer besser Bescheid, was passiert ist und was alles passieren kann (Brzezniak/Zastawniak[46], Karatzas/Shreve[3]). Dieser Wissenszuwachs kann mathematisch durch eine Filtration modelliert werden. Definition: Eine Folge von σ-Feldern F1 , F2 , F3 .... auf Ω mit der Eigenschaft F1 ⊂ F2 ⊂ F3 .... ⊂ F wird eine Filtration genannt. Fn bezeichnet den Stand des Wissens zum Zeitpunkt n. Er beinhaltet alle Ereignisse A(n). Zum Zeitpunkt n ist also die Aussage möglich, ob sich ein Ereignis A(k) mit k ≤ n ereignet hat oder nicht. Mit fortschreiten der Zeit wird es eine Zunahme von Ereignissen A(k) geben, das heißt, die Familie Fn , welche unser Wissen repräsentiert, wird größer. Wir können also immer besser beurteilen, ob sich eine beliebiges Ereignis bis dahin ereignet hat oder nicht. Praktische Bedeutung haben die Filtrationen bei der Realisation von Zufallsvariablen (Kap. 7.4.3.1. Stoppzeiten). Dabei werden Teilmengen aus Diplomarbeit Stochastische Prozesse 14 Georg Messerle LRT 2002 4. Stochastische Prozesse dem σ-Feld des Wahrscheinlichkeitsraumes, der Ereignismenge, herausgegriffen, sprich realisiert. Die Zufallsvariable greift dabei immer ins „neueste“ σ-Feld, welches alle vorhergehenden enthält (Kap. 7.2.) 3.2. Der Wahrscheinlichkeitsraum 3.2.1. Einführung Jede endliche Folge von Versuchen V1 , V2 , V3 ...Vn führt ein Ergebnis E1 , E2 , E3 ...En herbei. Dabei bedeutet E j ( k ) : Zustand E j , vom Versuch Vk herbeigeführt. Das heißt, der Ablauf der Versuche (später auch des Prozesses) wird durch eine Aussagenfolge E j1 (1), E j2 (2), E j3 (3)....E jn ( n) beschrieben. Es sind nun drei Fälle denkbar, in denen Beziehungen zwischen den Aussagen hergestellt werden können (Basieux[150], Bauer[1 ff]). 1. Wenn j1... jn sind bekannt sind, dann ist auch jn +1 bekannt. Daraus folgt, dass bei Vorliegen von E j1 (1) , das Ergebnis E jn (n) bereits vollständig determiniert ist. Solche Angelegenheiten sind dann nicht Sache der Stochastik. 2. Obwohl die j1... jn bekannt sind, ist das Ergebnis völlig unbestimmt d.h. aus der Kenntnis der ersten m Versuche fließt keine Information über die Resultate der späteren Versuche. Chaos. 3. Das Resultat der ersten m Versuche liefert eine gewisse Information über den Versuch V(m+1), welche die möglichen Versuchsergebnisse verschieden oder gleich stark vermuten lässt. Bsp.: Ziehen aus einer Urne. Der erste Fall beschreibt völlig deterministische Ereignisse, die i.A. mit Hilfe von Differentialgleichungen beschrieben werden können. Im zweiten Fall ist ausgehend von einem Versuch n keine Aussage über den Versuch n+1 möglich. Die Ereignisse verlaufen nach nicht greifbaren Gesetzen. Drittens stellt den häufigsten und wichtigsten Fall dar und weist gleichzeitig auf Diplomarbeit Stochastische Prozesse 15 Georg Messerle LRT 2002 4. Stochastische Prozesse einen weit verbreiteten Begriff hin: die bedingte Wahrscheinlichkeit (Kap. 6.3.), oder genauer gesagt, die Wahrscheinlichkeit, dass B eintritt, wenn zuvor A eingetreten ist. Wir werden in späteren Kapiteln Folgen von Zufallsereignissen betrachten und die Beziehungen, die zwischen den einzelnen Realisationen bestehen, genau untersuchen. Losgelöst von den Vorstellungen, die die reale Welt uns intuitiv vorgibt, kann der Begriff der Wahrscheinlichkeit auch in mengentheoretischer Fassung konkretisiert werden. Aufbauend auf der Vorstellung der Topologien und ihren Morphismen, lässt sich der Begriff des Wahrscheinlichkeitsraumes definieren. Dies tat zuerst Andrej Kolmogoroff, mit seiner hier angegebenen axiomatischen Definition der Wahrscheinlichkeit aus dem Jahre 1933: Definition: Ein Tripel (Ω,F,P) heißt Wahrscheinlichkeitsraum, wenn die folgenden Bedingungen erfüllt sind: 1. Ω ist eine Menge 2. F ⊆ P ( Ω ) . F ist eine Menge von ausgezeichneten Teilmengen von Ω, also eine Teilmenge der Potenzmenge. F ist ein σ-Feld und heißt auch Ereignisfeld. 3. P: F →[0,1]; P ist eine reelle Funktion von F ins abgeschlossene Einheitsintervall [0,1]. P besitzt folgende Eigenschaften: a) P (∅) = 0 P (Ω) = 1 b) Für jede endliche oder abzählbar unendliche Familie ( A1 )i∈I von Elementen aus F , wobei die Elemente ( A1 )i∈I paarweise disjunkt sind, gilt P (∪ i∈I ) Ai = ∑ i∈I P ( Ai ) . Ausgehend von dem Würfelversuch, lassen sich diese Axiome sehr anschaulich interpretieren: Diplomarbeit Stochastische Prozesse 16 Georg Messerle LRT 2002 4. Stochastische Prozesse 1. Ω ist die Menge aller elementaren, möglichen Ereignisse. 2. Als Auszeichnung einer Teilmenge der Potenzmenge von {1,2,3,4,5,6}, F ⊆ P ( Ω ) , wird für den einmaligen Würfelversuch die Menge Ω selbst mit ihren Elementen betrachtet. F ist die Menge aller beobachtbaren Ereignisse des Wahrscheinlichkeitsraumes. Wenn ein Würfelversuch bevorsteht, dann ist folgendes Ereignisfeld sinnvoll: Ω bestehe aus sechs Ereignissen Ei = „es wird eine Zahl gewürfelt“, also Ω = { Ei i = 1, 2,3, 4,5, 6} , und F sei die enge aller Teilmengen von Ω. Dabei muss zum Beispiel das Ereignis A = { E1 , E3 , E4 } gedeutet werden als: „Es wird 1 oder 3 oder 4 gewürfelt“. Allgemeiner bedeutet A ∈ F: eines der Elementarereignisse aus A tritt ein. Das Ereignis Ω\A ist das Ereignis „nicht A“; und offensichtlich tritt ja auch für jedes A immer eines Ereignisse A oder Ω\A ein. Das Ereignis Ω ist absolut sicher, das Ereignis ∅ dagegen unmöglich. Die Eigenschaften eines Ereignisfeldes sind damit recht plausibel. 3. P ist eine Abbildung (Morphismus, stetige Abbildung) aus dem Ereignisfeld des W-Raumes in das Einheitsintervall. Die Bedingung P (∅) = 0 P ( Ω ) = 1 , enthält eine willkürliche Normierungsforderung, die aber mit der intuitiven Vorstellung gut übereinstimmt. Das sichere Ereignis „eine natürliche Zahl wird gewürfelt“, wird eben bei jedem Versuch eintreten; das unmögliche Ereignis „keine Zahl wird gewürfelt“ ist, wenn wir die Möglichkeit ausschließen, dass der Würfel auf einer Kante stehen bleibt usw., naturgemäß ausgeschlossen. Axiom 3b) ist das wichtigste Axiom des Tripels, da es effektive Methoden zur Berechnung der Wahrscheinlichkeiten ermöglicht. Es ist auch die Voraussetzung, dass es sich bei der Abbildung P um einen Morphismus handelt. Charakteristisch ist, dass nicht nur einzelne, sondern betrachtet auch zusammengesetzte werden können Diplomarbeit Stochastische Prozesse und 17 Ereignisse auf diese (Familien Weise ( A1 )i∈I ) beliebige Georg Messerle LRT 2002 4. Stochastische Prozesse Ereigniskombinationen prognostiziert werden können. Das Raumkalkül ist schlicht ein zweckmäßiges mathematisches Konstrukt, zur Modellierung eines komplexen Lebenssachverhaltes. 3.3. Wahrscheinlichkeitsmaße Wie im vorstehenden Kapitel erläutert, vermittelt die Funktion P eine Abbildung einer Ereignisfamilie aus der Trägermenge Ω, auf das Einheitsintervall [0,1]. Grundproblem ist, eine Vorschrift zu finden, die den Ereignisfamilien und Einzelereignissen die vom Lebenssachverhalt vorgegebene Wahrscheinlichkeit zuordnen kann. Definition: Eine Mengenfunktion ist eine reellwertige Funktion, definiert auf einer Klasse von Teilmengen von Ω. Eine Mengenfunktion P auf einem Feld F heißt Wahrscheinlichkeitsmaß, wenn folgende Bedingungen erfüllt sind: 1. 0≤P(A)≤1, 2. P (∅) = 0 3. Wenn A1,A2…An eine paarweise disjunkte Folge von F-Mengen ist und wenn A ist Element von F P ( Ω ) = 1 , normiert ∞ ∪A k ∈ F ist, dann gilt: k =1 P (∪ i∈I ) Ai = ∑ i∈I P ( Ai ) Mathematisch exakter ausgedrückt, gilt folgendes: 3.3.1. Inhalte auf σ-Algebren Definition: Es sei F eine Algebra über Ω. Dann heißt die Abbildung µ:F→ Diplomarbeit Stochastische Prozesse 18 mit Georg Messerle LRT 2002 4. Stochastische Prozesse µ( ∅ )=0 und µ(A)≥0, A ∈ F (Nicht-Negativität) und µ(A+B)=µ(A)+µ(B), A∩B= ∅ (Additivität), Inhalt auf F. Der Inhalt µ heißt weiterhin σ-additiv, wenn µ (∑ ∞ n =1 ) An = ∑ n =1 µ ( An ) , ∞ Weitere Eigenschaften von Inhalten (Plachky[14]): Ein Inhalt µ auf einer Algebra F über Ω heißt a) endlich, wenn µ(Ω)<∞ gilt, b) σ-endlich, wenn alle An ∈F, n=1,2,3,…, paarweise disjunkt sind und ∑ ∞ n =1 An = Ω sowie µ( An )<∞ gelten. Ein σ-additiver Inhalt µ auf einer σ-Algebra F über Ω heißt Maß. Gilt zusätzlich µ(Ω)=1, so heißt µ Wahrscheinlichkeitsmaß. 3.3.2. Maßdefinierende Funktion und Verteilungsfunktion Definition: Ist µ ein Maß auf F (F1 Borel) mit der Eigenschaft µ((a,b])<∞ für a,b ∈ und a<b so heißt eine Funktion mit den Eigenschaften F(x):=µ(0,x]), x>0 und F(x):=-µ((x,0]), x<0 , jedoch gilt stets F>0, sowie F(0):=0, maßdefinierende Funktion. Wenn F zusätzlich monoton wachsend (die Monotonie folgt unmittelbar aus der Nicht-Negativität der endlichen Inhalte über einer borel´schen Algebra) und rechtsseitig stetig ist und darüber hinaus gilt: F(-∞)= lim F ( x ) = 0 und F(∞)=1, dann heißt die maßdefinierende Funktion F x →−∞ eindimensionale Verteilungsfunktion. Diplomarbeit Stochastische Prozesse 19 Georg Messerle LRT 2002 4. Stochastische Prozesse Also: Inhalt → Maß → Wahrscheinlichkeitsmaß + maßdefinierende Funktion → Verteilungsfunktion. Ausgehend vom Inhalt wird unter Heranziehung von Axiomen der Begriff der Verteilungsfunktion entwickelt. Bevor der Begriff näher erläutert wird, zunächst ein Einschub über Zufallsvariable (ZV) und ihren Zusammenhang mit den Wahrscheinlichkeitsmaßen. 3.3.3. Einschub: Zufallsvariable Meistens lässt sich der Ausgang eines Experiments durch eine reellwertige Größe X beschreiben. Zum Beispiel: - Werfen eines Würfels X = Augenzahl Ω={1,2,3,4,5,6} - Werfen einer Münze X=0,wenn Kopf; X=1 wenn Zahl; Ω={0,1} - Abgaskontrolle bei Pkw X = Konzentration von NO, o.ä. Festzuhalten ist, dass das Ergebnis eines wissenschaftlichen Experiments meistens Werte in den reellen Zahlen annimmt (Marti[10]). Man kann die Zufallsvariable daher auch als eine Abbildung X:Ω→R auffassen, die durch Realisation eine Abbildung aus der Trägermenge Ω in eine Teilmenge der reellen Zahlen vermittelt. Diese Teilmenge ist wiederum Element der Trägermenge Ω und heißt auch Zustandsraum Z. Jede ZV zieht ein Wahrscheinlichkeitsmaß µ nach sich, welches auf dem σFeld (der σ-Algebra über Ω) der Borel´schen Mengen von Ω definiert ist und seinerseits eine Abbildung µ:R→R+, vom Zustandsraum Z ins abgeschlossene Einheitsintervall vermittelt. Die Verteilung einer ZV X ist also das Wahrscheinlichkeitsmaß µ, definiert auf allen Teilmengen A von F, ausgedrückt durch die Funktion F(x)=µ(0,x]. Die Verteilungsfunktion F ordnet praktisch die Wahrscheinlichkeiten zu. Es gilt: µ(A)=P(X ∈ A). Strenger: F(x)=µ((0,x])=P{X≤x} Bemerkung: Diplomarbeit Stochastische Prozesse 20 Georg Messerle LRT 2002 4. Stochastische Prozesse Die σ-Additivität des Wahrscheinlichkeitsmaßes impliziert für F eine Treppenfunktion wenn die Ereignismenge diskret ist. 3.3.4. Dichtefunktion Definition: Eine Funktion f:R→R heißt Dichtefunktion der Zufallsvariablen X wenn gilt: P { X ∈ B} = ∫ f X ( x )dx B Weitere Eigenschaften der Dichtefunktion: F ( x ) = µ ( (o, x]) = P { X ≤ x} = ∫ f X ( x )dx Es gilt: B d F ( x) = f ( x) . dx und Bemerkung: Nach dem Lebesgueschen Ableitungssatz, ist jede auf einem Intervall der Zahlengeraden differenzierbar. definierte, In fast Differentialquotient F´(x). monotone, allen reelle Punkten Funktion existiert λ1 − fast daher der überall reelle Nach dem Satz von Radon-Nikodym bezeichnet man f ( x ) auch als Radon-Nikodymsche-Derivierte (Bauer [179]). 3.3.5. Das Lebesgue-Maß Definition: Es sei F die Borelsche-σ-Algebra mit I = {(a, b]: a, b ∈ ; a < b} auf (0,1]. Die Zuordnung λ(I) = I = b-a heißt Lebesgue-Maß, wenn gilt: 1. ∅ ∈ I , Intervall mit Länge 0, d.h. λ ( 0 ) = 0 2. A = ∪ i =1 I n , I n paarweise disjunkt 3. λ ( A) = ∑ λ ( I n ) = ∑ I n n n n i =1 i =1 und (2., 3. Axiome!) Diplomarbeit Stochastische Prozesse 21 Georg Messerle LRT 2002 4. Stochastische Prozesse Man erkennt, dass auf dem Einheitsintervall der Absolutbetrag einer Teilmenge gleich ihrer („prozentualen“) Wahrscheinlichkeit ist und das Lebesgue-Maß diese Zuordnung vornimmt (Plachky[19], Bauer[XIII]). Es ist das einzige Maß welches jedem Intervall seine Länge als Wahrscheinlichkeit zuordnet. Das Lebesgue-Maß ist aufgrund dessen translationsinvariant, d.h. es kommt nur auf die Länge des Teilintervalls an, nicht jedoch auf seine Lage im Einheitsintervall: λ(B+x)=λ(B). Diese Vorstellung liegt dem im Kapitel „Eigenschaften Stochastischer Prozesse“ auftretenden Begriff der Stationarität eines stochastischen Prozesses zugrunde (Billingsley). Diplomarbeit Stochastische Prozesse 22 Georg Messerle LRT 2002 4. Stochastische Prozesse 4. Stochastische Prozesse 4.1.Einführung und Definition Wie in Kap. 3.2. erläutert, handelt es sich bei der ZV X um das Ergebnis eines Versuches unter bestimmten, vorgegebenen Bedingungen. Ändern sich diese, so wird sich auch das Ergebnis des Experiments verändern. Manche Ereignisse werden wahrscheinlicher, andere verlieren an Bedeutung. Um die Veränderung der Bedingungen (z.B. bei Langzeitexperimenten) mit zu berücksichtigen, betrachtet man Zufallsgrößen X=X(t), die von einem deterministischen Parameter t abhängen. Dies führt zu allgemeineren Zufallsexperimenten, als den bisher betrachteten. Was gemeint ist, soll zunächst anhand eines Beispiels verdeutlicht werden: Beispiel: Messen der Temperatur über Jahreszeitraum. Es wird täglich am selben Ort zur selben Zeit einmal die Temperatur gemessen. Die Messergebnisse schwanken natürlich zufällig, sind aber logischerweise auch von der Jahreszeit t abhängig. Es ist klar, dass es sich bei Temperaturmessungen im Laufe eines Jahres um Werte verschieden verteilter Zufallsvariablen handelt. Die am Tag i gemessene Temperatur bezeichnet man daher mit X(i). Bei kurzen Zeiträumen (z.B. ein Tag) kann jedoch davon ausgegangen werden, dass die ZV identisch verteilt sind. Werden die Temperaturen nicht nur an diskreten Zeitpunkten (Tagen), sondern mittels eines Sensors kontinuierlich das ganze Jahr über gemessen, so führt dies zu einer ZV, die von einem reellen Parameter t abhängt. Auf diese Weise erhält man für jedes Jahr den Temperaturverlauf als eine stetige Funktion der Zeit x=x(t). Dabei ist x als Wert der Zufallsvariablen X zu verstehen. Wird der Einfluss langfristiger Veränderungen des Weltklimas vernachlässigt, sind die Verläufe rein zufallsbedingt. Diplomarbeit Stochastische Prozesse 23 Georg Messerle LRT 2002 4. Stochastische Prozesse Man könnte also eine Klasse Zufallsexperimente definieren, die „Messen der Temperatur über ein Jahr“ heißt und alle Familien (zufälligen Vektoren) { X(t), 0≤t≤T } betrachten. Als Ergebnisse erhielte man dann auch nicht mehr einzelne Realisationen x der ZV X, sondern reelle Funktionen, so genannte zufällige Funktionen. Anstelle dieser Bezeichnung verwendet man auch den Ausdruck stochastischer Prozess oder zufälliger Prozess (Beichelt/Montgomery[110]). Weitere Beispiele stochastischer Prozesse sind zum Beispiel die Kursschwankungen an der Börse, der Pfad eines tropischen Wirbelsturmes (Freund/Pöschel[89]) oder der Gang eines Schwerbetrunkenen („DrunkardsWalk“, Srinivasan/Mehata[56]). Definition (1): Unter einem stochastischen Prozess mit Parameterraum T und Zustandsraum Z (siehe Zustandsraum) versteht man eine Familie von Zufallsvariablen {X(t), t ∈ T}, wobei Z die Menge aller Zustände (Werte) bezeichnet, die die X(t) für alle t annehmen können (Borodin/Salminen[1]). Der Parameter t wird im Allgemeinen mit der Zeit identifiziert, kann aber praktisch beliebige physikalische Bedeutung haben. In den meisten Fällen handelt es sich bei der Menge T={ t:t ∈ N } um die Menge der natürlichen Zahlen, die Zeit nimmt also diskrete Werte an. Die Menge T={ t: a≤t≤b, b>a, a≥0 } kann aber auch ein beliebiges Intervall der reellen Zahlen sein d.h. in diesem Fall ist die „Zeit“ stetig. Die Menge T kann physikalisch als Beobachtungszeitraum aufgefasst werden, in der allgemeinen Theorie stochastischer Prozesse, kann der Parameterraum T aber als beliebig vorausgesetzt werden. Definition (2): Stochastische Prozesse X t : Ω → Z mit Z ⊆ n sind Familien {X t : t ∈T} von Zufallsvariablen , die über ein und demselben Wahrscheinlichkeitsraum Diplomarbeit Stochastische Prozesse 24 Georg Messerle LRT 2002 4. Stochastische Prozesse (Ω,F,P) definiert sind, wobei (Ω,F,P) ein beliebiger Wahrscheinlichkeitsraum sein kann, der oft nicht näher spezifiziert wird. Die Indexmenge T kann eine beliebige Menge sein. Der Bildraum Z der ZV X t kann ebenfalls eine beliebige Menge sein, die lediglich mit einer σ-Algebra B(Z) von Teilmengen von Z versehen ist, d.h. (Z, B(Z)) ist ein beliebiger Messraum, der so genannte Zustandsraum des stochastischen Prozesses (Schmidt[3], Karatzas/Shreve[1]). 4.1.1. Einschub: Zustandsräume Abb. 24.1 Es ist: X t : Ω → Z ⊆ W⊂ und Z ⊂ W ⊂ n Zur Erklärung des Begriffs und zur Anbindung an das Kalkül des Wahrscheinlichkeitsraumes lässt sich die ZV X auch als Abbildung begreifen, die durch Realisation (also den Übergang von X→x) zum Zeitpunkt t, aus der Menge der „möglichen“ Ereignisse, in die Menge der „tatsächlich eingetretenen“ Ereignisse Z abbildet. Der Zustandsraum kann sowohl eine diskrete Menge, d.h. mit abzählbaren Elementen, als auch ein Intervall sein. In diesem Fall spricht man von einem stochastischen Prozess mit stetiger Zeit. (Karlin[17]) Diplomarbeit Stochastische Prozesse 25 Georg Messerle LRT 2002 4. Stochastische Prozesse D efinition: Sei At die mögliche Realisation von X t für ein festes t. Dann wird die Menge Z = ∪ At t∈T der Zustandsraum eines stochastischen Prozesses {X t : t ∈T} genannt. Es handelt sich ebenfalls um einen Messraum, da ja die Produkte A1 × ... × An mit Ai ∈ A i eine Produkt-σ-Algebra erzeugen, so dass gilt: A i ⊗ ... ⊗ A n = B ( Z ) (→Kap. 3.1.3.). (Brzezniak/Zastawniak[88], Srinivasan/Mehata[10]) 4.2. Kenngrößen stochastischer Prozesse 4.2.1. Verteilungsfunktionen und endlich-dimensionale Verteilungen Die Verteilungsfunktionen Ft ( x) = P( X t ≤ x) der X t sind bei reellwertigen Zufallsvariablen, die wohl wichtigsten Funktionen in Verbindung mit einem stochastischen Prozess. Sie geben Aufschluss über das Wesen des Prozesses. Die Gesamtheit der Verteilungsfunktionen bestimmt die Wahrscheinlichkeitsverteilung des stochastischen Prozesses. Die vollständige Charakterisierung eines SP erfordert daher für alle n=1,2,3,…und für alle nTupel {t1...tn } mit ti ∈ T die Angabe der gemeinsamen Verteilungsfunktion des n-dimensionalen zufälligen Vektors { X (t1 ), X (t2 ),..., X (tn )} : Ft1 ,t2 ,...tn ( x1 , x2 ,...xn ) = P { X (t1 ) ≤ x1 , X (t2 ) ≤ x2 ,..., X (tn ) ≤ xn } D efinition: Sei { X t , t > 0, t ∈T } ein SP mit T=[0,∞) und Z= Indizes wir die Mengenfunktion Pt1 ...tn : Β ( Diplomarbeit Stochastische Prozesse 26 n . Für jedes n-Tupel t..t>0 von ) → [0,1] mit Georg Messerle LRT 2002 4. Stochastische Prozesse ( Pt1 ...tn ( B1 × ... × Bn ) = P xt1 ∈ B1 ,...xtn ∈ Bn {Xt} endlich-dimensionale Verteilung von n-dimensionale ) genannt. Es handelt sich um eine Verteilungsfunktion, auf die alle Gesetze von beschreibt den mehrdimensionalen ZV zutreffen (Marti[56]). 4.2.2. Die Trendfunktion Die Trendfunktion eines stochastischen Prozesses Erwartungswert als Funktion der Zeit: m(t)=E(X(t)), d.h. sie beschreibt die durchschnittliche Entwicklung. +∞ Es gilt: m(t ) = ∫ xf ( x)dx t ∈T t wenn f t (t ) = −∞ dFt ( x) dx existiert. 4.2.3. Die Kovarianzfunktion Die Kovarianzfunktion eines Stochastischen Kovarianz zwischen den Zufallsgrößen Prozesses X t und Xs beschreibt die als Funktion der Zeitpunkte t und s. Definition: K ( s, t ) = Cov( X t , X s ) = E ([ X s − ms ][ X t − mt ]) = E ( X s X t ) − ms mt Im Spezialfall s =t gilt: Var ( X t ) = K (t , t ) Die Funktion ist im Zusammenhang mit der Markov-Eigenschaft und dem Grenzübergang s→t zweier aufeinander folgender ZV X s und X t , wichtig. Sie beschreibt die Korrelation der ZV zweier unterschiedlicher Zeitpunkte als Funktion Ihres Abstandes auf der Zeitachse. Da nach der MarkovEigenschaft (siehe Abschnitt 3.4.3.3.) nur unmittelbare Vorgängerzeitpunkte maßgebend für die Realisation der ZV sind und nicht der Prozesspfad, wird Diplomarbeit Stochastische Prozesse 27 Georg Messerle LRT 2002 4. Stochastische Prozesse das Verhalten der Kovarianzfunktion beim Übergang s→t in den Kapiteln 4.6 und 5.4ff ausführlich behandelt. 4.2.4. Die Korrelationsfunktion Wie in der elementaren Statistik kann auch bei den Stochastischen Prozessen ein Maß der Abhängigkeiten zwischen zwei Zufallsvariablen eingeführt werden. Die Korrelationsfunktion beschreibt gleich der Kovarianzfunktion die Abhängigkeit zweier ZV als Funktion der Zeitpunkte s und t. Sie ist eine bezogene Kovarianzfunktion. Definition: ρ ( s, t ) = Cov ( X s , X t ) Var ( X s ) Var ( X t ) 4.3. Eigenschaften stochastischer Prozesse 4.3.1. Stationarität Man unterscheidet zwischen: a) Stationarität im weiteren Sinn: wenn m(t)=konst. und wenn auch die Varianz konstant ist: Var(X(t))=konst. ( Def. Var(X(t)), siehe 4.2.3) b) Stationarität im engeren Sinn Der stochastische Prozess { X t , t ∈ T } ist stationär im engeren Sinne, oder stark stationär, wenn für alle n sowie für beliebige reelle h (mit ti + h ∈ T ), für alle nTupel {t1 , t2 ...tn } und alle { x1 , x2 ...xn } gilt: Ft1 ,t2 ...tn ( x1 , x2 ...xn ) = Ft1 + h ,t2 + h ,...tn + h ( x1 , x2 ...xn ) Diplomarbeit Stochastische Prozesse 28 Georg Messerle LRT 2002 4. Stochastische Prozesse d.h. die Verteilung translationsinvariant und damit gegenüber das Wahrscheinlichkeitsmaß absoluten Zeitverschiebungen. sind Die Fluktuation der Trajektorien um die Trendfunktion wird keine signifikanten Änderungen erfahren. Die Trendfunktion verläuft bei stationären Prozessen parallel zur Zeitachse. 4.3.2. Stochastische Prozesse mit unabhängigen Zuwächsen Der Zuwachs eines stochastischen Prozesses im Intervall [t1 , t2 ] wird definiert als die zufällige Differenz X (t2 ) − X (t1 ) . Zuwächse können natürlich auch negativ sein (→Kap. 7.3.4.). a) homogene Zuwächse {Xt , t ∈T} hat homogene oder stationäre Zuwächse wenn X ( t2 − τ ) − X ( t1 − τ ) für alle τ mit t1 + τ ∈ T und t2 + τ ∈ T die gleiche Wahrscheinlichkeitsverteilung haben. Anschaulich geht es hier um die „Schrittweite“ eines stochastischen Prozesses, also um die Abstände zwischen den Werten der einzelnen Realisierungen (bei diskreten Parametern), die wiederum durch eine Zufallsvariable beschrieben werden können. b) unabhängige Zuwächse {Xt , t ∈T} n-Tupel hat unabhängige Zuwächse wenn gilt: für alle n=1,2,3,… und alle {t1 , t2 ,..., tn } mit t1 < t2 < ... < tn , ti ∈ T sind die Zuwächse X 2 − X 1 , X 3 − X 2 ,..., X n − X n −1 unabhängig von t. Das bedeutet, dass sich die Zuwächse aus disjunkten Intervallen gegenseitig nicht beeinflussen. 4.3.3. Die Markov-Eigenschaft Die Markov-Eigenschaft ist eine der wichtigsten Eigenschaften bei der Beschreibung stochastischer Prozesse, da die SP unter anderem anhand dieser Eigenschaft klassifiziert werden. Diplomarbeit Stochastische Prozesse 29 Georg Messerle LRT 2002 4. Stochastische Prozesse Definition: { X t , t ∈ T } hat Tupel die Markov-Eigenschaft, wenn für alle n=2,3,… und alle (n+1)- {t1 , t2 ,..., tn+1} mit t1 < t2 < ... < tn +1 , sowie für beliebige Ai ⊆ Z , i = 1, 2,..., n + 1 gilt: ( ) ( P X tn+1 ∈ An +1 X tn ∈ An , X tn−1 ∈ An −1 ,..., X t1 ∈ A1 = P X tn+1 ∈ An +1 X tn ∈ An Wenn gilt Z = ) , sind die An hierbei disjunkte Intervalle von Z. Die Wahrscheinlichkeit, dass X tn+1 im Intervall An +1 realisieren wird, hängt nur vom gegenwärtigen Zustand ab, nicht aber von vergangenen Zuständen. Für die Wahrscheinlichkeitsverteilung der ZV X tn+1 ist nur der augenblickliche Zustand maßgebend, nicht aber die frühere Entwicklung des Prozesses, sprich wie man in diesen Zustand gelangt ist. Prozesse die die MarkovEigenschaft haben, werden Markov´sche Prozesse genannt. Prozesse mit unabhängigen Zuwächsen sind immer markovsch. Bemerkung: Gaußscher Prozess Ein SP heißt Gaußscher Prozess, wenn die zufälligen Vektoren für alle nTupel einer n-dimensionalen Normalverteilung genügen. (→Kap. 7.4.). 4.4. Markov´sche Ketten Markov´sche Ketten sind „einfache“ stochastische Prozesse, mit deren Hilfe grundlegende Probleme relativ einfach und anschaulich demonstriert werden können. Sie können (im fortgeschrittenen Stadium) sogar bereits zur Annäherung einer eindimensionalen Brownschen Bewegung benutzt werden. Diplomarbeit Stochastische Prozesse 30 Georg Messerle LRT 2002 4. Stochastische Prozesse 4.4.1. Markov´sche Ketten mit diskreter Zeit Das Grundproblem wird wie folgt bezeichnet: Es sei (Ω,F,P) ein Wahrscheinlichkeitsraum und Z der dazugehörige Zustandsraum. Zwischen den Elementen von Z (also den möglichen Zuständen) sind Übergangswahrscheinlichkeiten bestimmt. Abb. 30. 1 Definition: Ein stochastischer Prozess {Xt , t ∈T} mit dem Zustandsraum Z = {0,1, 2,...} heißt Markov´sche Kette mit diskreter Zeit, falls T diskret ist und dieser Prozess die Markov-Eigenschaft aufweist. Die pij = P ( X n +1 = j X n = i ) Wahrscheinlichkeiten sind die einstufigen Übergangswahrscheinlichkeiten der Markov´schen Kette (sie können i. A. vom Zeitpunkt abhängen). Eine Markov´sche Kette heißt homogen, wenn die Übergangswahrscheinlichkeiten nicht vom Zeitpunkt abhängen. Es gilt also: pij ( n ) = pij wobei n den Zeitpunkt bezeichnet. Die Übergangswahrscheinlichkeiten (bei begrenzten Zustandräumen) werden zweckmäßigerweise in der Übergangswahrscheinlichkeiten Transitionsmatrix und sie ist Matrix zusammengefasst. eine der Diese stochastische einstufigen Matrix Matrix, d.h. heißt die Zeilensummen sind gleich 1 und alle Einträge sind nichtnegativ. Es handelt Diplomarbeit Stochastische Prozesse 31 Georg Messerle LRT 2002 4. Stochastische Prozesse sich also um ein System von diskreten Zuständen, die eingenommen werden können und zwischen denen Übergänge möglich und wahrscheinlich sind. Beispielhaft hierfür sind sehr viele Lebenssachverhalte, so lassen sich z.B. diskrete Erfolgswahrscheinlichkeiten alltäglicher Entscheidungsabfolgen, die verschiedene Resultate herbeiführen mit Hilfe Markov´scher Ketten abschätzen. Beispielsweise die Planung von Projekten mittels der Petri-Netze im Projektmanagement oder Methoden der ökonomischen Evaluation im Gesundheitswesen („der häufigste absorbierende Zustand ist der Tod“; Kobelt[17]), basieren auf den Markov´schen Ketten. Betrachten wir nun die Zusammenhänge zwischen den Zuständen dieser Ketten: pij bezeichnet die Wahrscheinlichkeit, dass die Markov´sche Kette in einer Zeiteinheit sprunghaft vom Zustand i in den Zustand j übergeht. Abb. 31. 1 Bei mehreren in Frage kommenden Übergängen d.h. mehreren, den Zustand i umgebenden möglichen Zuständen j gilt stets: ∑p j∈Z Darüber hinaus ij i∈Z =1 lassen sich auch mehrstufige Übergangswahrscheinlichkeiten definieren: Abb. 31. 2 pij( m ) = P ( X n + m = j X n = i ) Diplomarbeit Stochastische Prozesse 32 m = 1, 2,3,... Georg Messerle LRT 2002 4. Stochastische Prozesse Dies ist die Wahrscheinlichkeit, dass die Kette ausgehend vom Zustand i nach m Zeitschritten im Zustand j angelangt ist. pij( m ) heißt die m-stufige Übergangswahrscheinlichkeit. Die m-stufigen Übergangswahrscheinlichkeiten werden in der Matrix der mstufigen Übergangswahrscheinlichkeiten zusammengefasst. P ( m ) = ⎡⎣( pij( m ) ) ⎤⎦ mit m=1,2,3.. und i, j ∈ Z Die Matrix der m-stufigen Übergangswahrscheinlichkeiten ergibt sich durch m-malige Multiplikation der Matrix der einstufigen Übergangswahrscheinlichkeiten: P ( m ) = P m wobei P (1) = P Ist eine Anfangsverteilung gegeben, so ist die Markov´sche Kette bei Vorliegen der Matrix der einstufigen Übergangswahrscheinlichkeiten vollständig bestimmt. Es lassen sich dann alle n-dimensionalen Verteilungen der Kette berechnen. Eine Anfangsverteilung ist eine Verteilung der Gestalt: ⎧ ⎫ p (0) = ⎨ pi(0) = P ( X 0 = i ) ; i ∈ Z , ∑ pi(0) = 1⎬ i∈Z ⎩ ⎭ Die Summe bedeutet (Wahrscheinlichkeit 1) dabei, einen dass der zur das Teilchen Auswahl mit stehenden Sicherheit Zustände einnehmen wird. Die Eingangswahrscheinlichkeit oder Anfangsverteilung gibt also für jeden Zustand die Wahrscheinlichkeit an, dass die Kette in diesem Zustand loszulaufen beginnt. Ist der Vektor der Anfangsverteilungen bekannt können nun alle ndimensionalen Verteilungen aus p (0) und P berechnet werden: P ( X 0 = i0 , X 1 = i1 ,..., X n = in ) = pi(0) ⋅ pi0i1 ⋅ pi1i2 ⋅ .... ⋅ pin−1in 0 Man kann darüber hinaus die absolute Verteilung nach m-Schritten berechnen: {p (m) j (m) = P ( X m = j ) ; j ∈ Z } mit p (jm ) = ∑ p (0) j pij i∈Z Dies ist die Wahrscheinlichkeit, dass die Kette nach m Schritten einen bestimmten Zustand j eingenommen hat. Da die Markov´schen Ketten große praktische Bedeutung haben und die folgenden Überlegungen darauf aufbauen, folgt ein Diplomarbeit Stochastische Prozesse 33 Georg Messerle LRT 2002 4. Stochastische Prozesse Beispiel: N=3 → 3dimensionale Verteilung, bzw. 3 diskrete Zustände Übergangsgraph: 1 1 1⎫ ⎧ p (0) = ⎨ P ( X 0 = 1) = , P ( X 0 = 2) = , P ( X 0 = 3) = ⎬ 3 3 3⎭ ⎩ Anfangsverteilung: Übergangsmatrix: P (1) ⎛ 0.7 0.4 0 ⎞ ⎜ ⎟ = P = ⎜ 0.6 0 0.2 ⎟ ⎜ 0 0.3 0.5 ⎟ ⎝ ⎠ a) 3-dimensionale Verteilung 1 P ( X 0 = 1, X 1 = 2, X 2 = 3, X 3 = 2 ) = p (0) ⋅ p12 ⋅ p23 ⋅ p32 = ⋅ 0.4 ⋅ 0.2 ⋅ 0.3 = 0.008 3 b) absolute Verteilung nach m-Schritten m=3, j=3 (m) Mit p (jm ) = ∑ p (0) j pij i∈Z und mit der dritten Potenz der Übergangsmatrix (z.B. Berechnung mit Matlab) ⎛ 0.4000 0.4480 0.1260 ⎞ ⎜ ⎟ P = ⎜ 0.3840 0.1980 0.1460 ⎟ ⎜ 0.1620 0.2190 0.1850 ⎟ ⎝ ⎠ 3 gilt: (3) (3) p3(3) = p1(0) p13(3) + p2(0) p23 + p3(0) p33 1 1 1 p3(3) = ⋅ 0,126 + ⋅ 0,146 + ⋅ 0,185 3 3 3 = 0.15233 Diplomarbeit Stochastische Prozesse 34 Georg Messerle LRT 2002 4. Stochastische Prozesse 4.4.2. Die Gleichung von Chapman-Kolmogoroff Bei mehrstufigen Übergangswahrscheinlichkeiten besteht der folgende Zusammenhang: p ( m )ij = ∑ pik( r ) pkj( m − r ) k∈Z Die Wahrscheinlichkeit, nach m Schritten ausgehend vom Zustand i in den zustand j übergegangen zu sein, lässt sich ausdrücken durch die Summe der Wahrscheinlichkeiten nach r Schritten im Zustand k zu sein und von dort ausgehend in den verbleibenden m-r Schritten den Zustand j zu erreichen. Bei diskreten Zustandsräumen wie zum Beispiel der Irrfahrt auf einem Graphen (siehe Kap. 5.1.1.) wird die Wahrscheinlichkeit p ( m )ij über alle möglichen Zwischenzustände aufsummiert. Jede Übergangswahrscheinlichkeit ist daher als Funktion aller k-1 übrigen Übergangswahrscheinlichkeiten, sprich aller möglichen Zwischenzustände darstellbar. Bemerkung: Man betrachte auf einem diskreten Zahlenstrahl die Zustände i=0 und j=4. Man kann sich nun überlegen auf welchen Wegen, sprich über welche Zwischenzustände mit m=6 Schritten vom Zustand 0 in den Zustand 4 übergegangen werden kann. Speziell gilt: p ( m )ij = pi(,mj −−11) p j −1, j + p (jm, j−+1)1 p j +1, j (34.1) Bei stetigen oder abzählbar unendlichen Zustandsräumen geht die Summe zum (Stieltjes-) Integral über: pij( m ) = ∫ pik( r ) pkj( m− r ) dk Z Diplomarbeit Stochastische Prozesse 35 Georg Messerle LRT 2002 4. Stochastische Prozesse 4.4.3. Langzeitverhalten Markov´scher Systeme In diesem Abschnitt wird kurz auf das Langzeitverhalten der Markov´schen Ketten im Allgemeinen eingegangen. Um dieses Verhalten zu untersuchen betrachtet man zunächst das Verhalten der Matrix P n für große Werte von n. Dies bedeutet in der Praxis, dass wir das Verhalten der Wahrscheinlichkeit eines Überganges von i nach j bei zunehmender Zeit anschauen. Es erhebt sich also die Frage, ob der Grenzwert lim P n existiert oder nicht. n →∞ Tatsächlich gibt es diesen Grenzwert. Er wird mit Π bezeichnet und man lim P n = Π schreibt: n →∞ Die Zeilen der Matrix sind identisch, wenn es ein v gibt, das die folgende Bedingung erfüllt (Z sei als endlich vorausgesetzt): 1. v ist ein Wahrscheinlichkeitsvektor, d.h. ∑v i = 1 und vi ≥ 0 i 2. lim vP n = π , wobei π gleich einer Zeile der Matrix Π ist. Dies muss für n →∞ jedes v gelten. Ist π ein Wahrscheinlichkeitsvektor, kann für jede Eingangswahrscheinlichkeit v geschrieben werden: π = lim vP n n →∞ Dann gilt: ( ) π = lim vP n +1 = lim vP n P = π P n →∞ n →∞ Man nennt den Vektor π eine invariante Wahrscheinlichkeitsverteilung von P. In der Literatur ist manchmal auch von stationären Verteilungen oder Steady-State-Verteilungen die Rede (Lawler[12]). Bei Systemen mit diskreten, abgeschlossenen Zustandsräumen ergeben sich mit hinreichend großer Zeit stationäre Verteilungen. Es sind dann Aussagen Diplomarbeit Stochastische Prozesse 36 Georg Messerle LRT 2002 4. Stochastische Prozesse möglich, mit welcher Wahrscheinlichkeit sich die Kette nach langer Zeit in welchem Zustand befinden wird. Es wird gezeigt werden, dass diese Aussagen bei stetigen, unendlichen Zustandsräumen nicht mehr möglich sind. 4.4.4. Markov´sche Ketten mit stetiger Zeit, Markov-Prozess Bisher haben wir Prozesse betrachtet, deren Zustandsraum diskret war und zwischen dessen Zuständen wir Übergangswahrscheinlichkeiten definieren konnten. Definition: Ein stetiger stochastischer Prozess ist ein Familie von Zufallsvariablen deren Indizes Werte in T (üblicherweise T=[0,∞)) annehmen. Als erster Schritt werden beim Übergang auf Markov-Prozesse die Anzahl der Zustände der (Waubke[40]). Zufallsgrößen Analog zur als kontinuierliche Markov-Kette gilt für Größe angesetzt. die unbedingte Wahrscheinlichkeit, die Gleichung von Chapman-Kolmogoroff: ∞ p ( xt ) = ∫ p(x t xt −1 ) p ( xt −1 ) dxt −1 −∞ Diese Beziehung kann man verwenden, um die Smoluchowski-ChapmanKolmogoroff-Vorwärtsgleichung aufzustellen: ∞ p( xt + h xt − h ) = ∫ p(x t +h xt ) p ( xt xt − h ) dxt −∞ Lässt man die Zeitinkremente h gegen Null gehen, so führt dies auf einen in der Zeit kontinuierlichen Markov-Prozess. Der Übergang auf kontinuierliche Zeiten bedeutet, dass die Korrelation, die nur von einem Zeitpunkt zum nächsten existiert, in eine Distribution entartet. Diplomarbeit Stochastische Prozesse 37 Georg Messerle LRT 2002 4. Stochastische Prozesse Die Korrelationsfunktion lautet mithin: ρ ( t , s ) = Aδ ( t − s ) wobei δ die Dirac-Funktion darstellt. Die Dirac-Funktion ist im mathematischen Sinne eine verallgemeinerte Funktion oder Distribution (→ Kap. 6.4.1.). Der Parameter A ist ein Maß für die Intensität der Kopplung. Wir werden diese Distribution als Anfangsbedingung bei der Lösung der Fokker-Planck-Gleichung (Kap. 6.6.) benötigen. In Kap. 7.7.2. findet sich eine Betrachtung der Korrelationsfunktion eines Wiener-Prozesses. In den Kapiteln 6.3.1. und 7.4. wird die Entartung der gemeinsamen Verteilung explizit gezeigt (Waubke[41], Karatzas/Shreve[396]). Diplomarbeit Stochastische Prozesse 38 Georg Messerle LRT 2002 5. Zufällige Irrfahrt 5. Die zufällige Irrfahrt 5.1. Einfacher Random-Walk (zufällige Irrfahrt) 5.1.1. Einführung Ausgehend von der Vorstellung Markov´scher Ketten, kann man die so genannte zufällige Irrfahrt (Random-Walk) beschreiben, die als Vorstufe eines Diffusionsprozesses wie der Brownschen Bewegung angesehen werden kann. Es wird gezeigt werden, dass sich der Random-Walk in einen Wiener Prozess überführen lässt und für beide dieselben konditionierenden Gleichungen gelten. Die allgemeine Theorie der zufälligen Irrfahrt findet, gleich den Markov´schen Ketten, in vielen Bereichen des Alltags Anwendung, beispielsweise in der Risikoanalyse; der Berechnung von Bahnen von Asteroiden im Interstellaren Raum oder in der Festkörperphysik. Beim eindimensionalen Random-Walk, hat ein Partikel genau zwei Nachbarzustände. Die Übergänge des Partikels von einer Position zur Anderen finden in Einheitsschritten, entweder vorwärts oder rückwärts, mit speziellen Wahrscheinlichkeiten statt. Im mehrdimensionalen Fall bewegt sich der Läufer in Einheitsschritten parallel zu den Koordinatenachsen wiederum vor oder zurück. Für einen Läufer, der im Koordinatenursprung losläuft, kommen als mögliche Zustände alle Punkte mit ganzzahligen Koordinaten in Frage. Im zweidimensionalen Raum hat ein Zustand jeweils 4 umgebende Zustände, im dreidimensionalen Fall 6, im n-dimensionalen Fall 2n Zustände. Um den Random-Walk näher zu beschreiben, müssen die Übergangswahrscheinlichkeiten zwischen den Zuständen spezifiziert werden. Im Allgemeinen, müssen die Übergangswahrscheinlichkeiten nicht gleich sein, sondern können beliebige Werte nach beliebigen Übergangswahrscheinlichkeiten Diplomarbeit Stochastische Prozesse Vorschriften gleich, 38 annehmen. spricht man Sind von die einem Georg Messerle LRT 2002 5. Zufällige Irrfahrt symmetrischen Random-Walk, da jede Richtung gewissermaßen gleichwahrscheinlich ist. Die Theorie der zufälligen Irrfahrt beruht letztlich auf der Untersuchung von Folgen von Zufallsvariablen, welche von einfachen, diskreten und unabhängigen Zufallsvariablen bis hin zu bedingten Zufallsvariablen reichen. Zunächst wird eine Irrfahrt mit sowohl diskretem Parameterraum als auch diskretem Zustandsraum betrachtet. Wir betrachten die zufällige Irrfahrt auf einem völlig beliebigen Graphen der Gestalt von Abb.22.1, dessen Zustände in völlig beliebiger Weise miteinander verbunden sind. Die Zustände der Markov´schen Kette sind die Knotenpunkte des Graphen und in jedem Zeitintervall springt die Kette rein zufällig in einen mit dem Zustand i verbundenen Zustand j (vgl. Abb. 23.2). Schreibweise: v(i)~v(j) wenn die Zustände i und j miteinander verbunden sind. Die Matrix der Übergangswahrscheinlichkeiten ist dann gegeben durch: P (vi v j ) = 1 d (vi ) wobei d (vi ) die Anzahl der Verbindungen eines Zustandes i mit einem Zustand j darstellt. Es liegt die Annahme zugrunde, dass alle Sprünge i→j gleichwahrscheinlich sind, also die Übergangswahrscheinlichkeiten immer nur von der Anzahl der umgebenden Zustände abhängt. Es wird als Spezialfall mit vorausgesetzt, dass im Fall d (vi ) =0 die Wahrscheinlichkeit P(vi vi ) = 1 beträgt [A8]. Diese Kette heißt zufällige Irrfahrt auf einem Graphen. Wenn nun die Menge der Zustände endlich ist, ist die Transitionsmatrix P vollständig bestimmbar und somit die Kette bei Vorliegen einer Eingangsverteilung vollständig determiniert. Man kann also für jeden Zustand nach beliebig vielen Schritten eine Wahrscheinlichkeit berechnen, auch ungeachtet dessen, wo die Kette gestartet ist. Diplomarbeit Stochastische Prozesse 39 Georg Messerle LRT 2002 5. Zufällige Irrfahrt Im nächsten Abschnitt wird ein allgemeiner Ansatz für den Random-Walk erarbeitet, das Verhältnis zur Theorie der Markov´schen Ketten erläutert und die Markov-Eigenschaft bewiesen. Definition: Eine Zufallsvariable der Gestalt Yn = X 1 + X 2 + ... + X n heißt Random-Walk. Man kann sich darunter die Position eines Partikels vorstellen, der entlang einer Achse verschoben wird und zu jedem Zeitpunkt n den Zuwachs X n erfährt. Die Variable Yn ist die Summe aller bis zum Zeitpunkt n erfolgten Zuwächse (die natürlich auch negativ sein können) und bezeichnet somit die Lage des Partikels oder Läufers zur Zeit n. Diese Definition enthält sich jedweder Aussagen über die Beschaffenheiten des Zustands- oder Parameterraumes. Es können beide daher gleichermaßen stetig oder diskret sein. Auch können die Zufallsvariablen X 1.... X n unabhängig und beliebig verteilt sein. Zwar ist anschaulich klar, dass sich ein Partikel welches sich an einer Position X n −1 befindet, sich im n-ten Schritt nicht unendlich weit fortbewegen wird, sondern „wahrscheinlicher“ in einer gewissen Umgebung seines Standortes eine neue Position einnehmen wird, jedoch ist diese Möglichkeit nicht auszuschließen. In der Praxis werden die X n von den X n −1 abhängig sein und damit auch ihre Verteilungen. Eine wichtige, vollständig äquivalente Definition ist die folgende: X n = X n −1 + Z n (40.1) Z n bezeichnet hierbei den Zuwachs zum Zeitpunkt n, X n −1 den Standort des Läufers einen Zeitschritt zuvor. Es ist vorstellbar, das Position und Zuwachs unabhängig sind, jedoch ist mit der Einführung des Zuwachsbegriffes bereits ein wesentliches Problem der Diplomarbeit Stochastische Prozesse 40 Georg Messerle LRT 2002 5. Zufällige Irrfahrt Stochastischen Prozesse umgangen worden: die Abhängigkeiten zwischen den ZV und ihren Verteilungen bei infinitesimalen Zeitschritten, sprich bei stetigem Parameterraum. Im Folgenden wird ein einfacher Random-Walk auf einem diskreten, abzählbar unendlichen Zustandsraum mit einem diskreten Parameterraum betrachtet und Erwartungswert und Varianz berechnet. Es wird vorausgesetzt dass die Zufallsvariablen unabhängig sind und identische Verteilungen besitzen. Wir betrachten eine Folge von Zufallsvariablen X n mit n>1. Die Verteilungen der ZV seien P ( X 1 = 1) = p und P ( X 1 = 0 ) = 1 − p = q . Man definiert nun eine neue Zufallsvariable n Yn = ∑ X n mit n>1 und Y0 = 0 . i =1 Es wird nun gezeigt, dass es sich dabei um eine Markov´sche Kette mit den einstufigen Übergangswahrscheinlichkeiten ⎧ p, wenn j = i + 1 ⎪ pij = ⎨ q, wenn j = i − 1 ⎪ 0, sonst ⎩ handelt und dass der Prozess die Markov-Eigenschaft hat. Beweis: Da die X n unabhängig sind, sind die Yn sowie die X n +1 ebenfalls unabhängig. Es gilt: P (Yn +1 = s Y0 = s0 ,..., Yn = sn ) = P (Yn + X n +1 = s Y0 = s0 ,..., Yn = sn ) = P ( X n +1 = s − sn Y0 = s0 ,..., Yn = sn ) = P ( X n +1 = s − sn ) Man erkennt, dass sowohl die Zuwächse unabhängig vom Prozessverlauf sind, als auch die Position zur Zeit n+1 nur von der Position zur Zeit n abhängt (siehe Abschnitt 4.3.3.) Diplomarbeit Stochastische Prozesse 41 Georg Messerle LRT 2002 5. Zufällige Irrfahrt Gleichermaßen gilt: P (Yn +1 = s Yn = sn ) = P (Yn + X n +1 = s Yn = sn ) = P ( X n +1 = s − sn Yn = sn ) = P ( X n +1 = s − sn ) Die Übergangswahrscheinlichkeiten sind frei wählbar, nach obiger Voraussetzung unterscheiden sie sich für Schritte nach links oder rechts. Wenn eine zufällige Irrfahrt X n = X n −1 + Z n durch die Verteilung P ( Z n = 1) = p P ( Z n = −1) = 1 − p = q beschrieben wird, spricht man von einem einfachen Random-Walk. Es handelt sich in diesem Fall um eine periodische, homogene Markov´sche Kette. Die einstufigen Übergangswahrscheinlichkeiten sind für alle i,j durch pij = pδ i +1, j + qδ i −1, j beschrieben, wobei ⎧1, wenn j = i + 1 ⎩ 0, sonst δ i +1, j = ⎨ sowie ⎧1, wenn j = i − 1 ⎩ 0, sonst δ i −1, j = ⎨ die Kronecker-Symbole sind. Man braucht hier keine stochastische Matrix, da die Verteilungen für alle i, j sofort aus der obigen Formel erhalten werden können. 5.1.2. Erwartungswert und Varianz Ungeachtet der Kenntnis der m-stufigen Übergangswahrscheinlichkeiten können Erwartungswert und Varianz für den einfachen Random-Walk angegeben werden. Vorausgesetzt der Läufer startet im Punkt X 0 = 0 , ergibt sich mit der Definition des Erwartungswertes: Diplomarbeit Stochastische Prozesse 42 Georg Messerle LRT 2002 5. Zufällige Irrfahrt n 1 ⎛1 ⎞ E ( X n ) = ∑ pi xi = 0 + n ⎜ (1) + ( −1) ⎟ = 0 2 ⎝2 ⎠ i =0 Der Erwartungswert ist also konstant Null, der Läufer wird sich im Mittel an derselben Position befinden, bzw. jeweils gleichgroße Fluktuationen um den Startpunkt ausführen. Mit der Definition der Varianz und mit Hilfe der Momente ergibt sich: σ 2 = m2 − m12 Dabei ist m12 = 0 , wegen E ( X n ) = 0 . σ 2 = m2 Es verbleibt: n m2 = ∑ ( X i ) p j 2 wobei i =1 x1 = −1 x2 = 1 die beiden möglichen Realisationen sind. Es ergibt sich also: 2 1 2 ⎛ m2 = n ⎜ ( −1) + (1) 2 ⎝ 1⎞ 2 ⎟ = n ⋅1 = σ 2⎠ Die Varianz ist n. Die Kette wird sich im Mittel um n Schritte vom Mittelwert 0 entfernen, bzw. mit zunehmender Zeit immer weiter vom Mittelwert abweichen. Die Formel für die m-stufigen Übergangswahrscheinlichkeiten eines einfachen RandomWalk ergibt sich folgendermaßen: 5.1.3. Die m-stufigen Übergangswahrscheinlichkeiten des RW Diplomarbeit Stochastische Prozesse 43 Georg Messerle LRT 2002 5. Zufällige Irrfahrt Bei der Herleitung der m-stufigen Übergangswahrscheinlichkeiten setzt man voraus, dass sich der Läufer nach 2n Schritten vom Startpunkt 0 aus gesehen, wieder im selben Punkt befinden soll. Um dies zu erreichen muss er sich genau n Schritte in die eine Richtung und dann wieder n Schritte in die andere Richtung bewegen. Jeder Pfad, d.h. jede Kombination aus n Bewegungen nach links und n Bewegungen nach rechts, ist dabei zulässig. Das bedeutet, dass beispielsweise die n Linksschritte nicht alle hintereinander ausgeführt werden müssen, sondern nur nach 2n Schritten n Schritte in jede Richtung ausgeführt worden sein müssen. Ist p=q=1/2 2n ⎛1⎞ beträgt die Wahrscheinlichkeit jedes einzelnen Pfades PPfad = ⎜ ⎟ . ⎝2⎠ Wir betrachten nun exemplarisch die Möglichkeiten, die ein Läufer hat, der sich im Nullpunkt eines Zahlenstrahles befindet, in genau n Schritten einen Zustand m zu erreichen. Um die Allgemeinheit zu wahren, setzen wir p≠q. B eispiel: Wir betrachten den Übergang von 0 nach m=2 in n=4 Schritten auf dem Zahlenstrahl. Abbildung 34.1 zeigt die möglichen Übergangspfade: Position des Läufers 3 3 2 2 1 1 0 1 0 0 0 -1 2 1 2 3 Pfad1 Pfad2 Pfad3 Pfad4 4 -1 Zeitschritte Abb. 44.1 Diplomarbeit Stochastische Prozesse 44 Georg Messerle LRT 2002 5. Zufällige Irrfahrt Alle vier Pfade weisen genau drei Rechtsschritte mit Wahrscheinlichkeit p und einen Linksschritt mit Wahrscheinlichkeit q auf. Man erkennt ferner, dass sich die Pfade nur dadurch unterscheiden, wann der Schritt nach links ausgeführt wird. Die Wahrscheinlichkeit für einen Übergang, sprich einen beliebigen dieser Pfade zu beschreiten, beträgt demnach PPfad = p3q . Mit den Gesetzen der Kombinatorik lässt sich die Anzahl der Möglichkeiten berechnen: Bei einem Übergang 0→2 in n=4 Schritten, gibt es genau ⎛ 4 ⎞ ⎛ n ⎞ ⎟ = ⎛ 4 ⎞ = 4 und es gibt 4 ⎜ ⎟ Möglichkeiten. Im vorliegenden Fall ist ⎜ 4 2 + n + m ⎜⎜ ⎟⎟ ⎜⎝ 3 ⎟⎠ ⎜⎜ ⎟⎟ ⎝ 2 ⎠ ⎝ 2 ⎠ Pfade. Die Wahrscheinlichkeit einen der Pfade zu nehmen beträgt im allgemeinen Fall PPfad = p ⎛ n+m ⎞ ⎜ ⎟ ⎝ 2 ⎠ q ⎛ n+m ⎞ n −⎜ ⎟ ⎝ 2 ⎠ und die Gesamtwahrscheinlichkeit: (n) 0m p ⎛ n ⎞ ⎛ n+m ⎞ ⎛ n−m ⎞ ⎜ ⎟ ⎜ ⎟ = ⎜ n + m ⎟ p⎝ 2 ⎠ q⎝ 2 ⎠ ⎜⎜ ⎟⎟ ⎝ 2 ⎠ (45.1) Formel (45.1) gibt also einen Ausdruck für die Wahrscheinlichkeit an, dass sich ein Läufer oder Partikel ausgehend vom Zustand 0 nach n Zeitschritten im Zustand m befindet. Die Wahrscheinlichkeiten des Random-Walk als solchem sind somit vollständig berechenbar. Für große Werte von n wird nun eine Abschätzung der m-stufigen Übergangswahrscheinlichkeiten gemacht, die erste Rückschlüsse auf das asymptotische Verhalten der n-dimensionalen Verteilung des zufälligen Vektors { X 1 ,..., X n } zulässt. Diplomarbeit Stochastische Prozesse 45 Georg Messerle LRT 2002 5. Zufällige Irrfahrt 5.2. Verhalten eines Random-Walk für große n (n→∞) Wir betrachten wiederum einen einfachen Random-Walk: X n = X n −1 + Z n Es ist gezeigt worden, dass Erwartungswert und Varianz durch E ( Xn ) = 0 Var ( X n ) = n gegeben sind. Wenn n sehr groß wird, der Läufer also sehr viele Schritte macht und nun wieder der Fall p=q=1/2 betrachtet wird, kann man die n- stufige Übergangswahrscheinlichkeit für m<<n durch 1 2 ⎪⎧ ⎛ m ⎞ ⎪⎫ ⎛ 2 ⎞2 exp − ⎨ ⎜ ⎟⎬ ⎜ ⎟ ⎝πn ⎠ ⎪⎩ ⎝ 2n ⎠ ⎭⎪ (n) 0m p abschätzen. Beweis: Wir betrachten zunächst mit Hilfe der Stirling´schen Formel zur Abschätzung von Fakultäten großer n, den natürlichen Logarithmus der Fakultät von n: ⎡⎛ n ⎞ n ⎤ ln n ! ≈ ln ⎢⎜ ⎟ 2π n ⎥ ⎣⎢⎝ e ⎠ ⎦⎥ n ⎛n⎞ = ln ⎜ ⎟ + ln 2π n ⎝e⎠ 1⎞ 1 ⎛ = ⎜ n + ⎟ ln n − n + ln 2π 2⎠ 2 ⎝ (46.1) Die Wahrscheinlichkeit p0( nm) lässt sich nach (45.1) mit p=q=1/2 wie folgt darstellen: Diplomarbeit Stochastische Prozesse 46 Georg Messerle LRT 2002 5. Zufällige Irrfahrt (n) 0m p n! ⎛1⎞ = n + m ⎞ ⎛ n + m ⎞ ⎝⎜ 2 ⎠⎟ ⎛ ⎜n− ⎟ !⎜ ⎟! 2 ⎠⎝ 2 ⎠ ⎝ n+m 2 ⎛1⎞ ⎜ ⎟ ⎝2⎠ n− n+m 2 n! ⎛1⎞ = n + m ⎞ ⎛ n + m ⎞ ⎝⎜ 2 ⎠⎟ ⎛ ⎜n− ⎟ !⎜ ⎟! 2 ⎠⎝ 2 ⎠ ⎝ n (47.1) Der natürliche Logarithmus von p0( nm) schreibt sich dann so: ⎛n−m⎞ ⎛n+m⎞ ⎛1⎞ ln p0( nm) = ln n !− ln ⎜ ⎟ !− ln ⎜ ⎟ !+ n ln ⎜ ⎟ ⎝ 2 ⎠ ⎝ 2 ⎠ ⎝2⎠ (47.2) Mit Formel (46.1) ist: ⎛ n − m ⎞ ⎛⎛ n − m ⎞ 1 ⎞ ⎛ n − m ⎞ ⎛ n − m ⎞ 1 ln ⎜ ⎟! = ⎜ ⎜ ⎟ + ⎟ ln ⎜ ⎟−⎜ ⎟ + ln 2π ⎝ 2 ⎠ ⎝⎝ 2 ⎠ 2 ⎠ ⎝ 2 ⎠ ⎝ 2 ⎠ 2 Und ⎛ n + m ⎞ ⎛⎛ n + m ⎞ 1 ⎞ ⎛ n + m ⎞ ⎛ n + m ⎞ 1 ln ⎜ ⎟! = ⎜ ⎜ ⎟ + ⎟ ln ⎜ ⎟−⎜ ⎟ + ln 2π ⎝ 2 ⎠ ⎝⎝ 2 ⎠ 2 ⎠ ⎝ 2 ⎠ ⎝ 2 ⎠ 2 Eingesetzt in (47.2) ergibt sich folgendes: ⎡⎛ ⎛ n − m ⎞ 1 ⎞ ⎛ n − m ⎞ ⎛ n − m ⎞ 1 ⎤ 1⎞ 1 ⎛ ln p0( nm) = ⎜ n + ⎟ ln n − n + ln 2π − ⎢⎜ ⎜ ⎟ + ⎟ ln ⎜ ⎟−⎜ ⎟ + ln 2π ⎥ 2⎠ 2 ⎝ ⎣⎝ ⎝ 2 ⎠ 2 ⎠ ⎝ 2 ⎠ ⎝ 2 ⎠ 2 ⎦ ⎡⎛ ⎛ n + m ⎞ 1 ⎞ ⎛ n + m ⎞ ⎛ n + m ⎞ 1 ⎤ − ⎢⎜ ⎜ ⎟ + ⎟ ln ⎜ ⎟−⎜ ⎟ + ln 2π ⎥ − n ln 2 ⎣⎝ ⎝ 2 ⎠ 2 ⎠ ⎝ 2 ⎠ ⎝ 2 ⎠ 2 ⎦ Nach Ausmultiplizieren und Kürzen ergibt sich: 1 1 1 ⎛n−m⎞ ⎛n−m⎞ ln p0( nm) = n ln n + ln n − n + ln 2π − ( n − m + 1) ln ⎜ ⎟+⎜ ⎟ 2 2 2 ⎝ 2 ⎠ ⎝ 2 ⎠ 1 1 ⎛n+m⎞ ⎛n+m⎞ 1 − ln 2π − ( n + m + 1) ln ⎜ ⎟+⎜ ⎟ − ln 2π − n ln 2 2 2 ⎝ 2 ⎠ ⎝ 2 ⎠ 2 Diplomarbeit Stochastische Prozesse 47 Georg Messerle LRT 2002 5. Zufällige Irrfahrt Es gilt nun: m ⎛m+n⎞ ln ⎜ ⎟ = ln1 − ln 2 + ln n + ln(1 + ) n ⎝ 2 ⎠ Die verbleibende Komponente ln(1 + m ) kann nun mit der bekannten n Taylorreihenentwicklung ln x ≈ x – ½ x² wie folgt angenähert werden (Merziger/Wirth [Umschlagseite]): m m m2 ln(1 + ) ≈ − 2 n n 2n Es ergibt sich also: ⎡⎛ n m 1 ⎞ ⎛ 1⎞ m m2 ⎞ ⎤ ⎛ ln p0( nm) = ⎜ n + ⎟ ln n − ⎢⎜ − + ⎟ ⎜ − ln 2 + ln n − − 2 ⎟ ⎥ 2⎠ n 2n ⎠ ⎦ ⎝ ⎣⎝ 2 2 2 ⎠ ⎝ ⎡⎛ n m 1 ⎞ ⎛ m m2 ⎞⎤ 1 − ⎢⎜ + + ⎟ ⎜ − ln 2 + ln n + − 2 ⎟ ⎥ − ln 2π − n ln 2 n 2n ⎠ ⎦ 2 ⎣⎝ 2 2 2 ⎠ ⎝ Nach Ausmultiplizieren und Kürzen [A9] verbleibt: ln p0( nm) = − Die n-stufige m2 m2 1 1 1 + 2 + ln 2 − ln n − ln π 2n 2n 2 2 2 Übergangswahrscheinlichkeit lautet nach Bildung der Umkehrfunktion (n) 0m p 1 1 1 ⎧ m2 m2 ⎫ − − = exp {ln p } = exp ⎨− + 2 ⎬ exp {ln 2} 2 exp {ln n} 2 exp {ln π } 2 ⎩ 2n 2n ⎭ (n) 0m 1 (n) 0m p ⎧ m2 m2 ⎫ ⎛ 2 ⎞2 =⎜ + 2⎬ ⎟ exp ⎨− ⎝πn ⎠ ⎩ 2n 2n ⎭ (48.1) Man kann erkennen, dass sich die Verteilungsfunktion einer zufälligen Irrfahrt für große Werte von n, einer Normalverteilung annähert, da für Diplomarbeit Stochastische Prozesse 48 Georg Messerle LRT 2002 5. Zufällige Irrfahrt große n der Term m2 im Exponenten vernachlässigt werden kann. Die 2n 2 Wahrscheinlichkeit, dass sich ein Läufer nach n Schritten zwischen zwei festen, vorgegebenen Zuständen befindet, kann deshalb folgendermaßen approximiert werden: j 2 t − 1 2n P (i ≤ X n ≤ j ) = e dt 2π n ∫i Es handelt sich hierbei um eine der wichtigsten Aussagen des zentralen Grenzwertsatzes (Kap. 7.3.1.) (Billingsley[357], Beichelt/Montgomery[96]). Die Verteilung des Random-Walk zeigt bei zunehmendem n eine Asymptotik gegen die N(0,1)-Verteilung.. Wie bei jeder anderen Normalverteilung liegen auch hier 99.73% aller Werte im Intervall [nµ-3 n σ, nµ+3 n σ]. Anders ausgedrückt: nach n Schritten befindet sich ein Läufer mit Wahrscheinlichkeit 0.9973 im besagten Intervall. 5.2.1. Abschätzung der Aufenthaltswahrscheinlichkeiten Eine interessante Beobachtung lässt sich nun für den Grenzfall n→∞ machen. Im vorhergehenden Abschnitt wurde gezeigt, dass bei endlichem Zustandsraum und beliebigem Parameterraum zu jeder Zeit eine Aussage über die voraussichtliche Position eines Partikels oder Läufers möglich ist. Im Fall n→∞ erweitern wir nun den Parameterraum auf T = [0, ∞) und setzen einen unbeschränkten Zustandsraum voraus. Wir betrachten dann das Verhalten der Verteilungsfunktionen, sprich der Möglichkeit Aussagen über die Lage des Partikels zu machen. Wir betrachten: j lim P ( i ≤ X n ≤ j ) = lim ∫ n →∞ n →∞ i ⎛ ( x − nµ ) 2 ⎞ 1 exp ⎜ ⎟dx 2n ⎠ 2π n ⎝ Der Mittelwert µ ist dabei nach Voraussetzung Null. Diplomarbeit Stochastische Prozesse 49 Georg Messerle LRT 2002 5. Zufällige Irrfahrt Mit der Substitution z= x x2 → z2 = 2n 2n ergibt sich die Exponentialfunktion zu exp ( z 2 ) und die Änderung der Integrationsvariablen bewirkt dz 1 = → dx = 2ndz dx 2n Mit der Transformation der Grenzen i und j in z1 = i 2n j 2n und z2 = Schreibt sich das Integral folgendermaßen: z2 1 lim P ( i ≤ X n ≤ j ) = lim ∫ n →∞ n →∞ πn z1 exp ( z 2 )dz Zieht man die konstanten Terme vor das Integral und betrachtet das Konvergenzverhalten der Grenzen für große n, so ergibt sich folgendes: lim P ( i ≤ X n ≤ j ) = lim n →∞ mit dem Integrationsbereich z2 − z1 = n →∞ 1 z2 exp ( z )dz πn ∫ 2 z1 j −i , der für große n gegen Null strebt. πn Der gesamte Grenzwert ist wegen der Monotonie der e-Funktion Null. Das bedeutet, dass die Wahrscheinlichkeit einen Partikel nach n→∞ Schritten in einem beliebigen Intervall [i, j] anzutreffen, verschwindet (Srinivasan/Mehata[96]). Nach hinreichend langen Zeiträumen sind dann keine Aussagen mehr über die wahrscheinliche Position des Partikels möglich (→Kap. 7.4.). Diplomarbeit Stochastische Prozesse 50 Georg Messerle LRT 2002 5. Zufällige Irrfahrt 5.3. Der stetige Random-Walk als Approximation des WienerProzesses Wie bereits eingeführt, handelt es sich bei einem einfachen Random-Walk um eine einfache, diskrete Form eines Diffusionsprozesses. Im folgenden Abschnitt wird zunächst die stetige Version des Random-Walk konstruiert und dann nachgewiesen, dass es sich dabei tatsächlich um einen Diffusionsprozess handelt. Wir betrachten noch einmal einen diskreten RW: Es sei { X n } eine unendliche Folge von Zufallsvariablen für die gilt: X n = X n −1 + Z n und X 0 = 0 n=1,2,3… Die Verteilung von Z n ist P( Z n = 1) = p und P( Z n = −1) = 1 − p = q { X n} modelliert wieder die Position des Partikels nach n Schritten, der eine zufällige Irrfahrt auf dem Strahl der ganzen Zahlen, beginnend beim Nullpunkt, ausführt. Für die n-stufigen Übergangswahrscheinlichkeiten gilt wieder Gleichung (45.1). Abweichend von der vorhergehenden Anschauung wird nun angenommen, dass der Partikel ausgehend von x=0 nach jeweils ∆t (vorher ganzzahlige Sprünge mit Betrag 1) Zeiteinheiten um ∆x Längeneinheiten (vorher um ganze Einheiten der Länge 1) nach links oder rechts springt. Wir nehmen darüber hinaus an, dass die aufeinander folgenden Schritte der Irrfahrt im Intervall ∆t plötzlich erfolgen und in getrennten Intervallen ∆t stattfinden. Die Verteilung der Zuwächse sei wieder P ( Z n = −∆x) = P ( Z n = ∆x) = 1 2 Es sei nun { X t } die Lage des Partikels zum Zeitpunkt t. Es gilt dann: Diplomarbeit Stochastische Prozesse 51 Georg Messerle LRT 2002 5. Zufällige Irrfahrt ⎛ ⎞ X t = ∆x ⎜ X 1 + X 2 + ... + X t ⎟ ∆t ⎠ ⎝ denn falls t ein Vielfaches von ∆t ist, bestimmt t die Anzahl der in der Zeit t ∆t gemachten Schritte, wobei die Zufallsvariable X i die Werte +1 und -1 für links oder rechts annimmt. Erwartungswert und Varianz dieses Prozesses ergeben sich wie folgt: Man kann schreiben: ⎛ −∆x ∆x ⎞ ⎟ PX = ⎜ 1 1⎟ ⎜⎜ ⎟ ⎝ 2 2⎠ Für den Erwartungswert gilt: ⎡1 n 1 ⎤ µ = ∑ p j x 0j = n ⎢ ( −∆x ) + ( ∆x ) ⎥ = 0 2 ⎣2 ⎦ j =1 Var ( X i ) = ∆x 2 Die Varianz jeder einzelnen ZV X i ist: Mit (52.1) ⎛ n ⎞ n Var ⎜ ∑ X i ⎟ = ∑ Var ( X i ) ⎝ i =1 ⎠ i =1 (Unkorreliertheit vorausgesetzt) gilt hier: n 2 2 ⎡ t ⎤ Var ( X t ) = ∑ ( ∆x ) = ( ∆x ) ⎢ ⎥ ⎣ ∆t ⎦ i =1 (52.2) Wenn nun ∆t→0 und n→∞, sowie ∆x→0 gehen, erhalten wir die stetige Version der zufälligen Irrfahrt. Ziel ist es, das Verhalten des Prozesses { X t , t ≥ 0} für ∆t→0 und ∆x→0 zu untersuchen. Um ein sinnvolles Ergebnis zu erzielen, wendet man folgenden Trick an: ∆x und ∆t werden ohne Beschränkung der Allgemeinheit so gewählt, dass für ein beliebiges σ>0 die folgende Beziehung gilt: ∆x = σ ∆t Diplomarbeit Stochastische Prozesse 52 (52.3) Georg Messerle LRT 2002 5. Zufällige Irrfahrt Forderung: Der aus dem Grenzübergang resultierende stochastische Prozess { X t , t ≥ 0} hat die Eigenschaften E ( Xt ) = 0 und Var ( X t ) = σ 2t . Beweis: Wir setzen somit voraus, dass der Prozess den wir nach Bildung des Limes erhalten, den Mittelwert µ=0 und die Varianz σ 2t hat. Daraus folgt: lim ( ∆x ) ∆x → 0 ∆t → 0 und 2 t = σ 2t ∆t lim ( p − q ) ∆x ∆x → 0 ∆t → 0 (53.1) t =0 ∆t Bemerkung: In unserem Fall ist der Mittelwert von vorne herein Null, da p=q gilt. Die obige Gleichung ist in diesem Fall trivial. Allgemein kann diese Identität aber nicht vorausgesetzt werden. Es ist leicht einsehbar, dass nach Umschreibung der obigen Grenzwerte mittels der gewählten Beziehung, die Varianz auch bei stetigem Parameterund Zustandsraum endlich ist und den Wert Var ( X t ) = tσ 2 annimmt. Als Ergebnis des Grenzüberganges ∆x→0 und ∆t→0 einer zufälligen Irrfahrt, erhalten wir einen stochastischen Prozess { X t , t ≥ 0} , mit t ∋ T = [0, ∞ ) und stetigem Zustandsraum, dessen Erwartungswert nach wie vor Null ist und der die Varianz Var ( X t ) = tσ 2 besitzt. Es muss nun nachgewiesen werden, dass dieser Prozess tatsächlich einen Diffusionsprozess beschreibt und dass es sich letztlich um einen WienerProzess handelt. Diplomarbeit Stochastische Prozesse 53 Georg Messerle LRT 2002 5. Zufällige Irrfahrt 5.3.1. Die Fokker-Planck-Gleichung/Diffusionsgleichung Wie aus anderen (Strömungsmechanik, ingenieurwissenschaftlichen Werkstoffkunde, Wärme- und Disziplinen Stoffübertragung) bekannt, genügen Diffusions- oder Wärmeleitungsprozesse der so genannten Diffusions- oder Wärmeleitungsgleichung (Baehr[56]). Es handelt sich hierbei um eine partielle Differentialgleichung 2.Ordnung in der Form: ∂ ∂2 f f =D 2 ∂t ∂x (54.1) Da stochastische Prozesse u.a. Diffusionsprozesse beschreiben, genügen auch sie dieser Gleichung. Umgekehrt kann mit Hilfe dieser Gleichung nachgeprüft werden, ob ein stochastischer Prozess ein Diffusionsphänomen beschreibt oder nicht. Im nächsten Abschnitt werden die groben Züge der allgemeinen Ableitung dieser Gleichung vorgestellt und ihre Beziehung zu den stochastischen Prozessen aufgezeigt. Eine genaue Herleitung findet sich in Srinivasan/Mehata[210ff] und Risken/Haken[20ff]. Auf der Basis von Differentialgleichungen Markov-Prozessen lösen. Der lässt sich Sonderfall eine der Vielzahl von Brownschen Molekularbewegung wurde von Fokker 1914 und Planck 1917 gelöst. Die allgemeine Lösung des Problems von partiellen Differentialgleichungen in Verbindung mit stochastischen Prozessen stammt von Kolmogoroff 1931. Es sei p( y, t2 , x, t1 ) die Dichtefunktion der Übergangswahrscheinlichkeiten, also die Dichte der Wahrscheinlichkeit, dass die Zufallsvariable zum Zeitpunkt t2 den Wert y annimmt, wenn zum Zeitpunkt t1 der Wert x=X( t1 ) vorgelegen hat. Diplomarbeit Stochastische Prozesse 54 Georg Messerle LRT 2002 5. Zufällige Irrfahrt Ausgehend von der Gleichung von Chapman-Kolmogoroff und der Inversion der charakteristischen Funktion von p, wird die Fokker-Planck-Gleichung abgeleitet (Srinivasan/Mehata[122]). Es ergibt sich: ∂ ∂ 1 ∂2 p (t , x, y ) = − [ K1 ( y ) p(t , x, y )] + [ K 2 ( y) p(t , x, y)] ∂t ∂y 2 ∂y 2 Die beiden Koeffizienten K1 und K 2 stellen Drift- und Diffusionskoeffizenten dar. Für K1 = 0 und K 2 = 2 D nimmt sie die Form der Diffusionsgleichung an: ∂ ∂2 p( y, t ) = D 2 p ( y, t ) ∂t ∂x Man kann nun nachweisen, dass ein Random-Walk der Diffusionsgleichung genügt: 5.3.2. Die zufällige Irrfahrt als Wiener-Prozess Ausgangspunkt ist die Gleichung von Chapman-Kolmogoroff für die nstufigen Übergangswahrscheinlichkeiten: p (jkn ) = p (jn,k−−1)1 p + p (jn,k−+1)1q (55.1) Bemerkung: Die Gleichung (55.1) wird aus (34.1) durch Umbenennen von j in k und die Gleichsetzungen p = p j −1, j und q = p j +1, j gewonnen. Es wird somit vorausgesetzt, dass die Wahrscheinlichkeiten für einen Rechts- bzw. Linksschritt über den gesamten Zustandsraum konstant sind. Diplomarbeit Stochastische Prozesse 55 Georg Messerle LRT 2002 5. Zufällige Irrfahrt Es sei nun P ( k n ) die Verteilungsfunktion der Position eines Partikels nach n Zeitschritten. Nach (34.1) kann P ( k n ) für jedes feste j folgendermaßen geschrieben werden: P ( k n ) = P ( k − 1 n − 1) p + P ( k + 1 n − 1) q (56.1) Wenn die P ( k n ) stetige Verteilungen sind, kann man auch schreiben: P ( x , t ) = P ( x − ∆x t − ∆ t ) p + P ( x + ∆ x t − ∆ t ) q (56.2) Taylor-Entwicklung: ∆x ) ∂ 2 ( ∂ ∂ 2 P ( x − ∆x t − ∆t ) = P ( x, t ) − ∆t P ( x, t ) − ∆x P ( x, t ) + P ( x, t ) + o ( ∆ x ) 2 ∂t ∂x 2! ∂x 2 und ∆x ) ∂ 2 ( ∂ ∂ 3 P ( x + ∆x t − ∆t ) = P ( x, t ) − ∆t P ( x, t ) + ∆x P ( x, t ) + P ( x, t ) + o ( ∆ x ) 2 ∂t ∂x 2! ∂x 2 Einsetzen in Gleichung (57.2) liefert: 2 ⎛ ⎞ ∆x ) ∂ 2 ( ∂ ∂ , P ( x, t ) = ⎜ P ( x, t ) − ∆t P ( x, t ) − ∆x P ( x, t ) + P x t ⎟p ( ) 2 ⎜ ⎟ 2! t x x ∂ ∂ ∂ ⎝ ⎠ 2 ⎛ ⎞ ∆x ) ∂ 2 ( ∂ ∂ , P x t + ⎜ P ( x, t ) − ∆t P ( x, t ) + ∆x P ( x, t ) + ⎟q ( ) 2 ⎜ ⎟ 2! t x x ∂ ∂ ∂ ⎝ ⎠ Nach Ausmultiplizieren und Kürzen ergibt sich: ( ∆x ) ∂ 2 P x, t ∂ ∂ ∆t P ( x, t ) = ( q − p ) ∆x P ( x, t ) + ( ) ∂t ∂x 2 ∂x 2 2 Diplomarbeit Stochastische Prozesse 56 (56.3) Georg Messerle LRT 2002 5. Zufällige Irrfahrt Davon ausgehend wird der Grenzübergang ∆t→0 und ∆x→0 beobachtet. Mit ∆x 2 = σ 2 und µ=0 (alias q=p) schreibt sich (56.3) als ∆ x → 0 ∆t ∆t → 0 den Voraussetzungen lim ∂P ∆x ∂P ∆x 2 ∂ 2 P = (q − p) + ∂t ∆t ∂x 2∆t ∂x 2 Der Grenzübergang ergibt: ∂P ∆x ∂P ∆x 2 ∂ 2 P = lim (q − p) + lim ∆x →0 ∂t ∆x →0 →0 2∆t ∂x 2 ∆t ∂x ∆∆xt → ∆t →0 ∆t →0 0 lim ∂P ∂t 0, n.V . σ 2 ∂2P 2 ∂x 2 Schließlich verbleibt: ∂P σ 2 ∂ 2 P = ∂t 2 ∂x 2 (57.1) was die Form der eingangs angegebenen Diffusionsgleichung (54.1) hat. Ein einfacher Random-Walk genügt also der Fokker-Planck-Gleichung. Wie noch gezeigt werden wird, sind die Übergangswahrscheinlichkeiten des WienerProzesses und die Verteilungen des einfachen RW gleichermaßen Lösungen der Diffusionsgleichung. Die zufällige Irrfahrt genügt aufgrund der Asymptotik ihrer Verteilungen gegen die N(0,1)-Verteilung den Gesetzen des Wiener-Prozesses (Einstein 1905). Diplomarbeit Stochastische Prozesse 57 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung 6. Mehrdimensionale (Gaußsche Normal-)Verteilungen 6.1. Definition und Einführung der Gaußschen Normalverteilung Die Sonderstellung der Gaußschen Normalverteilungen und unter ihnen der N(0,1)-Verteilung, begründet sich aus dem Zentralen Grenzwertsatz. Die Gaußschen Verteilungen finden sich in vielen Bereichen der Technik und der Natur. Darüber hinaus hat diese Verteilung auch schöne mathematische Eigenschaften, wie Symmetrie und Faltungsstabilität. Wie wir bereits gesehen haben sind auch die Zuwächse einer zufälligen Irrfahrt nach hinreichend langer Zeit asymptotisch normalverteilt. Da gezeigt worden ist, dass der RW den Gesetzen eines Wiener-Prozesses genügt, ist anzunehmen, dass auch die Inkremente der Brownschen Bewegung dieser Verteilung gehorchen. Die Einführung dieser Verteilung, ihrer Eigenschaften sowie ihre Verallgemeinerung auf beliebig viele Dimensionen sind der Hauptgegenstand dieses Kapitels. Darüber hinaus wird auf mehrdimensionale Verteilungen im Allgemeinen eingegangen und es werden grundlegende Vorbereitungen für das Verständnis der Brownschen Bewegung getroffen. Definition: Es seien a,σ reelle Zahlen, wobei σ>0 ist. Die Gaußsche Normalverteilung N(a, σ²) ist ein Wahrscheinlichkeitsmaß 1 definiert über der Borel´schen σ-Algebra des , dessen Dichtefunktion die Form(Lifshits[1]): 1 ρ (r ) = e 2πσ −( r − a ) 2 2σ 2 besitzt. Diplomarbeit Stochastische Prozesse 59 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung Abb. 60.1 Es gilt (Normierungsbedingung): ∞ ∫ ρ ( r )dr = 1 −∞ In der Familie der Gaußschen Normalverteilungen N={N(a, σ²)} nimmt die Standardnormalverteilung Grenzwertsatz, Kap. N(0,1) 7.3.1.) eine ein. Sonderstellung Deswegen hat sie (→Zentraler eine spezielle Schreibweise: Φ (r ) = 1 2π ∞ ⎧ −u 2 ⎫ exp ∫−∞ ⎩⎨ 2 ⎭⎬du 6.1.1. Eigenschaften Gaußscher Verteilungen 1) Die Dichte ist symmetrisch zum Punkt a und weist ein Maximum bei r = a auf, welches den Wert Diplomarbeit Stochastische Prozesse 1 besitzt. 2πσ 60 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung 2) Wenn sich r von a fortbewegt, fällt ρ ( r ) monoton und extrem schnell. Man kann beweisen, dass mehr als 99.7% der gesamten Wahrscheinlichkeitsmasse im Intervall [a-3σ, a+3σ] liegen. Der Punkt a ist der Schwerpunkt (das Baryzentrum) der Verteilung. 3) Große Bedeutung hat ihre Laplace-Transformation, die sog. momentenerzeugende Funktion (Lifshits[2]) (→Kap. 6.5.1.): Λ (γ ) = ∞ ∫ e ρ ( r ) dr = e γr ( ) ⎛1 2 2 ⎞ ⎜ aγ +σ γ ⎟ ⎝2 ⎠ −∞ 4) N(a, σ²) ist faltungsstabil, d.h. N ( a1 , σ 12 ) ∗ N ( a2 , σ 2 2 ) = N ( a1 + a2 , σ 12 + σ 2 2 ) . Wie noch ausführlich gezeigt werden wird, folgt daraus, dass die gemeinsame Verteilung der Summe unabhängiger Zufallsvariablen durch die Faltung gegeben ist; (Beichelt/Montgomery[83]) (→Kap. 6.2.). Im Folgenden wird zunächst anhand des Beispiels von zweidimensionalen Zufallsvariablen die Definition der Faltung erarbeitet und darauf aufbauend das Kalkül auf n-Dimensionen erweitert. 6.2. Die Faltungsstabilität der Normalverteilung Als Vorstufe zu den mehrdimensionalen Zufallsvariablen, bzw. Summen mehrerer Zufallsvariabler (z.B. der Position eines Partikels), betrachten wir eine zweidimensionale Zufallsgröße. Man könnte diese auch als einen zweistufigen stochastischen Prozess mit T = {1,2} interpretieren. Sind die Zufallsvariablen unabhängig und schreiben wir Z = X 1 + X 2 als die Summe von X 1 und X 2 , so lässt sich die Verteilungsfunktion FZ ( z ) wie aus der Vorlesung bekannt, folgendermaßen bestimmen (Marti[57]): Diplomarbeit Stochastische Prozesse 61 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung FZ ( z ) = P ( Z ≤ z ) = ∞ z − x1 ∫ ∫ f ( x , x )dx dx 1 2 1 2 −∞ −∞ Man summiert über alle z, die der Bedingung z ≤ x1 + x2 genügen. Sind die Zufallsvariablen unabhängig gilt wie wir behaupten: FZ ( z ) = ∞ ∫ FX 2 ( z − x1 )dFX1 = −∞ ∞ ∫ F (z − x ) f 1 X2 X1 dx1 −∞ denn wegen der Unabhängigkeit gilt f ( x1 , x2 ) = f X1 ( x1 ) f X 2 ( x2 ) und es folgt mit Vertauschung der Integrationen: ∞ z − x1 ∫ ∫ −∞ −∞ f X1 ( x1 ) f X 2 ( x2 ) dx1dx2 = ∞ ∫ −∞ ⎛ z − x1 ⎞ f X1 ( x1 ) ⎜ ∫ f X 2 ( x2 ) dx2 ⎟dx1 ⎜ ⎟ ⎝ −∞ ⎠ FX 2 ( z − x1 ) ∞ = ∫ f X1 ( x1 )FX 2 ( z − x1 ) dx1 −∞ Mit f X1 ( x1 ) = ∂FX1 ( x1 ) ∂x1 dx1 = und daraus folgend 1 f X1 ( x1 ) dFX1 ( x1 ) ergibt sich: P(Z ≤ z) = ∞ ∫ F ( z − x ) dF 1 X2 (62.1) X1 −∞ Die Verteilungsdichte ergibt sich zu: fZ ( z ) = ∞ dFZ ( z ) d ∞ d = F z − x f x dx = FX ( z − x1 ) f X1 ( x1 ) dx1 ( ) ( ) 1 1 1 X2 X1 ∫ ∫ dz dz −∞ dz 2 −∞ f X 2 ( z − x1 ) fZ ( z ) = ∞ ∫ f X 2 ( z − x1 ) f X1 ( x1 ) dx1 (62.2) −∞ Diplomarbeit Stochastische Prozesse 62 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung Diese Operation ist in allgemeiner Form als Faltung bekannt (Beichelt/Montgomery[83], Bailey[7]). Die Lösung der Faltungsintegrale ist i.A. sehr schwierig und kann nur in einigen Sonderfällen von Hand durchgeführt werden. Beispiel: Es seien X 1 und X 2 normalverteilte, unabhängige Zufallsvariablen mit den Parametern µ1 , σ 12 und µ 2 , σ 2 2 . Die Dichte der Verteilungsfunktion ihrer Summe Z = X 1 + X 2 ist dann: ∞ fZ ( z) = ∫ −∞ ⎧⎪ 1 ⎛ z − x − µ ⎞ 2 ⎫⎪ 1 ⎧⎪ 1 ⎛ x − µ ⎞ 2 ⎫⎪ 2 1 exp ⎨− ⎜ exp ⎨− ⎜ ⎟ ⎬ ⎟ ⎬ dx σ σ 2 2 πσ 2πσ 2 2 2 ⎠ ⎭⎪ 1 ⎩⎪ ⎝ ⎩⎪ ⎝ 1 ⎠ ⎪⎭ 1 ⎧⎪ 1 ( z − x − µ 2 )2 1 ( x − µ1 )2 ⎫⎪ = ∫ exp ⎨⎪− 2 σ 22 − 2 σ 12 ⎬⎪dx 2πσ 1σ 2 −∞ ⎩ ⎭ 1 ∞ Schreibt man u = x − µ1 und v = z − µ1 − µ2 → z − x − µ2 = v − u und verwendet die Substitution t= kann man σ 2 2 + σ 12 σ1 u− v σ 1σ 2 σ 2 σ 2 2 + σ 12 und dx = σ 1σ 2 σ 2 2 + σ 12 dt f Z ( z ) nach längerem Umformen (Beichelt/Montgomery[83]) auf diese Form bringen: ⎧⎪ ⎫⎪ ∞ − t 2 v2 fZ ( z) = e 2 dt exp ⎨ 2 2 ⎬ ∫ 2 2 + σ σ 2 2π σ 2 + σ 1 1 )⎪ ⎪⎩ ( 2 ⎭ −∞ 1 Das Integral nimmt den Wert 2π (Bronstein/Semendjaev[305]) an und es verbleibt: Diplomarbeit Stochastische Prozesse 63 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung fZ ( z) = ⎧⎪ ( z − µ − µ )2 ⎫⎪ 1 2 exp ⎨ 2 2 ⎬ 2 2 2π (σ 2 + σ 1 ) ⎩⎪ 2 (σ 2 + σ 1 ) ⎭⎪ 1 Man erkennt, dass sich die Parameter der Einzelverteilungen addieren. Es gilt der folgende Satz: Seien X 1 , X 2 ,..., X n n unabhängige Zufallsgrößen mit Verteilungen FX1 ,...., FX n und Verteilungsdichten f X1 ,...., f X n , so gilt gemäß (62.1/2) für die Verteilungen und Dichten ihrer Summen f Z ( z ) = f X1 ∗ f X 2 ∗ .... ∗ f X n FZ ( z ) = FX1 ∗ FX 2 ∗ .... ∗ FX n Sind die Zufallsvariablen identisch verteilt, so ist die Verteilungsfunktion FZ ( z ) von Z, die n-te Faltungspotenz von FX ( x) . Höhere Faltungspotenzen werden rekursiv berechnet. (Deswegen treten in obigem Beispiel auch nur die Variablen z und x auf). Dieses Ergebnis gilt nach wie vor nur für unabhängige Zufallsvariablen. Die gemeinsame Verteilung von n unabhängigen, normalverteilten Zufallsvariablen genügt einer n-dimensionalen Normalverteilung, wobei die Parameter von F(z) sich durch Addition der entsprechenden Parameter der Summanden ergeben. Man spricht in diesem Zusammenhang auch von Faltungsstabilität. Die Faltung ist eine Abbildung, deren Bilder im Falle der Normalverteilung durch die additive Verknüpfung der Parameter erzeugt werden. 6.3. Die Bedingte Verteilung Eine Folge von Zufallsvariablen kann allerdings nicht nur unabhängig sein, in welchem Fall ihre gemeinsame Verteilung durch die Faltung gegeben ist, sondern die ZV können in beliebiger Weise voneinander abhängen. Im Kapitel 4.3.3. „Markov-Eigenschaft“, wurde festgestellt, dass in einem Diplomarbeit Stochastische Prozesse 64 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung Prozess die ZV beispielsweise immer von ihren Vorgängern abhängen können. Der nächste Schritt des Prozesses wird immer durch den Ort des Partikels nach Abschluss des vorausgehenden Schrittes beeinflusst. Wir benötigen zur konkreten Verteilungsfunktion, welche Modellierung die also Position eine des gemeinsame Partikels zum Vorgängerzeitpunkt berücksichtigt: FX t ( x X s = b ) , d.h. die Wahrscheinlichkeit, im Schritt t die Position x einzunehmen, wenn im Schritt s (s<t) die Position b erreicht wurde. Da der Wiener-Prozess markovsch ist (→Kap. 7.4.2.), sind seine Verteilungen prinzipiell bedingt, da ja jeder Schritt von seinem Vorgängerschritt abhängt. Anhand einer zweidimensionalen Zufallsgröße werden die bedingte Verteilung und die bedingte Dichte erläutert. Definition: Die Verteilungsfunktion FY ( y x ) = P (Y ≤ y X = x ) heißt bedingte Verteilung. (Βei stetigen Verteilungen lässt sich eine alternative Erklärung angeben (Bauer[395]): Sei X eine ZV über (Ω,F,P) und C eine Unter-σ-Algebra von F, so heißt jede Abbildung PX C : ( Ω, C ) → ( Ω, F ) bedingte Verteilung unter der Hypothese C.) Nach der Definition der bedingten Wahrscheinlichkeit P ( a b) = P(a ) ∩ P(b) P (b) gilt hier analog: x +∆x ⎞ 1 ⎛ , f u v du ( ) ⎜ ⎟ dv ∫ ∫ P(Y ≤ y ∩ x ≤ X ≤ x + ∆x) −∞ ∆x ⎝ x ⎠ = P ( Y ≤ y x ≤ X ≤ x + ∆x ) = 1 P( x ≤ X ≤ x + ∆x) ( FX ( x + ∆x) − FX ( x) ) ∆x y Der Grenzübergang ∆x→0 liefert die bedingte Verteilungsfunktion von Y unter der Bedingung X=x. Diplomarbeit Stochastische Prozesse 65 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung FY ( y x ) = y 1 fX ( x) ∫ f ( x, v)dv = −∞ 1 fX ( x) F ( x, y ) Bemerkung: Der Quotient FX ( x) = im dFX = f X ( x) . dx Summe schreiben: FX ( x + ∆x) − FX ( x) , ist ∆x → 0 ∆x Nenner lim die Ableitung von Der Ausdruck im Zähler lässt sich als Riemannsche 1 ∆x → 0 ∆x lim ( x − xk −1 ) f ξ , v 1 n lim k ( k ) ∑ n →∞ ∆x → 0 ∆x n k =1 x +∆x f ( u , v ) du = lim ∫ x ∆x Wir wählen die gröbste Zerlegung des Integrationsbereiches [ x, x + ∆x ] mit der Feinheit δ i = ( xk − xk −1 ) = ∆x . n Weiterhin gilt: ξ k ∈ [ x, x + ∆x ] , woraus sich für den Fall ∆x→0 die Bedingung ξ k = x ergibt. Der Grenzübergang ∆x→0 ergibt nun: 1 lim ∆x → 0 ∆x x +∆x ∫ f ( u, v ) du = f ( x, v ) x Die bedingte Dichte ist also: fY ( y x ) = 1 ∂ f ( x, y ) F ( x, y ) = f X ( x) ∂y f X ( x) (66.1) Sind X und Y unabhängig gilt: fY ( y x) = fY ( y ) . 6.3.1. Die bedingte Verteilung der Brownschen Bewegung Um den Gebrauch der bedingten Verteilung zu verdeutlichen betrachten wir im folgenden Abschnitt eine Brownsche Bewegung { X t , t ≥ 0} . Die eindimensionalen Verteilungsdichten sind für alle t gegeben durch: Diplomarbeit Stochastische Prozesse 66 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung ⎧ x2 ⎫ 1 ft (t ) = exp ⎨− 2 ⎬ 2π tσ ⎩ 2σ t ⎭ Man betrachtet zwei willkürlich herausgegriffene Zufallsvariable X S und X t mit 0<s<t und berücksichtigt, dass die Zuwächse unabhängig sind, nämlich wenn für alle n-Tupel {t1 ,..., tn } die Zuwächse { X 2 − X 1 , X 3 − X 2 ,..., X n − X n−1} unabhängig von t sind. Mit anderen Worten: im Intervall t-s kann jeder Zuwachs auftreten. Die gemeinsame Verteilung von X S und X t ergibt sich so: f s ,t ( x1 , x2 ) = p( s, 0, x1 ) p(t − s, x1 , x2 ) ⎧⎪ ( x1 − x2 )2 ⎫⎪ ⎧ x12 ⎫ 1 1 = exp ⎨− ⎬ exp ⎨− ⎬ 2π s ⎩ 2s ⎭ 2π ( s − t ) ⎪⎩ 2 ( t − s ) ⎭⎪ = ⎧ x2 ( x − x )2 ⎫ 1 exp ⎨− 1 − 1 2 ⎬ 2π s(t − s) ⎩ 2s 2(t − s) ⎭ Bildung des Hauptnenners im Exponenten: HN: 2s(t-s) f s ,t ( x1 , x2 ) = ⎧⎪ 1 1 ⎪⎫ x12t − 2 sx1 x2 + sx22 ) ⎬ exp ⎨− ( 2π ( s − t ) ⎩⎪ 2 s ( t − s ) ⎭⎪ Diese Verteilung hat die Gestalt einer zweidimensionalen Normalverteilung mit der Korrelationsfunktion ρ= s t und der Kovarianzfunktion K = Cov( X s , X t ) = s . (Beichelt/Montgomery [110], Bauer[26]). Ohne Beweis haben wir hier so genannte Übergangswahrscheinlichkeiten zugrunde gelegt. Diese werden in (Kap. 7.4.1.) abgeleitet. Nun betrachten wir den Fall, dass X S und X t abhängig sind und zwar: 0<s<t und X s =b. Die bedingte Dichte von X t (unter der Bedingung X s =b) ist gemäß ihrer Definition (66.1) wie folgt darstellbar: Diplomarbeit Stochastische Prozesse 67 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung f X t ( xt xs = b) = f ( xs , xt ) = f X s ( xs ) ⎧⎪ 1 1 ⎪⎫ x12t − 2 sx1 x2 + sx22 ) ⎬ exp ⎨− ( 2π (t − s ) ⎪⎩ 2 s ( t − s ) ⎭⎪ f X s ( xt xs = b) = ⎧ x2 ⎫ 1 exp ⎨− 1 ⎬ 2π s ⎩ 2s ⎭ ⎧ 1 1 2⎫ exp ⎨ − ( xt − b ) ⎬ (t − s ) ⎩ 2(t − s ) ⎭ 2π s Dies entspricht einer Normalverteilung mit den Parametern E ( X t X s = b ) = b 1 und Var ( X t X s = b ) = (t − s ) . s Wie bereits berechnet, betrachtet man nun den Übergang s→t, d.h. man geht zu infinitesimaler Schrittweite über. Der Erwartungswert ist dabei 1 konstant b, die Varianz ( lim (t − s ) ) nimmt den Wert 0 an. Da die Markovs →t s Eigenschaft den Prozess nur ab dem Zeitpunkt t betrachtet, zu dem X s den Wert b angenommen hat, kommt dies einem „loslaufen“ des Prozesses bei X s = X 0 = b gleich. Der Erwartungswert ist demnach b. Abb. 68.1 Diplomarbeit Stochastische Prozesse 68 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung Die bedingte Verteilung entartet um den Nullpunkt, wenn s gegen Null und t gegen s strebt. Induktiv kann man diese Vorstellung auf jeden beliebigen Zeitpunkt s und t übertragen. Die „Höhe“ der Verteilung ist dann anschaulich ein Maß für die Kopplung im Nahbereich, d.h. für die Aufenthaltswahrscheinlichkeit eines diffundierenden Partikels bei sehr kleinen Zeitabschnitten (t-s). 6.3.2. Die bedingte Varianz Ein wichtiger Aspekt in der mathematisch sauberen Beschreibung stochastischer Prozesse ist das Verhalten der Varianz für infinitesimale Schrittweiten. Wie wir gesehen haben, impliziert die Markov-Eigenschaft eine Abhängigkeit zwischen aufeinander folgenden Zufallsvariablen. Maßzahlen für diese Abhängigkeiten sind Varianz und Kovarianz. Wir betrachten das Verhalten der Varianz in Abhängigkeit von t und s: 1 Var ( X t X s = b ) = (t − s ) s Eine Funktionsuntersuchung liefert den folgenden Verlauf: Die Funktion ist unbeschränkt wenn s→0 geht, sie besitzt Nullstelle bei s=t und verläuft für s>t asymptotisch zu F(s)=-1. Ein Prozess mit Varianz Null wird als weißes Rauschen bezeichnet, und spielt in den Ingenieurwissenschaften bei der Modellierung von zufälligen Anregungen von Strukturen, z.B. durch Wind, eine wichtige Rolle (Waubke). 6.4. Multidimensionale Normalverteilung unabhängiger Zufallsgrößen Um das Problem der Abhängigkeit zu umgehen, können zwei Tricks angewendet werden: Entweder beschränkt man sich bei der Beschreibung eines Prozesses auf seine Inkremente, oder man definiert für stetige Prozesse Übergangswahrscheinlichkeiten d.h. Größen die die Wahrscheinlichkeit eines Diplomarbeit Stochastische Prozesse 69 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung Überganges innerhalb eines Zeitintervalls angeben und die aktuelle Position des Prozesses berücksichtigen. In diesem Abschnitt werden die Eigenschaften der in Kap. 4.4.4. bereits eingeführten Verteilung, im Vergleich zur bedingten Verteilung betrachtet; eine genaue Ableitung findet sich in Kap. 7.4. Jede Zufallsvariable ist als Summe unabhängiger Zuwächse darstellbar. Im Zusammenhang mit dem zentralen Grenzwertsatz folgt daraus, dass ein nwertiger Wahrscheinlichkeitsvektor einer n-dimensionalen Normalverteilung genügt (→Kap. 7.3.1.). Gemäß (Kap. 4.4.4.) lautet diese (Brzezniak/Zastawniak[151]): P ( X ≤ x) = F ( x) = ∞ ∞ ∞ −∞ −∞ −∞ ∫ ... ∫ ∫ p ( t , 0, x ) p ( t 1 1 2 − t1 , x1 , x2 ) .... p ( tn − tn −1 , xn −1 , xn ) dx1dx2 ...dxn (70.1) Hierbei sind die Dichten wieder unabhängig, und die Verteilung ergibt sich nach obiger Gleichung. Die gemeinsame Dichtefunktion erhält man nach n-maliger Differentiation: ∂ n F ( x1...xn ) ft1 ...tn ( x1...xn ) = ∂x1∂x2 ....∂xn ft1 ...tn ( x1...xn ) = 2 ⎧⎪ 1 ⎛ x 2 ( x − x )2 xn − xn −1 ) ⎞ ⎫⎪ ( 2 1 1 + ... + exp ⎨− ⎜ + ⎟⎬ ⎜ t1 ⎟ − − t t t t 2 2 1 1 n n − ⎪ ⎠ ⎭⎪ t1 ( t2 − t1 ) ... ( tn − tn −1 ) ⎩ ⎝ 1 n ( 2π ) 2 (70.2) Man erkennt, dass es sich um die gemeinsame Dichte n-1 unabhängiger Zuwächse handelt. Ist die Trendfunktion konstant 0, d.h. der Erwartungswert in Abhängigkeit der Zeit von Anfang an konstant, so ist der Prozess durch seine Kovarianzfunktion vollständig charakterisiert. Die obige Definition der Übergangswahrscheinlichkeiten ist in der Praxis der Definition der bedingten Verteilung äquivalent. Die Ableitung der vorliegenden gemeinsamen Verteilungsfunktion geschieht anschaulich mit Hilfe der Vorstellung des stochastischen Kerns (Ableitung: Kap. 7.4.1.). Die Diplomarbeit Stochastische Prozesse 70 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung so gewonnene Verteilungsfunktion zeigt jedoch dieselben Charakteristiken wie die gemeinsame bedingte Verteilung. Wir betrachten diese Verteilung nun noch einmal für ihre Anfangswerte: Abb. 71.1 Diesmal lassen wir den Parameter t größere Werte annehmen. Wir betrachten somit die Wahrscheinlichkeit, einer ersten Realisation des Prozesses im Zeitabschnitt (t-0). Nimmt t große Werte an (z.B. t=10) so flachen die Schwänze der Verteilung stark ab. Für t→∞ nähert sich die Verteilung einer geraden Linie. Da die Norm auch im Unendlichen bestehen bleibt, rückt das Maximum dabei beliebig nahe an den Nullpunkt heran. Umgekehrt bedeuten „dickere Schwänze“ natürlich einen Anstieg der Aufenthaltswahrscheinlichkeit eines Partikels, in weiter vom Nullpunkt entfernten Regionen. Gleich der bedingten Verteilung entartet die vorliegende Verteilungsdichtefunktion um den Nullpunkt (t→0) zur Dirac-Distribution. Diplomarbeit Stochastische Prozesse 71 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung Abb. 72.1 6.4.1. Einschub: Dirac-Distribution Bei der Dirac-Distribution (auch: δ-Distribution) handelt es sich um eine verallgemeinerte Funktion. Der in der Literatur häufig auftretende Begriff „Dirac-Funktion“ ist streng genommen inkorrekt, da eigentlich keine konkrete funktionale Zuordnung (Abbildung) vorgenommen wird. Vielmehr handelt es sich um einen Peak unendlicher Höhe und infinitesimaler Breite. Definition: ⎧0 , x ≠ a ⎩∞ , x = a δ ( x − a) = ⎨ Das Integral über den gesamten Bereich der reellen Zahlen der DiracDistribution ergibt den Wert 1. Aufgrund dieser Normierungsbedingung eignet sie sich zur Beschreibung des Anfangsverhaltens der gemeinsamen Verteilung eines stochastischen Prozesses. Darüber hinaus ist sie die Ableitung (im Sinne der Ableitung einer Distributionen) der aus der SteuerDiplomarbeit Stochastische Prozesse 72 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung und Regelungstechnik bekannten Heaviside-Sprungfunktion (dem Einheitssprung). 6.5. Die Normalverteilung als Lösung der Diffusionsgleichung Die Diffusionsgleichung ist wie in Abschnitt 5.3.1. gezeigt, eine partielle Differentialgleichung zweiter Ordnung. In der Diffusionstheorie beschreibt sie die Konzentration x der diffundierenden Substanz zur Zeit t, deren Konzentration zum Zeitpunkt 0 einen bestimmten Wert a hatte. In der Wärmelehre beschreibt sie die übertragene Wärmemenge als Funktion von t und x. Bei den stochastischen Prozessen kann die Funktion p als die Dichtefunktion der Übergangswahrscheinlichkeiten aufgefasst werden. Einstein leitete 1905 erstmals eine Normalverteilung als Lösung dieser Gleichung ab und definierte somit als Erster den Wiener-Prozess in seiner heutigen Gestalt. Die Gleichung wird nun unter Zuhilfenahme von Rand- und Anfangsbedingungen gelöst. 6.5.1. Analytische Ableitung Die Lösung der Diffusionsgleichung mit einer deltaartigen Anfangsverteilung entspricht einer auseinander laufenden Normalverteilung. ∂p 1 ∂ 2 p = ∂t 2 ∂y 2 (73.1) Als Anfangsbedingung kommt in Frage: p(0, x, y ) = δ ( y − x) = lim p( xt xs ) t →s Es handelt sich hierbei um eine deltaartige Eingangsverteilung, die der Normierungsforderung entspricht. Handelt es sich dabei um bekannte Startwerte, so ist über die Dirac-Funktion zu integrieren, was letztlich Diplomarbeit Stochastische Prozesse 73 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung bedeutet, dass einfach der Anfangswert in der bedingten Wahrscheinlichkeit einzusetzen ist (Waubke[40], Risken/Haken[45]). Randbedingungen: p (t , x, ∞ ) = p (t , x, −∞ ) = 0 d.h. die Wahrscheinlichkeit, dass der Partikel sprunghaft im Unendlichen verschwindet ist Null. Es werden darüber hinaus folgende Voraussetzungen gemacht: Die partiellen Ableitungen ∂p ∂p ∂ 2 p , , sind stetig in t und y, sowie nach x ∂t ∂y ∂y 2 integrierbar. Man betrachtet nun die charakteristische Funktion (Methode der Charakteristiken (Bronstein/Semendjaev)) Φ(θ , t ) = ∞ ∫e iθ y p(t , x, y )dy −∞ Gleichung (73.1) mit eiθ y multipliziert, ergibt ∂p iθ y 1 ∂ 2 p iθ y e = e ∂t 2 ∂y 2 Und nach zweimaliger partieller Integration nach y: ∞ Linke Seite: ∂ ∂ peiθ y dy = Φ ∫ ∂t −∞ ∂t Rechte Seite: ⎡ ⎤ ∞ ⎢ ⎥ ∞ ∞ ∞ 1 ∂ 2 p iθ y 1 ⎢ ⎡ ∂p iθ y ⎤ 1 iθ y 2 iθ y e dy = ⎢ e ⎥ − ⎡⎣ piθ e ⎤⎦ − ∫ θ e pdy ⎥ = − θ 2Φ 2 ∫ −∞ ⎥ 2 −∞ ∂y 2 ⎢ ⎣ ∂y 2 ⎦ −∞ −∞ ⎢ ⎥ p ( t , x , ±∞ ) = 0 θ 2Φ →Term = 0 ⎢⎣ 0,wg .RB ⎥⎦ Also: ∂ 1 Φ = − θ 2Φ ∂t 2 (74.1) Diese Differentialgleichung kann nun durch einen Exponentialansatz gelöst werden: Diplomarbeit Stochastische Prozesse 74 Georg Messerle LRT 2002 6. Mehrdimensionale Normalverteilung Φ(θ , t ) = Ae− λt ∂ Φ (θ , t ) = − Aλ e − λt ∂t Eingesetzt in Gleichung (74.1) ergibt sich: Φ(θ , t ) = Ae 1 − θ 2t 2 Die Konstante A kann aus der Anfangsbedingung ermittelt werden: Φ(θ , 0) = A = eiθ x Die Gesamtlösung lautet also: Φ(θ , t ) = e Die Rücktransformation mittels 1 iθ x − θ 2t 2 der Inversionsformel Transformation (Srinivasan/Mehata[9], Merziger/Wirth[360]) der Fourierergibt die Dichtefunktion einer Normalverteilung mit Mittelwert x und Varianz t: ⎛ 1 ( y − x )2 ⎞ 1 p(t , x, y ) = exp ⎜ − ⎟ ⎜ 2 ⎟ t 2π t ⎝ ⎠ (75.1) Um zu verifizieren ob das Ergebnis tatsächlich die Diffusionsgleichung löst, differenzieren wir Gleichung (75.1) partiell nach t und y: y 2 − 2 yx + x 2 − t ∂ p (t , x, y ) = p(t , x, y ) 2t 2 ∂t x− y ∂ p(t , x, y ) = p (t , x, y ) t ∂y y 2 − 2 yx + x 2 − t ∂2 ( , , ) = p t x y p (t , x, y ) ∂y 2 t2 Einsetzen in Gleichung (73.1) ergibt die Trivialbeziehung 1 1 = . Da im 2 2 allgemeinen Fall der Parameter σ² auf der rechten Seite steht, folgt dass σ²=1 sein muss. Die Normalverteilung ist damit eine Lösung der Diffusionsgleichung. Diplomarbeit Stochastische Prozesse 75 Georg Messerle LRT 2002 7. Brownsche Bewegung 7. Brownsche Bewegung Abb. 76.1 (Quelle: Wikipedia) 7.1 Definition und Eigenschaften Die Brownsche Bewegung (in der Literatur auch oft als Wiener-Prozess bezeichnet) ist ein stochastischer Prozess, der die stetige zufällige Bewegung eines Partikels modelliert. Sie wurde von dem englischen Botaniker Robert Brown [A4] entdeckt, der die Bewegung von Pollen in einem Wasserglas feststellte. Die Brownsche Molekuarbewegung stellt die erste Anwendung von Markov-Prozessen in Verbindung mit der Fokker-Planck-Gleichung dar. Sie beschreibt den Vorgang der Diffusion in einfacher Weise. Dabei wird angenommen, dass die einzelnen Teilchen (Moleküle) eines Gases oder einer Flüssigkeit sich mit konstanter Geschwindigkeit bewegen, bis sie auf ein anderes Teilchen stoßen und dabei Energie austauschen, was zu einer Änderung des Bewegungszustandes führt. Der Wiener-Prozess, der diesen Vorgang beschreibt besitzt als Aufenthaltswahrscheinlichkeit für jeden Zeitpunkt eine Normalverteilung (Billingsley[498]). Diplomarbeit Stochastische Prozesse 76 Georg Messerle LRT 2002 7. Brownsche Bewegung Die mathematischen Grundlagen wurden 1923 von dem US-amerikanischen Mathematiker Norbert Wiener gelegt, der erstmals die Existenz eines solchen Prozesses nachwies. 7.1.1. Physikalische Bedeutung Physikalisch beobachtbar ist der Prozess zum Beispiel im Falle einer Rauchwolke in vollständig ruhender Luft. Ausgehend von einer Konzentration zum Anfangszeitpunkt wird sich die Wolke mit der Zeit über ein sehr großes Volumen verteilen. Der Konstruktion des Wiener-Prozesses gehen aus diesem Grunde auch physikalische Annahmen voraus (Lawler[143]). Diese Annahmen sind mathematisch rein willkürlich, stellen aber die Anbindung des mathematischen Konstruktes an die Wirklichkeit dar. o X t sei die Position eines Partikels zum Zeitpunkt t. o t∈ + ; Xt ∈ n n = 1, 2,3,... Es handelt sich also um einen stochastischen Prozess mit sowohl stetigem Parameterraum als auch kontinuierlichem Zustandsraum. o X t =0 = 0 ; der Prozess läuft im Koordinatenursprung zum Zeitpunkt t=0 los. o Es seien s und t (s<t) zwei vollständig beliebige Zeitpunkte: Die Bewegung nach der Zeitspanne t-s ist unabhängig von X s . Diese Annahme wird für jede endliche Anzahl von Zeitpunkten benötigt werden. o Die Verteilungen der zufälligen Bewegungen ändern sich nicht mit der Zeit. Man kann annehmen, dass die Verteilung der ZV X t − X s nur von der Differenz t-s abhängt. o Es gibt keine Drift, d.h. die Trendfunktion ist konstant Null. o Die Funktion X t ist eine stetige Funktion der Zeit. Wiener-Prozesse werden heutzutage nicht nur zur Modellierung der Molekularbewegung herangezogen, sondern auch zur Beschreibung von Diplomarbeit Stochastische Prozesse 77 Georg Messerle LRT 2002 7. Brownsche Bewegung Kursschwankungen an der Börse. Eine grundlegende Arbeit hierzu stammt von Bachelier aus dem Jahr 1900, der zum ersten Mal die Brownsche Bewegung mit den Schwankungen des Aktienkurses in Verbindung brachte. (Wikipedia: http://.www.wikipedia.org/index/math/brownian.motion.html) 7.1.2. Definition Definition (1): Ein Wiener-Prozess mit Varianz σ² ist ein stochastischer Prozess X t mit stetigem Zustandsraum Z⊆ . Für alle s1 < t1 < s2 < t2 .... sind die Zufallsvariablen X t1 − X s1 .... unabhängig. Für jedes s<t hat die Zufallsvariable Xt − X s eine Normalverteilung mit Mittelwert 0 und Varianz (t-s)σ². Die Trajektorien t→W(t) sind stetig (Brzezniak/Zastawniak[151]). Definition (2): Eine (eindimensionale) Brownsche Bewegung ist ein stetiger, über einem Wahrscheinlichkeitsraum (Ω,F,P) definierter Prozess X = { X t , Ft , 0 ≤ t ≤ ∞} mit den Eigenschaften dass X 0 = 0 ist, und für 0 ≤ s ≤ t ist das Inkrement X t − X s normalverteilt mit Mittelwert Null und Varianz t-s, sowie unabhängig von Fs (Martingal-Eigenschaft) ist (Karatzas/Shreve[47]). 7.2. Die „Topologie“ der Brownschen Bewegung In diesem Abschnitt werden die Grundlagen (Kap. 3.1.ff) wiederholt, um die Brownsche Bewegung nicht nur axiomatisch, sondern auch anschaulich sauber zu konstruieren. Besonderes Gewicht liegt auf der Einbindung der Filtrationen und der Einführung des Martingalbegriffes (→Definition(2)). Zunächst betrachten wir den zugrunde liegenden Wahrscheinlichkeitsraum noch einmal genauer: Diplomarbeit Stochastische Prozesse 78 Georg Messerle LRT 2002 7. Brownsche Bewegung Es handelt sich dabei um einen Messraum (Ω, F), bestehend aus einer Trägermenge Ω (Ω topologischer Raum), versehen mit einer Borel´schen σAlgebra über welchem eine Familie von Zufallsvariablen definiert ist. Diese Folge von Zufallsexperimenten bildet Punkte des Ereignisfeldes F in einen zweiten Messraum (S, S), den Zustandsraum, ab. Für jeden Punkt ω aus Ω ist die Abbildung t→X(t,ω) eine (physikalisch interpretierbare) Trajektorie des stochastischen Prozesses (Kap. 7.6.). Definition: Ein Prozess {( t , ω ) ; X t { X t , t ≥ 0} heißt messbar, wenn für jedes A ∈ B ( d ) die Menge ∈ A} zum Produktsigmafeld von B ([0, ∞) ) ⊗ F gehört. Es gilt also: ( t , ω ) → X t (ω ) : ([0, ∞) × Ω, B ([0, ∞) ) ⊗ F ) → ( d , B( d )) ist messbar. (Karatzas/Shreve[3]) 7.2.1. Einschub: Das Produktsigmafeld In Kap. 3.1. ist gezeigt worden, dass es sich bei einer Borel´schen σ-Algebra letztlich um eine Art Topologie auf Ω handelt. Auf diese Weise ist auch das Produkt B ([0, ∞) ) ⊗ F zu erklären: Definition: Seien X und Y topologische Räume. Eine Teilmenge W ⊂ X × Y heißt offen in der Produkttopologie, wenn es zu jedem Punkt (x,y) ∈ W Umgebungen U von x in X und V von y in Y gibt, so dass U × V ⊂ W . Mit der dadurch definierten Topologie heißt der topologische Raum X × Y das kartesische Produkt der Räume X und Y, welches von den Produkten U × V erzeugt wird (Jänich[14]). Diplomarbeit Stochastische Prozesse 79 Georg Messerle LRT 2002 7. Brownsche Bewegung Übertragen auf die Wahrscheinlichkeitstheorie bedeutet dies, dass hier eine ähnliche Konstruktion erzeugt wird. Ein spezielles Ereignis A muss Element einer bestimmten Teilmenge von X × Y sein, um messbar zu sein. Explizit ist der Teilbereich W hier mit B ([0, ∞) ) ⊗ F angegeben. Es ist ein fundamentaler Bestandteil des wahrscheinlichkeitstheoretischen Kalküls (→Kap. 3.2.), dass die Ereignisse A Elemente des Ereignisfeldes F des Wahrscheinlichkeitsraumes (Ω, F, P) sind und so auch Umgebungen von A in F existieren. Gehört für alle „beobachtbaren“ Ereignisse A ∈ B ( d ) das Paar (t,ω) zu diesem Produktsigmafeld, ist also offen in der Produkttopologie von B ([0, ∞) ) und F, so heißt der Prozess { X t , t ≥ 0} messbar. Der Begriff „messbar“ hat in der Maßtheorie eine analoge Bedeutung wie der Begriff „offen“ in der Topologie. Es gibt darüber hinaus einen wichtigen anschaulichen Grund, σ-Felder bei der Betrachtung stochastischer Prozesse mit einzubeziehen, nämlich der „Stand der Information“. Der durch die Indizierung des Prozesses vermittelte Zeitablauf erlaubt es, zu jedem Zeitpunkt t>0 von Vergangenheit, Gegenwart und Zukunft eines Prozesses zu sprechen. Man kann aufgrund dessen vergleichende Betrachtungen anstellen, wie viel ein Beobachter über den gegenwärtigen Stand des Prozesses weiß, gegenüber dem, wie viel er zu einem Zeitpunkt in der Vergangenheit wusste und wie viel er zu einem beliebigen Zeitpunkt in der Zukunft wissen wird (Karatzas/Shreve[4]). Wir versehen den Zustandsraum Z des Prozesses deswegen mit einer Filtration (Kap. 3.1.4.) und schreiben: F∞ = (∪ t ≥0 Ft ) Die einfachste Filtration ist diejenige, die von Prozess selbst generiert wird: Ft X = σ ( X s : 0 ≤ s ≤ t ) Diplomarbeit Stochastische Prozesse 80 Georg Messerle LRT 2002 7. Brownsche Bewegung Bemerkung: Die angegebene Filtration wird auch kanonische Filtration oder minimale Filtration genannt (Bauer[138]). Mit jeder Realisation von X s steigen die Kombinationsmöglichkeiten für Ereignisfamilien A, welche ja topologische Subbasen des erzeugten σ-Feldes Fs sind. Wir können also beurteilen, ob sich zur Zeit t eine spezielle Familie Ai (als „Realisationskombination“ von X s <t ) ereignet hat oder nicht. Definition: Ein stochastischer Prozess heißt adaptiert an die Filtration Ft , wenn für jedes t>0, X t eine Ft -messbare Zufallsvariable ist (Karatzas/Shreve[4]). Die Brownsche Bewegung ist nach Voraussetzung ein reellwertiger Prozess, über einem Wahrscheinlichkeitsraum (Ω, F, P), der an eine gegebene Filtration Ft adaptiert ist, so dass E Xt < ∞ ∀t ∈ T gilt. Definition: Ein Prozess heißt Martingal, wenn für beliebige s,t ∈ T , s<t der bedingte Erwartungswert E ( Xt Xs ) = X s ist. Bemerkung: Gilt E ( Xt Xs ) ≤ X s bzw. E ( Xt Xs ) ≥ X s so heißt { X t , t ≥ 0} Super- bzw. Submartingal bezüglich Ft (Bauer[139]). Charakteristisch für ein Martingal ist, dass die Zufallsvariable X t immer unabhängig von Fs ist (→Kap. 7.4.3.). Dies ist die Folge der Adaption des Prozesses an die Filtration. In Kap. 7.3.2. wird gezeigt, dass der Erwartungswert für willkürlich herausgegriffene Zeitpunkte s und t (s<t) Diplomarbeit Stochastische Prozesse 81 Georg Messerle LRT 2002 7. Brownsche Bewegung immer Xs ist und damit die notwendige Bedingung der Martingal- Eigenschaft des Wiener-Prozesses erfüllt ist. 7.3. Die Verteilungsfunktion der Brownschen Bewegung 7.3.1. Der Bezug zum zentralen Grenzwertsatz Im Folgenden wird eine Verteilung abgeleitet, die den oben beschriebenen Anforderungen, die an den stochastischen Prozess gestellt werden, genügt. Ein erster, leicht einprägsamer Ansatz lässt sich über die Zerlegung einer beliebigen Zufallsvariablen in die Summe von n unabhängigen Zuwächsen erzielen: zum Beispiel kann eine ZV X 1 als Summe n unabhängiger Zuwächse dargestellt werden: ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ X 1 = ⎢ X 1 − X 0 ⎥ + ⎢ X 2 − X 1 ⎥ + ... + ⎢ X n − X n −1 ⎥ n⎦ n ⎦ ⎣ n ⎦ ⎣ n ⎣ n Die einzige Verteilung, die als Summe n unabhängiger, identisch verteilter Zufallsgrößen geschrieben werden kann, ist die Normalverteilung (Marti[60]). Wenn die Irrfahrt eines Systems von einer Vielzahl unterschiedlicher, unabhängiger Ursachen herrührt, besagt der zentrale Grenzwertsatz, dass das „Nettoresultat“ normalverteilt sein wird und mit zunehmender Anzahl (der Einflüsse) gegen die Standardnormalverteilung N(0,1) konvergiert. Die Zufallsvariablen X i der Brownschen Bewegung sind daher normalverteilt. Da die Brownsche Bewegung nach Voraussetzung ein zeitstetiger Prozess ist, werden die Dichten der Zufallsvariablen wie bei den Markov´schen Ketten mit stetiger Zeit, durch Übergangsdichten ausgedrückt. Man definiert die Verteilungsfunktion einer Brownschen Bewegung daher so: Diplomarbeit Stochastische Prozesse 82 Georg Messerle LRT 2002 7. Brownsche Bewegung Definition (Verteilung der Brownschen Bewegung): Für eine endliche Folge von Zeitpunkten 0 < t1 < t2 < ... < tn und Borel´schen Mengen A1 ,...., A2 ⊂ gilt: { } P X t1 ∈ A1 ,...., X tn ∈ An = ∫ ... ∫ p(t1 , 0, x1 ) p(t2 − t1 , x1 , x2 ).... p(tn − tn −1 , xn −1 , xn )dx1...dxn A1 An − 1 e Dabei sind die Übergangsdichten p (t , x, y ) = 2π t ( x − y )2 2t . Der Ausdruck p (t2 − t1 , x1 , x2 ) beispielsweise bezeichnet dabei die Dichte der Wahrscheinlichkeit des Überganges von einem Zustand x1 in einem Zustand x2 im Zeitabschnitt ∆t = t2 − t1 (Karlin [273]). Es wird im folgenden Dichtefunktion von Wt gezeigt, dass − 1 f ( x) = e 2π t ( x )2 2t tatsächlich die ist und wie Erwartungswert und Varianz der gemeinsamen Verteilungsfunktion der Brownschen Bewegung aussehen. 7.3.2. Erwartungswert Die obige Begriffsbestimmung besagt, dass sich die gemeinsame Verteilung des zufälligen Vektors ( Wt1 ,..., Wtn ) durch das n-fach Integral über das Produkt der Übergangsdichten berechnet. Wenn − 1 f ( x) = e 2π t ( x )2 2t eine Dichte der Verteilung sein soll, so kann es sich nur um f ( x) = p (t1 , 0, x1 ) handeln. Wir berechnen nun für diese Dichte den Erwartungswert (da die Integration leicht fällt) und schließen dann induktiv auf die restlichen Übergänge (Brzezniak/Zastawniak[152]). Der Erwartungswert ergibt sich wie folgt: Diplomarbeit Stochastische Prozesse 83 Georg Messerle LRT 2002 7. Brownsche Bewegung ∞ 1 E (Wt ) = ∫ xp(t , 0, x)dx = 2π t −∞ ∞ ∫ xe − x2 2t dx −∞ Da gilt: 2 2 d − x2t x − x2t e =− e dx t 2 → 2 x − d − x2t − t e = xe 2t und dx 1 E (Wt ) = − 2π t d ∫ dx adx = a ergibt sich: ∞ x ⎡ − ⎤ d − x2t t 2t = − e dx e ⎢ ⎥ =0 ∫−∞ dx π 2 t ⎣⎢ ⎦⎥ −∞ 2 ∞ 2 Der Erwartungswert ist für alle Zeitpunkte t gleich Null, d.h. die Trendfunktion ist konstant Null und der Prozess bewegt sich im Mittel an der x-Achse entlang. 7.3.3. Varianz Analog zum Erwartungswert berechnet sich die Varianz: ∞ 1 Var (Wt ) = ∫ x p(t , 0, x)dx = 2π t −∞ 2 1 = 2π t ∞ ∫ x ⋅ xe − x2 2t −∞ ∞ ∫xe 2 − x2 2t dx −∞ t dx = − 2π t 2 ∞ d − x2t ∫ x dxe dx −∞ Durch partielle Integration gewinnt man: 2 Mit: v = x → dv = 1 und dx t − 2π t ∞ du d − x2t = e dx dx → u=e 2 2 x − d − x2t t 2t x e dx = − xe ∫−∞ dx 2π t 1. Diplomarbeit Stochastische Prozesse 84 − x2 2t ∞ t + 2π t −∞ ∞ ∫e − x2 2t dx −∞ 2. Georg Messerle LRT 2002 7. Brownsche Bewegung Der erste Teil (1.) wird bezüglich seines Verhaltens gegen +∞ und -∞ untersucht: 2 x − t xe 2t − 2π 2 ∞ 2 x − t xe 2t + 2π −∞ 2 x x − − t t 2t =− lim xe + lim xe 2t = ? 2π x →∞ 2π x →∞ Aufgrund des Quadrates im Exponenten und des negativen Vorzeichens des ersten Summanden ergibt sich die Summe, unabhängig von x, zu Null. Doch auch wenn x→∞ geht kann gezeigt werden, dass der Grenzwert existiert und Null ist: x ⎛ t − lim ⎜ xe 2t x →∞ ⎜ ⎝ 2π 2 ⎡∞⎤ ⎡1⎤ ⎢ ⎥ ⎢ ⎥ ⎞ [0 ∞] t x ⎣∞⎦ t 1 ⎣∞ ⎦ lim x2 = lim =0 ⎟ = x2 ⎟ x →∞ x →∞ 2 2 π π x ⎠ e 2t e 2t t Der erste Teil des Integrals ist also Null. Der zweite Teil (2.) kann durch die Substitution u = x und dx = tdu auf die t Form t 2π t ∞ ∫e −∞ − x2 2t ∞ 2 u − t dx = t ∫ e 2 du 2π −∞ gebracht werden. Der Wert des Integrals ist 2π (Merziger/Wirth[290]) und somit verbleibt für die Varianz: 2 ∞ u − t t ∫ e 2 du = t 2π −∞ Var (Wt ) = 0 + t = t Alle Wt haben also eine Normalverteilung mit Mittelwert 0 und Varianz t. Wir greifen nun zwei beliebige, aufeinander folgende Zufallsvariablen heraus und betrachten die gemeinsame Diplomarbeit Stochastische Prozesse Varianz, 85 den Mittelwert und die Georg Messerle LRT 2002 7. Brownsche Bewegung Dichtefunktion. Es sei nun s<t und wir betrachten die Zufallsvariablen Wt und Ws . Die gemeinsame Dichte ist nach Definition fWt ,Ws = p ( s, 0, x ) p (t − s, x, y ) Der Erwartungswert ist: E (Wt ,Ws ) = ∞ ∞ ∫∫ ⎛∞ ⎞ xp ( s , 0, x ) ⎜ ∫ yp(t − s, x, y )dy ⎟ ∫−∞ ⎝ −∞ ⎠ ∞ xy ⋅ p ( s, 0, x) p (t − s, x, y )dxdy = −∞ −∞ x ∞ = ∫x 2 p ( s, 0, x)dx = Var (Ws ) = s −∞ Das bedeutet, dass der Erwartungswert zweier um t-s auseinander liegender Zufallsgrößen die Varianz der Zufallsgröße zum Zeitpunkt s ist. Dies ist eine Konsequenz der Markov-Eigenschaft. Zu jedem Zeitpunkt s hängt der Übergang nach t nur von s ab: wie gezeigt worden ist, kann man sich vorstellen, dass der Prozess zu jedem Zeitpunkt s an einem Punkt x(s) startet. Für beliebige {s, t : s < t} gilt: E (Wt , Ws ) = min {s, t} für beliebige s,t. 7.3.4. Die Inkremente des Wiener-Prozesses Unter den Inkrementen eines Wiener-Prozesses versteht man die Zufallsvariablen X t − X S (s<t), also die Zuwächse, die der Prozess in der Zeitspanne t-s erfährt (Kap. 4.3.2.). Die Inkremente sind ebenfalls normalverteilt mit Mittelwert 0 und Varianz t-s. Beweis: Var ( X t − X S ) = E ( X t − X S ) = E ( X t 2 ) − 2 E ( X t X s ) + E ( X s 2 ) 2 = t − 2s + s = t − s Diplomarbeit Stochastische Prozesse 86 Georg Messerle LRT 2002 7. Brownsche Bewegung Die Inkremente sind darüber hinaus unabhängig. Dies folgt aus der Tatsache, dass die Inkremente normalverteilt sind. Sie sind deswegen genau dann unabhängig, wenn sie unkorelliert sind, d.h. gilt: Cov ( X t − X S , X n − X r ) = 0 Es sei 0<r<n<s<t. Mit Cov ( X i , X j ) = E ( X i , X j ) − E ( X i ) E ( X j ) gilt: Cov ( X t − X S , X n − X r ) = E ( ( X n − X r )( X t − X s ) ) − E ( X n − X r ) E ( X t − X s ) 0 0 = −E ( X n X s ) − E ( X r X t ) + E ( X n X t ) + E ( X r X s ) = −n − r + n + r =0 Die Inkremente sind also tatsächlich unabhängig. Folglich kann die gemeinsame Verteilung eines n-wertigen Zufallsvektors bei Betrachtung der Inkremente sehr leicht als Produkt der Übergangsdichten geschrieben werden (siehe Kap. 7.3./7.4.). 7.4. Darstellung als Markov- bzw. Gauß-Prozess Wie bereits eingeführt, gilt für den Wiener-Prozess die Markov-Eigenschaft. Wie später gezeigt werden wird, gilt sogar die so genannte starke MarkovEigenschaft. Zunächst soll jedoch noch einmal in allgemeiner Form diese Charakteristik erläutert, und die Brownsche Bewegung somit formal den Markov-Prozessen zugeordnet werden. Es wird darüber hinaus nun auch rein formal der Begriff der Übergangswahrscheinlichkeiten abgeleitet. Bisher hatten wir diesen Begriff als anschauliches Vehikel aus der Vorstellung Markov´scher Ketten übernommen. Diplomarbeit Stochastische Prozesse 87 Georg Messerle LRT 2002 7. Brownsche Bewegung Um dies zu zeigen, wird der Begriff des stochastischen Kerns eingeführt (Bauer[311], Jänich[8], Plachky[75]). Wir betrachten :B( )→[0,1] zunächst ein beliebiges Wahrscheinlichkeitsmaß über der Borel´schen σ-Algebra des Wahrscheinlichkeitsraumes, sowie einen stochastischen Kern P:[0, ∞)× )→[0,1]. × B( 7.4.1. Einschub: stochastischer Kern Der Begriff des Kerns in der Topologie umfasst einfach die Menge aller inneren Punkte x einer Topologie T, für die offene Umgebungen existieren, also Teilmengen B ⊂ X, X ∈ T. Man gelangt zum Begriff des Kerns auch wenn man nach der Wahrscheinlichkeit P(x,B) fragt, also danach, wie wahrscheinlich es ist, ein auf (Z,B) irrfahrendes Teilchen zu einem Zeitpunkt t>0 in einer Menge B zu finden, wenn es sich zuvor am Ort x befand. Für jedes Element x des Zustandsraumes ist dann eine Abbildung B→P(x,B) ein Wahrscheinlichkeitsmaß auf der σ-Algebra. Außerdem ist die Abbildung x→P(x,B) bei feststehender Menge B borel-meßbar. Für eine phänomenologische Annäherung reicht es, sich den stochastischen Kern als Abbildung aus Zustandsraum dem und kartesischen σ-Algebra in Produkt das von Parameterraum, abgeschlossene Intervall [0,1] vorzustellen (genaue Herleitung: Bauer[311]). Der Kern muss weiterhin folgende Eigenschaften besitzen: P(0,x, { x} ) = 1 P(t1 + t2 , x, B) = ∫ P(t2 , y, B) P(t1 , x, dy ) für beliebige t>0. Ein solcher Kern wird auch Übergangskern genannt (Schmidt[23], Plachky[76]). Diplomarbeit Stochastische Prozesse 88 Georg Messerle LRT 2002 7. Brownsche Bewegung Definition: Ein stochastischer Prozess mit Werten in Z=R heißt homogener MarkovProzess (siehe Kap. Eigenschaften stochastischer Prozesse), wenn es einen Übergangskern und ein Wahrscheinlichkeitsmaß gibt, so dass { } P X t0 ∈ B0 , X t1 ∈ B1 ,...., X tn ∈ Bn = ∫ ... ∫ P (tn − tn −1 , xn −1 , dxn )...P (t2 − t1 , x1 , dx2 ) P (t1 , x0 , dx1 )α ( dx0 ) B0 Bn (89.1) wobei die Anfangsverteilung genannt wird (vgl. Markov´sche Ketten, Kap. 4.4.1.). P(h,x,B) wird als die Wahrscheinlichkeit interpretiert, dass der Prozess in h Zeiteinheiten vom Zustand x in einen Zustand aus B übergeht. Man kann nun beweisen, dass ein Wiener-Prozess mit der Verteilung ⎧⎪ ( y − x )2 ⎫⎪ 1 exp ⎨− P(t , x, B) = ⎬ 2t ⎭⎪ 2π t ∫B ⎪⎩ (89.2.) ein Markov-Prozess ist. Gleichzeitig lässt sich bei dieser Ableitung auf die (in Kap 6.4. schon abgeleitete) gemeinsame Dichtefunktion schließen. Die Beweisidee beruht darauf, zu zeigen, dass aufgrund der Unabhängigkeit und Normalverteiltheit der Zuwächse (siehe Kap. 7.6.) Gleichung (89.1.) für den Wiener-Prozess erfüllt ist (Schmidt[24ff]): Aufgrund der Voraussetzung X(0)=0 ist es ausreichend zu zeigen, dass anstelle von (89.1.) die folgende Desintegrationsgleichung erfüllt ist: { } P X t1 ∈ B1 ,...., X tn ∈ Bn = ∫ ... ∫ P(tn − tn −1 , xn −1 , dxn )...P(t2 − t1 , x1 , dx2 ) P(t1 , 0, dx1 ) B1 Bn (Die Voraussetzung bewirkt eine Indexverschiebung, da α ( dx0 ) = 1 ist und die Integration somit zuerst alle Zustände x1 erfassen muss.) Aus der Unabhängigkeit der Zuwächse des Wiener-Prozesses ergibt sich Diplomarbeit Stochastische Prozesse 89 Georg Messerle LRT 2002 7. Brownsche Bewegung { P X t1 ∈ B1 ,...., X tn ∈ Bn } { = P X t1 ∈ B1 , X t2 − X t1 ∈ B2 − X t1 ,..., X tn − X t1 ∈ Bn − X t1 { } }{ = ∫ P X t2 − X t1 ∈ B2 − xt1 ,..., X tn − X t1 ∈ Bn − xt1 P X t1 ∈ dx1 } B1 = ∫ ∫ P{X t3 ∫ ∫ ∫ B1 B2 − x1 }{ } { − X t2 ∈ B3 − xt1 − xt2 ,..., X tn − X t2 ∈ Bn − xt1 − xt2 P X t2 − X t1 ∈ dx2 P X t1 ∈ dx1 } . . . . . = ... B1 B2 − x1 Bn − x1 ... xn−1 { } { } { P X tn − X tn−1 ∈ dxn ...P X t2 − X t1 ∈ dx2 P X t1 ∈ dx1 } Somit lässt sich schreiben: { P X t1 ∈ B1 ,...., X tn ∈ Bn = ∫ ∫ ... ∫ ∫ ... B1 B2 − x1 = ∫ ⎛ ⎞ ⎛ ⎞ ⎛ x2 ⎞ xn2 x22 1 1 exp ⎜⎜ − exp ⎜⎜ − exp ⎜ − 1 ⎟ dx1 ⎟⎟dxn .... ⎟⎟ dx2 2π t1 2π ( tn − tn −1 ) 2π ( t2 − t1 ) ⎝ 2t1 ⎠ ⎝ 2 ( tn − tn −1 ) ⎠ ⎝ 2 ( t2 − t1 ) ⎠ ∫ ⎛ ( x − x )2 ⎞ ⎛ ( x − x )2 ⎞ ⎛ x2 ⎞ 1 1 exp ⎜ − 2 1 ⎟ dx2 exp ⎜ − 1 ⎟ dx1 exp ⎜ − n n −1 ⎟dxn .... ⎜ 2 ( t2 − t1 ) ⎟ ⎜ ⎟ 2π t1 2π ( t2 − t1 ) 2π ( tn − tn −1 ) ⎝ 2t1 ⎠ ⎝ ⎠ ⎝ 2 ( tn − tn −1 ) ⎠ Bn − x1 −...− xn−1 Bn − x1 −...− xn−1 B1 B2 − x1 Damit } ist 1 1 die Gültigkeit von Gleichung (89.1.) gezeigt, wobei der Übergangskern des Wiener-Prozesses durch Gleichung (78.2.) gegeben ist. Es ergibt sich, dass der Vektor eine multivariate Normalverteilung besitzt deren Dichtefunktion durch Gleichung (69.1) Kap.6.4. gegeben ist. Ein Prozess, dessen endlichdimensionale Verteilungen multivariate Normalverteilungen sind, heißt Gauß-Prozess. Diplomarbeit Stochastische Prozesse 90 Georg Messerle LRT 2002 7. Brownsche Bewegung 7.4.2. Die Markov-Eigenschaft Sei X t ein Standard-Wiener-Prozess. Fs sei die Information, die in X s (s<t) enthalten ist, sprich die Informationsmenge, die man durch Beobachtung des Prozesses bis zum Zeitpunkt s erhalten könnte. Fs ist also die Filtration von F. Der Erwartungswert von X t ist dann: E ( X t Fs ) = E ( X s Fs ) + E ( X t − X s Fs ) Weil X s Fs -messbar sein muss, ist der Erwartungswert E ( X t Fs ) = X s . Der Zuwachs X t − X s ist dagegen unabhängig von Fs , d.h. E ( X t − X s Fs ) = 0 . Daher gilt E ( X t Fs ) = X s = E ( X t X s ) . Die Gleichung besagt, dass X t ein Prozess unabhängig von X s ist. Mit anderen Worten ist X t ein Prozess, der zur Zeit t0 = s am zufälligen Punkt X s losläuft (Karlin[230], Lawler[72]), Karatzas/Shreve[79])). 7.4.3. Die Starke Markov-Eigenschaft Für viele computerbasierte Anwendungen im Zusammenhang mit der Brownschen Bewegung, wird eine strengere, allgemeine Formulierung der Markov-Eigenschaft benötigt. Zunächst benötigt man jedoch die Definition des Begriffes einer reellwertigen Stoppzeit. 7.4.3.1. Einschub: Stoppzeiten Wir betrachten einen stochastischen Prozess { X n ; n ≥ 1} . Die Zufallsvariable L (ω ) = inf {n : X n (ω ) = a} heißt Stoppzeit. Diplomarbeit Stochastische Prozesse 91 Georg Messerle LRT 2002 7. Brownsche Bewegung Eine Zufallsvariable dieser Art, die Werte in1, 2,…n annimmt, heißt Stoppzeit relativ zu {Fn , n ≥ 1} , wobei Fn eine Folge von Teilmengen des σ- Feldes von (Ω,F,P) ist, so dass gilt F1 ⊂ F2 ⊂ ... ⊂ Fn . Die Stoppzeit bezieht sich also auf die aktuelle Filtration. 1 1 2 3 4 t -1 L(ω) Abb. 92.1 Sie beschreibt die Wahrscheinlichkeit des Erreichens des Punktes a. { X n ; n ≥ 1} Beispielsweise kann sie, falls Erreichen des ersten Gewinns beschreiben: ein Bernoulli-Prozess ist, das L (ω ) = inf {n : X n (ω ) = 1} . In Abb. 92.1 erreicht ein Spieler beim Dritten Wurf einer Münze erstmals ein positives Ergebnis. Da sich die Stoppzeit immer auf die aktuelle Filtration bezieht, ist das Ereignis {L ≤ t} stets Ft -messbar. Das bedeutet, um herauszufinden, ob ein Prozess vor einem Zeitpunkt t angehalten hat oder nicht, muss man sich den Prozess bis zum Zeitpunkt t ansehen. Ist L(ω) eine Stoppzeit, so ist Ft die bis zum Zeitpunkt t enthaltene Information (Lawler[24]). Wir betrachten nun einen Prozess Yt = X t + L − X L Anschaulicherweise handelt es sich hierbei um den Prozess „hinter“ der Stoppzeit. Dann besagt die strenge Markov-Eigenschaft, dass Y unabhängig von Ft ist. Diplomarbeit Stochastische Prozesse 92 Georg Messerle LRT 2002 7. Brownsche Bewegung 7.5. Mehrdimensionale Stochastische Prozesse Abb. 93.1 (Quelle: Wikipedia) Bisher haben wir stochastische Prozesse nur in einer Dimension betrachtet und als Zustandsraum die Menge der positiven reellen Zahlen zugrunde { } gelegt. Wir betrachteten nun einen zufälligen n-wertigen Vektor X t1 ,... X tn , bestehend aus Zufallsvariablen X i , welche jede für sich genommen in nur einer Dimension realisieren. 7.5.1. Verallgemeinerung auf n Dimensionen Erweitern wir die Vorstellung auf n Dimensionen, so realisiert die Zufallsvariable nun pro Zeitschritt in n-1 weiteren Raumpunkten, sprich Dimensionen. ∼ ⎧ ∼( n ) ∼( n ) ⎫ X t = ⎨ X 1 , X 2 ,..., X n( n ) ⎬ ⎩ ⎭ ∼ wobei nun jede ZV die Form X ∼ (n) i ∼ ⎧ ∼(1) ∼(2) ⎫ = ⎨ X i , X i ,..., X i( n ) ⎬ ⎩ ⎭ besitzt. Diplomarbeit Stochastische Prozesse 93 Georg Messerle LRT 2002 7. Brownsche Bewegung Der Prozess ist somit darstellbar als: ⎧⎛ X 11 ⎞ ⎛ X 21 ⎞ ⎛ X n1 ⎞ ⎫ ⎪⎜ 2 ⎟ ⎜ 2 ⎟ ⎜ 2 ⎟⎪ ⎪⎜ X 1 ⎟ ⎜ X 2 ⎟ ⎜ X n ⎟⎪ ⎪⎪⎜ . ⎟ ⎜ . ⎟ ⎜ . ⎟ ⎪⎪ ∼ ⎟,⎜ ⎟⎬ X t = ⎨⎜ ⎟ ,..., ⎜ ⎜ . ⎟⎪ ⎪⎜ . ⎟ ⎜ . ⎟ ⎜ . ⎟⎪ ⎪⎜ . ⎟ ⎜ . ⎟ ⎜ ⎟⎪ ⎪⎜⎜ n ⎟⎟ ⎜⎜ n ⎟⎟ n⎟ ⎜ X X X ⎝ n ⎠ ⎭⎪ ⎩⎪⎝ 1 ⎠ ⎝ 2 ⎠ Beispiel: Random-Walk auf dem 3 : Ausgehend vom Koordinatenursprung führt ein Läufer eine dreidimensionale Bewegung aus. Er macht dabei in den einzelnen Raumrichtungen jeweils nur einen Schritt nach vorne oder einen Schritt zurück. Es gilt: ⎧ −1 X X (t ) = X Y (t ) = X Z (t ) = ⎨ ⎩ +1 jeweils mit Wahrscheinlichkeit ½. Die Position des Partikels nach t Schritten ist dann: ⎛ X X1 + ... + X X t ⎜ X t = ⎜ X Y1 + ... + X Yt ⎜⎜ ⎝ X Z1 + ... + X Zt ∼ ⎞ ⎟ ⎟ ⎟⎟ ⎠ Man erkennt, dass jede Komponente aus unabhängigen Zufallsvariablen besteht und jeweils einen, von den Anderen unabhängigen Random-Walk ausführt. ∼ Xt kann deshalb auch als „Zusammenfassung“ dreier unabhängiger Irrfahrten aufgefasst werden. Für die Konstruktion eines dreidimensionalen Wiener-Prozesses bedeutet dies, dass 3 unabhängige Wiener-Prozesse dem dreidimensionalen Wiener-Prozess zugrunde liegen. Diplomarbeit Stochastische Prozesse 94 Georg Messerle LRT 2002 7. Brownsche Bewegung 7.5.2. Interpretation als Markov´sche Kette Beginnend im Ursprung macht die Kette wiederum entweder einen Schritt +1 oder -1 in jeder Dimension. In jedem Punkt i hat die Kette dann 8 Möglichkeiten weiterzulaufen, da in einem diskreten Gitter bei Ausführung je eines Schrittes in jeder Dimension, jeder Punkt i 24 direkte Nachbarpunkte besitzt. Da die (auch teilweise) Stagnation der Kette ausgeschlossen ist, sind die möglichen Zustände die Eckpunkte eines Würfels mit Kantenlänge 2 und Mittelpunkt i. Die Indizierung der Zustände in der Matrix erfolgt ebenenweise im Uhrzeigersinn, beginnend jeweils mit einem Nicht-Eckpunkt. Die Matrix der (Einstufigen-) Übergangswahrscheinlichkeiten ist: P (1) ⎡ ⎢0 ⎢ = pij = ⎢0 ⎢ ⎢0 ⎣ 1 1 1 1⎤ 0 0 0 8 8 8 8⎥ ⎥ 0 0 0 0 0 0 0⎥ 1 1 1 1⎥ 0 0 0 ⎥ 8 8 8 8⎦ Die Übergangswahrscheinlichkeit zu den möglichen Zuständen ist 3 ⎛1⎞ 1 pij = ⎜ ⎟ = ⎝2⎠ 8 Bemerkung: Im geometrischen Wahrscheinlichkeitsraum ⎡⎣( 0,1) ⎤⎦ 3 ist pij der Wert des dreidimensionalen Lebesgue-Maßes. Diplomarbeit Stochastische Prozesse 95 Georg Messerle LRT 2002 7. Brownsche Bewegung 7.5.3. Brownsche Bewegung in mehreren Dimensionen Definition: Der vektorwertige stochastische Prozess X t = ( X t1 ,..., X td ) heißt d-dimensionale Brownsche Bewegung (Lawler[153]). X t erfüllt die Bedingungen der Brownschen Bewegung (siehe Kap. 7.1.). Da die Komponenten unabhängig sind, gilt für die gemeinsame Dichtefunktion: 1 d f ( x1 ,..., xd ) = ∏ i =1 ( 2π t ) i 2 e − xi 2 = 2t 1 ( 2π t ) d 2 e − x 2 2t 2 Dabei ist x = x12 + x22 + ... + xd2 . Wir greifen nun wieder zwei beliebige Zeitpunkte s und t (s<t) heraus, und betrachten die gemeinsame Dichtefunktion eines Überganges x(s)→y(t). Nach Gleichung (70.1, Kap. 6.4.) gilt: ps , t ( x, y ) = 1 ( 2π ( t − s ) ) d 2 ⎧⎪ y − x 2 ⎫⎪ exp ⎨− ⎬ mit x,y ∈ ⎪⎩ 2 ( t − s ) ⎭⎪ d Ausgehend von dieser Gleichung, lässt sich durch Anwendung der Gleichung von Chapman-Kolmogoroff in Integralform eine Diffusionsgleichung analog zu Kap. 4.3.2. herleiten. 7.5.3.1. Diffusionsgleichung für eine mehrdimensionale Bewegung Gleichung (55.1) kann leicht auf d Dimensionen erweitert werden, wenn für ∂2 der d-dimensionale Laplace-Operator eingeführt wird: ∂x 2 d ∆f ( t ; x1...xd ) = ∑ i =1 Diplomarbeit Stochastische Prozesse 96 ∂2 f ∂xi 2 Georg Messerle LRT 2002 7. Brownsche Bewegung Es ergibt sich: ∂f 1 = ∆f ( t ; x1...xd ) . ∂t 2 7.5.4. Beispiel: 2-dimensionaler Wiener-Prozess Es sei: ⎛ X t1 ⎞ Xt = ⎜ 2 ⎟ ⎝ Xt ⎠ Gesucht: die Wahrscheinlichkeit, dass X t < R ; wobei R>0 ist, und ein Wiener-Prozess. x = ( x1 ) + ( x2 ) die euklidische Norm auf dem R² ist. 2 2 2 Da X t1 und X t 2 unabhängig sind, ist ihre gemeinsame Dichte nach (69.1) das Produkt ihrer Einzeldichten. Es gilt: P { X t < R} = ∫ p (t , 0, x) p(t , 0, y )dxdy { x < R} mit 1 p(t , 0, x) p (t , 0, y ) = 2π t 2 2 x y − − 1 1 − 2t e e 2t = e 2π t 2π t (x 2 + y2 ) 2t ergibt sich: − 1 P { X t < R} = e 2π t { x ∫< R} Das Integral löst man durch eine (x 2 + y2 2t ) dxdy Koordinatentransformation zu Polarkoordinaten: Mit (x 2 + y2 ) = r 2 dxdy = rdrdϕ schreibt sich das Integral folgendermaßen: Diplomarbeit Stochastische Prozesse 97 Georg Messerle LRT 2002 7. Brownsche Bewegung R 2π 1 P{ Xt < R } = 2π t ∫0 ∫ re 2 = −e − 2 r 2t − r2 2t 0 R = −e − 2 R 1 d −r dϕ dr = − 2π t ∫ e 2t dr 2π t dr 0 r2 2t − ( −1) 0 = 1− e R2 − 2t Analog konstruiert man den 3-dimensionalen Fall (Kugelkoordinaten). 7.6. Stetigkeit der Trajektorien 7.6.1. Stetigkeit im Quadratmittel Physikalisch gesehen, ist die Stetigkeit der Pfade eines Partikels zu jedem Zeitpunkt gegeben. Bildhaft kann die Trajektorie als Zeitreihe aus „unendlich“ dichten Sprüngen interpretiert werden (Waubke[42]). Da der direkte Beweis der Stetigkeit sehr schwierig ist, zeigt man ersatzweise, dass ein Prozess im Quadratmittel stetig ist. Definition: Ein stochastischer Prozess heißt stetig im Quadratmittel, wenn gilt: 2 lim E X t − X t0 = 0 t →t0 Es muss also bezüglich der L²-Norm X t → X t0 wenn t → t0 geht (Karlin[277]). Wenn diese Bedingung überall im Intervall (a,b) ⊂ T gilt, ist X t überall auf (a,b) stetig im Quadratmittel. Diese Bedingung weist auf die Struktur der Kovarianzfunktion des Prozesses hin. Die Stetigkeit der Kovarianzfunktion hat direkten Einfluss auf die Stetigkeit des Prozesses im Quadratmittel. Diplomarbeit Stochastische Prozesse 98 Georg Messerle LRT 2002 7. Brownsche Bewegung Satz: Ein stochastischer Prozess ist dann und nur dann im Quadratmittel stetig, wenn die Kovarianzfunktion K(s,t) im Punkt ( t0 , t0 ) stetig ist (Srinivasan/Mehata[256]). Beweis: Wenn K(s,t) bei ( t0 , t0 ) stetig ist, dann gilt auch: lim ( K ( t0 + k , t0 + h ) − K ( t0 , t0 ) ) = 0 h , k →0 Es gilt nun: ( 2 E X t0 + h − X t0 = E X t0 + h − X t0 )( X t0 + h − X t0 ) Mit K ( s, t ) = E (( X s − E ( X s )) ( X t − E ( X t )) ) 2 folgt für E X t0 + h − X t0 : K ( t0 + h, t0 + h ) − K ( t0 + h, t0 ) − K ( t0 , t0 + h ) + K ( t0 , t0 ) = ⎡⎣ K ( t0 + h, t0 + h ) − K ( t0 , t0 ) ⎤⎦ − ⎡⎣ K ( t0 , t0 + h ) − K ( t0 , t0 ) ⎤⎦ − ⎡⎣ K ( t0 , t0 + h ) − K ( t0 , t0 ) ⎤⎦ 0 0 0 Bilden wir nun den Limes h→0, so wird der gesamte obere Ausdruck Null und somit der Prozess im Quadratmittel stetig. Andererseits sind die Trajektorien nirgends differenzierbar. Es sei an dieser Stelle nur eine Plausibilitätsbetrachtung gegeben: Für eine beliebige Trajektorie ist die Differenz X(t+h)-X(t) durchschnittlich von der Größenordnung ihrer Standartabweichung also h . Bildet man nun die Ableitung, sprich den Limes X (t + h ) − X (t ) ∂x(t ) h = lim = lim =∞ h → 0 h → 0 ∂t h h Diplomarbeit Stochastische Prozesse 99 Georg Messerle LRT 2002 7. Brownsche Bewegung so zeigt sich, dass diese nicht existiert. Die Trajektorien sind also nirgends differenzierbar. 7.6.2. Topologisches Analogon Da der vollständige Beweis der Stetigkeit der Trajektorien sehr schwierig ist und somit den Rahmen der Arbeit sprengen würde, sei hier, um doch noch eine vertiefende Betrachtungsweise mit einfließen zu lassen, eine weitere Betrachtungsmöglichkeit gegeben [A8]. Definition: Seien X und Y topologische Räume. Eine Abbildung f:X→Y heißt stetig, wenn die Urbilder offener Mengen stets wieder offen sind (Jänich[16]). Eine Trajektorie eines stochastischen Prozesses ist eine Abbildung ξ :Ω → Z wobei für jedes ω ∈ Ω gilt: T ∋ t → ξ (t, ω ) (Karatzas/Shreve[1]). Wenn X mit dem Parameterraum T und Y mit dem Zustandsraum Z identifiziert wird, so muss zunächst geprüft werden, ob es sich dabei überhaupt um topologische Räume im Sinne der Definition handelt und so die Voraussetzungen für die Existenz stetiger Abbildungen erfüllt sind. Der Raum T stellt sich als Intervall I ⊂ dar, auf dem eine beliebige Metrik d definiert werden kann. T ist also o.B.d.A. metrisch und somit aufgrund dieser Eigenschaft mit der Topologie des metrischen Raumes O(d) versehen. Ist dies der Fall, so ist der erzeugte toplogische Raum auch metrisierbar (Aussage ist trivial), was aber wiederum impliziert, dass es sich um einen Hausdorffraum (vgl. Kap. 3.1.1.) handelt. Diplomarbeit Stochastische Prozesse 100 Georg Messerle LRT 2002 7. Brownsche Bewegung Bemerkung: Man könnte auch durch Wahl einer geeigneten Subbasis S eine Topologie auf T definieren, z.B. die diskrete Topologie, wenn man als Menge S aller von vorne herein offenen Mengen, alle Elemente des Intervalls T definieren würde. Die Menge Z ist nach Voraussetzung (Kap. 4.1.1.) ein Teilraum der Trägermenge Ω: Z ⊂Ω⊂ wobei Ω ein beliebiger Messraum (Ω,F) ist, welcher mit einer Borel´schen σ-Algebra F, also einer speziellen Topologie (Kap. 3.1.3.)[A3], versehen ist. Als Teilraum von Ω, ist Z mit der so genannten Teilraumtopologie F Z = {U ∩ Z U ∈ F } ausgestattet, welche im Übrigen dieselbe Feinheit wie die auf ganz Ω geltende Topologie F hat. Nach Voraussetzung ist der Zustandsraum „stetig“, d.h. besitzt ebenfalls die Hausdorff-Eigenschaft (Jänich[23]). Bemerkung: Ist f:X→Y stetig und X 0 ⊂ X ein Teilraum, so ist auch die Einschränkung f X0 : X0 → Y stetig. Die Voraussetzungen für die Existenz einer stetigen Abbildung zwischen den Räumen T und Z sind also erfüllt. Betrachten wir nun die Abbildung t → X ( t ) genauer: Es muss nachgeprüft werden, ob die Urbilder t, der auf (Z, F Z ) offenen Funktionswerte X(t) wieder offene Mengen der sich auf T befindlichen Topologie O(d) sind, d.h. ob gilt: f −1 ( X (t ) ) ⊂ V mit t ∈ V und V eine Umgebung von t ist. Gülte auf T nun die diskrete Topologie, so wäre die Forderung von vorne herein erfüllt, da jedes t aufgrund der Konstruktion der diskreten Topologie auf T automatisch offen wäre. Im Falle der Topologie des metrischen Raumes Diplomarbeit Stochastische Prozesse 101 Georg Messerle LRT 2002 7. Brownsche Bewegung O(d) auf T, kann die Frage nicht so leicht beantwortet werden, da nicht von Anfang an klar ist, ob das Urbild t einer in O(d) offenen Menge angehören muss. Man kann jedoch davon ausgehen, dass T als Intervall offen in der üblichen Topologie ist, d.h. zu jedem t auch eine „Kugel“ um diesen Punkt in der Topologie enthalten ist. Kritisch ist diese Annahme für unsere Zwecke lediglich an den Randpunkten von T. Wir setzen ohne Beweis voraus, dass wir es i.A. mit inneren Punkten zu tun haben, also t ∈ B wobei die B Umgebungen von t sind. Ist dies der Fall, sind die t zumindest mit hoher Wahrscheinlichkeit offen und die Abbildung stetig. Allerdings kann das Argument dann erweitert werden: Sind die t ∈ B und die B Umgebungen, dann ist f eine bijektive Abbildung (da sowohl Bild und Urbild stets offen sind und umgekehrt) und wird Homöomorphismus genannt. Man kann also aufgrund der topologischen Beschaffenheiten der beiden Räume T und Z, zumindest mit hoher Wahrscheinlichkeit davon ausgehen, dass die Abbildung t→X(t) stetig ist. Keine Probleme bereitet die Behandlung der Topologie des Zustandsraumes, da alle X(t) natürlich Elemente auf Z offener Mengen sind (Kap. 3.2.2.) und die „Prüfung auf Offenheit“ nicht Voraussetzung des Stetigkeitsbegriffes war. 7.7. Die Kovarianzmatrix der 3-dimensionalen Bewegung 7.7.1. Die Kovarianzfunktion Wir betrachten einen beliebigen über (Ω,F,P) mit F = d definierten, dreidimensionalen Prozess: ⎧⎛ X 1x ⎞ ⎛ X 2x ⎞ ⎛ X nx ⎞ ⎫ ⎪⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎪ X t = ⎨⎜ X 1y ⎟ , ⎜ X 2y ⎟ ,..., ⎜ X ny ⎟ ⎬ ⎪⎜ z ⎟ ⎜ z ⎟ ⎜ X nz ⎟ ⎪ ⎝ ⎠⎭ ⎩⎝ X 1 ⎠ ⎝ X 2 ⎠ ∼ Diplomarbeit Stochastische Prozesse 102 Georg Messerle LRT 2002 7. Brownsche Bewegung Das Problem besteht nun darin, dass sich bei einem n-wertigen Zufallsvektor allein bei der Betrachtung einer einzelnen Dimension eine n×nMatrix ergibt. Für die Behandlung aller Kovarianzen, also auch derer der Spaltenvektoren, steht kein Mittel zur Verfügung. Darüber hinaus sind die Komponenten der Spaltenvektoren nach Voraussetzung unabhängig und somit alle Kovarianzen gleich Null. Die Betrachtung derselben liefert also auch keine neuen Erkenntnisse. Eine Alternative besteht in der Betrachtung der Zuwächse. Dabei ist gerade die Länge der Zuwächse normalverteilt mit Mittelwert 0 und Varianz t-s. Wir betrachten nun zunächst die Kovarianzfunktion und dann die Kovarianzmatrix. Mit den Ergebnissen aus (Kap. 7.3.) ist: Cov( X t , X s ) = K ( s, t ) = E ( X t X s ) − mt ms = min {t , s} Wegen der Markov-Eigenschaft sind jeweils nur aufeinander folgende Zeitpunkte korreliert. Bemerkenswert sind Varianz und Kovarianz. Sie nehmen mit der Zeit zu. Dies repräsentiert signifikant das Diffussionsverhalten der Teilchen. Ausgehend von einem deterministischen Startpunkt zum Zeitpunkt t = 0 der an der Stelle x = 0, breiten sich die Teilchen aus. Dabei wächst die Varianz linear mit der Zeit an. Um herauszufinden, was passiert, wenn t→s strebt, betrachten wir folgenden eindimensionalen Prozess: ⎧ ⎫ ⎨ X 0 , X 1 , X 2 ,..., X n ⎬ n n n⎭ ⎩ Der Parameter n teilt hierbei das Einheitsintervall [0,1] in n gleiche Teile auf. Auf diese Weise wird der Parameterraum partitioniert (Vgl. „Brownsche Brücke“ (Karatzas/Shreve[358])). Strebt n→∞ so ergibt sich ein Grenzübergang zu stetigem Parameterraum. Wir betrachten im Folgenden Diplomarbeit Stochastische Prozesse 103 Georg Messerle LRT 2002 7. Brownsche Bewegung das Verhalten der Varianz und Kovarianz, sowie der Korrelationsfunktion. Dazu bedienen wir uns wiederum der Zuwächse: Mit: X = X k − X k −1 n n und den Ergebnissen aus Kap. 6.7. ist die Varianz ⎛ ⎞ k k −1 1 Var ⎜ X k − X k −1 ⎟ = − = n n n n ⎠ ⎝ n Strebt n nun gegen unendlich, so verschwindet die Varianz (der Prozess wird zum so genannten „weißen Rauschen“; man kann weißes Rauschen auch auf Grundlage anderer Prozesse, z.B. des Poisson-Prozesses beobachten (Waubke[40])). Es ergibt sich ein scheinbarer Widerspruch, denn bei stetigem Parameterraum (und nichts anderes bedeutet n→∞) wäre die Varianz stets 0. Natürlich wäre aber auch der Zuwachs infinitesimal. Die Kopplung von Zuwachs und Varianz gilt auch im Infinitesimalen. Um das Problem näher zu beleuchten, betrachten wir die Kovarianzfunktion: ⎛ ⎞ k −1 ⎛ k k −1 ⎞ K⎜ , ⎟ = E ⎜ X k X k −1 ⎟ − mk −1 mk = n ⎝n n ⎠ n n ⎝ n n ⎠ 0 Daraus folgt: k −1 ⎛ k k −1 ⎞ =0=K⎜ , ⎟ n →∞ n ⎝n n ⎠ lim Betrachtet man jedoch die Kovarianzmatrix des Hilfsprozesses, z.B. für n=3, so ist: ⎡1 ⎢3 ⎢ ⎛ k −1 k ⎞ ⎢1 , ⎟= Λ = Cov ⎜ ⎝ 3 3 ⎠ ⎢3 ⎢ ⎢1 ⎢⎣ 3 Diplomarbeit Stochastische Prozesse 104 1 3 2 3 2 3 1⎤ 3⎥ ⎥ 2⎥ 3⎥ ⎥ 3⎥ 3 ⎥⎦ Georg Messerle LRT 2002 7. Brownsche Bewegung Man erkennt, dass sie Matrix symmetrisch und positiv semidefinit ist. Es gilt folgender Satz: Ist X t eine normale reelle Brownsche Bewegung, so ist X t1 ⊗ ... ⊗ X tn für jede Wahl endlich vieler Zeitpunkte 0 ≤ t1 ≤ ... ≤ tn eine (n-dimensionale) Gaußsche Zufallsvariable mit dem Nullvektor als Erwartungswert und der Kovarianzmatrix ( ) Cov X t1 ⊗ ... ⊗ X tn = ( ti ∧ t j ) i , j =1,..., n Rein anschaulich ist dieser Satz seit der Berechnung der Kovarianzfunktion im vorhergehenden Abschnitt klar. Diese Eigenschaft kann jedoch auch noch auf anderem Wege gezeigt werden (Bauer[352]): Setzt man: ( X = X t1 ⊗ ... ⊗ X tn = X t1 ,..., X tn ) so sind die Zufallsvariablen X t1 , X t2 − X t1 ,..., X tn − X tn−1 wegen der Unabhängigkeit der Zuwächse (vgl. Kap. 7.4.) unabhängig. Man kann für diese ZV nun ein multivariates Gauß-Maß ν definieren: ν = ν 0,t ⊗ν 0,t −t ⊗ ... ⊗ν 0,t 1 2 1 n − tn−1 Dieses Maß repräsentiert die gemeinsame Verteilung. Es ist die „multivariate Abbildung“ ins Einheitsintervall, aus der von den Ereignismengen erzeugten, n-wertigen Produkt-σ-Algebra des Wahrscheinlichkeitsraumes (Kap. 7.2.). Aufgrund der Eigenschaften von Gaußmaßen (Kap. 6.4.) folgt, dass auch X eine Gaußsche Zufallsvariable ist. Da jedes X den Mittelwert Null besitzt Diplomarbeit Stochastische Prozesse 105 Georg Messerle LRT 2002 7. Brownsche Bewegung erhält man auch für den Vektor der Mittelwerte der gemeinsamen Verteilung den Nullvektor. Damit lässt sich nun die Kovarianzmatrix berechnen: ( ) ( ( ) ( ) Cov X ti , X t j = E X ti X t j = E ⎡ X t j − X ti X ti + X ti 2 ⎤ ⎣ ⎦ = E ⎡ X t j − X ti X ti ⎤ + E X ti 2 = V X ti = ti = ti ∧ t j ⎣ ⎦ ) ( ) ( ) Im Beispiel eines dreistufigen Prozesses ergibt sich folgende Matrix: ( Cov X t1 ⊗ X t2 ⊗ X t3 ) ⎡t1 ∧ t2 t1 ∧ t2 = ⎢⎢t2 ∧ t1 t2 ∧ t2 ⎢⎣ t3 ∧ t1 t3 ∧ t2 t1 ∧ t3 ⎤ ⎡1 1 1 ⎤ t2 ∧ t3 ⎥⎥ = ⎢⎢1 2 2 ⎥⎥ t3 ∧ t3 ⎥⎦ ⎢⎣1 2 3 ⎥⎦ Im Falle höherer Dimensionen nimmt die Matrix folgende Gestalt an: ( Cov X t1 ⊗ X t2 ⊗ ... ⊗ X tn ) ⎡1 ⎢1 ⎢ ⎢1 ⎢ = ⎢. ⎢. ⎢ ⎢. ⎢1 ⎣ 1 1 1 ... 1 ⎤ 2 2 2 ... 2 ⎥⎥ 3 3 3 ... 3 ⎥ ⎥ 3 4 4 ... 4 ⎥ 3 4 5 ... . ⎥ ⎥ . . . n − 1 n − 1⎥ 3 ... ... n − 1 n ⎥⎦ 1 2 2 2 . . 2 Die Matrix ist wiederum symmetrisch und positiv semidefinit. Darüber hinaus gilt: ) ( ( ( Cov X t1 ⊗ ... ⊗ X tn = Cov X t1 ⊗ ... ⊗ X tn )) −1 und (Cov ( X t1 ⊗ ... ⊗ X tn )) −1 ( ( = Cov X t1 ⊗ ... ⊗ X tn )) T Die Matrix ist gegenüber der Invertierung und der Transposition invariant, d.h. sie ist nicht nur symmetrisch, sondern auch orthogonal. Diplomarbeit Stochastische Prozesse 106 Georg Messerle LRT 2002 8. Zusammenfassung 8. Zusammenfassung Beginnend bei den Grundlagen der Wahrscheinlichkeitstheorie, unter besonderer Gewichtung der Grundlagen der Maßtheorie, wurde ein Überblick über die Brownsche Molekularbewegung gegeben. Dabei wurde konsequent ein leicht nachvollziehbarer Aufbau verwendet, der einem Studenten den einfachen Zugang ermöglichen soll. Zunächst wurden deshalb stochastische Prozesse im Allgemeinen beleuchtet und eine Einführung in die Markov´schen Ketten gegeben. Diese sehr allgemein gehaltene Vorstellung wurde durch die Betrachtung des Langzeitverhaltens einer zufälligen Irrfahrt und der sich ergebenden Asymptotik weiter verfeinert. In Verbindung mit der Verstetigung des Parameterraumes der zufälligen Irrfahrt und der Ableitung der Diffusionsgleichung, wurde die Annäherung der Irrfahrt an den Wiener-Prozess gezeigt. Die Ableitung der Normalverteilung als Lösung der auch für Wiener-Prozesse gültigen FokkerPlanck-Gleichung, bestätigte dies. Die Normalverteilung wurde dann noch einmal axiomatisch eingeführt und mit Hilfe des Faltungssatzes im Falle unabhängiger Zufallsvariablen auf zunächst zwei Dimensionen erweitert. Um die Markov-Eigenschaft mit einzubinden und die Korrelation aufeinander folgender ZV zu berücksichtigen, wurde die bedingte Verteilung abgeleitet und ihr Verhalten für die Variation der Zeit, insbesondere für das Anfangsverhalten, studiert. Im Kapitel „Brownsche Bewegung“ wurde dann der Wiener-Prozess definitorisch eingeführt und die Brownsche Bewegung auch formell den Markov-Prozessen zugeordnet. Unter Ausnutzung der zuvor nachgewiesenen Unabhängigkeit der Zuwächse wurde darüber hinaus eine Form der gemeinsamen Verteilung angegeben, die das Problem der Korrelation umgeht und eine handliche Berechnung ihrer Kennzahlen ermöglicht. Abschließend wurde die Kovarianzmatrix berechnet, um deren Charakteristiken zu zeigen. Diplomarbeit Stochastische Prozesse 107 Georg Messerle LRT 2002 Glossar 7. Glossar [A1] Unter dem kartesischen Produkt einer Menge M versteht man die Menge der möglichen paarweisen Kombinationen ihrer Elemente. Z.B.: M={1,2,3}, dann ist MxM={11,12,13,23,22,33}, d.h. die Menge aller Paare. [A2] Die Potenzmenge einer Menge Ω ist die „Menge aller Teilmengen“ von Ω, also die Menge aller aus Punkten von Ω zusammengesetzten Mengen und Permutationen. [A3] Die Borel´sche σ-Algebra, benannt nach Émile Borel, bildet in der Mathematik ein Scharnier zwischen Topologie und Maßtheorie. Für einen gegebenen topologischen Raum Ω ist die Borel´sche σ-Algebra definiert als die kleinste σ-Algebra, die die Topologie von Ω enthält. Vokabelerklärung: • Eine Topologie einer Grundmenge Ω ist eine Menge von Teilmengen, die die Grundmenge und die leere Menge enthält und die bezüglich beliebiger (auch überabzählbarer) Vereinigung und endlicher Schnittmengenbildung abgeschlossen ist. Die Elemente der Topologie heißen offene Mengen. Eine Grundmenge zusammen mit einer auf ihr erklärten Topologie heißt topologischer Raum. • Eine σ-Algebra einer Grundmenge Ω ist eine Menge von Teilmengen, die die Grundmenge enthält und die bezüglich Komplementbildung und abzählbarer Vereinigung abgeschlossen ist. Eine Grundmenge zusammen mit einer auf ihr erklärten σ-Algebra heißt auch Messraum. Eine Borel´sche σ-Algebra ermöglicht es somit, einen topologischen Raum in kanonischer Weise mit der zusätzlichen Struktur eines Messraums auszustatten. Im Hinblick auf diese Struktur heißt der Raum dann auch Borel-Raum. Diplomarbeit Stochastische Prozesse 108 Georg Messerle LRT 2002 Glossar Ein besonders wichtiges Beispiel ist die Borel´sche σ-Algebra auf der Menge der reellen Zahlen. Die kanonische Topologie des wird von den offenen Intervallen (a,b) aufgespannt. Die Borel´sche σ-Algebra des (aufgrund der Abgeschlossenheit einer σ-Algebra enthält bezüglich der Komplementbildung) außer den offenen auch die geschlossenen Intervalle. Die Borel´sche σ-Algebra des enthält nicht alle Teilmengen des zeigt man, indem man den mittels des Auswahlaxioms in bestimmte . Das überabzählbar viele Teilmengen (Vitali-Mengen, nach Giuseppe Vitali (1875 1932)) zerlegt; diese lassen sich nicht durch abzählbare Vereinigung, Schnittmengenbildung und Komplementbildung aus den offenen Intervallen des erzeugen. Siehe dazu: Vitali-Menge, Hausdorff-Paradoxon, Banach- Tarski-Paradoxon. Genau genommen lässt sich sogar zeigen, dass die Borel´sche σ-Algebra gleichmächtig zur Menge der reellen Zahlen ist und somit echt kleiner als die Potenzmenge von . Die Borel´sche σ-Algebra liegt Borel-Maßen zugrunde. (Quelle:http://de.wikipedia.org/wiki/Borel-Algebra) [A4] Betrachtet man ein Glücksrad mit x gleichgroßen Feldern d.h. Partitionen, dann ist die Wahrscheinlichkeit eine beliebige Partition k mit 0<k<x zu treffen P(k)=1/x. Halbiert man nun die Felder, so verringert sich die Wahrscheinlichkeit auf P(k)=1/2x, da sich die Anzahl der Felder verdoppelt hat. Verfährt man auf diese Weise immer weiter, d.h. erhöht die Anzahl der Felder nach der Vorschrift A(x)=N 2x wobei x=0, 1, 2,…, dann verringert sich die Wahrscheinlichkeit ein Feld k zu treffen um P(k)=1/ N 2x. Schrumpfen nun die Felder bis auf Linien der Breite 0 zusammen, ist die ⎛ 1 Wahrscheinlichkeit eine solche zu treffen P(k)= lim ⎜ x →∞ N 2 x ⎝ ⎞ ⎟ = 0. ⎠ Diplomarbeit Stochastische Prozesse Georg Messerle LRT 2002 109 Glossar [A5] Der Durchschnitt von σ-Feldern ist wiederum ein σ-Feld. Beweis: Es sei F = ∩ Θ FΘ wobei die FΘ σ-Felder sind. Ω ∈ FΘ für alle Θ → Ω ∈ F A ∈ F impliziert, dass A ∈ FΘ ∀ Θ → Ac ∈ FΘ ∀ Θ Wenn gilt: An ∈ F für alle n, dann gilt auch An ∈ FΘ für alle n, Θ Daraus folgt, dass die Vereinigung ∪ n An ∈ FΘ ebenfalls ein Element von FΘ ist. Dann ist diese Vereinigung aber auch ein Element von F. Ist die Vereinigung beliebiger σ-Felder sowohl in F als auch in FΘ enthalten, wobei F = ∩ Θ FΘ gilt, so muss F wiederum ein σ-Feld sein. [A6] 1827 beobachtete der schottische Botaniker Robert Brown unter dem Mikroskop, wie Pflanzenpollen sich in einem Wassertropfen unregelmäßig hin- und herbewegten (daher der Name Brownsche Bewegung). Doch es waren nicht Naturwissenschaftler, die die Entwicklung des mathematischen Modells vorantrieben: 1880 beschrieb der Statistiker und Astronom Thorvald Nicolai Thiele (1838-1910) in Kopenhagen erstmals einen solchen "Prozess" (die Theorie der stochastischen Prozesse war damals allerdings noch nicht entwickelt), als er wirtschaftliche Zeitreihen und die Verteilung von Residuen bei der Methode der kleinsten Quadrate studierte. 1900 griff der französische Mathematiker Louis Bachelier (1870-1946), ein Schüler Poincarés, Thieles Idee auf, als er versuchte, die Kursbewegungen an der Pariser Börse zu analysieren. Beide Ansätze hatten letztendlich nur geringen Einfluss auf die zukünftige Entwicklung des Prozesses, zum Teil wohl aus dem Grunde, dass Finanzmathematik zu diesem Zeitpunkt eine untergeordnete Rolle in der Mathematik jener Zeit spielte (heute jedoch gilt gerade die Finanzmathematik als Hauptanwendungsgebiet von WienerProzessen). Dennoch bevorzugte zum Beispiel der Stochastiker William Feller die Bezeichnung Bachelier-Wiener-Prozess. Diplomarbeit Stochastische Prozesse 110 Georg Messerle LRT 2002 Glossar Der Durchbruch kam 1905, als Albert Einstein in seinem annus mirabilis den Wiener-Prozess in seiner heutigen Gestalt definierte - offenbar ohne Kenntnis von Bacheliers Arbeiten. Seine Motivation war es, die Bewegung der brownschen Partikel durch die molekulare Struktur des Wassers zu erklären (ein Ansatz, der damals äußerst kontrovers war, heute aber unbestritten ist) und diese Erklärung mathematisch zu untermauern. Interessanterweise forderte er dabei eine weitere, physikalisch sinnvolle Eigenschaft, die Rektifizierbarkeit der Zufallspfade, für sein Modell nicht. Obwohl dies bedeutet, dass die Partikel in jeder Sekunde eine unendlich lange Strecke zurücklegen (was das gesamte Modell theoretisch disqualifiziert), bedeutete der Einsteinsche Ansatz den Durchbruch sowohl für die molekulare Theorie, als auch für den stochastischen Prozess. Einen Beweis für die wahrscheinlichkeitstheoretische Existenz des Prozesses blieb Einstein allerdings schuldig. Dieser gelang erst 1923 dem US- Amerikanischen Mathematiker Norbert Wiener, der dabei neue Hilfsmittel von Lebesgue und Borel auf dem Gebiet der Maßtheorie ausnutzen konnte. Dennoch war sein Beweis so lang und kompliziert, dass ihn wohl nur eine handvoll Zeitgenossen verstehen konnten. Von Itō Kiyoshi ist überliefert, dass er einige seiner größten Fortschritte bei der Entwicklung des stochastischen Integrals bei dem Versuch erreichte, Wieners Arbeit nachzuvollziehen. Letztendlich war es auch Itō, der dem Wiener-Prozess den Weg von der Physik in andere Wissenschaften ebnete: durch die von ihm aufgestellten stochastischen Differentialgleichungen konnte man die Brownsche Bewegung an mehr statistische Probleme anpassen. Bacheliers Ansatz scheiterte letztendlich daran, dass der Wiener-Prozess, unabhängig von seinem Startwert, im Laufe der Zeit fast sicher einmal negative Werte erreicht, was für Aktien unmöglich ist. Doch die durch eine stochastische Differentialgleichung abgeleitete geometrische Brownsche Bewegung löst dieses Problem und gilt seit der Entwicklung des berühmten Black-ScholesModells als Standard. Heute werden in praktisch allen Natur- und vielen Geisteswissenschaften brownsche Bewegungen und verwandte Prozesse als Hilfsmittel verwendet. (Quelle: Wikipedia ) Diplomarbeit Stochastische Prozesse 111 Georg Messerle LRT 2002 Glossar [A7] Sind Kovarianzmatrix, Bedeutung X, Y, Z Zufallsvariablen, dann ist die Kovarianzmatrix des Zufallsvektors (X,Y,Z) gegeben durch Bildhaft kann man sich eine Abnahme der Werte in der Matrix mit zunehmendem Abstand von der Hauptdiagonalen, als eine Abnahme der Korrelation zwischen "weit voneinander entfernten" Ereignissen im Zufallsprozess vorstellen. "Der Apfel fällt nicht weit vom Stamm" verdeutlicht dies: Je mehr man sich vom Stamm (Hauptdiagonale) entfernt, desto weniger Äpfel (kleinere Matrixeinträge) wird man finden. (Quelle: http://de.wikipedia.org/wiki/Kovarianzmatrix) [A8] Bemerkung: Mein alter Physiklehrer würde sagen, es handle sich bei der folgenden Argumentation um ein „Hand-waving-argument“, d.h. eine unexakte, unvollständige, aber zum besseren Verständnis äußerst hilfreiche Eselsbrücke. [A9] m m2 m m m 2 m3 1 1 1 ln p = n ln n + ln n + ln 2 − ln n + + 2 − ln 2 + ln n − − 2 2 2 2n 4n 2 2 2n 4n 2 n n m 1 m m2 m m m2 1 + ln 2 − ln n + + ln 2 − ln n − + + ln 2 − ln n − 2 2 2 2 2 2n 4 n 2 2 2 2n 3 2 m n n m m 1 + 2 + ln 2 − ln n − + − ln 2π − n ln 2 4n 2 2 2 4n 2 m2 m2 1 1 1 = ln 2 − ln π − ln n + 2 − 2 2 2 2n 2n Diplomarbeit Stochastische Prozesse 112 Georg Messerle LRT 2002 10. Literaturverzeichnis 10. Literaturverzeichnis [1] Billingsley, Patrick; “Probability and Measure”; Wiley, 1995 [2] Lawler, Gregory F.; “Introduction to Stochastic Processes”; Chapman and Hall, 1995 [3] Montgomery D.C./Beichelt F.; „Taschenbuch der Stochastik“; Teubner- Verlag 2003 [4] N. Borodin/ P. Salminen; “Handbook of Brownian Motion”; Birkhäuser Verlag 1996 [5] Lifshits, M. A.; “Gaussian Random Functions”; Kluwer Academic Publishers 1995 [6] Merziger / Wirth; „Repetitorium der höheren Mathematik“; Binomi Verlag 1999 [7] Basieux, Pierre; „Die Architektur der Mathematik“; Rowohlt Verlag 2000 [8] Plachky, D.; „Einführung Wahrscheinlichkeitstheorie und in die Grundbegriffe mathematischen der Statistik“; Oldenbourg-Verlag 2000 [9] Z. Brzezniak/ T. Zastawniak; “Basic Stochastic Processes”; SpringerVerlag 1999 Diplomarbeit Stochastische Prozesse 113 Georg Messerle LRT 2002 10. Literaturverzeichnis [10] S. Srinivasan/ K. Mehata; “Stochastic Processes”; Tata McGraw-Hill Publishers, New Delhi, 1988 [11] Schmidt, Volker; Skript: „Wahrscheinlichkeitstheorie“; Universität Ulm, Sommersemester 2005 [12] Marti, Kurt; Skript: „Statistik für Ingenieure“; Universität der Bundeswehr München 2004 [13] Jänich, Klaus; „Topologie“; 8. Auflage, Springer-Verlag 2005 [14] Schmidt, Volker; Skript „Wahrscheinlichkeitsrechnung“; Uni Ulm, Wintersemester2003/2004. [15] Stroock, D./Varadhan, S.R.; “Multidimensional Diffusion Processes”; Springer-Verlag 1997 [16] Karlin, S; “A First Course in Stochastic Processes”; Academic Press New York 1972 [17] Bailey, N.T.J.; “The Elements of Stochastic Processes”; Wiley 1990 [18] Freund, J. /Pöschel,T; “Stochastic Processes in Physics, Chemistry and Biology”; Springer-Verlag 2000 [19] Karatzas, I. /Shreve, S; “Brownian Motion and Stochastic Calculus”; Springer-Verlag 1988 [20] Bauer, H; „Wahrscheinlichkeitstheorie“; de Gruyter-Verlag 1991 Diplomarbeit Stochastische Prozesse 114 Georg Messerle LRT 2002 10. Literaturverzeichnis [21] Waubke, H; „Moment-Closure elastoplastischen Reaktion von Technik zur Abschätzung Stockwerksrahmen auf der zufällige Belastungen aus Windereignissen“; Habilitationsschrift, Technische Universität München, Fakultät für Bauingenieur- und Vermessungswesen,1999. [22] Schönes Applet zur Simulation eines Weißen Rauschens: http://www.mpg.unirostock.de/~reinhard/lehre/viewerapplet/index.html [23] Risken, H. / Haken, H. (Hrsg.): „The Fokker-Planck Equation”; 2nd Ed. Springer-Verlag 1984 (Springer Series in Synergetics, Vol. 18). [24] Bronstein, I. N./Semendjaev, K. A./Musiol, G./Mühlig, H.: „Taschenbuch der Mathematik“; 2., überarb. und erw. Aufl. Frankfurt am Main, Harri Deutsch Verlag, 1995. [25] Dreger, Jens; „Untersuchung des Starkkopplungsverhaltens der Fokker-Planck-Gleichung mit anharmonischer Drift“; Diplomarbeit, Freie Universität Berlin, Fachbereich Physik; 2002 [26] von Randow; Gero; „Das Ziegenproblem - Denken in Wahrscheinlichkeiten“; 9. Aufl., Rowohlt-Verlag 2000 [27] Gisela Kobelt; „Einführung in die ökonomische Evaluation“, OHE, London Verwendete Adressen im WWW: http://www.mathematik.uniulm.de/stochastik/lehre/ss05/wt/skript /node47.html Diplomarbeit Stochastische Prozesse 115 Georg Messerle LRT 2002 10. Literaturverzeichnis http://de.wikipedia.org/wiki/Kovarianzmatrix http://.www.wikipedia.org/index/math/brownian.motion.html http://www.mathematik.uniulm.de/stochastik/lehre/ws03_04/wr/sk ript/skript.html http://www.kfs.oeaw.ac.at/staff_and_associates/waubke/publications /habil.pdf http://de.wikipedia.org/wiki/Borel-Algebra http://www.biologie.de/biowiki/Bild:Wienerprozess.png Diplomarbeit Stochastische Prozesse 116 Georg Messerle LRT 2002 10. Literaturverzeichnis Diplomarbeit Stochastische Prozesse 113 Georg Messerle LRT 2002