3. STOCHASTISCHE PROZESSE 73 3. Stochastische Prozesse 3.1. Grundlegende Begriffe bei zufälligen Prozessen. In diesem Abschnitt beschäftigen wir uns mit den grundlegenden Begriffen und Definitionen von Zufallsexperimenten, also Prozessen, bei denen der Ausgang im Rahmen gewisser Möglichkeiten ungewiß oder zufÄllig ist, die aber bei Beibehaltung gewisser Rahmenbedingungen beliebig oft wiederholt werden können und damit einer systematischen und mathematischen Beschreibung zugänglich sind. Zum Einstieg ist es sinnvoll, zunächst nur eine diskrete und endliche Menge von möglichen Ausgängen zu betrachten, da hier die Mathematisierung verständlicher dargestellt werden kann. Definition 2.55. Ein endlicher Ergebnisraum ist eine nichtleere Menge Ω = {ξ1 , . . . , ξn }, deren Elemente ξj ∈ Ω Ergebnisse genannt werden. Jede Teilmenge A ⊂ Ω wird als Ereignis, jede einelementige Teilmenge {ξj } ⊂ Ω als Elementarereignis bezeichnet. Nach dieser Definition sind der Ergebnisraum Ω selbst sowie die leere Menge ∅ stets Ereignisse, die man das sichere bzw. unmögliche Ereignis nennt. Gleichzeitig folgt, dass die Menge aller Ereignisse gerade die Potenzmenge P(Ω) von Ω ist, also die Menge aller Teilmengen von Ω und für die Mächtigkeit von P(Ω) gilt die Beziehung n X n = 2n |P(Ω)| = j j=0 Da Ereignisse gerade als Elemente der Potenzmenge definiert sind, lassen sich Ereignisse nach den Regeln der Mengenlehre verknüpfen. Beispiel 2.56. Gilt A ⊂ B, so ist A ein Teilereignis von B; zwei Ereignisse A und B sind gleich, falls A ⊂ B und B ⊂ A gilt. Das entgegengesetzte Ereignis ist Ā = {ξ ∈ Ω : ξ ∈ / A} was man in der Mengenlehre auch als Negation oder das Komplement von A bezeichnet. Definition 2.57. Sind A und B Ereignisse und gilt AB = A ∩ B = ∅, so heißen A und B disjunkt oder unvereinbar. Betrachtet man nun ein durch Ω und P(Ω) beschriebenes Zufallsexperiment und führt man m unabhängige Wiederholungen durch, so kann man zählen, wie of ein Ereignis A ∈ P(Ω) als Ergebnis der m Wiederholungen eintritt. Definition 2.58. Tritt ein Ereignis A ∈ P(Ω) bei m unabhängigen Versuchen hm (A)–mal ein, so nennt man hm (A) die absolute Häufigkeit und Hm (A) = hm (A) m die relative Häufigkeit von A in m Versuchen. Man verifiziert leicht, dass die relative Häufigkeit Hm (A) die folgenden Eigenschaften besitzt: 74 2. MATHEMATISCHE METHODEN DER MODELLBILDUNG 1) Für alle A ∈ P(Ω) gilt: 0 ≤ Hm (A) ≤ 1, 2) Es gilt: Hm (Ω) = 1, 3) Für alle A, B ∈ P(Ω) mit AB = ∅ gilt: Hm (A ∪ B) = Hm (A) + Hm (B) Man kommt damit zur Definition des Laplaceschen Zufallsexperiments und dem folgenden Wahrscheinlichkeitsbegriff. Definition 2.59. Sind in einem endlichen Ergebnisraum alle Elementarereignisse gleich häufig, so nennt man das zugehörige Zufallsexperiment ein Laplacesches Zufallsexperiment. Die Wahrscheinlichkeit des Ereignisse A ist dann gegeben durch Anzahl der Elementarereignisse {ξj } ⊂ A P (A) = Gesamtzahl der Elementarereignisse Zufallsexperimente, die us kombinatorischen Überlegungen beruhen, lassen sich mit Hilfe der Laplaceschen Definition einer Wahrscheinlichkeit mathematisch und beschreiben und wir geben dazu nur ein konkretes Beispiel. Beispiel 2.60. Eine Urne enthält n (bis auf die Farbe) gleiche Kugeln, von denen m rot und n − m weiß sind. Aus der Urne werden zufällig k Kugeln gezogen. Wie groß ist die Wahrscheinlichkeit dafür, dass unter den k Kugeln l rote und k − l weiße sind? n Zunächst kann man k Kugel auf verschiedene Arten aus n Kugeln auswählen, d.h. k n ist die Gesamtzahl der Elementarereignisse des oben formulierten Zufallsexperik m ments. Aus m roten Kugeln können l auf verschiedene Arten ausgewählt werden; l n−m Arten. Für die Laplacesche k − l weiße aus n − m vorhandenen auf genau k−l Wahrscheinlichkeit folgt dann m n−m l k−l Pk = n k was man auch als hypergeometrische Verteilung bezeichnet. Es ist offensichtlich, dass man sich bei der stochastischen Modellierung nicht allein auf endliche Ergebnisräume Ω mit gleichwahrscheinlichen Elementarereignissen beschränken kann. Dies führt auf eine Definition der Wahrscheinlichkeit für allgemeine (endliche, abzählbar und überabzählbar unendliche) Räume, wie sie 1933 von Kolmogorov10 auf axiomatischem Weg eingeführt wurde. 10Andrej Nikolaevich Kolmogorov, russischer Mathematiker, 25. April 1903 in Tambov, 20. Oktober 1987 in Moskau 3. STOCHASTISCHE PROZESSE 75 Eine Schwierigkeit, die bei der mathematischen Formulierung auftaucht, ist dabei, dass bei überabzählbar unendlichen Ergebnisräumen auch überabzählbar viele Elementarereignisse auftreten und man daher Probleme hat, jedem Elementarereignis eine positive Wahrscheinlichkeit zuzuordnen. Man beschränkt sich daher darauf, Wahrscheinlichkeiten nur für gewisse Teilmengen der Potenzmenge P(Ω) zu definieren. Diese Teilmengen sich durch den Begriff einer σ–Algebra charakterisiert. Definition 2.61. Ein nichtleeres System B von Teilmengen eines Ergebnisraums Ω heißt σ–Algebra über Ω, wenn gilt: 1) 2) A ∈ B ⇒ Ā ∈ B An ∈ B, n = 1, 2, . . . ⇒ ∞ S n=1 An ∈ B Der Gesamtraum Ω und die leere Menge ∅ sind stets Elemente einer σ–Algebra: nach 1) folgt aus A ∈ B auch Ā ∈ B und weiter gilt A ∩ Ā = Ω ∈ B und demnach Ω̄ = ∅ ∈ B. Abzählbare Durchschnitte von Elementen aus B sind ebenfalls wieder Elemente von B, d.h. es gilt ∞ \ An ∈ B, n = 1, 2, . . . ⇒ An ∈ B n=1 Man kann aus jeder Teilmenge M ⊂ P(Ω) auf eindeutige Weise eine σ–Algebra B = B(M ) konstruieren, die man als die von M erzeugte σ–Algebra bezeichnet. Diese σ–Algebra B(M ) ist auch die kleinste σ–Algebra, die die Ausgangsmenge M selbst enthÄlt, d.h. es gilt: 1) M ⊂ B(M ) 2) Ist B 0 eine σ–Algebra, die M enthält, so gilt B(M ) ⊂ B 0 Für einen endlichen Ergebnisraum Ω = {ξ1 , . . . , ξn } ist die Potenzmenge P(Ω) offensichtlich eine σ–Algebra. Ein weiteres eichtiges Beispiel für eine σ–Algebra ist die durch die halboffenen Intervalle I = (a, b] ⊂ R erzeugte σ–Algebra über den Ergebnisraum Ω = R, die auch Borelsche σ–Algebra genannt wird. Mit Hilfe des Begriffs σ–Algebra läßt sich jetzt durch die Kolmogorovschen Axiome eine Verallgemeinerung der Laplaceschen Wahrscheinlichkeit für allgemeine Räume definieren. Definition 2.62. Gegeben seien ein Ereignisraum Ω und eine geeignete σ–Algebra B über Ω, sodass die Elemente von B die Ereignisse eines Zufallsexperimentes definieren. Weiter sei P eine Funktion, die jedem Ereignis A ∈ B eine reelle Zahl zuordnet und die folgenden Bedingungen (Kolmogorovschen Axiome) erfüllt: A1) Für alle A ∈ B gilt: P (A) ≥ 0 A2) Es gilt: P (Ω) = 1 A3) Für paarweise disjunkte Ereignisse An ∈ B, n = 1, 2, . . . gilt: ! ∞ ∞ X [ P (An ) An = P n=1 n=1 76 2. MATHEMATISCHE METHODEN DER MODELLBILDUNG Dann nennt man P (A) die Wahrscheinlichkeit des Ereignisse A. Um nun ein gegebenes Zufallexperiment mit Hilfe eines mathematischen Modells zu beschreiben verwendet man einen Wahrscheinlichkeitsraum (Ω, B, P ) bestehend aus dem Ereignisraum Ω, einer σ–Algebra aus Teilmengen von Ω und eine Wahrscheinlichkeitsfuntkion P : B → R≥0 . Satz 2.63. Es gilt stets 1) P (∅) = 0 2) P (Ā) = 1 − P (A) 3) P (A ∪ B) = P (A) + P (B) − P (AB) Beweis. Da die leere Menge ein Element von B ist, ist P (∅) wohldefiniert und aus A1) aus Definition 2.62 folgt P (∅) ≥ 0 Sei nun A 6= ∅ ein Element von B. Dann gilt A ∪ ∅ = A ∈ B und A ∩ ∅ = ∅ ∈ B. Aus der Bedingung A3) erhalten wir demnach P (A) = P (A ∪ ∅) = P (A) + P (∅) und daher P (∅) = 0. Für Teil 2) bemerken wir, dass aus A ∪ Ā = ∅ und A ∩ Ā = Ω unter Verwendung von A2) und A3) folgt: 1 = P (Ω) = P (A ∩ Ā) = P (A) + P (Ā) und daher P (Ā) = 1 − P (A). Für den letzten Teil des Satzes bemerken wir zunächst A ∪ B = (AB̄) ∪ (AB) ∪ ĀB) wobei die drei auf der rechten Seite stehenden Ereignisse paarweise disjunkt sind und außerdem die Beziehungen A = (AB) ∪ (AB̄) B = (AB) ∪ (ĀB) gelten. Aus A3) folgt demnach P (A ∩ B) = P (AB̄) + P (AB) + P (ĀB) P (A) = P (AB̄) + P (AB) P (B) = P (AB) + P (ĀB) Eine Kombination der drei Gleichungen ergibt aber P (A ∩ B) = P (A) − P (AB) + P (AB) + P (B) − P (AB) = P (A) + P (B) − P (AB) 3. STOCHASTISCHE PROZESSE 77 Bemerkung 2.64. Ein höchstens abzählbares System {An ∈ B : Ak An = ∅, k 6= n} nennt man auch eine vollständige Ergebnisdisjunktion, falls gilt ∞ [ An = Ω n=1 Für ein solches System gilt wegen A2) P ∞ [ An n=1 ! =1 Weiter zeigt man mit Hilfe von A3) für zwei Elemente A, B ∈ B mit A ⊂ B die Abschätzung P (A) ≤ P (B). Ein weiterer zentraler Begriff bei der stochastischen Modellierung ist der Begriff der bedingten Wahrscheinlichkeit. Definition 2.65. Sei Ω, B, P ) ein Wahrscheinlichkeitsraum eines Zufallsexperimentes und A, B ∈ B mit P (B) > 0 zwei Ereignisse. Dann nennt man P (AB) P (B) die bedingte Wahrscheinlichkeit von A unter der Bedingung B. (2.70) P (A|B) = Die bedingte Wahrscheinlichkeit bewertet also das Eintreffen des Ereignisses A unter der Voraussetzung, dass das Ereignis B mit Sicherheit passiert ist. Beispiel 2.66. Wir betrachten ein Zufallsexperiment mit zwei Würfeln und fragen nach der Wahrscheinlichekit zwei Sechsen zu werfen, unter der Bedingung, dass mit einem Würfel eine Sechs gewürfelt wird. Der Ergebnisraum dieses Zufallsexperiments ist die Menge Ω = {(w1 , w2 ) : w1 , w2 ∈ {1, . . . , 6}} das Ereignis A ⊂ Ω zwei Sechsen zu würfeln ist dann und A = {(6, 6)} B = {(w1 , 6) : w1 ∈ {1, . . . , 6}} beschreibt das Ergebnis, dass mit dem zweiten Würfel eine Sechs gewürfelt wird und mit dem ersten eine beliebige Augenzahl zwischen 1 und 6. Nun gilt wegen A ⊂ B 1 P (A ∩ B) = P (A) = 36 und P (B) = 1/6. Daraus folgt 1 P (AB) = P (B) 6 Die Wahrscheinlichkeit, zwei Sechsen zu werfen, unter der Bedingung, dass mit einem der Würfel eine gerade Augenzahl gewürfelt wird, sollte natürlich kleiner als 1/6 sein. Mit P (A|B) = C = {(w1 , w2 ) : w1 ∈ {1, . . . , 6}, w2 ∈ {2, 4, 6}} 78 2. MATHEMATISCHE METHODEN DER MODELLBILDUNG ergibt sich P (A|C) = P (A) 1/36 1 P (AC) = = = P (C) P (C) 1/2 18 Einige Eigenschaften und Folgerungen der bedingten Wahrscheinlichekit sind im Folgenden kurz zusammengefasst: 1) Es gilt stets P (A|B)P (B) = P (B|A)P (A) d.h. im Allgemeinen P (A|B) 6= P (B|A). 2) Setzen wir für festes B ∈ B PB (A) = P (A|B) so erfüllt PB die Kolmogorovschen Axiome aus Definition 2.62 und definiert also einen Wahrscheinlichkeitsraum (Ω, B, PB ). Insbesondere gilt: PB (Ω) = 1. 3) Die bedingte Wahrscheinlichkeit kann man dazu verwenden, um eine Multiplikationsregel für Wahrscheinlichkeiten zu definieren: aus (2.70) folgt P (AB) = P (A|B)P (B) beziehungsweise (2.71) P (AB) = P (B|A)P (A) Mit Hilfe vollständiger Induktion beweist man ferner die Beziehung: ! j−1 n n [ Y [ P Aj = P Aj | Ak j=1 j=1 k=1 Eine Anwendung von (2.71) besprechen wir im folgenden Beispiel. 11 Beispiel 2.67. In einem Raum befinden sich n Personen. Wie hoch ist die Wahrscheinlichkeit, dass mindestens 2 Personen im Raum am gleichen Tag Geburtstag haben? Um diese Frage zu beantworten, müssen wir zunächst einige zusätzlichen Modellannahmen machen: • wir vernachlässigen Schaltjahre, d.h. wir gehen davon aus, dass jedes Jahr 365 Tage hat, • die Geburtstage der n Personen sind übers Jahr gleichverteilt, d.h. jeder Geburtstag besitzt diesselbe Wahrscheinlichkeit. Sei A das Ereignis A = {mindestens 2 Personen haben am gleichen Tag Geburtstag} dann gilt natürlich für n > 365 P (A) = 1 Für n ≤ 365 nummerieren wir die n Personen durch und definieren die folgenden Ereignisse A = {alle Personen haben an verschiedenen Tagen Geburtstag} Aj = {die j–te Person hat an einem anderen Tag als die j − 1 vorhergehenden Personen Geburtstag} 11siehe [15]. 3. STOCHASTISCHE PROZESSE 79 Es folgt P (A2 ) = P (A3 |A2 ) = 364 365 363 365 .. . 365 − (n − 1) 365 Wegen A = A2 A3 · · · An folgt mit der Beziehung (2.71) P (An |A2 A3 . . . An−1 ) = und daraus P (A) = P (A2 )P (A3 |A2 ) · · · P (An |A2 A3 . . . An−1 ) P (A) = 1 − P (A) = 1 − 364 · 363 · · · · · (365 − n + 1) 365n−1 Für verschiedene Werte von n erhält man: n 10 20 23 30 50 100 P (A) 0.117 0.411 0.507 0.706 0.970 0.99999969 Satz 2.68. Die Ereignisse Ak , k = 1, . . . , n seien eine vollständige Ereignisdisjunktion und es gelte P (Ak ) > 0 für alle k = 1, . . . , n. Dann folgt für jedes B ∈ B die Formel von der totalen Wahrscheinlichkeit n X P (B) = P (B|Ak )P (Ak ) k=1 und falls P (B) > 0 die Formel von Bayes P (Ak |B) = P (B|Ak )P (Ak ) n P P (B|Ak )P (Ak ) k=1 Bemerkung 2.69. Man nennt die Wahrscheinlichkeiten P (Ak |B) die a–posteriori Wahrscheinlichkeiten, dagegen die P (Ak ) a–priori Wahrscheinlichkeiten. Die bedingte Wahrscheinlichkeit P (A|B) gibt die Wahrscheinlichkeit für das Eintreten des Ereignisses A an, unter der Bedingung, dass das Ereignis B sicher eingetreten ist. Im allgemeinen gilt daher P (A) 6= P (A|B). Gilt dagegen die Gleichheit, so ist das Eintreten von A vollkommen unabhängig davon, ob B eingetreten ist oder nicht. Definition 2.70. Gilt für A, B ∈ B P (A|B) = P (A) so nennt man A unabhängig von B. Ist A unabhängig von B, so gilt für die Multiplikation P (AB) = P (B)P (A|B) = P (A)P (B) 80 2. MATHEMATISCHE METHODEN DER MODELLBILDUNG und daraus folgt direkt P (A)P (B) P (AB) = = P (B) P (A) P (A) d.h. ist A unabhängig von B, so ist auch B unabhängig von A. Man sagt daher zusammenfassend, dass A und B voneinander unabhängig sind. P (B|A) = Beispiel 2.71. Ein klassisches Zufallsexperiment mit stochastisch unabhängigen Ereignissen ist das Ziehen–mit–Zurücklegen. So ist etwas die Wahrscheinlichkeit bei zweimaligen Ziehen einer Karte aus einem Skatspiel, bei dem man die erste Karte nach dem Ziehen wieder auf den Kartenstapel zurücklegt, zwei Asse zu ziehen gleich 1/64. Definition 2.72. Die Ereignisse Ak ∈ B, k = 1, . . . , n, nennt man vollständig unabhängig, wenn für jede natürliche Zahl m ∈ {2, 3, . . . , n} und beliebige Zahlen 1 ≤ i1 < i2 < · · · < im ≤ n gilt ! m m [ Y P Aik = P (Aik ) k=1 k=1 3.2. Zufallsvariablen und Wahrscheinlichkeitsverteilungen. Zur analytischen Beschreibung von Zufallsexperimenten ist es häufig notwendig, jedem Ergebnis des Experimentes eine (reelle) Zahl zuzuordnen. Damit lassen sich viele Eigenschaften aus der Analysis auf zufällige Prozesse übertragen. Eine Funktion, die einem Ergebnis eines zufälligen Prozesses eine reelle Zahl zuordnet, wird als eine Zufallsvariable bezeichnet. Definition 2.73. Gegeben sei ein Wahrscheinlichkeitsraum (Ω, B, P ). Eine Funktion X:Ω → R ξ 7→ X(ξ) die jedem Ereignis ξ ∈ Ω eine reelle Zahl zuordnet, heißt Zufallsvariable, wenn das Urbild eines jeden Intervalls (−∞, a] ⊂ R ein Ereignis aus B ist: Die Funktion X −1 ((−∞, a]) ∈ B ∀a ∈ R F (x) := P (X ≤ x) der reellen Variablen x heißt Verteilungsfunktion der Zufallsvariablen X. Man überlegt sich leicht, dass Verteilungsfunktionen stets die folgenden Eigenschaften besitzen: a) Es gilt: F : R → [0, 1] und lim F (x) = 0, x→−∞ lim F (x) = 1 x→∞ b) Die Funktion F (x) ist monoton nichtfallend: x1 ≤ x2 ⇒ F (x1 ) ≤ F (x2 ) c) Die Verteilungsfunktion ist rechtsseitig stetig: F (x + 0) = lim F (x + h) = F (x) h→0 (∀ x ∈ R) 3. STOCHASTISCHE PROZESSE 81 Eine spezielle Klasse von Zufallsvariablen sind die stetigen Zufallsvariablen, für die man die Verteilungsfunktion stets als ein Integral über eine Dichte darstellen kann. Definition 2.74. Eine Zufallsvariable X nennt man eine stetige Zufallsvariable, falls eine integrierbare, nicht–negative Funktion f mit Zx F (x) = f (x) dx −∞ existiert. Die Funktion f = f (x) bezeichnet man als die Dichte der Zufallsvariablen. Wir geben im folgenden einige wichtige Beispiele für stetige Zufallsvariablen und deren zugehörige Dichten: Beispiel 2.75. Die Dichte f (x) = 1 : 0≤x<1 0 : sonst beschreibt die sogenannte Gleichverteilung mod 1. Die Dichte 2 x 1 f (x) = √ exp 2 2π ist die Dichte der Standardnormalverteilung. Die Dichte 0 : x≤0 f (x) = λe−λx : x > 0 mit λ > 0 beschreibt die Exponentialverteilung. Wir kommen nun zur Definition der Momente einer Zufallsvariablen. Gegeben sei dazu eine stetige Zufallsvariable X mit der Dichte f (x). Definition 2.76. Existiert das uneigentliche Integral Z∞ E(X) := f (x) dx −∞ so nennt man E(X) den Erwartungswert oder auch Mittelwert der Zufallsvariablen. Existiert für k ∈ N das uneigentliche Integral Z∞ k xk f (x) dx E(X ) := so nennt man E(X k ) −∞ das k–te Moment der Zufallsvariablen X. Definition 2.77. Der Erwartungswert k E([X − E(X)] ) = Z∞ −∞ (x − E(x))k f (x) dx 82 2. MATHEMATISCHE METHODEN DER MODELLBILDUNG heißt k–tes zentrales Moment der Zufallsvariablen X. Spezielle Momente haben eine besondere Bedeutung und werden daher entsprechend benannt: D2 (X) = E([X − E(X)]2 ) = var(X) nennt man Varianz oder auch Dispersion der Zufallsvariablen X. Der Term p D(X) = E([X − E(X)]2 ) ist die Standardabweichung der Zufallsvariablen X. Charakteristische Funktion einer Zufallsvariablen: Definition 2.78. Der Erwartungswert ϕ(s) := E(eisX ) heißt charakteristische Funktion der Zufallsvariablen X. Satz 2.79. Existiert das k–te Moment einer Zufallsvariablen X, so gilt ϕ(k) (0) (k = 1, 2, . . . ) ik Bemerkung 2.80. Man beachte den Zusammenhang zur Fourier–Transformation: Z∞ Z∞ 1 isx e−isx ϕ(s) ds e f (x) dx f (x) = ϕ(s) = 2π E(X k ) = −∞ −∞ Wir kommen nun zu einigen typischen Wahrscheinlichkeitsverteilungen, die häufig bei der Modellierung stochastischer Prozesse verwendet werden. Zunächst betrachten wir die sogenannte Zweipunktverteilung: gegeben sei dazu eine Zufallsvariable, die nur zwei unterschiedliche Werte x1 < x2 mit positiver Wahrscheinlichkeit annehmen kann. Ist dann P (X = x1 ) = p P (X = x2 ) = 1 − p (0 < p < 1) so folgt für die oben angegebenen Kenngrößen der Zweipunktverteilung: 0 : x < x1 p : x1 ≤ x < x 2 F (x) = 1 : x ≥ x2 E(X) = p x1 + (1 − p) x2 D2 (X) = (x2 − x1 )2 p (1 − p) ϕ(s) = p eisx1 + (1 − p) eisx2 Betrachtet man bei einem Zufallsexperiment mit Zweipunktverteilung n voneinander unabhängige Wiederholungen und sei Xn die diskrete Zufallsvariable, die angibt wie oft der Wert x1 angenommen wird, so gilt n pk (1 − p)n−k (k = 0, . . . , n) P (Xn = k) = k 3. STOCHASTISCHE PROZESSE 83 Diese Verteilung bezeichnet man als Binomialverteilung und man berechnet X n pk (1 − p)n−k F (x) = k k≤x E(X) = n p D2 (X) = n p (1 − p) ϕ(s) = (1 + p (eis − 1))n Mit Hilfe der Binomialverteilung läßt sich die sogenannte Poissonverteilung ableiten. Definition 2.81. Eine Zufallsvariable X, die die Werte k = 0, 1, 2, . . . mit den Wahrscheinlichkeiten λk −λ P (X = k) = e (λ > 0) k! annimmt, nennt man poissonverteilt mit Parameter λ. Der Zusammenhang zur Binomialverteilung wurde bereits 1837 von Poisson angegeben: Satz 2.82. Die diskrete Zufallsvariable Xn genüge der Binomialverteilung. Gilt mit der Konstanten λ < 0 für n = 1, 2, 3, . . . die Beziehung λ p= n so gilt λk −λ e lim P (Xn = k) = n→∞ k! Hat man keine näheren Informationen über die Verteilungsfunktion einer Zufallsvariablen, so nimmt man häufig an, dass die Zufallsvariablen normalverteilt sind und die Normalverteilung kann damit als die wichtigste Verteilung der Wahrscheinlichkeitstheorie angesehen werden. Definition 2.83. Eine Zufallsvariable X ist normalverteilt (gaußverteilt), wenn ihre Dichte durch 1 (x − µ)2 √ f (x) = (σ > 0) exp − 2σ 2 2πσ gegeben ist. In der Tat können Zufallsvariablen, die durch eine additive Überlagerung einer großen Zahl von unabhängigen zufälligen Ereignissen (Zufallsvariablen) entstehen, wobei jede der einzelnen Zufallsvariablen einen im Verhältnis zur Gesamtsumme nur unbedeutenden Betrag liefert, als normalverteilt angesehen werden. Von besonderen Interesse sind damit auch die Kenngrößen der Normalverteilung, die wir im folgenden abgeben wollen: die Verteilungsfunktion der Normalverteilung ist gegeben durch Zx 1 (t − µ)2 F (x) = √ dt exp − 2σ 2 2πσ −∞ 84 2. MATHEMATISCHE METHODEN DER MODELLBILDUNG die sich mit Hilfe der Gaußschen Fehlerfunktion erf (x) auch in der Form F (x) = = 1 2 ·√ 2 π √ (x−µ)/( Z 2σ) 1 1 + erf 2 2 2 e−t dt −∞ x−µ √ 2σ darstellen läßt, wobei die Fehlerfunktion (wie in Abschnitt 2.2 bereits angegeben) über die Formel Zx 2 2 erf (x) = √ e−t dt π 0 definiert ist. Für den Erwartungswert einer normalverteilten Zufallsvariablen berechnet man Zx (t − µ)2 1 dt = µ t · exp − E(X) = √ 2σ 2 2πσ −∞ und die Varianz ist gegeben durch D2 (X) = σ Das k–te zentrale Moment lautet ( 1 · 3 · · · · · (k − 1) σ k : falls k gerade k E((x − µ) ) = 0 : falls k ungerade und die charakteristische Funktion ist gegeben durch (σs)2 ϕ(s) = eisµ exp − 2 Für N (µ; σ 2 )–verteilte Zufallsvariablen gilt als eine weitere vor allem in Anwendungen wichtige Eigenschaft: P (µ − σ < X ≤ µ + σ) ≈ 0.68 P (µ − 2σ < X ≤ µ + 2σ) ≈ 0.955 P (µ − 3σ < X ≤ µ + 3σ) ≈ 0.997 d.h. praktisch alle Werte von X liegen zwischen µ − 3σ und µ + 3σ. Der Begriff Zufallsvariable läßt sich auf Zufallsvariablen X : Ω → Rd erweitern, d.h. es lassen sich auch mehrdimensionale Zufallsvariablen definieren. Definition 2.84. Die Funktion F (x1 , . . . , xd ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xd ≤ xd ) einer mehrdimensionalen Variablen X heißt Verteilungsfunktion von X. 3. STOCHASTISCHE PROZESSE 85 Die Dichte einer zweidimensionalen Zufallsvariablen berechnet sich zum Beispiel über f (x1 , x2 ) = ∂2 F (x) ∂x1 ∂x2 Definition 2.85. Für eine zweidimensionale Zufallsvariablen X mit der Dichte f (X) = f (x1 , x2 ) sind die Randdichten von X gegeben durch Z∞ fX1 (x1 ) = f (x1 , x2 ) dx2 fX2 (x2 ) = −∞ Z∞ f (x1 , x2 ) dx1 −∞ Die Randdichten sind gerade die Dichten der Komponenten des Zufallsvektors X = (X1 , X2 )T . Bemerkung 2.86. Bei der Definition der Randdichten wird die Zufälligkeit einer der beiden Komponenten durch Integration über diese eliminiert. Definition 2.87. Man nennt fX1 (x1 |X2 = x2 ) = f (x1 , x2 ) fX2 (x2 ) die bedingte Dichte von X1 unter der Bedingung X2 = x2 und fX2 (x2 |X1 = x1 ) = f (x1 , x2 ) fX1 (x1 ) die bedingte Dichte von X2 unter der Bedingung X1 = x1 . Definition 2.88. Zwei Zufallsvariablen heißen unabhängig, falls f (x, y) = fX (x) · fY (y) Definition 2.89. Für die beiden Zufallsvariablen X und Y nennt man den Ausdruck cov(X, Y ) = E{(X − µX )(Y − µY )} die Kovarianz von X und Y . Erwartungswerte von zweidimensionalen Zufallsvariablen sind dabei definiert durch Z∞ Z∞ g(x, y)f (x, y) dxdy E{g(X, Y )} = −∞ −∞ Der Korrelationskoeffizient von X und Y ist definiert durch ρX,Y cov(X, Y ) = ρ(X, Y ) = p D2 (X)D2 (Y ) E{(X − µX )(Y − µY )} = σX σY 86 2. MATHEMATISCHE METHODEN DER MODELLBILDUNG Beispiel 2.90. Wir betrachten die beiden normierten Zufallsvariablen Y − µY X − µX Ỹ = X̃ = σX σY und definieren für t ∈ R die zusammengesetzte Zufallsvariable Z = tX̃ + Ỹ Der Erwartungswert von Z ist gleich Null und für die Varianz gilt D2 (Z) = E{(tX̃ + Ỹ )2 } = t2 + 2tρX,Y + 1 ≥ 0 Demnach gilt für alle t ∈ R: (t + ρX,Y )2 + (1 − ρ2X,Y ) ≥ 0 Daraus folgt aber für den Korrelationskoeffizienten ρX,Y −1 ≤ ρX,Y ≤ 1 Bemerkung 2.91. Der Korrelationskoeffizient gibt an, wie ähnlich zwei Zufallsvariablen sind: 1) Gilt ρX,Y , so nennt man die beiden Zufallsvariablen X und Y unkorreliert 2) Für |ρX,Y | = 1, so sind X und Y maximal korreliert. 3) Unabhängige Zufallsvariablen sind stets unkorreliert. Die Umkehrung gilt aber nicht! 4) Sind X und Y allerdings normalverteilt, so folgt aus ρX,Y die Unabhängigkeit von X. 5) Sind X und Y unabhängig, so gilt zusätzlich cov(X, Y ) = 0 und D2 (X + Y ) = D2 (X) + D2 (Y ) E(X · Y ) = E(X) · E(Y ) Ist die Wahrscheinlichkeit P (A) eines zufälligen Ereignisses A nicht bekannt, so kann durch ein Zufallsexperiment mit Hilfe der relativen Häufigkeit Hn (A) ein Schätzwert für die Wahrscheinlichkeit P (A) bestimmt werden. Umgekehrt kann man sich fragen, wie weit bei einem Zufallsexperiment mit n unabhängigen Wiederholungen die relative Häufigkeit Hn (A) von einer gegebenen Wahrscheinlichkeit P (A) des Ereignisse (im Mittel) abweicht. Diese Fragen werden durch das Gesetz der großen Zahlen und die Grenzwertsätze der Wahrscheinlichkeitstheorie beantwortet. Wir formulieren hier nun die beiden grundlegenden Sätze, nämlich das Bernoullisches Gesetz der großen Zahlen (siehe 2.92) und den zentralen Grenzwertsatz (siehe 2.93) Satz 2.92. Ist X1 , X2 , . . . eine Folge von unabhängigen, identisch verteilter Zufallsvariablen mit P (Xn = 1) = p, P (Xn = 0) = 1 − p (0 < p < 1) so gilt für alle ε > 0 ) ( n 1 X X k − p < ε = 1 lim P n→∞ n k=1 3. STOCHASTISCHE PROZESSE 87 Satz 2.93. X1 , X2 , . . . sei eine Folge unabhängiger, identisch verteilter Zufallsvariablen mit dann gilt mit Sn = n P k=1 E(Xn ) = m < ∞ D2 (Xn ) = d2 < ∞ Xk für jedes x ∈ R lim P n→∞ Sn − nm √ ≤x nd 1 =√ 2π Zx −∞ 2 y exp − dy 2 3.3. Grundlagen stochastischer Prozesse. Stochastische Prozesse sind kurzgesagt Familien von Zufallsvariablen X(t), die durch einen Parameter t ∈ T gekennzeichnet sind, wobei man T auch als Parameterraum des stochastischen Prozesses bezeichnet. Ausgangspunkt ist dabei ein Wahrscheinlichkeitsraum (Ω, B, P ). Der Parameter t übernimmt die Rolle einer Zeitvariablen und wir unterscheiden dabei grundsätzlich zwischen diskreten und kontinuierlichen stochastischen Prozessen. 1) Diskrete stochastische Prozesse sind solche, bei denen der Indexparameter t nur diskrete Werte annehmen kann 2) Kontinuierliche stochastische Prozesse sind durch eine kontinuierliche Zeitvariable t ∈ R parametrisiert. Ein stochastischer Prozess ist also zusammenfassend durch zwei Parameter induziert: 1) Zu jedem festen Zeitpunkt t0 ∈ T ist Xt0 (ξ) = X(t0 , ξ) eine Zufallsvariable, also Xt0 : Ω → R ξ 7→ Xt0 (ξ) 2) Wird das Ereignis ξ ∈ Ω festgehalten und betrachtet die Abhängigkeit von der Zeit t ∈ T , so nennt man die Zeitfunktion X(t, ξ0 ) eine Realisierung oder Pfad des Prozesses. Man spricht auch von der sogenannten Musterfunktion. Im Allgemeinen ist die Anzahl aller möglichen Pfade eines stochastischen Prozesses (überabzählbar) unendlich groß. Ein klassisches Beispiel für einen stochastischen Prozess ist ein sogenannte Warteschlange: zu zufälligen Zeitpunkten treffen Kunden vor einem Schalter ein und fordern eine Bedienung, die eine bestimmte zufällige Abfertigungszeit erfordert. Eine solche Warteschlange kann nun durch einen stochastischen Prozess X(t), der die Anzahl der zur Zeit t wartenden Kunden angibt, mathematisch modelliert werden. Die Theorie der Warteschlangen, d.h. die Beschreibung mit Hilfe eines stochastischen Prozesses, stellt damit eine Methode bereit, um wichtige Kenngrößen, wie z.B. die mittlere Wartezeit eines Kunden oder den Auslastungsgrad des Schalters, zu ermitteln. Ein typische Anwendung der Theorie der Warteschlangen findet man in der Informatik: bei einem Betriebssystem eines Computers kann der Zugriff auf den Prozessor durch ein Warteschlangensystem beschrieben werden. Aus den theoretischen Analysen des Modells kann der mittlere Durchsatz und die mittlere Wartezeit berechnet werden.