Wahrscheinlichkeitstheorie für die Fachrichtung Elektroingenieurwesen WS 2009/10 Peer Christian Kunstmann Karlsruher Institut für Technologie (KIT) Institut für Analysis Kaiserstraße 89, 76128 Karlsruhe e-mail: [email protected] Dies ist ein Vorlesungsabriss, gedacht zur Vorlesungsbegleitung und als Gedächtnisstütze, nicht jedoch als etwas, das für sich selbst stehen könnte (wie etwa ein Lehrbuch). Der Besuch der Vorlesung ist durch die Lektüre keinesfalls zu ersetzen, es gibt dort noch viel mehr an mündlichen Erklärungen, Erläuterungen und Skizzen, die für Verständnis und Einordnung unabdingbar sind. 1 1 Einführung Die Vorlesung orientiert sich an dem Buch F. Jondral, A. Wiesler: Wahrscheinlichkeitsrechnung und stochastische Prozesse, Teubner Verlag, 2. Aufl. 2002, wobei jedoch verschiedenes umgebaut werden muss und nicht alles behandelt werden kann. Erwähnen möchte ich aber auch N. Henze: Stochastik für Einsteiger, Vieweg, in dem grundlegende Ideen ausführlich und zugänglich dargestellt werden. Mathematische Modelle: Was ist Zufall? Was ist Wahrscheinlichkeit? Je länger man darüber nachdenkt, desto weniger weiß man es. Der umgangssprachliche Gebrauch des Wortes “wahrscheinlich” gibt keinen Hinweis darauf, wie Wahrscheinlichkeit zu messen wäre. Wahrscheinlichkeit ist auch keine physikalische Größe wie etwa Stromstärke oder Spannung. Berechnen lassen sich bestimmte Wahrscheinlichkeiten nur innerhalb eines mathematischen Modells. Außerhalb von mathematischen Modellen werden wir nicht über “Wahrscheinlichkeit” reden, bei der Aufstellung eines mathematischen Modells ist jedoch darauf zu achten, dass die Modellannahmen plausibel sind. Der Sinn dieser Worte wird sich hoffentlich im Laufe dieser Vorlesung erschließen. 2 Der Wahrscheinlichkeitsraum Unter einem Zufallsexperiment verstehen wir einen Versuch, dessen Ausgang im Bereich gewisser bekannter Möglichkeiten liegt, aber ungewiss ist, und der unter bestimmten Rahmenbedingungen (zumindest prinzipiell) beliebig oft wiederholbar ist. Beispiele: Werfen einer Münze; Würfeln; Warten an einer Straße auf das erste vorbeifahrende Auto; Ziehung der Lotto-Zahlen. 2.1 Definition: Ein endlicher Ergebnisraum ist eine nicht-leere endliche Menge Ω = {ξ1 , ξ2 , . . . , ξN }. Die Elemente ξj ∈ Ω heißen Ergebnisse, eine einelementige Teilmenge {ξj } ⊂ Ω heißt Elementarereignis. Jede Teilmenge A ⊂ Ω heißt Ereignis. Ω und die leere Menge ∅ sind Ereignisse, wobei Ω das sichere und ∅ das unmögliche Ereignis heißen. Beispiele: (a) Münzwurf: Ω = {Kopf, Zahl} oder Ω = {0, 1}, wobei 0=Kopf, ˆ 1=Zahl, ˆ |Ω| = Mächtigkeit von Ω = Anzahl der Elemente von Ω = 2. (b) Würfeln: Ω = {1, 2, 3, 4, 5, 6}, hier |Ω| = 6; {1} ist Elementarereignis, ein Ereignis ist z.B. A = {die gewürfelte Augenzahl ist gerade} = {2, 4, 6}. (c) n-maliges Werfen einer Münze, wobei n natürliche Zahl: Ω = {(x1 , x2 , . . . , xn ) : xj ∈ {0, 1} für jedes j ∈ {1, 2, . . . , n} }, 2 hier gilt |Ω| = 2n , da es für jede der n Stellen je zwei Möglichkeiten gibt. Etwa n = 3: A = {es fällt nie Kopf} = {(1, 1, 1)} Elementarereignis, B = {es fällt genau einmal Zahl} = {(1, 0, 0), (0, 1, 0), (0, 0, 1)}. (d) Ist Ω = {ξ1 , ξ2 , . . . , ξN } endlicher Ergebnisraum mit |Ω| = N , so gibt es genau 2N Ereignisse. Für die Potenzmenge P(Ω) := {A : A ⊂ Ω} gilt also |P(Ω)| = 2N . 2.2 Rechnen mit Ereignissen, dh Rechnen mit Mengen Sei Ω eine Menge und A, B ⊂ Ω. Dann A∩B A∪B A\B A := Ac := := := := AB := {ξ ∈ Ω : ξ ∈ A und ξ ∈ B} Durchschnitt {ξ ∈ Ω : ξ ∈ A oder ξ ∈ B} Vereinigung A − B := {ξ ∈ Ω : ξ ∈ A und ξ 6∈ B} Differenz {ξ ∈ Ω : ξ 6∈ A} Komplement, Negation, entgegengesetztes Ereignis Bemerkung: A \ B = A ∩ B = A \ (A ∩ B). Es gelten folgende Regeln: Kommutativität von ∪/∩: A ∪ B = B ∪ A, A ∩ B = B ∩ A, Assoziativität von ∪/∩: A ∪ (B ∪ C) = (A ∪ B) ∪ C = A ∪ B ∪ C, A ∩ (B ∩ C) = (A ∩ B) ∩ C = A ∩ B ∩ C, Distributivgesetze: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C), A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C). Außerdem: A ∪ A = A, A ∪ Ω = Ω, A ∪ ∅ = A, A ∩ A = A, A ∩ Ω = A, A ∩ ∅ = ∅. Definition: Sind A, B Ereignisse mit A ∩ B = ∅, so heißen A und B disjunkt oder unvereinbar. De Morgansche Regeln: A ∪ B = A ∩ B, A ∩ B = A ∪ B. Allgemeiner: Ist T = 6 ∅ eine Menge und ist für jedes t ∈ T ein Ereignis At ⊂ Ω gegeben, so setzt man: [ At := {ξ ∈ Ω : es gibt ein t ∈ T mit ξ ∈ At }, t∈T \ t∈T Es gilt dann: S t∈T At = At := {ξ ∈ Ω : für alle t ∈ T gilt ξ ∈ At }. T t∈T At , T t∈T At = S t∈T At . 2.3 Relative Häufigkeit Definition: Tritt bei N unabhängigen Wiederholungen des durch Ω beschriebenen Zufallsexperiments das Ereignis A ⊂ Ω genau hN (A)-mal ein, so heißt hN (A) die absolute Häufigkeit und hN (A) HN (A) := N 3 die relative Häufigkeit von A in N Versuchen. Beispiel: Ein Würfel wird N = 100 mal geworfen mit k 1 2 3 4 5 6 hN ({k}) 13 20 11 19 21 16 HN ({K}) 0.13 0.2 0.11 0.19 0.21 0.16. Für A = {gerade Augenzahl} = {2, 4, 6} gilt hN (A) = 55, HN (A) = 0.55. Bemerkung: Offenbar hat die relative Häufigkeit HN stets folgende Eigenschaften: (1) Für alle A ⊂ Ω: 0 ≤ HN (A) ≤ 1; (2) HN (Ω) = 1; (3) Für alle A, B ⊂ Ω mit A ∩ B = ∅: HN (A ∪ B) = HN (A) + HN (B). Folgerung: Es gelten auch: (4) Für alle A ⊂ Ω: HN (A) = 1 − HN (A); (5) Für alle A, B ⊂ Ω: HN (A ∪ B) = HN (A) + HN (B) − HN (A ∩ B). Beweis für (5): A B A∩B B\A Wegen A ∪ B = A + (B \ A) = A + (B \ (A ∩ B)) und B = (B \ (A ∩ B)) + (A ∩ B) (+: disjunkte Vereinigung) gilt nach (3) HN (A ∪ B) = HN (A) + HN (B \ (A ∩ B)), HN (B) = HN (B \ (A ∩ B)) + HN (A ∩ B), woraus unmittelbar (5) folgt. 2.4 Wahrscheinlichkeit im Laplace-Experiment Definition: Sei Ω ein endlicher Ergebnisraum. Für jedes A ⊂ Ω ist P (A) := |A| Anzahl Elementarereignisse in A = |Ω| Gesamtzahl der Elementarereignisse die Wahrscheinlichkeit des Ereignisses A. 4 Interpretation: Jedes Elementarereignis {ξ} ⊂ Ω ist gleich wahrscheinlich. Bemerkung: Ist |Ω| = N , so entspricht P der relativen Häufigkeit HN , wenn in N Versuchen jedes Elementarereignis genau einmal auftritt. Die Eigenschaften (1), (2), (3) und auch (4), (5) aus 2.3 gelten also auch für P statt HN . Beispiele: (a) Laplace-Würfel, Ω = {1, 2, 3, 4, 5, 6}. Für A = {2, 4, 6} gilt etwa P (A) = |A| = 63 = 0.5. |Ω| (b) Zweimaliges Würfeln. Ende Nicht immer ist es sinnvoll, alle Elementarereignisse als gleich wahrscheinlich anzunehmen: Woche 1 e = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Beispiel: (c) Augensumme beim Werfen zweier Würfel, Ω Vergleicht man mit Beispiel (b), so sieht man Summe 2={(1, ˆ 1)}, Summe 3={(1, ˆ 2), (2, 1)}, Summe 4={(1, ˆ 3), (2, 2), (3, 1)} etc. Somit sollte hier sein: P ({2}) = P ({j}) = j−1 36 13−j 36 1 , 36 P ({3}) = für j ∈ {2, 3, . . . , 7} für j ∈ {8, 9, . . . , 12} 2 36 = 1 , 18 P ({4}) = bzw. P ({j}) = 3 36 = 1 12 etc. Also 6 − |7 − j| e für j ∈ Ω. 36 2.5 Kolmogoroff-Axiome für endliche Ergebnisräume Definition: Sei Ω ein endlicher Ergebnisraum. Eine Funktion P : P(Ω) → R, die jedem Ereignis A ⊂ Ω eine reelle Zahl P (A) zuordnet, heißt Wahrscheinlichkeitsmaß, falls gilt: (1) Für alle A ⊂ Ω: 0 ≤ P (A) ≤ 1; (2) P (Ω) = 1; (3) Für alle disjunkten A, B ⊂ Ω: P (A ∪ B) = P (A) + P (B). Bemerkung: Ist P ein Wahrscheinlichkeitsmaß, so gilt auch: (4) Für alle A ⊂ Ω: P (A) = 1 − P (A); (5) Für alle A, B ⊂ Ω: P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Bemerkung: Ist Ω = {ξ1 , ξ2 , . . . , ξN } und |Ω| = N , so ist die Funktion P durch Angabe der Wahrscheinlichkeit der Elementarereignisse pj := P ({ξj }) für j = 1, 2, . . . , N eindeutig festgelegt. Gibt man die pj für j = 1, 2, . . . , N an, so gehört zu diesen genau dann ein Wahrscheinlichkeitsmaß auf Ω, wenn pj ≥ 0 für alle j ∈ {1, 2, . . . , N } und p1 +p2 +. . .+pN = 1 gilt. Beispiel: Werfen einer Münze, bis das erste Mal “Kopf” auftritt, höchstens jedoch viermal: Ω = {K, ZK, ZZK, ZZZK, ZZZZ}, wobei Z =“Zahl”, ˆ K =“Kopf”, ˆ bzw. mit “Zahl”=1, ˆ 5 “Kopf”=0: ˆ Ω = {0, (1, 0), (1, 1, 0), (1, 1, 1, 0), (1, 1, 1, 1)}. Hier ist (bei einer idealen Münze) plausibel: 1 1 1 P ({0}) = , P ({(1, 0)}) = , P ({(1, 1, 0)}) = 2 4 8 1 1 P ({(1, 1, 1, 0)}) = , P ({(1, 1, 1, 1)}) = . 16 16 Die Summe der angegebenen Werte ist = 1, also ist dadurch ein Wahrscheinlichkeitsmaß festgelegt. 2.6 Unendliche Ergebnisräume Beispiel: Werfen einer Münze, bis das erste Mal “Kopf” auftritt. Ω = {K, ZK, ZZK, ZZZK, ZZZZK, . . .} = {ωj : j ∈ N}, wobei ωj := ZZ · · · Z} K für j ∈ N. | {z (j−1)−mal Die Menge Ω ist nicht endlich, aber Ω ist abzählbar, dh die Elemente von Ω können vollständig mit natürlichen Zahlen durchnummeriert werden. In Fortführung des Beispiels in 2.5 liegt es nahe zu setzen: pj = P ({ωj }) = 1 2j für jedes j ∈ N. Ist die “Summe über alle pj ” gleich 1? Definition: Sei a1 , a2 , . . . eine Folge von Zahlen aj ≥ 0. Dann setzen wir ∞ X j=1 Hierbei ist Pn j=1 n X aj := sup{ aj : n ∈ N} ∈ [0, ∞]. j=1 aj = a1 + a2 + . . . + a n . Im Beispiel gilt für jedes n ∈ N: n X pj = p1 + p2 + . . . + pn = j=1 1 1 1 1 1 + + + . . . + n = 1 − n ≤ 1. 2 4 8 2 2 Andererseits wird die Differenz zu 1 beliebig klein, dh es gilt P∞ j=1 pj = 1. Definition: Die Ereignisse A1 , A2 , A3 , . . . heißen paarweise disjunkt, falls Aj ∩ Ak = ∅ für alle j 6= k gilt. In diesem Fall schreiben wir die Vereinigung ∞ [ j=1 Gilt P∞ j=1 Aj := [ Aj auch als ∞ X Aj . j=1 j∈N Aj = Ω, so heißt die Folge (Aj )j∈N vollständige Ereignisdisjunktion. 6 Im Beispiel ist eine vollständige Ereignisdisjunktion gegeben durch Aj := {ωj } = {ZZ · · · Z} K} für j ∈ N. | {z (j−1)−mal Definition: Eine unendliche Menge, die nicht abzählbar ist, heißt überabzählbar. Beispiel: Die Menge R der reellen Zahlen ist überabzählbar. 2.7 Kolmogoroff-Axiome für abzählbare Ergebnisräume Definition: Sei Ω ein abzählbarer Ergebnisraum. Eine Funktion P : P(Ω) → R, die jedem Ereignis A ⊂ Ω eine reelle Zahl P (A) zuordnet, heißt Wahrscheinlichkeitsmaß auf P(Ω), falls gilt: (1) Für alle A ⊂ Ω: 0 ≤ P (A) ≤ 1; (2) P (Ω) = 1; (3) Für jede Folge (Aj )j∈N paarweise disjunkter Ereignisse Aj ⊂ Ω gilt: ∞ ∞ X X P( Aj ) = P (Aj ). j=1 j=1 Bemerkung: Diese Definition umfasst die Definition in 2.5. Auch hier gelten die Eigenschaften (4) und (5) aus 2.5. Beispiel: Im Beispiel aus 2.6 definiert X P (A) := j mit ωj 1 2j ∈A ein Wahrscheinlichkeitsmaß auf P(Ω). 2.8 Definition: Ein abzählbarer Wahrscheinlichkeitsraum ist ein abzählbarer Ergebnisraum Ω versehen mit einem Wahrscheinlichkeitsmaß P auf P(Ω). 3 Kombinatorik Die Kombinatorik beschäftigt sich mit dem “Abzählen endlicher Mengen”. Dies ist insbesondere für die Bestimmung von Wahrscheinlichkeiten im Laplace-Experiment von Bedeutung. Wir betrachten eine endliche Menge M mit |M | = N ∈ N, es sei k ∈ N0 . 3.1 Anzahl der k-Tupel mit Elementen aus M (für k ≥ 1): Für die Menge {(x1 , x2 , . . . , xk ) : xj ∈ M für jedes j ∈ {1, 2, . . . , k} } = M × . . . × M} =: M k | × M {z k−mal 7 gilt |M k | = N k . 3.2 Permutationen: Für die Elemente von M hat man N ! = 1 · 2 · . . . · N Anordnungsmöglichkeiten, dh mögliche Reihenfolgen. 3.3 Anzahl der k-Tupel mit Elementen aus M , in denen alle Einträge verschieden sind (“Variationen”): Hier gibt es für 1 ≤ k ≤ N genau N · (N − 1) · . . . · ! (N − k + 1) = (NN−k)! Möglichkeiten. 3.4 Anzahl der k-elementigen Teilmengen von M (“Kombinationen”): Für 0 ≤ N N! k ≤ N gibt es genau k := k! (N −k)! Teilmengen von M , die genau k Elemente haben. Nk heißt Binomialkoeffizient. 3.5 Beispiele: (a) Ein Byte hat 8 Bit (Wert 0 oder 1); es gibt 28 = 256 verschiedene Bytes (3.1). (b) Man kann die 7 Spieler einer Handballmannschaft auf 7! = 5040 Arten in einer Reihe aufstellen (3.2). = 3432 Arten in zwei Handballmannschaften einteilen (c) Man kann 14 Spieler auf 14 7 (3.4). (d) Will man unter 7 Teilnehmern Gold-, Silber- und Bronzemedaille verteilen, so gibt es 7! = 7! = 7 · 6 · 5 = 210 Möglichkeiten (3.3). dafür (7−3)! 4! (e)Will 5 rote, 3 gelbe und 2 grüne Kugeln hintereinander anordnen, so gibt es dafür man 10 5 10! = 5!3!2! = 2520 Möglichkeiten (3.4). Für k1 + k2 + . . . + kl = N mit kj ∈ N0 heißt Ende 3 5 Woche 2 N! N := k1 !k2 ! · · · kl ! k1 , k2 , ..., kl Multinomialkoeffizient. (f) Wahrscheinlichkeit für sechs Richtige im Lotto: 1/ 4 49 6 = 1/13983816 ∼ 1/14Mio. Bedingte Wahrscheinlichkeit und Unabhängigkeit 4.1 Def: Sei (Ω, P ) ein abzählbarer Wahrscheinlichkeitsraum, A, B ⊂ Ω und P (B) > 0. Dann heißt P (A ∩ B) P (A|B) := P (B) die bedingte Wahrscheinlichkeit von A unter der Bedingung B. 4.2 Beispiel: Zweimaliger Münzwurf: Wie groß ist die Wahrscheinlichkeit, zweimal Kopf zu werfen unter der Bedingung, 8 (a) dass der erste Wurf Kopf=0 ˆ ist? Es ist Ω = {0, 1}2 , A = {(0, 0)}, B = {(0, 0), (0, 1)}, 1/4 1 1 = 12 . P (A) = 4 , P (B) = 2 , P (A|B) = 1/2 (b) dass mindestens einmal Kopf fällt? Hier ist B = {(0, 0), (0, 1), (1, 0)}, P (B) = P (A|B) = 13 . 3 4 und 4.3 Bemerkungen: (a) Die Funktion A 7→ P (A|B) ist ein Wahrscheinlichkeitsmaß auf Ω (und auch auf B) (leicht). (b) Multiplikationsregel für Wahrscheinlichkeiten: P (A ∩ B) = P (B)P (A|B) = P (A)P (B|A). Entsprechendes gilt für n Ereignisse A1 , A2 , . . . , An ⊂ Ω: P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ∩ A2 ∩ . . . ∩ An−1 )P (An |A1 ∩ . . . ∩ An−1 ) = P (A1 ∩ . . . ∩ An−2 )P (An−1 |A1 ∩ . . . ∩ An−2 )P (An |A1 ∩ . . . ∩ An−1 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ . . . ∩ An−1 ). 4.4 Satz: Die Ereignisse A1 , A2 , . . . , An seien eine vollständige Ereignisdisjunktion und es gelte P (Aj ) > 0 für jedes j ∈ {1, 2, . . . , n}. Dann gilt für jedes B ⊂ Ω die Formel von der totalen Wahrscheinlichkeit n X P (B) = P (B|Aj )P (Aj ) j=1 und, falls P (B) > 0 ist, die Formel von Bayes P (B|Ak )P (Ak ) P (Ak |B) = Pn j=1 P (B|Aj )P (Aj ) für jedes k = 1, 2, . . . , n. P P Beweis: B = nj=1 B ∩ Aj , also P (B) = nj=1 P (B ∩ Aj ), verwende nun 4.3(b). In der zweiten Formel steht oben P (Ak ∩ B) und unten P (B). 4.5 Definition: Zwei Ereignisse A, B ⊂ Ω heißen (stochastisch) unabhängig, falls gilt P (A ∩ B) = P (A)P (B). 4.6 Bemerkung: Sind A, B Ereignisse mit P (B) > 0, so gilt: A, B unabhängig ⇐⇒ P (A) = P (A|B). 4.7 Beispiele: (a) In 4.2(a), 4.2(b) sind A, B nicht unabhängig. 9 (b) Zweimaliger Münzwurf: A = {erster Wurf ist Kopf} = {(0, 0), (0, 1)}, B = {zweiter Wurf ist Kopf} = {(0, 0), (1, 0)}, A ∩ B = {(0, 0)}, P (A) = P (B) = 12 , P (A ∩ B) = 41 ; A, B sind unabhängig. (c) Sechsmaliger Münzwurf: A = {sechster Wurf ist Kopf}, P (A ∩ B) = 1 , 64 P (A) = 12 , P (B) = 1 ; 32 B = {die ersten fünf Würfe sind Kopf}, A, B sind unabhängig, P (A) = P (A|B). 4.8 Binomialverteilung Von einem Zufallsexperiment mit zwei Ausgängen 0 (“Niete”) und 1 (“Treffer”) werden N unabhängige Versuche durchgeführt. Die Wahrscheinlichkeit eines Treffers sei p ∈ (0, 1). Wir interessieren uns für die Trefferanzahl in den N Versuchen und setzen Ω = {0, 1, 2, . . . , N }. Es ist dann N k p (1 − p)N −k P ({k}) = k für jedes k ∈ Ω. Dieses P heißt Binomialverteilung auf Ω mit Parametern N und p. Beachte: Nach dem Binomialsatz (→HM I) gilt N X N k=0 k pk (1 − p)N −k = (p + (1 − p))N = 1N = 1. 4.9 Definition: Die Ereignisse A1 , A2 , . . . , An ⊂ Ω heißen unabhängig, falls für je k verschiedene Indizes i1 , i2 , . . . , ik ∈ {1, 2, . . . , n} gilt P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai1 )P (Ai2 ) · . . . · P (Aik ). Hierbei kann k die Werte 2, 3, . . . , n annehmen. 4.10 Beispiele: (a) Wirft man eine Münze n-mal und setzt Aj = {im j-ten Wurf fällt Kopf}, so sind A1 , A2 , . . . , An unabhängig: Es ist nämlich P (Aj ) = 21 für jedes j, und für k verschiedene Indizes i1 , . . . , ik ist 1 2n−k P (Ai1 ∩ . . . ∩ Aik ) = n = k = P (Ai1 ) · . . . · P (Aik ). 2 2 (b) Zweimaliger Münzwurf: A = {beide Würfe sind gleich} = {(0, 0), (1, 1)}, B = {erster Wurf ist Kopf} = {(0, 0), (0, 1)}, C = {zweiter Wurf ist Kopf} = {(0, 0), (1, 0)}. Dann A ∩ B = A ∩ C = B ∩ C = {(0, 0)} und P (A) = P (B) = P (C) = 21 , P (A ∩ B) = 14 . Also sind A, B unabhängig, A, C sind unabhängig und B, C sind unabhängig, aber A, B, C sind nicht unabhängig. Ende Woche 3 10 5 Zufallsvariablen 5.1 Motivation: Wir haben schon Situationen kennengelernt, in denen eine “Reduktion” oder “Zusammenfassung” von Ergebnissen auftrat, z.B. Werfen zweier Würfel Augensumme e = {2, 3, 4, . . . , 12}. Ω = {(j, k) : j, k ∈ {1, 2, 3, 4, 5, 6} } ∼> Ω Formal sollte man hier mit Abbildungen arbeiten, in obigem Beispiel etwa mit der Abbildung e (j, k) 7→ j + k; Ω → Ω, e hatten wir als P ({(j, k) : j + k ∈ A}) die Wahrscheinlichkeit eines Ereignisses A ⊂ Ω bestimmt, wobei P das Wahrscheinlichkeitsmaß auf Ω war. Besonders interessant sind Abbildungen X : Ω → R mit reellen Werten, da man mit diesen Werten rechnen kann. Dabei betrachtet man in der Regel Ereignisse wie X −1 ((a, b]) = {ω ∈ Ω : X(ω) ∈ (a, b]} = {ω ∈ Ω : a < X(ω) ≤ b} =: {X ∈ (a, b]}. Beschränkt man sich auf solche Ereignisse, kann man in der Regel nicht allen Teilmengen A ⊂ Ω eine Wahrscheinlichkeit P (A) zuzuordnen. 5.2 Definition (σ-Algebren): Ist Ω ein beliebiger Ergebnisraum, so heißt ein System A ⊂ P(Ω) eine σ-Algebra (über Ω), falls gilt: (i) Ω ∈ A; (ii) Für alle A ⊂ Ω gilt: A ∈ A ⇒ A ∈ A; S (iii) Gilt Aj ∈ A für j = 1, 2, 3, . . ., so gilt auch ∞ j=1 Aj ∈ A. Beispiele: (a) P(Ω) und {∅, Ω} sind σ-Algebren über Ω. Für jede σ-Algebra A gilt {∅, Ω} ⊂ A ⊂ P(Ω). (b) Würfeln Ω = {1, 2, 3, 4, 5, 6}; A = {∅, {1} , {2, 3, 4, 5, 6} , Ω} {z } |{z} | “Eins” “nicht Eins” ist σ-Algebra über Ω. Man sieht hier, dass auch dies eine “Zusammenfassung” von Ergebnissen bedeutet. 5.3 Bemerkung: Sei A eine σ-Algebra über Ω. (a) Wegen de Morgan und (ii), (iii) gilt auch Aj ∈ A für j = 1, 2, 3, . . . =⇒ 11 ∞ \ j=1 Aj ∈ A. (b) Wegen (i), (ii) gilt: ∅ ∈ A. (c) Sind Aj ∈ A für j = 1, 2, 3, . . ., so gibt es paarweise disjunkte Bk ∈ A, k = 1, 2, 3, . . . mit ∞ ∞ ∞ [ [ X Aj = Bk = Bk (→ Def.2.6). j=1 k=1 k=1 Sk−1 Setze etwa B1 = A1 , Bk = Ak \ ( j=1 Aj ) für k ≥ 2. Sn Tn (d) A1 , A2 , . . . , An ∈ A =⇒ j=1 Aj , j=1 Aj ∈ A. 5.4 Definition (Kolmogoroff für allgemeine Wahrscheinlichkeitsräume): Sei Ω ein beliebiger Ergebnisraum und A eine σ-Algebra über Ω [A enthält die Ereignisse, deren Wahrscheinlichkeit wir messen wollen]. Eine Funktion P : A → R, die jedem Ereignis A ∈ A eine reelle Zahl P (A) zuordnet, heißt Wahrscheinlichkeitsmaß auf A, falls gilt: (1) Für alle A ∈ A: 0 ≤ P (A) ≤ 1; (2) P (Ω) = 1; (3)PFür jede Folge P∞ (Aj )j∈N paarweise disjunkter Ereignisse Aj ∈ A gilt: P( ∞ A ) = j=1 j j=1 P (Aj ). In diesem Fall heißt (Ω, A, P ) Wahrscheinlichkeitsraum. Bemerkung: Für den Fall Ω abzählbar, A = P(Ω) erhalten wir die Definition 2.7. 5.5 Erzeugte σ-Algebra Häufig gibt man das Wahrscheinlichkeitsmaß nicht auf ganz A an. Definition: Ist Ω beliebiger Ergebnisraum und C ⊂ P(Ω), so gibt es eine kleinste σAlgebra, die C enthält, dh mit σ(C) ⊂ P(Ω) mit C ⊂ σ(C). Diese heißt die von C erzeugte σ-Algebra. Es gilt: \ B. σ(C) = B⊂P(Ω) ist σ-Algebra mit C⊂B Beispiele: (a) Die von {Ω} erzeugte σ-Algebra ist {∅, Ω}. (b) In 5.2(b) ist σ({1}) = A. (c) Die von den Intervallen in R erzeugte σ-Algebra heißt Borelsche σ-Algebra B. B wird auch erzeugt von den Intervallen (a, b] mit a, b ∈ R, dh von C = {(a, b] : a, b ∈ R}, oder auch von C = {(−∞, a] : a ∈ R}. 5.6 Definition: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine Zufallsvariable ist eine Abbildung X : Ω → R mit X −1 ((−∞, a]) ∈ A für alle a ∈ R. 12 Wir schreiben P (X ≤ a) für P ({ω ∈ Ω : X(ω) ≤ a}) [entsprechend für “>”, “=” etc] und P (X ∈ B) für P ({ω ∈ Ω : X(ω) ∈ B}). Eine Zufallsvariable heißt diskret, falls sie nur endlich oder abzählbar viele Werte annimmt. Bemerkung: Der Wahrscheinlichkeitsraum (Ω, A, P ) wird häufig nicht genauer spezifiziert oder gar nicht erst angegeben. Beispiel: Eine Zufallsvariable X heißt binomialverteilt mit Parametern N ∈ N und p ∈ (0, 1), falls für jedes k ∈ {0, 1, 2, . . . , N } gilt: N k P (X = k) = p (1 − p)N −k (vgl. mit 4.8). k 5.7 Definition: Sei X eine diskrete Zufallsvariable Pmit Wertebereich {xj : j ∈ I}, wobei I endlich oder I = N und xj 6= xk für j 6= k. Falls j∈I |xj | P (X = xj ) < ∞ ist, so heißt X E(X) := xj P (X = xj ) j∈I der Erwartungswert von X und Var(X) := E(X − E(X))2 = heißt die Varianz von X. Die Größe D(X) := X (xj − E(X))2 P (X = xj ) j∈I p Var(X) heißt Standardabweichung der Zufallsvariable X. Statt Var(X) schreiben wir auch D2 (X). P Bemerkung: Die Voraussetzung j |xj | P (X = xj ) < ∞ sorgt im Falle I = N dafür, dass die Reihe in der Definition von E(X) (absolut) konvergiert, wobei es auf die Reihenfolge der Summanden nicht ankommt (→ HM). Im Fall I = N ist es möglich, dass Var(X) = ∞ gilt. Dann ist auch D(X) = ∞. Bemerkung: Der Erwartungswert E(X) gibt an, was man “im Mittel” erwarten kann, dh E(X) ist so etwas wie ein Mittelwert der Zufallsvariable X. Die Größen Var(X) und D(X) sind Maße für die “mittlere” (dh gemittelte) Abweichung der Zufallsvariable X vom Mittelwert E(X). Es gilt D2 (X) = E(X 2 ) − (E(X))2 . 5.8 Satz: Sei X eine diskrete Zufallsvariable mit Wertebereich {xj : j ∈ I} wie in 5.7. Ist f : {xP j : j ∈ I} → R eine Funktion, so ist auch f (X) eine diskrete Zufallsvariable, und im Falle j∈I |f (xj )| P (X = xj ) < ∞ gilt X E(f (X)) = f (xj ) P (X = xj ). j∈I 13 (ohne Beweis) 5.9 Beispiele: (a) Sei X binomialverteilt mit Parametern N und p (vgl. 4.8: X beschreibt die Trefferanzahl bei N unabhängigen Wiederholungen eines Zufallsexperiments, bei dem die Trefferwahrscheinlichkeit p ∈ (0, 1) ist). Der Erwartungswert E(X) beschreibt die “durchschnittlich zu erwartende Trefferanzahl in N Versuchen”, indem jede mögliche Trefferzahl mit der entsprechenden Wahrscheinlichkeit gewichtet wird: E(X) = N X k P (X = k) k=0 N X mit k − 1 = j N = k pk (1 − p)N −k k k=1 | {z } −1 =N (N k−1 ) N X N − 1 k−1 p (1 − p)N −1−(k−1) = Np k − 1 k=1 N −1 X N −1 j = Np p (1 − p)N −1−j j j=0 = N p. Ende (b) Würfeln (Laplace-Würfel): Von den beiden Personen A und B erhalte A von B 2 Euro Woche 4 bei Augenzahl 1 oder 2 und B erhalte 1 Euro von A bei Augenzahl 3, 4, 5 oder 6. Ist das Spiel fair? (Wir gehen davon aus, dass öfter gespielt wird.) Die Zufallsvariable X gebe den Gewinn/Verlust von Spieler A an: 1 P (X = 2) = , 3 2 P (X = −1) = . 3 Es ist 2 2 − = 0, 3 3 also haben wir “im Mittel” ein “Nullsummenspiel”, dh das Spiel ist fair. E(X) = 2 P (X = 2) + (−1) P (X = −1) = (c) Münzwurf (ideale Münze): bei “Kopf” erhalte A q Euro von B, bei “Zahl” erhalte B q Euro von A. Gibt X den Gewinn/Verlust von Spieler A an, so gilt 1 P (X = q) = , 2 1 P (X = −q) = , 2 E(X) = 0 (klar), aber die “mittlere Abweichung” von E(X) hängt von q ab: D2 (X) = E(X − E(X))2 = E(X 2 ) = q 2 P (X = q) + q 2 P (X = −q) = q 2 . 14 Ist D2 (X) groß, so muss man größere Schwankungen um den Mittelwert E(X) erwarten. (d) Sei X binomialverteilt mit Parametern N und p. Dann ist E(X) = N p nach (a) und D2 (X) = E(X 2 ) − (E(X))2 , wobei N X 2 2 N E(X ) = k pk (1 − p)N −k k k=0 N −1 X N −1 j p (1 − p)N −1−j wie in (a) = Np (j + 1) j j=0 −1 N −1 hN i X X N −1 j N −1 j N −1−j = Np j p (1 − p) + p (1 − p)N −1−j j j j=0 j=0 = N p[(N − 1)p + 1]. Also ist D2 (X) = N p − N p2 = N p(1 − p). (e) Eine Zufallsvariable X heißt hypergeometrisch verteilt mit Parametern n, M , N − M (wobei n ≤ min(M, N − M )), falls gilt M N −M P (X = k) = k n−k N n für k = 0, 1, . . . , n. Z.B. Anzahl der Richtigen beim Lotto “6 aus 49”: hier ist n = 6, N = 49, M = 6 Richtige, (6)( 43 ) N − M “Falsche”. Die Wahrscheinlichkeit für k Richtige ist k 496−k . (6) nM (N −M )(N −n) M 2 . Im Lotto-Beispiel ist etwa E(X) = 6 · Es gilt E(X) = n N und D (X) = N 2 (N −1) 6 ∼ 0.735 (durchschnittliche Anzahl der Richtigen, wenn etwa immer die gleichen 6 Zahlen 49 gespielt werden und die Ziehungen zufällig mit Laplace-Wahrscheinlichkeit erfolgen). Anmerkung: Es ist M < N . Die Bedingung n ≤ min(M, N − M ) ist nicht unbedingt nötig, wenn man Mk = 0 setzt für k > M etc. Es muss aber n ≤ N gelten, weil man sonst durch 0 dividiert. 5.10 Bemerkung: Ist X eine diskrete Zufallsvariable wie in 5.7/5.8, so heißt die Funktion xj 7→ P (X = xj ) Verteilung von X. Wir haben insbesondere in den Beispielen 5.9(a), (d) und (e) den Wahrscheinlichkeitsraum (Ω, A, P ) nicht direkt angegeben, sondern nur die Verteilungen der Zufallsvariable X. Setzt man pj = P (X = xj ) für j ∈ I, so gilt in der Situation von 5.8: X E(f (X)) = f (xj ) pj . j∈I 5.11 Definition: Ist X eine diskrete Zufallsvariable wie in 5.7, so heißt die Funktion X FX : R → [0, 1], a 7→ P (X ≤ a) = P (X = xj ), j∈I mit xj ≤a 15 die Verteilungsfunktion von X. An den Stellen xj macht FX einen Sprung der Höhe pj = P (X = xj ), dazwischen ist FX konstant. 5.12 Bemerkung: (a) Ist X eine diskrete Zufallsvariable mit Werten xj , j ∈ I, wie in 5.7 und Verteilung pj = P (X = xj ), so gilt für jedes a ∈ R: X FX (a) = pj , j∈I mit xj ≤a (b) Für alle a, b ∈ R mit a < b gilt: 0 ≤ FX (a) ≤ FX (b) ≤ 1, d.h. FX ist monoton wachsend. Liegt kein xj im Intervall (a, b], so gilt FX (x) = FX (a) für alle x ∈ (a, b]. Es gilt P (X ∈ (a, b]) = FX (b) − FX (a). (c) Für jedes b ∈ R gilt P (X < b) = P (X ≤ b) − P (X = b) = FX (b) − P (X = b). 5.13 Rechnen mit Verteilungsfunktionen Sei X eine diskrete Zufallsvariable mit Verteilungsfunktion FX . (a) Y = aX + b, wobei a > 0, b ∈ R. Für y ∈ R gilt FY (y) = P (Y ≤ y) = P (aX + b ≤ y) = P (X ≤ y−b y−b ) = FX ( ). a a (b) Y = aX 3 + b, wobei a > 0, b ∈ R. Beachte, dass R → √ R, x 7→ x3 bijektiv ist, die √ Umkehrabbildung bezeichnen wir hier mit x 7→ 3 x, also z.B. 3 −8 = −2. Für y ∈ R gilt dann r r y − b y − b 3 3 y − b FY (y) = P (Y ≤ y) = P (aX 3 +b ≤ y) = P (X 3 ≤ ) = P (X ≤ ) = FX ( ). a a a (c) Y = |X|. Beachte, dass x 7→ |x| nicht injektiv ist. Für y ∈ R gilt: FY (y) = P (Y ≤ y) = P (|X| ≤ y) = P (−y ≤ X ≤ y). Für y < 0 gilt FY (y) = 0. Für y ≥ 0 gilt FY (y) = P (X ≤ y) − P (X < −y) = FX (y) − FX (−y) + P (X = −y). 16 (d) Y = aX 2 + b, wobei a > 0, b ∈ R. Für y < b ist FY (y) = P (Y ≤ y) = 0. Für y ≥ b gilt r y − b y−b FY (y) = P (Y ≤ y) = P (aX 2 + b ≤ y) = P (X 2 ≤ ) = P (|X| ≤ ) a a r r r y−b y−b y−b = FX ( ) − FX (− ) + P (X = − ), a a a wobei wir (c) verwendet haben. 5.14 Die Gleichverteilung Sei [a, b] ⊂ R. Eine Zufallsvariable X heißt gleichverteilt funktion FX : R → [0, 1] gilt für 0 x−a für FX (x) = P (X ≤ x) = b−a 1 für auf [a, b], falls für die Verteilungsx ≤ a, x ∈ (a, b], x > b. Vorstellung: “Jede Zahl im Intervall ist gleich wahrscheinlich.” T Aber: Ist x ∈ R, so gilt {x} = n∈N (x − n1 , x] und für jedes n ∈ N ist 1 1 , x]) = P (X ≤ x) − P (X ≤ x − ) n n 1 1 1 = FX (x) − FX (x − ) ≤ · , n n b−a 0 ≤ P (X = x) ≤ P (X ∈ (x − also P (X = x) = 0 für jedes x ∈ R. Obige Vorstellung ist also zu präzisieren durch: Für a ≤ c ≤ d ≤ b gilt d−c , b−a d.h. Teilintervalle (c, d] ⊂ (a, b] gleicher Länge haben gleiche Wahrscheinlichkeit. P (X ∈ (c, d]) = Beachte, dass hier P (X ∈ (c, d]) = P (X ∈ [c, d]) = P (X ∈ (c, d)) wegen P (X = c) = P (X = d) = 0. Bemerkung: Eine auf [a, b] gleichverteilte Zufallsvariable ist nicht diskret. Erwartungswert und Varianz solcher Zufallsvariablen werden wir erst später behandeln. Intuitiv ist aber klar, dass E(X) = a+b gelten sollte. 2 Beispiel: “Flaschendrehen”: Hier sollte jede Richtung gleich wahrscheinlich sein. Bezeichnet die Zufallsvariable X den Winkel zu einer vorher festgelegten Richtung, so kann man X als auf [0, 2π] gleichverteilt annehmen. 5.15 Transformation von Zufallszahlen 17 Ende Woche 5 Von Zufallszahlengeneratoren wird in der Regel eine Zufallsvariable X geliefert, die in [0, 1] gleichverteilt ist. Will man eine Zufallsvariable Y mit einer gegebenen Verteilungsfunktion F erhalten, so kann man versuchen, X mithilfe einer Funktion g zu transformieren, und Y = g(X) betrachten. Wir nehmen an, dass die gewünschte Verteilungsfunktion F für ein geeignetes Intervall (c, d) ⊂ R die folgenden Bedingungen erfüllt: F (y) = 0 für y < c, F : (c, d) → (0, 1) streng monoton wachsend und surjektiv, F (y) = 1 für y > d. Hierbei sind die Fälle c = −∞ und d = ∞ zugelassen. Satz: Setzt man Y = g(X) für g = F −1 : (0, 1) → (c, d), so hat Y die gewünschte Verteilungsfunktion FY = F . Beweis: Es gilt FX (x) = x für x ∈ [0, 1]. Für y ∈ (c, d) gilt: FY (y) = P (Y ≤ y) = P (F −1 (X) ≤ y) = P (X ≤ F (y)) = F (y). Beispiel: Sei [a, b] ⊂ R gegeben. Sei F (y) = y−a für y ∈ (a, b] und F (y) = 0 für y ≤ a, b−a F (y) = 1 für y > b. Sei X gleichverteilt auf [0, 1]. Für x ∈ (0, 1) gilt g(x) = y genau dann, wenn F (y) = x, d.h. genau dann, wenn y = (b−a)x+a gilt. Also ist hier g(x) = (b−a)x+a und nach dem Satz gilt für Y = (b − a)X + a, dass FY = F gilt. Somit ist Y gleichverteilt auf [a, b] (vgl. auch Beispiel 5.13(a)). 5.16 Die Poissonverteilung Vorbemerkung: Wir verwenden folgende Tatsachen HM I: P∞ xk aus der x n x −x Für jedes x ∈ R gilt limn→∞ (1 + n ) = e = k=0 k! und e = (ex )−1 . Nun sei λ > 0 fest und für jedes N ∈ N sei XN eine Zufallsvariable, die binomialverteilt ist mit Parametern N und p = pN = Nλ , d.h. N k P (XN = k) = p (1 − p)N −k für k = 0, 1, . . . , N . k Beachte, dass p von N abhängt! Satz (Poisson 1837): Für jedes k ∈ N0 gilt: lim P (XN = k) = N →∞ 18 λk −λ e . k! Beweis: Für N > k mit N > λ gilt λ k N λ N −k P (XN = k) = 1− k N N k λ −k N · (N − 1) · . . . · (N − k + 1) λ N λ 1− 1− = , k! | {zN } | N N · N · . . . · N {z }| {z } →1 →e−λ 1 1·(1− N )·...·(1− k−1 )→1 N da k fest ist. Definition: Eine Zufallsvariable X heisst Poisson-verteilt mit Parameter λ > 0, falls gilt λk −λ e P (X = k) = k! für jedes k ∈ N0 . Bemerkung: (i) Es gilt dann ∞ X P (X = k) = k=0 ∞ X λk k=0 k! e−λ = eλ · e−λ = 1 nach der Vorbemerkung. (ii) Eine Poisson-verteilte Zufallsvariable ist diskret mit unendlichem Wertebereich N0 . Eigenschaften: Ist X Poisson-verteilt mit Parameter λ > 0, so gilt E(X) = λ für den Erwartungswert und D2 (X) = λ für die Varianz: E(X) = E(X 2 ) = ∞ X k=0 k2 ∞ ∞ X X λk−1 −λ λk e = λ, k e−λ = λ k! (k − 1)! k=1 k=0 ∞ ∞ X X λk −λ λk−1 −λ λk e =λ e =λ k (k + 1) e−λ = λ(E(X) + 1), k! (k − 1)! k! k=1 k=0 D2 (X) = E(X 2 ) − (E(X))2 = λ2 + λ − λ2 = λ. Interpretation der Poissonverteilung (im Hinblick auf den Satz von Poisson): die Zufallsvariable nimmt verschiedene Werte an (N ist groß), aber mit kleinen Wahrscheinlichkeiten (p = Nλ ist klein). Beispiel: Die Zufallsvariable X bezeichne die Anzahl der kritischen Temperaturüberschreitungen in einem chemischen Reaktor in einem festen Zeitintervall. Die Erfahrung zeigt, dass die durchschnittliche Anzahl 5 ist, d.h. E(X) = 5. Für X ≥ 10 müssen zusätzliche Maßnahmen eingeleitet werden. Wie groß ist P (X ≥ 10), wenn X als Poissonverteilt angenommen wird? Wegen E(X) = 5 ist λ = 5 (s.o.) und P (X ≥ 10) = 1 − 9 X k=0 P (X = k) = 1 − 19 9 X 5k k=0 k! e−5 ∼ 0.032. Bemerkung: Für große N und kleine p kann man eine binomialverteilte Zufallsvariable mit Parametern N und p mithilfe einer Poissonverteilung mit Parameter λ = N p approximieren. Beispiel: Zwei Prozent der Bevölkerung sind Diabetiker. Man wähle zufällig 100 Personen aus und berechne die Wahrscheinlichkeit, dass darunter mindestens drei Diabetiker sind. Für eine Binomialverteilung mit Parametern N = 100 und p = 0.02 ergibt sich P (X ≥ 3) = 1 − P (X < 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2) 100 100 100 0 100 1 99 = 1− 0.02 · 0.98 − 0.02 · 0.98 − 0.022 · 0.9898 ∼ 0.323314. 0 1 2 Für eine Poissonverteilung mit Parameter λ = N p = 2 erhält man P (X ≥ 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2) 21 22 + ) = 1 − 5e−2 ∼ 0.323324. = 1 − e−2 (1 + 1! 2! 5.17 Hypergeometrische und Binomialverteilung Sei n ∈ N und p ∈ (0, 1). Die Zufallsvariable sei hypergeometrisch verteilt mit Paramtern n, M , N − M , wobei M = p gelte. N Satz: Für k ∈ {0, 1, . . . , n} ist dann n k lim P (XN = k) = p (1 − p)n−k . N →∞ k Beweis: Beachte, dass M von N abhängt, aber p fest ist. Es ist M N −M P (XN = k) = k n−k N n n M · (M − 1) · . . . · (M − k + 1) · (N − M ) · (N − M − 1) · . . . · (N − M − (n − k) + 1) = N · (N − 1) · . . . · (N − n + 1) k n M M −1 M −k+1 N −M N − M − (n − k) + 1 = · · ... · · · ... · . k N N −1 N −k+1 N −k N − k − (n − k) + 1 Nun kürze man N in jedem Bruch, verwende M = p und beachte, dass für N → ∞ die N ersten k Faktoren gegen p und die anderen n − k Faktoren gegen 1 − p konvergieren (k, n, p sind fest!). Bemerkung: Der Satz besagt, dass für große N (Faustregel Nn < 0.05) die hypergeometrische Verteilung mit Parametern n, M, N − M näherungsweise einer Binomialverteilung mit Parametern n und p = M entspricht. Ende N Woche 6 20 6 Unabhängige Zufallsvariablen und Gesetze der großen Zahlen 6.1 Definition: (a) Sind X, Y diskrete Zufallsvariablen mit Wertebereichen {xi : i ∈ I} bzw. {yj : j ∈ J}, so heißen X, Y (stochastisch) unabhängig, falls für alle i ∈ I, j ∈ J gilt: P (X = xi , Y = yj ) = P (X = xi ) P (Y = yj ), d.h. also, wenn alle Paare {X = xi }, {Y = yj } von Ereignissen unabhängig sind. (1) (b) Ist n ∈ N und sind X1 , X2 , . . . , Xn diskrete Zufallsvariablen mit Wertebereichen {xi : (n) (2) i ∈ I1 }, {xi : i ∈ I2 }, . . . , {xi : i ∈ In }, so heißen X1 , X2 , . . . , Xn unabhängig, falls (1) (2) (1) (n) (2) (n) P (X1 = xi1 , X2 = xi2 , . . . , Xn = xin ) = P (X1 = xi1 ) P (X2 = xi2 ) . . . P (Xn = xin ) für alle i1 ∈ I1 , i2 ∈ I2 , . . . , in ∈ In gilt. (c) Eine Folge X1 , X2 , . . . diskreter Zufallsvariablen heißt unabhängig, falls für jedes n ∈ N die Zufallsvariablen X1 , X2 , . . . , Xn unabhängig sind. Bemerkung: Modelliert man den n-fachen Münzwurf als Laplace-Experiment auf Ω = {0, 1}n und ist Xj das Ergebnis des j-ten Wurfs für j = 1, 2, . . . , n, dh Xj (ω) = ωj für ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω, so sind X1 , X2 , . . . , Xn unabhängig. 6.2 Bemerkung: Sind X, Y unabhängige diskrete Zufallsvariablen wie in 6.1, so gilt für alle Intervalle A, B ⊂ R: X X P (X ∈ A, Y ∈ B) = P (X = xi , Y = yj ) | {z } i∈I;xi ∈A j∈J;yj ∈B = X =P (X=xi ) P (Y =yj ) P (X = xi ) i∈I;xi ∈A X P (Y = yj ) j∈J;yj ∈B = P (X ∈ A)P (Y ∈ B). Entsprechend gilt für unabhängige Zufallsvariablen X1 , X2 , . . . , Xn und alle Intervalle A1 , A2 , . . . , An ⊂ R: P (X1 ∈ A1 , X2 ∈ A2 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) P (X2 ∈ A2 ) . . . P (Xn ∈ An ). 6.3 Rechnen mit Erwartungswerten P Sind X, Y diskrete Zufallsvariablen wie in 6.1 und gilt E|X| = i∈I |xi |P (X = xi ) < P ∞ und E|Y | = < ∞, so existieren die Erwartungswerte E(X) = j∈J |yj |P (Y = yj )P P i∈I xi P (X = xi ) < ∞ und E(Y ) = j∈J yj P (Y = yj ) < ∞, und es ist E|X + Y | < ∞, E(X + Y ) = E(X) + E(Y ) für α ∈ R E|αX| < ∞, E(αX) = αE(X). 21 Gilt E(|X|2 ) = P i∈I x2i P (X = xi ) < ∞, so gilt auch E|X| < ∞. (ohne Beweis) Das Folgende ist ein wichtiges Hilfsmittel. 6.4 Satz (Tschebyscheffsche Ungleichung): Sei X eine diskrete Zufallsvariable mit E|X| < ∞ und D2 (X) < ∞ und sei c ∈ R beliebig. Dann gilt für jedes ε > 0: 1 E(|X − c|2 ). ε2 P (|X − c| ≥ ε) ≤ Bemerkung: Ist E|X| < ∞, so gilt D2 (X) < ∞ (dh X hat endliche Varianz) genau dann, wenn E(|X|2 ) < ∞ ist. Beweis: P (|X − c| ≥ ε) = X P (X = xi ) i∈I;|xi −c|≥ε 1 ε2 ≤ X i∈I;|xi −c|≥ε |xi − c|2 P (X = xi ) 1 X |xi − c|2 P (X = xi ) . ≤ 2 ε i∈I | {z } E(|X−c|2 ) Bemerkung: Die Voraussetzung D2 (X) < ∞ wird nur benötigt, um E(|X − c|2 ) < ∞ sicher zu stellen. Folgerung: Setzt man c = E(X), so erhält man P (|X − E(X)| ≥ ε) ≤ 1 1 E(|X − E(X)|2 ) = 2 D2 (X). 2 ε ε 6.5 Bernoullisches Gesetz der großen Zahlen Sei X1 , X2 , X3 , . . . eine Folge unabhängiger Zufallsvariablen mit Verteilung P (Xn = 1) = p, P (Xn = 0) = 1 − p für alle n ∈ N, wobei p ∈ (0, 1) fest ist. Dann gilt für alle ε > 0: lim P (| N →∞ N 1 X Xj − p| < ε) = 1. N j=1 P Beweis: Die Zufallsvariable SN := N j=1 Xj ist binomialverteilt mit Parametern N und p, 2 also gilt E(SN ) = N p, D (SN ) = N p(1 − p). Somit ist (mit 6.3) E( N1 SN ) = p und D2 ( 1 1 1 p(1 − p) 1 SN ) = E(| SN − E( SN )|2 ) = 2 D2 (SN ) = . N N N N N 22 Nach 6.4 gilt also für jedes feste ε > 0: P (| 1 1 p(1 − p) 1 1 Sn − p| ≥ ε) ≤ 2 D2 ( SN ) = 2 → 0 (N → ∞), N ε N ε N d.h. P (| N1 SN − p| < ε) → 1 für N → ∞. Die Aussage in 6.5 ist ein Spezialfall des folgenden, allgemeineren Satzes. 6.6 Satz (Chintschinsches Gesetz der großen Zahlen): Sei X1 , X2 , X3 , . . . eine Folge unabhängiger (diskreter) Zufallsvariablen mit identischer Verteilung und E|Xn | < ∞. Dann gilt für µ = E(Xn ) und jedes ε > 0: lim P (| N →∞ N 1 X Xj − µ| < ε) = 1. N j=1 Dh: Der Mittelwert von N unabhängigen Versuchen konvergiert für N → ∞ in Wahrscheinlichkeit gegen den Erwartungswert µ. (ohne Beweis) Ende Woche 7 6.7 Wahrscheinlichkeiten und relative Häufigkeiten Sei A ein Ereignis, das bei einem Zufallsexperiment mit Wahrscheinlichkeit P (A) = p ∈ (0, 1) eintritt. Wir wiederholen dieses Zufallsexperiment immer wieder und setzen Xn = 0 bzw. = 1 je nachdem, ob A im n-ten Versuch eintritt oder nicht eintritt. Dann ist P (Xn = 1) = p und P (Xn = 0) = 1 − p und P X1 , X2 , . . . ist eine unabhängige Folge von Zufallsvariablen. Wir setzen HN (A) := N1 N j=1 Xj für N ∈ N, dh HN (A) ist eine Zufallsvariable, die die relative Häufigkeit von A in den ersten N Versuchen angibt. Nach 6.5 gilt dann P (| HN (A) − P (A) | < ε) → 1 (N → ∞). | {z } | {z } rel. Hfk. =p W’keit Man sagt: “die relative Häufigkeit HN (A) konvergiert in Wahrscheinlichkeit gegen P (A)”. M.a.W die Wahrscheinlichkeit, dass die Abweichung von HN (A) zu P (A) “groß” ist, geht gegen Null: P (|HN (A) − P (A)| ≥ ε) → 0 (N → ∞) für jedes ε > 0. 7 Markoffketten Die Betrachtung von Vorgängen, die außer vom Zufall auch noch von der Zeit abhängen, führt auf stochastische Prozesse. Wir betrachten hier einen diskreten Zeitparameter, der Werte n ∈ N0 annimmt. 7.1 Definition: Ein zeitdiskreter stochastischer Prozess ist eine Folge X0 , X1 , X2 , . . . von Zufallsvariablen, Schreibweise: (Xn )n∈N0 . Wir betrachten hier den Fall, dass alle Xn diskrete 23 Zufallsvariablen mit Wertebereich Z = {1, 2, . . . , N } sind. Die Wertemenge Z wird auch als Zustandsraum des stochastischen Prozesses bezeichnet. Interpretation (hier): Die möglichen Werte i ∈ {1, 2, . . . , N } beschreiben die Zustände eines Systems und für jedes n ∈ N0 ist Xn der (zufällige) Zustand des Systems zum Zeitpunkt n. Das System hat hier endlich viele Zustände und (Xn )n∈N0 beschreibt die zeitliche Entwicklung des Systems, die außerdem vom Zufall abhängt. Als Zufallsvariable gilt für jedes Xn , dass es eine Abbildung Ω → R mit Werten in {1, 2, . . . , N } ist (hierbei ist (Ω, A, P ) der zugrundeliegende Wahrscheinlichkeitsraum, der in der Notation unterdrückt wird). Manchmal betrachtet man den zeitdiskreten stochastischen Prozess (Xn )n∈N0 auch als Abbildung X : N0 × Ω → R und schreibt dann X(n, ω) statt Xn (ω), wobei n ∈ N0 und ω ∈ Ω. Für jedes festgehaltene ω ∈ Ω ist (Xn (ω))n∈N0 eine Folge reeller Zahlen (in {1, 2, . . . , N }). Eine solche Folge (Xn (ω))n∈N0 heißt Realisierung oder Pfad des stochastischen Prozesses (Xn )n∈N0 . Realisierungen (Xn (ω))n∈N0 , (Xn (ω̃))n∈N0 für ω, ω̃ ∈ Ω mit ω 6= ω̃ sind i.a. verschieden. Frage: Wie entwickelt sich das System? Wir betrachten Systeme, bei denen die künftige Entwicklung nur vom gegenwärtigen Zustand und nicht von der gesamten Vorgeschichte abhängt. 7.2 Definition: Sei (Xn )n∈N0 ein zeitdiskreter stochastischer Prozess mit Zustandsraum {1, 2, . . . , N }. Dann heißt (Xn )n∈N0 Markoffkette, falls P (Xn+1 = in+1 |Xn = in , Xn−1 = in−1 , . . . , X0 = i0 ) = P (Xn+1 = in+1 |Xn = in ) für alle n ∈ N0 , i0 , i1 , . . . , in , in+1 ∈ {1, 2, . . . , N } gilt. Die bedingten Wahrscheinlichkeiten P (Xn+k = j|Xn = i) =: pij (n, n + k) heißen Übergangswahrscheinlichkeiten k-ter Stufe (hier ist k ∈ N). Die Markoffkette (Xn )n∈N0 heißt homogen, falls die Übergangswahrscheinlichkeiten pij (n, n + 1) = pij nicht vom Zeitpunkt n abhängen (das System verhält sich zu jedem Zeitpunkt gleich). Die Übergangswahrscheinlichkeit pij ist die Wahrscheinlichkeit, in einem Zeitschritt vom Zustand i in den Zustand j zu gelangen. Bemerkung: Wir haben die Zustände hier mit 1, 2, . . . , N bezeichenet, die Zahlenwerte werden jedoch keine Rolle spielen. Die Zustände könnten also ebensogut anders bezeichnet werden. Insbesondere kann die Nummerierung bei 0 beginnen. 7.3 Beispiel: Ein Spieler besitzt 1 Euro und nimmt an einem Glücksspiel teil, bei dem er mit Wahrscheinlichkeit 0.5 für seinen Einsatz das Doppelte erhält. Der Spieler will 24 aufhören, wenn er 5 Euro besitzt, und setzt jedesmal so viel, dass er seinem Ziel möglichst nahe kommt (Besitz > 5 Euro ist ausgeschlossen). Die Zufallsvariable Xn bezeichne den Besitz des Spielers nach dem n-ten Spiel, also P (X0 = 1) = 1. Zustandsmenge ist hier Z = {0, 1, 2, 3, 4, 5}, und der Folgezustand hängt nur vom gegenwärtigen Zustand ab, aber nicht von der Vorgeschichte. Anschauliche Vorstellung: 1/2 1/2 1 2 4 1/2 0 1/2 1 1/2 1/2 1/2 5 3 1 1/2 Übergangswahrscheinlichkeiten sind hier p12 = p24 = p45 = p43 = p35 = p31 = p10 = p20 = und p00 = p55 = 1, alle anderen pij = 0. 1 2 7.4 Übergangsgraph Jede homogene Markoffkette mit Zustandsraum Z = {1, 2, . . . , N } und Übergangswahrscheinlichkeiten kann man sich durch ihren Übergangsgraphen veranschaulichen: ◦ Z Menge der Knoten, ◦ E := {(i, j) : pij > 0} ⊂ Z × Z Menge der gerichteten Kanten [die Kante (i, j) hat i als Anfangs- und j als Endknoten], ◦ jede gerichtete Kante (i, j) trägt einen Wert, nämlich pij . Der Übergangsgraph einer homogenen Markoffkette ist also ein bewerteter gerichteter Graph, wobei für jeden Knoten i ∈ Z gilt: X pij = 1. j mit (i,j)∈E Bemerkung: Ist umgekehrt Z eine endliche Menge, E ⊂ Z × Z eine Menge gerichteter Kanten und w : E → [0, 1], (i, j) 7→ w(i, j), eine Bewertung der Kanten so, dass für alle i ∈ Z gilt X w(i, j) = 1, j mit (i,j)∈E so ist der durch Z, E, w beschriebene bewertete gerichtete Graph der Übergangsgraph einer homogenen Markoffkette mit Übergangswahrscheinlichkeiten w(i, j) , (i, j) ∈ E pij = . 0 , (i, j) 6∈ E 25 Somit: Jede homogene Markoffkette entspricht einer Irrfahrt auf einem gerichteten Graphen. Beispiel: 0, 1, 2, 3, 4, 5 als Knoten, man kommt mit Wahrscheinlichkeit 0.4 zum linken Nachbarn und mit Wahrscheinlichkeit 0.6 zum rechten Nachbarn; in 0 oder in 5 endet die Irrfahrt. 0.6 0.4 0.6 0.4 1 0 1 2 3 0.6 0.4 0.4 4 5 1 0.6 7.5 Übergangswahrscheinlichkeiten höherer Stufe Sei (Xn )n∈N0 eine homogene Markoffkette mit Zustandsraum Z = {1, 2, . . . , N } und Übergangswahrscheinlichkeiten pij , i, j = 1, 2, . . . , N . Was ist P (Xn+2 = j|Xn = i)? Ende Die Formel von der totalen Wahrscheinlichkeit in 4.4 (angewandt auf das Wahrschein- Woche 8 lichkeitsmaß P (·|Xn = i) statt P , B = {Xn+2 = j} und die vollständige Ereignisdisjunktion Ak = {Xn+1 = k}, k = 1, 2, . . . , N ) ergibt: P (Xn+2 = j|Xn = i) = (Def.7.2) = = N X k=1 N X k=1 N X P (Xn+2 = j|Xn+1 = k, Xn = i) P (Xn+1 = k|Xn = i) P (Xn+2 = j|Xn+1 = k) P (Xn+1 = k|Xn = i) pkj pik = k=1 N X pik pkj . k=1 Interpretation: Von i aus gelangt man mit Wahrscheinlichkeit pik nach k und von dort mit Wahrscheinlichkeit pkj nach j. Auf diesem Weg nach j sind die Wahrscheinlichkeiten zu multiplizieren, und dann ist über alle solchen Wege, dh über alle k ∈ Z, zu summieren. Entsprechend erhält man P (Xn+3 = j|Xn = i) = N X P (Xn+3 = j|Xn+2 = k) P (Xn+2 = k|Xn = i) = N X pkj k=1 = k=1 N X N X pil plk l=1 pil plk pkj k,l=1 Eine übersichtliche Darstellung gelingt durch 26 etc.. 7.6 Stochastische Matrizen Schreibt man die Übergangswahrscheinlichkeiten pij als N × N -Matrix p11 p12 . . . p1N p21 p22 . . . p2N , P = (pij )N i,j=1 = ... ... ... ... pN 1 pN 2 . . . pN N P so gilt pij ≥ 0 für alle i, j und für jedes i: j pij = 1 (jede Zeilensumme ist 1). Matrizen, deren Einträge diese Eigenschaften haben, heißen stochastische Matrizen. Die Matrix P heißt Übergangsmatrix der homogenen Markoffkette. Die Matrix (pij (m))N i,j=1 der Übergangswahrscheinlichkeiten m-ter Stufe berechnet sich als Matrixprodukt Pm = P · . . . · P} . | · P {z m-mal N Das Matrixprodukt zweier Matrizen A = (aik )N i,k=1 und B = (bkj )k,j=1 ist dabei erklärt durch: N X N aik bkj A·B = . i,j=1 k=1 Die Multiplikation von Matrizen ist assoziativ, aber im allgemeinen nicht kommutativ. Bemerkung: Sind A, B stochastische Matrizen, so ist auch A·B eine stochastische Matrix. Beispiel: 1/2 1/2 Dann ist P = P2 = P · P = 1/8 7/8 . 0 1 1/2 1/2 0 1 , und es gilt 1/2 1/2 0 1 1/2 1/2 0 1 1 = 2 1/4 3/4 0 1 1 , P 3 = P 2 · P = 1/4 0 3/4 1 1/2 1/2 0 1 = 7.7 Berechnung der Verteilung von Xn Gegeben sei eine homogene Markoffkette (Xn )n∈N0 mit Zustandsraum Z = {1, 2, . . . , N } und Übergangsmatrix P . Wir setzen P (Xn = k) =: pk (n) für k ∈ Z und n ∈ N0 , so dass die Verteilung von Xn durch den Zeilenvektor p̄(n) := (p0 (n), p1 (n), . . . , pN (n)) gegeben ist. Insbesondere ist p̄(0) die Verteilung von X0 , dh die Anfangsverteilung. Es gilt dann für jedes n ∈ N: N X pj (n) = P (Xn = j) = pi (0)pij (n), i=1 27 also ist p̄(n) = p̄(0)P n , wobei die beiden Vektoren p̄(n) und p̄(0) Zeilenvektoren sind. Beispiel: 1/2 1 1/2 1 2 3 1/2 1/2 1 0 0 Übergangsmatrix P = 1/2 0 1/2 , Anfangsverteilung p̄(0) = (0, 1/2, 1/2). Es ist 0 1/2 1/2 1 0 0 1 0 0 P 3 = 5/8 1/8 1/4 . P 2 = 1/2 1/4 1/4 , 3/8 1/4 3/8 1/4 1/4 1/2 Die Verteilung von X3 ist dann gegeben durch 1 0 0 p̄(3) = (0, 1/2, 1/2) 5/8 1/8 1/4 = (1/2, 3/16, 5/16). 3/8 1/4 3/8 7.8 Definition: Gegeben sei eine homogene Markoffkette mit Zustandsraum Z = {1, 2, . . . , N } und Übergangswahrscheinlichkeiten pij , i, j ∈ Z. Ein Zustand i heißt absorbierend, falls pii = 1 gilt. Die Menge R := {i ∈ Z : i ist absorbierend} heißt Rand, und Z \ R heißt Menge der inneren Zustände. Die Markoffkette heißt absorbierend, falls R 6= ∅ und R von jedem inneren Zustand aus erreichbar ist. Beispiele: (a) 1/2 1/2 1 1 2 1/2 3 R = {1}, Markoffkette absorbierend. 1/2 (b) 1 1 2 (c) 1 R = {1, 2}, Markoffkette absorbierend. 1 1/2 1 1/2 2 1/2 3 1/2 28 R = {1}, nicht absorbierend. 7.9 Satz: Für eine absorbierende Markoffkette endet die Irrfahrt in einem Zustand des Randes, dh es gilt: P (Xn ∈ R) −→ 1 (n → ∞). Beispiel: Für P = absorbierend. Es ist 1 0 1/2 1/2 n P = 1/2 1 1 Ende mit Z = {1, 2} gilt R = {1} und die Markoffkette ist Woche 9 0 1 1 − 1/2n 1/2n 2 −→ 10 10 (n → ∞). 1 1/2 1 1 2 7.10 Absorptionswahrscheinlichkeit und mittlere Dauer (a) Gegeben sei eine homogene, absorbierende Markoffkette mit Zustandsraum Z = {1, 2, . . . , N } und Übergangswahrscheinlichkeiten pij , R sei der Rand und U ⊂ R eine ausgezeichnete Teilmenge des Randes. Pi bezeichne die Wahrscheinlichkeit, vom Zustand i aus in U absorbiert zu werden. Dann gilt Pi = N X pij Pj , j=1 sowie Pj = 1 für j ∈ U und Pj = 0 für j ∈ R \ U . Beispiel: Berechne P1 im Beispiel aus 7.3 (Wahrscheinlichkeit, das Ziel 5 Euro zu erreichen bei 1 Euro Startkapital). Es gilt R = {0, 5}, U = {5}, also P5 = 1, P0 = 0. Nach der Formel ist weiter P1 = 21 P2 , P2 = 21 P4 , P3 = 12 + 12 P1 und P4 = 21 + 12 P3 . Wir erhalten der Reihe nach P4 = 34 + 41 P1 , 3 1 3 P2 = 83 + 18 P1 und P1 = 16 + 16 P1 , woraus P1 = 15 = 0.2 folgt. Der Spieler erreicht sein Ziel also mit der Wahrscheinlichkeit 0.2. (b) Die mittlere Dauer der Irrfahrt vom Zustand i aus sei mit mi bezeichnet. Es gilt mi = 0 für i ∈ R. Für i 6∈ R gilt N X mi = 1 + pij mj . j=1 29 i 1 j 2 N R Im Beispiel ist m0 = m5 = 0. Berechne m1 ! Es ist m1 = 1 + 21 m2 , m2 = 1 + 12 m4 , m3 = 1 + 21 m1 und m4 = 1 + 21 m3 . Wir erhalten 1 1 3 1 m1 = 1 + (1 + m4 ) = + m4 2 2 2 4 3 1 1 7 1 = + (1 + m3 ) = + m3 2 4 2 4 8 1 15 1 7 1 + (1 + m1 ) = + m1 , = 4 8 2 8 16 also m1 = 16 · 15 =2 15 8 Die mittlere Spieldauer beträgt 2 Runden. 8 Zufallsvariablen mit Dichten 8.1 Erinnerung an die Gleichverteilung Sei [a, b] ⊂ R und die Zufallsvariable X sei gleichverteilt auf [a, b]. Dann gilt für die Verteilungsfunktion FX von X: für x ≤ a, 0 x−a für x ∈ (a, b], FX (x) = P (X ≤ x) = b−a 1 für x > b. 1 , x ∈ [a, b] b−a Setzt man f (x) = , so kann man FX als Integral schreiben: 0 sonst Z x P (X ≤ x) = FX (x) = f (u) du. −∞ Das entspricht der Fläche unter dem Graphen von f zwischen −∞ und x. Bemerkung: Nach Definition (→HMI) ist Z x Z x f (u) du = lim f (u) du falls dieser Limes existiert. −∞ c→−∞ c 30 Für die obige Funktion f ist Existenz des Limes trivial. Am Graphen von f sieht man wieder, dass Teilintervalle von [a, b] gleicher Länge gleiche Wahrscheinlichkeit haben, denn die Fläche unter dem Graphen von f ist dann gleich. 8.2 Definition: Eine Zufallsvariable X heißt stetig, falls es eine integrierbare Funktion f : R → [0, ∞) gibt mit Z x f (u) du für alle x ∈ R. P (X ≤ x) = −∞ Ein solches f heißt Dichte der Zufallsvariable X. Dabei nennen wir ein Funktion g : R → R integrierbar, falls g auf jedem Intervall [c, d] ⊂ R integrierbar ist und Z ∞ Z 0 Z d |g(u)| du := lim |g(u)| du + lim |g(u)| du < ∞ −∞ c→−∞ d→∞ c gilt. Ist g : R → R integrierbar, so konvergiert R∞ −∞ 0 g(u) du. Bemerkung: R ∞ Sei f Dichte einer Zufallsvariablen X. (i) Es gilt −∞ f (u) du = 1. Rd (ii) Für alle c, d ∈ R mit c < d gilt P (X ∈ (c, d]) = c f (u) du. (iii) Für alle x ∈ R gilt P (X = x) = 0. 8.3 Die Exponentialverteilung Eine Zufallsvariable X heißt exponentialverteilt mit Parameter λ > 0, falls X die Dichte 0 ,x ≤ 0 f (x) = −λx λe ,x > 0 hat. Für die Verteilungsfunktion FX von X gilt dann Z x 0 ,x ≤ 0 FX (x) = f (u) du = . −λx 1 − e ,x > 0 −∞ 8.4 Definition: Sei X eine stetige Zufallsvariable mit Dichte f . Ist so heißt Z ∞ xf (x) dx E(X) := R∞ −∞ Ende Woche 10 |x|f (x) dx < ∞, −∞ Erwartungswert von X (aufgrund der Voraussetzung konvergiert das Integral) und Z ∞ 2 2 Var (X) = D (X) = E((X − E(X)) ) = (x − E(X))2 f (x) dx −∞ 31 heißt Varianz von X, D(X) := D2 (X) = ∞ sein). p Var(X) heißt Standardabweichung von X (es kann 8.5 Beispiel: (a) Sei X gleichverteilt auf [a, b]. Dann gilt Z b 1 b 2 − a2 a+b E(X) = x dx = = , b−a a 2(b − a) 2 Z b )3 ( b−a )3 − ( a−b a+b 2 (b − a)2 1 2 2 (x − ) dx = 2 = . D (X) = b−a a 2 3(b − a) 12 (b) Sei X exponentialverteilt mit Parameter λ > 0. Dann gilt: Z ∞ Z R Z Z 1 λR −y 1 ∞ −y 1 −λx −λx xλe dx = lim E(X) = λxe dx = lim ye dy = ye dy = , R→∞ 0 R→∞ λ 0 λ 0 λ 0 wobei wir x = y/λ substituiert haben und die Formel Z ∞ k y −y e dy = 1 für k = 0, 1, 2, . . . k! 0 verwendet haben (Beweis durch Induktion mit partieller Integration). Ähnlich folgt E(X 2 ) = λ22 und D2 (X) = λ12 . Beispiel: Das wöchentliche Telefongespräch einer Tochter mit ihrer Mutter dauert im Mittel 15 min. Es liege eine Exponentialverteilung vor. Wie groß ist die Wahrscheinlichkeit, dass das Telefongespräch länger als 20 min dauert? Sei X die Dauer des Telefongesprächs. Es ist E(X) = 15 (min), andererseits E(X) = λ1 1 nach 8.5(b). Somit gilt λ = 15 und 20 4 P (X > 20) = 1 − P (X ≤ 20) = 1 − FX (20) = e− 15 = e− 3 ∼ 0.264. 8.6 Satz: Sei X eine Zufallsvariable mit Dichte f . Ist g : R → R stetig, so ist g(X) eine R∞ Zufallsvariable und, falls −∞ |g(x)|f (x) dx < ∞ ist, gilt Z ∞ g(x)f (x) dx, E(g(X)) = −∞ wobei das Integral konvergiert. 8.7 Definition: Sei X eine Zufallsvariable mit Dichte f . Ist k ∈ N und ∞, so heißt Z ∞ k E(X ) = xk f (x) dx −∞ 32 R∞ −∞ |x|k f (x) dx < k-tes Moment der Zufallsvariable X und k E((X − E(X)) ) = Z ∞ −∞ (x − E(X))k f (x) dx heißt k-tes zentrales oder zentriertes Moment der Zufallsvariable X. Bemerkung: Das zweite zentrale Moment ist die Varianz Z ∞ 2 (x − E(X))2 f (x) dx Var(X) = E((X − E(X)) ) = −∞ Z ∞ Z ∞ 2 xf (x) dx +(E(X))2 = E(X 2 ) − (E(X))2 . x f (x) dx − 2E(X) = −∞ | −∞ {z } =E(X) 8.8 Beispiel: Sei X exponentialverteilt mit Parameter λ > 0. Dann existiert für jedes k ∈ N das k-te Moment und Z ∞ Z R Z R k! k −λx k k −λx −k x λe dx = lim E(X ) = x λe dx = λ lim y k e−y dy = k . R→∞ R→∞ λ 0 0 0 8.9 Definition: Eine Zufallsvariable X heißt standardnormalverteilt oder N (0, 1)-verteilt, falls X die Dichte 1 2 f (x) = √ e−x /2 , x ∈ R, 2π hat. R∞ R∞ 2 2 Bemerkung: Es gilt dann −∞ √12π e−x /2 dx = 1 (ohne Beweis) und −∞ √x2π e−x /2 dx = 0 R∞ 2 2 2 (der Integrand ist ungerade), sowie −∞ √x2π e−x /2 dx = 1 (hierfür schreibe man x2 e−x /2 = 2 x · xe−x /2 und verwende partielle Integration). Ist also X N (0, 1)-verteilt, so gilt E(X) = 0 und D2 (X) = E(X 2 ) = 1. Bemerkung: Ist X eine R x Zufallsvariable mit Dichte f und Verteilungsfunktion F , so gilt F (x) = P (X ≤ x) = −∞ f (u) du, x ∈ R. Nach dem Hauptsatz (→HMI) ist dann f (x) = F ′ (x) für alle x ∈ R, in denen f stetig ist. Ende Woche 11 8.10 Normalverteilung Sei µ ∈ R, σ > 0 und X N (0, 1)-verteilt. Setze Y := σX + µ. Dann gilt für alle y ∈ R (vgl. 5.14): y−µ y−µ ) = FX ( ). FY (y) = P (Y ≤ y) = P (X ≤ σ σ d Nach der Bemerkung erhalten wir die Dichte fY von Y durch Ableiten dy : fY (y) = (y−µ)2 d y−µ y−µ 1 1 d e− 2σ2 , FY (y) = (FX ( )) = FX′ ( )· = √ dy dy σ σ σ 2πσ 33 y ∈ R. Definition: Eine Zufallsvariable mit der Dichte f (x) = √ (x−µ)2 1 e− 2σ2 , 2πσ x ∈ R, heißt N (µ, σ 2 )-verteilt. Die obigen Überlegungen zeigen1 Bemerkung: Ist Y eine Zufallsvariable, so gilt: Y ist N (µ, σ 2 )-verteilt ⇐⇒ X = Y −µ σ ist N (0, 1)-verteilt. Somit hat eine N (µ, σ 2 )-verteilte Zufallsvariable Erwartungswert µ und Varianz σ 2 , und heißt deshalb auch normalverteilt mit Mittelwert µ und Varianz σ 2 . Die Verteilungsfunktion der N (0, 1)-Verteilung ist in Tabellen nachzuschlagen und wird mit Φ(x) bezeichnet. Ist Y N (µ, σ 2 )-verteilt, so gilt für die Verteilungsfunktion (s.o.) FY (y) = Φ( y−µ ), σ y ∈ R, und FY lässt sich anhand der Tabelle berechnen. Dabei zeigen Symmetrieüberlegungen für die Dichte, dass für x < 0 gilt Φ(x) + Φ(−x) = 1. Es reicht also, eine Tabelle für Φ(x) mit x > 0 zu haben. Beispiel: Sei k > 0 und die Zufallsvariable Y sei N (µ, σ 2 )-verteilt mit µ ∈ R, σ > 0. Dann gilt: P (µ − kσ ≤ Y ≤ µ + kσ) = P (−k ≤ Y −µ ≤ k) = Φ(k) − Φ(−k) = 2Φ(k) − 1, σ und die Tabellenwerte Φ(1) ∼ 0.8413, Φ(2) ∼ 0.9772498, Φ(3) ∼= 0.9985587 zeigen P (|Y − µ| ≤ σ) ∼ 0.6826, P (|Y − µ| ≤ 2σ) ∼ 0.955, P (|Y − µ| ≤ 3σ) ∼ 0.997. In einem Streifen der Breite 3σ um den Mittelwert µ liegen also “fast alle Werte” der Zufallsvariable Y , die Wahrscheinlichkeit, dass sie außerhalb liegen, ist jedenfalls kleiner als 0.003, dh kleiner als 0.3 Prozent. 8.11 Rechenregeln Seien X1 , X2 Zufallsvariable mit E(|Xj |2 ) < ∞ und µj = E(Xj ) für j = 1, 2. Dann gilt (a) D2 (Xj ) = D2 (Xj − ν) für alle ν ∈ R. (b) E(X1 + X2 ) = E(X1 ) + E(X2 ) und, falls X1 , X2 unabhängig sind, (i) E(X1 X2 ) = E(X1 )E(X2 ) 2 (ii) D (X1 + X2 ) = D2 (X1 ) + D2 (X2 ). 1 Gezeigt wurde nur eine Richtung, aber die andere geht analog. 34 (c) Falls X1 , X2 unabhängig sind und Dichten f1 bzw. f2 haben, so hat die Zufallsvariable X1 + X2 die Dichte Z ∞ g(x) = f1 (y)f2 (x − y) dy, x ∈ R. −∞ Die Funktion g heißt Faltung von f1 und f2 , geschrieben g = f1 ∗ f2 . Dabei nennen wir beliebige Zufallsvariablen X, Y unabhängig (vgl. 6.2), falls für alle Intervalle A, B ⊂ R gilt: P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B). Beweis: (a) Es gilt E(Xj − ν) = µj − ν und E(((Xj − ν) − (µj − ν))2 ) = E((Xj − µj )2 ). (b) (ii) Es gilt E((X1 + X2 − (µ1 + µ2 ))2 ) = E((X1 − µ1 )2 ) + 2 E((X1 − µ1 )(X2 − µ2 )) +E((X2 − µ2 )2 ). {z } | =E(X1 −µ1 )E(X2 −µ2 )=0 Den Beweis von (i) führen wir hier nur für diskrete Zufallsvariablen X, Y mit Wertebereichen {xi : i ∈ I} bzw. {yj : j ∈ J} X E(XY ) = xi yj P (X = xi , Y = yj ) {z } | i,j = X =P (X=xi )P (Y =yj ) xi P (X = xi ) i X yj P (Y = yj ) j = E(X) E(Y ). (c) kein Beweis, aber folgende Überlegung: Für unabhängige Zufallsvariablen X, Y , die diskret mit Wertebereichen ⊂ Z sind, gilt für jedes k ∈ Z: X X P (X + Y = k) = P (X = j, Y = k − j) = P (X = j)P (Y = k − j). j∈Z j∈Z Beispiele: Seien X, Y unabhängige Zufallsvariablen mit Dichten f bzw. g. Welche Dichte h hat X + Y ? 1 , x ∈ [0, 1] (a) Seien X, Y gleichverteilt auf [0, 1], also f (x) = g(x) = . Dann gilt 0 , x 6∈ [0, 1] Z 1 Z ∞ g(x − y) dy, x ∈ R. f (y)g(x − y) dy = h(x) = 0 −∞ Weiter ist g(x − y) = 1 genau dann, wenn y ∈ [x − 1, x] gilt, und wir erhalten , x 6∈ (0, 2) 0 x , x ∈ (0, 1] . h(x) = 2 − x , x ∈ (1, 2] 35 Beachte, dass h stetig ist, aber f und g nicht stetig sind. (b) Sei X exponentialverteilt mit Parameter λ > 0 und Y gleichverteilt auf [0, 1], also 0 ,x ≤ 0 f (x) = und g wie in (a). Dann gilt: −λx λe ,x > 0 Z ∞ Z ∞ h(x) = f (y)g(x − y) dy = λe−λy g(x − y) dy, x ∈ R. −∞ 0 Man sieht, dass die Funktion y 7→ λe−λy also über dem Intervall [0, ∞) ∩ [x − 1, x] integriert wird, und wir erhalten also h(x) = 0 für x ≤ 0, sowie Z x h(x) = λe−λy dy = 1 − e−λx , x ∈ (0, 1], Z0 x λe−λy dy = e−λx (eλ − 1), x > 1. h(x) = x−1 Bemerkung: Viele Regeln, die wir für diskrete Zufallsvariablen gezeigt haben, gelten auch für beliebige Zufallsvariablen, insbesondere also für solche mit Dichten (etwa 6.3, die Tschebyscheffsche Ungleichung 6.4 oder das Chintschinsche Gesetz der großen Zahlen 6.7). Ende Woche 12 9 Grenzwertsätze 9.1 Beispiel: Seien X1 , X2 , X3 , X4 unabhängige Zufallsvariablen, die jeweils gleichverteilt auf [0, 1] sind. Dann haben X1 + X2 jeweils die Dichte , x 6∈ (0, 2) 0 x , x ∈ (0, 1] . h(x) = 2 − x , x ∈ (1, 2) Da X1 + X2 und X3 + X4 wieder unabhängig sind (!), hat S4 := X1 + X2 + X3 + X4 die Dichte Z ∞ Z 2 g(x) = h(y)h(x − y) dy = h(y)h(x − y) dy. −∞ 0 Klar ist, dass g(x) = 0 für x 6∈ [0, 4] gilt. Außerdem ist g auf jedem Intervall [j − 1, j], j = 1, 2, 3, 4, ein Polynom dritten Grades. Weiter zeigen Symmetrieüberlegungen, dass g(4 − x) = g(x) für x ∈ R gilt. Wir erhalten für x ∈ (0, 1]: Z x x3 g(x) = y(x − y) dy = 6 0 und für x ∈ (1, 2]: Z x−1 Z g(x) = y(2 − x + y) dy + 0 1 x−1 y(x − y) dy + 36 Z 1 x (2 − y)(x − y) dy = − 2 x3 + 2x2 − 2x + . 2 3 1 Es gilt E(S4 ) = 4 E(X1 ) = 4 · 12 = 2 und D2 (S4 ) = 4 D2 (X1 ) = 4 · 12 = 31 (wegen 8.5(a) 4) gilt also E(Z4 ) = 0 und D2 (Z4 ) = 1. und 8.11). Für die Zufallsvariable Z4 = S√4 −E(S 2 D (S4 ) Die Zufallsvariable Z4 hat eine Dichte ψ, welche die Dichte der N (0, 1)-Verteilung gut approximiert (beachte ψ(t) = √13 g( √t3 + 2)). 9.2 Zentraler Grenzwertsatz (ohne Beweis) Sei X1 , X2 , X3 , . . . eine Folge unabhängiger in Woche Zufallsvariablen, die alle die gleiche Verteilung haben mit D2 (Xj ) = d2 < ∞ und E(Xj ) = 12 P erwähnt m. Für die Summen SN := N j=1 Xj , N ∈ N, und jedes x ∈ R gilt dann: Z x S − Nm 1 2 N √ P ≤ x −→ √ e−y /2 dy = Φ(x) (N → ∞). 2π −∞ Nd Die Zufallsvariablen auf der linken Seite sind standardisierte Summen mit Erwartungswert 0 und Varianz 1. Der Grenzwert auf der rechten Seite ist die Verteilungsfunktion der N (0, 1)-Verteilung an der Stelle x. Ein Spezialfall von 9.2 ist der folgende Satz. 9.3 Satz von de Moivre-Laplace Ist p ∈ (0, 1) und SN für jedes N ∈ N eine binomialverteilte Zufallsvariable mit Parametern N und p, so gilt für jedes x ∈ R: Z x S − Np 1 2 N P p ≤ x −→ √ e−y /2 dy = Φ(x) (N → ∞). 2π −∞ N p(1 − p) Bemerkung: (a) Nach 6.9 gilt E(SN ) = N p und D2 (SN ) = N p(1 − p). P (b) Es gilt SN = N j=1 Xj , wobei X1 , X2 , X3 , . . . unabhängig sind mit P (Xj = 1) = p, P (Xj = 0) = 1 − p. (c) Faustregel: Die Approximation ist i.a. hinreichend gut, wenn D2 (SN ) ≥ 9 gilt. (d) Die Approximation wird verbessert, wenn man statt P (k < SN ≤ l) ∼ Φ( p das folgende nimmt: k − Np ) − Φ( p ) N p(1 − p) N p(1 − p) l − Np k − N p − 21 l − N p + 21 p p ) − Φ( P (k < SN ≤ l) ∼ Φ( ) N p(1 − p) N p(1 − p) (→ Henze: Stochastik für Einsteiger (Abschnitt 26) oder → Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik, Vieweg 1988, Abschnitt 5.3). 37 Beispiel: Ein Frequenzsprungsender sende im Frequenzbereich 30 − 80MHz. Bei einer Kanalbandbreite von 25kHz gibt es also 2000 Kanäle, die alle mit gleicher Wahrscheinlichkeit angesprungen werden sollen. Bei einer Sendung von 10s sei die Dauer eines Hops 10−3 s. Es gibt also 104 Hops. Man beobachtet mit einem Empfänger eine bestimmte Frequenz. Wie groß ist die Wahrscheinlichkeit, mindestens 3 Hops der Sendung zu erfassen? Es liegt eine Binomialverteilung vor mit N = 104 und p = 10 4 X 10 4 P (SN ≥ 3) = k=3 k ( 1 2000 und wir wollen berechnen 1 k 1 104 −k ) (1 − ) . 2000 2000 Für eine Approximation nach 9.3 stellen wir fest: N p = 5 und √ 3−N p ∼ −0.89. Wir erhalten N p(1−p) p N p(1 − p) ∼ 2.24, also 3 − Np SN − N p ≥p ) ∼ 1 − Φ(−0.89) = Φ(0.89) ∼ 0.81. P (SN ≥ 3) = P ( p N p(1 − p) N p(1 − p) 10 Komplexe Zufallsvariablen und die charakteristische Funktion Wir verwenden hier die imaginäre Einheit ip ∈ C\R, i2 = −1, sowie die folgenden Tatsachen: für s, x, y ∈ R und z = x + iy gilt |z| = x2 + y 2 , eisx = cos(sx) + i sin(sx), |eisx | = 1, eis(x+y) = eisx eisy . 10.1 Definition: Sind X, Y (reellwertige) Zufallsvariable, so heißt Z = X + iY komplexwertige Zufallsvariable oder komplexe Zufallsvariable (d.h. schreiben wir Ω für den zugrundeliegenden Wahrscheinlichkeitsraum, so ist Z eine Abbildung Ω → C und X(ω) = Re Z(ω) (Realteil), Y (ω) = Im Z(ω) (Imaginärteil) für jedes ω ∈ Ω). Man definiert E(Z) = E(X) + iE(Y ) und D2 (Z) = E(|Z − E(Z)|2 ). Bemerkung: Es gilt D2 (Z) = E((X − E(X))2 + (Y − E(Y ))2 ) = D2 (X) + D2 (Y ). 10.2 Definition: Sei X eine (reellwertige) Zufallsvariable. Die Funktion ϕX : R → C, die durch ϕX (s) := E(eisX ), s ∈ R, gegben ist, heißt charakteristische Funktion der Zufallsvariable X. (Beachte: für festes s ∈ R ist eisX eine komplexe Zufallsvariable.) 10.3 Bemerkung: (a) Ist X eine stetige Zufallsvariable mit Dichte f , so gilt Z ∞ eisx f (x) dx, s ∈ R. ϕX (s) = −∞ 38 Ist ϕX (absolut) integrierbar, so gilt 1 f (x) = 2π Z ∞ e−isx ϕX (s) ds −∞ für alle x ∈ R, in denen f stetig ist (→ Fouriertransformation, KAI). (b) Ist X eine diskrete Zufallsvariable mit Wertebereich {xj : j ∈ I}, so gilt X ϕX (s) = eisxj P (X = xj ), s ∈ R. j∈I (c) Ist X N (0, 1)-verteilt, so gilt Z ∞ 1 2 2 ϕX (s) = √ eisx e−x /2 dx = e−s /2 , 2π −∞ → Fouriertransformation, KAI. s ∈ R, (d) Sind X, Y unabhängige Zufallsvariable, so sind für jedes s ∈ R auch eisX , eisY unabhängige Zufallsvariable, und wie in 8.11 gilt: ϕX+Y (s) = E(eis(X+Y ) ) = E(eisX eisY ) = E(eisX )E(eisY ) = ϕX (s)ϕY (s), Also: X, Y unabhängig =⇒ ϕX+Y = ϕX · ϕY . s ∈ R. (e) Es gilt (im Falle der Existenz, → KAI) (k) ϕ (0) für k = 1, 2, 3, . . . , E(X ) = X k i insbesondere also D2 (X) = E(X 2 ) − (E(X))2 = −ϕ′′X (0) + (ϕ′X (0))2 . k (f) Ist X eine diskrete Zufallsvariable mit Wertebereich ⊆ N0 , so gilt ∞ X ϕX (s) = (eis )n P (X = n), s ∈ R, n=0 und die Potenzreihe ψ(z) = ∞ X z n P (X = n), n=0 z ∈ C, |z| ≤ 1, heißt erzeugende Funktion der Zufallsvariable X. Beispiel: Sei Xj N (µj , σj2 )-verteilt für j = 1, 2 und seien X1 , X2 unabhängig. Welche Verteilung hat X1 + X2 ? X −µ Für j = 1, 2 ist Yj := jσj j N (0, 1)-verteilt. Somit gilt (nach (c)) für j = 1, 2: 2 2 /2 ϕXj (s) = E(eisXj ) = E(eis(σj Yj +µj ) ) = eisµj E(eisσj Yj ) = eisµj e−σj s , und weiter nach (d): 2 2 ϕX1 +X2 (s) = ϕX1 (s)ϕX2 (s) = eis(µ1 +µ2 ) e−(σ1 +σ2 )s 2 /2 , s ∈ R. Nach (a) ist dann X1 + X2 N (µ1 + µ2 , σ12 + σ22 )-verteilt. Die Summe unabhängiger normalverteilter Zufallsvariablen ist also wieder normalverteilt. 39 11 Stochastische Prozesse Erinnerung: In Kapitel 7 haben wir uns mit zeitdiskreten stochastischen Prozessen beschäftigt, d.h. mit Folgen X1 , X2 , X3 , . . . bzw. (Xn )n∈N0 von Zufallsvariablen. 11.1 Definition: Ein stochastischer Prozess (in kontinuierlicher Zeit) ist eine Familie (X(t))t≥0 von Zufallsvariablen. Bemerkung: Man betrachtet stochastische Prozesse auch als Abbildungen X : [0, ∞) × Ω → R, (t, ω) 7→ X(t, ω). Für festes ω ∈ Ω ist heißt die Funktion [0, ∞) → R, t 7→ X(t, ω) ein Pfad oder eine Realisierung des stochastischen Prozesses (X(t))t≥0 . 11.2 Poisson-Prozess Wir betrachten als Beispiel die Verabeitung von Paketen in Übertragungssystemen. Für jedes t ≥ 0 sei X(t) die Anzahl der bis zum Zeitpunkt t eingetroffenen Pakete. Also ist jedes X(t) eine diskrete Zufallsvariable mit Werten in N0 , und für 0 ≤ s < t ist X(t) − X(s) die Anzahl der im Zeitintervall (s, t] eingetroffenen Pakete. Wir machen die folgenden Annahmen: (0) X0 = 0; (1) die Anzahl der in disjunkten Zeitintervallen eintreffenden Pakete ist unabhängig voneinander, d.h. für 0 ≤ t0 < t1 < . . . < tn sind die Zufallsvariablen X(t1 ) − X(t0 ), X(t2 ) − X(t1 ), . . . , X(tn ) − X(tn−1 ) unabhängig (man sagt: “der Prozess hat unabhängige Zuwächse”); (2) die Wahrscheinlichkeit, dass in einem Intervall (s, t] gerade k ∈ N0 Pakete eintreffen, hängt nur von der Intervalllänge t − s ab, d.h. für 0 ≤ s < t und h > 0 haben die Zufallsvariablen X(t + h) − X(s + h) und X(t) − X(s) die gleiche Verteilung, m.a.W es gilt P (X(t + h) − X(s + h) = k) = P (X(t) − X(s) = k), k ∈ N0 für alle 0 ≤ s < t und alle h > 0 (man sagt: “der Prozess hat stationäre Zuwächse”); (3) es gibt ein λ > 0 mit P (X(h) − X(0) = 1) = λh + o(h) P (X(h) − X(0) = 0) = 1 − λh + o(h) für h → 0 (hierbei bezeichnet o(h) einen Term mit limh→0+ 40 o(h) h = 0). Einen stochastischen Prozess mit den Eigenschaften (0)–(3) bezeichnet man als (homogenen) Poisson-Prozess mit Parameter λ (wie bei Markoffketten bezieht sich “homogen” auf die Eigenschaft (2), das “System” verhält sich zu jedem Zeitpunkt gleich). Im folgenden sei, wenn nichts anderes gesagt wird, (X(t))t≥0 ein solcher homogener Poisson-Prozess mit Parameter λ > 0. 11.3 Satz: Wir erhalten für alle t > 0, k ∈ N0 : P (X(t) = k) = (λt)k −λt e , k! d.h. jede Zufallsvariable X(t) ist Poisson-verteilt mit Parameter λt. Beweisidee: Unterteile [0, t] in N Teilintervalle der Länge h = Nt . In jedem Teilintervall ist nach (2) und (3) die Wahrscheinlichkeit für das Eintreffen eines Paketes λh und die Wahrscheinlichkeit für das Nichteintreffen 1 − λh (jedenfalls approximativ für kleine Teilintervalle). Wegen (1) gilt dann (λt)k −λt N P (X(t) = k) ∼ (λh)k (1 − λh)N −k −→ e (N → ∞), k k! wobei die Konvergenz wie im Beweis des Satzes von Poisson (in 5.17) gezeigt wird (beachte, dass λh = λt gilt). N 11.4 Folgerung: (a) Für alle 0 ≤ s < t und alle k ∈ N0 gilt P (X(t) − X(s) = k) = (λ(t − s))k −λ(t−s) e , k! d.h. die Zufallsvariable X(t) − X(s) ist Poisson-verteilt mit Parameter λ(t − s). (b) Für jedes t ≥ 0 gilt E(X(t)) = λt und D2 (X(t)) = λt. Also entspricht λ = E(X(t)) der t mittleren Ankunftsrate der Pakete. Misst man im großen Intervall mit Länge t die Anzahl n ankommender Pakete, so ist nt ein vernünftiger Schätzwert für λ. (c) Es gilt P (X(t) = 0) = e−λt , d.h. die Wahrscheinlichkeit, dass kein Paket ankommt, geht mit t exponentiell gegen Null, entsprechend gilt P (X(t) − X(s) = 0) = e−λ(t−s) , t > s, für jedes feste s > 0. 11.5 Ankunftszeitpunkte Für k ∈ N0 beschreibe die Zufallsvariable τk den Ankunftszeitpunkt des k-ten Paketes. Dann beschreibt τk+1 − τk die Dauer zwischen zwei aufeinanderfolgenden Ankunftszeitpunkten. Es ist τ0 = 0, und T := τ1 ist die Ankunftszeit des ersten Paketes. Satz: Die Zufallsvariable T ist exponentialverteilt mit Parameter λ > 0. Insbesondere gilt E(T ) = λ1 und D2 (T ) = λ12 . 41 Beweis: Für t ≤ 0 gilt P (T ≤ t) = 0. Für t > 0 gilt P (T ≤ t) = P (X(t) ≥ 1) = 1 − P (X(t) = 0) = 1 − e−λt . Somit hat T die Dichte fT (t) = 0 ,t ≤ 0 . −λt λe ,t > 0 Bemerkung: Es ist plausibel, dass für jedes k ∈ N die Zufallsvariable τk+1 − τk dieselbe Verteilung wie T hat. Tatsächlich ist auch τk+1 − τk exponentialverteilt mit Parameter λ für jedes k ∈ N. 11.6 Bemerkung: Die Summe unabhängiger Poisson-Prozesse ist wieder ein PoissonProzess. Dazu überlege man sich, dass für unabhängige Zufallsvariablen X1 , X2 , . . . , Xn , die Poisson-verteilt mit Parametern λ1 , λ2 , . . . , λn > 0 sind, die Summe X = X1 +X2 +. . .+Xn Poisson-verteilt mit Parameter λ = λ1 + λ2 + . . . + λn ist. (Man gehe vor wie im “Beweis” von 8.11(c) oder vergleiche mit Jondral/Wiesler, S. 143; ein anderes Argument findet sich bei Jondral/Wiesler, S. 184). 11.7 Definition: Seien X, Y Zufallsvariablen mit D2 (X) + D2 (Y ) < ∞. Dann heißt cov (X, Y ) := E[(X − E(X))(Y − E(Y ))] Kovarianz von X und Y , und cov (X, Y ) ρ(X, Y ) = p D2 (X) D2 (Y ) heißt Korrelationskoeffizient von X und Y . Gilt ρ(X, Y ) = 0, so heißen X und Y unkorreliert. Nach Voraussetzung an X und Y existiert der Erwartungswert in der Definition von cov (X, Y ) in R. 11.8 Satz: Seien X, Y Zufallsvariablen mit D2 (X) + D2 (Y ) < ∞. (a) X, Y unabhängig =⇒ X, Y unkorreliert [“⇐” ist i.a. falsch!]. (b) D2 (X + Y ) = D2 (X) + D2 (Y ) + 2cov (X, Y ) und |ρ(X, Y )| ≤ 1. Beweis: (a) X − E(X) und Y − E(Y ) sind unabhängig und haben Erwartungswert Null. (b) Vergleiche 8.11(b) für die erste Aussage. Die zweite Aussage ist äquivalent zu p p |cov (X, Y )| ≤ D2 (X) D2 (Y ), wobei man nur E(X) = 0 = E(Y ) betrachten muss. Diese Aussage beweist man wie die Cauchy-Schwarzsche Ungleichung. 42 Bemerkung: Es gilt: cov (X, X) = D2 (X); ρ(X, X) = 1; ρ(X, aX + b) = 1 für a > 0 und b ∈ R. Der Korrelationskoeffizient ρ(X, Y ) ist ein “Ähnlichkeitsmaß” für das Paar (X, Y ) von Zufallsvariablen. 11.9 Definition: Sei (X(t))t≥0 ein stochastischer Prozess. (a) Die Funktion ϕXX (t1 , t2 ) := E(X(t1 )X(t2 )), t1 , t2 ≥ 0, heiß Autokorrelationsfunktion des stochastischen Prozesses (X(t))t≥0 , und die Funktion cXX (t1 , t2 ) := cov (X(t1 ), X(t2 )) = E[(X(t1 ) − E(X(t1 )))(X(t2 ) − E(X(t2 )))], t1 , t2 ∈ R, heißt Autokovarianzfunktion des stochastischen Prozesses (X(t))t≥0 . (b) Der stochastische Prozess (X(t))t≥0 heißt (schwach) stationär, falls (i) E(X(t)) = µ unabhängig von t ist; (ii) ϕXX (t1 , t2 ) nur von t2 − t1 abhängt (dh, wenn für alle t1 , t2 , h gilt ϕXX (t1 + h, t2 + h) = ϕXX (t1 , t2 ) gilt; wir schreiben dann ϕXX (t1 , t2 ) = ϕXX (t2 − t1 ) = ϕXX (τ ) mit τ = t2 − t1 ). (c) Der stochastische Prozess (X(t))t≥0 heißt stark stationär, falls für alle n ∈ N, alle 0 ≤ t1 < t2 < . . . < tn , alle h > 0 und alle reellen Intervalle A1 , A2 , . . . , An gilt: P (X(T1 + h) ∈ A1 , X(t2 + h) ∈ A2 , . . . , X(tn + h) ∈ An ) = P (X(t1 ) ∈ A1 , X(t2 ) ∈ A2 , . . . , X(tn ) ∈ An ). Bemerkung: “Stark stationär” impliziert “(schwach) stationär”. Beispiel: Der Poisson-Prozess ist nicht (schwach) stationär, da E(X(t)) = λt von t abhängt. Bemerkung: Es gilt stets cXX (t1 , t2 ) = E(X(t1 )X(t2 ))−2E(X(t1 ))E(X(t2 ))+E(X(t1 ))E(X(t2 )) = ϕXX (t1 , t2 )−E(X(t1 ))E(X(t2 vergleiche die Beziehung zwischen Varianz und zweitem Moment. Insbesondere ist ϕXX (t1 , t2 ) = cXX (t1 , t2 ) für E(X(t1 )) = E(X(t2 )) = 0, und für einen (schwach) stationären Prozess (X(t))t≥0 mit E(X(t)) = µ gilt: cXX (t1 , t2 ) = ϕXX (t1 , t2 ) − µ2 , dh auch die Kovarianzfunktion hängt dann nur von der Differenz τ = t2 − t − 1 ab. 43 11.10 Definition: Ist (X(t))t≥0 ein (schwach) stationärer Prozess mit Autokorrelationsfunktion ϕXX (τ ), τ ∈ R, so heißt ϕXX (0) = ϕXX (t, t) = E(X(t)2 ) (unabhängig von t!) die mittlere Leistungsdichte von (X(t))t≥0 und Z ∞ ϕXX (τ ) e−2πiωτ dτ, ΦXX (ω) := ω ∈ R (Frequenz), −∞ heißt Leistungsdichtespektrum des stochastischen Prozesses (X(t))t≥0 . 11.11 Bemerkung: (a) Wegen ϕXX (t1 , t2 ) = ϕXX (t2 , t1 ) ist ϕXX in 11.10 eine gerade Funktion: ϕXX (τ ) = ϕXX (−τ ) für alle τ ∈ R. (b) Es ist ΦXX (ω) ≥ 0 für jedes ω ∈ R (ohne Beweis). (c) Ist ΦXX integrierbar und ϕXX stetig, so gilt Z ∞ ΦXX (ω) e2πiωτ dω, ϕXX (τ ) = −∞ insbesondere also 2 E(X(t) ) = ϕXX (0) = Z ∞ τ ∈ R, ΦXX (ω) dω, −∞ sodass ΦXX (ω) die Leistungsverteilung auf den Frequenzen ω ∈ R angibt. 11.12 Weißes Gaußsches Rauschen Reelles weißes Gaußsches Rauschen ist ein stochastischer Prozess (X(t))t≥0 mit (i) für jedes t ≥ 0 ist X(t) normalverteilt; (ii) für jedes t ≥ 0 ist E(X(t)) = 0; (iii) für s 6= t sind X(s) und X(t) unabhängig (insbesondere ist der Prozess stationär); (iv) ΦXX (ω) = No 2 für jedes ω ∈ R (konstantes Leistungsdichtespektrum). Hierbei ist No 6= 0, da sonst X(t) = 0 für alle t. 11.13 Bemerkung: Wegen (iii) gilt ϕXX (τ ) = 0 für τ 6= 0. Mathematisch führt dies auf Schwierigkeiten, da ja Z ∞ No ϕXX (τ ) dτ = ΦXX (0) = 2 −∞ gelten soll, insbesondere darf man das Integral nicht als uneigentliches Riemann-Integral verstehen. 44 Man behilft sich mit der Deltafunktion δ, die mathematisch gesehen jedoch keine Funktion sondern eine sogenannte “Distribution” ist. Wir betrachten δ hier als Objekt, das folgendermaßen charakterisiert ist: jede stetige und beschränkte komplexwertige Funktion g : R → C gilt: RFür ∞ g(τ )δ(τ ) dτ = g(0). −∞ Das Integral ist hierbei nur als Schreibweise R ∞ zu verstehen. Man stellt sich vor: δ(τ ) = 0 für τ 6= 0, und δ(0) ist “so unendlich”, dass −∞ δ(τ ) dτ = 1 gilt (wende obige Eigenschaft auf g(τ ) = 1 an!). Mithilfe von δ stellen wir fest: Für ϕXX (τ ) = N2o δ(τ ) gilt dann tatsächlich Z ∞ No ΦXX (ω) = ϕXX (τ ) e−2πiωτ dτ = , ω ∈ R, 2 −∞ wenn man obige Eigenschaft für festes ω ∈ R auf die durch g(τ ) = stetige beschränkte Funktion g anwendet. No −2πiωτ e 2 definierte Bemerkung: Die charakterisierende Eigenschaft von δ lässt sich auf Funktionen g übertragen, die auf einem Intervall (−ε, ε) stetig sind. Bemerkung: Es ist nach diesen Ausführungen vielleicht nicht überraschend, dass weißes Rauschen als stochastischer Prozess im Sinne unserer Definition 11.1 gar nicht existiert. Zur präzisen mathematischen Formulierung muss man wieder auf Distributionen zurückgreifen und weißes Rauschen als verallgemeinerten stochastischen Prozess definieren (wie auch δ nicht als Funktion existiert, sondern als verallgemeinerte Funktion). Wie bei δ auch, soll uns das hier nicht groß stören. 11.14 Bemerkung: Normalerweise fordert man in der Definition des weißen Rauschens statt (i) und (iii): (i’) der Prozess (X(t))t≥0 ist ein Gaußscher Prozess, d.h. für alle n ∈ N und alle 0 ≤ t1 < t2 < . . . < tn genügt der Vektor von Zufallsvariablen (X(t1 ), X(t2 ), . . . , X(tn )) einer mehrdimensionalen Normalverteilung (→ Jondral/Wiesler); (iii’) der Prozess (X(t))t≥0 ist stationär. Die Eigenschaften (i), (ii), (iii), (iv) sind zu den Eigenschaften (i’), (ii), (iii’), (iv) äquivalent, wobei man aber Eigenschaften der mehrdimensionalen Normalverteilung benutzen muss (die wir nicht betrachtet haben): 45 Man beachte, dass (iv) – wie oben angedeutet – ϕXX (τ ) = N2o δ(τ ) impliziert. Damit sind X(t) und X(s) für t 6= s unkorreliert. Da der Vektor (X(t), X(s)) normalverteilt ist, sind X(t) und X(s) dann sogar unabhängig (→ Jondral/Wiesler). Umgekehrt implizieren (i) und (iii), dass der Vektor (X(t1 ), . . . , X(tn )) einer mehrdimensionalen Normalverteilung genügt, die Kovarianzmatrix ist in diesem Fall eine Diagonalmatrix. Fordert man (i’), (ii) und (iii’), so kann man (iv) für praktische Zwecke durch eine der folgenden Eigenschaften ersetzen (hierbei ist B > 0 und ωc viel größer als B/2): No /2 , |ω| ≤ B/2 , was einem tiefpassbegrenztem weißen 0 , sonst Rauschen entspricht; No /2 , |ω − ωc | ≤ B/2 (iv”) ΦXX (ω) = , was einem bandpassbegrenztem 0 , sonst weißen Rauschen entspricht. (iv’) ΦXX (ω) = In diesen Fällen existiert ϕXX als Funktion und kann über Fourierinversion (vgl. die Formel in 11.11(c)) berechnet werden. 46