Mitschriften zur Vorlesung Mathematisch Stochastische ” Modelle“ Sommersemester 2017 erstellt von: Eric Hähner und André Dietrich Vorlesung wurde gehalten von: Prof. Dr. Anja Voß-Böhme 6. Juli 2017 1 INHALTSVERZEICHNIS Inhaltsverzeichnis 1 Einleitung 2 2 Grundlagen der Wahrscheinlichkeitstheorie 2.1 Wahrscheinlichkeitsexperimente und Zufallsvariablen . . . . . . . . . . . 2.2 statistische und axiomatische Definition der Wahrscheinlichkeit . . . . . . 2.3 Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Wichtige diskrete Verteilungen und zugehörige Zufallsexperimente 2.3.2 Wichtige stetige Verteilungen und zugehörige Zufallsexperimente . 2.4 Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Berechnung der Verteilungsfunktion für stetige Zufallsvariablen . 2.4.2 Verteilungsfunktionen von diskreten Zufallsvariablen . . . . . . . 2.4.3 Transformationssatz . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Diskrete zufällige Vektoren . . . . . . . . . . . . . . . . . . . . . . 2.5.2 Stetige zufällige Vektoren . . . . . . . . . . . . . . . . . . . . . . 2.6 Bedingte Wahrscheinlichkeiten und Unabhängigkeit . . . . . . . . . . . . 2.7 Erwartungswerte und Momente . . . . . . . . . . . . . . . . . . . . . . . 2.8 Das Gesetz der großen Zahlen (GGZ) und der Zentrale Grenzwertsatz (ZGWS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 Abhängigkeitsmaße: Kovarianz und Korrelation . . . . . . . . . . . . . . 2.10 Momentenerzugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . 5 5 7 8 8 9 12 12 14 16 19 19 20 23 26 3 Zufallszahlen und Monte-Carlo-Simulation 3.1 Monte-Carlo-Simulation . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Stochastische Integration . . . . . . . . . . . . . . . . . . . 3.1.2 Monte-Carlo-Optimierung . . . . . . . . . . . . . . . . . . 3.1.3 In-silico Experimente . . . . . . . . . . . . . . . . . . . . . 3.2 Erzeugung von Zufallszahlen mit Gleichverteilung auf [0,1] . . . . 3.3 Erzeugung von Zufallszahlen mit beliebiger diskreter Verteilung . 3.4 Erzeugung von Zufallszahlen mit stetiger Verteilung . . . . . . . . 3.4.1 Inversionsmethode für stetige Verteilungen . . . . . . . . . 3.4.2 Annahme - Verwerfungs-Methode für stetige Verteilungen . 3.4.3 Erzeugung normalverteilter Zufallszahlen . . . . . . . . . . . . . . . . . . . . 46 46 46 49 49 50 51 54 54 56 62 . . . . . . 64 64 64 66 68 69 72 4 Markovketten mit diskreter Zeit 4.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Definition und Grundlagen . . . . . . . . . . . . . . . . . . . . . . 4.3 Klassifikation von Zuständen . . . . . . . . . . . . . . . . . . . . . 4.4 Rückkehrzeiten und Periodizität . . . . . . . . . . . . . . . . . . . 4.5 Hauptsatz für ergodische Markovketten . . . . . . . . . . . . . . . 4.6 Nichtergodische endliche Markovketten und Absorptionsverhalten 6. Juli 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 35 41 Vorlesung MSM SS17 2 INHALTSVERZEICHNIS 1 Einleitung Beispiel Ticketbuchung Problem A: Es gibt 100 Plätze für eine Veranstaltung. Die zugehörigen Tickets werden über einen Zeitraum von 10 Wochen verkauft, wobei in der ersten Woche ca. 50% der Tickets verkauft werden, in der zweiten ca. 25% usw. Erfahrungsgemäß nehmen 20% der Käufer am Ende den Platz nicht wahr, deshalb sollen mehr als 100 Tickets verkauft werden. Wie viele Tickets können verkauft werden ohne allzu großes Risiko für eine Überbuchung? Wie viele Tickets werden verkauft? 1. Woche: 50% =0,5 2. Woche: 25% = 0,25 ... 10. Woche: 10 1 2 10 X 1 k k=1 2 1 − ( 21 )11 = −1 1 − 12 = 1 − ( 12 )11 1 2 −1 1 1 = (2 − 2( )11 ) − 1 = 1 − ( )10 ≈ 1 2 2 y Annahme: Alle angebotenen Karten werden verkauft Risiko der Überbuchung: Y ...Anzahl der Leute, die kommen, wenn N Karten verkauft wurden Y > 100...Ereignis der Überbuchung P (Y > 100)...Risiko der Überbuchung Ziel: P (Y > 100) ≤ α (1) z.B. α = 0.01, α = 0.05, α = 0.1 α...Konsequenzen für Überbuchung, je größer, desto weiter kann von 100 abgewichen werden Einflussgröße: x = N ...Anzahl der verkauften Tickets y Wie groß darf N maximal sein, so dass 1 nicht verletzt ist? 6. Juli 2017 Vorlesung MSM SS17 3 INHALTSVERZEICHNIS Überschlag: 80 z(= 100) = 100 N z = 0.8 · N ⇒ N 100 = 125 0.8 Y = X1 + X2 + ... + XN ( 1 Kunde i kommt X1 = 0 Kunde i kommt nicht P (Xi = 1) = 0.8 P (Xi = 0) = 1 − P (Xi = 1) Xi ∼ B(0.8)1 Annahme 1: Alle Kunden sind in ihrem Entscheidungsverhalten gleich Annahme 22 : X1 , ..., N sind unabhängig (notwendig wegen fehlenden Daten) yN ∼ B(N 3 , 0.84 )...Anzahl der Erfolge in N Bernoulli Versuchen n k P (Y = k) = p (1 − p)n−k k k = 1, ..., n; n = N ; p = 0.8 speziell: P (YN > 100) = P (YN = 101) + P (YN = 102) + ... + P (YN = N ) N N 101 N −101 = (0.8) (0.2) + ... + (0.8)N (0.2)0 ≤ α 101 N 1 Binomialverteilung mit Wahrscheinlichkeit 0.8 Wenn einer absagt, sagen davon abhängig keine anderen ab 3 Anzahl der Versuche 4 Erfolgswahrscheinlichkeit 2 6. Juli 2017 Vorlesung MSM SS17 4 INHALTSVERZEICHNIS konkret: α = 0.05 ⇒ Wie groß ist N ? YN ∼ B(N, 0.8) k N ·p N · p...Erwartungswert N · p · (1 − p)...Varianz 5 YN ≈ N N p, N p(1 − p) 100 − N p P (YN > 100) = 1 − Φ p ≤ α = 0.05 N p(1 − p)6 100 − N p yp = z1−α = z0.95 = 1.645 N p(1 − p) p 100 − N p = 1.645 · N p(1 − p) N = 116 5 Normalverteilung 6. Juli 2017 Vorlesung MSM SS17 2.1 5 WAHRSCHEINLICHKEITSEXPERIMENTE UND ZUFALLSVARIABLEN 2 Grundlagen der Wahrscheinlichkeitstheorie 2.1 Wahrscheinlichkeitsexperimente und Zufallsvariablen Fokus: Vorgänge, die eine gewisse Bandbreite/Fluktuationen im Ergebnis haben Ziel: 1. Unsicherheit über Versuchsausgänge quantifizieren 2. mit dieser Unsicherheit in komplexeren Zusammenhängen umgehen Beispiel: würfeln mit 2 Würfeln Ω = {(1, 1), (1, 2), ..., (1, 6), (2, 1), ..., (6, 6)} ω ∈ Ω, z.B. ω = (2, 3)...Elementarereignis {ω} = {(2, 3)}...atomares Ereignis7 A =“Augensumme 5“= {(1, 4), (2, 3), (3, 2), (4, 1)}...Ereignis B =“Augensumme 14“= ∅...unmögliches Ereignis C =“Augensumme größer 1“= Ω...sicheres Ereignis Die Menge A aller Ereignisse heißt Ereignisalgebra A = P(Ω) = {∅, {(1, 1)}, ..., {(6, 6)}, ..., Ω} Bemerkung: Falls Ω = R oder Ω = (a, b) (ein Intervall), dann wird als Ereignissystem A die kleinste Menge genommen, die alle Teilintervalle I ⊂ Ω und zu je zwei Intervallen I1 , I2 auch I1 , I2 , I1 ∪ I2 , I1 ∩ I2 und I1 \I2 bzw. I2 \I1 enthält. (Maßtheorie) A =“Augensumme ist nicht 5“= {(1, 1), (1, 2), ...} B =“erster Wurf ist ungerade“= {(1, 1), ..., (1, 6), (3, 1), ..., (3, 6), (5, 1), ..., (5, 6)} A ∩ B =“Augensumme ist 5 und erster Wurf ist ungerade= {(1, 4), (3, 2)} Bemerkung: Gleichheit 2er Ereignisse prüft man indem man A ⊂ B ( A zieht B nach ” sich“) UND B ⊂ A ( B zieht A nach sich) prüft ” Beispiel: Behauptung: Augensumme 5“=A=“Augensumme größer 4 aber nicht größer gleich 6“ ” 1. ω ∈ A ⇒ Augensumme ist 5⇒ ω ∈ C und ω ∈ / D ⇒C ∩D 2. ω ∈ C ∩ D ⇒ ω ∈ C und ω ∈ / D ⇒ Augensumme ist größer 4 und Augensumme ist nicht größer gleich 6, also kleiner als 6→Augensumme ist 5→ ω ∈ A 7 nur ein Element 6. Juli 2017 Vorlesung MSM SS17 2.1 6 WAHRSCHEINLICHKEITSEXPERIMENTE UND ZUFALLSVARIABLEN X : Ω → R : X(ω1 , ω2 ) = ω1 + ω2 ...Augensumme A = {X = 5} = {(ω1 , ω2 ) : X(ω1 , ω2 ) = ω1 + ω2 = 5} C = {X > 4} = {(ω1 , ω2 ) : X(ω1 , ω2 ) = ω1 + ω2 > 4} D = {X ≥ 6} B =“erster Wurf ist ungerade“ Y = Ω → R : Y (ω1 , ω2 ) = ω1 n o B = Y = 1, 3, 5} = Y ∈ {1, 3, 5} C =“Augensumme größer 4“, D =“Augensumme größer oder gleich 6“ A = C ∩ D = C\D Bemerkung: Zufallsvariablen richten den Fokus auf ein bestimmtes Merkmal des Versuchsausgangs X(Ω) = {X = (X|ω) mit ω ∈ Ω} Beispiel: würfeln mit 2 Würfeln: X(Ω){2, ..., 12} ∞ X1 X1 1 1 1 + + + ... = = 2 3 4 i i i=2 i≥2 A1 ∩ A2 ∩ A3 ∩ ... = ∞ \ Ai = i=1 A1 ∪ A2 ∪ A3 ∪ ... = ∞ [ i=1 Beispiel: \ Ai i∈N Ai = [ Ai i∈N I...Menge aller Klausuren im Studienjahr einer Studiengruppe Ai = zufällig gewählter Student schreibt in Klausur i ∈ I eine Eins“ ” Xi ...Klausurnote in Klausur i ∈ I eines beliebig gewählten Studenten S Ai = {Xi = 1}, Ai = zufällig gewählter Student hat in mindestens einer ” i∈I Klausur eine Eins“ S Ai = zufällig gewählter Student hat in keiner Klausur eine 1 ” i∈I T T = Ai = {Xi + 1} i∈I 6. Juli 2017 i∈I Vorlesung MSM SS17 2.2 7 STATISTISCHE UND AXIOMATISCHE DEFINITION DER WAHRSCHEINLICHKEIT 2.2 statistische und axiomatische Definition der Wahrscheinlichkeit (Man überlässt dem Anwender, woher die Wahrscheinlichkeiten kommen) Beispiel: Zuverlässigkeit eines Servers, T ...Zeitdauer in h bis zum ersten Ausfall, gesucht: Wahrscheinlichkeit, dass der Server mindestens 3h ohne Ausfall funktioniert. (Vorlesungsmaterial stat und axiomatische Def der Wkt Seite 4) 1...Indikator Hn (T ≥ 3 P (T ≥ 3) ≈ n ( 1 T ≥3 X := 1 = 0 sonst P (T ≥ 3 oder T ≤ 4) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = P (T ≥ 3) + P (T ≤ 4) − P (T ≥ 3, T ≤ 4) = P (T ≥ 3) + P (T ≤ 4) − P (3 < T ≤ 4) Komma → und 6. Juli 2017 Vorlesung MSM SS17 2.3 8 VERTEILUNGEN 2.3 2.3.1 Verteilungen Wichtige diskrete Verteilungen und zugehörige Zufallsexperimente Gegeben: Zufallsvariable X mit Zustandsraum S = X(Ω) Beispiel: X...Augensumme beim Würfeln mit zwei Würfeln (X : Ω → R) S = X( Ω |{z} = {2, 3, ..., 12 ={(1,1),...,(6,6)} Definition: :::::::::::: Eine Zuordnungsvorschrift, die jeder Menge ACS einen Wert p(A) = P (X ∈ A) zuordnet, heißt Verteilung. Bemerkung: Ist X diskret, dann reicht es, zu jedem Element xi ∈ S die Wahrscheinlichkeit pi = P (X = xi ) anzugeben. Beispiel: X...Augensumme beim Würfeln Ist X stetig, so wird die Verteilung von X in der Regel über eine Dichte f : R → R angegeben, mit deren Hilfe man die Wahrscheinlichkeiten P (X ∈ [a, b)) für beliebige a < b berechnen kann (siehe 2.3.2) Beispiel: X...Anzahl der Dreien in 3 Würfen eines Würfels, S = {0, 1, 2, 3, }, n = 3, einzelner Würfelwurf: B( 61 ), X ∼ B(3, 16 ) k 3−k 1 5 3 P (X = k) = , k = 0, 1, 2, 3 k 6 6 P 0 1 2 3 k y Verteilung von X: 1 1 pk 125 3 · 16 · 25 3 · 36 · 65 216 1 216 36 Beispiel: Y ...Zahl der Fehlversuche bis zur ersten Drei beim Würfeln Einzelexperiment: einmal Würfeln, 3 ja/nein?y B( 61 ) 2 P (Y = 0) = 61 , P (Y = 1) = 56 · 16 , P (Y = 2) = 65 · 16 Beispiel: Anzahl von diskreten Ereignissen in einem Zeitintervall k P (X = k) = λk! e−λ , λ ∈ (0, ∞)... Parameter, λ...durchschnittliche Zahl der Ereignisse, X...Anzahl der 100-jähigen Hochwasser in 50 Jahren λ= 1 100 Jahre · 50 Jahre = 1 2 ( 12 )2 − 1 1 z.B. P (X = 2) = e 2 = g1 e− 2 = 0, 075 = 7, 5% 2! Bemerkung: Viele diskrete Verteilungen haben keinenP Namen. Sie sind durch Angaxk ... be der Verteilungstabelle oder die Verrechnungsvorpk = P (X = xk ) 1 P schrift für pk = P (X = xk ) angegeben. Dabei gilt: p ≥ 0, pk = 1 xk ∈S 6. Juli 2017 Vorlesung MSM SS17 2.3.2 9 WICHTIGE STETIGE VERTEILUNGEN UND ZUGEHÖRIGE ZUFALLSEXPERIMENTE Beispiel: P (X = k) = λk −λ e ,λ k! ∈ (0, ∞)...Parameter, k = 0, 1, ... pk = P (X = k) ≥ 0 ∞ X λk k=0 k! e−λ = e−λ + e−λ · λ + e−λ · = e−λ · ∞ X λk k! |k=0{z } λ2 λ3 + e−λ · + ... 2 6 =1 eλ X...diskrete Zufallsvariable, S = {1, ..., n} oder S = N, (pk ) : pk = P (X = xk ), xk ∈ S bzw. k = 0, 1, ... 2.3.2 Wichtige stetige Verteilungen und zugehörige Zufallsexperimente Gegeben: Zufallsvariable X mit Zustandsraum S, wobei S überabzählbar ist, also z.B. S = [a, b] oder S = R oder S = (0, ∞) y X ist stetige Zufallsvariable. y Die Verteilung von X wird mit Hilfe einer Wahrscheinlichkeitsdichte (kurz W-Dichte, Dichte) beschrieben. Definition: :::::::::::: Eine Funktion f : R → R heißt Wahrscheinlichkeitsdichte, falls 1. f (x) ≥ 0, x ∈ R 2. f ist integrierbar und R∞ f (x) dx = 1 −∞ Bemerkungen: 1. Ist f die Wahrscheinlichkeitsdichte einer Zufallsvariable X, so erhält man die R Verteilung von X über p(A) = P (X ∈ A) = A f (x) dx, A ⊂ S. Insbesondere: Zb P (X < b) = f (x) dx −∞ Z+∞ P (X > a) = f (x) dx a Zb P (a < X ≤ b) = f (x) dx a P (X = a) = 0 2. Eine Dichte kann man als Grenzkurve eines Histogramms mit ganz feiner Klasseneinteilung auffassen. 6. Juli 2017 Vorlesung MSM SS17 2.3.2 10 WICHTIGE STETIGE VERTEILUNGEN UND ZUGEHÖRIGE ZUFALLSEXPERIMENTE Beispiel: Indikatorfunktion: f (x) = 1[1,2) (x) rechtsseitig stetig mit linksseitigem Grenzwert (rdlg rcll, cadlag) oder f (x) = x2 1[1,2) (x) f(x)= f(x)=x2 [1,2)(x) 1 [1,2)(x) 1 [ 1 [ ) 1A2 ) 2 A 1 Beispiel: U (0, 1) y jeder Wert zwischen 0 und 1 ist gleich wahrscheinlich“ ( b−a , ” Gleichverteilung) 1 b-a 1 0 a 1 b Beispiel: exp( 13 ) (Expotentialverteilung) Beispiel: N (0, 1) (Standard-Normalverteilung) Beispiel: N (2, 32 ) = N ( |{z} 2 , |{z} 9 ) Erw.-wert Varianz Varianz N(2,9) N(0,1) Erwartungswert 1 0 1 x -1 0 2 5 x fN(2,9) -1 6. Juli 2017 0 1 2 3 Vorlesung MSM SS17 2.3.2 11 WICHTIGE STETIGE VERTEILUNGEN UND ZUGEHÖRIGE ZUFALLSEXPERIMENTE X ∼ N (2, 32 ) y fX (x) = √1 2π·9 X−2 3 := Y y N (0, 1) 2 exp{− (x−2) }= 2·9 P (1 < X < 1.5) = 1.5 R 1 √1 18π √1 18π 2 exp{− (x−2) } 18 2 exp{− (x−2) } dx =? Problem: Stammfunktion ist nicht 18 als Formel aufschreibbar y Lösung: 1. Transformation auf Standard-Form: N (0, 1) 2. Verwendung einer Stammfunktion (numerisch ermittelt) Zz Φ(z) = −∞ x2 1 √ e− 2 dx 2π der N (0, 1)-Dichte Es gilt: 1.5 − 2 1−2 P (1 < x < 1.5) = Φ( √ ) − Φ( √ ) 32 32 Allgemein gilt: ::::::::::::::::: b−µ a−µ Falls X ∼ N (µ, σ 2 ), dann ist P (a < X < b) = Φ( √ ) − Φ( √ ), P (X < b) = σ2 σ2 b−µ b−µ Φ( √σ2 ); P (X > a) = 1 − Φ( √σ2 ) Also: 1 1 P (1 < X < 1.5) = Φ(− ) − Φ(− ) 6 3 = Φ(−0.167) − Φ(−0.33) = 1 − Φ(0.17) − (1 − Φ(0.33)) = Φ(0.33) − Φ(0.17) = 0.6293 − 0.5675 = 0.0618 = 6.18% fN(2,9) -1 0 1 2 3 Merke: ::::::: Φ(−z) = 1 − Φ(z) Φ(−∞) = 0 Φ(+∞) = 1 6. Juli 2017 Vorlesung MSM SS17 2.4 12 VERTEILUNGSFUNKTIONEN 2.4 Verteilungsfunktionen Bis hierhin klar: Ist X eine Zufallsvariable, dann ist die Verteilung von X gegeben durch: 1. Falls X diskret ist: Einzelwahrscheinlichkeiten pk = P (X = xk ), k = 0, 1, ... R 2. Falls X stetig: Wahrscheinlichkeitsdichte f : R → R : P (X ∈ A) = A f (x) dx Statt (pk ) bzw. f kann genau so gut die Verteilungsfunktion von X verwendet werden, um die Verteilung von X zu beschreiben. Definition: :::::::::::: Die Funktion F : R → R mit F (z) = P (X ≤ z) heißt Verteilungsfunktion der Zufallsvariablen X 2.4.1 Berechnung der Verteilungsfunktion für stetige Zufallsvariablen Gegeben: Zufallsvariable X mit Wahrscheinlichkeitsdichte f : R → R (z) fN(0,1) (-z) = 1- (z) -Z Rz F (z) = P (X ≤ z) = Z x f (x) dx, d.h. falls X stetig, dann ist die Verteilungsfunktion −∞ von X eine Stammfunktion der Dichte 11.04.17 Beispiel: X ∼ U [0, 2] ( f (x) = 12 1[0,2] (x) = 1 2 0 falls x ∈ [0, 2] sonst f(x) 0.5 0 6. Juli 2017 Z 2 Vorlesung MSM SS17 2.4.1 13 BERECHNUNG DER VERTEILUNGSFUNKTION FÜR STETIGE ZUFALLSVARIABLEN F (z) = P (X ≤ z) = 0 Rz 0 1 z<0 1 2 dx = [ 21 ]z0 = 12 z z≤0≤2 z>2 F(x) 1 F(0.5) 0 0.5 2 x Zz f (x) dx F (z) = −∞ f (x) = F 0 (x) (F muss differenzierbar sein für alle x ∈ R bis auf endlich viele Punkte) z<0 0 0 F (z) = 0 ≤ z ≤ 2 = f (z) 0 z>2 1 x 0 0 x F (z) ist monoton wachsend lim F (z) = 1 z→∞ lim F (z) = 0 z→−∞ , stetig stückweise differenzierbar 6. Juli 2017 Vorlesung MSM SS17 2.4.2 14 VERTEILUNGSFUNKTIONEN VON DISKRETEN ZUFALLSVARIABLEN Beispiel: P (0.5 < X ≤ 1.5), X ∼ U [0, 2] 0.5 0 = 1 1.5 − 0.5 = 2−0 2 ! Z1.5 1.5 = 0.5 1 1 dx = x 2 2 x 1.5 0.5 = 0.5 1 1 1 · 1.5 − · 0.5 = 2 2 2 ! = P (X ≤ 1.5) − P (X ≤ 0.5) = FX (1.5) − FX (0.5) 1 1 1 = · 1.5 − · 0.5 = 2 2 2 Bemerkung: In manchen Fällen kann die Verteilungsfunktion (technisch) nur numerisch berechnet werden, weil die Integration zu viele Schwierigkeiten bereitet. 2 Beispiel: Standard-Normalverteilung: ϕ(x) = Φ(z) = Rz −∞ x √1 e− 2 2π , x ∈ R...Dichte 2 x √1 e− 2 2π dx, z ∈ R...Verteilungsfunktion ist vertafelt bzw. wird numerisch berechnet. 2.4.2 Verteilungsfunktionen von diskreten Zufallsvariablen Gegeben: 0 z x h X...diskrete Zufallsvariable, Zustandsraum S = {x0 , x1 , ...}, Einzelwahrscheinlichkeiten pk = P (X = xk ), k = 0, 1, 2, ... Gesucht: FX (z) = P (X ≤ z) 6. Juli 2017 Vorlesung MSM SS17 2.4.2 15 VERTEILUNGSFUNKTIONEN VON DISKRETEN ZUFALLSVARIABLEN Beispiel: xk 0 1 2 P pk sk (kumulierte Wsk.) 1 4 1 2 1 4 1 4 3 4 1 1 P (X ≤ z) = F (z) = 0 1 z<0 0≤z<1 1≤z<2 z≥2 4 3 4 1 0.5 0.25 0 z 1 xk 2 F(z) 1 0.75 0.25 0 2 z 2 z 1 Beispiel: Gegeben: F(z) 1 0.7 0.3 0 1 1.5 Gesucht: S, (pk )xk ∈S S = {1; 1.5; 2} xk 1 1.5 2 6. Juli 2017 pk 0.3 0.4 0.3 sk 0.3 0.7 1 Vorlesung MSM SS17 2.4.3 16 TRANSFORMATIONSSATZ Definition: k P sk = pk , k = 0, 1, 2, ......kumulierte Einzelwahrscheinlichkeiten :::::::::::: l=0 s−1 = 0 (Vereinbarung) Satz: ::::: Ist X diskrete Zufallsvariable mit Zustandsraum S = {x0 , x1 , ...} und kumulierten Einzelwahrscheinlichkeiten (sk )k=0,1,... dann gilt: 0 z < x0 s f = x ≤ z < x 0 0 1 F (z) = s f = x ≤ z < x 1 1 2 ... ... 2.4.3 Transformationssatz ( 1 x ∈ [0, 1] Beispiel: Gegeben: X ∼ U [0, 1], f x = 1[0,1] (x) = 0 sonst f(x) 1 0 1 x Gesucht: Verteilung von Y = 2X + 1, SY = [1, 3], Y stetig FY (z) = P (Y ≤ z) = P (2X + 1 ≤ z) = P (2X ≤ z − 1) z−1 z−1 ) = FX (z̃) = FX ( = P (X ≤ ) 2 } 2 | {z =z̃ fy (z) = d z−1 d F y(z) = FX ( ) dz dz 2 z−1 d z−1 = fX ( · ( ) |{z} | {z 2 } |dz {z2 } Kettenregel äußere Ableitung innere Ableitung ( 1· z−1 1 = fX ( )· = 2 2 0 6. Juli 2017 1 2 z−1 2 ∈ [0, 1] sonst Vorlesung MSM SS17 2.4.3 17 TRANSFORMATIONSSATZ Nebenrechnung: z−1 z−1 ∈ [0, 1] ⇔0 ≤ ≤1 2 2 0≤z−1≤2 1≤z≤3 ⇔z ∈ [1, 3] Also: f(x) 0.5 ( fY (z) = 1 2 0 z ∈ [1, 3] sonst 0 3 1 x 12.04.17 Beispiel: X ∼ [0, 1], y = 2x + 1 → Y ∼ U [1, 3] X≤ z−1 z }|2 { FY (z) = P (Y ≤ z) = P (2x + 1 ≤ z) z−1 = P (X ≤ ) 2 z−1 ) = FX ( 2 1[0,1] ( z−1 )=1[1,3] (z) 2 z fY (z) = = }| { z−1 ) fX ( 2 · 1 2 1 · 1[1,3] (z) → y ∼ U [1, 3] 2 allgemein: X ∼ FX , y = aX + b oder a < 0 z−b ) a z−b z−b = FX ( ) = P (X ≥ ) a a z−b = 1 − P (X ≤ ) a z−b = 1 − FX ( ) a FY (z) = P (ax + b ≤ z) = P (X ≤ fY (z) = fX ( 6. Juli 2017 z−b 1 )· a a Vorlesung MSM SS17 2.4.3 18 TRANSFORMATIONSSATZ Satz(Transformationssatz): ::::::::::::::::::::::::::::::: Sei X eine Zufallsvariable mit Dichte fX (1) Sind a, b ∈ R mit a 6= 0 so hat die Zufallsvariable y = ax + b die Dichte fY = fX z − b a · 1 |a| (2) Ist die Funktion g : R → R streng monoton, so hat die Zufallsvariable Y = g(x) die Dichte fY (z) = fX (g −1 (z)) · |(g −1 )0 (z)| Bemerkung: Ist ein SF von (2) f = g(x) = ax + b, a 6= 0, dann g −1 (z) = z−b a und (g −1 )0 (z) = 1 a Nebenrechnung: g(x) = y ax + b = y y−b x= a Bewertung von (2): X z }| { g −1 (z))9 FY (z) ==== P (Y ≤ z) ==== P (g(X) ≤ z) =8 P (g −1 (g(X)) ≤ ≥ Def. Def. FY Y 1. Fall: g ist wachsend Def. FY (z) = P (X ≤ g −1 (z)) ==== FX (g −1 (z)) FX −1 fy (z) = fX (g (z)) · ( g −1 (z) | {z } )0 ≥0 da g und somit g −1 streng monoton wachsend 2. Fall: fY (z) = −fX (g −1 (z)) · (g −1 (z))0 | {z } ≤0 weil g und auch g −1 monoton fallend wzbw. 8 9 Anwendung von g −1 , g −1 existiert weil Funktion streng monoton ≤ für g wachsend, ≥ für g fallend 6. Juli 2017 Vorlesung MSM SS17 2.5 19 ZUFALLSVEKTOREN 2.5 Zufallsvektoren Oftmals wird nicht nur ein Merkmal X sondern mehrere Merkmale X1 , ..., Xn gleichzeitig betrachtet Beispiel: X... Anzahl Durchsichten, Y ... Anzahl der Motorpannen eine statistische Untersuchung von 1000 Kunden ergab: k X: pk 0 0.1 1 0.2 P 2 0.7 1 und k Y: pk 2.5.1 0 0.6 1 0.31 2 0.08 P 3 0.01 1 Diskrete zufällige Vektoren Bei Unabhängigkeit von X und Y würde man erwarten: XY 0 1 2 P 0 0.06 0.12 0.42 0.6 1 0.031 0.062 0.217 0.31 2 ... ... ... 0.08 3 ... ... ... 0.01 P 0.1 0.2 0.7 1 y Abweichung in mindestens einem Feld, z.B. p00 = 0.02 6= 0.06 = p0. |{z} · p.0 |{z} P (X=0)=0.1 P (Y =0)=0.6 Wenn ein Kunde 2 Durchsichten hatte/plant, wie groß ist dann die Wahrscheinlichkeit keine Motorpanne zu haben? =0,X=2) P (Y = 0|X = 2) = 0.53 = 0.757 = P (YP (X=2) 0.7 Wiederholung: bedingte Wahrscheinlichkeit: P (A|B) = A P (A ∩ B) P (B) B Ω 6. Juli 2017 Vorlesung MSM SS17 2.5.2 20 STETIGE ZUFÄLLIGE VEKTOREN 2.5.2 Stetige zufällige Vektoren y µy (x,y) x µx Definition: :::::::::::: x Sei X = ein stetiger zufälliger Vektor mit Dichte f(X,Y ) (x, y) ≥ 0. Dann heißen y die Funktionen Z∞ fX (x) = f(X,Y ) (x, y) dy, x ∈ R −∞ und Z∞ f(X,Y ) (x, y) dx, y ∈ R fY (x) = −∞ x . die Randdichten des Vektors X = y x Wenn eine Komponente k von einzeln betrachtet wird, dann ist die Verteilung y dieser Komponente durch die zugehörige Randdichte gegeben: fX (x)...(Rand)dichte der Zufallsvariable X fY (y)...Dichte der Zufallsvariable Y Allgemein gilt: ::::::::::::::::: Z Z P ((X, Y ) ∈ B) = f(X,Y ) (x, y) dxdy, B ⊂ R2 B insbesondere für B = [a, b] × [c, d] ⊂ R2 Zb Zd P (a ≤ X ≤ b, c ≤ Y ≤ d) = f(X,Y ) (x, y) dxdy a 6. Juli 2017 c Vorlesung MSM SS17 2.5.2 21 STETIGE ZUFÄLLIGE VEKTOREN 19.04.17 Beispiel: y B a x b c d ( f(X,Y ) (x, y) = R∞ R1 P (0 ≤ X ≤ 1, Y ≥ 1) = y=1 x=0 1 xe−y 2 0 1 xe−y 2 x ∈ [0, 2], y ≥ 0 sonst dxdy Nebenrechnung: Z1 1 −y 1 xe dx = e−y 2 2 x=0 Z1 x dx 0 1 1 = e−y · [ x2 ]1x=0 2 2 1 −y 1 1 = e · [ − 0] = e−y ... Wert des inneren Integrals 2 2 4 Z∞ P (0 ≤ X ≤ 1, Y ≥ 1) = 1 −y e dy 4 y=1 1 · [−e−y ]∞ 1 4 1 1 = [−0 + e−1 ] = e−1 = 0.092 = 9.2% 4 4 = Y ≥0 P (1 ≤ X ≤ 1.5) = P (1 ≤ X ≤ 1.5, −∞ ≤ Y ≤ ∞) ==== P (1 ≤ X ≤ 1.5, 0 ≤ Y < ∞) Z1.5 Z∞ 1 −y = xe dydx 2 x=1 y=0 Z1.5 = 1 1 1 1 1.25 5 x dx = x2 |11.5 = · 2.25 − · 1 = = 2 4 4 4 4 16 x=1 1 = x 2 Z∞ 1 1 1 e−y dy = x[−e−y ]∞ 0 = x[−0 + 1] = x 2 2 2 y=0 6. Juli 2017 Vorlesung MSM SS17 2.5.2 22 STETIGE ZUFÄLLIGE VEKTOREN Allgemein: Z∞ fX (x) = 1 −y xe dy 2 y=0 Z2 fY (y) = 1 −y xe dx 2 x=0 1 = e−y · 2 Z2 x dx y=0 1 1 = e−y · [ x2 ]20 2 2 1 −y = e · [2 − 0] = e−y , ...(Rand)dichte von Y 2 10 1 fX,Y (x, y) = xe−y , x ∈ [0, 2], y ≥ 0 2 = fX (x) · fY (y) y X, Y sind unabhängig y Z1 Z∞ P (0 ≤ X ≤ 1, Y ≥ 1) = 1 −y xe dydx 2 x=0 y=1 1 x ∞ e−y 2 Z1 z }| { Z z }| { = fX (x) fY (y) dy x=0 y=1 Z1 fX (x) · P (Y ≥ 1) dx = x=0 Z1 = P (Y ≥ 1) · fX (x) dx x=0 = P (Y ≥ 1) · P (0 ≤ X ≤ 1) 10 Randdichte von X: fX (x) 6. Juli 2017 Vorlesung MSM SS17 2.6 23 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT 2.6 Bedingte Wahrscheinlichkeiten und Unabhängigkeit Definition: :::::::::::: Seien A, B zwei Ereignisse, wobei P (B) > 0. Dann heißt P (A|B) := P (A ∩ B) P (B) die bedingte Wahrscheinlichkeit von A unter der Bedingung B. Bemerkung: B A Ω P (A)...Anteil von A unter allen möglichen Ereignissen (Ω) P (A∩B) P (B) = PB (A)...Anteil von A in der Menge B, d.h. unter allen Ereignissen, wo B erfüllt ist Beispiel: W ...Ereignis, dass zufällig gewählter Student wieder weiblich ist H...Ereignis, dass zufällig gewählter Student wieder an HTWD immatrikuliert ist P (W ) = 0.5...50% aller Studierenden in Deutschland (Ω) ist weiblich P (W |H) =?...Anteil der weiblichen Studenten an der HTW (geschätzt 40%) y W und H sind abhängig Definition: :::::::::::: Zwei Ereignisse A, B heißen unabhängig, wenn P (A|B) = P (A) oder äquivalent P (A ∩ B) = P (A) · P (B) Bemerkung: ! (1) P (A|B) = P P(A∩B) = = P (A) y P (A ∩ B) = P (A) · P (B) (B) y Anteil der Eigenschaft A in der Menge aller Fälle mit Eigenschaft B ist genau so hoch wie in der Grundgesamtheit = Unabhängigkeit von A und B (2) P (A|B) · P (B) = P (A ∩ B)...allgemeine Form für den Durchschnitt zweier Ereignisse (gleichzeitiges Eintreten). Nur wenn P (A|B) = P (A), also A und B unabhängig sind, gilt P (A ∩ B) = P (A) · P (B) Beispiel: In einer Urne befinden sich 20 Kugeln, davon sind 5 schwarz und die restlichen weiß. Jemand zieht 3 Kugeln nacheinander. Gesucht: Wahrscheinlichkeit 3 schwarze Kugeln zu ziehen. Ak ...“schwarze Kugel im k-ten Zug, k = 1, 2, 3 y P (A1 ∩ A2 ∩ A3 ) = P (A3 ∩ A2 ∩ A1 ) = P (A3 ∩ A2 |A1 ) · P (A1 ) 1 5 = P (A1 ) = 20 4 6. Juli 2017 Vorlesung MSM SS17 2.6 24 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT 1. Fall (mit Zurücklegen): P (A3 ∩ A2 |A1 ) = P (A3 ∩ A2 ) = P (A3 |A2 ) · P (A2 ) 5 5 = P (A3 ) · P (A2 ) = · 20 20 5 3 1 = = 0.01562 y P (A1 ∩ A2 ∩ A3 ) = 20 64 2. Fall (ohne Zurücklegen): P (A3 ∩ A2 |A1 ) = P (Ã3 ∩ Ã2 = P (Ã3 |Ã2 ) · Ã2 = P (A3 |A2 ∩ A1 ) · P (A2 |A1 ) · P (A1 ) 5 4 3 = · · = 0.00877 20 19 18 Beispiel: Ziehen ohne Zurücklegen. 20 Kugeln in der Urne, davon 5 schwarz, Rest weiß Zug1 5/20 15/20 Zug2 4/19 S 15/19 W S 5/19 W 14/19 Zug3 3/18 S W 4/18 S W 4/18 S W 5/18 S W S W Wie groß ist die Wahrscheinlichkeit, im dritten Zug schwarz zu ziehen? 5 4 3 5 15 4 15 5 4 15 14 5 · · + · · + · · + · · 20 19 18 20 19 18 20 19 18 20 19 18 = P (A1 ∩ A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) P (A3 ) = = P (A3 ∩ (A1 ∩ A2 ) ∪ A3 ∩ (A1 ∩ A2 ) ∪ A3 ∩ (A1 ∩ A2 ) ∪ A3 ∩ (A1 ∩ A2 ) = P (A3 ∩ (A1 ∩ A2 ∪ A1 ∩ A2 ∪ A1 ∩ A2 ∪ A1 ∩ A2 ) | {z } =Ω A1 A2 A3 A1 A1 A1 A1 A2 A2 A2 A2 Vereinigung ergibt Die Mengen sind Disjunkt P (A3 ) =P (A3 |A2 ∩ A1 ) · P (A2 ∩ A1 ) + P (A3 |A1 ∩ A2 ) · P (A2 ∩ A1 ) + P (A3 |A2 ∩ A1 ) · P (A2 ∩ A1 ) + P (A3 |A2 ∩ A1 ) · P (A2 ∩ A1 ) 6. Juli 2017 Vorlesung MSM SS17 2.6 25 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT Wie groß ist die Wahrscheinlichkeit, dass im ersten und zweiten Zug keine schwarze Kugel kam, wenn im dritten Zug eine schwarze Kugel gezogen wurde? B z }| { P (A1 ∩ A2 ) ∩ A3 P (A1 ∩ A2 |A3 ) = | {z } P (A3 ) B B B z }| { z }| { P (A3 | A1 ∩ A2 ) · P (A1 ∩ A2 ) = P (A3 ) 15 14 5 · · = 20 19 18 P (A3 ) | {z } s. oben Beispiel: Signalübertragung X...gesendetes Zeichen, X = 0, 1, 2; X ∼ U {0, 1, 2} Y ...empfangenes Zeichen, Y = 0, 1, 2 Senden Empfangen X 0 1/3 1/3 1 1/3 2 1 3 · 0.01 + 13 · 0.8 + 31 · 0.05 = 1 3 Y 0,01 0,8 0,05 0 1 2 · 0.86 = 0.287 = P (Y = 1) P (Y = 1) =P (Y = 1|X = 0) · P (X = 0) + P (Y = 1|X = 1) · P (X = 1) + P (Y = 1|X = 2) · P (X = 2) 1 1 1 =0.01 · + 0.8 · + 0.05 · = 0.287 3 3 3 P (X = 1, Y = 1) P (Y = 1|X = 1) · P (X = 1) = P (Y = 1) P (Y = 1) 1 0.8 · 3 = = 0.93 0.287 P (X = 1|Y = 1) = 6. Juli 2017 Vorlesung MSM SS17 2.7 26 ERWARTUNGSWERTE UND MOMENTE 2.7 Erwartungswerte und Momente Beispiel: Erwartete Kosten durch Störfälle X...Zahl der Störfälle pro Tag EX = 0.3 · 0 + 0.4 · 1 + 0.2 · 2 + 0.08 · 3 + 0.02 · 4 = 1.12 Y ...Kosten durch Störfälle pro Tag, Y = 6 − 5 1+X EY = 0.3 · |{z} 1.00 +0.4 · |{z} 3.50 +0.2 · |{z} 4.33 +0.08 · |{z} 4.75 +0.02 · |{z} 5.00 = 3.05 g(0) g(1) g(2) g(3) g(4) E · g(X) = 0.3 · g(0) + 0.4 · g(1) + 0.2 · g(2) + 0.08 · g(3) + 0.02 · g(4) 6= g(EX)! Beispiel: T ...Zeitdauer bis zum Ausfall eines Servers P Klasseneinteilung möglichst fein R ET = xi f (xi )∆xi −−−−−−−−−−−−−−−−−−→ xf (x) dx | {z } ∆xi →0 xi P (T ∈(xi ± 12 ∆xi )) Gegeben: X... Zufallsvariable mit Zustandsraum S = {x0 , x1 , ...} oder S = (a, b) h : S → R ... Funktion Definition: :::::::::::: P P x∈S h(x) · P (X = xi ) = i h(xi )pi Eh(X) = Rb h(x)f (x) dx falls X diskret falls X stetig a heißt Erwartungswert der Zufallscariable h(X) Bemerkung: (1) Wenn X Zufallsvariable und h (stetige Funktion, dann ist h(X) = Y auch eine Zufallsvariable. P falls X diskret i xi p i (2) h(x) = x → EX = Rb xf (x) dx falls X stetig a Schwerpunkt“ der Verteilung ” P k falls X diskret i xi p i k k (3) h(x) = x , k ∈ N → EX = Rb xk f (x) dx falls X stetig a Bezeichnung: k-tes Moment von X 6. Juli 2017 Vorlesung MSM SS17 26.04.17 2.7 27 ERWARTUNGSWERTE UND MOMENTE (4) h(x) = (x − EX)2 → E(X − EX)2 =: Var X...Varianz von X !Es gilt: Var X = E(X 2 ) − (EX)2 Trägheitsmoment bei Rotation um den Schwerpunkt EX“ der Verteilung von X ” 1 2 1 3 2 3 4 y Maß für die Streuung der Werte √ Bezeichnung: σx = Var X...Streuung Beispiel: (1) X ∼R(p) y S = {0, 1} X EX = xi pi = 0 · (1 − p) + 1 · p = p y P (X = 1) = EX i falls X nur Werte 0 und 1 annimmt X EX 2 = x2i pi = 01 · (1 − p) + 11 · p = p i Var X =E(X 2 ) − (EX)2 = p − p2 = p(1 − p) (2) X ∼ N (µ, σ 2 ), µ = 0, σ 2 = 1, also X ∼ N (0, 1) y S = (−∞, ∞) x 0 Z∞ Z∞ x · f (x) dx = EX = −∞ −∞ x2 1 x √ e− 2 dx 2π | {z } ϕ(x)=ϕ(−x) Z∞ Z0 = xϕ(x) dx + x=−∞ 6. Juli 2017 xϕ(x) dx 0 Vorlesung MSM SS17 2.7 28 ERWARTUNGSWERTE UND MOMENTE Bemerkung: (a) ϕ(x) y gerade Funktion, symmetrisch zur y-Achse (b) xϕ(x) = −[(−x)ϕ(−x)] y ungerade Funktion, punktsymmetrisch zu (0, 0) R0 R0 R∞ Substitution: −x = z : (−z)ϕ(−z) (−dz) = zϕ(z) dz = − zϕ(z) dz z=∞ z=∞ 0 Nebenrechnung: z = z(x) = −x dz = z 0 (x) = −1 y dx = −dz dx y EX = − R∞ zϕ(z) dz + R∞ xϕ(x) dx = 0 0 0 Var X = 1 (ohne Rechnung) !Allgemein gilt: Falls X ∼ N (µ, σ 2 ), dann EX = µ, Var X = σ 2 (3) X ∼ U (a, b) 1 b-a a a+b b 2 Zb x· EX = 1 dx b−a a 1 1 2b 1 1 2 1 2 [ x ]a = [ b − a] b−a 2 b−a 2 2 1 b2 − a2 1 (b + a)(b − a) = · = · 2 b−a 2 (b − a) 1 = (b + a) 2 = U{0,1,2,3,4,5} Schwerpunkt B(5,0.5) 1/6 0 ( 1 2 X 3 ) 4 5 0 1 ( X ) 2 3 4 5 Varianz Definition: :::::::::::: Eine Zufallsvariable X mit EX = 0 und Var X = 1 heißt standardisiert. 6. Juli 2017 Vorlesung MSM SS17 2.7 29 ERWARTUNGSWERTE UND MOMENTE Satz: ::::: (1) Sei X eine Zufallsvariable und seien a, b ∈ R. Dann gilt: E(aX + b) = a · EX + b; Var(aX + b) = a2 Var X (Falls g(x) linear, dann ist Eg(X) = g(EX), sonst nicht!) (2) Falls X Zufallsvariable mit EX = µ und Var X = σ 2 > 0. Dann gilt: X −µ X − EX Z= √ = √ 2 Var X σ ist eine standardisierte Zufallsvariable Beweis von (1) nur für X stetig (X diskret → Selbststudium) Z∞ E( aX | {z+ }b ) = g(x)=ax+b −∞ (ax + b) fX (x) dx | {z } g(x) Z∞ (ax · fX (x) + b · fX (x)) dx = −∞ Z∞ Z∞ ax · fX (x) dx + = −∞ b · fX (x)) dx −∞ Z∞ =a −∞ Z∞ x · fX (x) dx + b } | {z −∞ =EX f (x) dx | X{z } =1 = a · EX + b Var(aX + b) → Selbststudium (2) 1 X −µ E √ = √ E(X − µ) σ2 σ2 2 X −µ 1 Var √ = √ Var(X − µ) σ2 σ2 µ µ 1 z}|{ z}|{ = 2 ( EX − Eµ ) σ = 1 Var X σ 2 | {z2 } =0 =1 σ 03.05.17 6. Juli 2017 Vorlesung MSM SS17 2.7 30 ERWARTUNGSWERTE UND MOMENTE Satz (Ungleichung von Tschebyschev)): :::::::::::::::::::::::::::::::::::::::::::::: Sei X eine Zufallsvariable mit EX = µ, Var X = σ 2 . Dann gilt für beliebige > 0 P (|X − µ| ≥ c) ≤ fx(x) 2 σ2 c2 11% 2 C2 C2 µ-C µ µ+C x µ-3 µ µ+3 x Bemerkung: Die Ungleichung von Tschebychev ist besonders aussagekräfig für c = k · σ, k = 2, 3, ... Dann gilt P (|X − µ| ≥ k · σ) ≤ 1 σ2 = 2 2 (k · σ) k Also 1 = 25% 4 1 P (|X − µ| ≥ 3σ) ≤ = 11% 9 usw. P (|X − µ| ≥ 2σ) ≤ Bereits bekannt: E(aX + b) = aEX + b, a, b ∈ R Var(aX + b) = a2 Var(X) Num: (X, Y ) bzw. (X1 , ..., XN ) Zufallsvektor geg. n P y X + Y, Xi , XY, f (X, Y ) sind ebenfalls Zufallsvariablen i=1 y E(X + Y ) =?, EXY =?, Var(X + Y ) =? 6. Juli 2017 Vorlesung MSM SS17 2.7 31 ERWARTUNGSWERTE UND MOMENTE Beispiel: X ∼ B(0.5), Y ∼ B(0.5), X, Y unabhängig xy 0 1 0 0.25 0.25 0.5 1 0.25 0.25 0.5 0.5 0.5 1 Z =X +Y Z 0 0.25 P 1 0.5 0.25 1 EZ = 0 · 0.25 + 1 · 0.5 + 2 · 0.25 = 1.0 = 0.5 + 0.5 = EX + EY Var Z : EZ 2 =02 · 0.25 + 12 · 0.5 + 22 · 0.25 = 1.5 y Var Z =EZ 2 − (EZ)2 =1.5 − 12 = 0.5 weil X und Y unabh. ============== Var | {zX} + Var | {zY} 0.5(1·0.5) 0.5(1−0.5) Satz: Für beliebige Zufallsvariablen X, Y und a, b ∈ R gilt: ::::: 1. E(aX + bY ) = aEX + bEY 2. Falls X, Y unabhängig, dann gilt Var(aX + bY ) = a2 Var X + b2 Var Y . Bemerkung: Sukzessive Anwendung des Satzes liefert 1. E(X1 + ... + Xn ) = EX1 + ... + EXn 2. Var(X1 + ...Xn ) = Var X1 + ... Var Xn , falls X1 , ..., Xn unabhängige Zufallsvariablen Insbesondere gilt für X1 , ..., Xn unabhängig und identisch verteilt (i. i. d.11 ) und S := X1 + ... + Xn , dass (1’) ES = E n P Xi = E i=1 (2’) Var S = Var n P EXi = n · EX1 = nµ i=1 P n n unabh. P Xi ===== Var Xi = n · Var X1 = nσ 2 i=1 11 i=1 independent identically distributed 6. Juli 2017 Vorlesung MSM SS17 2.7 32 ERWARTUNGSWERTE UND MOMENTE Für arithmetisches Mittel Xn = X1 + ... + Xn S = gilt entsprechend n n 1 1 (1”) E(Xn ) = E( S) = nµ = µ n n 1 1 1 σ2 (2”) Var(Xn ) = Var( S) = 2 Var(S) = 2 n · σ 2 = n n n n Beispiel: Ticketbuchung X1 , ..., XN ∼ B(0.8) i. i. d. Xi = 1, falls einzelner Kunde i kommt und 0 sonst S = X1 + ... + XN ... Anzahl der Kunden, die kommen XN = S n = X1 +...+XN ...Anteil N der Kunden, die kommen σ2 Var X1 0.16 = = N = 100, N = 1000, EXN = EX1 = 0.8, Var(XN ) = N N N Nebenrechnung: Var X1 = 0.8(1 · 0.8) = 0.8 · 0.2 = 0.16 0.16 0.4 , σX 100 = = 0.04 100 10 0.16 0.4 y für N = 1000 : Var(X 1000 ) = , σX 1000 = √ = 0.13 1000 10 10 y für N = 100 : Var(X 100 ) = N →∞: EXN = µ, Var XN → 0, d.h. XN → µ Gesetz der großen Zahlen 2 XN |{z} ≈ N (µ, σN ) Zentraler Grenzwertsatz N →∞,N groß 6. Juli 2017 Vorlesung MSM SS17 2.8 33 DAS GESETZ DER GROSSEN ZAHLEN (GGZ) UND DER ZENTRALE GRENZWERTSATZ (ZGWS) 2.8 Das Gesetz der großen Zahlen (GGZ) und der Zentrale Grenzwertsatz (ZGWS) Gegeben: Zufallsvariable X mit EX = µ und Var X = σ 2 > 0. Betrachten n-fache Wiederholung von X unter gleichen Umständen (y Unabhängig) d.h. X1 , ..., Xn i.i.d∼ X und berechnen das arithmetische Mittel ! n X Sn X1 + X2 + ... + Xn = mit Sn = Xi Xn = n n i=1 der Beobachtungen. y Xn ist Zufallsvariable mit EXn = µ und Var Xn = σ2 n Satz (Gesetz der Großen Zahlen): ::::::::::::::::::::::::::::::::::::::: Es gilt lim Xn = EX = µ n→∞ Bemerkung: Der Schwerpunkt der Verteilung (EX) ist der Mittelwert (sehr vieler) Beobachtungen. Satz: ::::: √ Der standardisierte Mittelwert Zn = Xnσ−µ n ist asymptotisch (d.h. für N → ∞) √ N →∞ standard normalverteilt, d.h. Xnσ−µ n −−−→ N (0, 1). Bemerkung: 2 √n −EXn = 1. Xn ist Zufallsvariable mit EXn = µ, Var Xn = σn y Zn = X Var Xn Xn −µ √ n ist standardisiert, d.h. EZn = 0, Var Zn = 1 σ X qn −µ σ2 n = 2. Für das praktische Rechnen verwendet man die Aussage n→∞ FZn (z = P (Zn ≤ z) −−−→ Φ(z)∀z ∈ R Es gilt also P (a ≤ Zn ≤ b) ≈ Φ(b) − Φ(a), a ≤ b, falls N groß 3. Es gilt a ≤ Xn ≤ b genau dann, wenn a−µ √ n σ ≤ Xn − µ √ n≤ | σ{z } b−µ √ n, σ Zn also: a − µ√ b − µ√ n ≤ Zn ≤ n) σ σ b − µ√ a − µ√ = Φ( n) − Φ( n) σ σ P (a ≤ Xn ≤ b) = P ( 2 d.h. mit Xn kann man für große n wie mit einer N (µ, σn )-verteilten Zufallsvariable rechnen. 6. Juli 2017 Vorlesung MSM SS17 2.8 34 DAS GESETZ DER GROSSEN ZAHLEN (GGZ) UND DER ZENTRALE GRENZWERTSATZ (ZGWS) 4. Es gilt: a ≤ Sn ≤ b genau dann, wenn a b − µ√ − µ√ Sn a b ≤ ≤ bzw. n n ≤ Zn ≤ n n n |{z} n n | σ{z } | σ{z } a−nµ √ Xn b−nµ √ nσ 2 nσ 2 d.h. Sn = X1 + ... + Xn kann für große n wie eine N ( nµ , |{z} nσ 2 )-verteilte Zufalls|{z} ESn Var(Sn ) variable behandelt werden 09.05.17 Beispiel: Finanzmarkt (i) K0 = 107e, P = 107 e, K0 = 100000... Kapital Einzelkredit p = 0.96...Anteil der tatsächlich gezahlten Kreditsumme a) ik = 0.04...Kreditzinssatz, iz = 0.05...Anlagezinssatz konventionelle Anlage: P (1 + iz ) =: P1 = 10.05 · 106 Kauf Kreditbündel: X1 , ..., X10 i.i.d. | {z } ∼X Kundenverhalten ist unabhängig und gleichartig (i) K0 EX = p · = 96000e, Var X = (5000e)2 y Gesamterlös S = X1 + X2 + ... + X100 P − 9.6 · 106 1 P (S > P1 ) ≈1 − Φ √ 25 · 1010 (10.05 − 9.6) · 106 =1 − Φ 5 · 105 =1 − Φ(1.32) = 0.09342 ≈ 9.3% ! Verteilung von S ist ungefähr N (9.6 · 106 , 25 · 1010 ) (zentraler Grenzwertsatz) (i) !ES = E(X1 + ... + X100 ) = E(X1 ) + ... + E(X100 ) = 100 · p · K0 = 9.6 · 106 !Var S = Var(X1 +...+X100 ) = Var(X1 )+...+Var(X100 ) = 100·(5000)2 = 25·1010 Sonderfall des Zentralen Grenzwertsatzes: Satz von Moivre-Laplace X1 , ..., Xn i.i.d. ∼ X ∼ B(p) n P y S = Xi ...Anzahl der Erfolge in n unabhängigen Bernoulli Versuchen i=1 y S ∼ B(n, p) gleichzeitig: S ≈ N (np, np(1 − p)); Also: B(n, p) ≈ N (np, np(1 − p)) falls n groß (NR: ES = n · EX = np; Var S = n · Var X = np(1 − p)) a − np −Φ p ,a < b yP (a < |{z} S ≤ b) ≈ Φ p np(1 − p) np(1 − p) diskret b − np P (a < S ≤ b) = P (a < S < b + 1) = P (a + 1 ≤ S < b + 1) = P (a + 1 ≤ S ≤ b) 6. Juli 2017 Vorlesung MSM SS17 2.9 35 ABHÄNGIGKEITSMASSE: KOVARIANZ UND KORRELATION 2.9 Abhängigkeitsmaße: Kovarianz und Korrelation ( (pij ) (diskret) X Gegeben: X = zufälliger Vektor mit gemeinsamer Verteilung Y fXY (stetig) y EX, EY, Var X, Var Y über Randverteilungen für X (pi. bzw. fX ) und Y (p.j bzw. fY ) zu berechnen. Beispiel: 1 fXY (x, y) = (1 + xy(x2 − y 2 ))1|x|≤1,|y|≤1 4 ( 1 (1 + xy(x2 − y 2 )) falls |x| ≤ 1, |y| ≤ 1 = 4 0 sonst Z1 fX (x) = 1 (1 + xy(x2 − y 2 )) dy1|x|≤1 (x) 4 y=−1 1 = 1|x|≤1 (x) 2 ( 1 falls |x| ≤ 1 y X ∼ U (−1, 1) = 2 0 sonst analog Z1 fY (y) = 1 (1 + xy(x2 − y 2 )) dx1|y|≤1 (y) 4 x=−1 1 = 1|y|≤1 (y) 2 ( 1 falls |y| ≤ 1 y Y ∼ U (−1, 1) = 2 0 sonst y EX = EY = 0 (1 − (−1))2 4 1 y Var X = Var Y = = = 12 12 3 y X, Y sind nicht unabhängig, denn fX (x) · fY (y) 6= fXY (x, y) 6. Juli 2017 Vorlesung MSM SS17 2.9 36 ABHÄNGIGKEITSMASSE: KOVARIANZ UND KORRELATION ? Var(X + Y ) = E(X + Y )2 − (E(X + Y ))2 (Var Z = EZ 2 − (EZ)2 )| = E(X 2 + 2XY + Y 2 ) − (EX + EY )2 = EX 2 + 2XY + EY 2 − ((EX)2 + 2EX · EY + (EY )2 ) = EX 2 − (EX)2 +2 (EXY − EX · EY ) + EY 2 − (EY )2 | {z } | {z } | {z } Var X Var Y =:cov(X,Y ) Satz: ::::: ~ = X ein Zufallsvektor mit Dichte fXY bzw Einzelwahrscheinlichkeiten Sei X Y (pij ). Dann gilt: EXY = P P x · y · fX,Y (x, y) dxdy xi yk P (X = xi , Y = yk ) = xi ∈SY yk ∈SY +∞ R +∞ R P xi · yk · pik ~ diskret falls X i,k ~ stetig falls X −∞ −∞ Beispiel: Z+∞ Z+∞ x · y · fX,Y (x, y) dxdy EXY = y=−∞ x=−∞ Z1 Z1 = 1 x · y · (1 + xy(x2 − y 2 )) dxdy = 0 4 y=−1 x=−1 y cov(X, Y ) = EXY − EX · EY = 0 − 0 · 0 y X, Y sind unkorreliert Definition: :::::::::::: 1. cov(X, Y ) := EXY − EX · EY heißt Kovarianz von X und Y 2. %X,Y = √ cov(X,Y ) √ Var X Var Y 3. Die Matrix heißt Korrelationskoeffizient von X und Y Var(X) cov(X, Y ) ~ = Var(X) cov(X, Y ) Var(X) x ~ heißt Kovarianzmatrix X = y 4. Falls cov(X, Y ) = 0, so heißen X, Y unkorreliert Beispiel: cov(X, Y ) = 0 (siehe oben) y %XY = √01 ·1 3 3 6. Juli 2017 =0 Vorlesung MSM SS17 2.9 37 ABHÄNGIGKEITSMASSE: KOVARIANZ UND KORRELATION ~ = Var(X) 1 3 0 0 1 3 X, Y sind unkorreliert, aber nicht unabhängig! Satz: ::::: 1. Falls X, Y unabhängig, dann gilt cov(X, Y ) = 0, also X, Y unkorreliert (Achtung: Es gibt Zufallsvektoren, wo X, Y unkorreliert, aber nicht unabhängig sind!) X 2. Es gilt für allgemein zufällige Vektoren : Var(X + Y ) = Var X + Var Y + Y 2 cov(X, Y ) Beweis: 1. nur für stetige zufällige Vektoren =fX (x)·fY (y) falls X, Y unabhängig Z∞ Z∞ z }| { fXY (x, y) x·y· EXY = dxdy −∞ −∞ Z∞ Z∞ x · y · fX (x) · (fY (y)) dxdy = −∞ −∞ Z∞ Z∞ y · fY (y) = −∞ x · fX (x) dx −∞ | {z EX } Z∞ y · fY (y)(EX) dy = −∞ Z∞ y · fY (y) dy = EX − EY = EX −∞ y cov(X, Y ) = EXY − EX · EY = 0, falls X, Y unabhängig 2. siehe oben 10.05.17 cov(X, Y ) = EXY − EX · EY X, Y unabhängig ⇒ cov(X, Y ) = 0 unkorreliert, Umkehrung gilt nicht! cov(X, Y ) √ %xy = √ ...Korrelation Var X Var Y cov(X, ax + b) %X,aX+b = √ , X...Zufallsvariable; Y = aX + b, a 6= 0, b ∈ R √ Var X Var aX + b 6. Juli 2017 Vorlesung MSM SS17 2.9 38 ABHÄNGIGKEITSMASSE: KOVARIANZ UND KORRELATION Nebenrechnung: cov(X, aX + b) = E (X(aX + b)) −EX · E(aX + b) | {z } | {z } aX 2 +bX 2 %X,aX+b aEX+b 2 = aEX + bEX − [a(EX) + bEX] = aEX 2 − a(EX)2 = a Var X; Var(aX + b) = a2 Var X ( 1 a>0 a Var√ X √ X = √VaraXVar = Var = a2 Var X X· a2 −1 a < 0 y Bemerkung: Die Korrelation ist ein Maß für die lineare Abhängigkeit zwischen zwei Zufallsvariablen X und Y : %X,Y = 0...keine lineare Abhängigkeit %X,Y ( %XY = 1 : wachsender Zusammenhang = 1...perfekte lineare Abhängigkeit %XY = −1 : fallender Zusammenhang Definition: ~ = (X1 , ..., Xn ) ist normalverteilt mit Ein n-dimensionaler stetiger Zufallsvektor X ~ die Erwartungswertvektor µ ~ und (positiv definierter) Kovarianzmatrix Σ, wenn X Dichte 1 1 exp{− (~x − µ ~ )} fX~ (x1 , ..., xn ) = p | {z } 2 (2π)n det(Σ) :::::::::::: ~ x besitzt. ~ ∼ Nn (~µ, Σ) Bezeichnung: X Satz: ::::: ~ ∼ Nn (~µ, Σ). Dann gilt: Sei X ~ =µ (1) E X ~ ~ =Σ (2) Var X (3) Xi ∼ N (µi , σii ) (!~µ = (µ1 , .., µn ); Σ = (σij )i,j=1,...,n ) (4) Falls ~a ∈ Rm und B ein (m × n)-Matrix, dann ist ~ ∼ Nm (~a + B~µ, BΣT B T ) Y = ~a + B X ~ = Σ− 21 (X ~ −µ (5) Der Vektor Z ~ ) ∼ Nn (~0, In ) ist standardisiert. 1 1 1 (Dabei Σ− 2 so, dass Σ− 2 Σ− 2 = Σ−1 sogenannte Matrixwurzel von Σ−1 ) Beispiel: 6. Juli 2017 1 ... 0 1. µ ~ = ~0 = (0, ..., 0), Σ = In = 0 ... 0 y n-dim. Standard NV 0 ... 1 Vorlesung MSM SS17 2.9 39 ABHÄNGIGKEITSMASSE: KOVARIANZ UND KORRELATION ~ = ~0 y EXi = 0; i = 1, ..., n EX Var X1 ... cov(X1 , Xn ) .. .. ... ~ = Var X = In . . cov(X1 , Xn ) ... Var Xn y Var Xi = 1, cov(Xi , Xj ) = 0, i 6= j Xi ∼ N (0, 1); ~a = ~0, B = (1, ..., 1) y a + BX = X1 + ... + Xn 0 = = y = x1 + ... + xn ~ N1( a + Bµ , B m 0 0 T BT ) = N( 0 , n ) (1,...,1) Ιn(1,...,1)T = n (1,...,1) () 1 ... 1 1 0.8 2. n = 2, µ ~ = ~0, Σ = 0.8 1 y Xi ∼ N (0, 1); cov(X1 , X2 ) = 0.8 y %X1 ,X2 = √0.8 1.1 = 0.8 1 1 1 fX1 ,X2 (x1 , x2 ) = r exp{− · (x21 − 1.6x1 x2 + x22 )} 2 2 0.36 (2π) · |{z} 0.36 det Σ 1 1 exp{− (x2 − 1.6x1 x2 + x22 )} 1.2π 0.72 1 1 0.8 Nebenrechnung: det(Σ) = = 1 − 0.82 = 0.36 0.8 1 1 1 +1 −0.8 1 −0.8 −1 = Σ = 1 det Σ −0.8 +1 0.36 −0.8 = (~x − µ ~ )T Σ−1 ((~x − µ ~ ) = ~xT Σ−1~x |{z} |{z} ~0 ~0 1 x1 1 −0.8 · = (x1 , x2 ) · −0.8 1 x2 0.36 1 x = (x1 − 0.8x2 , −0.8x1 + x2 ) 1 x2 0.36 1 = (x2 − 0.8x1 x2 − 0.8x1 x2 + x22 ) 0.36 1 1 = (x2 − 1.6x1 x2 + x22 ) 0.36 1 Bemerkung: 1. Aussage (4) oben bedeutet u.a.: Die (gewichtete) Summe von normalverteilten Zufallsvariablen ist wieder normalverteilt! 6. Juli 2017 Vorlesung MSM SS17 2.9 ABHÄNGIGKEITSMASSE: KOVARIANZ UND KORRELATION 40 2. Wenn zwei Komponenten eines normalverteilten Zufallsvektors unkorreliert sind, dann sich sie auch unabhängig! 6. Juli 2017 Vorlesung MSM SS17 2.10 41 MOMENTENERZUGENDE FUNKTIONEN 2.10 Momentenerzugende Funktionen Motivation: 1. Gegeben: X, Y unabhängig, welche Verteilung hat Z = X + Y 2. X ∼ Geo(p), P (X = k) = (1 − p)k · p, k = 0, 1, ... P ? EX = k = 0∞ k · (1 − p)k · p == Hilfsproblem: z.B. (1'),(2') sind einfach zu lösen Originalproblem: z.B. (1),(2) von oben Zufallsveriablen werden durch Einzelwahrscheinlichkeit (Dichte) oder Verteilungsfunktion beschrieben Zufallsvariablen werden durch momenterzeugende Funktion beschrieben Transformation Sei X eine diskrete Zufallsvariable mit Werten in N0 Definition: :::::::::::: Die momentenerzeugende Funktion mX von X ist gegeben durch mX (s) = EsX = ∞ X sl · P (X = l), s ∈ [0, 1] l=0 Beispiel: = 1} = 1 − p + sp, s ∈ [0, 1] 1. X ∼ B(p), mX (s) = |{z} s0 P (X = 0) +s1 X | {z | {z } 1 p 1−p n k 2. X ∼ B(n, p) y P (X = k) = p (1 − p)n−k ; k = 0, ..., n; p ∈ (0, 1) k n X n k mX (s) = s · p (1 − p)n−k k k=0 n X n = (sp)k (1 − p)n−k = (sp + 1 − p)n , s ∈ [0, 1] k k k=0 n Binomischer Satz: (a + b) = n X n k=0 6. Juli 2017 k ak bn−k Vorlesung MSM SS17 2.10 42 MOMENTENERZUGENDE FUNKTIONEN 3. X ∼ Geo(p) y P (X = k) = (1 − p)k p, k = 0, 1, ... mX (s) = ∞ X sk (1 − p)k p k=0 ∞ X =p k=0 | = (s(1 − p))k | {z } qk {z 1 falls 1−q |q|<1 } p , s ∈ [0, 1] 1 − s(1 − p) Frage: mX (s) = 0.7 + 0.3s y Verteilung von X? Satz: Die Verteilung einer diskreten, nicht negativen Zufallsvariable ist durch die momentenerzeugende Funktion eindeutig bestimmt. Es gilt: ::::: 1 dk 1 (k) · k mX (0) = mX (s)|s=0 , k = 0, 1, 2, ... k! ds k! (!Koeffizient der Taylorentwichlung von mX (s) an der Stelle s = 0) P (X = k) = Beispiel: (1) mX (s) = 0.7 + 0.3s k = 0 : P (X = 0) = k = 1 : P (X = 1) = k = 2 : P (X = 2) = 1 m (s)|s=0 0! X 1 m0 (s)|s=0 1! X 1 m00 (s)|s=0 2! X = = = 1 1 1 1 1 2 · 0.7 = 0.7 · 0.3 = 0.3 ·0=0 y X ∼ B(0.3) 17.05.17 Zufallsvariable X mit Werten in N0 → (pk ) oder Beispiel: (2) mX (s) = (03s + 0.7)2 , s ∈ [0, 1] = (0.3s)2 + 2 · 0.3 · 0.7s + 0.72 = 0.09s2 + 0.42s + 0.49 p0 = mX (0) = 0.49, p1 = m0X (0) = [0.18s + 0.42]s=0 m00 (0) 0.18 = 0.42, p2 = X = = 0.09 2 2P k 0 1 2 pk 0.49 0.42 0.09 1 6. Juli 2017 Vorlesung MSM SS17 2.10 43 MOMENTENERZUGENDE FUNKTIONEN Bemerkung: Falls mX (s) = a0 + a1 s + ... + an sn ein Polynom ist, dann gilt: P (X = k) = ak , k = 0, 1, ..., n Beispiel: (3) mX (s) = eλ(s−1) , λ > 0...Parameter gesucht: Verteilung von X m0X (s) = eλ(s−1) · λ, m0 (0) = λe−λ yp1 = m0 (0) = λe−λ m00 (0) λ2 m00X (s) = eλ(s−1) · λ2 , m00 (0) = λ2 e−λ yp2 = = e−λ 2! 2! 000 m (0) λ3 −λ λ(s−1) 3 000 3 −λ m000 (s) = e · λ , m (0) = λ e yp = = e 3 X 3! 3! λk pk = e−λ , k = 0, 1, 2, ... k! mλ (s) = eλ(s−1) , mX (0) = e−λ yp0 = mX (0) = e−λ Beispiel: (2) (0.3s + 0.7)2 y B(2, 0.3) Bemerkung: B(n, p) ↔ mX (s) = (sp + 1 − p)n P (λ) ↔ mX (s) = eλ(s−1) p Geo(p) ↔ mX (s) = 1 − s(1 − p) Satz: Sei X diskrete Zufallsvariable mit Werten in N0 und sei die momentenerzeugende Funktion mX (s) gegeben. Es gilt: ::::: EX = m0X (1) und EX 2 = m00X (1) + m0X (1) (und Var X = m00X (1) + m0X (1) − (m0X (1))2 ) {z } | {z } | EX 2 Beispiel: (EX)2 1. X ∼ Poi(λ) y mX (s) = eλ(s−1) , s ∈ [0, 1] (siehe oben) ∞ ∞ P P k 2 (EX = k · pk = k · λk! e−λ = 0 · e−λ + 2 · λ2 e−λ + 3 · k=0 k=0 λ3 −λ e 3! + ... =? klassischer Weg unhandlich) Alternative: über momentenerzeugende Funktion: EX = m0X (1) = [λ2 ·eλ(s−1) ]s=1 = λ2 y Var X = m00X (1)+m0X (1)−(m0X (1))2 = λ2 + λ − λ2 = λ 6. Juli 2017 Vorlesung MSM SS17 2.10 44 MOMENTENERZUGENDE FUNKTIONEN 2. X ∼ Geo(p), p ∈ (0, 1) y mX (s) = p ,s 1−s(1−p) ∈ [0, 1] p EX = = (−1)(−(1 − p)) 1 − s(1 − p))2 s=1 p p 1−p = (1 − p) = 2 (1 − p) = 2 (1 − (1 − p)) p p Var X = ...(Selbststudium) m0X (1) Satz: ::::: 1. Falls X, Y unabhängig sind mit momentenerzeugenden Funktionen mX bzw. mY , dann hat die Summe X +Y die momentenerzeugende Funktion xX+Y (s) = mX (s) · mY (s), s ∈ [0, 1] 2. Falls X1 , ..., Xn i.i.d. mit n momentenerzeugender Funktion mX , dann gilt mX1 +...+Xn (s) = mX (s) Beweise: (0) Satz zu den Momenten: Zu zeigen: EX = m0X (1) mX (s) = ∞ X sk · pk , s ∈ [0, 1] k=0 m0X = X k · sk−1 pk k∈S ∞ X (m0X (s) = ( sk · pk )0 = (p0 + p1 s + p2 s2 + p3 s3 + ...)0 = p1 + 2p2 s + 3p3 s2 + ... k=0 = ∞ X k · pk · s k−1 = k=1 m0X (1) = ∞ X ∞ X k · pk · sk−1 ) k=0 k · 1k−1 pk = k=0 (1) mX+Y (s) = E · sX+Y = E( X k · pk = EX k∈S (sX )(sY ) | {z } ) = E(sX ) · E(sY ) = mX (s) · mY (s) unabh., weil X,Y unabh. (unabhängig ⇒ unkorreliert ⇒ EXY − EX EY = 0) (2) mX1 +...+Xn (s) = (mX (s))n ...Selbststudium 6. Juli 2017 Vorlesung MSM SS17 2.10 45 MOMENTENERZUGENDE FUNKTIONEN Beispiel: 1. X1 , ..., Xn i. i. d. ∼ B(p) y mX (s) = sp + 1 − p, s ∈ [0, 1] y S = X1 + ... + Xn ...Anzahl der Erfolge in n unabhängigen Bernoulli-Versuchen mS (s) = (mX (s))n = (sp + 1 − p)n y S ∼ B(n, p) 2. X ∼ B(3, 0.2); Y ∼ B(10, 0.2), unabhängig gesucht: Verteilung von X + Y mX (s) = (s · 0.2 + 0.8)3 , mY (s) = (s · 0.2 + 0.8)10 mX+Y (s) = mX (s) · mY (s) = (s · 0.2 · 0.8)13 y B(13, 0.2) 3. X ∼ Poi(α), Y ∼ Poi(β), α, β > 0...Parameter; X, Y unabhängig gesucht: Verteilung von X + Y mX (s) = eα(s−1) , mY (s) = eβ(s−1) mX+Y (s) = eα(s−1) · eβ(s−1) = e(α+β)(s−1) y X + Y ∼ Poi(α + β) X Y X+Y z.b. (X Männer gehen auf Toilette) (Y Frauen gehen auf Toilette) (X+Y Jemand geht auf Toilette) 6. Juli 2017 Vorlesung MSM SS17 3.1 46 MONTE-CARLO-SIMULATION 3 Zufallszahlen und Monte-Carlo-Simulation 23.05.17 3.1 Monte-Carlo-Simulation Ziel: numerische Approximation von analytisch nicht oder sehr schwer/aufwändig lösbaren Problemen mit Hilfe von häufig wiederholten Zufallsexperimenten theoretische Basis: Gesetz der großen Zahlen: EX ≈ Zentraler Grenzwertsatz: 1 n n P i=1 1 n n P Xi falls Xi i. i. d. ∼ X i=1 Xi ≈ N (EX, Varn X ) Einsatzgebiete: 1. nicht-stochastische Probleme, wie numerische Integration und Optimierung/Suchalgorithmen 2. in-silico“-Experimente auf der Grundlage stochastischer Modelle, Beispielsweise ” Produktionsprozesse, bei denen Engpässe aufgedeckt werden sollen; Modelle vom Wetter und Klima; statistische Beschreibungen in der Physik (Thermodynamik), Prozesse in Biologie und Naturwissenschaft 3.1.1 Stochastische Integration Gegeben: f : [a, b] → R stetig Rb Gesucht: I := f (x) dx a K g(x) b a a b a b Importance Sampling Idee: Wähle K = max x∈[a,b]f (x) Beregne das Rechteck [a, b] × [0, k] mit zufälligen Punkten“ ” (1) Wähle X ∼ U [a, b] (2) Wähle Y ∼ U [0, k] Falls (X, Y ) in schraffierter Fläche liegt, dann wird Punkt gezählt, sonst nicht 6. Juli 2017 Vorlesung MSM SS17 3.1.1 47 STOCHASTISCHE INTEGRATION (3) Falls Y ≤ f (X) dann Z = Z + 1 Nebenrechnung: I k(b−a) = Z ,I N = Z N · k(b − a) Algorithmus: Z=0 Für k = 1 bis N wiederhole (1) bis (3) Gibt Wert für I aus: I= Z · k(b − a) N noch offen: (A) Wie bekommt man Zufallszahlen X ∼ U [a, b], Y ∼ [0, k]? (B) Wie groß muss N gewählt werden, um eine vorgegebene Genauigkeit zu erreichen? Alternative 1 Ziel: Zb I= g(x) dx a Z∞ 1 1[a,b] (x) b − a | {z } = −∞ 1 = b−a 0 ·g(x) · (b − a) dx x ∈ [a, b] =fX (x) für X∼U [a,b] sonst Z∞ g(x)(b − a) · fX (x) dx I= −∞ Z∞ = (b − a) g(x) · fX (x) dx −∞ = (b − a)Eg(X) mit X ∼ U [a, b] n 1X ≈ (b − a) · g(Xi ) mit X1 , ..., Xn i. i. d. ∼ X ∼ U [a, b] n i=1 Vorgehen: (0) S := 0 (1) Für k = 1 bis n: Erzeuge X ∼ U [a, b], Berechne g(X) und S = S + g(X) (2) Gib I = (b − a) · 6. Juli 2017 S n aus. Vorlesung MSM SS17 3.1.1 48 STOCHASTISCHE INTEGRATION noch offen: (A) Erzeugung von Zufallszahlen U [a, b] (B) Genauigkeit/Vergleich mit obigem Algorithmus Bezeichnung: crude Monte Carlo“ ” Alternative 2 fy(x) b a a b Ziel: Z∞ fY (x) · I= −∞ g(x) dx fY (x) | {z } =:g̃(x) ˜ ), wobei Y ∼ fY = E g(Y n 1X ≈ g̃(Yi ) n i=1 n = 1 X g(Yi ) wobei Y1 , ..., Yn i. i. d. ∼ fY (Importance Sampling) n i=1 fY (Yi ) Vorgehen: (0) S := 0 (1) Für k = 1 bis n: Erzeuge Y ∼ fY , Berechne g̃(Y ) = (2) Gib I = S n g(Y ) fY (Y ) und S = S + g̃(Y ) aus. noch offen: (A) Erzeugung von Zufallszahlen gemäß vorgegebener Dichte fY (B) Genauigkeit/Vergleich mit obigem Algorithmus Bezeichnung: Importance Sampling“ ” 6. Juli 2017 Vorlesung MSM SS17 3.1.2 49 MONTE-CARLO-OPTIMIERUNG 3.1.2 Monte-Carlo-Optimierung Ziel: Finde die Extremwerte (Maxima/Minima) einer Funktion h : D → R mit D ⊂ Rn y Falls h komplex oder irregulär oder D irregulär, ist stochastischer Zugang ( Schütteln“) ” vorteilhaft Klassisch: Dirregulär D D == Suchfeld 3.1.3 In-silico Experimente Gegeben: reales Problem → mathematisches Modell mit stochastischen Einflussfaktoren Ziel: Analyse des mathematisch/stochastischen Modells durch Nachbilden der Vorgänge im Rechner 6. Juli 2017 Vorlesung MSM SS17 3.2 50 ERZEUGUNG VON ZUFALLSZAHLEN MIT GLEICHVERTEILUNG AUF [0,1] 3.2 Erzeugung von Zufallszahlen mit Gleichverteilung auf [0,1] 24.05.17 Ziel: Algorithmus, der Zahlen x1 , ..., xn erzeugt, die als Realisierung (Ziehung) von unabhängig und identisch U [0, 1]-verteilten Zufallsvariablen benutzt werden können. Kurz: Algorithmus für X1 , ..., Xn i. i. d. ∼ U [0, 1] y Pseudozufallszahlen in der Regel über Iterationsvorschriften der Art Xi+1 = h(Xi , Xi−1 , ..., Xi−k ), i ≥ k mit zufälliger Saat“ Xk , ..., X0 und deterministischer Funktion h : Rk+1 → R ” Beispiel: (1) Xi = (137Xi−1 + 1 mod 28 ... linearer Kongruenzgenerator“ ” Xi ∈ (0, 1), Behauptung: U1 , ..., Un ≈ i. i. d. U (0, 1) Ui = 256 0 1 (2) Xn+1 = 213 (Xn +Xn−1 +Xn−2 ) mod (232 −5)... linearer Kongruenzgenerator“ ” Un = 2X32n+1 ; Behauptung: U1 , ..., Un ≈ i. i. d. U (0, 1) −5 Bemerkung: (1) Jeder Zufallszahlengenerator ist periodisch in Beispiel (1) oben: Periode ist kleiner als 256 (28 ) in Beispiel (2) oben: Periode ist ungefähr 296 (2) Die Verteilung von U1 , ..., Un muss getestet werden. y Histogramm anschauen, statistischer Test auf Gleichverteilung y Tests auf Unabhängigkeit z.B. Streudiagramm der Werte (X1 , X2 ), (X2 , X3 ), ..., (Xn−1 , Xn ) (→ keine Muster, dichte“ Verteilung) ” Autokorrelationsfunktion: cov(Xi , Xi+k ) , k = 1, 2, ... %Xi ,Xi+k = √ √ Var Xi Var Xi+k Run-Tests: z.B. bei Beispiel (1) 3, 10, 2, 250, 120, 111, 100 + + ... Run 6. Juli 2017 1 1 1 3 Vorlesung MSM SS17 3.3 51 ERZEUGUNG VON ZUFALLSZAHLEN MIT BELIEBIGER DISKRETER VERTEILUNG 3.3 Erzeugung von Zufallszahlen mit beliebiger diskreter Verteilung Gegeben: (pk )k=0,1,... ...Einzelwahrscheinlichkeiten einer Zufallsvariable X mit Werten x0 , x1 , ..., xk , ... d.h. P (X = xk ) = pk , k = 0, 1, 2, ... Zufallszahlengenerator (PRNG - pseudo random number generator) y U1 , ..., Un i. i. d. ∼ U [0, 1] Ziel: Algorithmus, der aus U1 , ..., Un neue Werte X1 , ..., Xn erzeugt, so dass X1 , ..., Xn i. i. d. ∼ X, d.h. P (Xi = xk ) = pk , k = 0, 1, ... und X1 , ..., Xn unabhängig Beispiel: (pk ) ∼ B(3, 12 ) xk 0 1 8 pk 0 1 2 3 P 3 8 3 8 1 8 1 1 3 2 X 1 0 0 1 h(U ) = 2 3 0 1 8 U < 18 U ∈ [ 18 , 84 ) , F (x) = 84 4 7 U ∈ [8, 8) 7 8 sonst 1 x<0 0≤x<1 1≤x<2 2≤x<3 x≥3 F(x) 1 X 0 6. Juli 2017 1 2 3 x Vorlesung MSM SS17 3.3 52 ERZEUGUNG VON ZUFALLSZAHLEN MIT BELIEBIGER DISKRETER VERTEILUNG ! Methode funktioniert, denn Zb P (a ≤ U ≤ b) = 1 dx = x|ba = b − a (0 ≤ a ≤ b ≤ 1) a sk = k P pi ...kummulierte Wahrscheinlichkeiten i=0 P (X = k) = P (sk−1 ≤ U < sk ) = sk − sk−1 = pk ; k = 0, 1, ..., n !Unabhängigkeit wird von U1 , ..., Un übertragen Definition: :::::::::::: Sei F (x) = P (X ≤ x), x ∈ R, die Verteilungsfunktion der diskreten Zufallsvariable X. Dann heißt F −1 (z) := min{x ∈ R : F (x) ≥ z}, z ∈ [0, 1] die Quantilfunktion von X (verallg. Inverse von F (x), x ∈ R). Satz (Inversionsprinzip für diskrete Verteilungen): ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: Falls F die Verteilungsfunktion einer diskreten Zufallsvariable X ist, g = F −1 die Quantilfunktion von X ist und U ein U [0, 1]-verteilte Zufallsvariable, dann ist g(U ) verteilt wie X, d.h. P (g(U ) ≤ x) = F (x), x ∈ R. Laufzeit des Algorithmus gut schlecht 1 0 1 0 1 0 1 0 1 0 Beispiel: 1 2 0 0 1 1 laufzeitgünstigere Alternative im Beispiel oben 31.05.17 6. Juli 2017 Vorlesung MSM SS17 3.3 ERZEUGUNG VON ZUFALLSZAHLEN MIT BELIEBIGER DISKRETER VERTEILUNG 53 Satz (Laufzeit einer diskreten Simulation): :::::::::::::::::::::::::::::::::::::::::::::::::: Sei X eine Zufallsvariable mit Werten 0, 1, 2, ... und Verteilungsfunktion F (bzw. Einzelwahrscheinlichkeiten pk = P (X = k), k = 0, 1, 2, ...). Dann ist die durchschnittliche Anzahl von Iterationen im Algorithmus zur Erzeugung von Zufallszahlen gemäß F gegeben durch EX. Beweis: Sei U ∼ U [0, 1] und definiere T := min{k : sk ≥ U }...Anzahl der Iterationen, bis der Algorithmus ein Ergebnis {z } | F −1 (U )=X liefert y ET = EX Bemerkung: Obiger Satz bietet Möglichkeit zur Verringerung der Laufzeit durch Umordnen 6. Juli 2017 Vorlesung MSM SS17 3.4 54 ERZEUGUNG VON ZUFALLSZAHLEN MIT STETIGER VERTEILUNG 3.4 3.4.1 Erzeugung von Zufallszahlen mit stetiger Verteilung Inversionsmethode für stetige Verteilungen Gegeben: U ∼ U [0, 1] PRNG (Pseudo-Random-Number-Generator) X ∼ stetige Zufallsvariable mit Zustandsraum S = (a, b) (auch (0, ∞) oder R) und Rx Dichte f : R → [0, ∞) (bzw. Verteilungsfunktion F (x) = f (z) dz) −∞ Gesucht: Algorithmus (Funktion) der aus Werten U1 , ..., Un unabhängig identisch ∼ U neue Werte X1 , ..., Xn unabhängig identisch(i. i. d.) ∼ X erzeugt. Z.B. Funktion g : [0, 1] → S, so dass g(U ) ∼ X F(x) 1 F|s ist invertierbar z ( a ) b F-1(z) x Satz: ::::: Sei U ∼ U (0, 1) und bezeichne F −1 : (0, 1) → S die Inverse der Verteilungsfunktion von F eingeschränkt auf S. Dann gilt: F −1 (U ) ∼ X, d.h. Y = F −1 (U ) hat die Verteilungsfunktion F und die Dichte f = F 0 . Beweis: g := F −1 ; U ∼ U (0, 1); zu zeigen: Y = g(U ) ∼ X also, dass die Dichte von Y gleich f = F 0 ist. Anwendung des Transformationssatzes: Falls g streng monoton, dann fY (z) = FU (g −1 (z)) · |(g −1 )0 (z)| = 1 · fX (z) = fX (z) | {z } | {z } 1) 2) a) g = F −1 ist streng monoton wachsend, denn F |S ist streng monoton (wachsend). b) fU (x) = 1(0,1) c) g −1 = (F −1 )−1 = F |S aus b, c folgt: 1) fU (g −1 (z)) = 1(0,1) (F |S (z)) = 1 2) (g −1 )0 (z) = (F 0 )(z) = fX (z) 6. Juli 2017 Vorlesung MSM SS17 3.4.1 55 INVERSIONSMETHODE FÜR STETIGE VERTEILUNGEN Beispiel: X ∼ exp(α), α > 0 y fX (x) = αe−αx , x > 0; 0 sonst 1 ( ( x S = (0, ) x 1. S = (0, ∞) 2. Zx H(x) = αe−αz dz 0 = [−e−αz ]xz=0 = −e−αx + 1 = 1 − e−αx , x > 0 3. Berechnung der Umkehrfunktion: y = H(x), y = 1 − e−αx nach x auflösen y e−αx = 1 − y −αx = ln(1 − y) 1 x = − ln(1 − y) α 1 y g(y) = − ln(1 − y), y ∈ (0, 1) α ⇒ Falls U ∼ U (0, 1), dann ist g(U ) = − α1 ln(1 − U ) ∼ exp(α) (α > 0) Bemerkung: Wenn U ∼ U (0, 1), dann ist V := 1 − U ∼ U (0, 1). (Begründung: Transformationssatz für lineare Transformationen → Selbststudium) 1 g̃(U ) = − ln(U ) ∼ exp(α) α (Vereinfachung der Berechnung) 6. Juli 2017 Vorlesung MSM SS17 3.4.2 56 ANNAHME - VERWERFUNGS-METHODE FÜR STETIGE VERTEILUNGEN Beispiel: X ∼ U (a, b) y fX (x) = 1 1 (x), x b−a (a,b) ( ∈R ) 1. S = (a, b) 2. Zx H(x) = a 1 1(a,b) (z) dz b − a | {z } 1 falls x∈(a,b) 1 =[ · z]xz=1 b−a a x − = b−a b−a x−a = , x ∈ (a, b) b−a 3. Umkehrfunktion von H: H(x) = y, d.h. x−a b−a = y auflösen nach x: y x = (b − a)y + a y g(y) = (b − a)y + a ⇒ g(U ) = (b − a)U + a ∼ U (a, b) Problem: In manchen Fällen, z.B. Normalverteilung, existiert die Verteilungsfunktion nicht in geschlossener Form oder Auflösen der Gleichung H(x) = y ist nicht möglich. 3.4.2 Annahme - Verwerfungs-Methode für stetige Verteilungen gegeben: X ∼ stetige Zufallsvariable mit Dichte f und Verteilungsfunktion F U, V ∼ unabhängig, identisch U ∼ U (0, 1) (PRNG) gesucht: Algorithmus, der Werte X1 , ..., Xn i. i. d. ∼ X erzeugt Idee: f(x) c a 6. Juli 2017 b Vorlesung MSM SS17 3.4.2 57 ANNAHME - VERWERFUNGS-METHODE FÜR STETIGE VERTEILUNGEN Zufällig Punkte in Rechteck (a, b)×(0, c) werfen“. Falls Punkt unterhalb der Kurve f (x) ” liegt (schraffierte Fläche) → zugehörige x-Koordinate ausgeben, sonst Versuch verwerfen und neu starten. y Algorithmus: (1) Erzeuge U ∼ U (0, 1), berechne Q = (b − a)U + a !x-Koordinate des Versuchs (2) Erzeuge V ∼ U (0, 1), berechne Y = c · V !y-Koordinate des Versuchs (3) Falls: Y ∈ f (Q) setze X := Q und gib X aus sonst: wiederhole ab (1) !Annahme des Versuchs !Ablehnen des Versuchs und neu starten (4) Wiederhole (1) bis Abbruchkriterium erfüllt Voraussetzungen: f ist außerhalb eines endlichen Intervalls (a, b) gleich Null f ist beschränkt (d.h. es existiert c > 0 mit f (x) ≤ c) Laufzeitverbesserung: 07.06.17 Satz: ::::: Falls X nach dem Algorithmus der Annahme-Verwerfungs-Methode erzeugt wird, Rz dann hat X die Dichte f (bzw. die Verteilungsfunktion F (z) = −∞ f (x) dx) 6. Juli 2017 Vorlesung MSM SS17 3.4.2 58 ANNAHME - VERWERFUNGS-METHODE FÜR STETIGE VERTEILUNGEN Beweis: f(x) c c f(Q) a Bz b B c y Fläche = 1 (Q,y) a a z Q b b x z<a 0 FX (z) = P (X ≤ z) = 1 z>b P (Q ≤ z|Y ≤ f (Q)) z ∈ [a, b] P (Q ≤ z)...Versuchswert ist ≤ z Y ≤ f (Q)...Bedingter Versuchswert wird angenommen P (Q ≤ z, Y ≤ f (Q)) P (Y ≤ f (Q)) P ((Q, Y ) ∈ Bz ) = P ((Q, Y ) ∈ B) FX (z) =P (Q ≤ z|Y ≤ f (Q)) = F (z) Nebenrechnung (b−a)c ========== 1 (b−a)c = F (z) für z ∈ (a, b) Nebenrechnung: P (( Q , |{z} Y ) ∈ Bz ) |{z} ∼U (a,b) ∼U (0,c) Q, Y unabhängig → fQ,Y (q, y) = fQ (q) · fY (y) = 6. Juli 2017 1 1 (q) b−a (a,b) · 1c 1(0,c) (y) Vorlesung MSM SS17 3.4.2 59 ANNAHME - VERWERFUNGS-METHODE FÜR STETIGE VERTEILUNGEN Z Zz Zf (q) Z P ((Q, Y ) ∈ Bz ) = fQ (q)fY (y) dydq = q=a y=0 (q,y)∈Bz | 1 1 · · dy dq b−a c {z } f (q) f (q) 1 ·[y]y=0 = (b−a)c (b−a)c Zz = Zz f (q) 1 dq = (b − a)c (b − a)c q=a f (q) dq q=a {z | = Rz } f (q) dq=F (z) −∞ = F (z) (b − a)c Nun analog: 1 P (Q, Y ) ∈ |{z} B = Bb F (b) 1 = (b − a)c (b − a)c z }| { Zb f (q) dq a 1 =: γ...Wahrscheinlichkeit für die Annahme von Q = (b − a)c Wie viele Versuche sind im Mittel nötig, bis ein Wert ausgegeben wird? + 1 EZ = 1−γ y EZ mit Z ∼ Geo(γ) + 1 = 1−γ+γ = γ γ |{z} | {z } Zahl der Misserfolge 1 γ = c(b − a). erfolgreicher Versuch Satz: ::::: Die mittlere Zahl der Versuche bis zur Ausgabe eines Wertes bei der AnnahmeVerwerfungsmethode beträgt c(b − a). c g(x) g(Q) f(Q) f(x) y (Q,y) a Q b x x 6. Juli 2017 Vorlesung MSM SS17 3.4.2 60 ANNAHME - VERWERFUNGS-METHODE FÜR STETIGE VERTEILUNGEN Modifizierte Annahme-Verwerfungsmethode (Importance-Sampling) Idee: Wählt Hüllkurve“ g(x) ≥ f (x), x ∈ [a, b] ” Erzeuge x-Koordinate Q entsprechend Dichte γ · g(x), x ∈ [a, b], wobei Zb γ := ( g(x) dx)−1 a Erzeuge y-Koordinate Y gleichverteilt auf (0, g(x)) Annahme der x-Koordinate, falls Punkt im schraffierten Bereich liegt, also f (Q) ∈ Y Bemerkung: Die Hüllkurve g sollte möglichst einfach sein, damit die Zufallszahlen entsprechend fQ = γ · g über die Inversionsmethode erzeugt werden können. Satz: ::::: Falls die Werte von X gemäß modifizierter Annahme-Verwerfungsmethode erzeugt werden, dann hat X die Dichte f . Die durchschnittliche Anzahl an Versuchen bis Rb zur Ausgabe einer Zufallszahl beträgt γ = g(x) dx a 2 Beispiel: f (x) = x √2 e− 2 2π 1(0,∞) (x) 0 1 x Gesucht: Algorithmus, der Zufallszahlen gemäß f erzeugt. !Inversionsmethode funktioniert nicht (keine Stammfunktion bekannt) !klassische Annahme-Verwerfungsmethode funktioniert nicht (kein endliches Intervall als Wertebereich, b = +∞) y modifizierte Annahme-Verwerfungsmethode 6. Juli 2017 Vorlesung MSM SS17 3.4.3 61 ERZEUGUNG NORMALVERTEILTER ZUFALLSZAHLEN Hüllkurve: ( √2 2π x √2 e− 2 2π g(x) = 0<x≤1 x>1 klar: g(x) ≥ f (x), 0 < x ≤ 1 und falls |·− x>1 − x x2 <− 2 2 x2 x <0 2 | · exp(...) streng monoton wachsend, Rel-zeichen bleibt 2 |· √ >0 2π x e− 2 < e− 2 x2 x 2 2 √ e− 2 < √ e− 2 , also f (x) < g(x) für x > 1 2π 2π R∞ −1 Berechnen um γ := g(x) dx 0 Z∞ Z1 g(x) dx = 0 2 √ dx + 2π Z∞ x 2 √ e− 2 dx 2π 1 0 x 2 2 2 2 2 = √ + √ [−2e− 2 ]∞ + √ 2e−1 = √ (1 + 2e−1 ) 1 = √ 2π 2π 2π 2π 2π √ γ= 2π 2(1 + 2e−1 ) √ 2π Erzeuge Q Werte entsprechend fQ = γ · g = · 2(1 + 2e−1 ) 1 x ∈ (0, 1] −1 1 + 2e x fQ (x) = −2 e x>1 1 + 2e−1 ( √2 2π x √2 e− 2 2π x≤1 x>1 (1) SQ = (0, ∞) (2) Zx H(x) = fQ (q) dq 0 = Rx 0 1 1+2e−1 6. Juli 2017 1 1+2e−1 = + dq = Rx 1 1 (1 1+2e−1 x 1+2e−1 1 e− 2 1+2e−1 dq = x x ∈ (0, 1] 1 (1 1+2e−1 q + [−2e− 2 ]x1 ) x>1 1 − 2e− 2 + 2e− 2 ) Vorlesung MSM SS17 3.4.3 62 ERZEUGUNG NORMALVERTEILTER ZUFALLSZAHLEN 3.4.3 Erzeugung normalverteilter Zufallszahlen 20.06.17 Gegeben: x2 1 ϕ(x) = √ e− 2 , x ∈ R 2π Gesucht: Algorithmus, der Zufallszahlen entsprechend ϕ erzeugt Möglichkeiten: 1. Beispiel modifizierte Annahme-Verwerfungsmethode aus 3.4.2 benutzen x2 2 f (x) = √ e− 2 1(0,∞) (x) 2π und Vorzeichen auswürfeln“, d.h. weitere Zufallszahlen W ∼ U (0, 1) erzeugen und ” falls W < 0.5 y Vorzeichen +1 sonst Vorzeichen (−1) 2. Box-Müller-Methode Feststellung: Falls X, Y unabhängig N (0, 1), dann 1 R2 = X 2 + Y 2 ∼ exp( ) 2 und Φ = arctan Y + Korrekturterm ∼ U [0, 2π) X und beide unabhängig umgekehrt: Falls R2 ∼ exp( 21 ) und Φ ∼ U [0, 2π) unabhängig, dann X = √ cos Φ, Y = R2 sin Φ ∼ N (0, 1), unabhängig. y √ R2 · x = r cos() y = r sin() x !Inversionsmethode für exp( 21 ): 1 U ∼ U (0, 1) y −2 ln(U ) ∼ exp( ) 2 V ∼ U (0, 1) y 2πV ∼ U [0, 2π) y Algorithmus (Box-Müller): ::::::::::::::::::::::::::::::: (1) Erzeuge U ∼ U (0, 1), V ∼ U (0, 1) unabhängig (PRNG - Pseudo-ZufallszahlenGenerator) √ √ (2) Berechne X = −2 ln U cos(2πV ) und Y = −2 ln U sin(2πV ). (3) Gib X und Y aus. 6. Juli 2017 Vorlesung MSM SS17 3.4.3 63 ERZEUGUNG NORMALVERTEILTER ZUFALLSZAHLEN Satz: Die nach obigen Algorithmus erzeugten (X, folgen einer zweidimen Zahlenpaare Y) 0 1 0 sionalen Normalverteilung mit µ ~ = und Σ = , d.h. X und Y sind 0 0 1 N (0, 1) und unabhängig. ::::: ohne Beweis (zweidimensionaler Transformationssatz) Transformation auf N (µ, σ 2 )-Verteilung Gegeben: Z ∼ N (0, 1) Gesucht: X ∼ N (µ, σ 2 ) y X = σZ + µ, denn E(σZ + µ) = EσZ + Eµ = σ |{z} EZ +µ = µ |{z} 0 µ und 2 Var(σZ + µ) = Var(σZ) = σ 2 Var | {zZ} = σ 1 Erzeugung normalverteilter Vektoren Ziel: (X ..., Xn )T ∼ N (~µ , Σ) 1, soll erzeugt werden 1 1 0.8 z.B. N2 , , dann X1 ∼ N (1, 1), X2 ∼ N (2, 1) und cov(X1 , X2 ) = 0.8 2 0.8 1 0 1 0 T !Erinnerung: (X, Y ) ∼ N2 , , d.h. X, Y ∼ N (0, 1) unabhängig, dann 0 0 1 ~ +µ AX ~ ebenfalls normalverteilt und es gilt: ~ +µ ~ +~µ = µ E(AX ~ ) = A |{z} EX ~ 0 = 0 und ~ +µ ~ = A Var(X) ~ ·AT = AAT , Var(AX ~ ) = Var(AX) | {z } I T ~ ~ ∼ N2 (~µ, Σ). also muss A so gewählt werden, dass AA | {z= Σ} damit AX + µ geht das? Std.Normal Verteilt -1 1 µ-σ µ µ+σ Ja, es geht, weil eine Varianzmatrix positiv semi-definit ist. a11 a12 a11 a21 σ11 σ12 = a21 a22 a12 a22 σ21 σ22 y a211 + a212 = σ11 , a11 a21 + a12 a22 = σ12 ...sogenannte Matrixwurzel 6. Juli 2017 Vorlesung MSM SS17 4.1 64 EINFÜHRUNG 4 Markovketten mit diskreter Zeit 4.1 Einführung Beispiel: Marktanteile Jahr 0: Marktanteile ( |{z} 0.6 , |{z} 0.3 , |{z} 0.1 ) = p~0 P (X0 =1) P (X0 =2) P (X0 =3) Jahr 1: Marktanteile p~1 = (P (X1 = 1), P (X1 = 2), P (X1 = 3)) P (X1 = 1) = p~0 · P (1) = |{z} 0.6 · |{z} 0.6 + |{z} 0.3 · |{z} 0.1 + |{z} 0.1 · |{z} 0.4 P (X0 =1) p11 P (X0 =2) p21 p31 P (X0 =3) p~1 = p~0 P~ Xn ...Kaufverhalten eines zufällig ausgewählten Kunden 0.6 0.1 0.3 P = 0.1 0.9 0.0 0.4 0.4 0.2 21.06.17 0.6 1 Trajektorie (Pfad) von Xn 1 (Folgen von einem Kunden um Zeitverlauf) 3 2 0.1 0.3 1 0.4 3 1 2 3 4 2 0.0 t P(X3=i) 4.2 0.1 0.4 0.9 0.2 Definition und Grundlagen Definition: :::::::::::: Sei T ⊂ [0, ∞) oder T = N0 eine Menge von Zeitpunkten und S eine beliebige Menge (Zustandsraum). Für jedes t ∈ T sei Xt eine Zufallsvariable mit Zustandsraum S. Dann heißt (Xt )t∈T stochastischer Prozess mit Zustandsraum S und diskreter Zeit falls T = N0 bzw stetiger Zeit für T = [0, ∞). Definition: :::::::::::: Sei (Xn )n∈N0 ein stochastischer Prozess mit Zustandsraum S. Falls für alle n ∈ N0 und k, l, xo , ..., xn−1 ∈ S gilt: P (Xn+1 = l | Xn = k , Xn−1 = xn−1 , ..., X0 = x0 ) = P (Xn+1 = l | Xn = k ) =: p(k, l) {z } | {z } | {z } | {z } | {z } | Zukunft Gegenwart Vergangenheit Zukunft Gegenwart so heißt (Xn )n∈N0 Markov-Kette und die Matrix P = (p(k, l))k,l∈S Übergangsmatrix von (Xn ). 6. Juli 2017 Vorlesung MSM SS17 4.2 65 DEFINITION UND GRUNDLAGEN Bemerkung: (1) Für Markovketten kann die Zukunft“ aus dem gegenwärtigen Zustand vor” hergesagt werden ohne dass man die Vergangenheit“ kennen muss. ” (2) Die Übergangsmatrix P = (p(k, l)) k,l∈S ist eine stochastische Matrix, d.h. P p(k, l) ≥ 0 und p(k, l) = 1. l∈S Defintion: ::::::::::: Sei (Xn )n∈N Markovkette (MK) mit Zustandsraum S und Übergangsmatrix P . Dann heißt p~n = (pn (k))k∈S = (P (Xn )) die Verteilung von (Xn ) zur Zeit n. Bemerkung: Die Verteilung zur Zeit n entspricht den Anteilen in den einzelnen Zuständen, wenn die Kette sehr oft unter identischer Bedeutung gestartet wurde. Satz: ::::: P Falls p~0 = (p0 (l))l∈S eine Verteilung auf S ist (d.h. p0 (l) ≥ 0, p(l) = 1). Dann l∈S gilt: p~1 = p~0 · P, p~2 = p1 · P, ... also p~n = p~0 · P n , wobei P n = |P · P {z · ... · P} n Faktoren Bemerkung: Die Einträge in P n sind die sogenannten n-Schritt Übergangswahrscheinlichkeiten, P (Xn = l|X0 = k) = P n (k, l) Beispiel: Marktanteile p~0 = (0.60, 0.30, 0.1) p~1 = (0.43, 0.37, 0.2) 6. Juli 2017 0.6 0.1 0.3 P = 0.1 0.9 0.0 0.4 0.4 0.2 p~1 = 0.43 0.37 0.2 p~2 = ... ... ... Vorlesung MSM SS17 4.3 66 KLASSIFIKATION VON ZUSTÄNDEN 4.3 Klassifikation von Zuständen Sei (Xn ) Markovkette mit Übergangsmatrix P und Zustandsraum S. Definition: :::::::::::: 1. Der gerichtete Graph ( |{z} S , |{z} ) mit = {(x, y) : p(x, y) > 0} Knoten“ Kanten“(Pfeile) ” ” heißt Interaktionsgraph der Markovkette 2. Ein Zustand y heißt von x erreichbar, falls es einen Weg (Pfeilrichtung beachten) von x nach y im Interaktionsgraphen gibt. Bezeichnung: x → y Beispiel: 1) 1 → 2, 1 → 3, 1 → 1, 2 → 1, 2 → 2, 2 → 3 (über 1), 3 → 1, 3 → 2, 3 → 3 2) ... 3) z.B. 1 9 6, 1 9 3, 6 → 4 (über 5) 3. Die Zustände x, y ∈ S heißen verbunden, falls x → y und y → x oder falls x = y. Beispiel: 1↔2↔3↔1 ... 1 ↔ 2; 3 ↔ 4 ↔ 5; 6 ↔ 6 !Die Relation verbunden“ (↔) ist eine Äquivalenzrelation auf S (d.h. reflexiv (x ↔ x), ” symmetrisch (x ↔ y dann y ↔ x), transitiv (x ↔ y, y ↔ z, dann x ↔ z)) y damit ist Klasseneinteilung möglich; alle miteinander verbundenen Zustände werden zu einer Klasse zusammengefasst. !(Zerlegung von S in Klassen G1 , G2 , ..., Gk entsprechend der Äquivalenzrelation ↔“: ” Gi ∩ Gj = ∅ falls i 6= j G1 ∪ G2 ∪ ... ∪ Gk = S Definition: :::::::::::: Falls Markovkette nur eine Klasse besitzt, so heißt sie irreduzibel. Bemerkung!: Innerhalb einer Klasse ist jeder Zustand mit jedem verbunden. Würde eine Klasse einmal verlassen, so ist sie nicht mehr erreichbar y Klassen können geordnet werden. Definition: :::::::::::: Gi liegt vor“ Gj , Bezeichnung Gi → Gj oder Gi < Gj , falls für ein (alle) x ∈ Gi ” und für ein (alle) y ∈ Gj gilt: x → y. 6. Juli 2017 Vorlesung MSM SS17 28.06.17 4.3 67 KLASSIFIKATION VON ZUSTÄNDEN Beispiel: (1) 1 1 G1 3 5 4 6 G1<G2<G3 G2 2 7 G 3 (2) 2 Start Start Start 0 1 0 3 a) 3 G1 2 4 b) 0 3 1 2 1 2 c) (3) 5 G1 3 1 4 7 2 3 G1<< 8 G3 G2 G3 G2 Bemerkung: Die Relation liegt vor“ (→, <) ist eine Partialordung auf der Menge der ” Klassen. Definition: :::::::::::: Eine Klasse, die vor keiner anderen liegt, heißt abgeschlossen. Beispiel: (1) G3 abgeschlossen (2) G1 abgeschlossen (3) G2 und G3 abgeschlossen Definition: :::::::::::: Alle nicht abgeschlossenen Klassen heißen transient. Die Zustände in transienten Klassen heißen transient. Die Zustände in abgeschlossenen heißen absorbierend, falls die zugehörige Klasse eindeutig ist, und sonst rekurrent. Beispiel: (1) transient: 1,2,...,6; absorbierend: 7 (2) alle Zustände rekurrent (3) transient: 5; rekurrent: 1,...,4 und 7,8 (gehören zu unterschiedlichen abgeschlossenen Klassen) 6. Juli 2017 Vorlesung MSM SS17 4.4 68 RÜCKKEHRZEITEN UND PERIODIZITÄT 4.4 Rückkehrzeiten und Periodizität Beispiel: 2 Start Start Start 0 1 2 4 a) 0 3 G1 3 b) 0 3 1 2 1 2 c) Bezeichne Tx die Menge aller Schrittlängen, in denen man von x zu z zurückkehren kann, wobei x ∈ S. Beispiel: a) T0 = {2, 4, 6, ...} y ggT(T0 ) = 2 y Periode des Zustandes 0 ist 2 b) T0 = {2, 4, 5, 6, ...} y ggT(T0 ) = 1 y Periode des Zustandes 0 ist 1 c) T0 = {1, 2, 3, ...} y ggT(T0 ) = 1 y Periode des Zustandes 0 ist 1 Definition: :::::::::::: Die Periode eines Zustandes x ∈ S ist gegeben durch den größten gemeinsamen Teiler der möglichen Rückkehrzeiten: ggT(TX ). Ein Zustand mit Periode 1 heißt aperiodisch. Beispiel: (Folie) (2) a) jeder Zustand hat Periode 2 b) jeder Zustand ist aperiodisch (3) G2 : T1 = {4, 8, ...} y Periode 4, x ∈ S; G3 : T7 = {2, 3, ...} y ggT(T7 ) = 1 y 7 hat Periode 1, T8 = {1, 2, ...} y ggT(T8 ) = 1 y 8 hat Periode 1 Bemerkung: (1) Alle Zustände einer Klasse haben die selbe Periode. (2) Sobald ein Zustand einer Klasse eine Schlaufe hat“, d.h. p(x, x) > 0 für ein x ” dieser Klasse, sind alle Zustände der Klasse aperiodisch. (3) ggT(∅) = ∞ (4) Periodizität ist im Sinne der Modellierung oft künstlich (unerwünscht) unrealistisch: Durch Erweiterung des Zustandsraumes bzw. Hinzufügen von Schlaufen oder Änderungen des Verhaltens am Rand“ kann oft Aperiodizität erreicht ” werden. 6. Juli 2017 Vorlesung MSM SS17 4.5 69 HAUPTSATZ FÜR ERGODISCHE MARKOVKETTEN 4.5 Hauptsatz für ergodische Markovketten Definition: :::::::::::: Eine Markovkette mit endlichem Zustandsraum S heißt ergodisch, falls sie irreduzibel und aperiodisch ist. Beispiel: 0.6 1 0.3 0.1 0.4 0.1 0.4 3 3 0.0 0.2 0.9 ist ergodisch. Definition: P Eine Verteilung π auf S (d.h. π(x) ≥ 0, x ∈ S und π(x) = 1) heißt stationär :::::::::::: x∈S (invariant) für die Markovkette, falls π · P = π. Beispiel: Marktforschung: π = 8 20 3 , , 31 31 31 ist stationär, denn 6 1 3 1 1 9 0 10 4 4 2 1 (8, 20, 3) 31 1 (80, 200, 30) 310 = 8 20 3 , , 31 31 31 =π y Wie findet man π? πP = π yπP = πI yP T π T = I T · π T |()T | − I T πT (P T − I T )π T = ~0 y homogenes LGS für ~x := π T ...Vektor der Unbekannten, A := (P T − I)...Koeffizienzmatrix 0.6 0.1 0.4 1 0 0 −0.4 0.1 0.4 Im Beispiel: (P T − I) = 0.1 0.9 0.4 − 0 1 0 = 0.1 −0.1 0.4 = A 0.3 0 0.2 0 0 1 0.3 0 −0.8 zusätzliche Gleichung: π1 + π2 + π3 = 1 6. Juli 2017 Vorlesung MSM SS17 04.07.17 4.5 70 HAUPTSATZ FÜR ERGODISCHE MARKOVKETTEN Satz (Hauptsatz für ergodische Markovketten): ::::::::::::::::::::::::::::::::::::::::::::::::::::::: Sei (Xn )n∈N0 ergodisch (also irreduzibel und aperiodisch). Dann gilt: 1. Es gibt genau eine Verteilung ~π = (π(x))x∈S mit πP = π (d.h. π ist stationär) 2. startet man die Markovkette (Xn ) mit einer beliebigen Anfangsverteilung, so strebt die Verteilung von Xn für n → ∞ gegen π, d.h. es gilt n→∞ P n (x, y) −−−→ π(y), x ∈ S, wobei P n das n-fache Matrixprodukt der Übergangsmatrix P mit sich selbst ist. 3. π(x) ist der Anteil der Zeit(punkte) für die sich die Markovkette auf lange Sicht im Zustand x ∈ S befindet. 4. Die mittlere Rückkehrzeit vom Zustand x zum Zustand x ist gegeben durch ETx = 1 , x ∈ S. π(x) Beispiel: Marktforschung, P (Folie) 1. Es gibt genau eine stationäre Verteilung: Diese wird berechnet über LGS -0.4 0.1 0.4 0 ! 0.1 -0.1 0.4 0 0.3 0 -0.8 0 1 1 1 1 8 20 3 y Lösung: ~π = ( 31 , 31 , 31 ) = (0.26, 0.64, 0.10) 2. langfristig stellen sich die Marktanteile (0.26, 0.64, 0.10) ein, egal wie gestartet wurde. (n) (n) (n) p11 p12 p13 0.26 0.64 0.10 (n) (n) P n = p(n) p22 p23 ≈ 0.26 0.64 0.10 für n 1 21 (n) (n) (n) 0.26 0.64 0.10 p31 p32 p33 3. Ein Kunde kauft ca. 26% der Jahre Produkt 1, 64% aller Jahre Produkt 2 und 10% aller Jahre Produkt 3. 4. Wenn ein Kunde heute Produkt 1 kauft, dann kauft er im Mittel nach 1 = 3.85 Jahren wieder das Produkt 1. 0.26 Wenn ein Kunde heute Produkt 2 kauft, dann kauft er im Mittel nach 1 = 1.56 Jahren wieder das Produkt 2. 0.64 Wenn ein Kunde heute Produkt 3 kauft, dann kauft er im Mittel nach 1 = 10 Jahren wieder das Produkt 3. 0.1 1 π(1) = 1 π(2) = 1 π(3) = Wie lange bleibt ein Kunde im Mittel bei Produkt i; i = 1, 2, 3? → Hat nichts mit stationärer Verteilung zu tun, sondern mit den Dialogeinträgen der Übergangsmatrix P . 6. Juli 2017 Vorlesung MSM SS17 4.5 71 HAUPTSATZ FÜR ERGODISCHE MARKOVKETTEN Lösung: für i = 1 : X0 = 1; τ := min{n > 0 Jahre in Zustand 1 0 1 2 3 k 2 pk 0 1 − 0.6 = 0.4 0.6 · 0.4 0.6 · 0.4 Y ... 0 1 2 : Xn 6= 1}; Y := τ − 1... Anzahl der ... ... ... k k−1 0.6 · 0.4 k−1 ... ... ... P (Y = k) = (pii )k (1 − pii ) = (0.6)k · 0.4 ∼ Geo(0.4); k = 1, 2, ... y |{z} EY = ∼Geo(p) = 1−p 1 − 0.4 0.6 3 = = = = 1.5 p 0.4 0.4 2 1 − (1 − pii ) pii = 1 − pii 1 − pii y im Mittel bleibt ein Kunde 15 Jahre im Zustand 1 yi=2: yi=3: 0.9 0.1 0.2 0.8 = 9 Jahre (mittlere Verweildauer) = 1 4 Jahr (mittlere Verweildauer) Satz: ::::: Die mittlere Verweildauer in einem Zustand x ∈ S (bis zum ersten Wechsel bei pxx , x ∈ S wobei pxx der zugehörige Diagonaleintrag der Start in x, Zeit) beträgt 1−p xx Übergangsmatrix ist. 6. Juli 2017 Vorlesung MSM SS17 4.6 72 NICHTERGODISCHE ENDLICHE MARKOVKETTEN UND ABSORPTIONSVERHALTEN 4.6 Nichtergodische endliche Markovketten und Absorptionsverhalten Beispiel: G1 0.1 2 0.4 G2 0.2 0.3 1 G3 0.2 1.0 0.9 0.8 rekurrent : G1, G2 transient : G2 (von-dieser-in-andere-klasse-einweg-richtung) irreduzibel : nein (deswegen auch nicht ergodisch) absorbierend : G4 (kein anderer Zustand von diesem zustand begehbar) abgeschlossen : G2,G3 (keine andere Klasse von diesem zustand begehbar) 3 0.1 4 1 P = 2 3 4 < G1 < 1 0.2 0.4 0.9 0 G2 G3 2 3 0 0.8 0.1 0.3 0 0.1 0 0 4 0 0.2 0 1 Gesucht: Langzeitverhalten der zugehörigen Markovkette, d.h. lim P n =: P ∞ n→∞ (1) Start in 4 → Kette bleibt immer in 4, da 4 absorbierend (2) Start in 1 oder 3 → Kette bleibt immer in 1,3 und besucht niemals 2,4 ( sieht ” 2,4 nicht“) 1 2 3 4 9 8 0 17 0 1 17 7 56 ∞ P = 2 17 0 153 29 9 8 3 17 0 17 0 4 0 0 0 1 Kette eingeschränkt auf abgeschlossene Klasse {1, 3} kann als ergodische Mar0.2 0.8 kovkette behandelt werden: P̃ = (nur Zeilen und Spalten 1 und 3) 0.9 0.1 y statistische Verteilung durch Lösen des LGS −0.8 0.9 0 0.8 −0.9 0 y erste Gleichung: x2 = 8 x1 ; 9 1 1 1 9 8 y in letzte Gleichung: x1 + 89 x1 = 1 y x1 = 17 , x2 = 17 (3) Was passiert bei Start in 2? P ∞ (2, 2) = 0, weil 2 transient. 0.2 0.2 P ∞ (2, 4) = 1−0.1 = 0.9 = 92 0.3 + 0.4 P ∞ (2, 1) = · | 0.9 {z } 9 17 |{z} = 7 9 · 9 17 = 7 17 Zufluss in Klasse G2 langfristige Anteil im Zustand 1 6. Juli 2017 Vorlesung MSM SS17 4.6 73 NICHTERGODISCHE ENDLICHE MARKOVKETTEN UND ABSORPTIONSVERHALTEN 0.3 + 0.4 | 0.9 {z } P ∞ (2, 3) = · 8 17 |{z} = 7 9 · 8 17 = 56 153 Zufluss in Klasse G2 langfristige Anteil im Zustand 3 05.07.17 Beispiel: Moranmodell Ein-Schritt-Rechnung: a1 = p(1, 0) + p(1, 1) · a1 + p(1, 2) a2 |{z} |{z} *2 *1 *1: Wahrscheinlichkeit bei Null absorbiert zu werden, wenn Start in 1 *2: Wahrscheinlichkeit bei Null absorbiert zu werden bei Start in 2 π2 (C1 ) = a2 = p(2, 1) · a1 + p(2, 2) · a2 + p(2, 3) · a3 π3 (C1 ) = a3 = p(3, 2) · a2 + p(3, 3) · a3 + p(3, 4) · a4 π4 (C1 ) = a4 = p(4, 3) · a3 + p(4, 4) · a4 ai = X p(i, k) · ak + p(i, 0, T = {1, ..., 4}, i ∈ T k∈T T ...Menge der transienten Zustände C1 = {0}, C2 = {5}12 12 C2 = p(0, 1) 6. Juli 2017 Vorlesung MSM SS17