Stochastik (BA) Zusammenfassung der Vorlesung Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin 2 0 Allgemeine Orientierung Ziel der Stochastik: Bereitstellung eines mathematischen Modells, mit dem zufällige Phänomene beschrieben und interpretiert werden können. Ein solches Modell ist gegeben durch (Ω, F, P) 1 Kombinatorik Bei 2 (verschachtelten) Experimenten mit m ∈ N und n ∈ N möglichen Ausgängen, lässt sich Ω als m × n Matrix darstellen, deren Einträge die m · n Versuchsausgänge repräsentieren. • Assoziativgesetze: (E ∪ F ) ∪ G = E ∪ (F ∪ G) (E ∩ F ) ∩ G = E ∩ (F ∩ G) • Distributivgesetze: (E ∪ F ) ∩ G = Sn(E ∩ G) ∪ (F ∩ G)Sn also auch: ( i=1 Ei ) ∩ G = i=1 (Ei ∩ G) (E ∩ F ) ∪ G = (E ∪ G) ∩ (F ∪ G) Tn Tn also auch:( i=1 Ei ) ∪ G = i=1 (Ei ∪ G) • DeMorgansche Regeln: Tn Sn c (Si=1 Ei ) = Ti=1 Eic c n n ( i=1 Ei ) = i=1 Eic Wahrscheinlichkeitsaxiome: Die Anforderungen, die an ein Wahrscheinlichkeitsmaß P gestellt werden Verallgemeinerung: betrachten wir r ∈ N Experi- lassen sich in 3 Axiomen zusammenfassen: mente, wobei der i-te, 1 ≤ i ≤ r Versuch nQ i Realir sierungen erlaubt, so ergeben sich insgesamt j=1 nj • 0 ≤ P(E) ≤ 1, ∀E ⊆ Ω Versuchsausgänge. • P(Ω) = 1 Permutationen: Die Möglichkeiten, n verschiedene Objekte anzuordnen sind n! := n · (n − 1) · . . . 2 · 1 Kombinationen: Die Möglichkeiten, eine relementige Teilmenge aus einer Grund n-elementigen n! menge zu erzeugen sind nr := (n−r)!·r! • Für jede Folge E1 , E2 , · · · ⊆ Ω gilt: P Verwendung findet der soeben definierte Binomialkoeffizient unter anderem im Binomischen Lehrsatz: n X n k n−k (x + y) = x y , ∀n ∈ N0 r n k=0 Anzahl der ganzzahligen Lösungen von Gleichungen: n−1 • Es gibt verschiedene Vektoren r−1 (x1 , x2 , . . . xr ) mit 0 < xi ∈ N, welche x1 + x2 + · · · + xr = n erfüllen. n+r−1 • Es gibt verschiedene Vektoren r−1 (x1 , x2 , . . . xr ) mit 0 ≤ xi ∈ N, welche x1 + x2 + · · · + xr = n erfüllen. • Es gibt n+r−1 Möglichkeiten, eine ungeordner te Stichprobe der Länge r aus einer Menge vom Umfang n zu bilden, wenn ‘mit Zurücklegen’ und ohne Berücksichtigung der Reihenfolge gezogen wird. 2 Wahrscheinlichkeitsaxiome Rechenregeln für Mengen: Für Ereignisse E, F, G und Ei , i = 1, . . . n gelten: ∞ [ paarweise ! Ei = ∞ X disjunkter P(Ei ) i=1 i=1 Diese Eigenschaft wird auch σ-Additivität genannt. Proposition: Es gelten folgende Eigenschaften: i) P(∅) = 0 ii) Für jede Folge paarweise disjunkter E1 , E2 , . . . , En ⊆ Ω gilt: ! n n [ X P Ei = P(Ei ) i=1 i=1 iii) Für jedes Ereignis E gilt: P(E c ) = 1 − P(E) iv) Für alle E, F gilt: E ⊂ F → P(E) ≤ P(F ) v) Für alle Ereignisse E, F gilt: P(E∪F ) = P(E)+ P(F ) − P(E ∩ F ) vi) Für Ereignisse E1 , E2 , . . . , En gilt: P(E1 ∪· · ·∪En ) = n X i=1 X i1 <i2 <i3 P(Ei )− X P(Ei1 ∩Ei2 )+ i1 <i2 P(Ei1 ∩Ei2 ∩Ei3 )−. . . (−1)n+1 P(E1 ∩· · ·∩En ) 3. BEDINGTE WAHRSCHEINLICHKEIT UND UNABHÄNGIGKEIT Laplace-Experimente: Auf einem endlichen Grundraum Ω = {1, . . . N } nehmen wir alle Elementarereignisse als gleichwahrscheinlich an, also gilt wegen σ-Additivität: 1 , N 3 Hüte aus, die nicht die eigenen sind. Es ergeN ben sich im ersten Schritt und im zweiten k 1 1 + 3! − . . . (−1)N +1 N1 ! ) Schritt (N − k)! 1 − (1 − 2! Möglichkeiten. Damit ist |F | P(F ) = |Ω| N 1 1 N +1 1 Dann gilt für ein Ereignis E ⊂ Ω: k · (N − k)! 1 − (1 − 2! + 3! − . . . (−1) N! ) = N! X |E| P(E) = P({i}) = 1 1 1 1 |Ω| = 1 − (1 − + − . . . (−1)N +1 ) i∈E k! 2! 3! N! 1 Hier bedeutet |E| die Mächtigkeit von E. ≈ e−1 k! Beispiel Hut-Problem: Die N Hüte von N Persobei großen N für k ∈ N. Diese Zahlen approximieren nen werden gemischt und jeder zieht zufällig einen. die Poissonverteilung zum Parameter λ = 1, die wir Wie groß ist die Wahrscheinlichkeit, dass später kennenlernen werden. a) keiner der Besucher seinen eigenen Hut erhält? b) genau k Besucher ihre eigenen Hüte erhalten? P({i}) = 1 ≤ i ≤ N. L: a) Ω = {(i1 , . . . , iN ) : 1 ≤ ij ≤ N, ij 6= ik ,fürj 6= k} Ereigniss Ej : Besucher Nr. j erhält Hut Nr. ij = j (seinen eigenen) werde dann beschrieben durch Ej = {(i1 , . . . , iN ) ∈ Ω : ij = j}1 ≤ j ≤ N berechnet wird c ) = 1 − P(E1 ∩ · · · ∩ EN ) mithilfe P(E1c ∩ · · · ∩ EN der Formel aus Prop. vi). Für n ≤ N seien gegeben 1 ≤ j1 < . . . jn ≤ N Dann ist Ej1 ∩ · · · ∩ Ejn = {(i1 , . . . , iN ) ∈ Ω : ij1 = j1 , . . . , ijn = jn } mit |E ∩···∩E | P(Ej1 ∩ · · · ∩ Ejn ) = j1 |Ω| jn = (NN−n)! ! Mit Prop. vi) folgt dann, P( N [ Ei ) = N · i=1 (N − 1)! N! (N − 2)! N! (N − 3)! + |{(j1 , j2 , j3 ) : 1 ≤ j1 < j2 < j3 ≤ N }| · N! N +1 1 − · · · + (−1) N! N N (N − 2)! (N − 3)! =1− · + · 2 N! 3 N! 1 − · · · + (−1)N +1 N! 1 1 1 = 1 − (1 − + − . . . (−1)N +1 ) 2! 3! N! ≈ e−1 − |{(j1 , j2 ) : 1 ≤ j1 < j2 ≤ N }| · für N groß. b) Ereignis F: Genau k Personen erhalten ihre eigenen Hüte In Schritt 1 wählen wir k Personen aus, die ihre eigenen Hüte bekommen und in Schritt 2 wählen wir für die restlichen N − k Personen 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit Für Ereignisse E, F gilt: P(E) = P(E|F ) · P(F ) + P(E|F c ) · P(F c ) Proposition: Seien S E1 , . . . , En paarweise disjunkte n Ereignisse mit Ω = i=1 Ei . Sei E ein weiteres Ereignis. Es gilt Folgendes: i) P(E) = P( n [ (E ∩ Ei )) = n X i=1 = n X P(E ∩ Ei ) i=1 P(E|Ei ) · P(Ei ) i=1 ii) aus i) folgt für 1 ≤ j ≤ n: P(E|Ej ) · P(Ej ) P(Ej |E) = Pn i=1 P(E|Ei ) · P(Ei ) Die Ereignisse E und F heißen unabhängig, falls gilt P(E|F ) = P(E). Dies ist äquivalent zur folgenden Definition. Definition (Unabhängigkeit) Die Ereignisse E und F heißen unabhängig, falls gilt P(E ∩ F ) = P(E) · P(F ). Propositon: Sind die Ereignisse E und F unabhängig, so sind es auch E und F c . Beispiel (zweifacher fairer Münzwurf:) Sind die folgenden Ereignisse unabhängig: 4 • E : Augensumme ist 7 Dies lässt sich auf Folgen von n bzw. unendlich vielen Versuchen verallgemeinern. Dabei gilt immer: sind (Ei )1≤i≤n bzw. (Ei )i∈N Ereignisse, für die Ei nur von Versuch Nr. i abhängt, so sind (Ei )1≤i≤n bzw. (Ei )i∈N unabhängig. • F : der erste Wurf ergibt 4 • G : der zweite Wurf ergibt 3 L: Beispiel: Eine unendliche Folge von Versuchen wird durchgeführt. Jeder Versuch hat zwei mögliche F = {(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)}, Ausgänge, Erfolg und Misserfolg. Die Wahrscheinlichkeit für Erfolg sei p, die für Misserfolg 1 − p, für G = {(1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3)} eine Zahl p ∈ [0, 1]. Wie groß ist die WahrscheinlichWeil E ∩ F = E ∩ G = F ∩ G = {(4, 3)} und keit, dass P(E) = P(F ) = P(G) = 16 sind die drei Ereignisse (paarweise) unabhängig. E ist jedoch nicht una) mindestens ein Erfolg in den ersten n Versuchen abhängig von F ∩ G, denn P(E|F ∩ G) = 1. erzielt wird? Definition: Seien E1 , . . . , En bzw. (Ei )i∈N EreignisE = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}, se. i) E1 , . . . , En sind unabhängig, wenn für jedes r ≤ n, 1 ≤ i1 < · · · < ir ≤ n gilt: P(Ei1 ∩· · ·∩Eir ) = P(Ei1 ) · · · P(Eir ) = r Y P(Eij ) j=1 ii) (Ei )i∈N heißen unabhängig, falls für jedes endliche S ⊂ N gilt: \ Y P( Ei ) = P(Ei ) i∈S i∈S Formalisierung von Versuchsfolgen: Teilexperimente, die sich gegenseitig nicht beeinflussen, nennen wir Versuche. Ω1 = Ω2 seien endliche Grundräume von 2 Teilexperimenten, P1 = P2 Wahrscheinlichkeitsmaße darauf. Nehmen wir Ω1 = Ω2 = {1, . . . , N } an, so betrachten wir als Grundraum für die Aufeinanderfolge der Versuche, das Gesamtexperiment, Ω = Ω1 × Ω2 = {(i, j) : i ∈ Ω1 , j ∈ Ω2 }. Für E ⊂ Ω1 × Ω2 setzen wir X P(E) = P1 ({i}) · P2 ({j}) b) genau k Erfolge in den ersten n Versuchen erzielt werden (1 ≤ k ≤ n). L:a): Sei Ei das Ereignis “Erfolg im iten Versuch”. Dann ist E1c ∩ · · · ∩ Enc “Misserfolg in Versuchen 1 bis n” und (E1c ∩ · · · ∩ Enc )c das Ereignis “mindestens ein Erfolg in den Versuchen 1 bis n.” Also gilt P((E1c ∩ · · · ∩ Enc )c ) = 1 − P(E1c ∩ · · · ∩ Enc ) n Y P(Eic ) = 1 − (1 − p)n =1− i=1 b): T Sei T ⊂ {1, . T . . , n} mit |T | = k gegeben. Betrachc te ( i∈T Ei ) ∩ ( i∈T / Ei ) : Erfolg in den Versuchen i ∈ T , Misserfolg in den anderen. Dann gilt wegen Unabhängigkeit P(( \ Ei ) ∩ ( i∈T (i,j)∈E \ Eic )) = Y i∈T i∈T / k P(Ei ) · Y P(Eic ) i∈T / n−k = p (1 − p) Für Ereignisse E1 , E2 , die nur von Versuch 1 bzw. 2 abhängen muss gelten E1 = F1 × Ω2 , E2 = Ω1 × F2 wobei F1 ⊂ Ω1 , F2 ⊂ Ω2 . Es folgt nach Definition Sei schließlich E das Ereignis “genau k Erfolge in n Versuchen”. Dann ist Unabhängigkeit von E1 und E2 P(E1 ∩ E2 ) = P(F1 × F2 ) X = P1 ({i}) · P2 ({j}) E= [ [( \ T ⊂{1,...,n},|T |=k i∈T Ei ) ∩ ( \ Eic )]. i∈T / (i,j)∈F1 ×F2 X = P1 ({i}) · P2 ({k}) Also: (i,k)∈F1 ×Ω2 · X P1 ({k}) · P2 ({j}) (k,j)∈Ω1 ×F2 = P(E1 ) · P(E2 ) P(E) = |{T ⊂ {1, . . . , n} : |T | = k}| · pk (1 − p)n−k n = · pk (1 − p)n−k . k 4. ZUFALLSVARIABLEN 4 5 Zufallsvariablen Damit folgt für n ∈ N : Eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P) ist eine (messbare) Abbildung n n N N −2 N −1 − + ... N 2 N n N 0 + (−1)N −1 N N n N −1 X N N −i . = (−1)i+1 N i i=1 P(T > n) = N X : Ω → Rn , wobei wir Rn mit der Borel-σ-algebra versehen. Die Definition von Messbarkeit erfordert, dass F selbst eine σ-algebra ist. Wir ignorieren dieses technische (aber wichtige) Detail im Folgenden. Zufallsvariablen, die nur abzählbar viele Werte {xi } mit positiver Wahrscheinlichkeit annehmen, heißen diskret. In diesem Fall bezeichnen wir mit pX (xi ) := p(xi ) = P(X = xi ) 4.1 Erwartungswert und Varianz Definition: Der Erwartungswert einer diskreten Zufallsvariable X mit Werten in R und Massenfunktion p ist definiert durch: die Verteilung oder Massenfunktion von X. X E(X) = x · p(x), Beispiel: Es gebe N verschiedene Arten von Coux:p(x)>0 pons, die wir (unabhängig von den vorhergehenden Versuchen) beliebig oft erhalten. Bei jedem Versuch erhalten wir mit gleicher Wahrscheinlichkeit einen der sofern diese Reihe wohldefiniert ist, d.h. N Coupons. Sei T die Anzahl von Coupons, die nötig X sind, bis man einen kompletten Satz aller N besitzt. |x| · p(x) < ∞. Wir suchen die Verteilung von T , d.h. x:p(x)>0 P(T = n) = pT (n), n ≥ 1 Beispiel: Für ein Ereignis A sei 1A : Ω −→ R L: Es ist einfacher, P(T > n) für n ∈ N zu berechnen und dann die Formel P(T = n) = P(T > n − 1) − P(T > n) zu nutzen. Sei dazu Aj : kein j-Coupon in den ersten n Zügen. Dann gilt, {T > n} = N [ ( 1, ω− 7 → 0, ω ∈ A, ω∈ /A die Indikatorfunktion von A. Es gilt p1A (0) = 1 − P(A), p1A (1) = P(A), und damit E(1A ) = 1 · P(A) = P(A). Aj j=1 Propositon: Sei X eine ZV mit Werten {xi }i∈N und Verteilung pX . Sei g : R −→ R eine Funktion. Dann gilt: ∞ X E(g(X)) = g(xi )p(xi ), also nach dem Additionstheorem P(T > N ) = P( N [ Aj ) j=1 = N X P(Aj ) − j=1 i=1 X P(Aj1 ∩ Aj2 ) + . . . j1 <j2 N +1 . . . + (−1) P(A1 ∩ · · · ∩ An ) ∞ X |g(xi )|p(xi ) < ∞. i=1 Nun gilt für 1 ≤ j ≤ N : P(Aj ) = falls N −1 N n . Allgemeiner gilt für 1 ≤ j1 < · · · < jk ≤ N : n N −k P(Aj1 ∩ · · · ∩ Ajk ) = . N Rechenregeln: Seien a, b ∈ R, X, Y ZV mit Massenfunktionen pX , pY und existierenden Erwartungswerten. Dann gilt i) E(aX + b) = aE(X) + b ii) E(X + Y ) = E(X) + E(Y ) 6 Definition: Sei X einePZV mit Massenfunktion n p, n ∈ N, und es gelte x:p(x)<0 |x| · p(x) < ∞. Dann heißt X E(|X|n ) = |x|n · p(x) Die Poissonverteilung ist ein Grenzfall der Binomialverteilung: Für eine Folge (Xn )n∈N binomialverteilter ZV zu den Parametern {(n, pn )}n∈N mit Massenfunktionen (pXn )n∈N gilt für k ≥ 0: x:p(x)>0 lim pXn (k) = n→∞ das n-te Moment von X. Definition: Sei X eine diskrete ZV mit E(X) = µ. Dann heißt λk −λ e k! sofern lim npn = λ. n→∞ Die Poisson Verteilung findet als Approximation der Binomialverteilung Anwendung, wenn die Erfolgswahrscheinlichkeiten klein sind. Für Erwartungswert die Varianz von X. Durch Anwenden der Definition und Varianz einer Poisson-verteilten ZV X gilt: des Erwartungswertes erhält man E(X) = λ und V ar(X) = λ V ar(X) = E(X 2 ) − µ2 = E(X 2 ) − E(X)2 . Geometrische Verteilung: Folgt X einer geomeRechenregel: Seien a, b ∈ R, X eine diskrete ZV mit trischen Verteilung zum Parameter p, geschrieben existierender Varianz. Dann gilt X ∼ G(p), V ar(aX + b) = a2 V ar(X) so ist seine Massenfunktion gegeben durch V ar(X) = E([X − µ]2 ) 4.2 pX (n) = (1 − p)n−1 · p. Spezielle diskrete Verteilungen Binomialverteilung zu den Parametern n ≥ 2 und Erwartungswert und Varianz sind gegeben durch p: die Massenfunktion ist gegeben durch (1 − p) 1 E(X) = und V ar(X) = n i p p2 pX (i) = p (1 − p)n−i , 0 ≤ i ≤ n i Die geometrische Verteilung beschreibt die Wartezeit Eine binomialverteilte ZV X zu den Parametern auf den ersten Erfolg bei der unabhängingen Wiederholung eines Experiments. (n, p) hat den Erwartungswert E(X) = np und die Varianz V ar(X) = np(1 − p). Wir schreiben für eine solche ZV X ∼ B(n, p). Negative Binomialverteilung: Eine ZV X heißt negativ binomialverteilt mit Parametern (r, p), wenn r n−r n − 1 ,n ≥ r pX (n) = p (1 − p) r−1 Erwartungswert und Varianz einer negativ binomialverteilten ZV X zu den Parametern (r, p) sind gegeben durch r r(1 − p) E(X) = und V ar(X) = Hierbei steht B(n, p) für binominalverteilt zu den p p Parametern (n, p). Die Binomialverteilung schreibt die Anzahl von Erfolgen bei unabhängingen Wieder- Hypergeometrische Verteilung: Eine ZV X heißt hypergeometrisch verteilt zu den Parametern holungen des gleiches Experiments. (n, N, m), wenn Poissonverteilung: Die Massenfunktion einer N −m m Poisson-verteilten ZV X zum Parameter λ > 0 ist i · n−i pX (i) = gegeben durch N n λk −λ e , k ≥ 0. pX (k) = k! Wir schreiben in diesem Fall X ∼ π(λ). Erwartungswert und Varianz einer hypergeometrisch verteilten ZV X mit Parametern (n, N, m) sind gegeben durch E(X) = n m m m N −n und V ar(X) = n (1 − ) N N n N −1 5. ABSOLUTSTETIGE VERTEILUNGEN Eigenschaften von Verteilungsfunktionen: Sei X eine diskrete ZV. Die Funktion 7 n k− Mit xn (k) = √ n2 , 0 ≤ k ≤ n, n ∈ N gilt dann: 4 r pn (k) n lim max − 1 = 0 n→∞ k:|xn (k)|≤c ϕ(xn (k)) 4 F (x) := P(X ≤ x), x ∈ R heisst Verteilungsfunktion (oder kumulative Verteilungsfunktion), abgekürzt CDF. Es gilt: i) F ist monoton wachsend, d.h. F (a) ≤ F (b), falls a ≤ b ii) lim F (b) = 1 b→∞ iii) Als unmittelbare Folgerung erhalten wir, dass die Verteilungen der standardisierten Variablen Xn∗ mit n → ∞ gegen eine absolutstetige Verteilung konvergieren - gegen die für die Stochastik zentrale GaußVerteilung - die wir später genauer betrachten: Korollar: Für a, b ∈ R, a < b, gilt lim F (b) = 0 Zb b→−∞ lim P(a ≤ iv) F ist rechtsstetig, d.h. F (bn ) ↓ F (b), falls bn ↓ b. n→∞ Xn∗ ≤ b) = ϕ(x)dx a 5 Absolutstetige Verteilungen 5.1 Approximation der Binomialverteilung Wir betrachten eine Folge (Xn )n∈N ∼ B(n, pn ) binomialverteilter ZVen. Dann gilt E(Xn ) = npn sowie V ar(Xn ) = npn (1 − pn ). Gilt npn → λ < ∞, so kann die Binomialverteilung für grosse n durch die Poissonverteilung approximiert werden: B(n, pn ) ≈ π(λ), Definition: Eine ZV X heißt absolutstetig verteilt mit Dichte f : R → R+ (f Riemann-integrierbar), R falls f (t)dt = 1 und R Z P(X ∈ B) = Z f (t)dt = B 1B (t)f (t)dt R für alle (Borel messbaren) Mengen B gilt. Die Funktion Zx F : R → [0, 1], x 7−→ P(X ≤ x) = f (t)dt −∞ d.h. für kleine p approximieren wir B(n, p) durch heißt dann Verteilungsfunktion von X. Insbesondere gilt π(λ). Ist pn ≡ p, so gilt Z ∞ 1 − F (x) = f (t)dt. E(Xn ) = np ↑ ∞ sowie V ar(Xn ) = np(1 − p) ↑ ∞. x In diesem Fall müssen wir Xn standardisieren. Dazu definieren wir für n ∈ N: Xn − E(Xn ) Xn − np Xn∗ := p =p V ar(Xn ) np(1 − p) Ziel ist es nun, in geeigneter Weise die Wahrscheinlichkeit k − np P(Xn = k) = P Xn∗ = =: pn (k) np(1 − p) anzunähern. Dazu betrachten wir nun den Fall p = 0.5, d.h. 1 Xn ∼ B(n, ). 2 Satz von de Moivre/Laplace: Sei c > 0. Sei −x2 1 ϕ(x) = √ · e 2 , 2π x ∈ R.