Stochastik (BA) Zusammenfassung der Vorlesung Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin 2 0 Allgemeine Orientierung Ziel der Stochastik: Bereitstellung eines mathematischen Modells, mit dem zufällige Phänomene beschrieben und interpretiert werden können. Ein solches Modell ist gegeben durch (Ω, F, P) 1 Kombinatorik Bei 2 (verschachtelten) Experimenten mit m ∈ N und n ∈ N möglichen Ausgängen, lässt sich Ω als m × n Matrix darstellen, deren Einträge die m · n Versuchsausgänge repräsentieren. • Assoziativgesetze: (E ∪ F ) ∪ G = E ∪ (F ∪ G) (E ∩ F ) ∩ G = E ∩ (F ∩ G) • Distributivgesetze: (E ∪ F ) ∩ G = Sn(E ∩ G) ∪ (F ∩ G)Sn also auch: ( i=1 Ei ) ∩ G = i=1 (Ei ∩ G) (E ∩ F ) ∪ G = (E ∪ G) ∩ (F ∪ G) Tn Tn also auch:( i=1 Ei ) ∪ G = i=1 (Ei ∪ G) • DeMorgansche Regeln: Tn Sn c (Si=1 Ei ) = Ti=1 Eic c n n ( i=1 Ei ) = i=1 Eic Wahrscheinlichkeitsaxiome: Die Anforderungen, die an ein Wahrscheinlichkeitsmaß P gestellt werden Verallgemeinerung: betrachten wir r ∈ N Experi- lassen sich in 3 Axiomen zusammenfassen: mente, wobei der i-te, 1 ≤ i ≤ r Versuch nQ i Realir sierungen erlaubt, so ergeben sich insgesamt j=1 nj • 0 ≤ P(E) ≤ 1, ∀E ⊆ Ω Versuchsausgänge. • P(Ω) = 1 Permutationen: Die Möglichkeiten, n verschiedene Objekte anzuordnen sind n! := n · (n − 1) · . . . 2 · 1 Kombinationen: Die Möglichkeiten, eine relementige Teilmenge aus einer Grund n-elementigen n! menge zu erzeugen sind nr := (n−r)!·r! • Für jede Folge E1 , E2 , · · · ⊆ Ω gilt: P Verwendung findet der soeben definierte Binomialkoeffizient unter anderem im Binomischen Lehrsatz: n X n k n−k (x + y) = x y , ∀n ∈ N0 r n k=0 Anzahl der ganzzahligen Lösungen von Gleichungen: n−1 • Es gibt verschiedene Vektoren r−1 (x1 , x2 , . . . xr ) mit 0 < xi ∈ N, welche x1 + x2 + · · · + xr = n erfüllen. n+r−1 • Es gibt verschiedene Vektoren r−1 (x1 , x2 , . . . xr ) mit 0 ≤ xi ∈ N, welche x1 + x2 + · · · + xr = n erfüllen. • Es gibt n+r−1 Möglichkeiten, eine ungeordner te Stichprobe der Länge r aus einer Menge vom Umfang n zu bilden, wenn ‘mit Zurücklegen’ und ohne Berücksichtigung der Reihenfolge gezogen wird. 2 Wahrscheinlichkeitsaxiome Rechenregeln für Mengen: Für Ereignisse E, F, G und Ei , i = 1, . . . n gelten: ∞ [ paarweise ! Ei = ∞ X disjunkter P(Ei ) i=1 i=1 Diese Eigenschaft wird auch σ-Additivität genannt. Proposition: Es gelten folgende Eigenschaften: i) P(∅) = 0 ii) Für jede Folge paarweise disjunkter E1 , E2 , . . . , En ⊆ Ω gilt: ! n n [ X P Ei = P(Ei ) i=1 i=1 iii) Für jedes Ereignis E gilt: P(E c ) = 1 − P(E) iv) Für alle E, F gilt: E ⊂ F → P(E) ≤ P(F ) v) Für alle Ereignisse E, F gilt: P(E∪F ) = P(E)+ P(F ) − P(E ∩ F ) vi) Für Ereignisse E1 , E2 , . . . , En gilt: P(E1 ∪· · ·∪En ) = n X i=1 X i1 <i2 <i3 P(Ei )− X P(Ei1 ∩Ei2 )+ i1 <i2 P(Ei1 ∩Ei2 ∩Ei3 )−. . . (−1)n+1 P(E1 ∩· · ·∩En ) 3. BEDINGTE WAHRSCHEINLICHKEIT UND UNABHÄNGIGKEIT Laplace-Experimente: Auf einem endlichen Grundraum Ω = {1, . . . N } nehmen wir alle Elementarereignisse als gleichwahrscheinlich an, also gilt wegen σ-Additivität: 1 , N 3 Hüte aus, die nicht die eigenen sind. Es ergeN ben sich im ersten Schritt und im zweiten k 1 1 + 3! − . . . (−1)N +1 N1 ! ) Schritt (N − k)! 1 − (1 − 2! Möglichkeiten. Damit ist |F | P(F ) = |Ω| N 1 1 N +1 1 Dann gilt für ein Ereignis E ⊂ Ω: k · (N − k)! 1 − (1 − 2! + 3! − . . . (−1) N! ) = N! X |E| P(E) = P({i}) = 1 1 1 1 |Ω| = 1 − (1 − + − . . . (−1)N +1 ) i∈E k! 2! 3! N! 1 Hier bedeutet |E| die Mächtigkeit von E. ≈ e−1 k! Beispiel Hut-Problem: Die N Hüte von N Persobei großen N für k ∈ N. Diese Zahlen approximieren nen werden gemischt und jeder zieht zufällig einen. die Poissonverteilung zum Parameter λ = 1, die wir Wie groß ist die Wahrscheinlichkeit, dass später kennenlernen werden. a) keiner der Besucher seinen eigenen Hut erhält? b) genau k Besucher ihre eigenen Hüte erhalten? P({i}) = 1 ≤ i ≤ N. L: a) Ω = {(i1 , . . . , iN ) : 1 ≤ ij ≤ N, ij 6= ik ,fürj 6= k} Ereigniss Ej : Besucher Nr. j erhält Hut Nr. ij = j (seinen eigenen) werde dann beschrieben durch Ej = {(i1 , . . . , iN ) ∈ Ω : ij = j}1 ≤ j ≤ N berechnet wird c ) = 1 − P(E1 ∩ · · · ∩ EN ) mithilfe P(E1c ∩ · · · ∩ EN der Formel aus Prop. vi). Für n ≤ N seien gegeben 1 ≤ j1 < . . . jn ≤ N Dann ist Ej1 ∩ · · · ∩ Ejn = {(i1 , . . . , iN ) ∈ Ω : ij1 = j1 , . . . , ijn = jn } mit |E ∩···∩E | P(Ej1 ∩ · · · ∩ Ejn ) = j1 |Ω| jn = (NN−n)! ! Mit Prop. vi) folgt dann, P( N [ Ei ) = N · i=1 (N − 1)! N! (N − 2)! N! (N − 3)! + |{(j1 , j2 , j3 ) : 1 ≤ j1 < j2 < j3 ≤ N }| · N! N +1 1 − · · · + (−1) N! N N (N − 2)! (N − 3)! =1− · + · 2 N! 3 N! 1 − · · · + (−1)N +1 N! 1 1 1 = 1 − (1 − + − . . . (−1)N +1 ) 2! 3! N! ≈ e−1 − |{(j1 , j2 ) : 1 ≤ j1 < j2 ≤ N }| · für N groß. b) Ereignis F: Genau k Personen erhalten ihre eigenen Hüte In Schritt 1 wählen wir k Personen aus, die ihre eigenen Hüte bekommen und in Schritt 2 wählen wir für die restlichen N − k Personen 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit Für Ereignisse E, F gilt: P(E) = P(E|F ) · P(F ) + P(E|F c ) · P(F c ) Proposition: Seien S E1 , . . . , En paarweise disjunkte n Ereignisse mit Ω = i=1 Ei . Sei E ein weiteres Ereignis. Es gilt Folgendes: i) P(E) = P( n [ (E ∩ Ei )) = n X i=1 = n X P(E ∪ Ei ) i=1 P(E|Ei ) · P(Ei ) i=1 ii) aus i) folgt für 1 ≤ j ≤ n: P(E|Ej ) · P(Ej ) P(Ej |E) = Pn i=1 P(E|Ei ) · P(Ei ) Die Ereignisse E und F heißen unabhängig, falls gilt P(E|F ) = P(E). Dies ist äquivalent zur folgenden Definition. Definition (Unabhängigkeit) Die Ereignisse E und F heißen unabhängig, falls gilt P(E ∩ F ) = P(E) · P(F ). Propositon: Sind die Ereignisse E und F unabhängig, so sind es auch E und F c . Beispiel (zweifacher fairer Münzwurf:) Sind die folgenden Ereignisse unabhängig: 4 • E : Augensumme ist 7 Dies lässt sich auf Folgen von n bzw. unendlich vielen Versuchen verallgemeinern. Dabei gilt immer: sind (Ei )1≤i≤n bzw. (Ei )i∈N Ereignisse, für die Ei nur von Versuch Nr. i abhängt, so sind (Ei )1≤i≤n bzw. (Ei )i∈N unabhängig. • F : der erste Wurf ergibt 4 • G : der zweite Wurf ergibt 3 L: Beispiel: Eine unendliche Folge von Versuchen wird durchgeführt. Jeder Versuch hat zwei mögliche F = {(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)}, Ausgänge, Erfolg und Misserfolg. Die Wahrscheinlichkeit für Erfolg sei p, die für Misserfolg 1 − p, für G = {(1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3)} eine Zahl p ∈ [0, 1]. Wie groß ist die WahrscheinlichWeil E ∩ F = E ∩ G = F ∩ G = {(4, 3)} und keit, dass P(E) = P(F ) = P(G) = 16 sind die drei Ereignisse (paarweise) unabhängig. E ist jedoch nicht una) mindestens ein Erfolg in den ersten n Versuchen abhängig von F ∩ G, denn P(E|F ∩ G) = 1. erzielt wird? Definition: Seien E1 , . . . , En bzw. (Ei )i∈N EreignisE = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}, se. i) E1 , . . . , En sind unabhängig, wenn für jedes r ≤ n, 1 ≤ i1 < · · · < ir ≤ n gilt: P(Ei1 ∩· · ·∩Eir ) = P(Ei1 ) · · · P(Eir ) = r Y P(Eij ) j=1 ii) (Ei )i∈N heißen unabhängig, falls für jedes endliche S ⊂ N gilt: \ Y P( Ei ) = P(Ei ) i∈S i∈S Formalisierung von Versuchsfolgen: Teilexperimente, die sich gegenseitig nicht beeinflussen, nennen wir Versuche. Ω1 = Ω2 seien endliche Grundräume von 2 Teilexperimenten, P1 = P2 Wahrscheinlichkeitsmaße darauf. Nehmen wir Ω1 = Ω2 = {1, . . . , N } an, so betrachten wir als Grundraum für die Aufeinanderfolge der Versuche, das Gesamtexperiment, Ω = Ω1 × Ω2 = {(i, j) : i ∈ Ω1 , j ∈ Ω2 }. Für E ⊂ Ω1 × Ω2 setzen wir X P(E) = P1 ({i}) · P2 ({j}) b) genau k Erfolge in den ersten n Versuchen erzielt werden (1 ≤ k ≤ n). L:a): Sei Ei das Ereignis “Erfolg im iten Versuch”. Dann ist E1c ∩ · · · ∩ Enc “Misserfolg in Versuchen 1 bis n” und (E1c ∩ · · · ∩ Enc )c das Ereignis “mindestens ein Erfolg in den Versuchen 1 bis n.” Also gilt P((E1c ∩ · · · ∩ Enc )c ) = 1 − P(E1c ∩ · · · ∩ Enc ) n Y P(Eic ) = 1 − (1 − p)n =1− i=1 b): T Sei T ⊂ {1, . T . . , n} mit |T | = k gegeben. Betrachc te ( i∈T Ei ) ∩ ( i∈T / Ei ) : Erfolg in den Versuchen i ∈ T , Misserfolg in den anderen. Dann gilt wegen Unabhängigkeit P(( \ Ei ) ∩ ( i∈T (i,j)∈E \ Eic )) = Y i∈T i∈T / k P(Ei ) · Y P(Eic ) i∈T / n−k = p (1 − p) Für Ereignisse E1 , E2 , die nur von Versuch 1 bzw. 2 abhängen muss gelten E1 = F1 × Ω2 , E2 = Ω1 × F2 wobei F1 ⊂ Ω1 , F2 ⊂ Ω2 . Es folgt nach Definition Sei schließlich E das Ereignis “genau k Erfolge in n Versuchen”. Dann ist Unabhängigkeit von E1 und E2 P(E1 ∩ E2 ) = P(F1 × F2 ) X = P1 ({i}) · P2 ({j}) E= [ [( \ T ⊂{1,...,n},|T |=k i∈T Ei ) ∩ ( \ Eic )]. i∈T / (i,j)∈F1 ×F2 X = P1 ({i}) · P2 ({k}) Also: (i,k)∈F1 ×Ω2 · X P1 ({k}) · P2 ({j}) (k,j)∈Ω1 ×F2 = P(E1 ) · P(E2 ) P(E) = |{T ⊂ {1, . . . , n} : |T | = k}| · pk (1 − p)n−k n = · pk (1 − p)n−k . k 4. ZUFALLSVARIABLEN 4 5 Zufallsvariablen Damit folgt für n ∈ N : n n N N −2 Eine Zufallsvariable auf einem Wahrscheinlichkeits- P(T > n) = N N − 1 − + ... 2 N N raum (Ω, F, P) ist eine (messbare) Abbildung n N 0 X : Ω → Rn , + (−1)N −1 N N n N −1 wobei wir Rn mit der Borel-σ-algebra versehen. Die X N −i i+1 N = . (−1) Definition von Messbarkeit erfordert, dass F selbst i N i=1 eine σ-algebra ist. Wir ignorieren dieses technische (aber wichtige) Detail im Folgenden. Zufallsvaria- Definition: Der Erwartungswert einer diskreten Zublen, die nur abzählbar viele Werte {xi } mit positiver fallsvariable X mit Werten in R und Massenfunktion Wahrscheinlichkeit annehmen, heißen diskret. In die- p ist definiert durch: sem Fall bezeichnen wir mit X E(X) = x · p(x), pX (xi ) := p(xi ) = P(X = xi ) x:p(x)<0 die Verteilung oder Massenfunktion von X. sofern diese Reihe wohldefiniert ist, d.h. Beispiel: Es gebe N verschiedene Arten von CouX |x| · p(x) < ∞. pons, die wir (unabhängig von den vorhergehenden Versuchen) beliebig oft erhalten. Bei jedem Versuch x:p(x)<0 erhalten wir mit gleicher Wahrscheinlichkeit einen der N Coupons. Sei T die Anzahl von Coupons, die nötig Beispiel: Für ein Ereignis A sei 1A : Ω −→ R ( sind, bis man einen kompletten Satz aller N besitzt. 1, ω ∈ A, Wir suchen die Verteilung von T , d.h. ω 7−→ 0, ω ∈ /A P(T = n) = pT (n), n ≥ 1 die Indikatorfunktion von A. Es gilt p1A (0) = 1 − L: Es ist einfacher, P(T > n) für n ∈ N zu be- P(A), p1A (1) = P(A), und damit rechnen und dann die Formel P(T = n) = P(T > E(1A ) = 1 · P(A) = P(A). n − 1) − P(T > n) zu nutzen. Sei dazu Aj : kein j-Coupon in den ersten n Zügen. Dann gilt, {T > n} = N [ Aj Propositon: Sei X eine ZV mit Werten {xi }i∈N und Verteilung pX . Sei g : R −→ R eine Funktion. Dann gilt: ∞ X g(xi )p(xi ), E(g(X)) = i=1 j=1 falls also nach dem Additionstheorem P(T > N ) = P( N [ N X Aj ) P(Aj ) − j=1 X P(Aj1 ∩ Aj2 ) + . . . j1 <j2 . . . + (−1)N +1 P(A1 ∩ · · · ∩ An ) Nun gilt für 1 ≤ j ≤ N : P(Aj ) = |g(xi )|p(xi ) < ∞. i=1 j=1 = ∞ X N −1 N n . Allgemeiner gilt für 1 ≤ j1 < · · · < jk ≤ N : n N −k P(Aj1 ∩ · · · ∩ Ajk ) = . N Rechenregeln: Seien a, b ∈ R, X, Y ZV mit Massenfunktionen pX , pY und existierenden Erwartungswerten. Dann gilt i) E(aX + b) = aE(X) + b ii) E(X + Y ) = E(X) + E(Y ) Definition: Sei X einePZV mit Massenfunktion n p, n ∈ N, und es gelte x:p(x)<0 |x| · p(x) < ∞. Dann heißt X E(|X|n ) = |x|n · p(x) x:p(x)>0 das n-te Moment von X. 6 Definition: Sei X eine diskrete ZV mit E(X) = µ. sofern Dann heißt lim npn = λ. n→∞ V ar(X) = E([X − µ]2 ) Die Poisson Verteilung findet als Approximation der Binomialverteilung Anwendung, wenn die Erfolgsdie Varianz von X. Durch Anwenden der Definition wahrscheinlichkeiten klein sind. Für Erwartungswert des Erwartungswertes erhält man und Varianz einer Poisson-verteilten ZV X gilt: V ar(X) = E(X 2 ) − µ2 = E(X 2 ) − E(X)2 . E(X) = λ und V ar(X) = λ Rechenregel: Seien a, b ∈ R, X eine diskrete ZV mit existierender Varianz. Dann gilt Geometrische Verteilung: Folgt X einer geometrischen Verteilung zum Parameter p, geschrieben V ar(aX + b) = a2 V ar(X) X ∼ G(p), so ist seine Massenfunktion gegeben durch Spezielle diskrete Verteilungen pX (n) = (1 − p)n−1 · p. Binomialverteilung zu den Parametern n ≥ 2 und Erwartungswert und Varianz sind gegeben durch p: die Massenfunktion is gegeben durch (1 − p) 1 n i E(X) = und V ar(X) = pX (i) = p (1 − p)n−i , 0 ≤ i ≤ n p p2 i Die geometrische Verteilung beschreibt die Wartezeit Eine binomialverteilte ZV X zu den Parametern auf den ersten Erfolg bei der unabhängingen Wieder(n, p) hat den Erwartungswert holung eines Experiments. E(X) = np und die Varianz V ar(X) = np(1 − p). Wir schreiben für eine solche ZV X ∼ B(n, p). Negative Binomialverteilung: Eine ZV X heißt negativ binomialverteilt mit Parametern (r, p), wenn r n−r n − 1 pX (n) = p (1 − p) ,n ≥ r r−1 Erwartungswert und Varianz einer negativ binomialverteilten ZV X zu den Parametern (r, p) sind gegeben durch r r(1 − p E(X) = und V ar(X) = Hierbei steht B(n, p) für binominalverteilt zu den p p Parametern (n, p). Die Binomialverteilung schreibt die Anzahl von Erfolgen bei unabhängingen Wieder- Hypergeometrische Verteilung: Eine ZV X heißt hypergeometrisch verteilt zu den Parametern holungen des gleiches Experiments. Poissonverteilung: Die Massenfunktion einer (n, N, m), wenn N −m Poisson-verteilten ZV X zum Parameter λ > 0 ist m i · n−i gegeben durch pX (i) = N λk −λ pX (k) = e , k ≥ 0. k! Wir schreiben in diesem Fall X ∼ π(λ). Die Poissonverteilung ist ein Grenzfall der Binomialverteilung: Für eine Folge (Xn )n∈N binomialverteilter ZV zu den Parametern {(n, pn )}n∈N mit Massenfunktionen (pXn )n∈N gilt für k ≥ 0: lim pXn (k) = n→∞ λk −λ e k! n Erwartungswert und Varianz einer hypergeometrisch verteilten ZV X mit Parametern (n, N, m) sind gegeben durch E(X) = n m m m N −n und V ar(X) = n (1 − ) N N n N −1 Eigenschaften von Verteilungsfunktionen: Sei X eine diskrete ZV. Die Funktion F (x) := P(X ≤ x), x ∈ R heisst Verteilungsfunktion (oder kumulative Verteilungsfunktion), abgekürzt CDF. Es gilt: 5. ABSOLUTSTETIGE VERTEILUNGEN i) F ist monoton wachsend, d.h. F (a) ≤ F (b), falls a ≤ b ii) lim F (b) = 1 b→∞ iii) lim F (b) = 0 b→−∞ iv) F ist rechtsstetig, d.h. F (bn ) ↓ F (b), falls bn ↓ b. 5 Absolutstetige Verteilungen Stirlingsche Formel: Es gilt: n n √ n! ≈ 2πn e 7