Stochastik (BA) Zusammenfassung der Vorlesung Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin 2 0 Allgemeine Orientierung Ziel der Stochastik: Bereitstellung eines mathematischen Modells, mit dem zufällige Phänomene beschrieben und interpretiert werden können. Ein solches Modell ist gegeben durch (Ω, F, P) 1 Kombinatorik Bei 2 (verschachtelten) Experimenten mit m ∈ N und n ∈ N möglichen Ausgängen, lässt sich Ω als m × n Matrix darstellen, deren Einträge die m · n Versuchsausgänge repräsentieren. • Assoziativgesetze: (E ∪ F ) ∪ G = E ∪ (F ∪ G) (E ∩ F ) ∩ G = E ∩ (F ∩ G) • Distributivgesetze: (E ∪ F ) ∩ G = Sn(E ∩ G) ∪ (F ∩ G)Sn also auch: ( i=1 Ei ) ∩ G = i=1 (Ei ∩ G) (E ∩ F ) ∪ G = (E ∪ G) ∩ (F ∪ G) Tn Tn also auch:( i=1 Ei ) ∪ G = i=1 (Ei ∪ G) • DeMorgansche Regeln: Tn Sn c (Si=1 Ei ) = Ti=1 Eic c n n ( i=1 Ei ) = i=1 Eic Wahrscheinlichkeitsaxiome: Die Anforderungen, die an ein Wahrscheinlichkeitsmaß P gestellt werden Verallgemeinerung: betrachten wir r ∈ N Experi- lassen sich in 3 Axiomen zusammenfassen: mente, wobei der i-te, 1 ≤ i ≤ r Versuch nQ i Realir sierungen erlaubt, so ergeben sich insgesamt j=1 nj • 0 ≤ P(E) ≤ 1, ∀E ⊆ Ω Versuchsausgänge. • P(Ω) = 1 Permutationen: Die Möglichkeiten, n verschiedene Objekte anzuordnen sind n! := n · (n − 1) · . . . 2 · 1 Kombinationen: Die Möglichkeiten, eine relementige Teilmenge aus einer Grund n-elementigen n! menge zu erzeugen sind nr := (n−r)!·r! • Für jede Folge E1 , E2 , · · · ⊆ Ω gilt: P Verwendung findet der soeben definierte Binomialkoeffizient unter anderem im Binomischen Lehrsatz: n X n k n−k (x + y) = x y , ∀n ∈ N0 r n k=0 Anzahl der ganzzahligen Lösungen von Gleichungen: n−1 • Es gibt verschiedene Vektoren r−1 (x1 , x2 , . . . xr ) mit 0 < xi ∈ N, welche x1 + x2 + · · · + xr = n erfüllen. n+r−1 • Es gibt verschiedene Vektoren r−1 (x1 , x2 , . . . xr ) mit 0 ≤ xi ∈ N, welche x1 + x2 + · · · + xr = n erfüllen. • Es gibt n+r−1 Möglichkeiten, eine ungeordner te Stichprobe der Länge r aus einer Menge vom Umfang n zu bilden, wenn ‘mit Zurücklegen’ und ohne Berücksichtigung der Reihenfolge gezogen wird. 2 Wahrscheinlichkeitsaxiome Rechenregeln für Mengen: Für Ereignisse E, F, G und Ei , i = 1, . . . n gelten: ∞ [ paarweise ! Ei = ∞ X disjunkter P(Ei ) i=1 i=1 Diese Eigenschaft wird auch σ-Additivität genannt. Proposition: Es gelten folgende Eigenschaften: i) P(∅) = 0 ii) Für jede Folge paarweise disjunkter E1 , E2 , . . . , En ⊆ Ω gilt: ! n n [ X P Ei = P(Ei ) i=1 i=1 iii) Für jedes Ereignis E gilt: P(E c ) = 1 − P(E) iv) Für alle E, F gilt: E ⊂ F → P(E) ≤ P(F ) v) Für alle Ereignisse E, F gilt: P(E∪F ) = P(E)+ P(F ) − P(E ∩ F ) vi) Für Ereignisse E1 , E2 , . . . , En gilt: P(E1 ∪· · ·∪En ) = n X i=1 X i1 <i2 <i3 P(Ei )− X P(Ei1 ∩Ei2 )+ i1 <i2 P(Ei1 ∩Ei2 ∩Ei3 )−. . . (−1)n+1 P(E1 ∩· · ·∩En ) 3. BEDINGTE WAHRSCHEINLICHKEIT UND UNABHÄNGIGKEIT Laplace-Experimente: Auf einem endlichen Grundraum Ω = {1, . . . N } nehmen wir alle Elementarereignisse als gleichwahrscheinlich an, also gilt wegen σ-Additivität: 1 , N 3 Hüte aus, die nicht die eigenen sind. Es ergeN ben sich im ersten Schritt und im zweiten k 1 1 + 3! − . . . (−1)N +1 N1 ! ) Schritt (N − k)! 1 − (1 − 2! Möglichkeiten. Damit ist |F | P(F ) = |Ω| N 1 1 N +1 1 Dann gilt für ein Ereignis E ⊂ Ω: k · (N − k)! 1 − (1 − 2! + 3! − . . . (−1) N! ) = N! X |E| P(E) = P({i}) = 1 1 1 1 |Ω| = 1 − (1 − + − . . . (−1)N +1 ) i∈E k! 2! 3! N! 1 Hier bedeutet |E| die Mächtigkeit von E. ≈ e−1 k! Beispiel Hut-Problem: Die N Hüte von N Persobei großen N für k ∈ N. Diese Zahlen approximieren nen werden gemischt und jeder zieht zufällig einen. die Poissonverteilung zum Parameter λ = 1, die wir Wie groß ist die Wahrscheinlichkeit, dass später kennenlernen werden. a) keiner der Besucher seinen eigenen Hut erhält? b) genau k Besucher ihre eigenen Hüte erhalten? P({i}) = 1 ≤ i ≤ N. L: a) Ω = {(i1 , . . . , iN ) : 1 ≤ ij ≤ N, ij 6= ik ,fürj 6= k} Ereigniss Ej : Besucher Nr. j erhält Hut Nr. ij = j (seinen eigenen) werde dann beschrieben durch Ej = {(i1 , . . . , iN ) ∈ Ω : ij = j}1 ≤ j ≤ N berechnet wird c ) = 1 − P(E1 ∩ · · · ∩ EN ) mithilfe P(E1c ∩ · · · ∩ EN der Formel aus Prop. vi). Für n ≤ N seien gegeben 1 ≤ j1 < . . . jn ≤ N Dann ist Ej1 ∩ · · · ∩ Ejn = {(i1 , . . . , iN ) ∈ Ω : ij1 = j1 , . . . , ijn = jn } mit |E ∩···∩E | P(Ej1 ∩ · · · ∩ Ejn ) = j1 |Ω| jn = (NN−n)! ! Mit Prop. vi) folgt dann, P( N [ Ei ) = N · i=1 (N − 1)! N! (N − 2)! N! (N − 3)! + |{(j1 , j2 , j3 ) : 1 ≤ j1 < j2 < j3 ≤ N }| · N! N +1 1 − · · · + (−1) N! N N (N − 2)! (N − 3)! =1− · + · 2 N! 3 N! 1 − · · · + (−1)N +1 N! 1 1 1 = 1 − (1 − + − . . . (−1)N +1 ) 2! 3! N! ≈ e−1 − |{(j1 , j2 ) : 1 ≤ j1 < j2 ≤ N }| · für N groß. b) Ereignis F: Genau k Personen erhalten ihre eigenen Hüte In Schritt 1 wählen wir k Personen aus, die ihre eigenen Hüte bekommen und in Schritt 2 wählen wir für die restlichen N − k Personen 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit Für Ereignisse E, F gilt: P(E) = P(E|F ) · P(F ) + P(E|F c ) · P(F c ) Proposition: Seien S E1 , . . . , En paarweise disjunkte n Ereignisse mit Ω = i=1 Ei . Sei E ein weiteres Ereignis. Es gilt Folgendes: i) P(E) = P( n [ (E ∩ Ei )) = n X i=1 = n X P(E ∩ Ei ) i=1 P(E|Ei ) · P(Ei ) i=1 ii) aus i) folgt für 1 ≤ j ≤ n: P(E|Ej ) · P(Ej ) P(Ej |E) = Pn i=1 P(E|Ei ) · P(Ei ) Die Ereignisse E und F heißen unabhängig, falls gilt P(E|F ) = P(E). Dies ist äquivalent zur folgenden Definition. Definition (Unabhängigkeit) Die Ereignisse E und F heißen unabhängig, falls gilt P(E ∩ F ) = P(E) · P(F ). Propositon: Sind die Ereignisse E und F unabhängig, so sind es auch E und F c . Beispiel (zweifacher fairer Münzwurf:) Sind die folgenden Ereignisse unabhängig: 4 • E : Augensumme ist 7 Dies lässt sich auf Folgen von n bzw. unendlich vielen Versuchen verallgemeinern. Dabei gilt immer: sind (Ei )1≤i≤n bzw. (Ei )i∈N Ereignisse, für die Ei nur von Versuch Nr. i abhängt, so sind (Ei )1≤i≤n bzw. (Ei )i∈N unabhängig. • F : der erste Wurf ergibt 4 • G : der zweite Wurf ergibt 3 L: Beispiel: Eine unendliche Folge von Versuchen wird durchgeführt. Jeder Versuch hat zwei mögliche F = {(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)}, Ausgänge, Erfolg und Misserfolg. Die Wahrscheinlichkeit für Erfolg sei p, die für Misserfolg 1 − p, für G = {(1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3)} eine Zahl p ∈ [0, 1]. Wie groß ist die WahrscheinlichWeil E ∩ F = E ∩ G = F ∩ G = {(4, 3)} und keit, dass P(E) = P(F ) = P(G) = 16 sind die drei Ereignisse (paarweise) unabhängig. E ist jedoch nicht una) mindestens ein Erfolg in den ersten n Versuchen abhängig von F ∩ G, denn P(E|F ∩ G) = 1. erzielt wird? Definition: Seien E1 , . . . , En bzw. (Ei )i∈N EreignisE = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}, se. i) E1 , . . . , En sind unabhängig, wenn für jedes r ≤ n, 1 ≤ i1 < · · · < ir ≤ n gilt: P(Ei1 ∩· · ·∩Eir ) = P(Ei1 ) · · · P(Eir ) = r Y P(Eij ) j=1 ii) (Ei )i∈N heißen unabhängig, falls für jedes endliche S ⊂ N gilt: \ Y P( Ei ) = P(Ei ) i∈S i∈S Formalisierung von Versuchsfolgen: Teilexperimente, die sich gegenseitig nicht beeinflussen, nennen wir Versuche. Ω1 = Ω2 seien endliche Grundräume von 2 Teilexperimenten, P1 = P2 Wahrscheinlichkeitsmaße darauf. Nehmen wir Ω1 = Ω2 = {1, . . . , N } an, so betrachten wir als Grundraum für die Aufeinanderfolge der Versuche, das Gesamtexperiment, Ω = Ω1 × Ω2 = {(i, j) : i ∈ Ω1 , j ∈ Ω2 }. Für E ⊂ Ω1 × Ω2 setzen wir X P(E) = P1 ({i}) · P2 ({j}) b) genau k Erfolge in den ersten n Versuchen erzielt werden (1 ≤ k ≤ n). L:a): Sei Ei das Ereignis “Erfolg im iten Versuch”. Dann ist E1c ∩ · · · ∩ Enc “Misserfolg in Versuchen 1 bis n” und (E1c ∩ · · · ∩ Enc )c das Ereignis “mindestens ein Erfolg in den Versuchen 1 bis n.” Also gilt P((E1c ∩ · · · ∩ Enc )c ) = 1 − P(E1c ∩ · · · ∩ Enc ) n Y P(Eic ) = 1 − (1 − p)n =1− i=1 b): T Sei T ⊂ {1, . T . . , n} mit |T | = k gegeben. Betrachc te ( i∈T Ei ) ∩ ( i∈T / Ei ) : Erfolg in den Versuchen i ∈ T , Misserfolg in den anderen. Dann gilt wegen Unabhängigkeit P(( \ Ei ) ∩ ( i∈T (i,j)∈E \ Eic )) = Y i∈T i∈T / k P(Ei ) · Y P(Eic ) i∈T / n−k = p (1 − p) Für Ereignisse E1 , E2 , die nur von Versuch 1 bzw. 2 abhängen muss gelten E1 = F1 × Ω2 , E2 = Ω1 × F2 wobei F1 ⊂ Ω1 , F2 ⊂ Ω2 . Es folgt nach Definition Sei schließlich E das Ereignis “genau k Erfolge in n Versuchen”. Dann ist Unabhängigkeit von E1 und E2 P(E1 ∩ E2 ) = P(F1 × F2 ) X = P1 ({i}) · P2 ({j}) E= [ [( \ T ⊂{1,...,n},|T |=k i∈T Ei ) ∩ ( \ Eic )]. i∈T / (i,j)∈F1 ×F2 X = P1 ({i}) · P2 ({k}) Also: (i,k)∈F1 ×Ω2 · X P1 ({k}) · P2 ({j}) (k,j)∈Ω1 ×F2 = P(E1 ) · P(E2 ) P(E) = |{T ⊂ {1, . . . , n} : |T | = k}| · pk (1 − p)n−k n = · pk (1 − p)n−k . k 4. ZUFALLSVARIABLEN 4 5 Zufallsvariablen Damit folgt für n ∈ N : Eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P) ist eine (messbare) Abbildung n n N N −2 N −1 − + ... N 2 N n N 0 + (−1)N −1 N N n N −1 X N N −i . = (−1)i+1 N i i=1 P(T > n) = N X : Ω → Rn , wobei wir Rn mit der Borel-σ-algebra versehen. Die Definition von Messbarkeit erfordert, dass F selbst eine σ-algebra ist. Wir ignorieren dieses technische (aber wichtige) Detail im Folgenden. Zufallsvariablen, die nur abzählbar viele Werte {xi } mit positiver Wahrscheinlichkeit annehmen, heißen diskret. In diesem Fall bezeichnen wir mit pX (xi ) := p(xi ) = P(X = xi ) 4.1 Erwartungswert und Varianz Definition: Der Erwartungswert einer diskreten Zufallsvariable X mit Werten in R und Massenfunktion p ist definiert durch: die Verteilung oder Massenfunktion von X. X E(X) = x · p(x), Beispiel: Es gebe N verschiedene Arten von Coux:p(x)>0 pons, die wir (unabhängig von den vorhergehenden Versuchen) beliebig oft erhalten. Bei jedem Versuch erhalten wir mit gleicher Wahrscheinlichkeit einen der sofern diese Reihe wohldefiniert ist, d.h. N Coupons. Sei T die Anzahl von Coupons, die nötig X sind, bis man einen kompletten Satz aller N besitzt. |x| · p(x) < ∞. Wir suchen die Verteilung von T , d.h. x:p(x)>0 P(T = n) = pT (n), n ≥ 1 Beispiel: Für ein Ereignis A sei 1A : Ω −→ R L: Es ist einfacher, P(T > n) für n ∈ N zu berechnen und dann die Formel P(T = n) = P(T > n − 1) − P(T > n) zu nutzen. Sei dazu Aj : kein j-Coupon in den ersten n Zügen. Dann gilt, {T > n} = N [ ( 1, ω− 7 → 0, ω ∈ A, ω∈ /A die Indikatorfunktion von A. Es gilt p1A (0) = 1 − P(A), p1A (1) = P(A), und damit E(1A ) = 1 · P(A) = P(A). Aj j=1 Propositon: Sei X eine ZV mit Werten {xi }i∈N und Verteilung pX . Sei g : R −→ R eine Funktion. Dann gilt: ∞ X E(g(X)) = g(xi )p(xi ), also nach dem Additionstheorem P(T > N ) = P( N [ Aj ) j=1 = N X P(Aj ) − j=1 i=1 X P(Aj1 ∩ Aj2 ) + . . . j1 <j2 N +1 . . . + (−1) P(A1 ∩ · · · ∩ An ) ∞ X |g(xi )|p(xi ) < ∞. i=1 Nun gilt für 1 ≤ j ≤ N : P(Aj ) = falls N −1 N n . Allgemeiner gilt für 1 ≤ j1 < · · · < jk ≤ N : n N −k P(Aj1 ∩ · · · ∩ Ajk ) = . N Rechenregeln: Seien a, b ∈ R, X, Y ZV mit Massenfunktionen pX , pY und existierenden Erwartungswerten. Dann gilt i) E(aX + b) = aE(X) + b ii) E(X + Y ) = E(X) + E(Y ) 6 Definition: Sei X einePZV mit Massenfunktion n p, n ∈ N, und es gelte x:p(x)<0 |x| · p(x) < ∞. Dann heißt X E(|X|n ) = |x|n · p(x) Die Poissonverteilung ist ein Grenzfall der Binomialverteilung: Für eine Folge (Xn )n∈N binomialverteilter ZV zu den Parametern {(n, pn )}n∈N mit Massenfunktionen (pXn )n∈N gilt für k ≥ 0: x:p(x)>0 lim pXn (k) = n→∞ das n-te Moment von X. Definition: Sei X eine diskrete ZV mit E(X) = µ. Dann heißt λk −λ e k! sofern lim npn = λ. n→∞ Die Poisson Verteilung findet als Approximation der Binomialverteilung Anwendung, wenn die Erfolgswahrscheinlichkeiten klein sind. Für Erwartungswert die Varianz von X. Durch Anwenden der Definition und Varianz einer Poisson-verteilten ZV X gilt: des Erwartungswertes erhält man E(X) = λ und V ar(X) = λ V ar(X) = E(X 2 ) − µ2 = E(X 2 ) − E(X)2 . Geometrische Verteilung: Folgt X einer geomeRechenregel: Seien a, b ∈ R, X eine diskrete ZV mit trischen Verteilung zum Parameter p, geschrieben existierender Varianz. Dann gilt X ∼ G(p), V ar(aX + b) = a2 V ar(X) so ist seine Massenfunktion gegeben durch V ar(X) = E([X − µ]2 ) 4.2 pX (n) = (1 − p)n−1 · p. Spezielle diskrete Verteilungen Binomialverteilung zu den Parametern n ≥ 2 und Erwartungswert und Varianz sind gegeben durch p: die Massenfunktion ist gegeben durch (1 − p) 1 E(X) = und V ar(X) = n i p p2 pX (i) = p (1 − p)n−i , 0 ≤ i ≤ n i Die geometrische Verteilung beschreibt die Wartezeit Eine binomialverteilte ZV X zu den Parametern auf den ersten Erfolg bei der unabhängingen Wiederholung eines Experiments. (n, p) hat den Erwartungswert E(X) = np und die Varianz V ar(X) = np(1 − p). Wir schreiben für eine solche ZV X ∼ B(n, p). Negative Binomialverteilung: Eine ZV X heißt negativ binomialverteilt mit Parametern (r, p), wenn r n−r n − 1 ,n ≥ r pX (n) = p (1 − p) r−1 Erwartungswert und Varianz einer negativ binomialverteilten ZV X zu den Parametern (r, p) sind gegeben durch r r(1 − p) E(X) = und V ar(X) = Hierbei steht B(n, p) für binominalverteilt zu den p p Parametern (n, p). Die Binomialverteilung schreibt die Anzahl von Erfolgen bei unabhängingen Wieder- Hypergeometrische Verteilung: Eine ZV X heißt hypergeometrisch verteilt zu den Parametern holungen des gleiches Experiments. (n, N, m), wenn Poissonverteilung: Die Massenfunktion einer N −m m Poisson-verteilten ZV X zum Parameter λ > 0 ist i · n−i pX (i) = gegeben durch N n λk −λ e , k ≥ 0. pX (k) = k! Wir schreiben in diesem Fall X ∼ π(λ). Erwartungswert und Varianz einer hypergeometrisch verteilten ZV X mit Parametern (n, N, m) sind gegeben durch E(X) = n m m m N −n und V ar(X) = n (1 − ) N N n N −1 5. ABSOLUTSTETIGE VERTEILUNGEN Eigenschaften von Verteilungsfunktionen: Sei X eine diskrete ZV. Die Funktion 7 n k− Mit xn (k) = √ n2 , 0 ≤ k ≤ n, n ∈ N gilt dann: 4 F (x) := P(X ≤ x), x ∈ R r pn (k) n lim max − 1 = 0 n→∞ k:|xn (k)|≤c ϕ(xn (k)) 4 heisst Verteilungsfunktion (oder kumulative Verteilungsfunktion), abgekürzt CDF. Es gilt: i) F ist monoton wachsend, d.h. F (a) ≤ F (b), falls a ≤ b ii) lim F (b) = 1 b→∞ iii) Als unmittelbare Folgerung erhalten wir, dass die Verteilungen der standardisierten Variablen Xn∗ mit n → ∞ gegen eine absolutstetige Verteilung konvergieren - gegen die für die Stochastik zentrale GaußVerteilung - die wir später genauer betrachten: Korollar: Für a, b ∈ R, a < b, gilt lim F (b) = 0 b→−∞ iv) F ist rechtsstetig, d.h. F (bn ) ↓ F (b), falls bn ↓ b. lim P(a ≤ 5 n→∞ Absolutstetige Verteilungen 5.1 Xn∗ Zb ≤ b) = ϕ(x)dx a Approximation der Binomialver- Definition: Eine ZV X heißt absolutstetig verteilt teilung mit Dichte f : R → R+ (f Riemann-integrierbar), R Wir betrachten eine Folge (Xn )n∈N ∼ B(n, pn ) binomialverteilter ZVen. Dann gilt E(Xn ) = npn sowie V ar(Xn ) = npn (1 − pn ). Gilt npn → λ < ∞, so kann die Binomialverteilung für grosse n durch die Poissonverteilung approximiert werden: B(n, pn ) ≈ π(λ), falls f (t)dt = 1 und R Z P(X ∈ B) = Z f (t)dt = B 1B (t)f (t)dt R für alle (Borel messbaren) Mengen B gilt. Die Funktion d.h. für kleine p approximieren wir B(n, p) durch π(λ). Ist pn ≡ p, so gilt E(Xn ) = np ↑ ∞ sowie V ar(Xn ) = np(1 − p) ↑ ∞. Zx F : R → [0, 1], x 7−→ P(X ≤ x) = f (t)dt −∞ In diesem Fall müssen wir Xn standardisieren. Dazu definieren wir für n ∈ N: heißt dann Verteilungsfunktion von X. Insbesondere gilt Xn − E(Xn ) Xn − np ∗ Xn := p =p Z ∞ V ar(Xn ) np(1 − p) 1 − F (x) = f (t)dt. x Ziel ist es nun, in geeigneter Weise die Wahrscheinlichkeit Man beachte, dass für eine absolutstetige ZV mit k − np P(Xn = k) = P Xn∗ = =: pn (k) Dichte f und Verteilungsfunktion F gilt np(1 − p) anzunähern. Dazu betrachten wir nun den Fall p = 0.5, d.h. 1 Xn ∼ B(n, ). 2 Satz von de Moivre/Laplace: Sei c > 0. Sei −x2 1 ϕ(x) = √ · e 2 , 2π x ∈ R. Z x P(X = x) = f (t)dt = 0 x sowie, falls f stetig, F 0 = f. 8 5.2 Erwartungswert und Varianz −x2 2 Definition: Für f (x) = ϕ(x) = √12π · e (standard) normalverteilt. Wir schreiben heißt X Folglich auch d E(Ct (X)) dt Zt f (x)dx + ktf (t) − ktf (t) = k 0 X ∼ N (0, 1). Z∞ −ctf (t) − c Definition: Sei X absolutstetig verteilt mit Dichte R f . Falls |xf (x)|dx < ∞, heißt = R xf (x)dx R 0= Erwartungswert von X. Proposition: Sei X absolutstetig verteilt mit Dichte fR . Sei g : R → R eine (messbare) Funktion, so dass |g(x)|f (x)dx < ∞. Dann gilt R Z E(g(X)) = (c + k)F (t) − c Die kritischen Punkte der Funktion t 7−→ E(Ct (X)) sind also bestimmt durch die Gleichung Z E(X) = f (x)dx + ctf (t) t g(x)f (x)dx. d E(Ct (X)) = (c + k)F (t) − c, dt also durch die Bedingung F (t) = c . c+k Es handelt sich um ein Minimum, da d2 E(Ct (X)) = (c + k)f (t) ≥ 0. dt2 R Lemma: Sei 0 ≤ Y eine ZV(diskret oder absolutsteKorollar: Seien a, b ∈ R, X eine absolutstetige ZV tig verteilt). Dann gilt mit existierender Erwartung, dann gilt Z∞ E(aX + b) = aE(X) + b E(Y ) = P(Y > y)dy. Definition: Sei R X eine absolutstetige ZV mit Dichte f , sodass gilt x2 f (x)dx < ∞. Dann heißt 0 Beispiel: Falls A zu einer Verabredung s Minuten zu R spät kommt, kostet es ihn cs Euro, falls er s Minuten V ar(X) = E([X − E(X)]2 ) = E(X 2 ) − E(X)2 zu früh kommt, ks Euro. Die Reisezeit von A’s Wohnung zum Treffpunkt ist absolutstetig verteilt mit stetiger Dichte f . Zu welcher Zeit muss A aufbrechen, die Varianz von X. Rechenregel: Für a, b ∈ R gilt um seine Kosten zu minimieren? L.: Sei X die Reisezeit von A, t die Anzahl der ZeitV ar(aX + b) = a2 V ar(X). einheiten von A’s Aufbruch zur verabredeten Treffzeit. Dann sind A’s Kosten 5.3 Spezielle absolutstetige Verteilun( c(X − t), X ≥ t, gen Ct (X) = k(t − X), X ≤ t. Gleichverteilung: Seien α, β ∈ R, α < β. Eine ZV X heißt gleichverteilt auf [α, β], wenn die Dichte von Damit gilt X die Form hat ( Zt Z∞ 1 , α ≤ x ≤ β, E(Ct (X)) = k(t − x)f (x)dx + c(x − t)f (x)dx f (x) = β−α 0, sonst. t 0 Zt Zt f (x)dx − k = kt 0 xf (x)dx 0 Z∞ Z∞ xf (x)dx − ct +c t f (x)dx t Für die Verteilungsfunktion einer so verteilten ZV gilt 0, x≤α Rx 1 F (x) = β−α dt, α ≤ x ≤ β, α 1, β ≤ x. 5. ABSOLUTSTETIGE VERTEILUNGEN Lemma: Sei X gleichverteilt auf [α, β]. Es ist Zβ x E(X) = 1 1 dx = (β + α) β−α 2 α 2 Zβ E(X ) = 1 1 x dx = (β 2 + βα + α2 ) β−α 3 2 α also 9 Gilt µ = 0 und σ = 1, so nennt man X standardnormalverteilt. Proposition: Ist X normalverteilt zu den Parametern (µ, σ 2 ), und β ∈ R, 0 < α ∈ R, so ist Y = αX +β normalverteilt zu den Parametern (αµ + β, α2 σ 2 ). Beispiel: Angenommen, 52% aller Berliner seien für ein striktes Alkoholverbot in der S-Bahn. Wie groß muss eine Umfrage sein, damit mit mindestens 95% Wahrscheinlichkeit die Hälfte der Befragten für ein Verbot ist? 1 (β − α)2 . 12 L.: Zunächst stellen wir fest, dass die hypergeometrische Verteilung durch die Binomialverteilung approximiert werden kann: Sei X hypergeometrisch verteilt Beispiel (Bertrand Paradox): Betrachte eine zu den Parametern (n, N, m). Es gelte N, m → ∞ so, zufällige Sekante auf einem Kreis mit Radius r. Mit dass m → p ∈ [0, 1]. Dann konvergiert N welcher Wahrscheinlichkeit ist die Länge der Sekante N −m m größer als die Seite eines gleichseitigen Dreiecks, das n i i · n−i dem Kreis einbeschrieben ist? P(X = i) = −→ p (1 − p)n−i . N i n Lösung 1: Sei X die Distanz der Sekante vom Ursprung des Kreises; Annahme: X gleichverteilt auf Also gegen eine Binomialverteilung zu den Parame[0, r]. Dann ist E: die Länge der Sekante ist größer tern (n, p). Sei nun als die Seite des Dreiecks, d.h. E = {X ∈ [0, r]}, also • N die Zahl aller Berliner, r Z2 1 1 r • n die Anzahl der Befragten und dx = P(E) = P(X ∈ [0, ]) = 2 r 2 0 • Sn die Zahl derjenigen unter den Befragten, die für ein Verbot sind. Lösung 2: Sei θ der Winkel zwischen Sekante und V ar(X) = E(X 2 ) − E(X)2 = Tangente an den Kreis in einem Schnittpunkt; Annahme: θ gleichverteilt auf [0, 180]. Dann ist E: Länge größer als Seite des Dreiecks, d.h. E = {θ ∈ [60, 120]}, also Z120 P(E) = P(θ ∈ [60, 120]) = 1 1 dx = 180 3 Sn ist hypergeometrisch verteilt zu den Parametern (n, N, 0.52 · N ) (vgl. Urnenmodelle ohne Zurücklegen). Aus den obigen Überlegungen und weil N und 0.52 · N sehr groß werden, folgt, dass wir die Verteilung von Sn durch eine Binomialverteilung annähern können. Genauer gilt folgendes Lemma. Lemma: Sei X hypergeometrisch verteilt zu den Parametern (n, N, m), d.h. Dieses Beispiel zeigt, dass es sehr wesentlich auf die m N −m Modellierung eines Problems ankommt. i n−i P(X = i) = . N 60 n Normalverteilung: Seien µ ∈ R, σ 6= 0. Eine ZV X heißt normalverteilt zu den Parametern (µ, σ 2 ), wenn Gilt nun N, m → ∞ mit m N → p, so gilt X die Dichte m i P(X = i) → p (1 − p)n−i . 1 (x − µ)2 i f (x) = √ exp − , x ∈ R 2σ 2 2πσ 2 Bemerkung: Die Intuition hinter obigem Lemhat. Wir schreiben ma ist klar: die hypergemometrische Verteilung beschreibt die Anzahl der Erfolge beim “Ziehen ohX ∼ N (µ, σ 2 ). ne Zurücklegen”, die Binomialverteilung die Anzahl 2 Erwartungswert und Varianz von X ∼ N (µ, σ ) sind der Erfolge beim “Ziehen mit Zurücklegen”. Ist die Grundgesamtheit gross, so fällt der Unterschied nicht gegeben durch ins Gewicht. 2 E(X) = µ und V ar(X) = σ 10 Unter Verwendung des obigen Lemmas liefert nun die Für X ∼ E(λ) gilt Annäherung der Binomial- durch eine NormalverteiZ∞ lung: P(X > t) = λe−λx dx = e−λt , t ≥ 0. P(Sn > 0.5n) t ! 0.5n − 0.52n Sn − 0.52n Somit folgt unmittelbar die Gedächtnislosigkeit ex= P p >p n(0.52)(0.48) n(0.52)(0.48) ponentialverteilter ZVen. ! √ Sn − 0.52n = P p > −0.4 n n(0.52)(0.48) 6 Gemeinsame Verteilungen √ ≈ Φ(0.04 n) von Zufallsvariablen Dabei ist Φ die Verteilungsfunktion√der Standardnor- Definition: Seien X, Y ZV’en auf (Ω, P). Die gemalverteilung. Es muss also Φ(0.04 n) > 0.95 gelten, meinsame Verteilungsfunktion von (X, Y ) ist gegeben folglich, dass n ≥ 1691.266. Das heißt, der Stichpro- durch benumfang muss mindestens 1692 betragen. Im letzten Schritt haben wir verwendet, dass aus SymmeF (a, b) = P(X ≤ a, Y ≤ b) triegrünten für eine N (0, 1)-verteilte Zufallsvariable = P({X ≤ a} ∩ {Y ≤ b}), a, b ∈ R Z und z < 0 gilt: P(Z > −z) = 1 − P(Z ≤ −z) = 1 − (1 − P(Z ≤ z)) Die Verteilungsfunktion von X bzw. Y erhalten wir aus der gemeinsamen Verteilungsfunktion: Sei a ∈ R. Dann gilt = P(Z ≤ z) FX (a) = F (a, ∞) := lim F (a, n), n→∞ Exponentialverteilung: Sei λ > 0. Eine absolutstetige ZV X mit Dichte Entsprechend gilt für b ∈ R ( λ · e−λx , x ≥ 0, FY (b) = F (∞, b) := lim F (n, a). f (x) = n→∞ 0, x < 0, FX , FY heißen Randverteilungen von X, Y . heißt exponentialverteilt zum Parameter λ. Wir schreiben 6.1 Unabhängige ZVen X ∼ E(λ). Definition: Seien X, Y ZV. (X, Y ) heißen gemeinsam absolutstetig verteilt mit Dichte f , wenn es eine 1 1 Riemann-integrierbare Funktion f : R2 → R+ gibt R E(X) = und V ar(X) = 2 . mit R2 f (x, y)dxdy = 1, so dass für C ⊂ R2 mit 1C f λ λ Riemann-integrierbar gilt Eine wesentliche Eigenschaft der ExponentialverteiZ lung ist die sog. Gedächtnislosigkeit (vgl. hierzu auch P((X, Y ) ∈ C) = f (x, y)dxdy die geometrische Verteilung). ZC Definition (Gedächtnislosigkeit): Eine ZV X ≥ 0 = 1C (x, y)f (x, y)dxdy. heißt gedächtnislos, wenn für s, t ≥ 0 gilt 2 Erwartungswert und Varianz sind gegeben durch R P(X > s + t|X > t) = P(X > s). Falls f stetig, gilt Denkt man an die zufällige Lebenszeit eines Pro∂ ∂ F (x, y), x, y ∈ R f (x, y) = dukts, so bedeutet diese Bedingung, die Wahrschein∂x ∂y lichkeit, nach einem Zeitpunkt t weitere s Zeiteinheiten zu überleben, ist nicht von t abhängig. Die Definition: Zwei ZV’en (X, Y ) heißen unabhängig, wenn für a, b ∈ R gilt Bedingung ist äquivalent zu P(X > s + t) = P(X > s) · P(X > t), s, t ≥ 0. P(X ≤ a, Y ≤ b) = P(X ≤ a) · P(Y ≤ b). 6. GEMEINSAME VERTEILUNGEN VON ZUFALLSVARIABLEN Somit gilt Unabhängigkeit, genau dann, wenn für die gemeinsame Verteilungsfunktion F und die marginalen Verteilungsfunktionen FX , FY gilt F (x, y) = FX (x)FY (y), x, y ∈ R Äquivalent gilt die Gleichung in analoger Form mit p, pX , pY (Massenfunktionen) bzw. f, fX , fY (Dichtefunktionen) für diskrete bzw. absolutstetige X, Y . 6.3 11 Statistik für unabhängige normalverteilte ZV’en Definition: Seien X1 , . . . , Xn unabhängige ZV’en auf (Ω, F, P). Sie heißen identisch verteilt (i.i.d.), wenn P(Xk ≤ x) = P(Xl ≤ x) ∀k, l = 1, . . . , n, ∀x ∈ R. Markov Ungleichung: Sei X ≥ 0 eine ZV mit E(X) = µ und 0 < a ∈ R, dann gilt: Außerdem lässt sich zeigen, dass Unabhängigkeit von E(X) X, Y gilt, genau dann wenn {X ∈ A}, {Y ∈ B} unP(X ≥ a) ≤ a abhängig sind, für alle messbaren Mengen A, B ∈ R, das sind zum Beispiel Intervalle. Korollar (Chebyshev Ungleichung): Sei X eine ZV mit E(X) = µ und V ar(X) = σ 2 . Dann gilt für η > 0: 6.2 Summen unabhängiger ZVen V ar(X) . P(|X − µ| > η) ≤ η2 Definition: Seien X und Y absolutstetig verteilt mit Dichten fX bzw. fY . Die Dichte fX+y von X+Y heißt Korollar(schwaches Gesetz der großen Zahlen): Seien X1 , . . . , Xn i.i.d. N (µ, σ 2 )-verteilt und Faltung der Verteilungen von X und Y . Es gilt > 0 beliebig. Es gilt dann: Z fX+Y (x) = fX (x − y)fY (y)dy =: fX ∗ fY (x). lim P |X n − µ| > = 0, n→∞ Gammaverteilung: Eine absolutstetige ZV X heißt wobei X n als das arithmetische Mittel der ersten n gammaverteilt zu den Parametern (s, λ), geschrieben, ZV’en definiert ist: X1 + · · · + Xn X n := n X ∼ Γ(s, λ) Im Folgenden geht es darum, aufgrund von Realiwenn sie die Dichte sierungen x1 , . . . xn , Aussagen über die Parameter (µ, σ 2 ) von i.i.d. normalverteilten ZV’en X1 , . . . , Xn ( (λx)s−1 −λx , x ≥ 0, zu machen. Γ(s) λe f (x) = 0, sonst besitzt. Im Fall s = n2 , λ = 12 spricht man von der Schätzer für µ bei bekanntem σ: Chi-Quadrat-Verteilung mit n Freiheitsgraden, geDer naive Schätzer Xn ist vernünftig; er konvergiert, schrieben im Sinne des schwachen Gesetzes der großen Zahlen, X ∼ χ2(n) . gegen den wahren Wert und ist erwartungstreu in Proposition: Seien X , . . . X unabhängige ZV’en, dem Sinne, dass 1 n alle exponentialverteilt zum Parameter λ. Dann ist X1 + · · · + Xn gammaverteilt zu den Parametern (n, λ). Proposition: Seien Z1 , . . . Zn unabhängige ZV’en, alle standard-normalverteilt. Dann ist Z12 + · · · + Zn2 gammaverteilt zu den Parametern ( n2 , 21 ). E(Xn ) = µ ∀µ. Hypothesentest für µ: Bei gegebenem µ0 sind unsere Hypothesen: H0 : µ = µ0 , H1 : µ 6= µ0 , vernünftig ist es, H1 anzunehmen, falls |xn − µ0 | > η, Proposition: Seien X1 , . . . Xn unabhängige ZV’en, für η so gewählt, dass der Test eine vorgegebene Irralle normalverteilt, zu den Parametern (µi , σi ), 1 ≤ tumswahrscheinlichkeit α nicht übersteigt, also dass i ≤ n. Dann ist X1 + · · · + X pn normalverteilt zu den Pµ0 ,σ (|Xn − µ0 | > η) ≤ α. Parametern (µ1 + · · · + µn , σ12 + · · · + σn2 ). Proposition: Die Summe unabhängiger, poissonver- Wir wählen folglich η aus einer N (0, 1)-Tafel so aus, η√ teilter ZV’en X1 + · · · + Xn mit Xi ∼ π(λi ), ∀i ist dass α Φ n =1− ebenfalls poissonverteilt zum Parameter λ1 +· · ·+λn . σ 2 12 Wir nehmen H1 an, wenn |xn − µ0 | > η. Beim einseitigen Testproblem, mit Hypothesen: H0 : µ ≥ µ0 , H1 : µ < µ0 ist es vernünftig, H1 anzunehmen, falls xn < η. Hierbei wird η ∈ R so gewählt, dass für gegebenes 0 < α < 1: Pµ,σ (Xn < η) ≤ α ∀µ ≤ µ0 Daher wählen wir η so, dass η − µ0 √ n = α. Φ σ