Stochastik (BA) Zusammenfassung der Vorlesung Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin 2 0 Allgemeine Orientierung Ziel der Stochastik: Bereitstellung eines mathematischen Modells, mit dem zufällige Phänomene beschrieben und interpretiert werden können. Ein solches Modell ist gegeben durch (Ω, F, P) 1 Kombinatorik Bei 2 (verschachtelten) Experimenten mit m ∈ N und n ∈ N möglichen Ausgängen, lässt sich Ω als m × n Matrix darstellen, deren Einträge die m · n Versuchsausgänge repräsentieren. • Assoziativgesetze: (E ∪ F ) ∪ G = E ∪ (F ∪ G) (E ∩ F ) ∩ G = E ∩ (F ∩ G) • Distributivgesetze: (E ∪ F ) ∩ G = Sn(E ∩ G) ∪ (F ∩ G)Sn also auch: ( i=1 Ei ) ∩ G = i=1 (Ei ∩ G) (E ∩ F ) ∪ G = (E ∪ G) ∩ (F ∪ G) Tn Tn also auch:( i=1 Ei ) ∪ G = i=1 (Ei ∪ G) • DeMorgansche Regeln: Tn Sn c (Si=1 Ei ) = Ti=1 Eic c n n ( i=1 Ei ) = i=1 Eic Wahrscheinlichkeitsaxiome: Die Anforderungen, die an ein Wahrscheinlichkeitsmaß P gestellt werden Verallgemeinerung: betrachten wir r ∈ N Experi- lassen sich in 3 Axiomen zusammenfassen: mente, wobei der i-te, 1 ≤ i ≤ r Versuch nQ i Realir sierungen erlaubt, so ergeben sich insgesamt j=1 nj • 0 ≤ P(E) ≤ 1, ∀E ⊆ Ω Versuchsausgänge. • P(Ω) = 1 Permutationen: Die Möglichkeiten, n verschiedene Objekte anzuordnen sind n! := n · (n − 1) · . . . 2 · 1 Kombinationen: Die Möglichkeiten, eine relementige Teilmenge aus einer Grund n-elementigen n! menge zu erzeugen sind nr := (n−r)!·r! • Für jede Folge E1 , E2 , · · · ⊆ Ω gilt: P Verwendung findet der soeben definierte Binomialkoeffizient unter anderem im Binomischen Lehrsatz: n X n k n−k (x + y) = x y , ∀n ∈ N0 r n k=0 Anzahl der ganzzahligen Lösungen von Gleichungen: n−1 • Es gibt verschiedene Vektoren r−1 (x1 , x2 , . . . xr ) mit 0 < xi ∈ N, welche x1 + x2 + · · · + xr = n erfüllen. n+r−1 • Es gibt verschiedene Vektoren r−1 (x1 , x2 , . . . xr ) mit 0 ≤ xi ∈ N, welche x1 + x2 + · · · + xr = n erfüllen. • Es gibt n+r−1 Möglichkeiten, eine ungeordner te Stichprobe der Länge r aus einer Menge vom Umfang n zu bilden, wenn ‘mit Zurücklegen’ und ohne Berücksichtigung der Reihenfolge gezogen wird. 2 Wahrscheinlichkeitsaxiome Rechenregeln für Mengen: Für Ereignisse E, F, G und Ei , i = 1, . . . n gelten: ∞ [ paarweise ! Ei = ∞ X disjunkter P(Ei ) i=1 i=1 Diese Eigenschaft wird auch σ-Additivität genannt. Proposition: Es gelten folgende Eigenschaften: i) P(∅) = 0 ii) Für jede Folge paarweise disjunkter E1 , E2 , . . . , En ⊆ Ω gilt: ! n n [ X P Ei = P(Ei ) i=1 i=1 iii) Für jedes Ereignis E gilt: P(E c ) = 1 − P(E) iv) Für alle E, F gilt: E ⊂ F → P(E) ≤ P(F ) v) Für alle Ereignisse E, F gilt: P(E∪F ) = P(E)+ P(F ) − P(E ∩ F ) vi) Für Ereignisse E1 , E2 , . . . , En gilt: P(E1 ∪· · ·∪En ) = n X i=1 X i1 <i2 <i3 P(Ei )− X P(Ei1 ∩Ei2 )+ i1 <i2 P(Ei1 ∩Ei2 ∩Ei3 )−. . . (−1)n+1 P(E1 ∩· · ·∩En ) 3. BEDINGTE WAHRSCHEINLICHKEIT UND UNABHÄNGIGKEIT Laplace-Experimente: Auf einem endlichen Grundraum Ω = {1, . . . N } nehmen wir alle Elementarereignisse als gleichwahrscheinlich an, also gilt wegen σ-Additivität: 1 , N 3 Hüte aus, die nicht die eigenen sind. Es ergeN ben sich im ersten Schritt und im zweiten k 1 1 + 3! − . . . (−1)N +1 N1 ! ) Schritt (N − k)! 1 − (1 − 2! Möglichkeiten. Damit ist |F | P(F ) = |Ω| N 1 1 N +1 1 Dann gilt für ein Ereignis E ⊂ Ω: k · (N − k)! 1 − (1 − 2! + 3! − . . . (−1) N! ) = N! X |E| P(E) = P({i}) = 1 1 1 1 |Ω| = 1 − (1 − + − . . . (−1)N +1 ) i∈E k! 2! 3! N! 1 Hier bedeutet |E| die Mächtigkeit von E. ≈ e−1 k! Beispiel Hut-Problem: Die N Hüte von N Persobei großen N für k ∈ N. Diese Zahlen approximieren nen werden gemischt und jeder zieht zufällig einen. die Poissonverteilung zum Parameter λ = 1, die wir Wie groß ist die Wahrscheinlichkeit, dass später kennenlernen werden. a) keiner der Besucher seinen eigenen Hut erhält? b) genau k Besucher ihre eigenen Hüte erhalten? P({i}) = 1 ≤ i ≤ N. L: a) Ω = {(i1 , . . . , iN ) : 1 ≤ ij ≤ N, ij 6= ik ,fürj 6= k} Ereigniss Ej : Besucher Nr. j erhält Hut Nr. ij = j (seinen eigenen) werde dann beschrieben durch Ej = {(i1 , . . . , iN ) ∈ Ω : ij = j}1 ≤ j ≤ N berechnet wird c ) = 1 − P(E1 ∩ · · · ∩ EN ) mithilfe P(E1c ∩ · · · ∩ EN der Formel aus Prop. vi). Für n ≤ N seien gegeben 1 ≤ j1 < . . . jn ≤ N Dann ist Ej1 ∩ · · · ∩ Ejn = {(i1 , . . . , iN ) ∈ Ω : ij1 = j1 , . . . , ijn = jn } mit |E ∩···∩E | P(Ej1 ∩ · · · ∩ Ejn ) = j1 |Ω| jn = (NN−n)! ! Mit Prop. vi) folgt dann, P( N [ Ei ) = N · i=1 (N − 1)! N! (N − 2)! N! (N − 3)! + |{(j1 , j2 , j3 ) : 1 ≤ j1 < j2 < j3 ≤ N }| · N! N +1 1 − · · · + (−1) N! N N (N − 2)! (N − 3)! =1− · + · 2 N! 3 N! 1 − · · · + (−1)N +1 N! 1 1 1 = 1 − (1 − + − . . . (−1)N +1 ) 2! 3! N! ≈ e−1 − |{(j1 , j2 ) : 1 ≤ j1 < j2 ≤ N }| · für N groß. b) Ereignis F: Genau k Personen erhalten ihre eigenen Hüte In Schritt 1 wählen wir k Personen aus, die ihre eigenen Hüte bekommen und in Schritt 2 wählen wir für die restlichen N − k Personen 3 Bedingte Wahrscheinlichkeit und Unabhängigkeit Für Ereignisse E, F gilt: P(E) = P(E|F ) · P(F ) + P(E|F c ) · P(F c ) Proposition: Seien S E1 , . . . , En paarweise disjunkte n Ereignisse mit Ω = i=1 Ei . Sei E ein weiteres Ereignis. Es gilt Folgendes: i) P(E) = P( n [ (E ∩ Ei )) = n X i=1 = n X P(E ∩ Ei ) i=1 P(E|Ei ) · P(Ei ) i=1 ii) aus i) folgt für 1 ≤ j ≤ n: P(E|Ej ) · P(Ej ) P(Ej |E) = Pn i=1 P(E|Ei ) · P(Ei ) Die Ereignisse E und F heißen unabhängig, falls gilt P(E|F ) = P(E). Dies ist äquivalent zur folgenden Definition. Definition (Unabhängigkeit) Die Ereignisse E und F heißen unabhängig, falls gilt P(E ∩ F ) = P(E) · P(F ). Propositon: Sind die Ereignisse E und F unabhängig, so sind es auch E und F c . Beispiel (zweifacher fairer Münzwurf:) Sind die folgenden Ereignisse unabhängig: 4 • E : Augensumme ist 7 Dies lässt sich auf Folgen von n bzw. unendlich vielen Versuchen verallgemeinern. Dabei gilt immer: sind (Ei )1≤i≤n bzw. (Ei )i∈N Ereignisse, für die Ei nur von Versuch Nr. i abhängt, so sind (Ei )1≤i≤n bzw. (Ei )i∈N unabhängig. • F : der erste Wurf ergibt 4 • G : der zweite Wurf ergibt 3 L: Beispiel: Eine unendliche Folge von Versuchen wird durchgeführt. Jeder Versuch hat zwei mögliche F = {(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)}, Ausgänge, Erfolg und Misserfolg. Die Wahrscheinlichkeit für Erfolg sei p, die für Misserfolg 1 − p, für G = {(1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3)} eine Zahl p ∈ [0, 1]. Wie groß ist die WahrscheinlichWeil E ∩ F = E ∩ G = F ∩ G = {(4, 3)} und keit, dass P(E) = P(F ) = P(G) = 16 sind die drei Ereignisse (paarweise) unabhängig. E ist jedoch nicht una) mindestens ein Erfolg in den ersten n Versuchen abhängig von F ∩ G, denn P(E|F ∩ G) = 1. erzielt wird? Definition: Seien E1 , . . . , En bzw. (Ei )i∈N EreignisE = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}, se. i) E1 , . . . , En sind unabhängig, wenn für jedes r ≤ n, 1 ≤ i1 < · · · < ir ≤ n gilt: P(Ei1 ∩· · ·∩Eir ) = P(Ei1 ) · · · P(Eir ) = r Y P(Eij ) j=1 ii) (Ei )i∈N heißen unabhängig, falls für jedes endliche S ⊂ N gilt: \ Y P( Ei ) = P(Ei ) i∈S i∈S Formalisierung von Versuchsfolgen: Teilexperimente, die sich gegenseitig nicht beeinflussen, nennen wir Versuche. Ω1 = Ω2 seien endliche Grundräume von 2 Teilexperimenten, P1 = P2 Wahrscheinlichkeitsmaße darauf. Nehmen wir Ω1 = Ω2 = {1, . . . , N } an, so betrachten wir als Grundraum für die Aufeinanderfolge der Versuche, das Gesamtexperiment, Ω = Ω1 × Ω2 = {(i, j) : i ∈ Ω1 , j ∈ Ω2 }. Für E ⊂ Ω1 × Ω2 setzen wir X P(E) = P1 ({i}) · P2 ({j}) b) genau k Erfolge in den ersten n Versuchen erzielt werden (1 ≤ k ≤ n). L:a): Sei Ei das Ereignis “Erfolg im iten Versuch”. Dann ist E1c ∩ · · · ∩ Enc “Misserfolg in Versuchen 1 bis n” und (E1c ∩ · · · ∩ Enc )c das Ereignis “mindestens ein Erfolg in den Versuchen 1 bis n.” Also gilt P((E1c ∩ · · · ∩ Enc )c ) = 1 − P(E1c ∩ · · · ∩ Enc ) n Y P(Eic ) = 1 − (1 − p)n =1− i=1 b): T Sei T ⊂ {1, . T . . , n} mit |T | = k gegeben. Betrachc te ( i∈T Ei ) ∩ ( i∈T / Ei ) : Erfolg in den Versuchen i ∈ T , Misserfolg in den anderen. Dann gilt wegen Unabhängigkeit P(( \ Ei ) ∩ ( i∈T (i,j)∈E \ Eic )) = Y i∈T i∈T / k P(Ei ) · Y P(Eic ) i∈T / n−k = p (1 − p) Für Ereignisse E1 , E2 , die nur von Versuch 1 bzw. 2 abhängen muss gelten E1 = F1 × Ω2 , E2 = Ω1 × F2 wobei F1 ⊂ Ω1 , F2 ⊂ Ω2 . Es folgt nach Definition Sei schließlich E das Ereignis “genau k Erfolge in n Versuchen”. Dann ist Unabhängigkeit von E1 und E2 P(E1 ∩ E2 ) = P(F1 × F2 ) X = P1 ({i}) · P2 ({j}) E= [ [( \ T ⊂{1,...,n},|T |=k i∈T Ei ) ∩ ( \ Eic )]. i∈T / (i,j)∈F1 ×F2 X = P1 ({i}) · P2 ({k}) Also: (i,k)∈F1 ×Ω2 · X P1 ({k}) · P2 ({j}) (k,j)∈Ω1 ×F2 = P(E1 ) · P(E2 ) P(E) = |{T ⊂ {1, . . . , n} : |T | = k}| · pk (1 − p)n−k n = · pk (1 − p)n−k . k 4. ZUFALLSVARIABLEN 4 5 Zufallsvariablen Damit folgt für n ∈ N : Eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P) ist eine (messbare) Abbildung n n N N −2 N −1 − + ... N 2 N n N 0 + (−1)N −1 N N n N −1 X N N −i . = (−1)i+1 N i i=1 P(T > n) = N X : Ω → Rn , wobei wir Rn mit der Borel-σ-algebra versehen. Die Definition von Messbarkeit erfordert, dass F selbst eine σ-algebra ist. Wir ignorieren dieses technische (aber wichtige) Detail im Folgenden. Zufallsvariablen, die nur abzählbar viele Werte {xi } mit positiver Wahrscheinlichkeit annehmen, heißen diskret. In diesem Fall bezeichnen wir mit pX (xi ) := p(xi ) = P(X = xi ) 4.1 Erwartungswert und Varianz Definition: Der Erwartungswert einer diskreten Zufallsvariable X mit Werten in R und Massenfunktion p ist definiert durch: die Verteilung oder Massenfunktion von X. X E(X) = x · p(x), Beispiel: Es gebe N verschiedene Arten von Coux:p(x)>0 pons, die wir (unabhängig von den vorhergehenden Versuchen) beliebig oft erhalten. Bei jedem Versuch erhalten wir mit gleicher Wahrscheinlichkeit einen der sofern diese Reihe wohldefiniert ist, d.h. N Coupons. Sei T die Anzahl von Coupons, die nötig X sind, bis man einen kompletten Satz aller N besitzt. |x| · p(x) < ∞. Wir suchen die Verteilung von T , d.h. x:p(x)>0 P(T = n) = pT (n), n ≥ 1 Beispiel: Für ein Ereignis A sei 1A : Ω −→ R L: Es ist einfacher, P(T > n) für n ∈ N zu berechnen und dann die Formel P(T = n) = P(T > n − 1) − P(T > n) zu nutzen. Sei dazu Aj : kein j-Coupon in den ersten n Zügen. Dann gilt, {T > n} = N [ ( 1, ω− 7 → 0, ω ∈ A, ω∈ /A die Indikatorfunktion von A. Es gilt p1A (0) = 1 − P(A), p1A (1) = P(A), und damit E(1A ) = 1 · P(A) = P(A). Aj j=1 Propositon: Sei X eine ZV mit Werten {xi }i∈N und Verteilung pX . Sei g : R −→ R eine Funktion. Dann gilt: ∞ X E(g(X)) = g(xi )p(xi ), also nach dem Additionstheorem P(T > N ) = P( N [ Aj ) j=1 = N X P(Aj ) − j=1 i=1 X P(Aj1 ∩ Aj2 ) + . . . j1 <j2 N +1 . . . + (−1) P(A1 ∩ · · · ∩ An ) ∞ X |g(xi )|p(xi ) < ∞. i=1 Nun gilt für 1 ≤ j ≤ N : P(Aj ) = falls N −1 N n . Allgemeiner gilt für 1 ≤ j1 < · · · < jk ≤ N : n N −k P(Aj1 ∩ · · · ∩ Ajk ) = . N Rechenregeln: Seien a, b ∈ R, X, Y ZV mit Massenfunktionen pX , pY und existierenden Erwartungswerten. Dann gilt i) E(aX + b) = aE(X) + b ii) E(X + Y ) = E(X) + E(Y ) 6 Definition: Sei X einePZV mit Massenfunktion n p, n ∈ N, und es gelte x:p(x)<0 |x| · p(x) < ∞. Dann heißt X E(|X|n ) = |x|n · p(x) Die Poissonverteilung ist ein Grenzfall der Binomialverteilung: Für eine Folge (Xn )n∈N binomialverteilter ZV zu den Parametern {(n, pn )}n∈N mit Massenfunktionen (pXn )n∈N gilt für k ≥ 0: x:p(x)>0 lim pXn (k) = n→∞ das n-te Moment von X. Definition: Sei X eine diskrete ZV mit E(X) = µ. Dann heißt λk −λ e k! sofern lim npn = λ. n→∞ Die Poisson Verteilung findet als Approximation der Binomialverteilung Anwendung, wenn die Erfolgswahrscheinlichkeiten klein sind. Für Erwartungswert die Varianz von X. Durch Anwenden der Definition und Varianz einer Poisson-verteilten ZV X gilt: des Erwartungswertes erhält man E(X) = λ und V ar(X) = λ V ar(X) = E(X 2 ) − µ2 = E(X 2 ) − E(X)2 . Geometrische Verteilung: Folgt X einer geomeRechenregel: Seien a, b ∈ R, X eine diskrete ZV mit trischen Verteilung zum Parameter p, geschrieben existierender Varianz. Dann gilt X ∼ G(p), V ar(aX + b) = a2 V ar(X) so ist seine Massenfunktion gegeben durch V ar(X) = E([X − µ]2 ) 4.2 pX (n) = (1 − p)n−1 · p. Spezielle diskrete Verteilungen Binomialverteilung zu den Parametern n ≥ 2 und Erwartungswert und Varianz sind gegeben durch p: die Massenfunktion ist gegeben durch (1 − p) 1 E(X) = und V ar(X) = n i p p2 pX (i) = p (1 − p)n−i , 0 ≤ i ≤ n i Die geometrische Verteilung beschreibt die Wartezeit Eine binomialverteilte ZV X zu den Parametern auf den ersten Erfolg bei der unabhängingen Wiederholung eines Experiments. (n, p) hat den Erwartungswert E(X) = np und die Varianz V ar(X) = np(1 − p). Wir schreiben für eine solche ZV X ∼ B(n, p). Negative Binomialverteilung: Eine ZV X heißt negativ binomialverteilt mit Parametern (r, p), wenn r n−r n − 1 ,n ≥ r pX (n) = p (1 − p) r−1 Erwartungswert und Varianz einer negativ binomialverteilten ZV X zu den Parametern (r, p) sind gegeben durch r r(1 − p) E(X) = und V ar(X) = Hierbei steht B(n, p) für binominalverteilt zu den p p Parametern (n, p). Die Binomialverteilung schreibt die Anzahl von Erfolgen bei unabhängingen Wieder- Hypergeometrische Verteilung: Eine ZV X heißt hypergeometrisch verteilt zu den Parametern holungen des gleiches Experiments. (n, N, m), wenn Poissonverteilung: Die Massenfunktion einer N −m m Poisson-verteilten ZV X zum Parameter λ > 0 ist i · n−i pX (i) = gegeben durch N n λk −λ e , k ≥ 0. pX (k) = k! Wir schreiben in diesem Fall X ∼ π(λ). Erwartungswert und Varianz einer hypergeometrisch verteilten ZV X mit Parametern (n, N, m) sind gegeben durch E(X) = n m m m N −n und V ar(X) = n (1 − ) N N n N −1 5. ABSOLUTSTETIGE VERTEILUNGEN Eigenschaften von Verteilungsfunktionen: Sei X eine diskrete ZV. Die Funktion 7 n k− Mit xn (k) = √ n2 , 0 ≤ k ≤ n, n ∈ N gilt dann: 4 F (x) := P(X ≤ x), x ∈ R r pn (k) n lim max − 1 = 0 n→∞ k:|xn (k)|≤c ϕ(xn (k)) 4 heisst Verteilungsfunktion (oder kumulative Verteilungsfunktion), abgekürzt CDF. Es gilt: i) F ist monoton wachsend, d.h. F (a) ≤ F (b), falls a ≤ b ii) lim F (b) = 1 b→∞ iii) Als unmittelbare Folgerung erhalten wir, dass die Verteilungen der standardisierten Variablen Xn∗ mit n → ∞ gegen eine absolutstetige Verteilung konvergieren - gegen die für die Stochastik zentrale GaußVerteilung - die wir später genauer betrachten: Korollar: Für a, b ∈ R, a < b, gilt lim F (b) = 0 b→−∞ iv) F ist rechtsstetig, d.h. F (bn ) ↓ F (b), falls bn ↓ b. lim P(a ≤ 5 n→∞ Absolutstetige Verteilungen 5.1 Xn∗ Zb ≤ b) = ϕ(x)dx a Approximation der Binomialver- Definition: Eine ZV X heißt absolutstetig verteilt teilung mit Dichte f : R → R+ (f Riemann-integrierbar), R Wir betrachten eine Folge (Xn )n∈N ∼ B(n, pn ) binomialverteilter ZVen. Dann gilt E(Xn ) = npn sowie V ar(Xn ) = npn (1 − pn ). Gilt npn → λ < ∞, so kann die Binomialverteilung für grosse n durch die Poissonverteilung approximiert werden: B(n, pn ) ≈ π(λ), falls f (t)dt = 1 und R Z P(X ∈ B) = Z f (t)dt = B 1B (t)f (t)dt R für alle (Borel messbaren) Mengen B gilt. Die Funktion d.h. für kleine p approximieren wir B(n, p) durch π(λ). Ist pn ≡ p, so gilt E(Xn ) = np ↑ ∞ sowie V ar(Xn ) = np(1 − p) ↑ ∞. Zx F : R → [0, 1], x 7−→ P(X ≤ x) = f (t)dt −∞ In diesem Fall müssen wir Xn standardisieren. Dazu definieren wir für n ∈ N: heißt dann Verteilungsfunktion von X. Insbesondere gilt Xn − E(Xn ) Xn − np ∗ Xn := p =p Z ∞ V ar(Xn ) np(1 − p) 1 − F (x) = f (t)dt. x Ziel ist es nun, in geeigneter Weise die Wahrscheinlichkeit Man beachte, dass für eine absolutstetige ZV mit k − np P(Xn = k) = P Xn∗ = =: pn (k) Dichte f und Verteilungsfunktion F gilt np(1 − p) anzunähern. Dazu betrachten wir nun den Fall p = 0.5, d.h. 1 Xn ∼ B(n, ). 2 Satz von de Moivre/Laplace: Sei c > 0. Sei −x2 1 ϕ(x) = √ · e 2 , 2π x ∈ R. Z x P(X = x) = f (t)dt = 0 x sowie, falls f stetig, F 0 = f. 8 5.2 Erwartungswert und Varianz −x2 2 Definition: Für f (x) = ϕ(x) = √12π · e (standard) normalverteilt. Wir schreiben heißt X Folglich auch d E(Ct (X)) dt Zt f (x)dx + ktf (t) − ktf (t) = k 0 X ∼ N (0, 1). Z∞ −ctf (t) − c Definition: Sei X absolutstetig verteilt mit Dichte R f . Falls |xf (x)|dx < ∞, heißt = R xf (x)dx R 0= Erwartungswert von X. Proposition: Sei X absolutstetig verteilt mit Dichte fR . Sei g : R → R eine (messbare) Funktion, so dass |g(x)|f (x)dx < ∞. Dann gilt R Z E(g(X)) = (c + k)F (t) − c Die kritischen Punkte der Funktion t 7−→ E(Ct (X)) sind also bestimmt durch die Gleichung Z E(X) = f (x)dx + ctf (t) t g(x)f (x)dx. d E(Ct (X)) = (c + k)F (t) − c, dt also durch die Bedingung F (t) = c . c+k Es handelt sich um ein Minimum, da d2 E(Ct (X)) = (c + k)f (t) ≥ 0. dt2 R Lemma: Sei 0 ≤ Y eine ZV(diskret oder absolutsteKorollar: Seien a, b ∈ R, X eine absolutstetige ZV tig verteilt). Dann gilt mit existierender Erwartung, dann gilt Z∞ E(aX + b) = aE(X) + b E(Y ) = P(Y > y)dy. Definition: Sei R X eine absolutstetige ZV mit Dichte f , sodass gilt x2 f (x)dx < ∞. Dann heißt 0 Beispiel: Falls A zu einer Verabredung s Minuten zu R spät kommt, kostet es ihn cs Euro, falls er s Minuten V ar(X) = E([X − E(X)]2 ) = E(X 2 ) − E(X)2 zu früh kommt, ks Euro. Die Reisezeit von A’s Wohnung zum Treffpunkt ist absolutstetig verteilt mit stetiger Dichte f . Zu welcher Zeit muss A aufbrechen, die Varianz von X. Rechenregel: Für a, b ∈ R gilt um seine Kosten zu minimieren? L.: Sei X die Reisezeit von A, t die Anzahl der ZeitV ar(aX + b) = a2 V ar(X). einheiten von A’s Aufbruch zur verabredeten Treffzeit. Dann sind A’s Kosten 5.3 Spezielle absolutstetige Verteilun( c(X − t), X ≥ t, gen Ct (X) = k(t − X), X ≤ t. Gleichverteilung: Seien α, β ∈ R, α < β. Eine ZV X heißt gleichverteilt auf [α, β], wenn die Dichte von Damit gilt X die Form hat ( Zt Z∞ 1 , α ≤ x ≤ β, E(Ct (X)) = k(t − x)f (x)dx + c(x − t)f (x)dx f (x) = β−α 0, sonst. t 0 Zt Zt f (x)dx − k = kt 0 xf (x)dx 0 Z∞ Z∞ xf (x)dx − ct +c t f (x)dx t Für die Verteilungsfunktion einer so verteilten ZV gilt 0, x≤α Rx 1 F (x) = β−α dt, α ≤ x ≤ β, α 1, β ≤ x. 5. ABSOLUTSTETIGE VERTEILUNGEN Lemma: Sei X gleichverteilt auf [α, β]. Es ist Zβ x E(X) = 1 1 dx = (β + α) β−α 2 α 2 Zβ E(X ) = 1 1 x dx = (β 2 + βα + α2 ) β−α 3 2 α also 9 Gilt µ = 0 und σ = 1, so nennt man X standardnormalverteilt. Proposition: Ist X normalverteilt zu den Parametern (µ, σ 2 ), und β ∈ R, 0 < α ∈ R, so ist Y = αX +β normalverteilt zu den Parametern (αµ + β, α2 σ 2 ). Beispiel: Angenommen, 52% aller Berliner seien für ein striktes Alkoholverbot in der S-Bahn. Wie groß muss eine Umfrage sein, damit mit mindestens 95% Wahrscheinlichkeit die Hälfte der Befragten für ein Verbot ist? 1 (β − α)2 . 12 L.: Zunächst stellen wir fest, dass die hypergeometrische Verteilung durch die Binomialverteilung approximiert werden kann: Sei X hypergeometrisch verteilt Beispiel (Bertrand Paradox): Betrachte eine zu den Parametern (n, N, m). Es gelte N, m → ∞ so, zufällige Sekante auf einem Kreis mit Radius r. Mit dass m → p ∈ [0, 1]. Dann konvergiert N welcher Wahrscheinlichkeit ist die Länge der Sekante N −m m größer als die Seite eines gleichseitigen Dreiecks, das n i i · n−i dem Kreis einbeschrieben ist? P(X = i) = −→ p (1 − p)n−i . N i n Lösung 1: Sei X die Distanz der Sekante vom Ursprung des Kreises; Annahme: X gleichverteilt auf Also gegen eine Binomialverteilung zu den Parame[0, r]. Dann ist E: die Länge der Sekante ist größer tern (n, p). Sei nun als die Seite des Dreiecks, d.h. E = {X ∈ [0, r]}, also • N die Zahl aller Berliner, r Z2 1 1 r • n die Anzahl der Befragten und dx = P(E) = P(X ∈ [0, ]) = 2 r 2 0 • Sn die Zahl derjenigen unter den Befragten, die für ein Verbot sind. Lösung 2: Sei θ der Winkel zwischen Sekante und V ar(X) = E(X 2 ) − E(X)2 = Tangente an den Kreis in einem Schnittpunkt; Annahme: θ gleichverteilt auf [0, 180]. Dann ist E: Länge größer als Seite des Dreiecks, d.h. E = {θ ∈ [60, 120]}, also Z120 P(E) = P(θ ∈ [60, 120]) = 1 1 dx = 180 3 Sn ist hypergeometrisch verteilt zu den Parametern (n, N, 0.52 · N ) (vgl. Urnenmodelle ohne Zurücklegen). Aus den obigen Überlegungen und weil N und 0.52 · N sehr groß werden, folgt, dass wir die Verteilung von Sn durch eine Binomialverteilung annähern können. Genauer gilt folgendes Lemma. Lemma: Sei X hypergeometrisch verteilt zu den Parametern (n, N, m), d.h. Dieses Beispiel zeigt, dass es sehr wesentlich auf die m N −m Modellierung eines Problems ankommt. i n−i P(X = i) = . N 60 n Normalverteilung: Seien µ ∈ R, σ 6= 0. Eine ZV X heißt normalverteilt zu den Parametern (µ, σ 2 ), wenn Gilt nun N, m → ∞ mit m N → p, so gilt X die Dichte m i P(X = i) → p (1 − p)n−i . 1 (x − µ)2 i f (x) = √ exp − , x ∈ R 2σ 2 2πσ 2 Bemerkung: Die Intuition hinter obigem Lemhat. Wir schreiben ma ist klar: die hypergemometrische Verteilung beschreibt die Anzahl der Erfolge beim “Ziehen ohX ∼ N (µ, σ 2 ). ne Zurücklegen”, die Binomialverteilung die Anzahl 2 Erwartungswert und Varianz von X ∼ N (µ, σ ) sind der Erfolge beim “Ziehen mit Zurücklegen”. Ist die Grundgesamtheit gross, so fällt der Unterschied nicht gegeben durch ins Gewicht. 2 E(X) = µ und V ar(X) = σ 10 Unter Verwendung des obigen Lemmas liefert nun die Für X ∼ E(λ) gilt Annäherung der Binomial- durch eine NormalverteiZ∞ lung: P(X > t) = λe−λx dx = e−λt , t ≥ 0. P(Sn > 0.5n) t ! 0.5n − 0.52n Sn − 0.52n Somit folgt unmittelbar die Gedächtnislosigkeit ex= P p >p n(0.52)(0.48) n(0.52)(0.48) ponentialverteilter ZVen. ! √ Sn − 0.52n = P p > −0.4 n n(0.52)(0.48) 6 Gemeinsame Verteilungen √ ≈ Φ(0.04 n) von Zufallsvariablen Dabei ist Φ die Verteilungsfunktion√der Standardnor- Definition: Seien X, Y ZV’en auf (Ω, P). Die gemalverteilung. Es muss also Φ(0.04 n) > 0.95 gelten, meinsame Verteilungsfunktion von (X, Y ) ist gegeben folglich, dass n ≥ 1691.266. Das heißt, der Stichpro- durch benumfang muss mindestens 1692 betragen. Im letzten Schritt haben wir verwendet, dass aus SymmeF (a, b) = P(X ≤ a, Y ≤ b) triegrünten für eine N (0, 1)-verteilte Zufallsvariable = P({X ≤ a} ∩ {Y ≤ b}), a, b ∈ R Z und z < 0 gilt: P(Z > −z) = 1 − P(Z ≤ −z) = 1 − (1 − P(Z ≤ z)) Die Verteilungsfunktion von X bzw. Y erhalten wir aus der gemeinsamen Verteilungsfunktion: Sei a ∈ R. Dann gilt = P(Z ≤ z) FX (a) = F (a, ∞) := lim F (a, n), n→∞ Exponentialverteilung: Sei λ > 0. Eine absolutstetige ZV X mit Dichte Entsprechend gilt für b ∈ R ( λ · e−λx , x ≥ 0, FY (b) = F (∞, b) := lim F (n, a). f (x) = n→∞ 0, x < 0, FX , FY heißen Randverteilungen von X, Y . heißt exponentialverteilt zum Parameter λ. Wir schreiben 6.1 Unabhängige ZVen X ∼ E(λ). Definition: Seien X, Y ZV. (X, Y ) heißen gemeinsam absolutstetig verteilt mit Dichte f , wenn es eine 1 1 Riemann-integrierbare Funktion f : R2 → R+ gibt R E(X) = und V ar(X) = 2 . mit R2 f (x, y)dxdy = 1, so dass für C ⊂ R2 mit 1C f λ λ Riemann-integrierbar gilt Eine wesentliche Eigenschaft der ExponentialverteiZ lung ist die sog. Gedächtnislosigkeit (vgl. hierzu auch P((X, Y ) ∈ C) = f (x, y)dxdy die geometrische Verteilung). ZC Definition (Gedächtnislosigkeit): Eine ZV X ≥ 0 = 1C (x, y)f (x, y)dxdy. heißt gedächtnislos, wenn für s, t ≥ 0 gilt 2 Erwartungswert und Varianz sind gegeben durch R P(X > s + t|X > t) = P(X > s). Falls f stetig, gilt Denkt man an die zufällige Lebenszeit eines Pro∂ ∂ F (x, y), x, y ∈ R f (x, y) = dukts, so bedeutet diese Bedingung, die Wahrschein∂x ∂y lichkeit, nach einem Zeitpunkt t weitere s Zeiteinheiten zu überleben, ist nicht von t abhängig. Die Definition: Zwei ZV’en (X, Y ) heißen unabhängig, wenn für a, b ∈ R gilt Bedingung ist äquivalent zu P(X > s + t) = P(X > s) · P(X > t), s, t ≥ 0. P(X ≤ a, Y ≤ b) = P(X ≤ a) · P(Y ≤ b). 6. GEMEINSAME VERTEILUNGEN VON ZUFALLSVARIABLEN Somit gilt Unabhängigkeit, genau dann, wenn für die gemeinsame Verteilungsfunktion F und die marginalen Verteilungsfunktionen FX , FY gilt F (x, y) = FX (x)FY (y), x, y ∈ R Äquivalent gilt die Gleichung in analoger Form mit p, pX , pY (Massenfunktionen) bzw. f, fX , fY (Dichtefunktionen) für diskrete bzw. absolutstetige X, Y . 6.3 11 Statistik für unabhängige normalverteilte ZV’en Definition: Seien X1 , . . . , Xn unabhängige ZV’en auf (Ω, F, P). Sie heißen identisch verteilt (i.i.d.), wenn P(Xk ≤ x) = P(Xl ≤ x) ∀k, l = 1, . . . , n, ∀x ∈ R. Markov Ungleichung: Sei X ≥ 0 eine ZV mit E(X) = µ und 0 < a ∈ R, dann gilt: Außerdem lässt sich zeigen, dass Unabhängigkeit von E(X) X, Y gilt, genau dann wenn {X ∈ A}, {Y ∈ B} unP(X ≥ a) ≤ a abhängig sind, für alle messbaren Mengen A, B ∈ R, das sind zum Beispiel Intervalle. Korollar (Chebyshev Ungleichung): Sei X eine ZV mit E(X) = µ und V ar(X) = σ 2 . Dann gilt für η > 0: 6.2 Summen unabhängiger ZVen V ar(X) . P(|X − µ| > η) ≤ η2 Definition: Seien X und Y absolutstetig verteilt mit Dichten fX bzw. fY . Die Dichte fX+y von X+Y heißt Korollar(schwaches Gesetz der großen Zahlen): Seien X1 , . . . , Xn i.i.d. N (µ, σ 2 )-verteilt und Faltung der Verteilungen von X und Y . Es gilt > 0 beliebig. Es gilt dann: Z fX+Y (x) = fX (x − y)fY (y)dy =: fX ∗ fY (x). lim P |X n − µ| > = 0, n→∞ Gammaverteilung: Eine absolutstetige ZV X heißt wobei X n als das arithmetische Mittel der ersten n gammaverteilt zu den Parametern (s, λ), geschrieben, ZV’en definiert ist: X1 + · · · + Xn X n := n X ∼ Γ(s, λ) Im Folgenden geht es darum, aufgrund von Realiwenn sie die Dichte sierungen x1 , . . . xn , Aussagen über die Parameter (µ, σ 2 ) von i.i.d. normalverteilten ZV’en X1 , . . . , Xn ( (λx)s−1 −λx , x ≥ 0, zu machen. Γ(s) λe f (x) = 0, sonst besitzt. Im Fall s = n2 , λ = 12 spricht man von der Schätzer für µ bei bekanntem σ: Chi-Quadrat-Verteilung mit n Freiheitsgraden, geDer naive Schätzer Xn ist vernünftig; er konvergiert, schrieben im Sinne des schwachen Gesetzes der großen Zahlen, X ∼ χ2(n) . gegen den wahren Wert und ist erwartungstreu in Proposition: Seien X , . . . X unabhängige ZV’en, dem Sinne, dass 1 n alle exponentialverteilt zum Parameter λ. Dann ist X1 + · · · + Xn gammaverteilt zu den Parametern (n, λ). Proposition: Seien Z1 , . . . Zn unabhängige ZV’en, alle standard-normalverteilt. Dann ist Z12 + · · · + Zn2 gammaverteilt zu den Parametern ( n2 , 21 ). E(Xn ) = µ ∀µ. Hypothesentest für µ: Bei gegebenem µ0 sind unsere Hypothesen: H0 : µ = µ0 , H1 : µ 6= µ0 , vernünftig ist es, H1 anzunehmen, falls |xn − µ0 | > η, Proposition: Seien X1 , . . . Xn unabhängige ZV’en, für η so gewählt, dass der Test eine vorgegebene Irralle normalverteilt, zu den Parametern (µi , σi ), 1 ≤ tumswahrscheinlichkeit α nicht übersteigt, also dass i ≤ n. Dann ist X1 + · · · + X pn normalverteilt zu den Pµ0 ,σ (|Xn − µ0 | > η) ≤ α. Parametern (µ1 + · · · + µn , σ12 + · · · + σn2 ). Proposition: Die Summe unabhängiger, poissonver- Wir wählen folglich η aus einer N (0, 1)-Tafel so aus, η√ teilter ZV’en X1 + · · · + Xn mit Xi ∼ π(λi ), ∀i ist dass α Φ n =1− ebenfalls poissonverteilt zum Parameter λ1 +· · ·+λn . σ 2 12 Wir nehmen H1 an, wenn |xn − µ0 | > η. Aus einer χ2n Tafel erhält man γ 0 = γ · Beim einseitigen Testproblem, mit Hypothesen: H0 : µ ≥ µ0 , Pµ,σ ( H1 : µ < µ0 n σ2 so dass n · Sn2 < γ0) = α σ2 Konstruktion eines Konfidenzintervalles zum ist es vernünftig, H1 anzunehmen, falls xn < η. Niveau α: Unser Ansatz ist: Hierbei wird η ∈ R so gewählt, dass für gegebenes n · Sn2 0 < α < 1: ψ1 (x1 , . . . , xn ) = η1 Pµ,σ (Xn < η) ≤ α ∀µ ≤ µ0 n · Sn2 ψ2 (x1 , . . . , xn ) = η2 Daher wählen wir η so, dass Φ η − µ0 √ n σ wobei η1 > η2 und = α. Konstruktion eines Konfidenzintervalles zum Niveau α: Gesucht werden die Grenzen des Intervalls I(x1 , . . . , xn ) = [ψ1 (xn ), ψ2 (xn )], in dem µ vermutet wird. Es soll für gegebenes α gelten P(µ ∈ / I(x1 , . . . , xn )) ≤ α ∀µ Aus dem Ansatz σ ψ1,2 (xn ) = xn ± η · √ n folgt, dass η so zu wählen ist, dass Φ(n) = 1 − α 2 Schätzer für σ bei bekanntem µ: Der Schätzer n 1 X Sn2 = · (Xi − µ)2 n i=1 ∀σ. Aus einer χ2n Tafel kann man η1 , η2 so wählen, dass n · Sn2 ≤ η1 ) σ2 n · S2 P( 2 n < η2 ) σ P( = 1− = α 2 α 2 Schätzer für µ bei unbekanntem σ Wir ersetzten das unbekannte σ durch eine gute Schätzung. Wir betrachten daher die Zufallsvariable X̄ n −µ √ √ n X̄ n − µ = qσ n−1 T := q 2 S̄n n 2 (n−1)S̄n σ2 Die Struktur von T is die folgende: X T = √ ·m Y wobei X, Y unabhänging, N ∼ N (0, 1) und Y ∼ χ2m . Man kann nun zeigen, dass T eine sog. tm -Verteilung besitzt , d.h. in unserem Fall T ∼ tn−1 . mit Realisierung s2n Pµ,σ (ψ1 ≤ σ 2 ≤ ψ2 ) = 1 − α n 1 X = · (xi − µ)2 n i=1 Man kann nun µ durch X̄ n schätzen, sowie Tests und Konfidenzintervalle konstruieren. Für das letzte hat man σ 2 such S̄n2 zu ersetzten und die N (0, 1)Verteilung durch die tn−1 -Verteilung. ist erwartungstreu und konvergiert schwach gegen σ 2 . n·S 2 σ 2 ist chi-quadrat-verteilt mit n Freiheitsgraden. Schätzer für σ bei unbekanntem µ Hypothesentest für σ: Bei bekanntem σ0 lauten Ist µ unbekannt, so ist unsere Hypothesen: n 1 X H0 : σ ≥ σ0 , H1 : σ < σ0 . S̃n2 := (Xi − X̄ n )2 n − 1 i=1 Wir nehmen H1 an, falls s2n < γ. Hierbei ist γ > 0 so ein erwartungstreuer Schätzer für das unbekannte σ 2 . zu wählen, dass Tests und Konfidenzintervalle konstruiert man wie Pµ,σ (Sn2 < γ) ≤ α ∀σ ≥ σ0 . gehabt, unter Verwendung der χ2n−1 -Verteilung. 6. GEMEINSAME VERTEILUNGEN VON ZUFALLSVARIABLEN 6.4 Bedingte Verteilungen Für y ∈ R mit fY (y) = 0 setzen wir Sind E, F Ereignisse, so hatten wir die bedingte Wahrscheinlichkeit von E gegeben F definiert als P(E|F ) = fX|Y (x|y) = 0. P(E ∩ F . P(F ) Damit setzen wir für A = [a, b] ⊂ R, x ∈ R Zb Seien nun X, Y diskret verteilte ZV’en mit gemeinsamer Massenfunktion p und marginalen Massenfunktionen pX , py . P(X ∈ A|Y = y) = Zx FX|Y (x|y) P(X = x, Y = y) P(Y = y) p(x, y) x, y ∈ R. pY (y) = = = fX|Y (t|y)dt. Es werden also Wahrscheinlichkeiten unter Bedingungen interpretiert, die ihrerseits Wahrscheinlichkeit 0 haben! Beispiel: Die gemeinsame Dichte von X, Y sei gegeben durch ( k λ1 + λ2 −x y e−y , y Um P(X > 1|Y = y), y ∈ R zu berechnen ist zunächst Z∞ fY (y) = x e− y e−y dx, y 0 < y. 0 also für x, y > 0 x fX|Y (x|y) = λ2 λ1 + λ2 0 < x, 0 < y, sonst. 0, P(X = k, X + Y = n) P(X + Y = n) P(X = k, Y = n − k) P(X + Y = n) P(X = k)P(Y = n − k) P(X + Y = n) n−k λk −λ2 1 −λ1 λ2 k! e (n−k)! e (λ1 +λ2 )n −(λ1 +λ2 ) e n! k n λ1 e f (x, y) = = P(X = k|X + Y = n) = = −∞ Beispiel: Seien X, Y unabhängig Poisson-verteilt zu den Parametern λ1 bzw. λ2 . Die bedingte Massenfunktion von X gegeben {X + Y = n} berechnet sich wie folgt: Für 0 ≤ k ≤ n ist wegen der Unabhängigkeit = fX|Y (x|y)dx, = P(X = x|Y = y) = pX|X+Y (k|n) = a Die bedingte Massenfunktion von X gegeben Y : ist dann pX|Y (x|y) 13 n−k Dies ist eine Binomialverteilung zu den Parametern 1 ). Allgemeiner, sind X, Y diskret verteilt (n, λ1λ+λ 2 und unabhängig, so ist für x, y ∈ R f (x, y) e− y = , fY (y) y und somit für y > 0 . Z∞ P(X > 1|Y = y) = fX|Y (x|y)dx, 1 p(x, y) pX (x)pY (y) pX|Y (x|y) = = = pX (x). pY (y) pY (y) Z∞ = 1 y = x 1 − y1 [−ye− y ]|∞ . 1 =e y z e− y dx 1 Seien X, Y nun gemeinsam absolutstetig verteilt mit Dichte f und Randdichten fX , fY . Analog zum diskreten Fall gilt allgemein: sind X, Y Die bedingte Dichte von X gegeben Y : für absolutstetig verteilt und unabhängig, so ist x, y ∈ R mit fY (y) > 0 sei fX|Y (x|y) = f (x, y) fY (y) fX|Y (x|y) = fX (x)fY (y) f (x, y) = = fX (x), x, y ∈ R. fY (y) fY (y) 14 7 Erwartungswert, und Co-Varianz Varianz L.: Zu berechnen ist E(|X gemeinsame Dichtefunktion ( 1 2, f (x, y) = L 0, − Y |). Zunächst ist die vonX, Y gegeben durch 0 ≤ x, y ≤ L, Proposition: Seien X, Y diskrete ZV mit gemeinsasonst mer Massenfunktion p bzw. gemeinsam absolutstetig 2 verteilt mit gemeinsamer Dichte f . Sei g : R → R Nach obiger Proposition folgt so, dass g(X, Y ) ZV, beispielsweise stetig. Dann gilt ZL ZL X 1 E(|X − Y |) = [ |x − y| 2 dy]dx E(g(X, Y )) = g(x, y)p(x, y) L {(x,y):p(x,y)>0} 0 = bzw. Z∞ Z∞ E(g(X, Y )) = [ g(x, y)f (x, y)dx]dy, −∞ −∞ P falls {(x,y):p(x,y)>0} |g(x, y)|p(x, y) R∞ R∞ [ |g(x, y)|f (x, y)dx]dy < ∞. < ∞ bzw. 0 L 3 Beispiel (Sammeln von Coupons): Es gibt N verschiedene Arten von Coupons. Jedes mal, wenn man einen Coupon erhält, ist es mit gleicher Wahrscheinlichkeit einer der N Typen. Berechne a) die erwartete Anzahl von verschiedenen Typen, nachdem man n Züge gemacht hat, ∞ ∞ 7.1 Erwartungswert der Summe von ZVen b) die erwartete Anzahl von Coupons, die man erhalten muss, bis man einen kompletten Satz besitzt. L.: a): Ei : mindestens ein Coupon vom Typ i ist in Eine wichtige Folgerung aus vorheriger Proposition den ersten n enthalten, 1 ≤ i ≤ N. Mit Xi = 1Ei , 1 ≤ ist: sind X, Y ZVen mit gemeinsamer Dichte f oder i ≤ N ist X = X1 +· · ·+XN die Anzahl verschiedener gemeinsamer Massenfunktion p und existieren die Er- Typen von Coupons in den ersten n. Es ist wartungswerte, so gilt mit g(x, y) = x + y, x, y ∈ R, N X N − 1n etwa im absolutstetigen Fall, ) E(Xi ) = N (1−P(EiC )) = N (1− E(X) = N i=1 E(X + Y ) = E(g(X, Y )) b): Für 0 ≤ i ≤ N − 1 sei Yi die Anzahl von VerZ∞ Z∞ suchen, die man benötigt, bis man einen neuen Cou= [ (x + y)f (x, y)dx]dy pon erhält. Dann ist Y = Y0 + · · · + YN −1 die An−∞ −∞ zahl von Versuchen, die man benötigt, bis man einen ∞ ∞ Z Z vollständigen Satz besitzt. Es ist Yi geometrisch ver= xfX (x)dx + yfY (y)dy teilt zum Parameter NN−i also −∞ −∞ = E(X) + E(Y ) E(Yi ) = N , N −i 0 ≤ i ≤ N − 1. Der Erwartungswert ist also linear. Hieraus kann man Damit gilt eine weitere wichtige Eigenschaft des ErwartungswerN −1 X tes herleiten, nämlich seine Monotonie. Sind X, Y N 1 1 E(Y ) = = N (1 + + · · · + ). ZV’en mit X ≤ Y ⇔ Y − X ≥ 0, so gilt N − i 2 N i=0 0 ≤ E(Y − X) = E(Y ) − E(X) Beispiel:Ein Unfall ereignet sich an einem Punkt X, der auf [0, L] gleichverteilt ist. Eine Ambulanz ist zu dieser Zeit an einem Punkt Y , der ebenfalls auf [0, L] gleichverteilt ist. X und Y sind unabhängig. Wie groß ist die erwartete Distanz zwischen der Ambulanz und dem Unfallpunkt? 7.2 Co-Varianz und Korrelation Proposition: Seien X, Y unabhängige ZV’en und g, h : R → R Funktionen, so dass g(X), h(Y ) ZV’en sind, also beispielsweise stetig. Es gelte E(|g(X)|) < ∞, E(|h(X)|) < ∞ Dann ist E(g(X)h(Y )) = E(g(X)) · E(h(Y )). 7. ERWARTUNGSWERT, VARIANZ UND CO-VARIANZ Kovarianz: Seien X, Y ZV’en mit existierender Varianz. Die Kovarianz der beiden ist definiert durch cov(X, Y ) := E([X − E(X)][Y − E(Y )]) E(XY ) − E(X)E(Y ), = 15 die bedingte Erwartung von X gegeben {Y = y} definiert als Z∞ E(X|Y = y) = xfX|Y (x|y)dx −∞ Z∞ letzteres, wegen der Linearität des Erwartungswertes. f (x, y) = x dx. Proposition: Aus der Unabhängigkeit von zwei fY (y) −∞ ZV’en X, Y folgt cov(X, Y ) = 0, die umgekehrte Aussage gilt jedoch nicht. Proposition: Seien Beispiel: Seien (X, Y ) gemeinsam absolutstetig verX, Y, X1 , . . . , Xn , Y1 , . . . , Ym ZV’en, α ∈ R. Dann gilt teilt mit Dichte ( 1 −x i) cov(X, Y ) = cov(Y, X) e y e−y , x, y > 0 f (x, y) = y 0, sonst. ii) cov(X, X) = V ar(X) iii) cov(αX, Y ) = αcov(X, Y ) iv) cov( n P i=1 Xi , m P Yj ) = j=1 n P m P cov(Xi , Yj ). i=1 j=1 Korollar: Seien X1 , . . . , Xn ZV’en mit existierenden Varianzen. Dann gilt n n X X X V ar( Xi ) = V ar(Xi ) + cov(Xi , Xj ) i=1 i=1 i6=j für unabhängige X1 , . . . , Xn gilt also n n X X V ar( Xi ) = V ar(Xi ) i=1 Wir berechnen E(X|Y = y). Für y > 0 gilt ( 1 −x y, x>0 ye fX|Y (x|y) = 0, sonst. Nach der Formel für den Erwartungswert einer exponentialverteilten ZV ist dann Z∞ 1 x E(X|Y = y) = x e− y dx = y y 0 Definition: Seien X, Y ZV’en. Dann heißt die ZV E(X|Y = y)|y=Y = E(X|Y ) bedingte Erwartung von X gegeben Y . i=1 Proposition: Seien X, Y ZV’en mit E(|X|) < ∞. Korrelationskoeffizient: Für X, Y ZV’en mit exis- Dann gilt E(X) = E(E(X|Y )). tierenden Varianzen heißt ρ(X, Y ) = p cov(X, Y ) V ar(X)V ar(Y ) im diskreten Fall gilt X E(X) = E(X|Y = y)pY (y), y:pY (y)>0 Korrelationskoeffizient von X und Y . ρ(X, Y ) ist ein Maß, für die lineare Abhängigkeit von X und Y , sind und im absolutstetigen sie unabhängig, so gilt ρ(X, Y ) = 0. Z∞ E(X) = E(X|Y = y)fY (y)dy. 7.3 Bedingte Erwartungen Definition: Seien X, Y diskret verteilte ZV’en mit gemeinsamer Massenfunktion p. Für y ∈ R ist die bedingte Erwartung von X gegeben {Y = y} definiert als X E(X|Y = y) = xpX|Y (x|y) z:pX (x)>0 = X xP(X = x|Y = y). z:pX (x)>0 Definition: Seien X, Y gemeinsam absolutstetig verteilte ZV’en mit gemeinsamer Dichte f . Für y ∈ R ist −∞ Beispiel: Die Zahl der Kunden in einem Kaufhaus pro Tag ist eine ZV mit Mittelwert 50. Ihre individuellen Ausgaben sind unabhängige ZV’en mit Erwartung 8 Euro, die auch unabhängig sind von der Zahl der Kunden. Wie hoch sind die erwarteten Einnahmen des Kaufhauses pro Tag? L: Seien N : Anzahl der Kunden pro Tag, Xi : Ausgaben von Kunde i. Demnach sind die Einnahmen des Kaufhauses pro Tag gegeben durch Z= N X i=1 Xi . 16 Lemma Sei X ∼ N (0, 1). Dann gilt Damit gilt wegen Unabhängigkeit E(Z) = E(E(Z|N )) = ∞ X 1 2 pN (n)E(Z|N = n) n=1 = = ∞ X n=1 ∞ X pN (n) n X Lemma Sei X, Y unabhängig. Dann gilt E(Xi |N = n) MX+Y (t) = MX (t)MY (t). i=1 pN (n)nE(X1 ) = E(N )E(X1 ) n=1 = 8 400Euro. Proposition (Schwaches Gesetz der grossen Zahlen) Seien X1 , X2 , ... unabh. und identisch verteilte ZVen mit E[Xi ] = µ, V ar(Xi ) = σ 2 . Dann gilt für alle > 0: n n→∞ Aus diesem lemma folgt insbesondere (für µ = 0, σ = 1): n t MSn∗ (t) = M ( √ ) n wobei M die MEF von Xi bezeichnet (da die Xi identisch verteilt sind, haben diese die gleiche MEF). Grenzwertsätze lim P[| MX (t) = e 2 t . Das folgende Lemma besagt, dass aus der punktweisen Konvergenz der MEFen die punktweise Konvergenz von Verteilungsfunktionen folgt. Es ist für den Beweis des ZGWS von zentraler Bedeutung. Lemma Seinen Z1 , Z2 , ... Sven mit MEFen und Verteilungsfunktionen MZi , 1X Xi − µ| > ] = 0 n i=1 FZi . Sei Z eine ZV mit MEF und Verteilungsfunktion Man sagt, dass die Folge der empirischen Mittel in MZ , FZ . Wahrscheinlichkeit gegen ihren Erwartungswert konvergiert. Dann folgt aus Satz (Zentraler Grenzwertsatz) Seien X1 , X2 , ... unMZi (t) → M (t), abh. und identisch verteilte ZVen mit und Sn∗ := die punktweise Konvergenz der zugehörigen Verteilungsfunktionen: V ar(Xi ) = σ 2 E[Xi ] = µ, Pn FZi (t) → F (t) Xi − nµ √ . σ n i=1 für alle t ∈ R, an denen FZ stetig ist. Dann gilt für alle a ∈ R: lim P[Sn∗ ≤ a] = Φ(a) n→∞ wobei Φ die Verteilungsfunktion Verteilung bezeichnet. der N (0, 1)- Der Beweis des zentralen Grenzwertsatzes basiert auf der Methode der momentenerzeugenden Funktionen (MEF). Definition Sei X eine ZV. Die MEF von X is gegeben durch MX (t) := E[etX ] (t ∈ R). Der Begriff MEF erklärt sich aus folgender Gleichung (n) MX (0) = E[X n ] ∀t (n ∈ N).