WR 1 W. Merz Kapitel 14 Die Normalverteilung Vorlesung Wahrscheinlichkeitsrechnung I vom 17/18. Juni 2009 W. Merz Lehrstuhl für Angewandte Mathematik 1 FAU 14.1 Die standardisierte Normalverteilung WR 1 W. Merz Definition Die eindimensionale Verteilung P0 mit der Dichte t2 1 ϕ(t) = √ e− 2 2π heißt die standardisierte Normalverteilung oder N (0, 1)-Verteilung. Mittelwert m1 (P0 ) = R tϕ(t)dt = 0 Varianz m̂2 (P0 ) = m2 (P0 ) = R t 2 ϕ(t)dt = 1 Bezeichnung Eine N (0, 1)-verteilte Zufallsvariable heißt eine Gaußsche Einheitsvariable 14.2 WR 1 Lineare Transformation W. Merz P X sei die Verteilung der Zufallsvariablen X (t) = σt + µ mit σ 6= 0 auf dem Wahrscheinlichkeitsraum (R, B, P0 ) mit der N (0, 1)-Verteilung P0 . X (R, B, P0 ) −→ (R, B, P X ) Mittelwert von P X Z Z m1 (P X ) = EX = X (t)P0 (dt) = (σt + µ)ϕ(t)dt Z Z = σ tϕ(t)dt + µ ϕ(t)dt = σ · m1 (P0 ) + µ · 1 = µ 14.3 WR 1 Lineare Transformation W. Merz X X (R, B, P0 ) −→ (R, B, P ) Varianz von P X m̂2 (P X ) = var(X ) = E(X − EX )2 Z 2 = E(X − µ) = (X (t) − µ)2 P0 (dt) Z Z = (σt + µ − µ)2 ϕ(t)dt = σ 2 t 2 ϕ(t)dt = σ 2 · m̂2 (P0 ) = σ 2 14.4 WR 1 Lineare Transformation W. Merz Dichte von P X : Nach dem Transformationssatz besitzt ein Zufallsvektor G(x) = Ax + b die Dichte g(y ) = 1 f A−1 (y − b) | det(A)| Spezialfall der Dimension 1: X (t) = At + b mit A = (σ) und b = (µ), also det(A) = σ, A−1 = ( σ1 ) P X besitzt die Dichte 2 1 1 1 1 f (x) = ϕ (x − µ) = √ e− 2σ2 (x−µ) |σ| σ 2πσ 2 14.5 WR 1 Die eindimensionale Normalverteilung W. Merz Definition Die eindimensionale Verteilung mit der Dichte f (x) = √ 1 2πσ 2 1 e− 2σ2 (x−µ) 2 heißt die Normalverteilung mit Mittelwert µ und Varianz σ 2 oder kurz N (µ, σ 2 )-Verteilung. 14.6 Normalverteilte Zufallsvariable WR 1 W. Merz Theorem Ist X eine N (µ, σ 2 )-verteilte Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P), so ist 1 E = √ (X − µ) σ2 eine Gaußsche Einheitsvariable. 14.7 WR 1 Normierte Zufallsvariable W. Merz Generell gilt: Theorem Ist X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P) und 1 Y =p (X − EX ) var(X ) so gilt EY = 0 und var(Y ) = 1. Beweis. EY = E = 1 p var(X ) ! (X − EX ) 1 =p E(X − EX ) var(X ) 1 p (EX − EX ) = 0 var(X ) 14.8 WR 1 Normierte Zufallsvariable W. Merz Beweis. var(Y ) = ! p (X − EX ) var(X ) !2 1 p var(X − EX ) var(X ) = var = 1 1 var(X ) = 1 var(X ) 14.9 WR 1 Beweis des Theorems W. Merz X (Ω, A, P) - (R, B, P X ) HH HH H HH E =G◦X G H HH j H ? (R, B, P E ) y = G(x) = √1 (x σ2 − µ) = Ax + b mit A = ( √1 2 ) und b = (− √µ 2 ). σ ∗ G :y = √1 (x σ2 σ − µ) ⇒ x= √ σ2 y + µ 14.10 Beweis des Theorems √ 1 x = σ 2 y + µ, det(A) = ( √ ) σ2 WR 1 W. Merz Nach dem Transformationssatz besitzt P E = P G die Dichte g(y ) √ √ 1 f A−1 (y − b) = σ 2 f ( σ 2 y + µ) | det(A)| √ √ 2 1 2 1 2 1 1 = σ2 √ e− 2σ2 ( σ y +µ−µ) = √ e− 2 y 2 2π 2πσ = D.h. E ist eine Gaußsche Einheitsvariable. Folgerung Zu jeder N (µ, σ 2 )-verteilten Zufallsvariablen X gibt es eine √ Gaußsche Einheitsvariable E mit X = σ 2 E + µ 14.11 WR 1 Der Zentrale Grenzwertsatz W. Merz Unter welchen Voraussetzungen kann in der Praxis angenommen werden, dass eine Zufallsvariable zumindest näherungsweise normalverteilt ist? Definition Y1 , Y2 , Y3 , . . . sei eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P) mit Verteilungen P Yn und Verteilungsfunktionen Fn (t) = P Yn (−∞, t] = P(Yn ≤ t) Konvergieren diese Verteilungsfunktionen für alle Argumente t gegen die Verteilungsfunktion der N (0, 1)-Verteilung: limn→∞ Fn (t) = Φ(t) = √1 2π Rt s2 e− 2 ds −∞ so sagt man, dass für die Folge dieser Zufallsvariablen der Zentrale Grenzwertsatz (ZGS) gilt. Verteilungskonvergenz: Nicht die Zufallsvariablen, sondern ihre Verteilungen konvergieren. Für „große“ n kann man annehmen, dass Yn näherungsweise normalverteilt ist. 14.12 Normierte Partialsummen WR 1 W. Merz Für welche Folgen von Zufallsvariablen gilt der Zentrale Grenzwertsatz? Klassischer Fall: Normierte Partialsummen. X1 , X2 , X3 , . . . stochastisch unabhängige Zufallsvariable, die alle die gleiche Verteilung besitzen. EXk = µ und var(Xk ) = σ 2 für alle k . Die Partialsummen: Sn = X1 + X2 + · · · + Xn besitzen die Erwartungswerte µn = ESn = nµ und die Varianzen σn2 = var(Sn ) = nσ 2 . Für die Folge der normierten Partialsummen 1 1 (Sn − nµ) Sn∗ = p (Sn − µn ) = √ 2 σn nσ 2 gilt der Zentrale Grenzwertsatz. 14.13 WR 1 Der Grenzwertsatz von Moivre und Laplace W. Merz Berechnung von Wahrscheinlichkeiten bei der Binomialverteilung. X1 , X2 , . . . seien stochastisch unabhängige Zufallsvariable, die nur die Werte 0 und 1 mit P(Xk = 1) = p und P(Xk = 0) = 1 − p annehmen. Dann ist Sn = X1 + X2 + . . . + Xn binomialverteilt: P(Sn = k ) = m X n k n k p (1−p)n−k , P(Sn ≤ m) = p (1−p)n−k k k k =0 Wegen ESn = np und var(Sn ) = np(1 − p) ist 1 (Sn − np) Sn∗ = p np(1 − p) und m − np Sn ≤ m ⇔ Sn∗ ≤ p np(1 − p) 14.14 WR 1 Der Grenzwertsatz von Moivre und Laplace W. Merz Für „genügend große“ n gilt daher m X n k =0 k pk (1 − p)n−k = P(Sn ≤ m) = P ≈ Φ Sn∗ ≤ p m − np ! np(1 − p) ! m − np p np(1 − p) Statistische Faustregel: Gute Approximation für np(1 − p) ≥ 9 14.15 Der Grenzwertsatz von Moivre und Laplace WR 1 W. Merz Exercise Bei einer Prüfung werden vierzig Fragen gestellt, die nur mit „ja“ oder „nein“ zu beantworten sind. Die Prüfung ist bestanden, wenn mehr als dreißig Fragen richtig beantwortet werden. Wie groß ist die Wahrscheinlichkeit, dass man diese Prüfung nur durch Raten der richtigen Antworten besteht? Raten bedeutet, dass man eine Frage mit Wahrscheinlichkeit p = 1/2 richtig beantwortet. Die Anzahl Sn der richtig beantworteten Fragen ist dann binomialverteilt mit Parametern n = 40 und p = 1/2. Wegen np(1 − p) = 10 kann man den Grenzwertsatz von Moivre und Laplace verwenden. P(Sn > 30) 30 − 1/2 40 √ = 1 − P(Sn ≤ 30) = 1 − P Sn∗ ≤ 10 √ 10 ≈ 1−Φ √ = 1 − Φ( 10) ≈ 0.0008 10 14.16 Die n-dimensionale Normalverteilung WR 1 W. Merz Die Verteilung eines Zufallsvektors E = (E1 , E2 , . . . , En ) mit stochastisch unabhängigen N (0, 1)-verteilten Komponenten besitzt die Dichte ϕn (y1 , y2 , . . . , yn ) = ϕ(y1 )ϕ(y2 ) · · · ϕ(yn ) n 2 2 2 1 1 √ e− 2 (y1 +y2 +···+yn ) = 2π Definition Die n-dimensionale Verteilung Pn mit dieser Dichte heißt die n-dimensionale standardisierte Normalverteilung Bezeichnung Ein Zufallsvektor E mit dieser Verteilung heißt ein Gaußscher Einheitsvektor. 14.17 Vektorschreibweise x = WR 1 W. Merz x1 x2 .. . x > = (x1 , x2 , . . . , xn ) xn Skalarprodukt: x > y = x1 y1 + x2 y2 + · · · + xn yn q √ Euklidische Norm: kxk = x > x = x12 + x22 + · · · + xn2 Dichte: ϕn (y ) = √1 2π n 1 e− 2 y > y = √1 2π n 1 e− 2 ky k 2 14.18 WR 1 Affin lineare Transformationen W. Merz Bestimmung der Verteilung des Zufallvektors X (y ) = Ay + b auf dem Wahrscheinlichkeitsraum (Rn , Bn , Pn ). X1 (y ) X2 (y ) .. . Xn (y ) = a11 a21 .. . a12 a22 .. . an1 an2 . . . a1n . . . a2n .. .. . . . . . ann y1 y2 .. . + yn b1 b2 .. . bn Ist die Matrix A nichtsingulär, so besitzt gemäß Transformationssatz die Verteilung von X die Dichte f (x) = 1 ϕn A−1 (x − b) | det(A)| 14.19 Affin lineare Transformationen WR 1 W. Merz 1 f (x) = ϕn A−1 (x − b) | det(A)| Mit der Transponierten A> der Matrix A ist p p p | det A| = pdet(A)2 = det(A) det(A) = det(A) det(A> ) p = det(AA> ) =: det(C) Aus den Rechenregeln für Matrizen folgt weiter ||A−1 (x − b)||2 > −1 A−1 (x − b) A (x − b) > −1 = (x − b)> A−1 A (x − b) −1 = (x − b)> A> A−1 (x − b) −1 = (x − b)> AA> (x − b) = = (x − b)> C −1 (x − b) 14.20 WR 1 Die n-dimensionale Normalverteilung W. Merz Dichte von P X : f (x) = 1 √ 2π n 1 p det(C) 1 e− 2 (x−b) > C −1 (x−b) Theorem Ist C eine symmetrische und positiv definite n × n-Matrix und b ein n-dimensionaler reeller Spaltenvektor, so ist die Funktion f (x) eine Wahrscheinlichkeitsdichte. Definition Die Verteilung mit der Dichte f (x) heißt die n-dimensionale Normalverteilung mit Parametern b und C oder kurz N (b, C)-Verteilung. 14.21 WR 1 Beweis des Satzes W. Merz Für Matrizen von der Form C = AA> mit einer nichtsingulären n × n-Matrix A wurde die Behauptung dadurch bewiesen, dass f (x) die Dichte der Verteilung des Zufallsvektors X (y ) = Ay + b ist. Man muss sich also nur noch überlegen, dass jede symmetrische und positiv definite Matrix C eine Zerlegung der Form AA> besitzt. C besitzt n positive reelle Eigenwerte λ1 , λ2 , . . . , λn mit zugehörigen orthonormierten Eigenvektoren u1 , u2 , . . . , un : Cuk = λk uk 14.22 WR 1 Beweis des Satzes W. Merz Zusammenfassen der Eigenwertgleichungen: λ1 0 0 λ2 C(u1 , u2 , . . . , un ) = (u1 , u2 , . . . , un ) . .. .. . 0 0 ... ... .. . 0 0 .. . ... λn ⇐⇒: CU = UΛ 14.23 WR 1 Beweis des Satzes W. Merz CU = UΛ U ist eine Orthogonalmatrix: UU > = I 1 1 1 1 C = UΛU > = (UΛ 2 )(Λ 2 U > ) = (UΛ 2 )(UΛ 2 )> =: AA> mit der Diagonalmatrix √ 1 Λ2 = λ1 0 .. . √0 λ2 .. . 0 0 0 0 .. √. λn ... ... ... .. . 14.24 Normalverteilte Zufallsvektoren WR 1 W. Merz Theorem Ist X ein n-dimensionaler N (b, C)-verteilter Zufallsvektor, so besitzt X eine Darstellung der Form X = AE + b mit einer nichtsingulären Matrix A und einem Gaußschen Einheitsvektor E. Beweis: Sei A die Matrix aus der Zerlegung C = AA> und H(x) = A−1 (x − b). 1. Für E(ω) := H(X (ω)) = A−1 (X (ω) − b) ist dann X (ω) = AE(ω) + b Jetzt ist nur noch nachzurechnen, dass E(ω) ein gaussischer Einheitsvektor ist. 14.25 WR 1 Beweis W. Merz X (Ω, A, P) - (Rn , Bn , P X ) H HH H HH E =H ◦X H H(x) = A−1 (x − b) HH HH j ? n (R , Bn , P E = P H ) Die affin lineare Abbildung y = H(x) = A−1 (x − b) besitzt die Funktionaldeterminante JH (x) = det(A−1 ) und die Umkehrabbildung x = H ∗ (y ) = Ay + b. 14.26 WR 1 Beweis W. Merz 3. Verteilung von H: H(x) = A−1 (x − b) besitzt die Umkehrabbildung H ∗ (y ) = Ay + b und |JH (x)| = | det(A−1 )| = 1 | det A| = √ 1 det C Dichte nach Transformationssatz: g(y ) 1 = f H ∗ (y ) · JH H ∗ (y ) n > √ 1 1 − 21 H ∗ (y )−b C −1 H ∗ (y )−b √ √ e = · det C 2π det C n n > −1 > −1 1 1 > 1 1 √ = e− 2 (Ay ) C (Ay ) = √ e− 2 y (A C A)y 2π 2π 14.27 WR 1 Beweis g(y ) = 1 √ 2π n 1 e− 2 y > (A> C −1 A)y W. Merz A> C −1 A = A> (AA> )−1 A = A> (A> )−1 A−1 A = I ergibt g(y ) = 1 √ 2π n 1 e− 2 y > y = ϕn (y ) 14.28 WR 1 Bedeutung von b und C W. Merz Xi = Pn k =1 aik Ek + bi EEi = m1 (N (0, 1)) = 0 EXi = Pn k =1 aik EEk + bi = bi (EX )> := (EX1 , EX2 , . . . , EXn ) = b> var(Ei ) = E(Ei − EEi )2 = E(Ei2 ) = m̂2 (N (0, 1)) = 1 Für i 6= k sind Ei und Ek stochastisch unabhängig: cov(Ei , Ek ) = E(Ei − EEi )(Ek − EEk ) = E(Ei Ek ) = 0 14.29 WR 1 Bedeutung von b und C cov(Xi , Xj ) W. Merz = E(Xi − EXi )(Xj − EXj ) = E n X ! aik Ek + bi − bi k =1 = = = n X n X ! ajl El + bj − bj l=1 aik ajl E(Ek El ) k =1 l=1 n X n X X k =1 k =1 l6=k aik ajk E(Ek2 ) + n X n X aik ajl E(Ek El ) aik ajk k =1 14.30 Bedeutung von b und C Pn cov(Xi , Xj ) = k =1 aik ajk ist das Skalarprodukt der i-ten und der j-ten Zeile der Matrix A, WR 1 W. Merz also das Element cij der Matrix C = AA> Theorem Ist X ein N (b, C)-verteilter Zufallsvektor, so ist b = EX der Erwartungswert und C = CX die Kovarianzmatrix dieses Zufallsvektors. 14.31 WR 1 Stochastische Unabhängigkeit 2 σ1 0 0 σ2 2 C= . .. .. . 0 W. Merz 0 (x − b)> C −1 (x − b) = ... ... .. . 0 0 .. . ... σn2 n X 1 (xk − bk )2 2 σ k =1 k n q Y p det(C) = σk2 k =1 14.32 Stochastische Unabhängigkeit n > −1 1 1 1 √ p f (x1 , x2 , . . . , xn ) = e− 2 (x−b) C (x−b) det(C) 2π = f1 (x1 )f2 (x2 ) · · · fn (xn ) WR 1 W. Merz mit fk (t) = − √ 1 2e 2πσk (t−bk )2 2σ 2 k Die Komponenten eines N (b, C)-verteilten Zufallsvektors sind genau dann stochastisch unabhängig, wenn C eine Diagonalmatrix ist. 14.33 Stochastische Unabhängigkeit WR 1 W. Merz Theorem Ist X ein normalverteilter Zufallsvektor, so sind seine Komponenten genau dann stochastisch unabhängig, wenn je zwei verschiedene Komponenten Kovarianz Null besitzen. Dies gilt nur bei der Normalverteilung! 14.34 Funktionen von Zufallsvariablen WR 1 W. Merz Theorem Ist X ein n-dimensionaler N (b, C)-verteilter Zufallsvektor mit den Komponenten X1 , X2 , . . . , Xn , so ist die Zufallsvariable Y = a1 X1 + a2 X2 + · · · + an Xn + c = a> X + c normalverteilt mit Mittelwert µ= n X ai bi + c = a> b + c i=1 und Varianz σ2 = n X n X ai cik ak = a> Ca i=1 k =1 14.35 WR 1 Funktionen von Zufallsvariablen W. Merz Hilfssatz Ist E ein n-dimensionaler Gaußscher Einheitsvektor und U eine n × n-Orthogonalmatrix, so ist H = UE ebenfalls ein Gaußscher Einheitsvektor. Beweis: E (Ω, A, P) - (Rn , Bn , P E ) HH HH H H HH X (y ) = Uy H HH j H ? (Rn , Bn , ·) 14.36 WR 1 Funktionen von Zufallsvariablen W. Merz Beweis: H besitzt die gleiche Verteilung wie X (y ) = Uy + 0. Da P E die standardisierte Normalverteilung ist, ist X normalverteilt mit b = 0, C = UU > = I und det(C) = 1. Dichte: f (x) = 1 √ 2π n 1 e− 2 x > x = ϕn (x) 14.37 WR 1 Beweis des Theorems W. Merz 1. Mit der Darstellung X = AE + b ist Y von der Form Y kαk = q = a> (AE + b) + c = (a> A)E + (a> b + c) =: α> E + µ = α1 E1 + α2 E2 + . . . + αn En + µ α12 + α22 + . . . + αn2 und u1k := αk kαk Y = kαk(u11 E1 + u12 E2 + . . . + u1n En ) + µ 14.38 WR 1 Beweis des Theorems 2. n X k =1 2 u1k = W. Merz n 1 X 2 αk = 1 kαk2 k =1 (u11 , . . . , u1n ) ist Vektor mit Norm 1. Ergänzung zu Ortogonalmatrix u11 . . . u1n u21 . . . u2n U= . .. .. . un1 . . . unn und nach Hilfsatz 14.39 Beweis des Theorems WR 1 W. Merz H1 H2 .. . Hn =U E1 E2 .. . En ist ein Gaußscher Einheitsvektor und speziell H1 (d.h. obige Ergänzung wieder verwerfen) eine N (0, 1)-verteilte Zufallsvariable. 3. Y = kαk H1 + µ =: σ H1 + µ µ = a> b + c σ 2 = kαk2 = ka> Ak2 = a> AA> a = a> Ca. 14.40 WR 1 Beweis des Satzes W. Merz H1 (Ω, A, P) - (R, B, P0 ) HH HH Y H HH Z (s) = σs + µ H HH j H ? (R, B, . ) Y ist N (µ, σ 2 )-verteilt. 14.41