7.5 Erwartungswert, Varianz Def. 7.5.1: a) X sei eine diskrete ZV, die bei unendl. vielen Werten x k folgende Zusatzbedingung erfüllt: ∞ P k=0 |xk | pk < ∞. Dann heißt: E(X) := n P xk pk bzw. E(X) := k=0 der Erwartungswert von X ∞ P xk pk k=0 b) Es sei X eine stetige ZV mit der Verteilungsdichte f (x), die die folgenden ZusatzbedinR∞ gungen erfüllt: −∞ |x| f (x) dx < ∞. Dann heißt E(X) := Bem.: R∞ −∞ x f (x) dx der Erwartungswert von X a) Im Folgenden seien die Zusatzbedingungen für alle behandelten ZV erfüllt. b) Es kann vorkommen, dass E(X) von der ZV X gar nicht angenommen wird. E(X) ist i.a. nicht der wahrscheinlichste Wert von X. c) E(X) ist als ”Durchschnittswert” von X zu interpretieren Satz 7.5.1: Für die Bildung des Erwartungswerts einer Funktion einer ZV gilt: E(g(X)) = n P g(xk ) pk bzw. = k=0 Def. 7.5.2: ∞ P g(xk ) pk bzw. = k=0 R∞ −∞ g(x) f (x) dx a) V (X) := E[(X − E(X))2 ] heißt Varianz von X. p b) σ(X) := + V (X) heißt Standardabweichung von X. Satz 7.5.2: a) E(a + bX) = a + b E(X) b) V (a + bX) = b2 V (X) c) V (X) = E(X 2 ) − (E(X)) 2 d) V (X) = 0 ⇐⇒ X = E(X) (fast sicher) e) Für jedes beliebige a ∈ IR gilt: V (X) ≤ E[(X − a) 2 ] Bem.: Aus c) und d) folgt: E(X 2 ) 6= (E(X)) 2 i. a. Beweis von Satz 7.5.2 (teilweise): a) X sei eine ZV, die nur die Werte 0,1,2, . . . , n annehmen kann (für andere ZV verläuft der Beweis analog): E(a + b X) = n P k=0 (a + b k)pk = a n X pk + b n X k pk = a · 1 + b E(X) k=0 k=0 | {z } | {z } =1 E(X) 50 (pk := P (X = k)) a) b) V (a + b X) = E[(a + b X − E(a + b X)) 2 ] = E[(a + b X − a − b E(X)) 2 ] a) = E[b2 (X − E(X))2 ] = b2 E[(X − E(X)) 2 ] = b2 V (X) c) V (X) := E[(X − E(X)) 2 ] = E[X 2 − 2X · E(X) + (E(X)) 2 ] a) = E(X 2 ) − 2 E(X) E(X) + (E(X)) 2 = E(X 2 ) − (E(X)) 2 h i h e) E (X − a)2 = E (X − E(X) + E(X) − a)2 h i = E (X − E(X)) 2 − 2(X − E(X)) (E(X) − a) + (E(X) − a)2 a) = V (X) − 2(E(X) − a) E(X − E(X)) + (E(X) − a)2 ≥ V (X) | 7.6 7.6.1 {z =0 } | {z ≥0 i } Spezielle Verteilungen Binomialverteilung Def. 7.6.1: Ein Zufallsexperiment habe nur zwei mögliche Ergebnisse, die wir mit ”Erfolg” oder ”Fehlschlag” bezeichnen. Die Wahrsch. für einen Erfolg sei p und für einen Fehlschlag sei q = 1 − p. Wird dieses Zufallsexperiment unter den gleichen Bedingungen n-mal wiederholt, so nennt man das ganze BernoulliExperiment. Satz 7.6.1: X sei die ZV, die die Anzahl von Erfolg bei einem Bernoulli-Experiment beschreibt. Dann besitzt X eine Binomialverteilung mit den Parametern p und n, d.h. (7.6.1) P (X = k) = n k n−k k p q (k = 0, 1, . . .) (⇒ P (X = k) = 0 für k ≥ n + 1) Satz 7.6.2: Für eine binomialverteilte ZV X mit den Parametern n und p gilt: a) E(X) = n · p b) V (X) = n · p · q (⇒ σ(X) = √ n · p · q) Anwendungsbeispiel: Lieferung von N Stück, M davon defekt (N, M keine ZV), n Ziehungen eines Stücks mit Zurücklegen. Bernoulli-Experiment: Jede Ziehung ist ein Zufallsexperiment mit der Wahrscheinlichkeit p = M/N für einen ”Erfolg”(= Ziehung eines defekten Stückes) und q := 1−p für einen ”Fehlschlag” (= Ziehung eines nicht defekten Stückes). Durch ”m. Z.” werden nach jeder Ziehung die alten Bedingungen wiederhergestellt. Die ZV ”Anzahl der Ziehungen von defekten Stücken” ist also binomialverteilt mit p = M/N und n = Anzahl der Ziehungen insgesamt. 7.6.2 Poisson-Verteilung Def. 7.6.2: Eine diskrete ZV X heißt Poisson-verteilt mit dem Parameter λ > 0, wenn gilt: k P (X = k) = e−λ λk! , k = 0, 1, 2, . . . Satz 7.6.3: Für eine Poisson-verteilte ZV mit dem Parameter λ gilt: a) E(X) = λ b) V (X) = λ (⇒ σ(X) = √ λ) 51 Satz 7.6.4: Es sei X eine binomialverteilte ZV mit den Parametern p, n. Dann gilt: k P (X = k) ≈ e−λ λk! λ = np Dabei sollten folgende Bedingungen erfüllt sein: n ≥ 50 und λ = n p ≤ 5 Bem.: Bei der Binomialverteilung sollte der Versuchsausgang mit “ Erfolg” bezeichnet werden, der die deutlich kleinere Wahrscheinlichkeit hat, insbesondere dann, wenn die Poisson–Näherung angewendet werden soll. Sind die Wahrscheinlichkeiten für beide Versuchsausgänge nahe bei 1/2, können die Bezeichnungen “Erfolg” oder “Fehlschlag” beliebig vergeben werden. 7.6.3 Normalverteilung oder Gauß-Verteilung Def. 7.6.3: a) Eine ZV heißt normalverteilt mit dem Mittelwert µ und der Varianz σ 2 (Abk. N (µ, σ)verteilt), wenn sie folgende Verteilungsdichte besitzt (exp x := e x ): f (x) := √1 2 πσ 2 exp (− 12 ( x−µ σ ) ), b) Eine ZV X mit der Verteilungsdichte ϕ(x) := standard-normalverteilt oder N (0, 1)-verteilt. Φ(x) := Rx −∞ ϕ(u) √1 2π x ∈ IR exp (− 12 x2 ) bezeichnet man als du ist die zugehörige Verteilungsfunktion. Bem.: Φ(x) ist eine höhere transzendente Fkt.. Daher sind Tabellen nötig. Skizzen: 6 1 6 1 Φ(x) ϕ(x) - Vert.dichte zur N(1.5,2)-Vert.: x 1 - x Vert.dichte zur N(3,0.5)-Vert.: 61 1 6 f(x) f(x) - x 1.5 Satz 7.6.5: Für eine N (µ, σ) - verteilte ZV X gilt: a) E(X) = µ b) V (X) = σ 2 (⇒ σ(X) = σ) 52 3 - x Satz 7.6.6: a) Für jede N (0, 1) - vert. ZV Z gilt: (−Z) ist auch N (0, 1) - vert. b) Φ(−x) = 1 − Φ(x) (Anwendung: Berechnung von Φ(x) für x < 0) c) Für eine N (µ, σ) - vert. ZV X gilt (F (x): Verteilungsfkt, f (x): Vert.dichte): i) X−µ σ ist x−µ 1 σ ϕ( σ ) a−µ P (a ≤ X ≤ b) = Φ( b−µ σ ) − Φ( σ ) P (X < a) = P (X ≤ a) = Φ( a−µ σ ), ii) F (x) = iii) iv) N (0, 1) - verteilt Φ( x−µ σ ), f (x) = P (X > a) = P (X ≥ a) = 1 − Φ( a−µ σ ) v) P (|X − µ| ≤ t · σ) = Φ(t) − Φ(−t) = 2 Φ(t) − 1 insbesondere = 0.683 für t = 1, (t ≥ 0) = 0.995 für t = 2, = 0.997 für t = 3 Beweis: Es wird ohne Beweis verwendet, dass mit X auch die ZV α X + β, normalverteilt ist. a) P (−Z ≤ x) = P (Z ≥ −x) = R∞ −x ϕ(u)du u = −z = − R −∞ x P (Z ≤ x) ϕ(−z) = ϕ(z)(geradeF kt.) a) c) dz = | {z } b) Φ(−x) = P (Z ≤ −x) = P (−Z ≥ x) = P (Z ≥ x) = 1 − P (Z < x) 1 − Φ(x) Satz 7.5.2 a) b) 1 = σ (E(X) − µ) = 0 (nach Satz 7.6.5) X−µ Satz 6.5.2 a) b) 1 V( σ ) = V (X) = 1 (nach Satz 7.6.5) σ2 Damit ist aufgrund der o. g. allgemeinen Eigenschaft X−µ σ α 6= 0, β ∈ IR, Z stet.ZV = Rx −∞ ϕ(z)d z = 1 − P (Z ≤ x) = i) E( X−µ σ ) ii) F (x) = P (X ≤ x) = P ( X −µ σ } | {z ≤ x−µ σ ) N (0, 1)-vert. = Φ( x−µ σ ) N (0,1)−vert. nach i) x−µ 1 f (x) = F 0 (x) = σ1 Φ0 ( x−µ σ ) = σ ϕ( σ ) iii) P (a ≤ X ≤ b) X stet.ZV = ii) ii) ii) a−µ P (a < X ≤ b) = F (b) − F (a) = Φ( b−µ σ ) − Φ( σ ) iv) P (X ≤ a) = F (a) = Φ( a−µ σ ), a−µ 1 − Φ( σ ) P (X ≥ a) = 1 − P (X < a) iii) X stet. ZV = 1 − P (X ≤ a) = b) v) P (|X − µ| ≤ t σ) = P (µ − t σ ≤ X ≤ µ + t σ) = Φ(t) − Φ(−t) = 2 · Φ(t) − 1 Bem.: a) Es gilt auch allgemein: E(X) = µ ∧ V (X) = σ 2 X−µ =⇒ E( X−µ V ( X−µ ist eine standardisierte ZV σ ) = 0, σ ) = 1; σ b) Die Aussage in Satz 7.6.6 c) v) gilt für allgemeine ZV höchstens näherungsweise. Eine exakte, aber z. T. wesentlich schlechtere Abschätzung liefert Satz 6.9.1 53 Satz 7.6.7: X sei eine binomialvert. ZV mit den Parametern p und n. Dann gilt für 0 ≤ k1 ≤ k2 ≤ n: P (k1 ≤ X ≤ k2 ) ≈ Φ( k√2n−np qp ) − Φ( k√1n−np qp ) (7.6.2) (vgl. Satz 7.10.1) oder mit höherer Genauigkeit, wenn k1 und k2 ganze Zahlen sind: (7.6.3) p k1 −0.5−n p √ √ P (k1 ≤ X ≤ k2 ) ≈ Φ( k2 +0.5−n n p q ) − Φ( npq ) Dabei sollten folgende Bedingungen erfüllt sein: n ≥ 50 ∧ n p ≥ 5 ∧ n q ≥ 5. Bem.: a) Unter den Voraussetzungen von Satz 7.6.7 sind auch die folgenden Wahrscheinlichkeiten mit Hilfe von (7.6.2) oder (7.6.3) zu bestimmen: P (X ≥ k0 ) = P (k0 ≤ X ≤ n), P (X ≤ k0 ) = P (0 ≤ X ≤ k0 ) (k0 = 0, 1, 2 . . . , n) b) Wird der Bereich der Argumentwerte von Φ in einer Tabelle wie etwa der ausgegebenen überschritten, so kann man z.B. folgende Eigenschaften benutzen: Für x ≥ 3.90 gilt 0 < 1 − Φ(x) < 0.5 · 10−4 und damit Φ(x) = 1.0000 auf 4 Stellen nach dem Dezimalpunkt genau, für x ≤ −3.90 gilt 0 < Φ(x) < 0.5 · 10−4 und damit Φ(x) = 0.0000 auf 4 Stellen nach dem Dezimalpunkt genau. 7.6.4 Hypergeometrische Verteilung Ausgangsproblem: Lieferung von N Stück, M davon defekt (N, M keine ZV); zufällige Auswahl einer Stichprobe von n Stücken und deren Untersuchung (o. Z. o. B. d. A.); Wahrscheinlichkeit, das m Stücke in der Stichprobe defekt sind, =?. Bem.: Dieses Verfahren ist günstiger als das Verfahren in 7.6.1. Für die ZV ”X := Anzahl der defekten Stücke in der Stichprobe” gilt: (7.6.4) P (X = m) = N −M ( n )( N −n ) (M m )( n−m ) = m NM −m N (n) (M ) Def. 7.6.4: Die in (7.6.4) beschriebene Verteilung heißt hypergeometrische Verteilung mit den Parametern N, M, n. Bedingungen: N, M, n, m ∈ Z, 0 ≤ n ≤ N, 0 ≤ m ≤ M ≤ N, 0 ≤ n−m ≤ N −M (⇒ m ≤ n) Herleitung von Formel (7.6.4): Nach Satz 7.2.3 a) haben alle Kombinationen o. Z. o. B. d. N A. von n aus N Stücken die Wahrscheinlichkeit 1/ n . Das Ereignis ”X = m” erfasst dann alle Kombinationen, bei denen genau m defekte und damit (n − m) nicht defekte Stücke ausgewählt werden. Die Anzahl der Möglichkeiten, m defekte Stücke für die Stichprobe aus M defekten , da dabei wie oben nach der Vorschrift ”o. Z. Stücken der Lieferungen auszuwählen, beträgt M m o. B. d. A.” vorgegangen wird. Bei jeder solchen Auswahl muss dann die Stichprobe mit (n − m) −M aus den (N − M ) nicht defekten Stücken der Lieferung aufgefüllt werden. Dafür gibt es Nn−m 54 Möglichkeiten, und zwar bei jeder Auswahl vom m defekten Stücken. Damit gibt es insgesamt M N −M Möglichkeiten für die Auswahl (o. Z. o. B. d. A.) von m defekten und (n − m) nicht m n−m defekten Stücken. Dies ist also die Anzahl der Kombinationen o. Z. o. B. d. A., die von dem für jede dieser Ergebnis ”X = m” erfasst werden, die dann nur mit der Wahrscheinlichkeit 1/ N n Kombinationen multipliziert zu werden braucht. Bem.: Eine ähnlich Herleitung für der Bin.-Vert. ist nicht möglich (vgl. Satz 7.2.3 b)) Satz 7.6.8: Es sei X eine hypergeometrisch vert. ZV mit den Parametern N, M, n und Y eine binomialverteilte ZV mit den Parametern p = M N und n. Dann gilt: P (X = m) ≈ P (Y = m) = n m m p (1 − p)n−m n Dabei sollten folgende Bedingungen erfüllt sein: N ≥ 1000 ∧ N ≤ 0.1. Zur Näherung der Binominalverteilung vgl. die Sätze 7.6.4/7 Satz 7.6.9 Für die ZV X aus Satz 7.6.8 gilt: E(X) = n M N, 7.7 N −M N −n V (X) = n M N N N −1 Gemeinsame Verteilung mehrerer Zufallvariabler Def. 7.7.1: Es seien X1 , X2 , . . . , Xn beliebige ZV. Dann heißt: F (x1 , x2 , . . . , xn ) := P (X1 ≤ x1 ∧ X2 ≤ x2 ∧ . . . ∧ Xn ≤ xn ) die gemeinsame Verteilungsfunktion der ZV X 1 , X2 , . . . , Xn . Sie ist eine mögliche Beschreibung der gemeinsamen Verteilung der ZV. Def. 7.7.2: X sei eine diskrete ZV, die die Werte x 0 < x1 < . . . , < xn annehmen kann und Y eine diskrete ZV, die die Werte y0 < y1 < . . . < ym annehmen kann. Dann beschreiben die Wahrscheinlichkeiten pi,j := P (X = xi ∧ Y = yi ) ebenfalls die gemeinsame Verteilung von X und Y . Satz 7.7.1: Für die Werte pi,j aus Def. 7.7.2 gilt: a) 0 ≤ pi,j ≤ 1 für i = 0, 1, . . . , n; j = 0, 1, . . . , m b) P (X = xi ) = m P pi,j =: pi,∗ , P (y = yj ) = n P i=0 j=0 pi,j =: p∗,j Diese Größen beschreiben die Randverteilungen. Für diese Randverteilungen gilt: n P pi,∗ = 1 i=0 ∧ Schema: n P j=0 p∗,j = 1 ↓ X| Y → x0 x1 .. . y0 p0,0 p1,0 .. . y1 p0,1 p1,1 .. . y2 p0,2 p1,2 .. . ... ... ... ym p0,m p1,m .. . xn pn,0 p∗,0 pn,1 p∗,1 pn,2 p∗,2 ... ... pn,m p∗,m p0,∗ p1,∗ .. . pn,∗ 1 Def. 7.7.3: F (x1 , x2 , . . . , xn ) sei die gemeinsame Verteilungsfunktion der ZV X 1 , X2 , . . . , Xn und Fi (xi ) seien die Verteilungsfunktionen der einzelnen ZV X i . Dann heißen X1 , X2 , . . . , Xn 55 (stochastisch) unabhängig, wenn für alle x1 , x2 , . . . , xn ∈ IR gilt: (7.7.1) F (x1 , x2 , . . . , xn ) = F (x1 ) · F (x2 ) · · · F (xn ) Bem.: Diese Def. ist konsistent mit der Def. 7.3.4 b) (Unabhängigkeit von n Ereignissen) Satz 7.7.2: Zwei diskrete ZV X, Y (aus Def. 7.7.2) sind genau dann unabhängig, wenn für alle i = 0, 1, . . . , n und j = 0, 1, . . . , m gilt: P (X = xi ∧ Y = yj ) = P (X = xi ) · P (Y = yj ) d.h. pi,j = pi,∗ · p∗,j 7.8 Kovarianz und Korrelation (7.8.1) (Def. vgl. Satz 7.7.1) E(X + Y ) = E(X) + E(Y ) Satz 7.8.1: V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y ) Cov(X, Y ) := E(X · Y ) − E(X) · E(Y ) heißt die Kovarianz von X und Y . Satz 7.8.2: Für X, Y aus Def. 7.7.2 gilt: E(X · Y ) = Satz 7.8.3: X, Y unabhängig ⇒ 6 ⇐ n P m P ( xi yi pi,j ) i=0 j=0 Cov(X, Y ) = 0 ZV X, Y mit Cov(X, Y )=0 heißen unkorreliert Satz 7.8.4: Die ZV X1 , X2 , . . . , Xn sollen alle den gleichen Erwartungswert µ und die gleiche Varianz σ 2 besitzen. Dann gilt: a) E(X1 + X2 + . . . + Xn ) = n · µ b) Im Fall der Unabhängigkeit der ZV: V (X1 + X2 + . . . + Xn ) = n · σ 2 Def. 7.8.1: Es seien X und Y zwei beliebige ZV mit V (X), V (Y ) > 0. Dann heißt √ ) %(X, Y ) := √ Cov(X,Y V (X) V (Y ) der Korrelationskoeffizient von X und Y . Satz 7.8.5: X, Y seien ZV aus Def. 7.8.1. Dann gilt: a) |%(X, Y )| ≤ 1, dabei nennt man X und Y unkorreliert, positiv korreliert, negativ korreliert, falls %(X, Y ) = 0 ist, (vgl. o.) falls %(X, Y ) > 0 ist, falls %(X, Y ) < 0 ist b) %(X, Y ) = +1 (bzw. -1) ⇐⇒ Y = a + bX (fast sicher) für geeignete Konstante a ∈ IR und b > 0 (bzw. b < 0) Fasst man die Messwertpaare (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) als Realisation von einem Paar (X, Y ) von ZV auf, so ist (vergl. (6.1.6)) b1 · b 2 = (xy − x · y)2 , (x2 − x2 )(y 2 − y 2 ) 56 wobei b1 (b2 ) die Steigung der ersten (zweiten) Regressionsgerade ist, ein Schätzwert für (%(X, Y ))2 . Damit wäre folgender Ausdruck ein Schätzwert für %(X, Y ): %̂ = √ (7.8.2) xy−x·y √ x2 −x2 y 2 −y 2 Es gilt also: Beide Regressionsgeraden sind gleich ⇔ b 2 = 1/b1 ⇔ |%̂| = 1. Außerdem gilt analog zu Satz 7.8.5b) nach (6.1.6): (7.8.3) |%̂| = 1 ⇔ b1 · b2 = 1 ⇔ Alle Punkte (xi , yi ) liegen (exakt) auf einer Geraden. Allgemein gilt: (7.8.4) |%̂| ≤ 1. Zur Bedeutung von %: q x2 − x2 xy − x · y q = %̂ = q · = b1 · q x2 − x 2 y2 − y2 x2 − x 2 y 2 − y 2 xy − x · y Ist also s V ar(xi ) V ar(yi ) Cov(X, Y ) %(X, Y ) := > 0 (< 0), σ(X) · σ(Y ) so sind bei größeren Meßergebnissen xi bei der Meßgröße X entsprechend größere (kleinere) Meßergebnisse yi bei der Meßgröße Y zu erwarten, und zwar umso stärker, je größer |%| ist. 7.9 Gesetz der großen Zahl Def. 7.9.1: Eine unendliche Folge von ZV X 1 , X2 , . . . , heißen eine Folge unabhängiger ZV, wenn je endlich viele der ZV unabhängig sind. Satz 7.9.1 (Tschebyscheff-Ungleichung): P (|X − E(X)| ≥ t σ(X)) ≤ 1 t2 Satz 7.9.2 (Folgerung): Unter den Voraussetzungen von Satz 7.8.4 b) gilt: P (| X1 +X2n+...+Xn − µ| ≥ α) ≤ σ2 α2 n (n ∈ IN, α > 0) Satz 7.9.3 (Starkes Gesetz der großen Zahl): a) Es sei X1 , X2 , . . . eine Folge unabhängiger ZV, die alle die gleiche Verteilung, den gleichen Erwartungswert µ und die gleiche Varianz σ 2 besitzen. Dann gilt: X1 +X2 +...+Xn n → µ für n → ∞ (fast sicher) b) A ⊂ Ω sei ein Ereignis bei einem Zufallsexperiment, das beliebig oft wiederholt wird, und P (A) sei eine Wahrscheinlichkeit. Dann gilt für die rel. Häufigkeiten (vgl. Def. 7.2.6) hn (A) → P (A) für n → ∞ (fast sicher) 7.10 Zentraler Grenzwertsatz Satz 7.10.1: Unter den Voraussetzungen von Satz 7.9.3 a) gilt: P (a ≤ X1 + X 2 + . . . + X n − n · µ √ ≤ b) → Φ(b) − Φ(a) für n → ∞, d.h. nσ 57 ≈ Φ(b) − Φ(a) für ”große” n Bem. : Häufige Anwendung von Satz 7.10.1: Annahme, dass eine unbekannte Verteilung durch eine Normalverteilung angenähert werden kann. Diese Anmahme ist nicht immer gerechtfertigt. 58