– 89 – Kapitel 5 : Etwas Wahrscheinlichkeitstheorie §1 Intuitiver Zugang (Nach einer Vorlesungsausarbeitung von Prof. Dr. R. Höpfner) 1.1 Man fasse die Natur, die technische Versuchsanordnung, u.s.w. . . . als „black box“ auf, d.h. als „ Maschine P “ (probability: Wahrscheinlichkeit), P X die auf „Knopfdruck“ j eine „zufällige Zahl“ xj produziert, j = 1, 2, 3, . . . Dabei werden folgende zwei Regeln befolgt: i) Für jedes j gehorcht die Zufallsvariable Xj (produzierter Wert: xj) demselben Gesetz F : P(Xj ≤ t) = F(t), für alle t ∈ IR . F(t) ist die Verteilungsfunktion der Zufallsvariablen Xj, j = 1, 2, 3, . . . ii) Die Zufallsvariablen Xj, j = 1, 2, 3, . . ., sind unabhängig voneinander, d.h. P( X j ≤ t j , X j ≤ t j , . . . , X j ≤ t j ) = F( t j )⋅⋅ F( t j )⋅⋅ . . . ⋅ F( t j ) 1 1 2 2 l l 1 2 l Verbal bedeutet dies: Das Ergebnis xj aus Knopfdruck j beeinflußt nicht und wird nicht beeinflußt vom Ergebnis xj´ aus Knopfdruck j´ für j ≠ j´. Für Maschine P gilt „auf lange Sicht“, d.h. für eine große Anzahl j = 1, 2, 3, . . ., n von Knopfdrücken: – 90 – Durch die von der Maschine P produzierten Zufallszahlen x1, x2, x3, . . ., xn zeigt sich das Gesetz F 1) immer deutlicher für n → ∞ 2) nie vollständig, auch nicht für sehr große n < ∞. (Siehe hierzu auch §4.) Bemerkung 1.2: X1, X2, X3, . . . nennt man „eine Folge von iid Zufallsvariablen“. iid = independent and identically distributed , d.h. diese Zufallsvariablen sind unabhängig voneinander und haben alle dieselbe Verteilung. F(t) ist die Verteilungsfunktion der Zufallsvariablen Xj und P ist das Symbol für „Wahrscheinlichkeit“. Wir schreiben Xj =d F, falls Xj nach F verteilt ist, und X =d Y, falls X und Y dieselbe Verteilung haben. § 2 Wichtige stetige Verteilungen Definition 2.1: Verteilungen mit Dichte sind solche der Art t F(t) = ∫ f (x )dx , t ∈ IR , −∞ ∞ wobei f(x) („Dichte“) eine nichtnegative Funktion mit ∫ f (x )dx −∞ ∞ (da F(∞) = ∫ f (x )dx −∞ = P(X < ∞) = 1). = 1 ist, – 91 – Insbesondere gilt: P(a ≤ X ≤ b) = = F(b) – F(a). Definition 2.2 : Für eine Zufallsvariable X mit Dichte f(x) heißt a) E(X) : = ∙ (falls das uneigentliche Integral existiert) Erwartungswert von X . Man kann ihn als einen Mittelwert von X verstehen. b) Var(X) = σ 2X : = E((X – E(X))2) = E(X2) – (E(X))2. *) Varianz von X (falls E(X2) < ∞ und deshalb E(X) existiert), wobei E(X2) = ∙ . σX : = σ 2X = Var(X) ist die Standardabweichung von X . Sie ist ein Maß dafür, wie weit die Werte von X um E(X) streuen. 2.3 Eigenschaften des Erwartungswertes : X, Y seien reelle Zufallsvariable und a, b ∈ IR . g und h seien reelle Funktionen auf IR . (i) X ≡ a ⇒ E(X) = a. (ii) E(aX + bY) = aE(X) + bE(Y) – 92 – (iii) X ≥ 0 ⇒ E(X) ≥ 0 (iv) E(g(X)) = , soweit dieses Integral existiert. (v) g(x) ≤ h(x) , x ∈ IR , ⇒ E(g(X)) ≤ E(h(X)) Insbesondere: |E(X)| ≤ E(|X|). (vi) Falls X und Y unabhängig sind und E(X) und E(Y) existieren, dann gilt : E(XY) = E(X)·E(Y). *) E((X – E(X))2) = E(X2) – 2E(X)·E(X) + (E(X))2 = E(X2) – (E(X))2 2.4 Eigenschaften der Varianz : X, Y seien reelle Zufallsvariable und a, b ∈ IR . (i) Var(X) = E((X – E(X))2) ⇒ Var(X) ≥ 0. (ii) Var(X) = 0 ⇔ P(X = a) = 1 für ein geeignetes a (= E(X)) ∈ IR . (iii) Var(aX) = a2Var(X) ⇒ σaX = |a|σX . (iv) Var(X + b) = Var(X). (v) Var(X) = E(X2) – (E(X))2. (vi) X, Y unabhängig ⇒ Var(X + Y) = Var(X) + Var(Y). **) **) Var(X + Y) = E((X+Y)2) – (E(X+Y))2 = E(X2) + 2E(XY) + E(Y2) – – E(X)2 – 2E(X)·E(Y) – E(Y)2 = Var(X) + Var(Y) + + 2E(X)·E(Y) – 2E(X)·E(Y) = Var(X) + Var(Y) Beispiele 2.5 : a) U(a, b) : Die Gleichverteilung auf dem Intervall [a, b], a < b. 0 für x<a 1 f(x) = für a ≤ x ≤ b b − a für x>b 0 0 t−a F(t) = b − a 1 für t<a für a ≤ t ≤ b für t>b – 93 – U(a, b) beschreibt das „zufällige Auswählen eines Punktes x aus [a, b] ohne jede Präferenz“. X =d U(a, b) ⇒ E(X) = b 1 (b − a ) 2 b+a x dx . = ; Var(X) = b − a a∫ 2 12 b) N(0, 1) auf IR : Die Standardnormalverteilung. = √ =: , x ∈ IR , Zu zeigen ist, daß = √ √ = = Φ, t ∈ IR . = 1, d.h. daß I: = = √2 . – 94 – Wir zeigen, daß I2 = 2. 2 I = ∙ ! " = !. Das Doppelintegral kann als Volumen eines hutförmigen Körpers über der x-y- Ebene gedeutet werden. Die Funktion z = " ist konstant auf konzentrischen Kreisen mit Radius r = # $ ! um den Ursprung (0,0), d.h. z = oder r = #2ln 1/(.. Da der Flächeninhalt dieser konzentrischen Kreise r2 = 2 )*1/( ist, ergibt sich für das gesuchte Volumen I2 = 2 + )*1/( ( = 2. N(0, 1) beschreibt die „typische Verteilung“ eines kleinen Meßfehlers um eine zu messende physikalische Größe. X =d N(0, 1) ⇒ E(X) = ∞ 1 2π ∫x e −∞ 2 − x2 dx = 0 ; Var(X) = 1. – 95 – c) N(µ, σ2) auf IR : Die Normalverteilung mit Parametern µ und σ2, 2 µ ∈ IR . und σ > 0. = √, -. / , x ∈ IR . N(µ, σ2) ist eine „skalierte und verschobene Standardnormalverteilung“ : X =d N(0,1) ⇒ σX + µ =d N(µ, σ2) ; Y =d N(µ, σ2) ⇒ Y−µ d = N(0,1). σ Y =d N(µ, σ2) ⇒ E(Y) = µ ; Var(Y) = σ2. Beispiel : Die Ergebnisse eines IQ – Tests werden „akzeptabel“ beschrieben durch 3 1 4 , … , 47 89, : , ;. ;. . ? ⟹ 9 > = 7 2A ≔ * ∙ A = 1 E − ? ⟹ : F 1 B *−1 *−1 0 F= G AB heißt unverzerrte (oder erwartungstreue) Stichprobenvarianz. *) (Gute Schätzwerte: ? = 100 ; AB = 15.) *) JKB = J L 7 ∑7F=F − ? N = : . S2 = ∑7F=F − ? (verzerrte) Stichprobenvarianz : E(S2) = 7 7 7 : – 96 – Bemerkung : (i) X =d N(µ, σ2) ⇒ aX =d N(a·µ, a2·σ2) , a ∈ IR \ {0} . (ii) X =d N(µ1, : ) und Y =d N(µ2, : ) seien unabhängig . Dann gilt : Damit erhält man: X + Y =d N(µ1 + µ2 , : $ : ) (iii) X1, . . . , Xn iid , Xk =d N(µ, σ2), dann gilt : , 4O = X $ ⋯ $ XR =d N(µ, ) ⇒ 7 7 SOT√7 , d = N(0,1) . d) Exp(λ λ) auf [0, ∞): Die Exponentialverteilung mit Parameter λ, λ > 0. 0 − λx λe f(x) = 0 − λt 1 − e x<0 x≥0 t<0 t≥0 F(t) = Diese Verteilung beschreibt Wartezeiten zwischen sukzessiven eintretenden „unvorhersehbaren“ Ereignissen, z.B. — Wartezeiten zwischen sukzessiven Anrufen in einer Telefonzentrale — Lebensdauern von Glühbirnen X =d Exp(λ) ⇒ E(X) = U + ∙ VW = V ; Var(X) = V . – 97 – Beispiel : Die Zeiten zwischen dem sukzessiven Auswechseln einer gewissen Sorte von Glühbirnen werden gut beschrieben durch 4 , … , 47 JXU, ;. ;. . > = Es sei ? = 8,5, d.h. eine Glühbirne hat eine mittlere Lebensdauer von 8,5 Monaten. ⇒ 1 1 = = 0,1176 ⟹ U ≈ 0,1176. 8,5 2.6 Bemerkung zur Interpretation der Dichte : Es sei X =d F mit Dichte f(x). Sei f(x) stetig in x, dann gilt: V P(x ≤ X ≤ x + h) = V W W]^ ^↓+ `a f(x), also P(x ≤ X ≤ x + h) ≈ h⋅f(x) für kleines h > 0. Speziell für Exp(λ) gilt : P(x ≤ X ≤ x + h) ≈ h⋅λ⋅e–λx für kleines h > 0. Daraus ergibt sich, daß die bedingte Wahrscheinlichkeit für „X ≤ x + h“, gegeben „X ≥ x“ = P(X ≤ x + h | X ≥ x) = ≈ P (X ≤ x + h und X ≥ x ) P( x ≤ X ≤ x + h ) = ≈ P (X ≥ x ) P( X ≥ x ) h ⋅ λ ⋅ e − λx e − λx = h⋅λ für kleines h > 0. Für „unvorhersehbare“ Ereignisse muß also gelten, daß die bedingte Wahrscheinlichkeit für „X ≤ x + h“, gegeben „X ≥ x“ ≈ ≈ h ⋅ const. (unabhängig von x !) für kleines h > 0. Weiter gilt: = P(X ≤ x + u | X ≥ x) = e − λx − e − λ ( x + u ) e − λx = (1 − e − λ ( x + u ) ) − (1 − e − λx ) P( x ≤ X ≤ x + u ) = P( X ≥ x ) e − λx e − λx ⋅ (1 − e − λu ) = 1 – e–λu = P(X ≤ u) − λx e für alle u ≥ 0. Man sagt, daß die Exponentialverteilung gedächtnislos ist. – 98 – § 3 Wichtige diskrete Verteilungen Definition 3.1: Diskrete Verteilungen auf IN = {0, 1, 2, . . . } 0 c4 = d = XF , d ∈ f8+ sind solche der Art G b XF ≥ 0 für alle j und E XF = 1 F=+ F F(j) = P(X ≤ j) = ∑p=+ Xp für alle j ∈ IN . 0 Insbesondere ist Definition 3.2: Für eine diskrete Zufallsvariable X mit Werten in IN 0 berechnet sich der Erwartungswert als E(X) = ∑ F=+ d ∙ XF (falls diese Reihe konvergiert) . Var(X) wie in Definition 2.2, wobei hier E(X2) = ∑ F=+ d ∙ XF . Allgemeiner gilt : g(j) sei eine reelle Funktion auf IN 0 ⇒ E(g(X)) = ∑ F=+ d ∙ XF (falls diese Reihe konvergiert) . 3.3 Beispiele : a) U({1,2,…,n}) : Die Gleichverteilung (Laplaceverteilung) auf der Menge {1,2,…,n}. X =d U({1,2, . . ., n}) : X nimmt nur die Werte 1, 2, . . ., n an, und zwar jeden mit derselben Wahrscheinlichkeit, d.h. pk = P(X = k) = E(X) = ∑7F= d ∙ XF = ∑7F= d = 7 (Bemerkung: ∑7F= d = 7∙7] 7] ; Var(X) = ; ∑7F= d = 7 . 7∙7]∙7] q .) 7 , 1≤ k ≤ n. – 99 – Beispiel : Beschreibt X den Ausgang beim (einmaligen) Würfeln, so ist r X =d U({1,2, 3, 4, 5, 6}). E(X) = = 3,5. Var(X) = st ≈ 2,92 ⇒ σX ≈ 1,71. b) B(1,p) : Die Bernoulliverteilung mit Parameter p, 0 < p < 1. X =d B(1, p) : X nimmt nur die Werte 1 („Erfolg“) und 0 („Mißerfolg“) an. P(X = 1) = p und P(X = 0) = 1 – p. Beispiele: i) X = Wurf einer fairen Münze: 1 0 X = falls Münze " Zahl" " Kopf " zeigt. p = ½. ii) X = Geschlecht eines neugeborenen Kindes: 1 0 X = falls Kind ein Junge Mädchen ist. p = 0,514 . X =d B(1, p) ⇒ E(X) = 1⋅p = p ; Var(X) = 12⋅p – p2 = p – p2 = p(1 – p). c) B(n,p) : Die Binomialverteilung mit Parametern n und p, n ∈ IN , 0 < p < 1. 0 X =d B(n, p) : X nimmt nur Werte j ∈ {0, 1, . . ., n } an. * P(X = k) = L d N pj (1 – p)n – j, 0 ≤ j ≤ n . * n! n ⋅ (n − 1) ⋅ . . . ⋅ ( n − j + 1) n ⋅ ( n − 1) ⋅ . . . ⋅ ( n − j + 1) Dabei sind L d N = = = j !( n − j)! j! 1⋅ 2 ⋅ .. . ⋅ j die Binomialkoeffizienten. Sie treten bei der Berechnung von (a + b)n auf : – 100 – 7 * u $ v = E L d N u F v 7F 7 F=+ 2 2 2 z.B : (a + b)2 = a2 + 2ab + b2, d.h. L N = L N = 1 und L N= 2, 0 2 1 und deshalb P(X = 0) = (1 – p)2 , P(X = 1) = 2 p(1 – p) und P(X = 2) = p2 , falls X =d B(2, p). * Allgemein kann man L N am Pascalschen Dreieck ablesen. w * * Es gilt (i) L N = L N = 1 0 * * * *$1 (ii) L N=L N$L N,0≤k<n. w$1 w w$1 X =d B(n, p) : X beschreibt die „Anzahl der Erfolge bei n unabhängigen Versuchen mit fester Erfolgswahrscheinlichkeit p im Einzelversuch“. – 101 – * X =d B(n, p) ⇒ E(X) = ∑7F= d L d N X F 1 − X7F = n⋅p ; Var(X) = n⋅p(1 – p) . Beispiel : X =d B(n, 16 ) beschreibt die Anzahl von „6 – en“ bei n – maligem Würfeln (mit fairem Würfel). d) Pn(λ λ) : Die Poissonverteilung mit Parameter λ, λ > 0. X =d Pn(λ) : X nimmt nur Werte j ∈ IN an. 0 P(X = j) = V Vx F! , j ∈ IN . 0 Pn(λ) entsteht als Grenzverteilung der B(n, p) – Verteilung, wenn p verschwindend klein wird und dann n so groß ist, daß n⋅p, die erwartete Anzahl von Erfolgen, gleich λ ist, d.h. Pn(λ) ≈ B(n, p) für p sehr klein und λ = n⋅p. Pn(λ) beschreibt deshalb das zahlenmäßige Auftreten X =d Pn(λ) ⇒ E(X) = V ∑ F= d ∙ Var(X) = V ∑ F= dd − 1 ∙ Vx F! Vx F! = V U ∑ F=+ + V ∑ F= d ∙ = V U ∑ F=+ Vx F! Vx F! Vx F! seltener Ereignisse. = λ; – λ2 = + λ – λ2 = λ2 + λ – λ2 = λ. Wichtiger Fall : Sind Y1, Y2, . . . =d Exp(λ) iid Wartezeiten zwischen sukzessiv auftretenden „unvorhersehbaren“ Ereignissen, und Xt = max{m | Y1 + . . . + Ym 142 4 43 4 ≤ t} = Wartezeit bis zum Eintreten des m − ten Ereignisse s = „Anzahl der eingetretenen Ereignisse bis zum Zeitpunkt t“, so ist Xt =d Pn(λ⋅t). – 102 – Beispiel : Die Anzahl der Glühbirnen, die in 10 Monaten ausbrennen, X10 =d Pn(0,1176⋅10) = Pn(1,176) wird gut beschrieben durch (da λ ≈ 0,1176). § 4 Wahrscheinlichkeitsgesetze F , Grenzwertsätze Bemerkung : Für alle Verteilungen gilt: „Auf lange Sicht“, d.h. in einer nicht endenden Folge von „Knopfdrücken“ j = 1, 2, 3, . . . zeigen die von der „ Maschine P “ produzierten Zufallszahlen x1, x2, x3, . . . das Gesetz F immer deutlicher und im Grenzfall ganz . Genauer : — Man produziere X1, X2, X3, . . . =d F, iid. — Für jedes feste n ∈ IN bilde man die empirische Verteilungsfunktion zu den ersten n Beobachtungen x1, . . ., xn: z7 = ∑7F= 1 ,{ F , t ∈ IR . 7 Dabei ist 1 ,{ = | 1, u))A ≤ G . 0, u))A > – 103 – sup∈ 7 − `a 0 . 7 4.1 Satz von Gliwenko – Cantelli : Der Satz von Gliwenko – Cantelli gehört zum Komplex der Gesetze der großen Zahlen. X sei eine Zufallsvariable mit existierenden Erwartungswert E(X) und Varianz Var(X). Dann gilt die sogenannte 4.2 Tschebyscheffsche Ungleichung : P( | X – E(X) | ≥ ε ) ≤ Var ( X ) ε2 für jedes ε > 0 (nichttrivial für jedes ε ≥ Var(X) ). X1, X2, ... seien iid Zufallsvariable, deren Erwartungswert µ = E(Xj) und Varianz σ2 = Var(Xj) existieren. – 104 – X = n 1 n ⋅ ∑ X j sei der Stichprobenmittelwert. Dann gilt : j=1 E( X ) = µ und Var( X ) = σ2 . n Die Tschebyscheffsche Ugl. liefert nun unmittelbar das sogenannte 4.3 Schwache Gesetz der großen Zahlen : n lim P 1n ⋅ ∑ X j − µ ≥ ε = 0 j=1 n →∞ n da P 1n ⋅ ∑ X j − µ ≥ ε ≤ j=1 , 7 für jedes ε > 0, `a 0. 7→ Man sagt auch: n X = 1 n ⋅ ∑ X j konvergiert stochastisch gegen µ = E(Xj ) für n → ∞ , j=1 n in Zeichen : 1 n → µ . ⋅ ∑ X j n →∞ P j=1 4.4 Bemerkungen : (1) Wirken für den Wert einer Zufallsvariablen X viele kleine unabhängige Einflüsse additiv zusammen, so ist X näherungsweise normalverteilt. Hierher gehören Körpergröße, Gewicht, aber auch Meßfehler und anderes. Eine Präzisierung dieser Aussage ist der Zentrale Grenzwertsatz . (2) Viele in der Natur beobachteten Größen sind (dem empirischen Anschein nach) zumindest näherungsweise normalverteilt (z.B. die Ergebnisse eines IQ – Tests, s. 2.5). Wegen (1) und (2) spielt die Normalverteilung in der Statistik eine besonders wichtige Rolle. – 105 – 4.5 Der Zentrale Grenzwertsatz für iid Zufallsvariable : X1, X2, ... seien iid Zufallsvariable mit existierenden µ = E(Xj) und σ2 = Var(Xj), σ2 > 0. n Setze : Zn = ∑X X −µ = σ/ n j − n ⋅µ j=1 . σ⋅ n Dann sind E(Zn) = 0, Var(Zn) = 1 und es gilt : lim P( Zn ≤ x ) = Φ(x) für jedes x ∈ IR . n →∞ Man sagt auch, daß die standardisierte Zufallsvariable Zn des Stichprobenmittelwerts in der Verteilung gegen N(0, 1) konvergiert , d in Zeichen: Zn n → N(0, 1). →∞ Ein Spezialfall : Für unabhängige Bernoulliverteilte Zufallsvariable Xi =d Bn(1, p) ist S = n ∑X d j = Bn(n, p), und es gilt approximativ: j=1 Zn = X−p pq / n d.h. für jedes x ∈ IR gilt : = S− n⋅p npq S−n⋅p P Setzt man x = k −n⋅p npq d ≈ N(0, 1) , q = 1 – p, ≤ x npq n → →∞ Φ(x) . , so erhält man daraus für „großes n“ folgende Approximationen der akkumulierten Binomialwahrscheinlichkeiten : k − n⋅p . npq P( S ≤ k ) ≈ Φ – 106 – Wegen pk = P( S = k ) = P( S ≤ k ) – P( S ≤ k – 1 ) kann damit auch jede Binomialwahrscheinlichkeit pk durch Differenzieren von Werten der Verteilungsfunktion Φ einer Standardnormalverteilung approximiert werden. Insbesondere gilt also : B(n, p) ≈ N(n⋅p, n⋅p(1 – p)), falls die Varianz n⋅p(1 – p) „hinreichend groß“ ( ≥ 9) ist. Pn(λ) ≈ N(λ, λ) für große λ, u.s.w. 4.6 Eine weitere Version des Zentralen Grenzwertsatzes : X1, X2, X3 , . . . seien unabhängige reelle Zufallsvariable. Es gebe ein festes M > 0 mit – M ≤ Xj ≤ M für alle j und es gelte Var(X1) + . . . + Var(Xn) n → ∞. →∞ n ∑ (X Dann konvergiert die Verteilung von gegen N(0, 1). j − E (X j )) j=1 Var( X 1 ) + . . . + Var (X n ) für n → ∞