Universität Erfurt Sommersemester 2012 - Statistik Kapitel 9:Erwartungswert, Varianz und Kovarianz von Zufallsvariablen Motivation Erwartungswert: Welchen Wert nimmt Zufallsvariable durchschnittlich an? Populärstes Lagemaß aus Teil A: Arithmetisches Mittel Ausgangslage: Metrisch skaliertes Merkmal X mit möglichen Ausprägungen a1 , ..., ak , die mit relativen Häufigkeiten h(a1 ), ..., h(ak ) auftreten. Es gilt (vergleiche Definition 3.1 und Beispiel 3.2 a)) x̄ = k ai · h(ai ) i=1 → Idee: Ersetze relative Häufigkeiten durch bekannte Wahrscheinlichkeiten Dr. Matthias Arnold 225 Universität Erfurt Sommersemester 2012 - Statistik Tippspiel Europameisterschaft Punktvergabe: 3 Punkte für korrektes Ergebnis 2 Punkte für korrekte Tordifferenz 1 Punkt für korrekte Tendenz Sieg/Niederlage Für welchen Tipp sind die meisten Punkte zu erwarten? Mit welcher Wahrscheinlichkeit treten die Ergebnisse auf? Näherung für die Wahrscheinlichkeiten aus Wettquoten ableiten Dr. Matthias Arnold 226 Universität Erfurt Sommersemester 2012 - Statistik Vorrundenspiel Deutschland-Portugal, Quoten bwin ωi Quote ωi Quote 0:0 8.5 3:1 14 1:0 6.75 3:2 26 1:1 6.75 3:3 67 0:1 12 2:3 51 2:0 8 1:3 36 2:1 8.25 0:3 81 2:2 15 4:0 29 1:2 14 4:1 29 0:2 21 4:2 51 3:0 13 Wahrscheinlichkeiten Idee: bilde Kehrwert und standardisiere zu Eins, Ergebnis in Prozent: ωi P(ωi ) ωi P(ωi ) Dr. Matthias Arnold 0:0 9.2 3:1 5.6 1:0 11.6 3:2 3.0 1:1 11.6 3:3 1.2 0:1 6.5 2:3 1.5 2:0 9.8 1:3 2.2 2:1 9.5 0:3 1.0 2:2 5.2 4:0 2.7 1:2 5.6 4:1 2.7 0:2 3.7 4:2 1.5 3:0 6.0 227 Universität Erfurt Sommersemester 2012 - Statistik Erwartete Punktzahl für den Tipp 1:0 ωi P(ωi ) Punkte ωi P(ωi ) Punkte 0:0 9.2 0 3:1 5.6 1 1:0 11.6 3 3:2 3.0 2 1:1 11.6 0 3:3 1.2 0 0:1 6.5 0 2:3 1.5 0 2:0 9.8 1 1:3 2.2 0 2:1 9.5 2 0:3 1.0 0 2:2 5.2 0 4:0 2.7 1 1:2 5.6 0 4:1 2.7 1 0:2 3.7 0 4:2 1.5 1 3:0 6.0 1 Wahrscheinlichkeiten für Punkte Punktzahl Wahrscheinlichkeit 0 47.7 1 28.3 2 12.5 3 11.6 Das ergibt im Erwartungswert folgende Punktanzahl: 0 · 0.477 + 1 ∗ 0.283 + 2 ∗ 0.125 + 3 ∗ 0.116 = 0.881 Dr. Matthias Arnold 228 Universität Erfurt Sommersemester 2012 - Statistik Erwartete Punktzahl für den Tipp 1:1 ωi P(ωi ) Punkte ωi P(ωi ) Punkte 0:0 9.2 2 3:1 5.6 0 1:0 11.6 0 3:2 3.0 0 1:1 11.6 3 3:3 1.2 2 0:1 6.5 0 2:3 1.5 0 2:0 9.8 0 1:3 2.2 0 2:1 9.5 0 0:3 1.0 0 2:2 5.2 2 4:0 2.7 0 1:2 5.6 0 4:1 2.7 0 0:2 3.7 0 4:2 1.5 0 3:0 6.0 0 Wahrscheinlichkeiten für Punkte Punktzahl Wahrscheinlichkeit 0 72.9 1 0 2 15.6 3 11.6 Das ergibt im Erwartungswert folgende Punktanzahl: 0 · 0.729 + 1 ∗ 0 + 2 ∗ 0.156 + 3 ∗ 0.116 = 0.660 Dr. Matthias Arnold 229 Universität Erfurt Sommersemester 2012 - Statistik Punktzahloptimierung erwartete Punktzahlen somit: 0.881 Punkte für den Tipp 1:0 0.660 Punkte für den Tipp 1:1 bester Tipp ist hier 1:0 für den Favoriten bei nahezu ausgeglichenen Partien: 1:1 tippen bei sehr deutlichen Favoriten eventuell ausweichen auf 2:0, kommt bei Europameisterschaften aber sehr selten vor Dr. Matthias Arnold 230 Universität Erfurt Sommersemester 2012 - Statistik Punktzahloptimierung aus statistischer Sicht Ergebnismenge Ω: {0 : 0, 1 : 0, 1 : 1, 0 : 1, . . .} Elementarereignisse ωi : {0 : 0}, {1 : 0}, {1 : 1}, {0 : 1}, . . . Ereignis A: Unentschieden Abbildung der ωi auf Punktezahlen zwischen 0 und 3: Zufallsvariable (hängt ab vom Tipp und den Spielregeln) Wahrscheinlichkeiten aus Wettquoten schätzen: Teil der induktiven Statistik, mehr dazu in Teil C der Vorlesung Berechnung erwarteter Punktzahlen: Konzept des Erwartungswertes, hier für eine diskrete Zufallsvariable Dr. Matthias Arnold 231 Universität Erfurt Sommersemester 2012 - Statistik Definition 9.1 a) Sei X diskrete Zufallsvariable mit möglichen Realisationen x1 , ..., xn und f (xi ) = P(X = xi ) Wahrscheinlichkeitsfunktion. Dann heißt E (X) = xi · f (xi ) i∈I Erwartungswert von X (I =Indexmenge). b) Sei X stetige Zufallsvariable mit Dichte f (x). Dann heißt ∞ E (X) = x · f (x) dx −∞ Erwartungswert von X. Dr. Matthias Arnold 232 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.1 a) X = Augensumme zweimaliges Würfeln“, vgl. u.a. Bsp. 8.2 ” E (X) = xi · f (xi ) = 11 xi · f (xi ) i=1 i∈I 2 3 1 1 +3· +4· + . . . + 12 · =7 = 2· 36 36 36 36 b) X = Anzahl Kopf bei zweimaligem Münzwurf“, vgl. Bsp. 8.1 ” E (X) = i∈I xi · f (xi ) = 3 xi · f (xi ) i=1 1 2 1 = 0· +1· +2· =1 4 4 4 Dr. Matthias Arnold 233 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.1 (Fortsetzung) c) X = Verspätung der S1“, vgl. Bsp. 8.4 ” ∞ E (X) = 20 x · f (x) dx = −∞ 0 20 1 1 2 x· dx = x = 10 20 40 0 Bemerkung a) Ist Wahrscheinlichkeitsfunktion/Dichte einer Zufallsvariablen X symmetrisch um x , dann gilt E (X) = x b) Der Erwartungswert einer diskreten Zufallsvariablen X muss nicht unbedingt mögliche Realisation xi von X sein Dr. Matthias Arnold 234 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung (Fortsetzung) c) Eigenschaften des Erwartungswertes: X1 , ..., Xn beliebige Zufallsvariablen; a1 , a2 , . . . , an , b ∈ R beliebige Konstanten; g : R → R beliebige Funktion. Dann gilt: E (a1 X1 + b) = a1 E (X1 ) + b E n i=1 a i Xi = n i=1 ⎧ ⎪ g(xi ) f (xi ), ⎪ ⎨i E (g(X1 )) = ∞ ⎪ ⎪ g(x) f (x) dx, ⎩ −∞ Dr. Matthias Arnold ai E (Xi ) falls X1 diskret falls X1 stetig Falls X1 , ..., Xn stochastisch unabhängig, so gilt außerdem E (X1 · ... · Xn ) = E (X1 ) · ... · E (Xn ) 235 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung (Fortsetzung) d) (Schwaches) Gesetz der großen Zahlen: X1 , ..., Xn unabhängige Zufallsvariablen, die alle die gleiche Verteilung (d.h. gleiche Dichte/Wahrscheinlichkeitsfunktion und gleiche Verteilungsfunktion) wie X besitzen. Dann gilt für ein beliebiges ε > 0: lim P (| X̄n − E (X) | < ε) = 1 n→∞ e) Interpretation des (schwachen) Gesetztes der großen Zahlen: Seien x1 , ..., xn Realisationen der Zufallsvariablen aus Teil e). Dann gilt n 1 xi = E (X). lim n→∞ n i=1 Dr. Matthias Arnold 236 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.2 1.5 ● ● 1.0 ● ● ● ● 0.5 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 Dr. Matthias Arnold ● ● ● 0.0 Durchschnittliche Anzahl Kopf 2.0 a) X = Anzahl Kopf bei zweimaligem Münzwurf“ ” → E (X) = 1, vgl. Bsp. 9.1 5 10 15 Anzahl n der (zweimaligen) Münzwürfe 20 25 237 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.2 (Fortsetzung) b) Betrachte abermals Beispiel 2.4 bzw. 3.1: Lebensdauer (in Betriebsstudien) von Ventilen in kunststoffverarbeitendem Betrieb Dr. Matthias Arnold Lebensdauern als unabhängige Zufallsvariablen mit gleicher Verteilung auffassbar → bei wachsendem Stichprobenumfang konvergiert arithmetisches Mittel gegen Erwartungswert dieser Verteilung (Grund: Gesetz der großen Zahlen) Bei vorliegenden Daten (n = 30) gilt: x̄ = 313, 17 (vgl. Beispiel 3.1) 238 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung Weiteres Lagemaß aus Kapitel 3: p−Quantil (Wert xp , für den mindestens ein Anteil p · 100 Prozent der Daten kleiner/gleich xp , und mindestens ein Anteil (1 − p) · 100 Prozent der Daten größer/gleich xp ist) → definiere nun p−Quantil einer Verteilung (zunächst lediglich stetiger Fall) Definition 9.2 Für eine stetige Zufallsvariable X und ein p ∈ [0, 1] heißt der Wert xp mit P (X ≤ xp ) = p p-Quantil der Verteilung von X. Dr. Matthias Arnold 239 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.3 a) X = S1-Verspätung Haltestelle Universität Dortmund“, vgl. ” Beispiel 8.4 b) bzw. 9.1 c); Frage: Was ist, mit 80 prozentiger Wahrscheinlichkeit, die maximale Verspätung? Suche also das 0, 8−Quantil x0,8 der Gleichverteilung aus Beispiel 8.4 b) X stetig → x0,8 so, dass P (X ≤ x0,8 ) = 0, 8 x0,8 = 0, 8 20 P (X ≤ x0,8 ) = F (x0,8 ) = ⇔ x0,8 = 20 · 0, 8 = 16 → Mit 80 prozentiger Wahrscheinlichkeit beträgt die Verspätung nicht mehr als 16 Minuten Dr. Matthias Arnold 240 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.3 (Fortsetzung) 0 0.2 0.4 F(x) 0.6 0.8 1 a) Verspätung S-1 (Fortsetzung) −8 0 8 X0,8=16 24 Verspätung x in Minuten Dr. Matthias Arnold 241 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.3 (Fortsetzung) 0 (d.h. 80% Wahrscheinlichkeitsmasse) −5 0 X0,8=16 (d.h. 20% Wahrscheinlichkeitsmasse) Flächeninhalt links vom 0,8−Quantil=0,8 Flächeninhalt rechts vom 0,8−Quantil=0,2 f(x) 0.05 a) Verspätung S-1 (Fortsetzung) 20 25 Verspätung x in Minuten Dr. Matthias Arnold 242 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.3 (Fortsetzung) b) X = Augensumme bei zweimaligem Würfeln“, vgl. u.a. ” Beispiel 8.3 Auch hier gesucht: 0, 8−Quantil → Versuch, obwohl X diskret, Definition 9.2 anzuwenden Nach Beispiel 8.3 gilt P (X ≤ x) = F (x) = 26/36 = 0, 72 für 8 ≤ x < 9 30/36 = 0, 83 für 9 ≤ x < 10 → ein x0,8 mit P (X ≤ x0,8 ) = 0, 8 existiert nicht Dr. Matthias Arnold 243 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.3 (Fortsetzung) b) Zweimaliges Würfeln (Fortsetzung) 1.0 Verteilungsfunktion zweifaches Würfeln ● ● ● 0.8 ● 0.6 ● F(x) ● 0.4 ● 0.2 ● ● 0.0 ● ● 2 Dr. Matthias Arnold 4 6 8 Augensumme x 10 12 244 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.3 (Fortsetzung) b) Zweimaliges Würfeln (Fortsetzung) Dr. Matthias Arnold 245 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung Fasse, für eine diskrete Zufallsvariable X und ein p ∈ [0, 1], den Wert xp mit F (xp ) ≥ p und F (x) < p für x < xp als p−Quantil der Verteilung von X auf Beispiel 9.4 (Augensumme zweimaliges Würfeln, vgl. Beispiel 9.3 b)) Es gilt P (X ≤ x) = F (x) = ⎧ ⎨26/36 = 0, 72 für 8 ≤ x < 9 ⎩30/36 = 0, 83 für 9 ≤ x < 10 → Gemäß der Bemerkung nach Beispiel 9.3 gilt x0,8 = 9 Dr. Matthias Arnold 246 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung Neben Lagemaßen in Teil A von Interesse: Streuungsmaße (siehe etwa Bsp. 4.1: Zwei unterschiedlich schwankende Unternehmensgewinne X, Y mit x̄ = ȳ) Jetzt: Wie weit streuen Realisierungen einer Zufallsvariablen X um E(X) herum; Betrachte etwa Zufallsvariablen X und Y mit E(X) = E(Y ) → folgendes Bild möglich f(y) f(x) E(X)=E(Y) Dr. Matthias Arnold 247 Universität Erfurt Sommersemester 2012 - Statistik Definition 9.3 Sei X beliebige Zufallsvariable. Dann heißt 2 2 σX = Var (X) = E (X − E (X)) Varianz von X und σX = 2 σX Standardabweichung von X. Bemerkung Sei X beliebige Zufallsvariable. Dann gilt (vgl. Bem. e) nach Bsp. 4.4): 2 Var (X) = E X − [E (X)]2 Dr. Matthias Arnold 248 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.5 a) X = Augensumme bei zweimaligem Würfeln“, vgl. u.a. ” Beispiel 9.4; Gesucht: Var (X) 2 Var (X) = E X − [E (X)]2 = 11 x2i · f (xi ) − 72 (da E (X) = 7, vgl. Bsp. 9.1 a)) i=1 1 2 3 1 2 2 2 = 2 · +3 · +4 · + . . . + 12 · − 49 36 36 36 36 2 = 1974 210 − 49 = 36 36 ≈ 5, 833 Dr. Matthias Arnold 249 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.5 (Fortsetzung) b) Varianz & Standardabweichung der Zufallsvariablen X = S1-Verspätung Hst. Uni Dortmund“, s. u.a. Bsp. 9.3 a) ” 20 ∞ 20 3 1 1 x 2 2 2 x · f (x)dx = x · dx = = 133 E (X ) = 20 60 0 3 −∞ 0 Außerdem ist E (X) = 10, vgl. Bsp. 9.1 c), also gilt: 2 1 1 − [E (X)] = 133 − 100 = 33 3 3 2 Var (X) = E X 1 33 = 5, 774 ∼ 5 Minuten & 46 Sekunden → σX = 3 Dr. Matthias Arnold 250 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung a) Eigenschaften der Varianz: Für beliebige Zufallsvariablen X1 , ..., Xn gilt i) Var (Xi ) ≥ 0 ii) Var (a Xi + b) = a2 Var (Xi ) für a, b ∈ R iii) Sind die Zufallsvariablen X1 , X2 , . . . , Xn außerdem unabhängig, so gilt weiter n n a i Xi = a2i Var (Xi ) für a1 , a2 , . . . , an ∈ R Var i=1 Dr. Matthias Arnold i=1 251 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung b) Vorsicht: Für unabhängige Zufallsvariablen X und Y folgt aus Teil a), Punkt iii) nicht, dass Var (X − Y ) = Var (X) − Var (Y ) Grund: Var (X − Y ) = Var (X + (−Y )) = 12 · Var (X) + (−1)2 · Var (Y ) = Var (X) + Var (Y ) Dr. Matthias Arnold 252 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.6 X = Anzahl Kopf bei zweimaligem Münzwurf“, s. u.a. Bsp. 9.2 a) ” definiere außerdem Y = Anzahl Zahl bei zweimaligem Münzwurf“ ” → Zufallsexperiment mit Ω = {(K, K), (K, Z), (Z, K), (Z, Z)} ωi X(ωi ) (K, K) 2 (K, Z) 1 (Z, K) 1 (Z, Z) 0 Y (ωi ) 0 1 1 2 → Zusammenhang zwischen X und Y (offensichtlich negativ, da X wenn Y und umgekehrt)? Dr. Matthias Arnold 253 Universität Erfurt Sommersemester 2012 - Statistik Definition 9.4 Für zwei Zufallsvariablen X und Y heißt σXY = Cov (X, Y ) = E [(X − E (X))(Y − E (Y ))] Kovarianz von X und Y sowie ρXY σXY = σX · σY Korrelation von X und Y (vgl. Teil A: Definition 5.1 & 5.2). Bemerkung X und Y beliebige Zufallsvariablen. Dann gilt (vgl. Bem. a) nach Beispiel 5.3) Cov (X, Y ) = E (X Y ) − E (X) E (Y ) Dr. Matthias Arnold 254 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.7 X = Anzahl Kopf bei zweimaligem Münzwurf“, ” Y = Anzahl Zahl bei zweimaligem Münzwurf“, s. u.a. Bsp. 9.6 ” Dr. Matthias Arnold ωi X(ωi ) (K, K) 2 (K, Z) 1 (Z, K) 1 (Z, Z) 0 Y (ωi ) 0 1 1 2 X(ωi ) · Y (ωi ) 0 1 1 0 255 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.7 (Fortsetzung) Es gilt E (X) = 0 · P (X = 0) + 1 · P (X = 1) + 2 · P (X = 2) 1 1 1 = 0 · + 1 · + 2 · = 1 = E (Y ) 4 2 4 E (X · Y ) = 0 · P (X · Y = 0) + 1 · P (X · Y = 1) 1 1 1 = 0· +1· = 2 2 2 Cov (X, Y ) = 1 1 −1·1 = − 2 2 → Negativer, linearer Zusammenhang zwischen X und Y , über Stärke kann jedoch keine Aussage getroffen werden (siehe Bem. c) nach Beispiel 5.3) Dr. Matthias Arnold 256 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 9.7 (Fortsetzung) Bestimme Stärke des linearen Zusammenhangs über Korrelation 2 Var (X) = E X − [E (X)]2 (und E (X) = 1, vgl. Bsp. 9.1 b)) = 02 · P (X = 0) + 12 · P (X = 1) + 22 · P (X = 2) − 12 1 1 1 1 = 0· +1· +4· −1 = = Var (Y ) 4 2 4 2 → ρXY − 12 = 1 2 1 2 = −1 D.h. perfekt negativer linearer Zusammenhang (siehe Bem. nach Bsp. 5.5); Plausibles Ergebnis: X + Y = 2 ⇔ Y = 2 − X Dr. Matthias Arnold 257 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung a) Zwei Zufallsvariablen X und Y heißen unkorreliert, wenn σXY = 0 gilt b) Wenn X und Y unabhängig, dann gilt σXY = 0 (also auch ρXY = 0); Umkehrung gilt i.A. nicht (Grund: Nichtlineare Abhängigkeiten zwischen X und Y möglich, werden durch σXY jedoch nicht erfasst) Weiterhin gilt: c) −1 ≤ ρXY ≤ 1 d) ρXY = 1 ⇔ Y = a X + b mit a > 0 und b ∈ R e) ρXY = −1 ⇔ Y = a X + b mit a < 0 und b ∈ R f) Var (a X + b Y ) = a2 Var (X) + b2 Var (Y ) + 2ab Cov (X, Y ) (a, b ∈ R, siehe Bem. a), Punkt iii) nach Bsp. 9.5) Dr. Matthias Arnold 258 Universität Erfurt Sommersemester 2012 - Statistik Tippspiel Betrachte die Zufallsvariablen X := Punktzahl des Tipps 1:0 Y := Punktzahl des Tipps 1:1 Wahrscheinlichkeitsfunktion xi fX (xi ) = P(X = xi ) fY (xi ) = P(Y = xi ) 0 0.477 0.729 1 0.283 0 2 0.125 0.156 3 0.116 0.116 Erwartungswert E (X) = xi · fX (xi ) i∈I = 0 · 0.477 + 1 · 0.283 + 2 · 0.125 + 3 · 0.116 = 0.881 Dr. Matthias Arnold 259 Universität Erfurt Sommersemester 2012 - Statistik Erwartungswert E (Y ) = xi · fY (xi ) i∈I = 0 · 0.729 + 1 · 0 + 2 · 0.156 + 3 · 0.116 = 0.660 2 Varianz σX Var (X) = E X − [E (X)]2 = x2i · fX (xi ) − 0.8812 2 i∈I 2 = 0 · 0.477 + 12 · 0.283 + 22 · 0.125 + 32 · 0.116 − 0.776 = 1.05 Standardabweichung σX = Dr. Matthias Arnold 2 σX = √ 1.05 = 1.025 260 Universität Erfurt Sommersemester 2012 - Statistik Varianz σY2 Var (Y ) = E Y − [E (Y )]2 = x2i · fY (xi ) − 0.662 2 i∈I 2 = 0 · 0.729 + 12 · 0 + 22 · 0.156 + 32 · 0.116 − 0.4356 ⇒ σY2 = 1.23 √ = σY2 = 1.23 = 1.11 Kovarianz und Korrelation Dazu erforderlich: gemeinsame Wahrscheinlichkeitsfunktion von X und Y Dr. Matthias Arnold 261 Universität Erfurt Sommersemester 2012 - Statistik gemeinsame Verteilung von X und Y Y X 0 1 2 3 0 0.205 0.283 0.125 0.116 0.729 1 0 0 0 0 0 2 0.156 0 0 0 0.156 3 0.116 0 0 0 0.116 0.477 0.283 0.125 0.116 1 Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) E(X · Y ) = 0 · 0 · 0.205 + 0 · 1 · 0 + 0 · 2 · 0.156 + 0 · 3 · 0.116 .. . + 3 · 0 · 0.116 + 3 · 1 · 0 + 3 · 2 · 0 + 3 · 3 · 0 = 0 Dr. Matthias Arnold 262 Universität Erfurt Sommersemester 2012 - Statistik Kovarianz Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) = 0 − 0.881 · 0.66 = −0.58 Korrelation ρXY σXY −0.58 = = σX · σ Y 1.025 · 1.11 = −0.466 → negativer linearer Zusammenhang Dr. Matthias Arnold 263 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung Fazit zu Erwartungswert, Varianz & Kovarianz/Korrelation • Wichtige charakteristische Kennzahlen einer bzw. zweier Zufallsvariablen • Theoretische Gegenstücke zu arithmetischem Mittel, empirischer Varianz und empirischer Kovarianz/Korrelation aus Teil A Dr. Matthias Arnold 264 Universität Erfurt Sommersemester 2012 - Statistik Kapitel 10: Ausgewählte Verteilungen Beispiel 10.1 a) Flugzeugmotoren einer bestimmten Marke fallen bei einem gegebenen Flug mit einer Wahrscheinlichkeit von 1/10 aus. Bei mehrmotorigen Maschinen dieser Firma treten die Ausfälle unabhängig voneinander auf. Ein Flugzeug erreicht sein Ziel, wenn wenigstens die Hälfte der Motoren läuft. Für einen Flug steht wahlweise eine zwei- oder eine viermotorige Maschine zur Verfügung. Mit welcher Maschine werden Sie fliegen, wenn Ihnen Ihr Leben lieb ist? Dr. Matthias Arnold 265 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 10.1 (Fortsetzung) b) Jedes zweite Los gewinnt!“ verspricht der Vereinsvorsitzende, ” als er vor 100 geladenen Gästen die Tombola der Jahresabschlussfeier eröffnet. Nach der Preisvergabe beschweren sich 10 Personen, die jeweils fünf Lose gekauft haben, dass sie nicht einmal gewonnen haben. Wie ist die Aussage des Vorsitzenden zu beurteilen? Dr. Matthias Arnold 266 Universität Erfurt Sommersemester 2012 - Statistik Definition 10.1 Ein Zufallsexperiment mit zwei möglichen Ausgängen heißt Bernoulli-Experiment. Beispiel 10.2 Beispiele für Bernoulli-Experimente a) Einfacher Münzwurf: Ω = { Kopf“, Zahl“} ” ” b) Elfmeter: Ω = { Schütze trifft“, Schütze trifft nicht“} ” ” c) Wahlverhalten einer Person: Ω = { CDU ja“, CDU nein“} ” ” d) Börse im Vergleich zum Vortag: Ω = { DAX gestiegen“, DAX gefallen“} ” ” e) ... Dr. Matthias Arnold 267 Universität Erfurt Sommersemester 2012 - Statistik Definition 10.2 Wiederhole Bernoulli-Experiment n−Mal, wobei die Wahrscheinlichkeit für Erfolg“ oder Misserfolg“ in jedem ” ” der n Versuche gleich ist die Wiederholungen unabhängig voneinander sind definiere nun X = Anzahl der ’Erfolge’ bei diesen n Wiederholungen“ ” Dann ist X eine diskrete Zufallsvariable. Dr. Matthias Arnold 268 Universität Erfurt Sommersemester 2012 - Statistik Fortsetzung Definition 10.2 Dann heißt X binomialverteilt mit Parametern n und p (kurz: X ∼Bin(n, p)), wobei n x p (1 − p)n−x f (x) = P (X = x) = x n n! [ x = x!·(n−x)! n n n = 0 =1 ] Binomialkoeffizient“, ” mögliche Werte sind 0, 1, 2, . . . , n. Es gilt E (X) = np Dr. Matthias Arnold und n x = 0 für x > n, Var (X) = np (1 − p) 269 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 10.3 a) Motorenausfälle bei Flugzeugen, vgl. Bsp. 10.1 a) X1 = Anzahl ausfallende Motoren in zweimotoriger Maschine X2 = Anzahl ausfallende Motoren in viermotoriger Maschine Bsp. 10.1 a): Ausfälle unabhängig voneinander mit Wahrscheinlichkeit 1/10 ⇒ X1 ∼ Bin (2; 0, 1) & X2 ∼ Bin (4; 0, 1) Für die Absturzwahrscheinlichkeiten gilt somit P (Absturz Fl. 1) = P (X1 > 1) = P (X1 = 2) = 2 2 · 0, 12 (1 − 0, 1)0 = 1 · 0, 12 · 0, 90 = 0, 01 Dr. Matthias Arnold 270 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 10.3 (Fortsetzung) a) Motorenausfälle bei Flugzeugen (Fortsetzung) P (Absturz Fl. 2) = P (X2 > 2) = P (X2 = 3) + P (X2 = 4) = 4 3 · 0, 13 (1 − 0, 1)1 + 4 4 · 0, 14 (1 − 0, 1)0 = 4 · 0, 13 · 0, 91 + 1 · 0, 14 · 0, 90 = 0, 0036 + 0, 0001 = 0, 0037 → Absturzwahrscheinlichkeit Flugzeug 1 = 1% vs. Absturzwahrscheinlichkeit Flugzeug 2 = 0,37% → Flugzeug 2 sollte bevorzugt werden! Dr. Matthias Arnold 271 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 10.3 (Fortsetzung) b) Tombola, vgl. Bsp. 10.1 b) X = Anzahl der Gewinne bei fünf gekauften Losen Vorsitzender: P (Los gewinnt) = 0, 5 ⇒ X ∼ Bin (5; 0, 5) Wahrscheinlichkeit, bei fünf Losen keinen Gewinn zu erzielen 5 · 0, 50 (1 − 0, 5)5 P (5 Lose, kein Gewinn) = P (X = 0) = 0 = 1 · 0, 50 · 0, 55 = 0, 03125 ≈ 3, 1% → zieht eine Person 5 Lose, so ist Wahrscheinlichkeit für 5 Nieten 3,1% (wenn Aussage des Vorsitzenden wahr); es haben jedoch bereits 10% der Gäste (10 von 100) bei 5 Losen nur Nieten gezogen → Aussage des Vorsitzenden fragwürdig Dr. Matthias Arnold 272 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 10.4 Einfacher Münzwurf, vgl. Beispiel 10.2 a) ⎧ ⎨1 falls ω = Kopf“ ” X(ω) = ⎩0 sonst → X ∼Bin(1;0,5) ( bernoulliverteilt“) ” Werfe Münze nun n−Mal → für jeden Wurf i Zufallsvariable Xi ∼Bin(1;0,5) analog zu X definierbar; weiterhin sei Z = Anzahl ” Def. 10.2 Kopf bei den n Würfen“ −→ Z ∼Bin(n; 0, 5) Allerdings ist Z= n i=1 Dr. Matthias Arnold Xi → n Xi ∼ Bin (n; 0, 5) i=1 273 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung a) Ergebnis aus Beispiel 10.4 allgemein gültig, d.h.: Seien X1 , ..., Xn unabhängige Zufallsvariablen mit Xi ∼Bin(1; p), so gilt n Xi ∼ Bin (n, p) X= i=1 b) Sei X Bin(n, p)−verteilt, dann ist eine Zufallsvariable Y = n − X Bin(n, 1 − p)−verteilt Dr. Matthias Arnold Beispiel n−maliges Würfeln; X = Anzahl Würfe mit ” Augenzahl<3“ → X ∼Bin(n, 1/3); Y = n − X = Anzahl ” Würfe mit Augenzahl≥3“ → Y ∼Bin(n, 2/3) 274 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung (Fortsetzung) c) f (x) Binomialverteilung für verschiedene n und p 0.5 0.4 0.0 0.1 0.2 0.3 f(x) 0.3 0.0 0.1 0.2 f(x) 0.4 0.5 0.6 n=5,p=0.3 0.6 n=5,p=0.1 0 1 2 x 3 4 5 0 1 3 4 5 4 5 0.6 0.5 0.0 0.1 0.2 0.3 f(x) 0.4 0.5 0.4 0.3 f(x) 0.2 0.1 0.0 0 Dr. Matthias Arnold x n=5,p=0.8 0.6 n=5,p=0.5 2 1 2 x 3 4 5 0 1 2 x 3 275 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung (Fortsetzung) c) f (x) Binomialverteilung für verschiedene n & p (Fortsetzung) 0.3 0.0 0.1 0.2 f(x) 0.2 0.0 0.1 f(x) 0.3 0.4 n=10,p=0.3 0.4 n=10,p=0.1 0 2 4 x 6 8 10 0 2 6 8 10 8 10 0.4 0.3 0.0 0.1 0.2 f(x) 0.3 0.2 f(x) 0.1 0.0 0 Dr. Matthias Arnold x n=10,p=0.8 0.4 n=10,p=0.5 4 2 4 x 6 8 10 0 2 4 x 6 276 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung (Fortsetzung) d) Tabellierte Verteilungsfunktion der Bin (n; 0, 5)−Verteilung n x 0 1 0,5000 2 0,2500 3 0,1250 4 0,0625 5 0,0313 1 1 0,7500 0,5000 0,3125 0,1875 1 0,8750 0,6875 0,5000 1 0,9375 0,8125 1 0,9688 2 3 4 5 Dr. Matthias Arnold 1 277 Universität Erfurt Sommersemester 2012 - Statistik Definition 10.3 Stetige Gleichverteilung, siehe u.a. Beispiel 8.4 Gemäß Bsp. 8.4 a) heißt eine stetige Zufallsvariable X gleich-/rechteckverteilt auf Intervall [a, b] (kurz: X ∼ R [a, b]), falls f (x) = 1 b−a a≤x≤b sonst 0 Weiterhin gilt F (x) = a+b E (X) = 2 Dr. Matthias Arnold und ⎧ ⎪ ⎨0 x−a ⎪ b−a ⎩ 1 x<a a≤x≤b x>b (b − a)2 Var (X) = 12 278 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 10.5 a) Abfüllanlage für Getränkedosen ist auf 0,33 Liter eingestellt Abweichungen von ±0, 004 L. akzeptabel Befürchtung/Vermutung/Wissen: Anlage weicht um ±0, 009 L. vom Sollwert ab, Abweichungen auf diesem Intervall gleichverteilt Frage: Falls Befürchtung wahr, Dr. Matthias Arnold mit welcher Wahrscheinlichkeit liegt abgefüllte Menge einer Dose im akzeptablen Bereich? Erwartungswert/Standardabweichung? 279 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 10.5 a) Abfüllanlage für Getränkedosen (Fortsetzung) Annahme also: X ∼ R [0, 321; 0, 339] Gesucht: P (0, 326 < X ≤ 0, 334) = F (0, 334) − F (0, 326) (siehe Bem. 2a) nach Definition 8.4);Nach Def. 10.3 gilt x − 0, 321 x − 0, 321 F (x) = = für 0, 321 ≤ x ≤ 0, 339 0, 339 − 0, 321 0, 018 Also ist F (0, 334) − F (0, 326) = = Dr. Matthias Arnold 0, 334 − 0, 321 0, 326 − 0, 321 − 0, 018 0, 018 0, 008 = 0, 444 0, 018 280 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 10.5 a) Abfüllanlage für Getränkedosen (Fortsetzung) Weiterhin gilt E (X) = Var (X) = 0, 321 + 0, 339 = 0, 33 und 2 (0, 339 − 0, 321)2 = 0, 000027 → σX = 0, 0052 Lit. 12 → Obwohl Erwartungswert=0,33 Liter=Sollwert, beträgt Wahrscheinlichkeit, im Toleranzbereich ±0, 004 Litern zu liegen, lediglich 44,4 %; Grund: σX = 0, 0052 > 0, 004 → viele Abfüllmengen außerhalb des Toleranzbereiches b) Anderes Beispiel für stetige Gleichverteilung: S1-Verspätung (siehe Kapitel 8 & 9) Dr. Matthias Arnold 281 Universität Erfurt Sommersemester 2012 - Statistik Definition 10.4 Sei μ ∈ R und 0 < σ 2 ∈ R. Besitzt eine stetige Zufallsvariable X die Dichte f (x) = √ 1 2 πσ 2 e − 12 2 ( x−μ σ ) , x ∈ R, so heißt X normalverteilt mit Parametern μ und σ 2 (kurz: X ∼ N (μ, σ 2 )), wobei E (X) = μ und Var (X) = σ 2 Falls μ = 0 und σ 2 = 1, so heißt X standardnormalverteilt. Dr. Matthias Arnold 282 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung 0.6 0.5 μ=0 0.3 f(x) 0.1 0.0 0 2 4 −4 0.6 x 0.5 μ=0 −2 0 2 4 0 2 4 x μ=2 σ2 = 0.5 0.3 0.1 0.0 0.0 0.1 0.2 0.3 f(x) 0.4 σ2 = 2 0.2 f(x) σ2 = 1 0.2 0.3 f(x) 0.2 0.1 0.0 −2 0.4 0.5 0.6 −4 −4 Dr. Matthias Arnold μ=2 0.4 σ2 = 1 0.4 0.5 0.6 a) Dichte der Normalverteilung für verschiedene μ und σ 2 −2 0 x 2 4 −4 −2 x 283 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung (Fortsetzung) b) X ∼ N (μ, σ 2 ) → Dichte von X symmetrisch um μ, d.h. f (μ − x) = f (μ + x) für alle x∈R c) X ∼ N (μ, σ 2 ), dann gilt X −μ ∼ N (0, 1) σ d) X1 , ..., Xn unabhängig mit Xi ∼ N (μi , σi2 ), dann gilt n n n Xi ∼ N μi , σi2 i=1 Dr. Matthias Arnold i=1 i=1 284 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 10.6 Angenommen, die zeitstetige monatliche Rendite (in %) einer Aktie ist eine normalverteilte Zufallsvariable mit Erwartungswert 0,5 und Varianz 4. Mit welcher Wahrscheinlichkeit steigt der Kurs dieser Aktie dann in einem Monat um mehr als 5%? X = monatliche Rendite in %“ ” ⇒ X ∼ N (0, 5; 4) 5 P (X > 5) = 1 − P (X ≤ 5) = 1 − −∞ 2 1 − 12 ( x−0,5 ) 2 √ dx ·e 2π · 4 Schwer zu berechnen → Anwendung von Bem. c) nach Def. 10.4 Dr. Matthias Arnold 285 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 10.6 (Fortsetzung) ⎞ ⎛ ⎜ X − 0, 5 5 − 0, 5 ⎟ ⎟ ⎜ P (X > 5) = 1 − P (X ≤ 5) = 1 − P ⎝ ≤ ⎠ 2 2 ∼N (0,1) = 1 − FN (0,1) (2, 25) = 1 − Φ(2, 25) = 1 − 0, 9878 = 0, 0122 = 1, 22%. (Hierbei bezeichnet Φ(x) die Verteilungsfunktion der N (0, 1)-Verteilung) → Eine monatliche Kurssteigerung um mehr als 5% ist lediglich mit einer Wahrscheinlichkeit von 1,22% zu erwarten. Dr. Matthias Arnold 286 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung a) Tabellierte Verteilungsfunktion Φ(x) der N (0, 1)-Verteilung x2 x1 0,0 0,00 0,5000 ··· ··· 0,04 0,5160 0,05 0,5199 0,06 0,5239 ··· ··· .. . .. . .. .. . .. . .. . .. . 2,1 0,9821 ··· 0,9838 0,9842 0,9846 ··· 2,2 0,9861 ··· 0,9875 0,9878 0,9881 ··· 2,3 0,9893 ··· 0,9904 0,9906 0,9909 ··· .. . .. . .. . .. . .. . .. . .. Dr. Matthias Arnold . . 287 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung (Fortsetzung) b) Zentraler Grenzwertsatz (Grund für enorme Bedeutung der Normalverteilung): X1 , ..., Xn seien unabhängig identisch verteilte (uiv) Zufallsvariablen mit E (Xi ) = μ und Var (Xi ) = σ 2 . Dann gilt: ⎛ n ⎞ X − nμ ⎜ i=1 i ⎟ √ ≤ x⎟ = Φ (x) lim P ⎜ ⎝ ⎠ n→∞ σ n bzw. √ X̄n − μ n lim P ≤x n→∞ σ Dr. Matthias Arnold = Φ (x). 288 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung (Fortsetzung) c) Mit Hilfe von b) lassen sich also hinreichend große Scharen unabhängiger Zufallsvariablen mit gleicher Verteilung (egal welcher!) an die Standardnormalverteilung annähern. Spezialfall: X1 , ..., Xn uiv mit Xi ∼ Bin (1, p). Somit ist μ = p, σ 2 = p · (1 − p) und es gilt ⎞ ⎛ n X − np ⎟ ⎜ i=1 i ⎟ = Φ (x). lim P ⎜ ≤ x ⎠ n→∞ ⎝ np (1 − p) Faustregel“: Approximation aus b) akzeptabel, wenn ” (1) n ≥ 30, Dr. Matthias Arnold (2) np ≥ 10, (3) n (1 − p) ≥ 10 289 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 10.7 Angenommen, die täglichen Änderungen des Deutschen Aktienindexes (DAX) seien unabhängige Zufallsvariablen, wobei P (DAX steigt) = P (DAX fällt) = 1/2 Mit welcher Wahrscheinlichkeit steigt dann der DAX an mehr als 120 von insgesamt 200 Börsentagen? Definiere Xi = 1 DAX steigt an Börsentag i (i = 1, ..., 200) 0 sonst Dann gilt: X1 , ..., X200 Dr. Matthias Arnold 1 ∼ Bin 1, 2 uiv ⇒ X= 200 i=1 1 Xi ∼ Bin 200, 2 290 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 10.7 (Fortsetzung) Gesucht: P (X > 120) = 1 − P (X ≤ 120) (nicht tabelliert) = 1− 120 P (X = k) k=0 = 1− k 200−k 120 1 200 1 k=0 k 2 2 (kaum berechenbar) → wende Bemerkung c) nach Beispiel 10.6 an Dr. Matthias Arnold 291 Universität Erfurt Sommersemester 2012 - Statistik Beispiel 10.7 (Fortsetzung) Faustregeln“ erfüllt? ” n = 200 ≥ 30 , Also: P (X > 120) np = 100 ≥ 10 , n (1 − p) = 100 ≥ 10 ⎞ ⎛ ⎜ X − 100 ⎜ ≤ = 1 − P (X ≤ 120) = 1 − P ⎜ √ ⎝ 50 ⎟ ⎟ 120−100 √ ⎟ 50 ⎠ ≈N (0,1) ≈ 1 − Φ (2, 83) = 1 − 0, 9977 = 0, 0023 = 0, 23% → Unter gegebenen Annahmen steigt der DAX an mehr als 120 von insgesamt 200 Börsentagen mit einer Wahrscheinlichkeit von (lediglich) 0,23% Dr. Matthias Arnold 292 Universität Erfurt Sommersemester 2012 - Statistik Bemerkung Fazit/Zusammenfassung Kapitel 10 Unabhängige Wiederholungen eines Bernoulliexperiments → Binomialverteilung Wichtigste stetige Verteilung: Normalverteilung Berechnung von Wahrscheinlichkeiten für normalverteilte Zufallsvariablen immer über Standardnormalverteilung (siehe Bem. c) nach Def. 10.4) Approximation beliebiger Verteilungen durch Standardnormalverteilung bei großem Stichprobenumfang möglich (siehe Bem.b) bzw. c) nach Bsp. 10.6) Dr. Matthias Arnold 293