Skript zur Vorlesung “Statistik für WiSos“ Prof. Dr. Walter Krämer Inhaltsverzeichnis I. Deskriptive Statistik 5 1. Motivation 5 2. Mittelwerte 7 2.1. Das arithmetische Mittel . . . . . . . . . . . . . . . . . . . . . . 7 2.2. Der Median (= Zentralwert) . . . . . . . . . . . . . . . . . . . . 8 2.3. Das geometrische Mittel . . . . . . . . . . . . . . . . . . . . . . 9 2.4. Das harmonische Mittel . . . . . . . . . . . . . . . . . . . . . . 10 2.5. Der Zusammenhang zwischen arithmetischem, geometrischem und harmonischem Mittel . . . . . . . . . . . . . . . . . . . . . 11 3. Streuungsmaße 12 3.1. Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2. Die Standardabweichung . . . . . . . . . . . . . . . . . . . . . . 13 3.3. Eigenschaften von sx und s2x . . . . . . . . . . . . . . . . . . . . 13 4. Maße für Konzentration und Ungleichheit 15 4.1. Die Lorenzkurve . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.2. Der Gini-Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . 18 4.3. Der Koeffizient von Herfindahl . . . . . . . . . . . . . . . . . . . 21 5. Maße für Korrelation und Abhängigkeit ( Statistik verstehen“, Kap.13) 22 ” 5.1. Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 5.2. Der Bravais-Pearson-Korrelationskoeffizient . . . . . . . . . . . . 22 5.3. Korrelation und Kausalität . . . . . . . . . . . . . . . . . . . . . 27 6. Elementare Regressionsrechnung 28 6.1. Die Methode der kleinsten Quadrate . . . . . . . . . . . . . . . 28 2 6.2. Das lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . 31 7. Preisindizes 34 7.1. Die Indexformel nach Laspeyres . . . . . . . . . . . . . . . . . . 34 7.2. Der Preisindex nach Paasche . . . . . . . . . . . . . . . . . . . . 35 7.3. Preisindex für die Lebenshaltung . . . . . . . . . . . . . . . . . 36 7.4. Spezialprobleme von Aktienindices . . . . . . . . . . . . . . . . 37 II. Wahrscheinlichkeitsrechnung 39 8. Zufällige Ereignisse und ihre Wahrscheinlichkeiten 39 8.1. Ausgewählte Beispiele . . . . . . . . . . . . . . . . . . . . . . . 39 8.2. Zufällige Ereignisse (Bamberg/Baur, Kap. 7.1-7.3) . . . . . . . . . 39 8.3. Wahrscheinlichkeiten von zufälligen Ereignissen . . . . . . . . . 41 8.4. Unabhängige Ereignisse und bedingte Wahrscheinlichkeiten . . . 43 8.5. Weitere Anwendungen . . . . . . . . . . . . . . . . . . . . . . . 44 9. Zufallsvariablen und Verteilungsfunktionen (Bamberg/Baur, Kap. 8.1, 47 8.2) 9.1. Definitionen und Überblick . . . . . . . . . . . . . . . . . . . . . 47 9.2. Wahrscheinlichkeits- und Verteilungsfunktion bei diskreten Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 10.Erwartungswert und Varianz von Zufallsvariablen (Bamberg/Baur, 53 Kap. 8.1, 8.2) 10.1. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 10.2. Eigenschaften von Erwartungswerten . . . . . . . . . . . . . . . 56 10.3. Die Varianz von Zufallsvariablen . . . . . . . . . . . . . . . . . . 57 10.4. Kovarianz und Korrelation von Zufallsvariablen . . . . . . . . . 59 3 11.Ausgewählte Typen von Zufallsvariablen im Detail 61 11.1. Binomialverteilte Zufallsvariable (Bamberg/Baur, Kap. 8.4.1) . . . 61 11.2. Normalverteilte Zufallsvariable (Bamberg/Baur, Kap. 8.6.3) . . . 62 III. Induktive Statistik 67 12.Punktschätzungen (Bamberg/Baur, Kap. 12.1) 67 12.1. Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 12.2. Schätzung unbekannter Erwartungswerte . . . . . . . . . . . . . 67 12.3. Schätzung unbekannter Wahrscheinlichkeiten . . . . . . . . . . . 69 12.4. Schätzung unbekannter Varianzen . . . . . . . . . . . . . . . . . 69 13.Intervallschätzungen (=Konfidenzintervalle) 71 13.1. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 13.2. KI’e für unbekannte Erwartungswerte µ bei normalverteilten Stichproben-Variablen mit bekannter Varianz σ 2 . . . . . . . . . 71 13.3. KI’e für µ bei normalverteilten Xi und unbekanntem σ 2 . . . . . 73 13.4. KI’e für unbekannte Wahrscheinlichkeiten (Bamberg/Baur, Kap. 13.3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 14.Statistische Signifikanztests (Bamberg/Baur, Kap. 14.1) 76 14.1. Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 14.2. Testen von Hypothesen über Erwartungswerte normalverteilter Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 14.3. Der χ2 - Unabhängigkeitstest . . . . . . . . . . . . . . . . . . . 79 4 Teil I. Deskriptive Statistik 1. Motivation Beispiel 1: Indexzahlen Preisindex (PI) für die Lebenshaltung: Jan 2000: 99, 4 Aug 2006: 110, 6 Aug 2007: 112, 7 112,7 Aug 2006 → Aug 2007 ( 110,6 − 1) · 100 = 1, 9% Dez 2006: 111, 1; in 7 Jahren: 11, 7% Wachstum Durchschnitt 11,7% 7 = 1, 67% FALSCH!!! Dito: Kurs einer Aktie:100 → 160 → 80 Wachstumdraten: +60% und −50%; Durchschnitt = 60%−50% 2 = 5% ??? Beispiel 2: Aktienkennziffern: Stand des DAX am 16.10.07 um 17:45 Uhr: 7962,64 Beispiel 3: Optionsbewertung Beispiel 4: Armut und Ungleichheit Land A: 0 0 0 3 3 3 5 Land B: 1 1 1 1 1 1 8 Das Durchschnittseinkommen (im Sinne des arithmetischen Mittels) ist in beiden Ländern identisch (= 2) 5 Beispiel 5: Demographie: P (Ehepaar 20/25 erlebt goldene Hochzeit)=? P(noch am Leben)= 0, 8 × 0, 47 = 0, 376 ∆ (Lebenserwartung) bei Elimination von Krebs = 2, 9 Jahre Weitere Anwendungen • Linguistik • Wahlhochrechnungen • Marketing • Versicherungstabellen • Portfolio-Management 6 2. Mittelwerte 2.1. Das arithmetische Mittel Beispiel 1: Merkmal: Einkommen (quantitativ alias metrisch) mit den Merkmalsausprägungen: 0 0 1 3 16 gesucht: durchschnittliches“ Einkommen ” Antwort: arithmetisches Mittel: x̄a = allgemein: x̄a = 20 0 + 0 + 1 + 3 + 16 = =4 5 5 x1 + . . . + xn 1 1 1 = x1 + x2 + . . . + xn n n n n Im Beispiel: n = 5 x1 = 0, x2 = 0, x3 = 1, x4 = 3, x5 = 16 ⇒ x̄a = 15 ·0+ 51 ·0+ 51 ·1+ 51 ·3+ 51 ·16 = 4 einfaches arithmetisches Mittel oft irreführend Definition: gewogenes arithmetisches Mittel Sei X ein metrisches Merkmal mit Ausprägungen x1 , . . . , xn . Seien g1 , g2 , . . . , gn n P nichtnegative, reelle Zahlen mit gi = 1. Dann heißt i=1 x̄ga := g1 x1 + g2 x2 + . . . + gn xn das gewichtete ( = gewogene ) arithmetische Mittel der xi . Beispiel 2: Durchschnittskosten des Autofahrens Kostenanteil Benzin: 90% = 9 10 = 0, 9 | Kostenanteil Öl: 10% = 1 10 = 0, 1 Preisanstieg von Benzin = x1 = +50% ; Preisanstieg von Öl = x2 = +10% ⇒ x̄ga = 0, 9 · 50% + 0, 1 · 10% = 46% 7 eine schöne Eigenschaft des arithmetischen Mittels: Satz 2.1: Seien X, Y und Z metrische Merkmale mit den Ausprägungen xi , yi , zi (i = 1, . . . , n) und zi = axi + byi . Dann gilt: z̄a = ax̄a + bȳa Achtung: Das gilt für andere Durchschnitte im allgemeinen nicht! 2.2. Der Median (= Zentralwert) in Beispiel 1: Median = x̄m = 1 Definition: Der Median ist diejenige Merkmalsausprägung, die bei Anordnung der Größe nach in der Mitte steht. Vorteile: - robust gegen Ausreißer“ ” - Wert ist fast immer eine tatsächlich vorkommende Merkmalsausprägung - auch bei ordinalen Merkmalen anwendbar Beispiel 3: 5 Restaurants: miserabel, schlecht, mäßig, gut, hervorragend 8 ⇒ Median = mäßig Weitere Eigenschaften des arithmetischen Mittels und des Medians: Satz 2.2: n X x̄a = arg min z∈R i=1 (xi − z)2 n X x̄m = arg min z∈R i=1 |xi − z| ! ! 2.3. Das geometrische Mittel Definition: Sei X ein metrisches Merkmal mit nichtnegativen Ausprägungen x1 , . . . , xn . Dann heißt x̄g := √ n x1 · x2 · . . . · xn das geometrische Mittel von x1 , . . . , xn . Beispiel: x1 = 1, x2 = 2, x3 = 4 ⇒ x̄g = √ 3 1·2·4= √ 3 8=2 Hauptanwendung: Durchschnittliche Wachstumsraten Periode 1 2 3 Kurs Xt 100 160 80 W-Rate rt + 60 % = +0,6 -50 % = - 0,5 gesucht: Durchschnittliche Wachstumsrate Todsünde: arithmetisches Mittel = 5% 9 Korrekt: geometrisches Mittel = √ 2 1, 6 · 0, 5 − 1 = −0, 1056 = −10, 56% zur Begründung ein allgemeines Beispiel: Anfangskapital: K0 nach 1 Periode: K0 + r1 · K0 = K0 (1 + r1 ) = K1 (1 + r1 heißt auch Wachstumsfaktor) nach 2 Perioden: K2 = K1 (1 + r2 ) = K0 (1 + r1 ) · (1 + r2 ) .. . nach n Perioden: Kn = K0 (1 + r1 )(1 + r2 ) . . . (1 + rn ) gesucht: geeigneter Durchschnitt von r1 , r2 , . . . , rn (= r̄ ) Anforderungen an r̄: K0 (1 + r̄) · (1 + r̄) . . . (1 + r̄) = K0 (1 + r̄)n = K0 (1 + r1 )(1 + r2 ) . . . (1 + rn ) p Auflösung nach r̄: (1+r̄)n = (1+r1 )·. . .·(1+rn ) ⇒ (1+r̄) = n (1 + r1 ) . . . (1 + rn ) p Durchschnittliche W-Rate: r̄ = n (1 + r1 )(1 + r2 ) . . . (1 + rn ) − 1 √ √ im Beispiel: r̄ = 2 1, 6 · 0, 5 − 1 = 0, 8 − 1 = 0, 8944 − 1 = −0, 1056 2.4. Das harmonische Mittel Zum Namen: 2 Gitarrensaiten der Länge 1 und 1/2 → harmonisches Mittel“: 2/3 ” Definition: Sei X ein metrisches Merkmal mit positiven Ausprägungen x1 , . . . , xn . Dann heißt 1 x̄h = 1 n 10 n P i=1 1 xi das harmonische Mittel von x1 , . . . , xn . Anwendung: Autofahrt DO → Duisburg → DO, einfache Strecke: 50 km hin: 1/2 h, d.h. Geschwindigkeit = 100km/h zurück: 1 h , d.h. Geschwindigkeit = 50 km/h Mittlere Geschwindigkeit x̄h in km : h Gesamtstrecke 100 km h = 66, 67 km x̄ = Gesamte Zeit = 1,5 h h 1 km 1 km 200 km = 1( 1 + 1 ) = 3 = 3 = 66, 67 km h h h h 2 50 100 200 2.5. Der Zusammenhang zwischen arithmetischem, geometrischem und harmonischem Mittel Beispiel: n = 2, x1 = 1, x2 = 3 1+3 4 x̄a = = =2 2√ √2 x̄g = 1 · 3 = 3 = 1, 732 1 6 = 1, 5 x̄h = 1 1 = 4 (1 + 3 ) 2 Satz 2.3: Es gilt immer x̄h ≤ x̄g ≤ x̄a . Beweis, daß x̄g ≤ x̄a für n = 2 √ zu zeigen: x1 · x2 ≤ 12 (x1 + x2 ) offenbar gilt: 0 ≤ (x1 − x2 )2 = x21 − 2x1 x2 + x22 | + 4x1 x2 4x1 x2 ≤ x21 + 2x1 x2 + x22 | : 4 √ x1 x2 ≤ 14 (x21 + 2x1 x2 + x2 ) | √ x1 x2 ≤ 12 (x1 + x2 ) 11 3. Streuungsmaße 3.1. Problemstellung Beispiel : X = Einkommen im Land A: 0 0 1 3 16 x̄a = 4 Y = Einkommen im Land B: 3 3 4 5 5 ȳ a = 4 gesucht: geeignetes Maß für die Streuung Definition: Rx = xmax − xmin heißt Spannweite (= range“) von X. ” im Beispiel: Rx = 16 − 0 = 16; Ry = 5 − 3 = 2 Nachteil: Bei der Spannweite wird die kleinste Zahl von der größten subtrahiert. Alles, was zwischen kleinstem und größtem Wert passiert, geht in die Spannweite nicht mit ein. Definition: n P |xi − x̄m | heißt mittlere absolute Abweichung (vom Median). dx = n1 · ∆x = 1 n2 i=1 n P n P i=1 j=1 |xi − xj | heißt mittlerer absoluter Abstand . im Beispiel: dx = 15 (1 + 1 + 0 + 2 + 15) = ∆x = 1 (0 + 0 25 19 5 = 3, 8 + 1 + 3 + 16 + 0 + 0 + 1 + 3 + 16 + 1 + 1 + 0 + 2 + 15 + 3 + 3 + 2 + 0 + 13 + 16 + 16 + 15 + 13 + 0) = 140 25 12 = 5, 6 3.2. Die Standardabweichung Definition: n P s2x = n1 (xi − x̄a )2 heißt mittlere quadratische Abweichung (alias em” i=1 pirische Varianz“). im Beispiel: s2x = 51 ((−4)2 + (−4)2 + (−3)2 + (−1)2 + (12)2 ) = 15 (16 + 16 + 9 + 1 + 144) = 186 5 = 37, 2 Trick für praktische Berechnung n P Satz 3.1: s2x = n1 x2i − (x̄a )2 i=1 5 P Im Beispiel: 15 x2i = 15 (0 + 0 + 1 + 9 + 256) = P 2 i=1a 2 d.h. n1 xi − (x̄ ) = 53, 2 − 16 = 37, 2 Nachteil: yi = axi → s2y = a2 s2x Definition: p sx = s2x heißt Standardabweichung . √ im Beispiel: sx = 37, 2 = 6, 099 3.3. Eigenschaften von sx und s2x Satz 3.2: Es gilt immer: (i) yi = axi ⇒ s2y = a2 s2x sy = |a|sx 13 266 5 = 53, 2, (x̄a )2 = 42 = 16, (ii) yi = xi + b ⇒ s2x = s2y Beispiel: yi = 2xi = 0, 0, 2, 6, 32 ȳ a = 2x̄a = 2 · 4 = 8 und s2y = 15 (64 + 64 + 36 + 4 + 576) = 148, 8 = 4 · 37, 2 14 4. Maße für Konzentration und Ungleichheit 4.1. Die Lorenzkurve Anteil der i Ärmsten : i P x(j) j=1 n P xj տ der Größe nach aufsteigend sortiert j=1 Definition: i P x(j) i j=1 Der Polygonzug durch die Punkte ( , P ) mit (i = 0, . . . , n) heißt n n xj j=1 Lorenzkurve“ (nach Max Otto Lorenz (1876-1959), US-amerikanischer Sta” tistiker). Beispiel 1: X = Einkommen in Land A: 0, 0, 1, 3, 16 Y = Einkommen in Land B: 16, 16, 17, 19, 32 s2x = s2y = 37, 2 ⇒ sx = sy = 6, 099 offenbar gilt: in A in B die 20% Ärmsten haben 0% 16% des Gesamteinkommens die 40% Ärmsten haben 0% 32% des Gesamteinkommens die 60% Ärmsten haben 5% 49% des Gesamteinkommens die 80% Ärmsten haben 20% 68% des Gesamteinkommens alle genannten haben 100% 100% des Gesamteinkommens 15 0.8 0.6 0.6 0.8 1.0 Land B 1.0 Land A 0.4 0.2 0.0 0.0 0.2 0.4 16 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Beispiel 2: Einkommen privater Haushalte in Deutschland 1998 (netto DM/Monat) HH (Mio) ges. Einkommen (Mio) < 2500 7, 77 14127 2500 − 5000 14, 13 51666 5000 − 10000 11, 99 82566 ≥ 10000 2, 92 39786 zusammen 36, 81 188145 ← gruppierte Daten Lorenzkurve der Einkommen von Deutschland 1988: die 7, 77/36, 81 = 21% Ärmsten haben 14127/188145 = 7, 5% des Gesamteinkommens, die (7, 77 + 14, 13)/(36, 81) = 59% Ärmsten haben (14127 + 51666)/(188145) = 35% des Gesamteinkommens, die (7, 77+11, 99+14, 13)/(36, 81) = 92% Ärmsten haben 82% des Gesamteinkommens, die 100% Ärmsten haben 100% des Gesamteinkommens. 17 Lorenzkurve 1.0 0.8 0.6 0.4 0.2 0.0 0.2 0.4 0.6 0.8 1.0 Satz 4.1: Eigenschaften der Lorenzkurve • Die Lorenzkurve geht immer durch die Punkte (0, 0) und (1, 1). • Sie verläuft nie oberhalb der Winkelhalbierenden. • Lorenzkurve = Winkelhalbierende ⇔ Alle Merkmalsausprägungen sind identisch. • Ungleichheit umso größer, je weiter Lorenzkurve von der Winkelhalbierenden entfernt • Die Lorenzkurve bleibt gleich, wenn man alle Einkommen mit dem gleichen Faktor multipliziert. 4.2. Der Gini-Koeffizient Definition: Das Doppelte der Fläche zwischen Lorenzkurve und Winkelhalbierender 18 (= Konzentrationsfläche“) heißt Gini-Koeffizient“ (Ĝx ) (nach Corrado ” ” Gini (1884-1965), ital. Statistiker). Es ist Ĝx = ∆x 1 XX mit ∆x = |xi − xj | 2x̄a n2 i j mit i, j ≤ n als Laufindizes der n Beobachtungen x1 , ..., xn . Satz 4.2: Eigenschaften des Gini-Koeffizienten • 0 ≤ Gx ≤ 1: Gini-Koeffizient liegt immer zwischen 0 und 1. • Gx = 0 ⇔ alle xi sind gleich. • yi = axi ⇒ Gy = Gx Ausgangsbeispiel (Beispiel 1): Land A Fläche I: (0, 2 · 0, 05)/2 = 0, 005 19 Fläche II: 0, 2 · 0, 05 + (0, 2 · 0, 15)/(2) = 0, 025 Fläche III: 0, 2 · 0, 20 + (0, 2 · 0, 8)/(2) == 0, 12 d.h. Konzentrationsfläche = 0, 5 − 0, 005 − 0, 025 − 0, 12 = 0, 35 ⇒ Gini-Koeffizient: Gx = 0, 35 · 2 = 0, 7 Land B Fläche I: (0, 2 · 0, 16)/2 = 0, 016 Fläche II: 0, 2 · 0, 16 + (0, 2 · 0, 16)/(2) = 0, 048 Fläche III: 0, 2 · 0, 32 + (0, 2 · 0, 17)/(2) = 0, 081 Fläche IV: 0, 2 · 0, 49 + (0, 2 · 0, 19)/(2) = 0, 117 Fläche V: 0, 2 · 0, 68 + (0, 2 · 0, 32)/(2) = 0, 168 d.h. Konzentrationsfläche = 0, 5−0, 016−0, 048−0, 081−0, 117−0, 168 = 0, 07 ⇒ Gini-Koeffizient: Gx = 0, 07 · 2 = 0, 14 Alternative Berechnung des Gini-Koeffizienten: Gx = Land A: 0, 0, 1, 3, 16 ⇒ x̄ = 4, ∆x = ∆x 2x̄a 140 140 140 ⇒ Gx = = = 0, 7 25 25 · 8 200 mit ∆x = 1/52 · (|0 − 0| + |0 − 0| + |0 − 1| + |0 − 3| + |0 − 16| + |0 − 0| + |0 − 0| + |0 − 1| + |0 − 3| +|0 − 16| + |1 − 0| + |1 − 0| + |1 − 3| + . . .) = 140/25 Land B: 16, 16, 17, 19, 32 ⇒ x̄ = 20, ∆x = 140 140 ⇒ Gx = = 0, 14 25 25 · 40 Beispiel 3: 3 Firmen, mit Umsätzen 100, 40, 10 ∆x Gx = mit x̄a = 50; 2x̄a = 100; ∆x = 19 (60 + 90 + 60 + 30 + 90 + 30) = 2x̄a 360 40 = 40; Gx = = 0, 4 9 100 Angenommen, weitere Firma mit Umsatz 0 kommt dazu: x̄ = 150 , 4 ⇒ Gx = ∆x = (360 + 100 + 40 + 10 + 100 + 40 + 10)/16 = 660/16 660 300 / 4 16 = 660∆4 300∆16 = 0, 55 (größer als alter Gini-Koeffizient) 20 4.3. Der Koeffizient von Herfindahl Definition: 2 n P xi heißt Herfindahl-Koeffizient (nach Orris C. Herfindahl P Hx = n i=1 xi i=1 (1918-1972), US-amerikanischer Ökonom). im Beispiel: 2 Hx = 100 + 150 40 2 150 + 10 2 150 + 02 = 0, 52 ← ist der gleiche vor - und nach Hinzunahme des Unternehmens mit Umsatz 0 Satz 4.3: Eigenschaften des Herfindahl-Koeffizienten • 1 n ≤ Hx ≤ 1 • Hx = 1 ⇔ alle xi außer einem sind 0 • Hx = 1 n ⇔ alle xi sind gleich Häufiges Problem: Umsätze kleiner Firmen unbekannt Firma Nr. 1 2 3 4 Umsatzanteil 40 % 25 % 20 % 10 % 95% gesucht: Hx : 0, 42 + 0, 252 + 0, 22 + 0, 12 + |{z} ... | {z } ? =0,2725 2 es gilt: 0 < Rest ≤ 0, 05 = 0, 0025 0, 2725 + 0, 052 = 0, 2750, d.h. 0, 2725 < Hx ≤ 0, 2750 21 5. Maße für Korrelation und Abhängigkeit ( Statistik ” verstehen“, Kap.13) 5.1. Problemstellung bisher: 1 Merkmal (= Variable) pro Merkmalsträger jetzt: 2 Merkmale Beispiele: Merkmalsträger Merkmal (=Variable) Nr. 1 = X Merkmal (=Variable) Nr. 2 = Y gebrauchter PKW Alter Preis Mietwagen Größe Mietpreis Börsentag Rendite BMW Rendite Daimler Bundesliga Tabellenpunkte geschossene Tore erwachsener Bundesbürger Schulbildung Einkommen usw... Wie kann man das Ausmaß des Zusammenhangs zwischen zwei Merkmalen sinnvoll messen? Im weiteren: beide Merkmale metrisch! 5.2. Der Bravais-Pearson-Korrelationskoeffizient Beispiel: Körpergröße (X) - Gewicht (Y ) von 12 erwachsenen männlichen Bundesbürgern 22 X 170 172 175 176 177 180 180 183 185 187 188 194 Y 60 76 60 75 66 65 78 75 87 72 90 1. Schritt: Streudiagramm“ ” 100 90 Y 80 70 60 165 170 175 180 185 X 2. Schritt: Standardisieren“ ” x∗i := xi − x̄ sx 23 190 195 200 92 3. Schritt: Streudiagramm der standardisierten Werte Abweichung vom Mittelwert von Y 2 1 0 −1 −2 −2 −1 0 1 2 Abweichung vom Mittelwert von X Definition: rxy n P (xi − x̄)(yi − ȳ) sxy i=1 := =s n n sx sy P P (xi − x̄)2 (yi − ȳ)2 i=1 i=1 heißt Bravais-Pearson Korrelationskoeffizient (nach Auguste Bravais (18111863), französischer Physiker und Karl Pearson (1857-1936), britischer Statistiker). 24 Alternative Schreibweise: 1 n − x̄)(yi − ȳ) Sxy q , = 1 s s 2 2 x y (yi − ȳ) i=1 (xi − x̄) n rxy = q P n 1 n wobei sxy = Pn 1 n Pn i=1 (xi i=1 (xi − x̄)(yi − ȳ) die empirische Kovarianz ist. Eigenschaften der (empirischen) Kovarianz: Satz 5.1: • sxy = 1 n n P i=1 xi yi − x̄ȳ • zi = yi + a ⇒ sxz = sxy die empirische Kovarianz ändert sich nicht, wenn eine Konstante zu einem Merkmal addiert wird. • zi = ayi ⇒ sxz = asxy allgemein: s(ax+b)(cy+d) = acsxy • |sxy | ≤ sx sy • |sxy | = sx sy ⇔ yi = axi + b mit a 6= 0 Eigenschaften des Bravais-Pearson Korrelationskoeffizienten: • −1 ≤ rxy ≤ 1 • rxy = +1 ⇔ yi = axi + b mit a > 0 (größte positive Korrelation) • rxy = −1 ⇔ yi = axi + b mit a < 0 (größte negative Korrelation) 25 Korrelationskoeffizient = 1 Korrelationskoeffizient = −1 26 5.3. Korrelation und Kausalität häufiger Trugschluß: X und Y sind korreliert ⇒ X ist Ursache für Y. alternative Erklärung: • Y ist Ursache für X • Z րX beide Variablen hängen von einer dritten Variable ab. ցY (wichtigste dritte Variable ist die Zeit) 27 6. Elementare Regressionsrechnung 6.1. Die Methode der kleinsten Quadrate Beispiel: 2 metrische Variablen X, Y mit folgenden Beobachtungen: i 1 2 3 4 5 6 7 xi 5 6 11 8 13 8 10 16 13 yi 8 7 10 11 10 11 12 12 9 8 9 Streudiagramm der Wertepaare 15 Y 10 5 0 0 5 10 15 X gesucht: Gerade, welche die Punkte (xi ; yi ) möglichst gut approximiert. 28 Vorschläge: • nach Augenmaß • verbinde Extrempunkte • minimiere die Summe der absoluten Abweichungen • minimiere die Summe der quadrierten Abweichungen Definition: Die Gerade y = a + bx durch die Punktewolke {(xi ; yi )} , welche die Summe der quadrierten vertikalen Abweichungen minimiert, heißt KQ-Ausgleichsgerade. Eigenschaften: • die KQ-Gerade geht immer durch den Punkt (x̄, ȳ) • die Steigung der KQ-Geraden ist gegeben durch b= n P i=1 (xi − x̄)(yi − ȳ) n P i=1 (xi − x̄)2 = sxy s2x • der Achsenabschnitt der KQ-Geraden ist gegeben durch a = ȳ − bx̄ 29 Im Beispiel: xi xi − x̄ yi yi − ȳ (xi − x̄)(yi − ȳ) xi yi (xi − x̄)2 (yi − ȳ)2 5 -5 8 -2 10 40 25 4 6 -4 7 -3 12 42 16 9 11 1 9 -1 -1 99 1 1 8 -2 10 0 0 80 4 0 13 3 11 1 3 143 9 1 8 -2 10 0 0 80 4 0 10 0 11 1 0 110 0 1 16 6 12 2 12 192 36 4 13 P = 90 3 P =0 12 P = 90 2 P 156 6 P =0 = 42 P = 942 Steigung der KQ-Geraden: sxy b= 2= sx 42 9 104 9 = 4, 67 = 0, 40 11, 56 Achsenabschnitt der KQ-Geraden: a = ȳ − bx̄ = 10 − 0, 4 · 10 = 6 ⇒ KQ-Gerade: y = 0, 4 · x + 6 30 9 P = 104 4 P = 24 KQ−Gerade 15 Y 10 5 0 0 5 10 15 X 6.2. Das lineare Regressionsmodell Beispiel: Keynesianische Konsumfunktion Konsumi = α + β Einkommeni + ui der Achsenabschnitt α bezeichnet die absolute Konsumquote; die Steigung β bezeichnet die marginale Konsumquote; ui ist die Störgröße Lösung: Schätze α durch a und β durch b 31 Weitere Beispiele: X Y Werbeausgaben Umsatz Alter gebrauchter PKW Preis Größe einer Wohnung Miete Menge Düngemittel .. . Ernteertrag .. . wichtig: • a priori bekannt: X verursacht Y • nur eine erklärende Variable (sonst: multiple Regressionsanalyse“) ” • Y hängt linear von X ab: Y = α + βX + Störung“ ” Beispiel für nichtlinearen Zusammenhang: X = Alter PKW, Y = Preis Y =a· 1 X +b Lösung: Definiere neuen Regressor X ∗ = 1 X Weiteres Beispiel: Cobb-Douglas Produktionsfunktion Output = λ · Arbeitβ · Kapitalγ ist nicht linear Lösung: logarithmieren ln(Output) = ln(λ) + βln(A) + βln(K) im Weiteren: 1 Regressor x und linearer Zusammenhang: (entweder alle übrigen Einflußgrößen konstant oder nur eine Ursache): y ≈ ax + b ⇒ y = ax + b+ Störung 32 Problem: Bestimmung von a und b Lösung: Approximiere a und b durch die Koeffizienten der KQ-Geraden wichtig: ceteris-paribus Bedingung (alles andere bleibt gleich) 33 7. Preisindizes 7.1. Die Indexformel nach Laspeyres Beispiel: Konsumausgaben eines ausgewählten Wirtschaftssubjektes Periode 0 (=Basisperiode) Periode 1 (=Basisperiode) Preis Menge Preis Menge p0 q0 p1 q1 Zigaretten 2,- 8 4,- 4 Fertigpizza 5,- 4 3,- 9 Kino 6,- 2 11,- 1 Rotwein 3,- 4 2,- 6 p̄0 = 16 4 =4 p̄1 = 20 4 =5 gesucht: durchschnittliche Preisänderung = ? grober Unfug: Vergleich der Durchschnittspreise Genauso dumm: Vergleich der Gesamtausgaben P GA0 = 4i=1 p0 (i)q0 (i) = 16 + 20 + 12 + 12 = 60 P GA1 = 4i=1 p1 (i)q1 (i) = 16 + 27 + 11 + 12 = 66 Definition: L P0t Pn pt (i)q0 (i) := Pni=1 heißt Preisindex nach Laspeyres i=1 po (i)qo (i) mit Basisperiode 0 und Berichtsperiode t (nach Etienne Laspeyres (1834 1913), deutscher Statistiker). 34 Im Beispiel: L d.h. P01 = 74 60 P4 i=1 p1 (i)qo (i) = 4 · 8 + 3 · 4 + 11 · 2 + 2 · 4 = 74 = 1, 233, entsprechend einem mittleren Preisanstieg von 23, 3%. Satz 7.1: p0 (i)q0 (i) Sei g0 (i) = Pn . j=1 p0 (j)q0 (j) Dann gilt: L P0t = n X pt (i) i=1 p0 (i) g0 (i) (gewogenes arithmetisches Mittel der individuellen Preisverhältnisse). Im Beispiel: P4 p1 (i) i=1 p0 (i) g0 (i) = 4 2 · 16 60 + 35 · 20 60 + 11 6 · 12 60 + 23 · 12 60 = 1, 233 7.2. Der Preisindex nach Paasche Definition: P P0t Pn pt (i) · qt (i) heißt Preisindex nach Paasche p (i) · q (i) 0 t i=1 = Pni=1 (nach Herrmann Paasche (1851 - 1922), deutscher Statistiker). Im Beispiel: P d.h.: P01 = 66 77 P4 i=1 p0 (i) · q1 (i) = 2 · 4 + 5 · 9 + 6 · 1 + 3 · 6 = 77 = 0, 857, dies entspricht einer mittleren Preissenkung um 14, 3% → Nach Laspeyres sind die Preise gestiegen, nach Paasche gesunken 35 Satz 7.2: p0 (i)qt (i) Sei gt (i) = P . Dann gilt: n p0 (j)qt (j) j=1 P P0t = n X pt (i) p0 (i) i=1 gt (i). Andere Gewichte als bei Laspeyres! Im Beispiel: P P01 = 4 2 · 8 77 + 3 5 · 45 77 + 11 6 · 6 77 + 2 3 · 18 77 = 6 7 = 0, 857 Definition: q F L P P0t = P0t · P0t heißt idealer Preisindex nach Fisher“ . ” Im Beispiel: F P01 = √ 1, 223 · 0, 857 = 1, 028 7.3. Preisindex für die Lebenshaltung Grundlage: Indexformel von Laspeyres Vorteil: Verbrauchsdaten müssen nur für Basisperiode erhoben werden! 5 Teilprobleme: • Bestimmung des Warenkorbs (aktuell: Warenkorb von 2000, n = 750 Güter) • Auswahl von Preisrepräsentanten“ ” • Messung der Preise • Berücksichtigung von Qualitätsänderungen 36 7.4. Spezialprobleme von Aktienindices Eigenheit: Was vorher grober Unfug war, ist jetzt erlaubt! 1. Fall: Dow-Jones (eigentlich D. J. Industrial Average * 26.05.1896) ist ein gewöhnliches arithmetisches Mittel (von inzwischen 30) ausgewählten Aktienkursen Besonderheit: arithmetisches Mittel hier möglich, da Problem der Maßeinheiten entfällt (immer das Stück) Problem: Veränderung des Warenkorbs Beispiel: Ausgangsportfolio von 3 Aktien, mit Kursen 60, 70, 110. Die Dow-Jones-Formel ergibt: 60 + 70 + 110 240 = = 80. 3 3 Nun: Unternehmen mit Kurs 60 wird aus Index herausgenommen und durch eines mit dem Kurs 100 ersetzt, so dass sich ein neuer Index ergibt: 100 + 70 + 110 280 = = 93, 33 3 3 Problem: zwei Indexwerte für den gleichen Börsentag Ausweg: der Nenner des zweiten Indizes wird so angepasst, dass der Bruch den gleichen Wert von 80 hat wie der Index mit dem alten Aktienkurs: 100 + 70 + 110 = 80 3, 5 Solche Bereinigungen des Dow-Jones-Index werden auch bei Aktiensplits, Kapitalerhöhungen und Dividendenzahlungen vorgenommen. 37 2. Fall: DAX (eingeführt am 31.12.1987) Gibt an, wieviel seine 30 Unternehmen im Vergleich zum letzten Börsentag von 1987 heute an der Börse kosten: DAXheute = Gesamtwert des Portfolios heute · 1000 Gesamtwert des Portfolios am 31.12.1987 im Gegensatz zum Dow-Jones ist der DAX gewichtet: die einzelnen Kurse gehen um so stärker in den Zähler ein, je mehr Aktien einer Gesellschaft im Umlauf sind (da Gesamtpreis = Preis pro Aktie × Menge) Interpretation: ein DAX-Wert von 4710 bedeutet beispielsweise, dass der Marktwert der 30 DAX-Werte seit dem 30.12.1987 (als der DAX genau auf 1000 stand) um 3710 Promille (= 371%) gestiegen ist. 38 Teil II. Wahrscheinlichkeitsrechnung 8. Zufällige Ereignisse und ihre Wahrscheinlichkeiten 8.1. Ausgewählte Beispiele P(6 Richtige im Lotto) = 1 13.983.816 = 0, 000000071 P(Aktienkurs steigt an 3 von 5 Tagen an) = 10 32 P(Bei 30 zufällig ausgewählten Personen haben mind. 2 den gleichen Geburtstag) = 71% usw. . . Preisfrage: Wie rechnen wir solche Wahrscheinlichkeiten aus? 8.2. Zufällige Ereignisse (Bamberg/Baur, Kap. 7.1-7.3) Beispiel 1: Einmaliges Würfeln ( Zufallsvorgang“) ” Ergebnismenge Ω = {1, 2, 3, 4, 5, 6} Ereignisse: Teilmengen von Ω 39 Verbal Mengendarstellung Gerade Zahl A = {2, 4, 6} Ungerade Zahl B = {1, 3, 5} Primzahl C = {1, 2, 3, 5} Keine Primzahl D = {4, 6} Zahl > 3 E = {4, 5, 6} Definition: Ā := Menge aller Elemente von Ω, die nicht in A liegen, heißt Komplementärmenge von A. A ∪ B := Menge aller Elemente von Ω, die in A oder B oder in beiden liegen, heißt Vereinigungsmenge von A und B . A ∩ B := Menge aller Elemente von Ω, die sowohl in A als auch in B liegen, heißt Schnittmenge von A und B. Zusammenhang zwischen verbaler und mengengestützter Darstellung bei zusammengesetzten Ereignissen: Verbal Mengendarstellung Ungerade Zahl oder Zahl > 3 B ∪ E = {1, 3, 4, 5, 6} Primzahl und Zahl > 3 C ∩ E = {5} Keine Primzahl C̄ = {4, 6} Gerade Zahl und ungerade Zahl A∩B=Ø Definition: Zwei Ereignisse A und B heißen unvereinbar (=disjunkt ), ⇔ A ∩ B = Ø. 40 Beispiel 2: Zweimaliges Würfeln Ω= {(1, 1)(1, 2)(1, 3)(1, 4)(1, 5)(1, 6) (2, 1)(2, 2)(2, 3)(2, 4)(2, 5)(2, 6) .. . (6, 1)(6, 2)(6, 3)(6, 4)(6, 5)(6, 6)} = {1, 2, 3, 4, 5, 6} ⊗ {1, 2, 3, 4, 5, 6} → kartesisches Produkt |Ω| = 6 · 6 = 62 = 36 Beispiel 3: 3 -maliger Münzwurf Ω = {K, Z} ⊗ {K, Z} ⊗ {K, Z} = {(KKK), (KKZ), (KZK), (KZZ), (ZKK), (ZKZ), (ZZK), (ZZZ)} |Ω| = 2 · 2 · 2 = 23 = 8 Satz 8.1: Wird ein einfacher Zufallsvorgang mit K Elementarereignissen n-mal wiederholt, so hat der zusammengesetzte Zufallsvorgang K n Elementarereignisse. 8.3. Wahrscheinlichkeiten von zufälligen Ereignissen im Beispiel 2: A = beide Zahlen sind gleich = {(1, 1)(2, 2)(3, 3)(4, 4)(5, 5)(6, 6)} B = keine 6 = {(1, 1) . . . (5, 5)} C = nur ungerade Zahlen = {(1, 3)(1, 5)(3, 1)(3, 5)(5, 1)(5, 3)(1, 1)(3, 3)(5, 5)} D = Augensumme gleich 7 = {(1, 6)(2, 5)(3, 4)(4, 3)(5, 2)(6, 1)} 41 gesucht: zugehörige Wahrscheinlichkeiten Annahme: Alle Elementarereignisse sind gleichwahrscheinlich (= Laplace-Experiment) Satz 8.2: In einem Laplace Experiment gilt: |A| Anzahl aller günstigen Ergebnisse = Anzahl aller möglichen Ergebnisse |Ω| P (A) = Daraus folgt sofort: • P (A) = |A| |Ω| = 6/36 = 1/6 • P (B) = 25/36 • P (C) = 9/36 = 1/4 • P (D) = 6/36 = 1/6 Rechenregeln für Wahrscheinlichkeiten: Satz 8.3: Es gilt immer (auch außerhalb von Laplace-Experimenten) • P (Ω) = 1 • P (∅) = 0 • P (Ā) = 1 − P (A) • falls A und B disjunkt (unvereinbar): P (A ∪ B) = P (A) + P (B) • allgemein: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) • falls A und B unabhängig: P (A ∩ B) = P (A) · P (B) Multiplikationsregel“ ” Beispiel: 2-maliges Würfeln A: nur gerade Zahlen B: nur ungerade Zahlen P (A) = P (B) = 9 36 = 1 4 A ∩ B = Ø ⇒ P (A ∪ B) = 1 4 + 1 4 = 1 2 42 8.4. Unabhängige Ereignisse und bedingte Wahrscheinlichkeiten Beispiel: 2-maliges Würfeln A: erster Wurf eine 6 B: zweiter Wurf eine 6 Definition: Zwei Ereignisse A und B heißen unabhängig, wenn das Auftreten des einen Ereignisses keine Rückschlüsse auf das Auftreten des anderen zulässt. Satz 8.4: Multiplikationsregel“ ” Für unabhängige Ereignisse gilt: P (A ∩ B) = P (A) · P (B). im Beispiel: 1 6 |A∩B| |Ω| P (A) = P (B) = P (A ∩ B) = = 1 36 = 1 6 · 1 6 → A und B sind unabhängig ! Beispiel für nicht unabhängige Ereignisse: A: Augensumme = 7, P (A) = B: mindestens eine 6, P (A ∩ B) = 2 36 6 36 P (B) = 6= P (A) · P (B) = = 1 6 11 36 6 36 · 11 36 Preisfrage: P(A), wenn ich weiß, daß B eingetreten ist? Definition: Die Wahrscheinlichkeit für A in einem neuen Zufallsexperiment mit Ω = B heißt bedingte Wahrscheinlichkeit von A, gegeben B. 43 Formal: P (A|B) Im Beispiel: P (A|B) = 2 11 > P (A) = 1 6 Allgemein: Satz 8.5: (a) Falls P (B) 6= 0, so gilt: P (A|B) = P (A∩B) P (B) (b) Falls A und B unabhängig, so gilt: P (A|B) = P (A) Beweis von (b) P (A|B) = P (A∩B) P (B) = P (A)·P (B) P (B) = P (A). Weitere Anwendungen von Satz 8.5: Satz 8.6: P (A ∩ B) = P (A|B) · P (B) Anwendung: P( 2 Asse bei 2-maligem Ziehen ohne Zurücklegen aus einem 32-er Kartenspiel) A1 : Ass bei ersten Zug A2 : Ass beim zweiten Zug gesucht: P (A1 ∩ A2 ) = P (A1 ) · P (A2 |A1 ) = 8.5. Weitere Anwendungen Beispiel 1: Geburtstagsproblem n zufällig ausgewählte Personen 44 4 32 · 3 31 A= mindestens 2 Personen haben gleichen Geburtstag” ” gesucht: P (A) Trick: Betrachte stattdessen: Ā = alle Geburtstage sind verschieden” ” P (Ā) = 1 − P (A) ⇒ P (A) = 1 − P (Ā) Voraussetzung: 365 Tage, alle als Geburtstage gleich wahrscheinlich Ω = {1, 2, 3, . . . , 365} ⊗ {1, 2, 3, . . . , 365} ⊗ .... ⊗ {1, 2, 3, . . . , 365} (n-mal) |Ω| = 365n |Ā| = 365 · 364 · 363 · . . . · (365 − n + 1) ⇒ P (Ā) = 365 · 364 · . . . · · · (365 − n + 1) 365n Ausrechnen ergibt: n P(Ā) P(A)=1 − P (Ā) 2 364/365 = 0,997 0,003 4 0,98 0,02 6 0,95 0,05 8 0,92 0,08 10 0,88 0,12 15 0,74 0,26 20 0,58 0,42 25 0,43 0,57 30 0,29 0,71 45 Beispiel 2: Fluktuation von Aktienkursen Angenommen, P(Kurs steigt) = P(Kurs fällt) = 0, 5 gesucht: P(Kurs steigt an 3 von 5 Börsentagen einer Woche) Ω = {Menge aller 5- elementigen Folgen von + und - } = {+−} ⊗ {+−} ⊗ {+−} ⊗ {+−} ⊗ {+−} |Ω| = 25 = 32 A = { Menge aller Folgen mit 3 mal + } gesucht: |A| = | Menge aller 3- elementigen Teilmengen einer Menge aus 5 Elementen | Satz 8.7: Sei k ≤ n. Dann gibt es vom Umfang n. n k = n! k!·(n−k)! k - elementige Teilmengen einer Menge im Beispiel: 5 5! 5·4·3·2·1 |A| = = = = 10 3 3! · 2! (3 · 2 · 1) · (2 · 1) d.h.: P (A) = |A| 10 5 = = |Ω| 32 16 46 9. Zufallsvariablen und Verteilungsfunktionen (Bamberg/Baur, Kap. 8.1, 8.2) 9.1. Definitionen und Überblick Definition: Eine Variable Z, deren mögliche Werte ( Realisationen”) vom Ausgang eines ” Zufallsvorgangs abhängen, heißt Zufallsvariable. Beispiele für Zufallsvariablen: Z1 =Augensumme bei 2-maligem Würfeln Z2 =Anzahl Kopf“ bei 3-maligem Münzwurf ” Z3 =Lebensdauer einer zufällig ausgewählten Glühbirne Z4 =Anzahl erfolgloser Tipps bis zum 1. Lotto-Hauptgewinn Z5 =log(neuer Kurs / alter Kurs) einer Aktie an einem Börsentag Z6 =Anzahl positiver Kursänderungen an 10 Börsentagen etc. Definition: Z heißt stetig ⇔ Z kann (evtl. innerhalb gewisser Grenzen) alle möglichen reellen Zahlen als Wert annehmen. Z heißt diskret ⇔ Z kann nur endlich viele (bzw. abzählbar viele) Werte annehmen. von Interesse: • welchen Wert nimmt die Variable im Mittel an? (→ Erwartungswert“) ” • wie stark schwankt die Variable um den Erwartungswert? (→ Varianz“, ” Standardabweichung“) ” 47 Variable Typ Wertebereich Z1 diskret {2, 3, 4, 5, ..., 12} Z2 diskret {0, 1, 2, 3} Z3 stetig [0, ∞) Z4 diskret {0, 1, 2, 3, 4, ....} Z5 stetig (−∞, ∞) Z6 diskret {0, 1, ..., 10} Notation im weiteren: Variablen selbst: große Buchstaben mögliche Werte: kleine Buchstaben später: Z2 , Z6 :binomialverteilt Z3 :exponentialverteilt Z4 :geometrisch verteilt Z5 :normalverteilt 9.2. Wahrscheinlichkeits- und Verteilungsfunktion bei diskreten Zufallsvariablen Beispiel: X = Anzahl Kopf bei 3-maligem Münzwurf Ergebnismenge= {(ZZZ) (KZZ) (KKZ) (ZKZ) (ZZK) (KZK) (ZKK) (KKK)} ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ 0 1 2 1 1 2 2 3 offenbar gilt: P (X = 0) = 1 8 ; P (X = 1) = 3 8 ; P (X = 2) = 48 3 8 ; P (X = 3) = 1 8 Definition: Die Verteilungsfunktion F (x) einer Zufallsvariablen X : Ω → R gibt an, mit welcher Wahrscheinlichkeit die Zufallsvariable einen Wert kleiner oder gleich x annimmt: F (x) = P (X ≤ x) = P (ω ∈ Ω|X(ω) ≤ x). Im Beispiel: Verteilungsfunktion 1.0 F(x) 0.8 0.6 0.4 0.2 0.0 −1 0 1 2 3 4 5 x Definition: Die Wahrscheinlichkeitsfunktion f (x) einer diskreten Zufallsvariablen X gibt an, mit welcher Wahrscheinlichkeit die Zufallsvariable einen Wert xi annimmt: f (xi ) = P (X = xi ). Die Summe der Wahrscheinlichkeiten P 49 f (xi ) ergibt 1. Im Beispiel: Wahrscheinlichkeitsfunktion 0.5 0.4 f(x) 0.3 0.2 0.1 0.0 −1 0 1 2 3 4 5 x Definition: Wenn eine stetige Zufallsvariable X eine differenzierbare Verteilungsfunktion besitzt, dann heißt f (x) := F ′ (x) die Dichtefunktion (kurz auch Dichte) von X. Beispiel: Dichte- und Verteilungsfunktion bei stetigen Zufallsvariablen z.B. X = Körpergröße eine Mannes über 18 in cm; 160 ≤ X ≤ 200 50 Dichtefunktion der Körpergröße 160 170 180 190 200 X Verteilungsfunktion der Körpergröße 1.0 F(x) 0.8 0.6 0.4 0.2 0.0 160 170 180 190 200 x Die Dichtefunktion f(x) ist die Ableitung der Verteilungsfunktion F(x). 51 Satz 9.1: Sei X eine beliebige Zufallsvariable mit Verteilungsfunktion F(x). Dann gilt: • F (x) ≥ 0 • P (a < X ≤ b) = F (b) − F (a) • F (x) ist monoton steigend • lim F (x) = 0 x→−∞ • lim F (x) = 1 x→∞ • Für stetige Zufallsvariablen mit existierender Dichtefunktion gilt zusätzlich: Rb F (b) − F (a) = a f (x)dx • f (x) ≥ 0 • lim f (x) = 0, lim f (x) = 0 x→−∞ x→∞ 52 10. Erwartungswert und Varianz von Zufallsvariablen (Bamberg/Baur, Kap. 8.1, 8.2) 10.1. Motivation Welchen Wert nimmt eine Zufallsvariable im Mittel an? Definition: Sei X eine diskrete ZV mit den Werten x1 , . . . , xn und Wahrscheinlichkeitsfunktion f (xi ). Dann heißt E(X) = n X xi f (xi) i=1 der Erwartungswert von X. Beispiel: Augenzahl beim einmaligen Würfeln xi P (X = xi ) xi · f (xi ) 1 1/6 1/6 2 1/6 2/6 3 1/6 3/6 4 1/6 4/6 5 1/6 5/6 6 1/6 6/6 n P xi f (xi ) = i=1 53 21 6 = 3, 5 = E(X) Definition: Sei X eine stetige Zufallsvariable mit Dichtefunktion f (x). Dann ist der Erwartungswert definiert als E(X) = Z∞ xf (x)dx. −∞ Achtung: E(X) muss nicht notwendigerweise existieren !!! 54 Beispiel: X ∼ GV [0, 5] Dichtefunktion 0.4 f(x) 0.3 0.2 0.1 0.0 0 2 4 6 x Verteilungsfunktion 1.0 0.8 F(x) 0.6 0.4 0.2 0.0 0 2 4 6 x E(X) = R∞ −∞ xf (x)dx = 1 5 R5 0 xdx = 1 5 1 x2 2 55 5 0 = 1 5 25 2 −0 = 25 10 = 2, 5 10.2. Eigenschaften von Erwartungswerten Satz 10.1: (Gesetz der großen Zahlen) Seien x1 , x2 , . . . , xn unabhängige Beobachtungen einer Zufallsvariablen X (genauer: Realisationen von n unabhängigen ZV’en, die alle die gleiche Verteilungsfunktion wie X haben). Dann gilt immer: lim x→∞ n 1X n xi = E(X) i=1 Problem: gegeben: Zufallsvariablen X und Y mit bekannten Erwartungswerten E(X), E(Y ) gesucht: E(10X), E(X 2 ), E(X/2), E(X + Y ), E(X · Y ) usw. Satz 10.2: Für beliebige ZV’en X1 , X2 , . . . , Xn gilt immer: (i) E(aX + b) = aE(X) + b (ii) E(aX1 + bX2 ) = aE(X1 ) + bE(X2 ) n n P P ai Xi = ai E(Xi ) (iii) E i=1 i=1 (iv) Für unabhängige ZV’en X und Y gilt darüber hinaus: E(X · Y ) = E(X) · E(Y ) ← im Allgemeinen falsch!! Definition: Zwei Zufallsvariablen X und Y heißen unabhängig, falls für alle x und y gilt: P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y). Beispiel: X = Augenzahl beim einmaligen Würfeln bekannt: E(X) = 3, 5 gesucht: E(X 2 ) =? 56 Vermutung: E(X 2 ) = [E(X)]2 = 3, 52 = 12, 25 FALSCH!!! Werte xi W’keiten f (xi ) xi · f (xi ) 1 1/6 1/6 4 1/6 4/6 9 1/6 9/6 16 1/6 16/6 25 1/6 25/6 36 1/6 36/6 d.h.: E(X 2 ) = (1/6)(1 + 4 + 9 + 16 + 25 + 36) = 91/6 = 15, 16̄ > (E(X))2 = 3, 52 = 12, 25 10.3. Die Varianz von Zufallsvariablen E[X − E(x)] = E(X) − E(X) = 0 (Satz 10.2) Frage: Wie stark schwankt eine Zufallsvariable um ihren Erwartungswert? Definition: Sei X eine beliebige Zufallsvariable. Dann heißt σx2 = V ar(X) = E[(X − E(X))2 ] die Varianz von X, und σX := q 2 σX heißt die Standardabweichung von X. Satz 10.3: V ar(X) = E(X 2 ) − [E(X)]2 57 Beispiel: X = Augenzahl beim einmaligen Würfeln bekannt: E(X) = 3, 5 gesucht: V ar(X) = E[(X − 3, 5)2] Werte W’keiten (1 − 3, 5)2 = 6, 25 1/6 (2 − 3, 5)2 = 2, 25 (3 − 3, 5)2 = 0, 25 (4 − 3, 5)2 = 0, 25 (5 − 3, 5)2 = 2, 25 (6 − 3, 5)2 = 6, 25 1/6 1/6 1/6 1/6 1/6 E[(X − 3, 5)2 ] = 61 (6, 25 + 2, 25 + 0, 25 + 0, 25 + 2, 25 + 6, 25) = 16 · 17, 5 = 2, 916̄ alternativ: V ar(X) = E(X 2 ) − (E(X))2 = 15, 16̄ − (3, 5)2 = 15, 16̄ − 12, 25 = 2, 916̄ Satz 10.4: Seien X und Y beliebige ZV’en. Dann gilt immer: (i) V ar(X) ≥ 0, V ar(Y ) ≥ 0 (ii) V ar(aX) = a2 V ar(X) (iii) V ar(X + a) = V ar(X) (iv) Falls X, Y unabhängig: V ar(X + Y ) = V ar(X) + V ar(Y ) (v) Allgemein: für n unabhängige ZV’en X1 , X2 , . . . Xn gilt: V ar n X i=1 ai Xi ! 58 = n X i=1 a2i V ar(Xi ) Vorsicht: V ar(X − Y ) = V ar(X) − V ar(Y ) ist FALSCH Sondern: V ar(X − Y ) = V ar(X + (−Y )) = V ar(1 · X + (−1) · Y ) = 12 V ar(X) + (−1)2 V ar(Y ) = V ar(X) + V ar(Y ) 10.4. Kovarianz und Korrelation von Zufallsvariablen Definition: Seien X und Y zwei Zufallsvariablen mit dem gleichen zugrundeliegenden Zufallsexperiment. Dann heißt Cov(X, Y ) := E[(X − E(X))(Y − E(Y ))] die Kovarianz von X und Y. Cov(X, Y ) p ρX,Y := p V ar(X) V ar(Y ) heißt Korrelation von X und Y. Nützlich für praktische Berechnung: Satz 10.5: Seien X und Y beliebige ZV. Dann gilt: Cov(X, Y ) = E(XY ) − E(X) · E(Y ) Beweis: Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] → Ausmultiplizieren und Erwartungswert bilden. 59 Beispiel: 3-maliger Münzwurf X = Anzahl Kopf, Y = Anzahl Zahl gesucht: Cov(X; Y ), ρXY Ω = { (ZZZ) (KZZ) (KKZ) (ZKZ) (ZZK) (KZK) (ZKK) (KKK)} X 0 1 2 1 1 2 2 3 Y 3 2 1 2 2 1 1 0 X ·Y 0 2 2 2 2 2 2 0 Werte von X · Y zugehörige W’keit 0 2/8 = 1/4 2 6/8 = 3/4 E(XY ) = 0 · 1/4 + 2 · 3/4 = 6/4 = 3/2 E(X) = E(Y ) = 3/2 ⇒ Cov(X, Y ) = 3/2 − (3/2 · 3/2) = −3/4 Korrelation: E(X 2 ) = 02 · 1/8 + 12 · 3/8 + 22 · 3/8 + 32 · 1/8 = 12/8 = 24/8 = 3 = E(Y 2 ) V ar(X) = E(X 2 ) − [E(X)]2 = 3 − (3/2)2 = 3/4 = V ar(Y ) ρX,Y = √ Cov(X,Y ) V ar(X) √ V ar(Y ) √ = √ −3/4 3/4 3/4 = −1 Satz 10.6: Seien X und Y beliebige Zufallsvariablen. Dann gilt p p (i) |Cov(X, Y )| ≤ V ar(X) · V ar(Y ) (ii) Falls X, Y stochastisch unabhängig: Cov(X, Y ) = 0. Daraus folgt auch ρXY = 0. (iii) Allgemein: V ar(a · X + b · Y ) = a2 V ar(X) + b2 V ar(Y ) + 2a · b · Cov(X, Y ) 60 11. Ausgewählte Typen von Zufallsvariablen im Detail 11.1. Binomialverteilte Zufallsvariable (Bamberg/Baur, Kap. 8.4.1) Beispiel: Betrachte 5 Börsentage lang den DAX. Annahme: P(DAX steigt) = P(DAX fällt) = 0, 5 X:= Anzahl der Tage, an denen DAX steigt. gesucht: Wahrscheinlichkeit, daß DAX an genau x Börsentagen steigt = P (X = x) mit x = 0, 1, 2, 3, 4, 5 Definition: Eine diskrete ZV heißt binomialverteilt mit Parametern n und p ⇔ X zählt die Erfolge bei n unabhängigen Versuchen mit Erfolgswahrscheinlichkeit p. Satz 11.1: X ∼ Bin(n, p) =⇒ f (x) = P (X = x) = n x · px · (1 − p)n−x Interpretation der Wahrscheinlichkeitsfunktion: • x = Anzahl der Erfolge (mit Wahrscheinlichkeit p) • n − x = Zahl der Mißerfolge (mit Wahrscheinlichkeit (1 − p)) n! • nx = x!(n−x)! = Zahl der möglichen Anordnungen von Erfolgen und Mißerfolgen Im Beispiel: X ∼ Bin(5, 0.5) und somit: 5! P (X = 2) = 52 · 0, 52 · (1 − 0, 5)5−2 = 2!·3! · 61 1 5 2 = 20 2 · 1 32 = 0, 3125 = 31, 25% Beispiel: Februar hat 20 Börsentage. gesucht: Wahrscheinlichkeit, daß DAX im Feb. an mehr als 8 Tagen steigt. X ∼ Bin(20,0.5) gesucht: P (X > 8) Es gilt P (X > 8) = 1 − P (X ≤ 8) = 1 − F (8) 8 P 20 =1− · 0, 5x · 0, 520−x → siehe Tabelle x x=0 = 1 − 0, 2517 = 0, 7483 = 74, 83% Satz 11.2: X ∼ Bin(n,p). Dann gilt: (i) E(X) = n · p (ii) V ar(X) = n · p · (1 − p) 11.2. Normalverteilte Zufallsvariable (Bamberg/Baur, Kap. 8.6.3) wichtigster Spezialfall einer stetigen Zufallsvariablen Definition: Eine stetige ZV mit Dichtefunktion 1 1 1 f (x) = √ exp − 2 2π σ x−µ σ 2 ! , σ>0 heißt normalverteilt mit Parametern µ und σ 2 ; kurz X ∼ N (µ, σ 2 ). X heißt standardnormalverteilt, falls µ = 0 und σ 2 = 1. 62 Dichtefunktion einer standardnormalverteilten Zufallsvariable 0.4 0.3 0.2 0.1 0.0 −3 −2 −1 0 1 2 3 X Satz 11.3: Eigenschaften der Normalverteilung: Sei X ∼ N (µ, σ 2). Dann gilt: (i) E(X) = µ (ii) V ar(X) = σ 2 (iii) f (µ − x) = f (µ + x), d.h. die Dichte ist symmetrisch um µ (iv) f (x) hat ein Maximum bei µ Problem: Sei X ∼ N(5, 9). Gesucht: P (X ≤ 6) = Sehr schwer zu bestimmen! R6 √1 1 exp −∞ 2π σ Lösung des Problems: Führe beliebige Normalverteilung auf N(0,1) zurück. 63 − 12 x−µ 2 σ dx. Bestimme F(x) für X ∼ N(0, 1) mit Hilfe numerischer Methoden und trage die Ergebnisse in Tabellen ein. (In diesem Spezialfall heißt die Verteilungsfunktion von X auch Φ(x)) Satz 11.4: X ∼ N (µ, σ 2 ) ⇒ X −µ σ ∼ N (0, 1) Im Beispiel: X ∼ N(5, 9) ⇒ X−5 3 ∼ N(0, 1) ≤ P (X ≤ 6) = P ( X−5 3 6−5 ) 3 = Φ(0, 3̄) ≈ 0, 63 (Tabelle) Satz 11.5: Die Summe unabhängiger normalverteilter Zufallsvariablen X1 . . . , Xn ist wieder normalverteilt: n X i=1 Satz 11.6: Xi ∼ N (µ1 + . . . + µn , σ12 + . . . + σn2 ). Der Zentrale Grenzwertsatz Seien X1 , . . . , Xn unabhängige Zufallsvariablen mit endlichen und beschränkten Varianzen. Dann nähert sich die Verteilungsfunktion von Zn := Z1 + . . . + Zn mit wachsendem n immer mehr der Verteilungsfunktion einer normalverteilten Zufallsvariablen mit Parametern µn = E(Zn ) σn2 = V ar(Zn ) 64 Anwendung: Xn ∼ Bin(n, p) P ⇒ X = ni=1 Xi mit Xi ∼ Bin(1, p), d.h. die Binomialverteilung konvergiert für große n und Wahrscheinlichkeiten 0 ≤ p ≤ 1 gegen die Normalverteilung: ! Xn − np < z = Φ(z). lim P p n→∞ np(1 − p) Das nächste Schaubild illustriert diesen Sachverhalt für n=10 und p=0,4 (d.h. X ∼ Bin(10; 0, 4)): Die Verteilungsfunktion von X liegt schon für dieses noch recht kleine n sehr nahe an der Verteilungsfunktion einer N(4; 1, 4)-verteilten Zufallsvariablen. 1.0 0.8 F(x) 0.6 0.4 0.2 0.0 0 2 4 6 x 65 8 10 Anwendung: Mit welcher Geschwindigkeit gibt es an mehr als 500 von 900 Börsentagen einen positiven DAX (d.h. einen Anstieg von einem Börsentag zum nächsten)? Die Anzahl X der positiven unter diesen 900 Börsentagen ist eine binomialverteilte Zufallsvariable mit den Parametern n = 900 und p = 1/2, d.h. p √ E(X) = np = 450, V ar(X) = np(1 − p) = 225 = 15 und P (X > 500) = 1 − P (X ≤ 500) 500 − 450 X − 450 ≤ = 1−P 15 15 = 1 − Φ(3, 33) = 1 − 0, 9996 = 0, 0004 66 Teil III. Induktive Statistik 12. Punktschätzungen (Bamberg/Baur, Kap. 12.1) 12.1. Problemstellung bisher: Gegeben eine Zufallsvariable X mit bekannter Verteilungsfunktion F(x). gesucht: P (X ≤ a); P (a < X ≤ b); E(X), V ar(X) usw. (= Parameter“) ” jetzt: Gegeben n unabhängige Realisationen einer Zufallsvariablen X. (konkret: Realisationen von X1 , . . . Xn , die alle die gleiche Verteilungsfunktion wie X besitzen.) Aber: Verteilungsfunktion unbekannt!!! Problem: Rückschluss von X1 , . . . , Xn (= Stichprobe“ ) auf E(X), V ar(X), ” P (X ≤ a) usw. Beispiel: X = Körpergröße eines zufällig ausgewählten Bundesbürgers > 18 Y = Rendite BMW an einem bestimmten Börsentag Z = Lebensdauer eines VW-Golf Motors 12.2. Schätzung unbekannter Erwartungswerte gegeben: Xi = Rendite BMW am Börsentag Nr. i (i = 1, . . . n); n Realisationen x1 , . . . , xn 67 gesucht: µ = E(Xi ) Lösung: Approximiere µ durch µ̂ = n1 (X1 + . . . + Xn ) Satz 12.1: Seien X1 , . . . , Xn unabhängige ZV’en mit identischer Verteilungsfunktion F(x) und E(Xi ) = µ. Dann ist µ̂(X1 , . . . , Xn ) := 1 (X1 n + . . . + Xn ) eine erwartungstreue Schätzfunktion für µ. Beweis: E n1 (X1 + . . . + Xn ) = = 1 n 1 n [E(X1 ) + . . . E(Xn )] = 1 n [µ + µ + . . . + µ] | {z } n−mal ·n·µ=µ Beispiel: X = IQ eines zufällig ausgewählten BWL-Studenten. X ist eine Zufallsvariable. Angenommen es gibt 100.000 BWL-Studenten mit IQ’s x1 , . . . x100.000 ( ← die möglichen Werte von X). Dann gilt: E(X) = x1 · P (X = x1 ) + . . . + x100.000 · P (X = x100.000 ) = x1 · 1 100.000 + . . . + x100.000 · 1 100.000 = 1 (x1 100.000 + . . . + x100.000 ) = arithmetisches Mittel der Grundgesamtheit =: µ Angenommen: µ = 105 Ziehe drei Stichproben vom Umfang n = 3 Erste Stichprobe: 90, 99, 120 → x̄(1) = 103 = µ̂(1) (Schätzung, nicht wahres arithmetisches Mittel). Zweite Stichprobe: 107, 96, 100 → x̄(2) = 101 = µ̂(2) Dritte Stichprobe: 110, 105, 118 → x̄(3) = 111 = µ̂(3) Diese Schätzungen sind Zufallsvariablen und schwanken um den wahren Mit- 68 telwert herum. Im Mittel stimmen die Schätzungen µ̂ aber mit dem wahren Mittelwert µ der Grundgesamtheit überein: E(µ̂) = µ. 12.3. Schätzung unbekannter Wahrscheinlichkeiten Xi wie im BMW-Beispiel. gesucht: P (Xi > 3%) = ? P (Xi < 2%) = ? P (0 < Xi ≤ 1%) = ? usw. Lösung: Approximiere P durch p̂ = Stichprobenanteil Satz 12.2: Seien X1 , . . . , Xn unabhängige ZV’en mit identischer Verteilungsfunktion F(x) und P (Xi ≤ a) = p ( ← unbekannt). Dann ist p̂ = #(Xi mit Xi ≤ a) n eine erwartungstreue Schätzfunktion für p. 12.4. Schätzung unbekannter Varianzen Sei X beliebige Zufallsvariable. σ 2 = Var(X) = E [(X − E(X))2 ] gesucht: Schätzung für σ 2 basierend auf Stichprobe X1 , . . . , Xn bereits in 12.2 gesehen: σ 2 = E [(X − E(X))2 ]. 1 n n P i=1 (Xi − E(X))2 ist erwartungstreue Schätzung für 69 Problem: E(X) ist ebenfalls unbekannt. 1 n Lösung: Ersetze E(X) durch Schätzung 1 n Aber: n P i=1 (Xi − E(X))2 ≥ → σ 2 = E[ n1 d.h.: 1 n n P n P i=1 1 n n P i=1 n P Xi = X̄ i=1 (Xi − X̄)2 (Xi − E(X))2 ] ≥ E[ n1 2 n P (Xi − X̄)2 ] i=1 (Xi − X̄) unterschätzt das wahre σ 2 i=1 Satz 12.3: Unter den Bedingungen von Satz 12.2 ist s2 := 1 n−1 n X (Xi − X̄)2 i=1 eine erwartungstreue Schätzung für σ 2 := V ar(Xi ). 70 13. Intervallschätzungen (=Konfidenzintervalle) 13.1. Motivation bisher: Versuch, unbekannten Parameter punktgenau zu treffen (Punktschätzung). jetzt: Versuch, Parameter in einem Intervall einzufangen“. ” Linke Intervallgrenze: Vu Rechte Intervallgrenze: Vo Konfidenzintervall KI: [Vu , Vo ] P ([Vu , Vo] umfasst Parameter nicht) = Irrtumswahrscheinlichkeit α P ([Vu , Vo] umfasst Parameter) = Vertrauenswahrscheinlichkeit bzw. Konfidenzniveau = 1 − α 13.2. KI’e für unbekannte Erwartungswerte µ bei normalverteilten Stichproben-Variablen mit bekannter Varianz σ 2 Beispiel: X = Einkommen (EUR in Tausend/Jahr) eines zufällig ausgewählten WiSoAbsolventen mit 2-jähriger Berufserfahrung. Von Interesse: µ = E(X) = wahres, aber unbekanntes arithmetisches Mittel der Grundgesamtheit. Zufallsstichprobe: (x1 , x2 , x3 , x4 , x5 ) = (35, 70, 58, 63, 74) Aus Kapitel 12 bekannt: die optimale Schätzung für µ = E(X) ist das arithmetische Mittel der Stichprobe = x̄ = 60. 71 gesucht: KI = [Vu , Vo ], so daß Wahrscheinlichkeit P ([Vu , Vo ] ∋ µ) = 95%, d.h. α = 5%. Es gilt allgemein: X̄ ∼ N µ, √ X̄ − µ q = σ2 n d.h.: σ2 n (Satz 11.5), d.h. n(X̄ − µ) √ ∼ N(0, 1) (aus Satz 11.4) σ2 √ n(X̄ − µ) P −c ≤ ≤ c = 95%, σ wobei c = 97, 5 % Quantil der Standardnormalverteilung. √ √ n(X̄ − µ) Aber: −c ≤ ≤ c ⇔ −cσ ≤ n(X̄ − µ) ≤ cσ σ ⇔ −cσ √ n ≤ (X̄ − µ) ≤ cσ √ n ⇔ −c √σn ≤ µ − X̄ ≤ c √σn σ σ ⇔ X̄ − c √ ≤ µ ≤ X̄ + c √ n n | {z } | {z } Vu Vo Satz 13.1: Sei c das 1 − α 2 - Quantil der Standardnormalverteilung. Seien die Stichpro- benvariablen X1 , . . . , Xn normalverteilt mit E(X) = µ und bekannter Varianz σ 2 . Dann ist ein KI für µ zum Konfidenzniveau 1 − α gegeben durch: [Vu , Vo] mit Vu = X̄ − c √σn ; Vo = X̄ + c √σn . im Beispiel: α = 5% → c = 1, 96 (← aus Tabelle ) x̄ = 60, σ 2 = 100 (σ = 10) sei bekannt. ⇒ Vu = 60 − 1, 96 √105 = 51, 23 ⇒ Vo = 60 + 1, 96 √105 = 68, 77 72 d.h.: P ([51, 23; 68, 77] umfasst wahres Durchschnittseinkommen) = 95%. 2σc Länge des KI’s: Vo − Vu = √ n Das KI ist umso kürzer: • je größer n • je kleiner σ 2 • je größer α (denn je größer α, desto kleiner ist c) 13.3. KI’e für µ bei normalverteilten Xi und unbekanntem σ2 2 Bei unbekannten σ : Ersetze σ durch Das liefert √ n(X̄−µ) S √ n(X̄−µ) , S √ s2 = r 1 n−1 n P (Xi − X̄) =: S . i=1 was leider nicht mehr standardnormalverteilt ist, sondern hat eine sogenannte t-Verteilung mit n-1 Freiheitsgraden. Faustregel: Wenn n ≥ 20: Nehme Formel wie bei bekanntem σ 2 . Wenn n ≥ 30: Die Annahme normalverteilter Xi ist nicht mehr nötig. 13.4. KI’e für unbekannte Wahrscheinlichkeiten (Bamberg/Baur, Kap. 13.3) Beispiel: p = unbekannter wahrer Wähleranteil einer Partei A = Wahrscheinlichkeit, dass ein zufällig ausgesuchter Wähler für A stimmt. gesucht: KI für p 73 Zufallsstichprobe: X1 , . . . , Xn mit 1 i-te Person wählt Partei A Xi = 0 sonst ← Bernoulli-Variable d.h.: E(Xi ) = P (Xi = 1) = p = wahrer unbekannter Wähleranteil, d.h. X̄ = #A−Wähler in Stichprobe n = Stichprobenanteil für A =: p̂ σ 2 = V ar(Xi ) = E(Xi2 ) − (E(Xi ))2 = p − p2 = p · (1 − p). Schätzung: s2 = p̂(1 − p̂) Schätzung für p: p̂ = x̄ = 1 n (x1 + . . . + xn ) = Stichprobenanteil für Partei A Schätzung für σ 2 : n 1 X (Xi − X̄)2 = X̄(1 − X̄) = p̂(1 − p̂) S = n − 1 i=1 2 Satz 13.2: Sei c das 1 − α 2 Quantil der Standardnormalverteilung, n ≥ 30; np̂ ≥ 5, n(1 − p̂) ≥ 5. Dann ist ein KI für p zum Niveau 1 − α gegeben durch p̂(1 − p̂) p̂(1 − p̂) p̂ − c √ , p̂ + c √ . n n p c p̂(1 − p̂) √ Problem: Die Länge des Intervalls L = Vo − Vu = 2 hängt von σ̂ = n p p̂(1 − p̂) ab! Aber: p̂(1 − p̂) ≤ 14 , d.h.: σ̂ ≤ 1 2 c , d.h.: L ≤ √ . n 74 0.4 x(1 − x) 0.3 0.2 0.1 0.0 0.0 0.2 0.4 0.6 0.8 1.0 x Anwendung: Wie groß muss n mindestens sein, damit L auf jeden Fall ≤ d? d= √c n ⇒ √ n= c d ⇒n= c 2 d 75 14. Statistische Signifikanztests (Bamberg/Baur, Kap. 14.1) 14.1. Problemstellung bisher: keine Vorinformationen, Punkt- und Intervallschätzungen für unbekannte Parameter jetzt: Es liegt bereits eine Vermutung ( Nullhypothese“ H0 ) zu einem unbe” kannten Parameter oder sonstigen Eigenschaften von ZVen vor. Beispiel 1: µM = durchschnittlicher IQ aller Männer µF = durchschnittlicher IQ aller Frauen H0 : µ M = µ F Beispiel 2: µ = Erwartungswert der Laufleistung eines zufällig ausgewählten VW-GolfMotors H0 : µ ≥ 200.000 km (beispielsweise) Beispiel 3: θ = P(DAX fällt an einem zufällig ausgewählten Börsentag um mehr als 10%) H0 : θ ≤ 1 1000 (wichtig für value at risk“) ” Beispiel 4: Der IQ eines zufällig ausgewählten BWL-Studenten ist eine normalverteilte ZV Beispiel 5: Die ZVen X=Einkommen und Y=Religion (mit Y=1 für evangelisch und Y=0 76 sonst) sind unabhängig u.s.w. Vorgangsweise immer die gleiche: • H0 formulieren • Stichprobe ziehen • Entscheiden aufgrund der Stichprobe, ob H0 ablehnen oder nicht Lehne H0 ab Lehne H0 nicht ab H0 richtig Fehler 1. Art Korrekte Entscheidung H0 falsch Korrekte Entscheidung Fehler 2. Art Definition: max(P (Fehler 1. Art)) heißt Signifikanzniveau eines Tests (= α). Traditionelle Vorgehensweise der Statistik: • Gebe maximale P(Fehler 1. Art) vor; üblicherweise 5%. • Suche Entscheidungsregel, die unter dieser Restriktion die Wahrscheinlichkeit für einen Fehler 2. Art minimiert. 14.2. Testen von Hypothesen über Erwartungswerte normalverteilter Zufallsvariablen Beispiel aus 13.2: X = Einkommen (Euro in Tsd/Jahr) eines zufällig ausgewählten BWL-Absolventen in Deutschland (∼ N(µ, σ 2 ) ) H0 : E(X) = µ ≥ 65 =: µ0 Annahme: X ∼ N(µ, σ 2 ) mit σ 2 = 100 bekannt 77 1. Schritt: Wähle Signifikanzniveau (etwa α = 5%) 2. Schritt: Ziehe Stichprobe, etwa: 30, 70, 58, 63, 74 (n=5) 3. Schritt: Berechne sog. Prüfgröße“ (= Teststatistik“) V, von der wir die ” ” Entscheidung abhängen lassen. Hier: X̄ − µ0 = V = q √ n(X̄ − µ0 ) σ2 n σ ∼ N (0, 1)( falls µ = µ0 ) 4. Schritt: Bestimme sogenannten Ablehnungsbereich“. ” Hier: Lehne ab für V ≤ −1, 645 ← 5% Quantil der Standardnormalverteilung, d.h. Ablehnungsbereich = (−∞, 1.645). 5. Schritt: Prüfe, ob V ∈ Ablehnungsbereich. √ √ = −1, 12, d.h. H0 wird nicht abgelehnt. V = 5 · (60−65) 100 Probleme: (i) σ 2 unbekannt. Lösung: ersetze σ 2 durch S 2 Aber: Dann hat V keine Normalverteilung, sondern eine sogenannte tVerteilung (für n ≥ 20 irrelevant). (ii) Die Xi sind nicht normalverteilt. Lösung: Berufung auf den zentralen Grenzwertsatz. Ab n ≥ 30 verfahre wie gehabt. Verteilung der Stichprobenvariablen Xi Prüfgröße (unter H0 exakte od. approx. Standardnormalverteilung) √ 0 V = X̄−µ n Gausstest“ σ ” √ 0 V = X̄−µ n t-Test“ S ” √ 0 V = X̄−µ n approximativer Gausstest“ S ” normal, σ 2 bekannt normal, σ 2 unbekannt beliebig, n ≥ 30 Xi = 1 oder 0, µ = E(Xi ) = p, p̂ = x̄ = Stichprobenanteil von 1“ ” np̂ ≥ 5, n(1 − p̂) ≥ 5, n ≥ 30 p̂ − p0 √ V =p n approximativer Gausstest“ ” p0 (1 − p0 ) 78 Satz 14.1: Zusammenhang zwischen Nullhypothese und Ablehnungsbereich: Sei cα das α- Quantil der Standardnormalverteilung. Dann sind die Ablehnungsbereiche für verschiedene Nullhypothesen zum Niveau α gegeben wie folgt: H0 µ = µ0 µ ≥ µ0 Ablehnungsbereich −∞, cα/2 ∪ c1−α/2 , ∞ (−∞, cα ) µ ≤ µ0 (c1−α , ∞) Weitere Signifikanztests betreffen Hypothesen über: • Varianzen • Kovarianzen • komplette Verteilungsfunktionen. 14.3. Der χ2 - Unabhängigkeitstest Gegeben 2 diskrete ZVen X (mit l Ausprägungen) und Y (mit k Ausprägungen). H0 : X,Y sind unabhängig. Beispiel: X = Geschlecht , Y = Kaufverhalten, n = 1000 Kunden in der Stichprobe Das Geschlecht und das Kaufverhalten der Kunden überträgt man zunächst in eine sogenannte Kreuztabelle“: ” kaufen nicht kaufen Randhäufigkeiten Männer 180 h11 170 h12 350 h1. Frauen 240 h21 410 h22 650 h2. 420 h.1 580 h.2 1000 79 Bei Unabhängigkeit würde man erwarten: hij = hi. · h.j =: h̃ij n im Beispiel: Erwartete Kreuztabelle bei Unabhängigkeit: Kaufen Nicht kaufen Männer 147 203 Frauen 273 377 Prüfgröße: V = k X l X i=1 j=1 (hij − h̃ij )2 = h̃ij k X l X i=1 j=1 hij − hi. ·h.j n hi. ·h.j n 2 X X (beobachtete Zellhäufigkeit - erwartete Zellhäufigkeit)2 = erwartete Zellhäufigkeit Lehne ab, falls V zu groß“. ” Was heißt zu groß“? ” V hat unter H0 approximativ eine sogenannte χ2 - Verteilung mit (l − 1)(k − 1) Freiheitsgraden (falls alle h̃ij ≥ 5). Hier: h11 = 180, h21 = 240, h12 = 170, h22 = 410 h̃11 = 350·420 1000 = 147, h̃12 = 350·580 1000 = 203, h̃21 = 650·420 1000 = 273, h̃22 = 650·580 1000 = 377 χ2 - Approximation gerechtfertigt, da alle h̃ij ≥ 5 hij = tatsächlich beobachtete Häufigkeit in den Zellen h̃ij = theoretische Häufigkeit in den Zellen im Beispiel: V = 2 k X k hij − h̃ij X i=1 j=1 h̃ij = (180 − 147)2 (170 − 203)2 (240 − 273)2 (410 − 377)2 + + + 147 203 273 377 = 7, 408 + 5, 365 + 3, 989 + 2, 889 = 19, 651 Ablehnungsbereich bei einem Signifikanzniveau von α = 5% 80 2 = χ(k−1)(l−1);1−α , ∞ = χ21,0.95 , ∞ = (3.841, ∞) ⇒ V ∈ Ablehnungsbereich ⇒ H0 ablehnen Die Hypothese, daß das Kaufverhalten nicht vom Geschlecht abhängt, wird zum Niveau α = 5% verworfen. 81