Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Stefan Etschberger Hochschule Augsburg Statistik Einführung Stefan Etschberger Wichtige Stichprobenfunktionen Gegeben: Einfache Stichprobe X1 , . . . , Xn , Beliebige Verteilung mit E(Xi ) = µ, Var(Xi ) = σ2 Stichprobenfunktion V n X Bezeichnung E(V) Var(V) Merkmalssumme nµ nσ2 1. Einführung 2. Deskriptive Statistik Xi i=1 X̄ = 3. W-Theorie 4. Induktive Statistik n 1 X Xi n i=1 Stichprobenmittel µ Gauß-Statistik n 1 X 2 (Xi − µ) n i=1 mittlere quadr. Abw. bezüglich µ n 1 X 2 (Xi − X̄) n i=1 mittlere quadr. Abw. n−1 2 σ n Stichprobenvarianz σ2 n X 1 2 (Xi − X̄) n − 1 i=1 √ S = S2 X̄ − µ √ n S Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests X̄ − µ √ n σ S2 = σ2 n 0 1 Tabellen Quellen σ2 Stichproben-Standardabw. t-Statistik 139 350 508 545 D=c(435,300,730,540,350,295,350,820,620,350, 110,1800,800,700,280,200,480,30,350,300, 360,250,480,250,200,340,320,283,980,424, 1850,590,1080,1300,45,530,680,365,1000,1000, 1000,150,300,400,720,250,240,692,350,650, 180,300,300,530,350,360,360,296,580,360, 670,315,640,800,700,350,550,950,640,600, 850,200,570,600,490,540,400,120,120,180, 360,156,125,100,120,80,60,300,400,800,600,618, 250,170,810,350,350,800,400,280,420,800, 300,280,800,508,425,600,500,500,400,700, 700,300,500,500,545,600,500,500,765,200,120, 150,250,150,600,650,430,275,750,500, 1589,240,240,220,240,250,600,500) 60 600 Statistik Einführung Stefan Etschberger Testverteilungen Chi-Quadrat-Verteilung Sind X1 , . . . , Xn iid N(0; 1)-verteilte Zufallsvariablen, so wird die Verteilung von n X Z= X2i i=1 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik als Chi-Quadrat-Verteilung mit n Freiheitsgraden bezeichnet. Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests f(x) Tabellen Quellen 0,1 0,05 x 1 10 14 Kurzschreibweise: Z ∼ χ2 (n) Beispiel: χ2 (30): x0,975 = 46,98 140 Quantilstabelle der χ2 -Verteilung mit n Freiheitsgraden α\n 0.005 0.01 0.025 0.05 0.1 0.2 0.25 0.4 0.5 0.6 0.75 0.8 0.9 0.95 0.975 0.99 0.995 1 2 3 4 0.00 0.01 0.07 0.21 0.00 0.02 0.11 0.30 0.00 0.05 0.22 0.48 0.00 0.10 0.35 0.71 0.02 0.21 0.58 1.06 0.06 0.45 1.01 1.65 0.10 0.58 1.21 1.92 0.28 1.02 1.87 2.75 0.45 1.39 2.37 3.36 0.71 1.83 2.95 4.04 1.32 2.77 4.11 5.39 1.64 3.22 4.64 5.99 2.71 4.61 6.25 7.78 3.84 5.99 7.81 9.49 5.02 7.38 9.35 11.14 6.63 9.21 11.34 13.28 7.88 10.60 12.84 14.86 Statistik Einführung Stefan Etschberger 5 6 7 8 9 10 11 12 13 14 15 0.41 0.55 0.83 1.15 1.61 2.34 2.67 3.66 4.35 5.13 6.63 7.29 9.24 11.07 12.83 15.09 16.75 0.68 0.87 1.24 1.64 2.20 3.07 3.45 4.57 5.35 6.21 7.84 8.56 10.64 12.59 14.45 16.81 18.55 0.99 1.24 1.69 2.17 2.83 3.82 4.25 5.49 6.35 7.28 9.04 9.80 12.02 14.07 16.01 18.48 20.28 1.34 1.65 2.18 2.73 3.49 4.59 5.07 6.42 7.34 8.35 10.22 11.03 13.36 15.51 17.53 20.09 21.95 1.73 2.09 2.70 3.33 4.17 5.38 5.90 7.36 8.34 9.41 11.39 12.24 14.68 16.92 19.02 21.67 23.59 2.16 2.56 3.25 3.94 4.87 6.18 6.74 8.30 9.34 10.47 12.55 13.44 15.99 18.31 20.48 23.21 25.19 2.60 3.05 3.82 4.57 5.58 6.99 7.58 9.24 10.34 11.53 13.70 14.63 17.27 19.68 21.92 24.73 26.76 3.07 3.57 4.40 5.23 6.30 7.81 8.44 10.18 11.34 12.58 14.85 15.81 18.55 21.03 23.34 26.22 28.30 3.56 4.11 5.01 5.89 7.04 8.63 9.30 11.13 12.34 13.64 15.98 16.98 19.81 22.36 24.74 27.69 29.82 4.07 4.66 5.63 6.57 7.79 9.47 10.17 12.08 13.34 14.69 17.12 18.15 21.06 23.68 26.12 29.14 31.32 4.60 5.23 6.26 7.26 8.55 10.31 11.04 13.03 14.34 15.73 18.25 19.31 22.31 25.00 27.49 30.58 32.80 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Tabellen Quellen α\n 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.005 0.01 0.025 0.05 0.1 0.2 0.25 0.4 0.5 0.6 0.75 0.8 0.9 0.95 0.975 0.99 0.995 5.14 5.81 6.91 7.96 9.31 11.15 11.91 13.98 15.34 16.78 19.37 20.47 23.54 26.30 28.85 32.00 34.27 5.70 6.41 7.56 8.67 10.09 12.00 12.79 14.94 16.34 17.82 20.49 21.61 24.77 27.59 30.19 33.41 35.72 6.26 7.01 8.23 9.39 10.86 12.86 13.68 15.89 17.34 18.87 21.60 22.76 25.99 28.87 31.53 34.81 37.16 6.84 7.63 8.91 10.12 11.65 13.72 14.56 16.85 18.34 19.91 22.72 23.90 27.20 30.14 32.85 36.19 38.58 7.43 8.26 9.59 10.85 12.44 14.58 15.45 17.81 19.34 20.95 23.83 25.04 28.41 31.41 34.17 37.57 40.00 8.03 8.90 10.28 11.59 13.24 15.44 16.34 18.77 20.34 21.99 24.93 26.17 29.62 32.67 35.48 38.93 41.40 8.64 9.54 10.98 12.34 14.04 16.31 17.24 19.73 21.34 23.03 26.04 27.30 30.81 33.92 36.78 40.29 42.80 9.26 10.20 11.69 13.09 14.85 17.19 18.14 20.69 22.34 24.07 27.14 28.43 32.01 35.17 38.08 41.64 44.18 9.89 10.86 12.40 13.85 15.66 18.06 19.04 21.65 23.34 25.11 28.24 29.55 33.20 36.41 39.36 42.98 45.56 10.52 11.52 13.12 14.61 16.47 18.94 19.94 22.62 24.34 26.14 29.34 30.68 34.38 37.65 40.65 44.31 46.93 11.16 12.20 13.84 15.38 17.29 19.82 20.84 23.58 25.34 27.18 30.43 31.79 35.56 38.89 41.92 45.64 48.29 11.81 12.88 14.57 16.15 18.11 20.70 21.75 24.54 26.34 28.21 31.53 32.91 36.74 40.11 43.19 46.96 49.64 12.46 13.56 15.31 16.93 18.94 21.59 22.66 25.51 27.34 29.25 32.62 34.03 37.92 41.34 44.46 48.28 50.99 13.12 14.26 16.05 17.71 19.77 22.48 23.57 26.48 28.34 30.28 33.71 35.14 39.09 42.56 45.72 49.59 52.34 13.79 14.95 16.79 18.49 20.60 23.36 24.48 27.44 29.34 31.32 34.80 36.25 40.26 43.77 46.98 50.89 53.67 141 Statistik Einführung Stefan Etschberger Testverteilungen: t-Verteilung Ist X ∼ N(0; 1), Z ∼ χ2 (n), X, Z unabhängig, so wird die Verteilung von 1. Einführung X T= q 1 n 2. Deskriptive Statistik 3. W-Theorie Z 4. Induktive Statistik Grundlagen als t-Verteilung mit n Freiheitsgraden bezeichnet. Punkt-Schätzung Intervall-Schätzung Signifikanztests William Sealy Gosset 1876 – 1937 Tabellen Quellen f(x) 0,2 0,1 x −3 −2 −1 1 2 3 Kurzschreibweise: T ∼ t(n) Beispiel: t(10) x0,6 = 0,260, x0,5 = 0, x0,1 = −x0,9 = −1,372 142 Statistik Einführung Stefan Etschberger Quantilstabelle der t-Verteilung mit n Freiheitsgraden α\n 0.6 0.75 0.8 0.9 0.95 0.975 0.99 0.995 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257 0.257 0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.698 0.696 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.687 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 1.376 1.061 0.979 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.875 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.312 1.311 1.310 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 12.706 4.303 3.183 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.059 2.055 2.052 2.048 2.045 2.042 31.820 6.965 4.541 3.747 3.365 3.143 2.998 2.897 2.821 2.764 2.718 2.681 2.650 2.624 2.603 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.054 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Tabellen Quellen 143 Statistik Einführung Stefan Etschberger t-Verteilung vs. Normalverteilung Dichtefunktion t-Verteilung mit 1 (blau), 3 (grün) und 10 (lila) Freiheitsgraden Standardnormalverteilung (rot) 1. Einführung 0.4 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen 0.3 Punkt-Schätzung Intervall-Schätzung Signifikanztests 0.1 0.2 Quellen 0.0 dnorm(x) Tabellen −4 −2 0 2 4 x 144 Statistik Einführung Stefan Etschberger Punkt-Schätzung Ein unbekannter Parameter ϑ der Verteilung von G soll auf Basis einer Stichprobe geschätzt werden. Zum Beispiel: σ von N(10; σ) Schätzwert: ϑ̂ 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Vorgehen: Verwendung einer Schätzfunktion Punkt-Schätzung Intervall-Schätzung Signifikanztests Θ̂ = g(X1 , . . . , Xn ) Tabellen Quellen Beachte: Der Schätzwert ϑ̂ ist die Realisierung der ZV (!) Θ̂. Frage: Welche Stichprobenfunktion ist zur Schätzung geeignet? à Kriterien für die Beurteilung/Konstruktion von Schätzfunktionen! Im Folgenden: Vorliegen einer einfachen Stichprobe, d.h. X1 , . . . , Xn iid. 145 Statistik Einführung Stefan Etschberger Erwartungstreue und Wirksamkeit Eine Schätzfunktion Θ̂ = g(X1 , . . . , Xn ) heißt erwartungstreu oder unverzerrt für ϑ, wenn unabhängig vom numerischen Wert von ϑ gilt: 1. Einführung 2. Deskriptive Statistik 3. W-Theorie E(Θ̂) = ϑ 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Beispiel Sind Θ̂ = X̄, Θ̂ 0 = X1 +Xn , 2 Θ̂ 00 = 1 n−1 n P Tabellen Xi erwartungstreu für µ? Quellen i=1 a) Θ̂: E(X̄) = µ ⇒ Θ̂ ist erwartungstreu. 1 n = 2 [E(X1 ) + E(Xn )] = 12 (µ + µ) = µ b) Θ̂ 0 : E X1 +X 2 0 ⇒ Θ̂ ist erwartungstreu. n n n P P P 1 1 1 n c) Θ̂ 00 : E n−1 Xi = n−1 E(Xi ) = n−1 µ = n−1 µ 6= µ i=1 i=1 i=1 ⇒ Θ̂ 00 ist nicht erwartungstreu 146 Statistik Einführung Stefan Etschberger Erwartungstreue und Wirksamkeit Welche der erwartungstreuen Schätzfunktionen Θ̂, Θ̂ 0 ist „besser“? 1. Einführung Von zwei erwartungstreuen Schätzfunktionen Θ̂, Θ̂ 0 für ϑ heißt Θ̂ wirksamer als Θ̂ 0 , wenn unabhängig vom numerischen Wert von ϑ gilt: 4. Induktive Statistik 2. Deskriptive Statistik 3. W-Theorie Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Var(Θ̂) < Var(Θ̂ 0 ) Tabellen Quellen Beispiel: (Θ̂ = X̄, Θ̂ 0 = Wegen X1 +Xn ) 2 = σ2 n +σ ) = σ2 2 Var(Θ̂) = Var(X̄) 0 Var(Θ̂ ) = Var X1 +X2 2 = 1 (σ2 4 2 ⇒ Var(Θ̂) < Var(Θ̂ 0 ) (falls n > 2) ist Θ̂ wirksamer als Θ̂ 0 . 147 Statistik Einführung Stefan Etschberger Intervall-Schätzung Für einen unbekannten Verteilungsparameter ϑ soll auf Basis einer Stichprobe ein Intervall geschätzt werden. Verwendung der Stichprobenfunktionen Vu , Vo , so dass Vu 5 Vo und P(Vu 5 ϑ 5 Vo ) = 1 − α 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung stets gelten. [Vu ; Vo ] heißt Konfidenzintervall (KI) für ϑ zum Konfidenzniveau 1 − α. Intervall-Schätzung Signifikanztests Tabellen Quellen Beachte: Das Schätzintervall [vu ; vo ] ist Realisierung der Zufallsvariablen (!) Vu , Vo . à Irrtumswahrscheinlichkeit α (klein, i.d.R. α 5 0,1) Frage: Welche Konfidenzintervalle sind zur Schätzung geeignet? à Hängt von Verteilung von G sowie vom unbekannten Parameter (µ, σ2 ) ab! Im Folgenden: Einfache Stichprobe X1 , . . . , Xn mit E(Xi ) = µ, Var(Xi ) = σ2 148 Statistik Einführung Stefan Etschberger Intervall-Schätzung Wichtiger Spezialfall: Symmetrische Konfidenzintervalle Symmetrisch heißt nicht, dass die Dichte symmetrisch ist, sondern 1. Einführung übereinstimmende Wahrscheinlichkeiten für Über-/Unterschreiten des Konfidenzintervalls, d.h. P(Vu > ϑ) = P(Vo < ϑ) = α 2 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests f(x) Tabellen Quellen 0,1 0,05 x 1 10 14 Wichtig: Eine Verkleinerung von α bewirkt eine Vergrößerung des Konfidenzintervalls. 149 Konfidenzintervall für µ bei Normalverteilung mit bekanntem σ2 Vorgehensweise: Statistik Einführung Stefan Etschberger 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 1 2 3 4 5 Festlegen des Konfidenzniveaus 1 − α α -Fraktils c der N(0, 1)-Verteilung Bestimmung des 1 − 2 Berechnen des Stichprobenmittels x̄ σc Berechnen des Wertes √ n Ergebnis der Intervall-Schätzung: σc x̄ − √ ; n σc x̄ − √ ; n σc x̄ + √ n σc 240 x̄ + √ 800 n150 [1] [11] [21] 850 500 250 300 800 400 980 340 45 350 150 360 425 200 360 500 110 1000 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Tabellen Quellen 170 545 540 618 600 540 400 600 800 150 [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] 352.7215212 374.6548545 412.7548545 553.4215212 320.3548545 352.5215212 338.4215212 413.5548545 330.1215212 425.1215212 481.3548545 399.9215212 423.7548545 537.2118122 559.1451455 597.2451455 737.9118122 504.8451455 537.0118122 522.9118122 598.0451455 514.6118122 609.6118122 665.8451455 584.4118122 608.2451455 Intervallschätzung: Beispiel Statistik Einführung Stefan Etschberger Beispiel Normalverteilung mit σ = 2,4 (x1 , . . . , x9 ) = (184.2, 182.6, 185.3, 184.5, 186.2, 183.9, 185.0, 187.1, 184.4) Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0,99 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 1. 1 − α = 0,99 Tabellen 2. N(0; 1): c = x1− α2 = x1− 0,01 = x0,995 = 2,576 (Tab. 3; 2 Interpolation) 3. x̄ = 4. σc √ n 1 9 = Quellen (184,2 + · · · + 184,4) = 184,8 2,4·2,576 √ 9 = 2,06 5. KI = [184,8 − 2,06; 184,8 + 2,06] = [182,74; 186,86] Interpretation: Mit 99 % Wahrscheinlichkeit ist µ ∈ [182,74; 186,86]. 151 Statistik Einführung Stefan Etschberger Wichtige Fraktilswerte 1. Einführung 2. Deskriptive Statistik Wichtige N(0; 1)-Fraktilswerte: 3. W-Theorie 4. Induktive Statistik α xα 0,9 1,281552 0,95 1,644854 0,975 1,959964 0,99 2,326348 0,995 2,575829 Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Tabellen Quellen (I.d.R. genügen drei Nachkommastellen.) 152 Statistik Einführung Stefan Etschberger Intervalllänge Im Fall 13.1.1 gilt offenkundig 2σc L = Vo − Vu = √ n 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Welcher Stichprobenumfang n sichert eine vorgegebene (Maximal-)Länge L? ⇒ Nach n auflösen! ⇒ 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung n= 2σc L 2 Signifikanztests Tabellen Quellen Eine Halbierung von L erfordert eine Vervierfachung von n! Angewendet auf letztes Beispiel: L = 4 ⇒n = L = 2 ⇒n = 2·2,4·2,576 2 4 2·2,4·2,576 2 2 = 9,556 ⇒ n = 10 = 38,222 ⇒ n = 39 153 Statistik Einführung Stefan Etschberger Konfidenzintervall Konfidenzintervall für µ bei Normalverteilung mit unbekanntem σ2 2. Deskriptive Statistik Vorgehensweise: 1 2 3 4 5 1. Einführung 3. W-Theorie Festlegen des Konfidenzniveaus 1−α α -Fraktils c der t(n − 1)-Verteilung Bestimmung des 1 − 2 Berechnen des Stichprobenmittels x̄ und der Stichproben-Standardabweichung s sc Berechnen des Wertes √ n Ergebnis der Intervall-Schätzung: sc x̄ − √ ; n sc x̄ + √ n 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Tabellen Quellen Zu Schritt 2: Falls n − 1 > 30 wird die N(0; 1)-Verteilung verwendet. 154 650 125 200 200 600 ↓ n\α → 1 2 3 4 5 6 0.6 0.75 0.8 0.9 0.95 0.325 0.289 0.277 0.271 0.267 0.265 1.000 0.816 0.765 0.741 0.727 0.718 1.376 1.061 0.979 0.941 0.920 0.906 3.078 1.886 1.638 1.533 1.476 1.440 6.314 2.920 2.353 2.132 2.015 1.943 Statistik Einführung Stefan Etschberger Konfidenzintervalllänge Beispiel: Wie das letzte Beispiel, jedoch σ unbekannt. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 1 1 − α = 0,99 2 t(8): c = x1− α2 = x1− 0,01 = x0,995 = 3,355 (Tab. 4) Grundlagen 2 s= 4 sc √ n = 5 KI = [184,8 − 1,47; 184,8 + 1,47] = [183,33; 186,27] x̄ = 1,31·3,355 √ 9 Intervall-Schätzung Signifikanztests 1 9 (184,2 + · · · + 184,4) = 184,8 q 1 2 2 8 [(184,2 + · · · + 184,4 ) − 9 3 Punkt-Schätzung Tabellen · 184,82 ] = 1,31 Quellen = 1,47 Interpretation: Mit 99 % Wahrscheinlichkeit ist µ ∈ [183,33; 186,27]. 155