Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Stefan Etschberger Hochschule Augsburg Statistik Einführung Stefan Etschberger Intervall-Schätzung Für einen unbekannten Verteilungsparameter ϑ soll auf Basis einer Stichprobe ein Intervall geschätzt werden. Verwendung der Stichprobenfunktionen Vu , Vo , so dass Vu 5 Vo und P(Vu 5 ϑ 5 Vo ) = 1 − α 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung stets gelten. [Vu ; Vo ] heißt Konfidenzintervall (KI) für ϑ zum Konfidenzniveau 1 − α. Intervall-Schätzung Signifikanztests Tabellen Quellen Beachte: Das Schätzintervall [vu ; vo ] ist Realisierung der Zufallsvariablen (!) Vu , Vo . à Irrtumswahrscheinlichkeit α (klein, i.d.R. α 5 0,1) Frage: Welche Konfidenzintervalle sind zur Schätzung geeignet? à Hängt von Verteilung von G sowie vom unbekannten Parameter (µ, σ2 ) ab! Im Folgenden: Einfache Stichprobe X1 , . . . , Xn mit E(Xi ) = µ, Var(Xi ) = σ2 148 Statistik Einführung Stefan Etschberger Intervall-Schätzung Wichtiger Spezialfall: Symmetrische Konfidenzintervalle Symmetrisch heißt nicht, dass die Dichte symmetrisch ist, sondern 1. Einführung übereinstimmende Wahrscheinlichkeiten für Über-/Unterschreiten des Konfidenzintervalls, d.h. P(Vu > ϑ) = P(Vo < ϑ) = α 2 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests f(x) Tabellen Quellen 0,1 0,05 x 1 10 14 Wichtig: Eine Verkleinerung von α bewirkt eine Vergrößerung des Konfidenzintervalls. 149 Konfidenzintervall für µ bei Normalverteilung mit bekanntem σ2 Vorgehensweise: Statistik Einführung Stefan Etschberger 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 1 2 3 4 5 Festlegen des Konfidenzniveaus 1 − α α -Fraktils c der N(0, 1)-Verteilung Bestimmung des 1 − 2 Berechnen des Stichprobenmittels x̄ σc Berechnen des Wertes √ n Ergebnis der Intervall-Schätzung: σc x̄ − √ ; n σc x̄ + √ n 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Tabellen Quellen 150 Intervallschätzung: Beispiel Statistik Einführung Stefan Etschberger Beispiel Normalverteilung mit σ = 2,4 (x1 , . . . , x9 ) = (184.2, 182.6, 185.3, 184.5, 186.2, 183.9, 185.0, 187.1, 184.4) Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0,99 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 1. 1 − α = 0,99 Tabellen 2. N(0; 1): c = x1− α2 = x1− 0,01 = x0,995 = 2,576 (Tab. 3; 2 Interpolation) 3. x̄ = 4. σc √ n 1 9 = Quellen (184,2 + · · · + 184,4) = 184,8 2,4·2,576 √ 9 = 2,06 5. KI = [184,8 − 2,06; 184,8 + 2,06] = [182,74; 186,86] Interpretation: Mit 99 % Wahrscheinlichkeit ist µ ∈ [182,74; 186,86]. 151 Statistik Einführung Stefan Etschberger Wichtige Fraktilswerte 1. Einführung 2. Deskriptive Statistik Wichtige N(0; 1)-Fraktilswerte: 3. W-Theorie 4. Induktive Statistik α xα 0,9 1,281552 0,95 1,644854 0,975 1,959964 0,99 2,326348 0,995 2,575829 Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Tabellen Quellen (I.d.R. genügen drei Nachkommastellen.) 152 Statistik Einführung Stefan Etschberger Intervalllänge Im Fall 13.1.1 gilt offenkundig 2σc L = Vo − Vu = √ n 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Welcher Stichprobenumfang n sichert eine vorgegebene (Maximal-)Länge L? ⇒ Nach n auflösen! ⇒ 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung n= 2σc L 2 Signifikanztests Tabellen Quellen Eine Halbierung von L erfordert eine Vervierfachung von n! Angewendet auf letztes Beispiel: L = 4 ⇒n = L = 2 ⇒n = 2·2,4·2,576 2 4 2·2,4·2,576 2 2 = 9,556 ⇒ n = 10 = 38,222 ⇒ n = 39 153 Statistik Einführung Stefan Etschberger Konfidenzintervall Konfidenzintervall für µ bei Normalverteilung mit unbekanntem σ2 2. Deskriptive Statistik Vorgehensweise: 1 2 3 4 5 1. Einführung 3. W-Theorie Festlegen des Konfidenzniveaus 1−α α -Fraktils c der t(n − 1)-Verteilung Bestimmung des 1 − 2 Berechnen des Stichprobenmittels x̄ und der Stichproben-Standardabweichung s sc Berechnen des Wertes √ n Ergebnis der Intervall-Schätzung: sc x̄ − √ ; n sc x̄ + √ n 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Tabellen Quellen Zu Schritt 2: Falls n − 1 > 30 wird die N(0; 1)-Verteilung verwendet. 154 x = c(180,0,0,220,150,240,280,380,350, 120,200,120,100,360,600,600,483,119.4, 120,160,60,480,600,360,300,240,349,346, 50,480,220,240,180,480,600,0,150, 225,250,540,180,360,30,240, 440,480,480,360,1220,300,600) 280 [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] 600 200 360 1220 163.2796358 320.7603642 235.9522368 417.8877632 237.6206289 499.8193711 254.3522214 408.5477786 224.393334 407.406666 204.0506833 468.5493167 148.8444756 311.7555244 155.1072453 306.3327547 191.771288 373.428712 166.9283462 426.6116538 230.53089 481.36911 [1] 86.40257609 634.79742391 [1] 165.6975129 538.3024871 [1] 259.6789596 544.7210404 [1] 120.4789738 633.5210262 [1] 35.72754801 552.27245199 [1] 219.3433736 616.2566264 [1] -36.8446877 468.8446877 [1] -60.85713544 1020.85713544 [1] 77.07861682 565.32138318 [10] -314.1336561 946.1336561 [1] 187.2046956 576.7953044 [1] -81.88739662 997.88739662 [1] 36.9425869 407.0574131 [1] 323.7436842 630.6563158 [1] 211.8828035 464.1171965 [1] 50.80519538 377.19480462 [1] -18.25476504 266.25476504 [1] 156.8953388 247.1046612 [1] 55.64810981 521.55189019 [20] 199.3579091 448.6420909 [1] -17.00013806 331.40013806 [1] 51.40401004 524.59598996 [1] -76.2797561 1044.0397561 [1] 161.392 344.608 [1] 232.4768 611.1232 [1] 20.55132497 667.44867503 [1] 177.1975723 370.8024277 [1] 240.1491821 663.8508179 [1] -9.715222856 529.715222856 [30] -19.22216291 427.22216291 [1] -49.79294559 1041.79294559 [1] 76.20421202 355.79578798 [1] -54.96803126 630.96803126 [1] -95.08591508 443.08591508 [1] 105.817232 1056.182768 [1] 88.64648521 574.95351479 [1] -50.23998793 554.23998793 [1] -71.00392879 535.00392879 [1] 118.752 385.248 [40] -18.61361644 530.61361644 Statistik Einführung Stefan Etschberger Konfidenzintervalllänge Beispiel: Wie das letzte Beispiel, jedoch σ unbekannt. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 1 1 − α = 0,99 2 t(8): c = x1− α2 = x1− 0,01 = x0,995 = 3,355 (Tab. 4) Grundlagen 2 s= 4 sc √ n = 5 KI = [184,8 − 1,47; 184,8 + 1,47] = [183,33; 186,27] x̄ = 1,31·3,355 √ 9 Intervall-Schätzung Signifikanztests 1 9 (184,2 + · · · + 184,4) = 184,8 q 1 2 2 8 [(184,2 + · · · + 184,4 ) − 9 3 Punkt-Schätzung Tabellen · 184,82 ] = 1,31 Quellen = 1,47 Interpretation: Mit 99 % Wahrscheinlichkeit ist µ ∈ [183,33; 186,27]. 155 Statistik Einführung Stefan Etschberger R Beispiel 1. Einführung R-Code > > > > > > > # require(MASS) # require(RColorBrewer) # palette(brewer.pal(11,"RdYlGn")) # par(oma=c(0,0,0,0)) # par(cex=3, cex.axis=3, cex.names=3) x <- c(184.2, 182.6, 185.3, 184.5, 186.2, 183.9, 185.0, 187.1, 184.4) t.test(x,conf.level=.99) 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests One Sample t-test data: x t = 422.1129, df = 8, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 0 99 percent confidence interval: 183.331 186.269 sample estimates: mean of x 184.8 Tabellen Quellen 156 Statistik Einführung Stefan Etschberger Konfidenzintervall für µ bei beliebiger Verteilung Voraussetzung: n > 30, bzw. falls G dichotom: 5 5 n P xi 5 n − 5 i=1 Vorgehensweise: 1 2 3 4 5 Festlegen des Konfidenzniveaus 1−α Bestimmung des 1 − α2 -Fraktils c der Standardnormalverteilung N(0; 1) Berechnung des Stichprobenmittels x̄ sowe eines Schätzwertes σ̂ für die Standardabweichung σ der GG mittels σ, falls σ bekannt p σ̂ = x̄(1 − x̄), falls GG dichotom s, sonst 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Tabellen Quellen σ̂c Berechnung von √ n Ergebnis der Intervallschätzung: σ̂c σ̂c x̄ − √ ; x̄ + √ n n Zu Schritt 3: Manchmal kann anderer Schätzwert σ̂ sinnvoller sein. 157 Konfidenzintervall für µ bei beliebiger Verteilung Beispiel: Poisson-Verteilung mit λ (= µ = σ2 ) unbekannt. (x1 , . . . , x40 ) = (3; 8; . . . ; 6) Gesucht: KI für λ zum Konfidenzniveau 1 − α = 0,9 Statistik Einführung Stefan Etschberger 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung 1 2 Intervall-Schätzung 1 − α = 0,9 Signifikanztests N(0; 1) : c = x1− α2 = x1− 0,1 = x0,95 = 1,645 2 3 4 5 Tabellen Quellen 1 x̄ = (3 + 8 + · · · + 6) = 6,5 40 √ √ σ̂ = x̄ = 6,5 = 2,55 (da σ2 = λ) σ̂c 2,55 · 1,645 √ = √ = 0,66 n 40 KI = [6,5 − 0,66; 6,5 + 0,66] = [5,84; 7,16] 158 Konfidenzintervall für σ2 bei Normalverteilung Statistik Einführung Stefan Etschberger f(x) 0,1 0,05 Vorgehensweise x 1 1 2 3 Bestimmung der α 2 - bzw. (1 − χ2 (n − 1)-Verteilung 1. Einführung 3. W-Theorie α 2 )-Fraktile (c1 bzw. c2 ) der 4. Induktive Statistik Grundlagen Punkt-Schätzung Aus der Stichprobe: Berechnung der Größe n X 14 2. Deskriptive Statistik Festlegen eines Konfidenzniveaus 1 − a (n − 1)s2 = 2 (xi − x̄) = i=1 4 10 n X Intervall-Schätzung Signifikanztests Tabellen x2i − nx̄2 v Quellen i=1 Berechnung des Konfidenzintervalls (n − 1)s2 (n − 1)s2 ; c2 c1 159 280 600 200 360 1220 KI für σ2 bei Normalverteilung Statistik Einführung Stefan Etschberger Beispiel: G ∼ N(µ; σ); 1. Einführung (x1 , . . . , x5 ) = (1, 1.5, 2.5, 3, 2) 2. Deskriptive Statistik Gesucht: KI für σ2 zum Konfidenzniveau 1 − α = 0,99 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung 1 2 Intervall-Schätzung 1 − α = 0,99 2 χ (5 − 1) : c1 = x Signifikanztests α 2 c2 = x1− α2 3 4 = x0,005 = 0,21 Tabellen Quellen = x0,995 = 14,86 x̄ = 15 (1 + 1,5 + 2,5 + 3 + 2) = 2 5 P x2i − 5 · x̄2 = 12 + 1,52 + 2,52 + 32 + 22 − 5 · 22 = 2,5 i=1 2,5 2,5 = 0,17; 11,9 KI = ; 14,86 0,21 (Extrem groß, da n klein.) 160 Signifikanztests Statistik Einführung Stefan Etschberger Vorliegen einer Hypothese über die Verteilung(en) der Grundgesamtheit(en). 1. Einführung Beispiele: „Der Würfel ist fair.“ „Die Brenndauern zweier unterschiedlicher Glühbirnensorten sind gleich.“ 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Hypothese soll anhand einer Stichprobe überprüft werden. Prinzip: Hypothese verwerfen, wenn „signifikanter“ Widerspruch zur Stichprobe. Ansonsten: Hypothese nicht verwerfen. Intervall-Schätzung Signifikanztests Tabellen Quellen Eine verworfene Hypothese gilt als statistisch widerlegt. Nicht-Verwerfung ist dagegen ein „Freispruch aus Mangel an Beweisen“. Zu Beachten: Nicht-Verwerfung ist kein „statistischer Beweis“, dass Hypothese wahr ist! („Trick“: Hypothese falsch ⇐⇒ Gegenhypothese wahr!) 161 Statistik Einführung Stefan Etschberger Einstichproben-Gaußtest Zunächst: G ∼ N(µ; σ) mit σ bekannt Einfache Stichprobe X1 , . . . , Xn (Null-)Hypothese H0 : µ = µ0 Beispiel: X1 , . . . , X25 mit Xi = Füllmenge der i-ten Flasche ∼ N(µ; 1,5) Nullhypothese H0 : µ = 500, d.h. µ0 = 500 Je nach Interessenlage sind unterschiedliche Gegenhypothesen möglich: a) H1 : µ 6= µ0 b) H1 : µ < µ0 c) H1 : µ > µ0 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Tabellen Quellen Entscheidung: H0 : µ a) H1 : µ b) H1 : µ c) H1 : µ = 6 = < > µ0 µ0 , µ0 , µ0 , wird abgelehnt gegenüber wenn |x̄ − µ0 | „sehr groß“ ist wenn x̄ „weit kleiner“ als µ0 ist wenn x̄ „weit größer“ als µ0 ist 162 Statistik Einführung Stefan Etschberger Einstichproben-Gaußtest Mögliche Fehlentscheidungen Alternatives Kriterium: x̄ − µ0 √ n v= σ Vorteil: Verteilung bekannt: N(0; 1) Ablehnung von H0 , obwohl H0 richtig ist: Fehler 1. Art Nicht-Ablehnung von H0 , obwohl H0 falsch ist: Fehler 2. Art Dann: H0 : µ = µ0 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen wird abgelehnt gegenüber Punkt-Schätzung Intervall-Schätzung a) H1 : µ 6= µ0 , wenn |v| „sehr groß“ ist b) H1 : µ < µ0 , wenn v „sehr negativ“ ist c) H1 : µ > µ0 , wenn v „sehr positiv“ ist Signifikanztests Tabellen n alte H0 beibeh H0 r Quellen ichtig H0 ablehn en n H0 f alsch alte H0 beibeh H0 ablehn en Signifikanzniveau α: Maximal erlaubte Wahrscheinlichkeit für einen Fehler 1. Art. 163