Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 2017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 1 3.3 Parameterschätzungen: Konfidenzschätzungen I Ein Nachteil von Punktschätzungen ist darin zu sehen, dass diese als Zufallsgrößen mit einer Verteilung mit einer positiven Varianz den wahren“ Wert des Parameters ϑ nur selten exakt treffen“. Bei ” ” stetigen Verteilungen, wie z.B. der Normalverteilung, geschieht dies sogar nur mit Wahrscheinlichkeit Null, da z.B. P X = µ = 0 gilt. I Daher ist es häufig besser, einen ganzen Bereich (ein ganzes Intervall) als Schätzung anzubieten, dieser Bereich soll dann den unbekannten tatsächlichen Parameter mit hoher Wahrscheinlichkeit überdecken. I Das Intervall I ist ein Konfidenzintervall (Vertrauensintervall) oder allgemeiner eine Konfidenzschätzung für den Parameter ϑ zum Niveau 1 − α, wenn P(ϑ ∈ I ) ≥ 1 − α gilt. I Dabei wird eine Zahl 0 < α < 1 , üblicherweise nahe 0 , vorgegeben. Sie gibt die Wahrscheinlichkeit an, mit der Fehlentscheidungen (der wahre Parameter wurde nicht überdeckt) akzeptiert werden. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 2 Konfidenzintervalle I Wenn also für 100 verschiedene Stichproben aus ein und derselben Grundgesamtheit für ein und denselben Parameter jeweils ein Konfidenzintervall zum Niveau 1 − α bestimmt werden, werden im Mittel (1 − α) · 100 Intervalle den unbekannten Parameter überdecken und α · 100 nicht. Ob das eine konkret berechnete Intervall den Parameter überdeckt oder nicht, ist aber nicht entscheidbar. I Jeder Parameterwert aus dem Konfidenzintervall I kann als wahrer Parameterwert akzeptiert werden, allerdings mit einer Irrtumswahrscheinlichkeit von α . I Ausgangspunkt zur Konstruktion eines Konfidenzintervalles für einen Parameter ϑ ist meistens eine Schätzgröße für eine Punktschätzung ϑ̂ . Dazu muss man jedoch die exakte (oder asymptotische) Verteilung der Schätzfunktion oder einer geeigneten abgeleiteten Stichprobenfunktion finden. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 3 Konfidenzintervall für µ falls X ∼ N(µ, σ 2 ), σ 2 bekannt I I I σ2 X − µ√ X ∼ N µ, gilt n ∼ N(0, 1) . n σ Mit dem Quantil z1− α2 zum Niveau 1 − α2 der α Standardnormalverteilung d.h. Φ(z1− α2 ) = 1 − gilt dann 2 X − µ√ n ≤ z1− α2 = 1 − α , P −z1− α2 ≤ σ σ σ α α √ √ P X− z1− 2 ≤ µ ≤ X + z1− 2 = 1 − α . n n Wegen Damit erhält man die Formel für das (zweiseitige) Konfidenzintervall I für den Erwartungswert µ der Normalverteilung bei bekannter Varianz σ 2 zum Konfidenzniveau 1 − α σ σ I = X − √ z1− α2 ; X + √ z1− α2 . n n Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 4 Zahlenbeispiel I Aufgabe: 10 Wägungen eines leichten Objektes (auf einer Apothekerwaage) ergaben (in mg): 10.3 10.1 10.4 9.9 10.2 9.6 10.0 10.2 10.3 10.0. Die Waagengenauigkeit sei mit σ = 0.25 bekannt, die Messwerte können als normalverteilt angenommen werden. Bestimmen Sie das konkrete Konfidenzintervall für µ zur Irrtumswahrscheinlichkeit von 0.05 ! I Lösung: α = 0.05 ⇒ 1 − α2 = 0.975 ⇒ z0.975 = 1.96, n = 10, x = 10.1 ⇒ 0.25 0.25 I = 10.1 − √ · 1.96 ; 10.1 + √ · 1.96 , 10 10 I = [9.945 ; 10.255] . Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 5 Notwendiger Stichprobenumfang I Aus einer vorgegebenen Überdeckungswahrscheinlichkeit 1 − α und einer vorgegebenen Intervalllänge kann man den dazu notwendigen Stichprobenumfang ableiten. I In dem schon behandelten Fall eines Konfidenzintervalles für den Erwartungswert µ einer normalverteilten Grundgesamtheit bei bekannter Varianz σ 2 beträgt die halbe Intervalllänge z1− α2 2 2 σ σ . d = √ z1− α2 , folglich n ≥ d n I Im Wägebeispiel ergibt das für α = 0.05 , d = 0.1 einen Wert von n = 24 . I In anderen Situationen hängen häufig mehrere Größen in der Formel für die Intervalllänge von n ab, z.B. das vorkommende Quantil. Dann kann man mit einem iterativen Vorgehen den notwendigen Stichprobenumfang bestimmen. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 6 Allgemeine Wirkung von α und n I Allgemeine Wirkung der Irrtumswahrscheinlichkeit α : Je kleiner α ist, desto größer ist bei gegebem n das Konfidenzintervall, d.h. desto unschärfer wird ϑ lokalisiert, desto größer ist aber auch die Überdeckungswahrscheinlichkeit. I Allgemeine Wirkung des Stichprobenumfangs n : Je größer n ist, desto kleiner wird bei gegebenem α das Konfidenzintervall, d.h. umso schärfer wird ϑ lokalisiert. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 7 Statistische Prüfverteilungen I Zur Bestimmung von Konfidenzintervallen für Parameter der Normalverteilung und die später zu behandelnden statistischen Tests benötigt man Quantile von bestimmten Verteilungen, die mit der Normalverteilung zusammenhängen und die man statistische Prüfverteilungen nennt. Dies sind I I I I die χ2 -Verteilung (Chi-Quadrat-Verteilung), die t-Verteilung (Student-Verteilung) und die F -Verteilung (Fisher-Verteilung). In den nachfolgenden Folien zu den speziellen Prüfverteilungen seien deshalb X1 , . . . , Xn unabhängige normalverteilte Zufallsgrößen mit Erwartungswert µ und Varianz σ 2 jeweils und n 1X X = Xi , n i=1 n 2 1 X Xi − X . S = n−1 2 i=1 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 8 Die χ2 -Verteilung (Chi-Quadrat-Verteilung) I I I Parameter: m ∈ N ( Anzahl der Freiheitsgrade“). ” Es seien Z1 , . . . , Zm unabhängige und identisch standardnormalverteilte Zufallsvariable (Zi i.i.d. mit Zi ∼ N(0, 1), i = 1, . . . , m). Dann ist die Zufallsgröße X mit X = Z12 + Z22 + . . . Zm2 = m X Zi2 i=1 I I χ2 -verteilt mit m-Freiheitsgraden. Bezeichnung: X ∼ χ2m . Es ist für Xi ∼ N(µ, σ 2 ), u.i.v. (i.i.d.), n 1 X (Xi − µ)2 σ2 χ2 − verteilt mit n Freiheitsgraden und n 2 1 X Xi − X 2 σ χ2 − verteilt mit n − 1 Freiheitsgraden. i=1 i=1 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 9 Die χ2 -Verteilung (Chi-Quadrat-Verteilung) II 0.25 Dichtefunktionen: Chi−Quadrat−Verteilung 0.00 0.05 0.10 0.15 0.20 Freiheitsgrade: m = 3 m=5 m=8 0 5 10 15 x Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 10 Die t-Verteilung (Student-Verteilung) I I I Parameter: m ∈ N ( Anzahl der Freiheitsgrade“). ” Es seien Z und X unabhängige Zufallsvariable mit Z ∼ N(0, 1) (standardnomalverteilt) und X ∼ χ2m (χ2 -verteilt mit m Freiheitsgraden). Dann ist die Zufallsgröße Y mit Z Y =q X m I I t-verteilt mit m-Freiheitsgraden. Bezeichnung: Y ∼ tm . v u n u 1 X 2 2 Xi − X Es ist für Xi ∼ N(µ, σ ), u.i.v., S = t n−1 i=1 √ X −µ n S Dr. Andreas Wünsche t − verteilt mit n − 1 Freiheitsgraden. Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 11 Die t-Verteilung (Student-Verteilung) II 0.4 Dichtefunktionen: t−Verteilung 0.0 0.1 0.2 0.3 Freiheitsgrade: m = 1 m=5 m = 100 −4 −2 0 2 4 x Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 12 Die F -Verteilung (Fisher-Verteilung) I I I Parameter: m1 , m2 ∈ N ( Anzahl der Freiheitsgrade“). ” Es seien X1 und X2 zwei unabhängige χ2 -verteilte Zufallsgrößen mit m1 und m2 Freiheitsgraden. Dann ist die Zufallsgröße Y mit Y = I I X1 m1 X2 m2 F -verteilt mit den beiden Freiheitsgraden m1 und m2 . Bezeichnung: Y ∼ Fm1 ,m2 . Für zwei unabhängige normalverteilt Stichproben X1i (X1i ∼ N(µ1 , σ12 )) i = 1, . . . , n1 (σ̂12 = S12 ) und X2i (X2i ∼ N(µ2 , σ22 )) i = 1, . . . , n2 (σ̂22 = S22 ) ist S12 /σ12 S22 /σ22 F -verteilt mit den Freiheitsgraden n1 − 1 und n2 − 1. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 13 Die F -Verteilung (Fisher-Verteilung) II 1.5 Dichtefunktionen: F−Verteilung m1 = 5, m2 = 5 m1 = 5, m2 = 50 m1 = 50, m2 = 50 0.0 0.5 1.0 Freiheitsgrade: 0.0 0.5 1.0 1.5 2.0 2.5 3.0 x Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 14 Konfidenzintervall für µ falls X ∼ N(µ, σ 2 ), σ 2 unbekannt I I I Es ist für Xi ∼ N(µ, σ 2 ) , u.i.v., S = q 1 n−1 Pn i=1 Xi − X 2 √ X −µ n t − verteilt mit n − 1 Freiheitsgraden. S Mit dem Quantil tn−1;1− α2 zum Niveau 1 − α2 der t-Verteilung mit n − 1 Freiheitsgraden gilt dann √ X −µ α α ≤ tn−1;1− 2 = 1 − α , P −tn−1;1− 2 ≤ n S S S P X − √ tn−1;1− α2 ≤ µ ≤ X + √ tn−1;1− α2 = 1 − α . n n Damit erhält man die Formel für das (zweiseitige) Konfidenzintervall I für den Erwartungswert µ der Normalverteilung bei unbekannter Varianz σ 2 zum Konfidenzniveau 1 − α S S Iµ = X − √ tn−1;1− α2 ; X + √ tn−1;1− α2 . n n Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 15 Beispielaufgabe I Aufgabe: In einem Betrieb werden unter anderem grüne Bohnen in Dosen abgefüllt. Bei einer Stichprobe von 25 Dosen wurden folgende Abfüllgewichte in g ermittelt: 173 , 176 , 172 , 176 , 175 , 174 , 172 , 173 , 173 , 178 , 176 , 177 , 175 , 176 , 173 , 172 , 175 , 174 , 172 , 174 , 173 , 177 , 176 , 174 , 174 . Es wird angenommen, dass es sich bei den Werten um Realisierungen einer normalverteilten Zufallsgröße handelt. 1. Bestimmen Sie einen Schätzer für das mittlere Abfüllgewicht µ ! 2. Geben Sie ein Konfidenzintervall zum Niveau 0.95 für das Durchschnittsgewicht an ! I Größen zur Lösung: x = 174.4, n = 25, Dr. Andreas Wünsche s = 1.756, s 2 = 3.083, α 1 − = 0.975, t24;0.975 = 2.064. 2 Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 16 Konfidenzintervall für σ 2 falls X ∼ N(µ, σ 2 ), µ bekannt n I Es ist für Xi ∼ N(µ, σ 2 ) , u.i.v., S ∗2 = 1X (Xi − µ)2 , n i=1 n nS ∗2 1 X = (Xi − µ)2 σ2 σ2 χ2 − verteilt mit n Freiheitsgraden. i=1 I Mit den Quantilen χ2n; α bzw. χ2n;1− α zu den Niveaus 1− α 2 2 der χ2 -Verteilung P P 2 nS ∗2 nS ∗2 2 ≤ σ ≤ χ2n;1− α χ2n; α ! 2 Dr. Andreas Wünsche bzw. mit n Freiheitsgraden gilt dann nS ∗2 ≤ 2 ≤ χ2n;1− α 2 σ χ2n; α 2 α 2 = 1 − α, = 1 − α. 2 Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 17 Konfidenzintervall für σ 2 falls X ∼ N(µ, σ 2 ), µ bekannt I Damit erhält man die Formel für das (zweiseitige) Konfidenzintervall I für die Varianz σ 2 der Normalverteilung bei bekanntem Erwartungswert µ zum Konfidenzniveau 1 − α " # nS ∗2 nS ∗2 Iσ2 = ; . χ2n;1− α χ2n; α 2 I 2 Das (zweiseitige) Konfidenzintervall I für die Standardabweichung σ der Normalverteilung bei bekanntem Erwartungswert µ zum Konfidenzniveau 1 − α erhält man daraus durch Berechnung der Quadratwurzeln: "s # s nS ∗2 nS ∗2 Iσ = ; . χ2n;1− α χ2n; α 2 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 2 Version: 8. Juli 2017 18 Konfidenzintervall für σ 2 falls X ∼ N(µ, σ 2 ), µ unbekannt n−1 I Es ist für Xi ∼ N(µ, σ 2 ) , u.i.v., S 2 = 2 1 X Xi − X , n−1 i=1 n (n − 1)S 2 1 X = (Xi − X )2 σ2 σ2 χ2 − verteilt mit n − 1 i=1 Freiheitsgraden. I Mit den Quantilen χ2n−1; α bzw. χ2n−1;1− α zu den Niveaus 1− α 2 der χ2 -Verteilung 2 α 2 bzw. mit n − 1 Freiheitsgraden gilt dann (n − 1)S 2 2 α P χ2n−1; α ≤ ≤ χ = 1 − α, n−1;1− 2 2 σ2 ! 2 (n − 1)S 2 (n − 1)S P ≤ σ2 ≤ = 1 − α. χ2n−1;1− α χ2n−1; α 2 Dr. Andreas Wünsche 2 Statistik I für Betriebswirte Vorlesung 14 2 Version: 8. Juli 2017 19 Konfidenzintervall für σ 2 falls X ∼ N(µ, σ 2 ), µ unbekannt I Damit erhält man die Formel für das (zweiseitige) Konfidenzintervall I für die Varianz σ 2 der Normalverteilung bei unbekanntem Erwartungswert µ zum Konfidenzniveau 1 − α " # (n − 1)S 2 (n − 1)S 2 Iσ2 = ; . χ2n−1;1− α χ2n−1; α 2 I 2 Das (zweiseitige) Konfidenzintervall I für die Standardabweichung σ der Normalverteilung bei unbekanntem Erwartungswert µ zum Konfidenzniveau 1 − α erhält man daraus durch Berechnung der Quadratwurzeln: "s # s (n − 1)S 2 (n − 1)S 2 Iσ = ; . χ2n−1;1− α χ2n−1; α 2 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 2 Version: 8. Juli 2017 20 Einseitige Konfidenzintervalle I Einseitige Konfidenzintervalle, d.h. nur obere bzw. nur untere Konfidenzgrenzen, erhält man, indem man bei den zweiseitigen Konfidenzintervallen die entsprechende Grenze wählt und bei den Quantilen α2 durch α ersetzt. Die andere Grenze wird dann entsprechend der möglichen Werte des Parameters gewählt, also z.B. −∞ als untere Grenze für den Erwartungswert µ oder 0 als untere Grenze für die Varianz σ 2 oder die Standardabweichung σ. I Oft verwendet werden einseitige Konfidenzintervalle mit oberer Konfidenzgrenze zur Intervallschätzung der Varianz σ 2 einer Normalverteilung; ist der Erwartungswert µ unbekannt, lautet das entsprechende Konfidenzintervall zum Konfidenzniveau 1 − α: " # (n − 1)S 2 . Iσ2 = 0 ; χ2n−1;α Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 21 Beispiel Konfidenzintervall für σ 2 I Im Wägebeispiel aus der vorigen Vorlesung waren: n = 10 , x = 10.1 , s 2 = 0.23572 = 0.0556 , die Werte werden als normalverteilt mit unbekanntem Erwartungswert µ und unbekannter Varianz σ 2 angenommen. I Dann sind mit den Quantilen χ29;0.025 = 2.70 , χ29;0.05 = 3.33 , χ29;0.975 = 19.0 die Konfidenzintervalle zum Konfidenzniveau 1 − α = 0.95 : I I I I 9 · 0.0556 9 · 0.0556 ; = [0.0263 ; 0.1853] ; zweiseitig für σ 2 : Iσ2 = 2.70 h√ 19.0 √ i zweiseitig für σ : Iσ = 0.0263 ; 0.1853 = [0.1622 ; 0.4305] ; 9 · 0.0556 = [0 ; 0.1503] ; einseitig (oben) für σ 2 : Iσ2 = 0 ; h √ 3.33i einseitig (oben) für σ : Iσ = 0 ; 0.1503 = [0 ; 0.3877] . Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 22 Asymptotische Konfidenzintervalle I Die Konfidenzintervalle für den Erwartungswert bzw. die Varianz können als asymptotische Konfidenzintervalle auch für nicht-normalverteilte Merkmale (mit endlicher Varianz) genutzt werden, wenn der Stichprobenumfang n groß genug ist. I Dabei genügt bei symmetrischen Verteilungen oft schon eine Anzahl von n ≈ 15 Stichprobenwerten, während bei schiefen Verteilungen oft n ≈ 30 noch nicht ausreicht. I Auch eine unbekannte Wahrscheinlichkeit p kann mit Hilfe eines solchen asymptotischen Konfidenzintervalls geschätzt werden. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 23 Konfidenzintervall für eine Wahrscheinlichkeit p I I Aufgabe: Ereignisses 1, Xi = 0, Intervallschätzung der Wahrscheinlichkeit p eines A, also p = P(A). A tritt bei Beobachtung i ein, (i = 1, . . . , n). A tritt bei Beobachtung i nicht ein, I Die Schätzgröße für p ist die relative Häufigkeit p̂ = X , dabei ist die absolute Häufigkeit X = nX binomialverteilt mit Parametern n und p. I Mit Hilfe des Grenzwertsatzes von Moivre-Laplace kann man ein asymptotisches Konfidenzintervall I = [Gu ; Go ] zum Konfidenzniveau 1 − α konstruieren. I Dieses kann für große Stichprobenumfänge n genutzt werden, als Faustregel gelten np̂ > 5 und n(1 − p̂) > 5. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 24 Konfidenzintervall für eine Wahrscheinlichkeit p I Mit dem Quantil z1− α2 der Standardnormalverteilung zum Niveau α erhält man 1− 2 " # r 1 1 2 X (n − X ) 1 2 Gu = + z1− α , X + z1− α − z1− α2 2 2 2 2 n 4 n + z1− α 2 " # r 1 1 2 X (n − X ) 1 2 Go = X + z1− α + z1− α2 + z1− α . 2 2 2 2 n 4 n + z1− α 2 I Eine einseitige untere Konfidenzgrenze wäre dann z.B. gegeben durch " # r 1 1 2 X (n − X ) 1 2 Gu = X + z1−α − z1−α + z1−α . 2 2 n 4 n + z1−α Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 25 Beispiel: Konfidenzintervall für p I Aufgabe: Zur Schätzung des Ausschussanteils eines umfangreichen Lieferpostens werde diesem eine Stichprobe von 200 Teilen entnommen. Dabei wurden 190 einwandfreie Teile festgestellt. 1. Geben Sie eine Schätzung für den Ausschussanteil an. 2. Berechnen Sie ein Konfidenzintervall für den Ausschussanteil zum Konfidenzniveau 1 − α = 0.95. I Größen zur Lösung: n = 200, 1− α 2 x= = 0.975, Dr. Andreas Wünsche 10 200 = 0.05, absolute Häufigkeit x = 10, z0.975 = 1.96 . Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 26 Klausur Statistik I für Betriebswirte I I Termin: Raum: I I Montag, 31. Juli 2017, 7:30 - 9:30 Uhr . Alte Mensa Es muss selbstständig gearbeitet werden. Als Hilfsmittel für die Prüfung ist außer Notebook und Handy alles zugelassen. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli 2017 27