Fachhochschule Jena University of Applied Sciences Jena Parameterschätzungen Oft ist der Verteilungstyp einer Zufallsgröße X bekannt, nur die Parameter sind unbekannt. Dann erfolgt ihre Schätzung aus einer Stichprobe. Man unterscheidet zwischen Punktschätzungen Intervallschätzungen (Konfidenzintervalle/Vertrauensbereiche) Punktschätzungen liefern für den unbekannten Parameter einen Wert, der aus den (zufälligen) Realisierungen der Stichprobe berechnet wird. Intervallschätzungen geben unter Berücksichtigung des Verteilungstyps von X einen Bereich an, der den Parameter mit vorgegebener Sicherheit enthält. Methoden zur Konstruktion von Punktschätzungen für unbekannte Parameter Momentenmethode Maximum-Likelihood-Methode SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 1 Fachhochschule Jena University of Applied Sciences Jena Parameterschätzungen: Momentenmethode Definition k-tes Moment einer Zufallsgröße X M k EX k k-tes empirisches Moment (aus Stichprobe x1 ,..., xn ) 1 mk ( x1k ... xnk ) n Die Momente der Zufallsgröße enthalten die unbekannten Parameter der Stichprobe. Jedes der empirischen Momente ist ein Zahlenwert, berechnet aus den konkreten Stichprobenrealisierungen. Momentenmethode Sind in der Verteilung r Parameter zu schätzen, setzt man dafür die ersten r Momente der Zufallsgröße gleich den ersten r empirischen Momenten und löst das dabei entstehende Gleichungssystem E ( X k ) mk , 1 k r SS 2013 6.1 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 2 Fachhochschule Jena University of Applied Sciences Jena Parameterschätzungen: Güteeigenschaften Um Güteeigenschaften einer Schätzfunktion zu beurteilen oder Intervallschätzungen zu konstruieren, die den Parameter mit bestimmter Wahrscheinlichkeit überdecken, kann man nicht mit den beobachteten Messwerten modellieren. Dafür betrachtet man die gemessenen Stichprobenwerte x1, . . . . , xn als Realisierungen von Zufallsgrößen X1, . . . , Xn , die alle die gleiche Verteilung wie X haben und unabhängig sind. Konkrete Stichprobe (Messreihe, zum Rechnen) x1, . . . , xn Mathematische Stichprobe (Zufallsgrößen, zum Modellieren) X1, . . . , Xn Schätzfunktion: Funktion der unabhängigen Zufallsgrößen X1,…,Xn , z.B. n 1 Xi n i1 1 n h( X 1 ,..., X n ) ( X i X )2 n i1 g ( X 1 ,..., X n ) SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 3 Fachhochschule Jena University of Applied Sciences Jena Parameterschätzungen: Güteeigenschaften Eine Güteeigenschaft einer Schätzfunktion ist die Erwartungstreue, die besagt, dass der Erwartungswert der Schätzfunktion gleich dem Verteilungsparameter ist. E g ( X1 ,..., X n ) 1 n Die Schätzfunktion g ( X 1 ,..., X n ) X i ist erwartungstreue Schätzung für , denn n i1 n n 1 n 1 1 EX E X i EX i n i1 n i1 n i1 d.h. im Mittel erhält man mit dieser Schätzfunktion den richtigen Parameter der Verteilung. 1 n Hingegen ist die Schätzfunktion h( X 1 ,..., X n ) ( X i X )2 nicht erwartungstreu für 2, n i1 n n 2 2 1 n 1 2 E X i X (n 1) 2 E X i X n n i 1 i 1 Daher verwendet man für 2 die erwartungstreue Schätzfunktion 1 n S ( X i X )2 n 1 i1 2 SS 2013 6.2 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 4 Fachhochschule Jena University of Applied Sciences Jena Parameterschätzungen: Maximum-Likelihood Maximum-Likelihood-Methode Idee: man wählt als Verteilungsparameter diejenigen, für die die Wahrscheinlichkeit des Auftretens der beobachteten Stichprobenwerte maximal ist Dazu maximiert man die gemeinsame Dichte, die wegen der Unabhängigkeit der Zufallsgrößen gleich dem Produkt der eindimensionalen Dichten ist Likelihood-Funktion f ( x1 ,..., xn , ) f ( x1 , ) ... f ( xn , ) Gesucht ist θ so, dass diese Größe maximal wird: Wegen der Produktstruktur wird die Rechnung oft durch Logarithmieren vereinfacht Log Likelihood-Funktion n ln f ( x1 ,..., xn , ) ln f ( xi , ) i 1 Nullsetzen der partiellen Ableitungen nach den Parametern ergibt Gleichungssystem, dessen Lösungen die gesuchten Parameter sind. 6.3 SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 5 Fachhochschule Jena University of Applied Sciences Jena Intervallschätzungen Zielstellung Das Ergebnis einer Punktschätzung des Parameters ist anhängig davon, welche Realisierungen der Zufallsgröße X in die Stichprobe gelangt sind. Da die Stichprobe nur einen Teil der Grundgesamtheit enthält, ist eine solche Schätzung ungenau bzw. mit Unsicherheit/Risiko behaftet. Aber: Die Verteilung der Schätzfunktion ist oft aus der Verteilung der Grundgesamtheit berechenbar. Damit kann man 'Genauigkeitsaussagen' für die Parameterschätzungen treffen in folgendem Sinn: Der unbekannte Parameter liegt z.B. mit Sicherheit von 95% im Intervall (ku, ko). Eine solche Schätzung nennt man Intervallschätzung (Konfidenzintervall). SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 6 Fachhochschule Jena University of Applied Sciences Jena Verteilung der Stichprobenfunktion bei NV Konstruktion eines Konfidenzintervalls für Parameter bei Normalverteilung Stichprobenwerte seien Realisierungen von unabhängigen Xi, mit Xi ~N(,σ²), somit gilt 2 1 n X X i ~ N , n i 1 n und nach Standardisierung X ~ N (0.1) / n Folglich mit den Quantilen z /2 , z1 /2 X P z / 2 z1 / 2 1 , / n der Standard-NV bzw. nach Umstellen der Ungleichungskette P X z1 /2 X z /2 1 n n SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 7 Fachhochschule Jena University of Applied Sciences Jena Konfidenzintervalle bei NV Lage der Quantile z / 2 , z1 / 2 von X ~ N (0,1) / n Wegen der Symmetrie der Dichte gilt z / 2 z1 / 2 folglich /2 z / 2 z1 / 2 /2 P X P X z1 /2 X n z1 / 2 X n z /2 1 n z1 /2 1 n z1 / 2 d.h. das Intervall X z1 /2 , X z1 /2 überdeckt mit Sicherheit 0.95 n n und ist daher 95%-Konfidenzintervall für . SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 8 Fachhochschule Jena University of Applied Sciences Jena Konfidenzintervalle bei NV Bezeichnungen: n 1- z1 ,( z1 /2 ) Stichprobenumfang Irrtumswahrscheinlichkeit, Risiko Sicherheit, Konfidenzniveau Quantil der Standardnormalverteilung tn , 1 , (tn , 1 /2 ) der Ordnung 1 , (1 / 2) Quantil der t-Verteilung mit n Freiheitsgraden der Ordnung 1 , (1 / 2) 2n , 1 ,( 2n , 1 /2 ) Quantil der 2 -Verteilung mit n Freiheitsgraden der Ordnung 1 , (1 / 2) SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 9 Fachhochschule Jena University of Applied Sciences Jena Konfidenzintervalle für Parameter der Normalverteilung Typen von Konfidenzintervallen zweiseitiges Konfidenzintervall für : KI = ( X , X ) einseitiges nach oben offenes Konfidenzintervall für : KI = ( X ', ) nach unten offenes Konfidenzintervall für : KI = (, X ') für geeignete Werte von bzw. ' Bei Sicherheit 1 - ist im zweiseitigen KI in den einseitigen KI SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW z1 / 2 ' z1 n n Konfidenzintervalle 10 Fachhochschule Jena University of Applied Sciences Jena Konfidenzintervalle für Parameter der Normalverteilung KI für Erwartungswert bei bekannter Standardabweichung 2 zum Konfidenzniveau 1 - : Zweiseitig x z , x z 1 / 2 1 / 2 n n Länge des Konfidenzintervalls Einseitig oben offen , x z1 n Einseitig unten offen , x z1 n x z x z 2 z 1 / 2 1 / 2 1 / 2 n n n Folgerung: KI wird länger bei größerer Streuung σ der Grundgesamtheit bei größerer Sicherheit 1 - KI wird enger bei größerem Stichprobenumfang Notwendiger Stichprobenumfang n für max. Länge L des KI für ( bekannt) 2 2z1 / 2 n 6.4 L SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 11 Fachhochschule Jena University of Applied Sciences Jena Interpretation des Konfidenzintervalls Interpretation des Konfidenzintervalls Bei jeder Stichprobe aus der gleichen Grundgesamtheit erhält man i.a. andere Messwerte und somit auch etwas andere Konfidenzgrenzen. Sicherheit 1 - Von 100 so berechneten KI überdecken im Mittel (1-)·100% den unbekannten Parameter. Von einem konkreten KI weiß man allerdings nicht, ob es zu diesen (1-)·100% gehört oder zu den restlichen ·100% , die den Parameter nicht enthalten. Risiko bedeutet nicht, dass (1-)·100% der Werte von X in den Grenzen des KI liegen, die Grenzen beziehen sich auf den unbekannten Erwartungswert ! SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 12 Fachhochschule Jena University of Applied Sciences Jena Konfidenzintervalle für Parameter der Normalverteilung Konfidenzintervall bei unbekannter Standardabweichung Ist die Standardabweichung ebenfalls unbekannt, wird sie aus der Stichprobe X geschätzt: Man ersetzt formal in das unbekannte durch s. / n X Das hat zur Folge, dass der Stichprobenfunktion nicht mehr normalverteilt, s/ n sondern t-verteilt ist mit n-1 Freiheitsgraden. Daher ist bei der Berechnung des KI das Quantil der Standardnormalverteilung durch das der t-Verteilung zu ersetzen. KI für Erwartungswert bei unbekannter Standardabweichung zum Konfidenzniveau 1 - Zweiseitig s , x tn1,1 / 2 x tn1,1 / 2 n Einseitig oben offen s s , x tn1,1 n n Einseitig unten offen s , x t n 1,1 n 6.5 SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 13 Fachhochschule Jena University of Applied Sciences Jena Konfidenzintervall für 2 bei Normalverteilung Konfidenzintervall für den Streuungsparameter σ der Normalverteilung KI für Varianz ² zum Konfidenzniveau 1 - n 1 n 1 2 2 s , s 2 2 n 1, / 2 n 1, 1 / 2 KI für Standardabweichung zum Konfidenzniveau 1 - n 1 s, 2 n 1, 1 / 2 s 2n 1, / 2 n 1 Achtung Liegt keine NV in der Grundgesamtheit vor, erhält man nach den gleichen Formeln asymptotische Konfidenzintervalle für Erwartungswert und Varianz σ², falls der Stichprobenumfang hinreichend groß ist (Faustregel: n > 30 nach Grenzwertsatz) 6.6 SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 14 Fachhochschule Jena University of Applied Sciences Jena Konfidenzintervalle für Binomialverteilung Bezeichnungen: n Stichprobenumfang k Anzahl der Beobachtungen des Ereignisses in der Stichprobe (absolute Häufigkeit für Erfolg in n Versuchen) pˆ k n p̂ ist Schätzung für den unbekannten Parameter p der Grundgesamtheit relative Erfolgshäufigkeit 1 Sicherheit c z1 / 2 Quantil der Standardnormalverteilung der Ordnung 1 / 2 Ff1 , f2 ,1 / 2 Quantil der F-Verteilung mit f1 , f 2 Freiheitsgraden der Ordnung 1 / 2 SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 15 Fachhochschule Jena University of Applied Sciences Jena Konfidenzintervalle für Binomialverteilung Asymptotische Konfidenzintervalle für Parameter p der Binomialverteilung in Abhängigkeit vom Stichprobenumfang n und Erfolgsanteil Faustregel: n·p·(1-p) > 9 c2 k 2 c2 c2 k 2 c2 k c k k c k 2 n 4 2 n 4 , 2 2 nc nc Vereinfachung für k 50, n - k 50 c pˆ n pˆ (1 pˆ ), pˆ c n pˆ (1 pˆ ) c : Quantil der Standard-NV der Ordnung 1-/2 SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 16 Fachhochschule Jena University of Applied Sciences Jena Konfidenzintervalle für Binomialverteilung Exaktes Konfidenzintervall für Parameter p der Binomialverteilung mit den Grenzen aus Quantilen der Ordnung 1 - /2 der F-Verteilung KI pu , po pu po = k mit f1 =2(n - k 1), f 2 2k k (n k 1) F f1 , f2 ,1 / 2 (k+1)Ff1 , f2 ,1 / 2 n k (k 1) F f1 , f2 ,1 / 2 mit f1 =2(k 1), f 2 2(n k ) Einseitige Konfidenzintervalle für p erhält man analog zum Verfahren bei Normalverteilung mit den entsprechenden Quantilen der Ordnung 1 - und der Untergrenze 0 bzw. der Obergrenze 1. 6.7 SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 17 Fachhochschule Jena University of Applied Sciences Jena Konfidenzintervalle für Binomialverteilung Notwendiger Stichprobenumfang für max. Länge 2 des zweiseitigen asymptotischen Konfidenzintervalls 2 ohne Information über Größenordnung von p 1 c n 4 wenn Größenordnung pˆ bekannt c n pˆ (1 pˆ ) 2 c: Quantil der Standardnormalverteilung passender Ordnung 6.8 SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 18 Fachhochschule Jena University of Applied Sciences Jena Konfidenzintervall für Poissonverteilung Asymptotisches Konfidenzintervall für Parameter λ Poissonverteilung Nach dem zentralen Grenzwertsatz ist für X ~ Pois(λ) wegen EX = VarX = λ X asy ~ N (0,1) die standardisierte Größe X asy somit für den Mittelwert von n unabhängigen ZG Xi : X ~ N (, ) und ~ N (0,1) n X n z 1 und umgeformt folglich näherungsweise P z asy 1 2 /n 1 2 Asymptotisches Konfidenzintervall für Parameter λ Poissonverteilung 1 2 1 1 2 1 2 1 1 2 X z z X z , X z z X z1 / 2 1 / 2 1 / 2 1 / 2 1 / 2 1 / 2 2 n 4 n 2 n 4 n n n 1 2 1 1 2 Einseitige Konfidenzintervalle z1 z1 X z1 0, X 2 n 4 n n 1 2 1 1 2 X z z X z , 1 1 1 2 n 4 n n SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 19 Fachhochschule Jena University of Applied Sciences Jena Konfidenzintervall für Exponentialverteilung Asymptotisches Konfidenzintervall für Erwartungswert = 1/λ Punktschätzung für den Erwartungswert : 2 n Wegen X i ~ 22 n gilt i 1 n 1 ˆ X i n i1 2 n 2 P 2 n, / 2 X i 22 n,1 / 2 1 i1 Durch Umstellen der Ungleichungskette erhält man ein Konfidenzintervall für = 1/λ Konfidenzintervall für λ n n 2 X 2 X i i i 1 i 1 2 , 2 2 n ,1 / 2 2 n , / 2 22 n , / 2 22 n,1 / 2 , n n 2 X i 2 X i i1 i 1 6.9 SS 2013 Prof. Dr. J. Schütze/ J. Puhl FB GW Konfidenzintervalle 20