Parameterschätzungen Oft ist der Verteilungstyp einer Zufallsgröße X bekannt, nur die Parameter sind unbekannt. Dann erfolgt ihre Schätzung aus einer Stichprobe. Man unterscheidet zwischen Punktschätzungen Intervallschätzungen (Konfidenzintervalle/Vertrauensbereiche) Punktschätzungen liefern für den unbekannten Parameter einen Wert, der aus den (zufälligen) Realisierungen der Stichprobe berechnet wird. Intervallschätzungen geben unter Berücksichtigung des Verteilungstyps von X einen Bereich an, der den Parameter bei vorgegebener Sicherheit enthält. Methoden zur Konstruktion von Punktschätzungen für unbekannte Parameter Momentenmethode Maximum-Likelihood-Methode SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 1 Schätzfunktionen für Parameter Wichtig für schließende Statistik ist Unterscheidung zwischen konkreten und mathematischen Stichproben. Konkrete Stichprobe x1, . . . , xn (Messreihe, zum Rechnen) Mathematische Stichprobe X1, . . . , Xn (Zufallsgrößen, zum Modellieren) Die Zufallsgrößen Xi haben die gleiche Verteilung wie X und sind unabhängig. Schätzfunktion: Funktion der unabhängigen Zufallsgrößen X1,…, Xn , z.B. 1 n g ( X 1 ,..., X n ) X i n i1 1 n h( X 1 ,..., X n ) ( X i X ) 2 n i1 oder Damit sind Schätzfunktionen ebenfalls Zufallsgrößen mit bestimmter Verteilung. 2 Verfahren zur Herleitung von Schätzfunktionen: Momentenmethode und Maximum-Likelihood-Methode SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 2 Punktschätzung: Momentenmethode k-tes Moment einer Zufallsgröße X (aus Verteilung) M k EX k k-tes empirisches Moment (aus Stichprobe x1 ,..., xn ) 1 mk ( x1k ... xnk ) n Momente der Zufallsgröße sind meist aus den Verteilungsparametern berechenbar. Die empirischen Momente sind Zahlenwerte, berechnet aus den gemessenen Stichprobenwerten. Ansatz für Parameterschätzung: Mk = mk Momentenmethode Verteilung mit r Parametern erfordert Ansatz mit r Gleichungen EX k mk , 1 k r und Lösung dieser Gleichung (r = 1) bzw. des Gleichungssystems (r > 1), wobei die Verteilungsparameter in den Termen EX k enthalten sind. 6.1 SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 3 Punktschätzung: Maximum-Likelihood-Methode Maximum-Likelihood-Methode Idee: man wählt als Schätzung des Verteilungsparameters θ den Wert, für den die Wahrscheinlichkeit des Auftretens der beobachteten Stichprobenwerte maximal ist Maximierung der Wahrscheinlichkeit durch optimale Parameterwahl, wobei Maximum der gemeinsamen Dichte an der Stelle der konkreten Stichprobenwerte gesucht ist Dichte hängt nur vom Verteilungsparameter θ ab: Maximumbestimmung Gemeinsame Dichte: Produkt der eindimensionalen Dichten (Unabhängigkeit) Likelihood-Funktion f ( x1 ,..., xn , ) f ( x1 , ) ... f ( xn , ) Oft Vereinfachung durch Logarithmieren: Log Likelihood-Funktion n ln f ( x1 ,..., xn , ) ln f ( xi , ) i 1 Nullsetzen der (partiellen) Ableitung der Log Likelihood- Funktion nach θ ergibt eine Gleichung/Gleichungssystem, dessen Lösung der gesuchte Parameter ist. Vorteil gegenüber Momentenmethode: Schätzfunktionen sind asymptotisch NV 6.2 SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 4 Güteeigenschaften Eine Schätzfunktion ist erwartungstreu, wenn ihr Erwartungswert gleich dem geschätzten Verteilungsparameter θ ist. E g ( X 1 ,..., X n ) 1 n g ( X 1 ,..., X n ) X i ist erwartungstreue Schätzung für : n i1 1 n 1 n 1 n Eg ( X 1 ,..., X n ) E X i EX i n i 1 n i 1 n i 1 d.h. im Mittel erhält man mit dieser Schätzfunktion den richtigen Parameter. 1 n h( X 1 ,..., X n ) ( X i X ) 2 ist keine erwartungstreue Schätzung für 2: n i1 2 2 n 1 2 n 1 n 2 E X i X (n 1) Eh( X 1 ,..., X n ) E X i X n n i 1 i 1 Deshalb verwendet man für 2 anstelle von h die erwartungstreue Schätzfunktion 1 n S ( X i X )2 n 1 i1 2 SS 2017 6.3 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 5 Intervallschätzungen Zielstellung Das Ergebnis einer Punktschätzung des Parameters ist anhängig davon, welche Realisierungen der Zufallsgröße X in die Stichprobe gelangt sind. Da die Stichprobe nur eine zufällige Teilinformation der Grundgesamtheit enthält, ist eine solche Schätzung mit Unsicherheit/Risiko behaftet. Aber: Die Verteilung der Schätzfunktion ist oft aus der Verteilung der Grundgesamtheit berechenbar. Damit kann man 'Genauigkeitsaussagen' für die Punktschätzungen treffen in folgendem Sinn: Der unbekannte Parameter liegt z.B. mit Sicherheit von 95% im Intervall (ku, ko). Eine solche Schätzung nennt man Intervallschätzung (Konfidenzintervall). SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 6 Konfidenzintervall für NV Konstruktion eines Konfidenzintervalls für Parameter bei Normalverteilung Mathematische Stichprobe: n unabhängige Zufallsgrößen Xi, mit Xi ~ N(,σ²) daraus Schätzfunktion (Zufallsgröße) nach Standardisierung 2 1 n X X i ~ N , n i 1 n X ~ N (0.1) / n Folglich mit den Quantilen z /2 , z1 /2 der Standard-NV X P z / 2 z1 / 2 1 , bzw. nach Umstellen der Ungleichungskette / n P X z1 /2 X z1 /2 1 wobei z /2 z1 /2 n n X z , X z 1 /2 1 /2 ist (1-) – Konfidenzintervall für Parameter n n SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 7 Konfidenzintervalle bei NV Bezeichnungen: n 1- z1 ,( z1 /2 ) Stichprobenumfang Irrtumswahrscheinlichkeit, Risiko Sicherheit, Konfidenzniveau Quantil der Standardnormalverteilung tn , 1 , (tn , 1 /2 ) der Ordnung 1 , (1 / 2) Quantil der t-Verteilung mit n Freiheitsgraden der Ordnung 1 , (1 / 2) 2n , 1 ,( 2n , 1 /2 ) Quantil der 2 -Verteilung mit n Freiheitsgraden der Ordnung 1 , (1 / 2) SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 8 Konfidenzintervalle für Parameter der Normalverteilung Typen von Konfidenzintervallen zweiseitiges Konfidenzintervall für : KI = ( X , X ) einseitiges nach oben offenes Konfidenzintervall für : KI = ( X ', ) nach unten offenes Konfidenzintervall für : KI = (, X ') für geeignete Werte von bzw. ' Bei Sicherheit 1 - ist im zweiseitigen KI in den einseitigen KI SS 2017 Prof. Dr. J. Schütze, FB GW z1 / 2 ' z1 n n Konfidenzintervalle 9 Konfidenzintervalle für Parameter der Normalverteilung KI für Erwartungswert bei bekannter Standardabweichung 2 zum Konfidenzniveau 1 - : Zweiseitig Einseitig oben offen , x z1 n x z , x z 1 / 2 1 / 2 n n Einseitig unten offen , x z1 n Länge des Konfidenzintervalls L x z1 /2 x z1 /2 2 z1 /2 n n n Folgerung: KI wird länger bei größerer Streuung σ der Grundgesamtheit bei größerer Sicherheit 1 - KI wird enger bei größerem Stichprobenumfang Notwendiger Stichprobenumfang n für max. Länge L des KI für ( bekannt) 2z n 1 / 2 L SS 2017 2 6.4 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 10 Interpretation des Konfidenzintervalls Interpretation des Konfidenzintervalls Bei jeder Stichprobe aus der gleichen Grundgesamtheit erhält man i.a. andere Messwerte und somit auch etwas andere Konfidenzgrenzen. Sicherheit 1 - Von 100 so berechneten KI überdecken im Mittel (1-)·100% den unbekannten Parameter. Von einem konkreten KI weiß man allerdings nicht, ob es zu diesen (1-)·100% gehört oder zu den restlichen ·100% , die den Parameter nicht enthalten. Achtung Risiko bedeutet nicht, dass (1-)·100% der Werte von X in den Grenzen des KI liegen, die Grenzen beziehen sich auf den unbekannten Erwartungswert ! SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 11 Konfidenzintervalle für bei Normalverteilung Konfidenzintervall für bei unbekannter Standardabweichung Ist die Standardabweichung ebenfalls unbekannt, wird sie aus der Stichprobe X geschätzt: Man ersetzt formal in das unbekannte durch s. / n X Das hat zur Folge, dass der Stichprobenfunktion nicht mehr normalverteilt, s/ n sondern t-verteilt ist mit n-1 Freiheitsgraden. Daher ist bei der Berechnung des KI das Quantil der Standardnormalverteilung durch das der t-Verteilung zu ersetzen. KI für Erwartungswert bei unbekannter Standardabweichung zum Konfidenzniveau 1 - Zweiseitig s , x tn1,1 / 2 x tn1,1 / 2 n Einseitig oben offen s s , x tn1,1 n n Einseitig unten offen s , x t n 1,1 n 6.5 SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 12 Konfidenzintervall für 2 bei Normalverteilung Konfidenzintervall für den Streuungsparameter σ der Normalverteilung KI für Varianz ² zum Konfidenzniveau 1 - n 1 n 1 2 2 s , s 2 2 n 1, / 2 n 1, 1 / 2 KI für Standardabweichung zum Konfidenzniveau 1 - n 1 s, 2 n 1, 1 / 2 s 2n 1, / 2 n 1 Achtung Liegt keine NV in der Grundgesamtheit vor, erhält man nach den gleichen Formeln asymptotische Konfidenzintervalle für Erwartungswert und Varianz σ², falls der Stichprobenumfang hinreichend groß ist (Faustregel: n > 30 nach Grenzwertsatz) 6.6 SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 13 Konfidenzintervalle für Binomialverteilung Bezeichnungen: n Stichprobenumfang k Anzahl der Beobachtungen des Ereignisses in der Stichprobe (absolute Häufigkeit für Erfolg in n Versuchen) pˆ k n relative Erfolgshäufigkeit p̂ ist Schätzung für den unbekannten Parameter p der Grundgesamtheit 1 Sicherheit c z1 / 2 Quantil der Standardnormalverteilung der Ordnung 1 / 2 Ff1 , f2 ,1 / 2 Quantil der F-Verteilung mit f1 , f 2 Freiheitsgraden der Ordnung 1 / 2 SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 14 Konfidenzintervalle für Binomialverteilung Asymptotische Konfidenzintervalle für Parameter p der Binomialverteilung in Abhängigkeit vom Stichprobenumfang n und Erfolgsanteil Faustregel: n·p·(1-p) > 9 c2 k 2 c2 c2 k 2 c2 k c k k c k 2 n 4 2 n 4 , 2 2 nc nc Vereinfachung für k 50, n - k 50 c pˆ n pˆ (1 pˆ ), pˆ c n pˆ (1 pˆ ) c : Quantil der Standard-NV der Ordnung 1-/2 SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 15 Konfidenzintervalle für Binomialverteilung Exaktes Konfidenzintervall für Parameter p der Binomialverteilung mit den Grenzen aus Quantilen der Ordnung 1- /2 der F-Verteilung KI pu , po pu po = k mit f1 =2(n - k 1), f 2 2k k (n k 1) F f1 , f2 ,1 / 2 (k+1)Ff1 , f2 ,1 / 2 n k (k 1) F f1 , f2 ,1 / 2 mit f1 =2( k 1), f 2 2(n k ) Einseitige Konfidenzintervalle erhält man analog mit den entsprechenden Quantilen der Ordnung 1- und der Untergrenze 0 bzw. der Obergrenze 1. 6.7 SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 16 Konfidenzintervalle für Binomialverteilung Notwendiger Stichprobenumfang für max. Länge 2 des zweiseitigen asymptotischen Konfidenzintervalls 2 ohne Information über Größenordnung von p 1 c n 4 wenn Größenordnung pˆ bekannt c n pˆ (1 pˆ ) 2 c: Quantil der Standardnormalverteilung passender Ordnung 6.8 SS 2017 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 17 Konfidenzintervall für Poissonverteilung Asymptotisches Konfidenzintervall für Parameter λ Poissonverteilung Nach dem zentralen Grenzwertsatz ist für X ~ Pois(λ) wegen EX = VarX = λ X asy ~ N (0,1) die standardisierte Größe asy X asy somit für den Mittelwert von n unabhängigen ZG Xi : X ~ N (, ) und ~ N (0,1) n n X z1 a 1 und umgeformt folglich näherungsweise P z /2 /n Asymptotisches Konfidenzintervall für Parameter λ Poissonverteilung 1 2 1 1 2 1 2 1 1 2 X z z X z , X z z X z1 / 2 1 / 2 1 / 2 1 / 2 1 / 2 1 / 2 2 n 4 n 2 n 4 n n n Einseitige Konfidenzintervalle SS 2017 1 2 1 1 2 z1 z1 X z1 0, X 2 n 4 n n 1 2 1 1 2 X z z X z , 1 1 1 2 n 4 n n Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 18 Konfidenzintervall für Exponentialverteilung Asymptotisches Konfidenzintervall für Erwartungswert = 1/λ der Exponentialvert. Punktschätzung für den Erwartungswert : 2 n Wegen X i ~ 22 n gilt näherungsweise i1 n 1 ˆ X i n i1 2 n 2 P 2 n, / 2 X i 22 n,1 / 2 1 i1 Durch Umstellen der Ungleichungskette erhält man ein Konfidenzintervall für = 1/λ Konfidenzintervall für λ SS 2017 n n 2 X 2 X i i i 1 i 1 2 , 2 2 n ,1 / 2 2 n , / 2 22 n , / 2 22 n ,1 / 2 , n n 2 X i 2 X i i1 i 1 Prof. Dr. J. Schütze, FB GW 6.9 Konfidenzintervalle 19