Parameterschätzungen Oft ist der Verteilungstyp einer Zufallsgröße X bekannt, aber die Parameter sind unbekannt. Dann erfolgt eine Parameterschätzung aus einer Stichprobe, wobei man oft ausnutzt, dass diese Parameter in die Formeln für Erwartungswert bzw. Varianz eingehen. Punktschätzung: Parameter der Verteilung wird durch Schätzfunktion aus Stichprobenwerten bestimmt, man erhält eine Zahl (z.B. x μ) Verteilungstyp N(μ, σ ) 2 Schätzfunktion 1 n X = Xi n i =1 für Parameter 1 n s = ( X i − X )2 n − 1 i =1 σ = Var X 2 Bin( n, p ) hn = Y k n relative Häufigkeit SS 2016 r ü f Parameterschätzungen und Konfidenzintervalle Da die Stichprobe nur einen Teil der Grundgesamtheit berücksichtigt, ist eine solche Schätzung ungenau bzw. mit Unsicherheit/Risiko behaftet. Die Punktschätzung des Parameters ist abhängig davon, welche Realisierungen der Zufallsgröße X in die Stichprobe gelangt sind. μ = EX zufällige Ergebnisse der Schätzfunktion, Schätzfunktion ist eine Zufallsgröße 2 Die Verteilung der Schätzfunktion ist oft berechenbar, wenn man die Verteilung der Grundgesamtheit kennt. Aus der Streuung der Schätzfunktion kann man dann 'Genauigkeitsaussagen' für die Parameterschätzungen treffen in folgendem Sinn: Der unbekannte Parameter liegt z.B. bei Sicherheit von 95% im Intervall (ku, ko). Eine solche Schätzung nennt man Intervallschätzung (Konfidenzintervall). Ziel ist die Berechnung dieser Intervallgrenzen ku, ko zu vorgegebener Sicherheit. p Wahrscheinlichkeit Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 1 Parameterschätzungen SS 2016 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 2 Bereichsschätzungen Konstruktionsprinzip einer Bereichsschätzung ( Konfidenzintervall) Stichprobenverteilung 1 n Xi n i =1 Wegen NV in der Grundgesamtheit sind alle Zufallsgrößen Xi ~N(μ,σ²), somit gilt Punktschätzung für Parameter μ bei NV: X = Die Stichprobenwerte x1, . . . . , xn werden aufgefasst als Realisierungen von Zufallsgrößen X1, . . . , Xn , die alle die gleiche Verteilung wie X haben und unabhängig sind. Konkrete Stichprobe (Messreihe, zum Rechnen) x1, . . . , xn Mathematische Stichprobe (unabhängige, identisch verteilte Zufallsgrößen, zum Modellieren) X1, . . . , Xn σ2 1 n X i ~ N μ, n i =1 n X −μ Z= ~ N (0.1) σ/ n X = n und nach Standardisierung X −μ < z1− α / 2 = 1 − α, P ( z α / 2 < Z < z1−α / 2 ) = P z α / 2 < σ/ n mit z1−α / 2 zα / 2 Prof. Dr. J. Schütze, FB GW σ2 Z ~ N (0,1) liegt dann mit Wahrscheinlichkeit 1-α im Bereich ( zα /2 , z1−α /2 ) Die konkrete Stichprobe entsteht durch Beobachtung der mathematischen Stichprobe bzw. als n unabhängige Realisierungen der Zufallsgröße X. SS 2016 d.h. EX = μ , VarX = Konfidenzintervalle 3 SS 2016 (1 − α / 2) − Quantil α / 2 − Quantil der Standardnormalverteilung Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 4 Konfidenzintervalle Konfidenzintervalle X −μ Konfidenzintervall aus Umformung der Ungleichungskette P zα /2 < < z1−α /2 = 1 − α σ/ n Bezeichnungen: Wegen der Symmetrie der Dichte gilt zα /2 = − z1−α /2 folglich α /2 z α / 2 = − z1− α / 2 α /2 z1 − α / 2 X −μ P − z1−α / 2 < < z1−α / 2 = 1 − α, σ/ n σ σ = P − z1−α /2 < X − μ < z1−α /2 n n σ σ = P X − z1−α /2 < μ < X + z1−α /2 n n Stichprobenumfang Irrtum swahrscheinlichkeit Sicherheit, Konfidenzniveau n α 1- α zq Quantil der Standardnorm alverteilung der Ordnung q Quantil der t-Verteilung m it n Freiheitsgraden tn, q der Ordnung q χ Qua ntil der χ 2 -Verteilung m it n Freiheitsgraden 2 n, q der Ordnung q Quantil der F-Verteilung m it m und n Freiheitsgraden f m ,n ,q Konfidenzintervall für Parameter μ zur Sicherheit 1 - α der Ordnung q σ σ z1− α / 2 , X + z1− α / 2 X − n n SS 2016 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 5 SS 2016 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle Konfidenzintervalle für Parameter der Normalverteilung Konfidenzintervalle bei Normalverteilung Typen von Konfidenzintervallen zweiseitiges Konfidenzintervall für μ : Erstrebenswert sind möglichst enge Konfidenzintervalle (‚gute Genauigkeit'). KI = ( X − ε , X + ε ) Die Länge L des Konfidenzintervalls ergibt sich als Differenz der Intervallgrenzen einseitiges nach oben offenes Konfidenzintervall für μ : KI = ( X − ε ', ∞) nach unten offenes Konfidenzintervall für μ : KI = ( −∞, X + ε ') Bei Sicherheit 1 - α ist im zweiseitigen KI in den einseitigen KI σ σ σ L = x + z1−α /2 − x − z1−α /2 = 2 z1−α /2 n n n Folgerung: KI wird länger bei größerer Streuung σ der Grundgesamtheit bei größerer Sicherheit 1 - α KI wird enger bei größerem Stichprobenumfang ε = z1−α /2σ / n ε ' = z1−α σ / n KI für Erwartungswert μ bei bekannter Standardabweichung σ2 zum Konfidenzniveau 1 - α: Zweiseitig Einseitig, Einseitig, oben offen unten offen σ σ σ σ , x + z1−α / 2 , ∞ x − z1−α / 2 x − z1−α − ∞, x + z1−α n n n n SS 2016 6 Notwendiger Stichprobenumfang n für max. Länge L des KI für μ (σ bekannt) bei Sicherheit 1 - α ⋅σ 2z n ≥ 1− α / 2 L 6.1 Prof. Dr. J. Schütze, FB GW SS 2016 Konfidenzintervalle 7 2 6.2 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 8 Konfidenzintervalle bei Normalverteilung Konfidenzintervalle bei Normalverteilung Konfidenzintervall bei unbekannter Standardabweichung Interpretation des Konfidenzintervalls Ist die Standardabweichung ebenfalls unbekannt, wird sie aus der Stichprobe X −μ geschätzt: Man ersetzt formal in σ durch s. Bei jeder Stichprobe aus der gleichen Grundgesamtheit erhält man i.a. andere Messwerte und somit auch etwas andere Konfidenzgrenzen. die neue Stichprobenfunktion Sicherheit 1 - α Von 100 so berechneten KI überdecken im Mittel (1-α)·100% den unbekannten Parameter. Von einem konkreten KI weiß man allerdings nicht, ob es zu diesen (1-α)·100% gehört oder zu den restlichen α·100% , die den Parameter nicht enthalten. Daher ist bei der Berechnung des KI das Quantil der Standardnormalverteilung durch das der t-Verteilung zu ersetzen. KI für Erwartungswert μ bei unbekannter Standardabweichung σ zum Konfidenzniveau 1 - α Zweiseitig Risiko α bedeutet nicht, dass (1-α)·100% der Werte von X in den Grenzen des KI liegen, das KI bezieht sich auf den unbekannten Erwartungswert μ ! SS 2016 Prof. Dr. J. Schütze, FB GW s , x + tn−1,1−α / 2 x − tn−1,1−α / 2 n Konfidenzintervalle 9 Konfidenzintervalle bei Normalverteilung Eine Zufallsgröße X werde in zwei disjunkten Grundgesamtheiten gemessen, man erhält Grundgesamtheit 1: Stichprobenumfang n1 , Mittelwert x1, Varianz s12 Grundgesamtheit 2: Stichprobenumfang n2 , Mittelwert x2 , Varianz s22 Schätzung der Differenz der Erwartungswerte d = x1 − x2 Bei gleichen Varianzen beider Grundgesamtheiten kann die Varianz gepoolt werden. ( n − 1) s12 + ( n2 − 1) s22 2 Gepoolt geschätzte Varianz sg = 1 ( n1 + n2 − 2) KI für Differenz μ1 − μ 2 der Erwartungswerte normalverteilter disjunkter Grundgesamtheiten mit gleichen Varianzen (unverbundene/nicht gepaarte Stichproben) SS 2016 1 1 + , d + tn1 + n2 − 2 ,1− α / 2 s g n1 n 2 Prof. Dr. J. Schütze, FB GW SS 2016 Einseitig, oben offen s s , ∞ x − tn−1,1−α n n Einseitig, unten offen s −∞, x + tn−1,1−α n Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 6.3 10 Konfidenzintervalle bei Normalverteilung KI für Differenz μ1 − μ 2 der Erwartungswerte zweier Grundgesamtheiten d − t n1 + n2 − 2,1− α / 2 s g σ/ n X −μ ist t-verteilt mit n -1 Freiheitsgraden. s/ n 1 1 + n1 n 2 Konfidenzintervalle 11 Beispiel Gewichtszunahme von je 10 Mäusen bei zwei Fütterungsarten Stichproben sind nicht gepaart, da andere Versuchstiere in beiden Fütterungsarten Art 1 17,50 16,40 17,50 17,60 18,30 17,20 17,50 17,80 18,00 17,70 Art 2 17,40 18,20 17,90 17,80 17,70 18,60 19,70 17,70 18,00 18,50 x = 17.55 y = 18.15 s x = 0.506 s y = 0.659 SS 2016 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 12 Konfidenzintervalle bei Normalverteilung Konfidenzintervalle bei Normalverteilung Konfidenzintervall für die Differenz μ x − μ y Separates Konfidenzintervall für jede Fütterungsart zur Sicherheit 95% (unter Voraussetzung gleicher Streuungen bei beiden Fütterungsarten) s s , x + tn −1,1−α / 2 mit t9, 0.975 = 2.26 x − tn −1,1−α / 2 n n 1. Fütterungsart: nx = 10, x = 17.55, sx = 0.506 d − t n x + n y − 2 ,1− α / 2 s g 0.506 0.506 , 17.55 + 2.26 17.55 − 2.26 = (17.19, 17.91) 10 10 2. Fütterungsart: sg = 0.659 0.659 , 18.15 + 2.26 18.15 − 2.26 = (17.68, 18.62) 10 10 , d + tn x + n y − 2,1− α / 2 s g nx + n y n y ⋅ n x mit t18,0.975 = 2.10 ( nx − 1) sx2 + (n y − 1) s 2y nx + n y − 2 = 9 ⋅ 0.5062 + 9 ⋅ 0.6592 = 0.612 18 20 20 , − 0.6 + 2.10 ⋅ 0.612 KI = −0.6 − 2.10 ⋅ 0.612 = (−1.18, − 0.02) 100 100 Da sich das gesamte KI links von Null befindet, kann man daraus schließen, dass Fütterungsart 1 mit Sicherheit 0.95 zu geringerer Gewichtszunahme führt. Da sich die Konfidenzintervalle überlappen, ist so nicht zu entscheiden, ob ein signifikanter Unterschied zwischen den Fütterungsarten besteht. Prof. Dr. J. Schütze, FB GW nx ⋅ n y d = x − y = 17.55 − 18.15 = −0.6 n y = 10, y = 18.15, s y = 0.659 SS 2016 nx + n y Konfidenzintervalle 13 Konfidenzintervalle bei Normalverteilung SS 2016 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle Konfidenzintervalle bei Normalverteilung KI für Differenz μ1 − μ 2 der Erwartungswerte bei verbundenen Stichproben Konfidenzintervall für den Streuungsparameter σ der Normalverteilung Eine Zufallsgröße X wird an jedem Objekt/Subjekt zweimal (z.B. zu zwei verschiedenen Zeiten) gemessen, man erhält erster Zeitpunkt : Stichprobenum fang n , Mittelwert x1, Varianz s12 KI für Varianz σ² zum Konfidenzniveau 1 - α zweiter Zeitpunkt : Stichprobenum fang n , Mittelwert x2 , Varianz s 22 Differenz en: d i = x1i − x2 i , Mittelwert d = x1 − x2 Varianz der Differenz s d2 = 1 Σ(d i − d )2 n −1 KI für Differenz μ1 − μ 2 der Erwartungswerte bei normalverteilten abhängigen Grundgesamtheiten mit gleichen Streuungen (d − t s / n , d + t n −1,1− α / 2 s d n − 1,1 − α / 2 d n −1 n −1 2 s2, s 2 χ 2 χ n −1, α / 2 n −1, 1− α / 2 KI für Standardabweichung σ zum Konfidenzniveau 1 - α n −1 s, 2 χ n −1, 1−α / 2 n −1 χ 2 n −1, α / 2 s ) Achtung Liegt keine NV in der Grundgesamtheit vor, erhält man bei großem Stichprobenumfang analog asymptotische Konfidenzintervalle für Erwartungswert (Faustregel: n > 30) SS 2016 14 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 15 6.4 SS 2016 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 16 Konfidenzintervalle für Binomialverteilung Konfidenzintervalle für Binomialverteilung Asymptotische Konfidenzintervalle für Parameter p der Binomialverteilung Bezeichnungen: in Abhängigkeit vom Stichprobenumfang n und Erfolgsanteil Stichprobenum fang n Faustregel: n·p·(1-p) > 9 Anzahl der Beobachtungen des Ereignisses in der Stichprobe (absolute Häufigkeit für Erfolg in n Versuchen) k pˆ = k n c2 k 2 c2 c2 k 2 c2 −c k − + k+ +c k − + k + 2 n 4 2 n 4 , 2 2 n+c n+c relative Erfolgshäufigkeit p̂ ist Schätzung für den unbekannten Parameter p der Grundgesamtheit Vereinfachung für k ≥ 50, n - k ≥ 50 1− α c = zq Sicherheit Quantil der Standardnormalverteilung der Ordnung q F f1 , f2 ,q Quantil der F-Verteilung mit f1 , f 2 Freiheitsgraden der Ordnung q c pˆ − n pˆ (1 − pˆ ), pˆ + pˆ (1 − pˆ ) c n c : Quantil der Standard-NV der Ordnung 1-α/2 SS 2016 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 17 SS 2016 Konfidenzintervalle für Binomialverteilung Prof. Dr. J. Schütze, FB GW Konfidenzintervalle Konfidenzintervalle für Binomialverteilung Notwendiger Stichprobenumfang für maximale Länge 2ε des asymptotischen Konfidenzintervalls Exaktes Konfidenzintervall für Parameter p der Binomialverteilung 1c 4ε 2 mit den Grenzen aus Quantilen der Ordnung 1 - α/2 der F-Verteilung mit f1, f2 Freiheitsgraden ohne Information über Größenordnung von p n≥ KI = ( pu , p o ) wenn Größenordnung p̂ bekannt c n ≥ pˆ (1 − pˆ ) ε pu = po = 2 k mit f1 =2( n - k + 1), f 2 = 2 k k + ( n − k + 1) F f1 , f 2 ,1−α / 2 (k+1)F f1 , f 2 ,1−α / 2 n − k + ( k + 1) F f1 , f 2 ,1−α / 2 c: Quantil der Standardnormalverteilung passender Ordnung mit f1 =2( k + 1), f 2 = 2( n − k ) Asymptotisches Konfidenzintervall für Differenz p1 − p2 der Anteile aus zwei disjunkten Grundgesamtheiten pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 ) pˆ (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 ) + + , pˆ1 − pˆ 2 + c 1 pˆ1 − pˆ 2 − c n1 n2 n1 n2 Einseitige Konfidenzintervalle für den Parameter p der Binomialverteilung erhält man mit den entsprechenden Quantilen der Ordnung 1 - α, wobei die Untergrenze minimal gleich Null und die Obergrenze maximal gleich 1 ist. SS 2016 Prof. Dr. J. Schütze, FB GW 18 Konfidenzintervalle 19 ni: Stichprobenumfang, pi: Erfolgswahrscheinlichkeit in Grundgesamtheit i 6.5 SS 2016 Prof. Dr. J. Schütze, FB GW Konfidenzintervalle 20