6. Vorlesung

Werbung
Parameterschätzungen
Oft ist der Verteilungstyp einer Zufallsgröße X bekannt, aber die Parameter sind
unbekannt.
Dann erfolgt eine Parameterschätzung aus einer Stichprobe, wobei man oft
ausnutzt, dass diese Parameter in die Formeln für Erwartungswert bzw. Varianz
eingehen.
Punktschätzung:
Parameter der Verteilung wird durch Schätzfunktion aus Stichprobenwerten bestimmt,
man erhält eine Zahl (z.B. x
μ)
Verteilungstyp
N(μ, σ )
2
Schätzfunktion
1 n
X =  Xi
n i =1
für Parameter
1 n
s =
 ( X i − X )2
n − 1 i =1
σ = Var X
2
Bin( n, p )
hn =
Y
k
n
relative Häufigkeit
SS 2016
r
ü
f
Parameterschätzungen und Konfidenzintervalle
Da die Stichprobe nur einen Teil der Grundgesamtheit berücksichtigt, ist eine solche
Schätzung ungenau bzw. mit Unsicherheit/Risiko behaftet.
Die Punktschätzung des Parameters ist abhängig davon, welche Realisierungen
der Zufallsgröße X in die Stichprobe gelangt sind.
μ = EX
 zufällige Ergebnisse der Schätzfunktion, Schätzfunktion ist eine Zufallsgröße
2
Die Verteilung der Schätzfunktion ist oft berechenbar, wenn man die Verteilung
der Grundgesamtheit kennt.
Aus der Streuung der Schätzfunktion kann man dann 'Genauigkeitsaussagen' für die
Parameterschätzungen treffen in folgendem Sinn:
Der unbekannte Parameter liegt z.B. bei Sicherheit von 95% im Intervall (ku, ko).
Eine solche Schätzung nennt man Intervallschätzung (Konfidenzintervall).
Ziel ist die Berechnung dieser Intervallgrenzen ku, ko zu vorgegebener Sicherheit.
p
Wahrscheinlichkeit
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
1
Parameterschätzungen
SS 2016
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
2
Bereichsschätzungen
Konstruktionsprinzip einer Bereichsschätzung ( Konfidenzintervall)
Stichprobenverteilung
1 n
 Xi
n i =1
Wegen NV in der Grundgesamtheit sind alle Zufallsgrößen Xi ~N(μ,σ²), somit gilt
Punktschätzung für Parameter μ bei NV: X =
Die Stichprobenwerte x1, . . . . , xn werden aufgefasst als Realisierungen von
Zufallsgrößen X1, . . . , Xn , die alle die gleiche Verteilung wie X haben und
unabhängig sind.
Konkrete Stichprobe
(Messreihe, zum Rechnen)
x1, . . . , xn
Mathematische Stichprobe
(unabhängige, identisch verteilte Zufallsgrößen,
zum Modellieren)
X1, . . . , Xn
 σ2 
1 n
X i ~ N  μ, 

n i =1
 n 
X −μ
Z=
~ N (0.1)
σ/ n
X =
n
und nach Standardisierung
X −μ


< z1− α / 2  = 1 − α,
P ( z α / 2 < Z < z1−α / 2 ) = P  z α / 2 <
σ/ n


mit
z1−α / 2
zα / 2
Prof. Dr. J. Schütze, FB GW
σ2
Z ~ N (0,1) liegt dann mit Wahrscheinlichkeit 1-α im Bereich ( zα /2 , z1−α /2 )
Die konkrete Stichprobe entsteht durch Beobachtung der mathematischen
Stichprobe bzw. als n unabhängige Realisierungen der Zufallsgröße X.
SS 2016
d.h. EX = μ , VarX =
Konfidenzintervalle
3
SS 2016
(1 − α / 2) − Quantil
α / 2 − Quantil der Standardnormalverteilung
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
4
Konfidenzintervalle
Konfidenzintervalle
X −μ


Konfidenzintervall aus Umformung der Ungleichungskette P  zα /2 <
< z1−α /2  = 1 − α
σ/ n


Bezeichnungen:
Wegen der Symmetrie der Dichte gilt
zα /2 = − z1−α /2
folglich
α /2
z α / 2 = − z1− α / 2
α /2
z1 − α / 2
X −μ


P  − z1−α / 2 <
< z1−α / 2  = 1 − α,
σ/ n


σ
 σ

= P −
z1−α /2 < X − μ <
z1−α /2 
n
n


σ
σ


= P X −
z1−α /2 < μ < X +
z1−α /2 
n
n


Stichprobenumfang
Irrtum swahrscheinlichkeit
Sicherheit, Konfidenzniveau
n
α
1- α
zq
Quantil der Standardnorm alverteilung
der Ordnung q
Quantil der t-Verteilung m it n Freiheitsgraden
tn, q
der Ordnung q
χ
Qua ntil der χ 2 -Verteilung m it n Freiheitsgraden
2
n, q
der Ordnung q
Quantil der F-Verteilung m it m und n Freiheitsgraden
f m ,n ,q
Konfidenzintervall für Parameter μ zur Sicherheit 1 - α
der Ordnung q
σ
σ


z1− α / 2 , X +
z1− α / 2 
X −
n
n


SS 2016
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
5
SS 2016
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
Konfidenzintervalle für Parameter der Normalverteilung
Konfidenzintervalle bei Normalverteilung
Typen von Konfidenzintervallen
zweiseitiges Konfidenzintervall für μ :
Erstrebenswert sind möglichst enge Konfidenzintervalle (‚gute Genauigkeit').
KI = ( X − ε , X + ε )
Die Länge L des Konfidenzintervalls ergibt sich als Differenz der Intervallgrenzen
einseitiges
nach oben offenes Konfidenzintervall für μ :
KI = ( X − ε ', ∞)
nach unten offenes Konfidenzintervall für μ :
KI = ( −∞, X + ε ')
Bei Sicherheit 1 - α ist im zweiseitigen KI
in den einseitigen KI
σ  
σ 
σ

L =  x + z1−α /2
 −  x − z1−α /2
 = 2 z1−α /2
n 
n
n

Folgerung: KI wird länger
bei größerer Streuung σ der Grundgesamtheit
bei größerer Sicherheit 1 - α
KI wird enger
bei größerem Stichprobenumfang
ε = z1−α /2σ / n
ε ' = z1−α σ / n
KI für Erwartungswert μ bei bekannter Standardabweichung σ2
zum Konfidenzniveau 1 - α:
Zweiseitig
Einseitig,
Einseitig,
oben offen
unten offen
σ
σ  
σ
σ 



, x + z1−α / 2
, ∞
 x − z1−α / 2
  x − z1−α
 − ∞, x + z1−α

n
n
n
n 



SS 2016
6
Notwendiger Stichprobenumfang n für max. Länge L des KI für μ (σ bekannt)
bei Sicherheit 1 - α
⋅σ 
 2z
n ≥  1− α / 2

L


 6.1
Prof. Dr. J. Schütze, FB GW
SS 2016
Konfidenzintervalle
7
2
 6.2
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
8
Konfidenzintervalle bei Normalverteilung
Konfidenzintervalle bei Normalverteilung
Konfidenzintervall bei unbekannter Standardabweichung
Interpretation des Konfidenzintervalls
Ist die Standardabweichung ebenfalls unbekannt, wird sie aus der Stichprobe
X −μ
geschätzt: Man ersetzt formal in
σ durch s.
Bei jeder Stichprobe aus der gleichen Grundgesamtheit erhält man i.a. andere
Messwerte und somit auch etwas andere Konfidenzgrenzen.
die neue Stichprobenfunktion
Sicherheit 1 - α
Von 100 so berechneten KI überdecken im Mittel (1-α)·100% den unbekannten
Parameter.
Von einem konkreten KI weiß man allerdings nicht, ob es zu diesen (1-α)·100%
gehört oder zu den restlichen α·100% , die den Parameter nicht enthalten.
Daher ist bei der Berechnung des KI das Quantil der Standardnormalverteilung durch
das der t-Verteilung zu ersetzen.
KI für Erwartungswert μ bei unbekannter Standardabweichung σ
zum Konfidenzniveau 1 - α
Zweiseitig
Risiko α bedeutet nicht, dass (1-α)·100% der Werte von X in den Grenzen
des KI liegen,
das KI bezieht sich auf den unbekannten Erwartungswert μ !
SS 2016
Prof. Dr. J. Schütze, FB GW
s

, x + tn−1,1−α / 2
 x − tn−1,1−α / 2
n

Konfidenzintervalle
9
Konfidenzintervalle bei Normalverteilung
Eine Zufallsgröße X werde in zwei disjunkten Grundgesamtheiten gemessen,
man erhält
Grundgesamtheit 1: Stichprobenumfang n1 , Mittelwert x1, Varianz s12
Grundgesamtheit 2: Stichprobenumfang n2 , Mittelwert x2 , Varianz s22
Schätzung der Differenz der Erwartungswerte d = x1 − x2
Bei gleichen Varianzen beider Grundgesamtheiten kann die Varianz gepoolt werden.
( n − 1) s12 + ( n2 − 1) s22
2
Gepoolt geschätzte Varianz sg = 1
( n1 + n2 − 2)
KI für Differenz μ1 − μ 2 der Erwartungswerte normalverteilter disjunkter
Grundgesamtheiten mit gleichen Varianzen
(unverbundene/nicht gepaarte Stichproben)
SS 2016
1
1
+ , d + tn1 + n2 − 2 ,1− α / 2 s g
n1 n 2
Prof. Dr. J. Schütze, FB GW
SS 2016
Einseitig,
oben offen
s  
s

, ∞
  x − tn−1,1−α
n 
n

Einseitig,
unten offen
s 

 −∞, x + tn−1,1−α

n

Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
 6.3
10
Konfidenzintervalle bei Normalverteilung
KI für Differenz μ1 − μ 2 der Erwartungswerte zweier Grundgesamtheiten

 d − t n1 + n2 − 2,1− α / 2 s g

σ/ n
X −μ
ist t-verteilt mit n -1 Freiheitsgraden.
s/ n
1
1 
+

n1 n 2 
Konfidenzintervalle
11
Beispiel
Gewichtszunahme von je 10 Mäusen bei zwei Fütterungsarten
Stichproben sind nicht gepaart, da andere Versuchstiere in beiden Fütterungsarten
Art 1
17,50
16,40
17,50
17,60
18,30
17,20
17,50
17,80
18,00
17,70
Art 2
17,40
18,20
17,90
17,80
17,70
18,60
19,70
17,70
18,00
18,50
x = 17.55
y = 18.15
s x = 0.506
s y = 0.659
SS 2016
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
12
Konfidenzintervalle bei Normalverteilung
Konfidenzintervalle bei Normalverteilung
Konfidenzintervall für die Differenz μ x − μ y
Separates Konfidenzintervall für jede Fütterungsart zur Sicherheit 95%
(unter Voraussetzung gleicher Streuungen bei beiden Fütterungsarten)
s
s 

, x + tn −1,1−α / 2
mit t9, 0.975 = 2.26
 x − tn −1,1−α / 2

n
n

1. Fütterungsart: nx = 10, x = 17.55, sx = 0.506

 d − t n x + n y − 2 ,1− α / 2 s g

0.506
0.506 

, 17.55 + 2.26
 17.55 − 2.26
 = (17.19, 17.91)
10
10 

2. Fütterungsart:
sg =
0.659
0.659 

, 18.15 + 2.26
 18.15 − 2.26
 = (17.68, 18.62)
10
10 

, d + tn x + n y − 2,1− α / 2 s g
nx + n y 

n y ⋅ n x 
mit t18,0.975 = 2.10
( nx − 1) sx2 + (n y − 1) s 2y
nx + n y − 2
=
9 ⋅ 0.5062 + 9 ⋅ 0.6592
= 0.612
18

20
20 
, − 0.6 + 2.10 ⋅ 0.612
KI =  −0.6 − 2.10 ⋅ 0.612
 = (−1.18, − 0.02)
100
100


Da sich das gesamte KI links von Null befindet, kann man daraus schließen,
dass Fütterungsart 1 mit Sicherheit 0.95 zu geringerer Gewichtszunahme führt.
Da sich die Konfidenzintervalle überlappen, ist so nicht zu entscheiden, ob ein
signifikanter Unterschied zwischen den Fütterungsarten besteht.
Prof. Dr. J. Schütze, FB GW
nx ⋅ n y
d = x − y = 17.55 − 18.15 = −0.6
n y = 10, y = 18.15, s y = 0.659
SS 2016
nx + n y
Konfidenzintervalle
13
Konfidenzintervalle bei Normalverteilung
SS 2016
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
Konfidenzintervalle bei Normalverteilung
KI für Differenz μ1 − μ 2 der Erwartungswerte bei verbundenen Stichproben
Konfidenzintervall für den Streuungsparameter σ der Normalverteilung
Eine Zufallsgröße X wird an jedem Objekt/Subjekt zweimal (z.B. zu zwei verschiedenen
Zeiten) gemessen, man erhält
erster Zeitpunkt :
Stichprobenum fang n , Mittelwert x1, Varianz s12
KI für Varianz σ² zum Konfidenzniveau 1 - α
zweiter Zeitpunkt :
Stichprobenum fang n , Mittelwert x2 , Varianz s 22
Differenz en:
d i = x1i − x2 i , Mittelwert d = x1 − x2
Varianz der Differenz s d2 =
1
Σ(d i − d )2
n −1
KI für Differenz μ1 − μ 2 der Erwartungswerte bei normalverteilten abhängigen
Grundgesamtheiten mit gleichen Streuungen
(d − t
s / n , d + t n −1,1− α / 2 s d
n − 1,1 − α / 2 d
 n −1
n −1 2 
s2,
s 
2
 χ 2
χ n −1, α / 2 
 n −1, 1− α / 2
KI für Standardabweichung σ zum Konfidenzniveau 1 - α

n −1
s,

2
χ
n
−1, 1−α / 2

n −1
χ
2
n −1, α / 2

s


)
Achtung
Liegt keine NV in der Grundgesamtheit vor, erhält man bei großem Stichprobenumfang
analog asymptotische Konfidenzintervalle für Erwartungswert (Faustregel: n > 30)
SS 2016
14
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
15
 6.4
SS 2016
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
16
Konfidenzintervalle für Binomialverteilung
Konfidenzintervalle für Binomialverteilung
Asymptotische Konfidenzintervalle für Parameter p der Binomialverteilung
Bezeichnungen:
in Abhängigkeit vom Stichprobenumfang n und Erfolgsanteil
Stichprobenum fang
n
Faustregel: n·p·(1-p) > 9
Anzahl der Beobachtungen des Ereignisses in der Stichprobe
(absolute Häufigkeit für Erfolg in n Versuchen)
k
pˆ =
k
n

c2
k 2 c2
c2
k 2 c2 
−c k −
+
k+
+c k −
+
k +

2
n
4
2
n
4 

,
2
2
n+c
n+c






relative Erfolgshäufigkeit
p̂ ist Schätzung für den unbekannten Parameter p der Grundgesamtheit
Vereinfachung für k ≥ 50, n - k ≥ 50
1− α
c = zq
Sicherheit
Quantil der Standardnormalverteilung der Ordnung q
F f1 , f2 ,q
Quantil der F-Verteilung mit f1 , f 2 Freiheitsgraden der Ordnung q
c

 pˆ −
n

pˆ (1 − pˆ ), pˆ +

pˆ (1 − pˆ ) 

c
n
c : Quantil der Standard-NV der Ordnung 1-α/2
SS 2016
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
17
SS 2016
Konfidenzintervalle für Binomialverteilung
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
Konfidenzintervalle für Binomialverteilung
Notwendiger Stichprobenumfang für maximale Länge 2ε des
asymptotischen Konfidenzintervalls
Exaktes Konfidenzintervall für Parameter p der Binomialverteilung
1c
 
4ε
2
mit den Grenzen aus Quantilen der Ordnung 1 - α/2 der F-Verteilung mit
f1, f2 Freiheitsgraden
ohne Information über Größenordnung von p
n≥
KI = ( pu , p o )
wenn Größenordnung p̂ bekannt
c
n ≥   pˆ (1 − pˆ )
ε
pu =
po =
2
k
mit f1 =2( n - k + 1), f 2 = 2 k
k + ( n − k + 1) F f1 , f 2 ,1−α / 2
(k+1)F f1 , f 2 ,1−α / 2
n − k + ( k + 1) F f1 , f 2 ,1−α / 2
c: Quantil der Standardnormalverteilung passender Ordnung
mit f1 =2( k + 1), f 2 = 2( n − k )
Asymptotisches Konfidenzintervall für Differenz p1 − p2 der Anteile aus zwei
disjunkten Grundgesamtheiten

pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 )
pˆ (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 ) 
+
+
, pˆ1 − pˆ 2 + c 1
 pˆ1 − pˆ 2 − c

n1
n2
n1
n2


Einseitige Konfidenzintervalle
für den Parameter p der Binomialverteilung erhält man mit den entsprechenden
Quantilen der Ordnung 1 - α, wobei die Untergrenze minimal gleich Null und die
Obergrenze maximal gleich 1 ist.
SS 2016
Prof. Dr. J. Schütze, FB GW
18
Konfidenzintervalle
19
ni: Stichprobenumfang, pi: Erfolgswahrscheinlichkeit in Grundgesamtheit i
 6.5
SS 2016
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle
20
Herunterladen