Einführung in Quantitative Methoden

Werbung
Parameterschätzung
Einführung in Quantitative Methoden
Karin Waldherr & Pantelis Christodoulides
16. Mai 2012
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
1/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Parameterschätzung
I
Schätzung von Populationsparametern aufgrund einer
Stichprobe
1. Punktschätzer
2. Vertrauensbereiche (Konfidenzintervalle)
I
Punktschätzer: Wir benötigen eine Schätzfunktion (kurz:
Schätzer).
I
Bei der Konstruktion von Schätzern werden bestimmte
Eigenschaften berücksichtigt.
I
”Güte” (Qualität) eines Schätzers spielt zentrale Rolle.
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
2/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Gütekriterien von Schätzfunktionen nach R.A. Fisher
Populationsparameter sollen aus Stichprobenkennwerten möglichst
’gut’ geschätzt werden. Nach welchen Kriterien können wir
entscheiden, ob ein Stichprobenkennwert ein brauchbarer Schätzer
ist?
I
Erwartungstreue
I
Konsistenz
I
Effizienz
I
Suffizienz (erschöpfend)
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
3/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Erwartungstreue
I
Eine Schätzfunktion (kurz: Schätzer) Θ̂ ist erwartungstreu,
wenn sein Erwartungswert dem Populationsparameter
entspricht.
E (Θ̂) = θ
D.h., zieht man aus der Population immer wieder Stichproben
vom Umfang n und berechnet z.B. jedes Mal x̄, entspricht
(auf lange Sicht) das arithmetische Mittel dieser x̄i dem
Populationsparameter µ. Der Erwartungswert der ZV X̄ ist µ.
I
Unter- oder überschätzt ein Schätzer den Parameter
systematisch, weist er einen Bias auf. Der Bias ist die
Differenz E (Θ̂) − θ.
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
4/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Beispiel Schütze
Erwartungstreuer Schütze und Schütze mit Bias
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
5/49
Punktschätzung
Konfidenzintervalle (KI)
Parameterschätzung
I
X̄ ist ein erwartungstreuer Schätzer für den
Populationsparameter µ: E (X̄ ) = µ.
I
n
1 X
(Xi − X̄ )2
S =
n−1
2
i=1
ist ein erwartungstreuer Schätzer für den
Populationsparameter σ 2 .
I
n
1X
S =
(Xi − X̄ )2
n
2
i=1
ist kein erwartungstreuer Schätzer für σ 2 . Würde man die
Varianzen aller möglichen Zufallsstichproben aus der
Population mit dieser Formel berechnen, und daraus den
Durchschnittswert, würde die Populationsvarianz um den
Faktor (n − 1)/n unterschätzt.
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
6/49
Punktschätzung
Konfidenzintervalle (KI)
Parameterschätzung
I
Analog für die Kovarianz:
n
CXY
1 X
=
(Xi − X̄ )(Yi − Ȳ )
n−1
i=1
ist ein erwartungstreuer Schätzer.
I
Weitere erwartungstreue Schätzer: Die relative Häufigkeit R
für die Wahrscheinlichkeit eines Ereignisses, und die
Stichprobenkorrelation für ρXY
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
7/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Effizienz
I
I
I
I
Ein Schätzer soll auch schon für kleine Stichprobenumfänge
eine möglichst geringe Varianz aufweisen.
Effizienz meint also die Präzision eines Schätzers.
Je kleiner die Varianz der Verteilung eines
Stichprobenkennwertes, umso größer ist seine Effizienz als
Schätzer.
Beispiel Schütze: Weniger effizienter Schütze und effizienter
Schütze
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
8/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Streuung von Stichprobenmittelwerten
I
I
I
I
I
Wie effizient ist X̄ als Schätzer für µ?
Standardabweichung von Stichprobenkennwerten heißt
Standardfehler
Der Standardfehler des Mittelwertes σX̄ ist abhängig von der
Varianz der Variable X in der Population. σX̄ ändert sich
proportional zur Populationsstreuung.
Weiters beeinflusst der Stichprobenumfang den
Standardfehler. Mit zunehmendem Stichprobenumfang wird
σX̄ kleiner.
Der Standardfehler des Mittelwertes beträgt
s
σX2
σX̄ =
n
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
9/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Standardfehler des Medians
I
Der Standardfehler des Medians beträgt
s
σX2
σMd = 1.25
n
I
Somit ist die Varianz der Medianwerteverteilung immer größer
als jene der Mittelwerteverteilung.
I
Der Mittelwert schätzt µ effizienter als der Median.
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
10/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Konsistenz
I
Ein Schätzer soll für große Stichprobenumfänge (n → ∞)
einen möglichst kleinen zufälligen Fehler aufweisen, d.h. mit
größer werdendem Stichprobenumfang soll Θ̂n gegen den
wahren Parameter θ streben, also immer genauer werden.
I
Mathematisch
P(|Θ̂n − θ| > ) −→ 0
n→∞
für jedes > 0.
Ein Schätzer ist konsistent, wenn die Wahrscheinlichkeit, dass
der Absolutbetrag der Differenz zum wahren Parameter größer
als jede beliebig kleine reelle Zahl ist, mit wachsendem n
gegen 0 strebt.
I
Konsistente Schätzer sind: Relative Häufigkeit, X̄ , S 2 , und die
Korrelation.
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
11/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Suffizienz
I
Ein Schätzer ist dann suffizient (oder erschöpfend), wenn er
alle in den Daten einer Stichprobe enthaltenen Informationen
berücksichtigt, so dass die Berechnung eines weiteren
statistischen Kennwertes keine zusätzliche Information über
den zu schätzenden Parameter liefert.
I
X̄ und S 2 sind suffiziente Schätzer
I
Beispiel: Unter ganz bestimmten Bedingungen ist der
Rohscore (= Anzahl richtig gelöster Aufgaben), den eine
Person in einem Test erreicht, eine erschöpfende
Schätzfunktion für die Fähigkeit der Person. Die Kenntnis,
welche Aufgaben die Person gelöst hat und welche nicht,
liefert keine zusätzliche Information über die Fähigkeit der
Person.
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
12/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Methode der kleinsten Quadrate
I
auch Ordinary Least Squares-Methode genannt.
I
Schätzwert θ̂ für θ, sodass Stichprobe möglichst gut
repräsentiert wird in der Form,
I
dass die Summe der quadrierten Abweichungen zwischen θ̂
und Messwerten minimiert wird.
I
Es wird die Summe der Abweichungsquadrate gebildet,
S(θ) =
n
X
(xi − θ)2 → min,
i=1
und anschließend die partielle Ableitung nach dem Parameter
Null gesetzt.
I
Beispiel: Regression
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
13/49
Punktschätzung
Konfidenzintervalle (KI)
Parameterschätzung
Beispiel Mittelwert
S(µ) =
n
X
n
X
(xi − µ) =
(xi2 − 2µxi + µ2 ) =
2
i=1
=
i=1
n
X
xi2
n
X
− 2µ
i=1
xi + nµ2
i=1
∂S
=2
∂µ
n
X
xi + 2nµ = 0
i=1
Pn
⇒ µ̂ =
Waldherr / Christodoulides
i=1 xi
n
= x̄
Einführung in Quantitative Methoden- 9. VO
14/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Maximum-Likelihood Schätzung
I
I
Likelihood-Funktion: Wahrscheinlichkeit konkret beobachteter
Daten unter einem bestimmten Wahrscheinlichkeitsmodell.
Für eine diskrete Verteilung, die durch den Parameter θ
charakterisiert ist, ist die Likelihood-Funktion definiert durch:
n
Y
L(θ) =
P(Xi = xi |θ)
i=1
I
I
I
Gesucht: Maximum der Likelihood-Funktion für die
beobachteten Daten, d.h. jenes θ̂, bei dem die Likelihood den
größten Wert hat.
Man bestimmt die Wahrscheinlichkeit für das Auftreten der
beobachteten Daten unter der Annahme aller in Frage
kommenden Stichprobenverteilungen.
Der ML-Schätzer ist der Parameter jener Verteilung, bei dem
das beobachtete Resultat am wahrscheinlichsten ist.
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
15/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Beispiel: Schätzen des Parameters p einer
Binomialverteilung aufgrund beobachteter Daten
I
I
Pilotstudie mit neuem Antidepressivum; bei 5 der 15
teilnehmenden PatientInnen erfolgreich. Wie kann man
aufgrund dieser Beobachtungen den Parameter p für Erfolg in
der Population schätzen?
Numerische Lösung: Einsetzen verschiedener p̂ in
5
10
L(p) = 15
5 p (1 − p)
I
L(p̂ = 0.1) = 0.01
L(p̂ = 0.2) = 0.103
L(p̂ = 0.3) = 0.206
L(p̂ = 0.4) = 0.186
L(p̂ = 0.5) = 0.092
I
Die Likelihoodfunktion hat den größten Wert bei p̂ = 0.3.
Vielleicht ist ein Wert rund um 0.3 noch besser?
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
16/49
Parameterschätzung
I
Punktschätzung
Konfidenzintervalle (KI)
Analytische Lösung: Finden des Maximums der Funktion
n k
L(p) =
p (1 − p)n−k
k
durch partielles Differenzieren und Nullsetzen
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
17/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Da mathematisch einfacher: Logarithmieren der Likelihoodfunktion
ln L
n
ln L(p) = ln
+ k ln p + (n − k) ln(1 − p) → Max
k
∂ ln p
∂ ln(1 − p)
∂ ln L
=k
+ (n − k)
=0
∂p
∂p
∂p
k
−1
+ (n − k)
=0
p̂
1 − p̂
k(1 − p̂) = (n − k)p̂
k
=r
n
2. Ableitung ist < 0 ⇒ r ist der ML-Schätzer für den Parameter p
der Binomialverteilung. L(p̂ = 0.33) = 0.214
p̂ =
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
18/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
ML-Schätzer für Poisson-Verteilung
P(K = k|λ) =
λk e −λ
k!
1. Fall: ein Wert k beobachtet
ln L = k ln λ − ln k! − λ → Max
∂ ln L
k
= −1=0
∂λ
λ
λ̂ = k
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
19/49
Punktschätzung
Konfidenzintervalle (KI)
Parameterschätzung
2. Fall: n Werte k1 , . . . , kn beobachtet, ki unabhängig
L(λ) =
n
Y
P(k1 , . . . , kn |λ) =
i=1
ln L =
n
Y
λki e −λ
i=1
ki !
n
X
(ki ln λ − ln ki ! − λ) → Max
i=1
n
∂ ln L
1X
=
ki − n = 0
∂λ
λ
i=1
n
λ̂ =
1X
ki
n
i=1
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
20/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Eigenschaften von ML-Schätzern
Sie sind stets
I
konsistent,
I
suffizient,
I
nicht unbedingt erwartungstreu (z.B. Varianz berechnet mit
1/n)
I
ML-Schätzer sind z.B.: R, X̄
I
Nachteile: Oft existiert keine analytische Lösung. Numerische
Lösungsverfahren oft mathematisch nicht trivial
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
21/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Allgemeines
I
Wir interessieren uns für einen unbekannten wahren Parameter
θ, der die Verteilung einer Zufallsvariable charakterisiert
I
θ wird durch eine Schätzfunktion Θ̂ aus einer
(repräsentativen) Stichprobe mit Umfang n geschätzt
I
Es wird davon ausgegangen, dass die Stichprobe in etwa die
Grundgesamtheit widerspiegelt, und dass deshalb die
Schätzung in der Nähe des wahren Parameters liegen müsste
I
Die Schätzfunktion ist selbst eine Zufallsvariable mit einer
Verteilung, die den Parameter θ enthält
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
22/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Allgemeines
I
Bei der Schätzung von Parametern geht es nicht nur darum,
Schätzfunktionen zu finden und deren Eigenschaften
(Erwartungstreue, Konsistenz, etc.) abzuklären
I
Man möchte auch Intervalle angeben, in welchen θ mit einer
gewissen Sicherheit liegt
I
Es sei α eine vorgegebene Irrtumswahrscheinlichkeit, und a
bzw. b reelle Zahlen, mit a ≤ b. Die Schätzung des Bereiches
a ≤ θ ≤ b mit der Vertrauenswahrscheinlichkeit (1 − α)
nennen wir Konfidenzintervall des Parameters θ mit
Irrtumswahrscheinlichkeit α
I
Θ̂ Punktschätzung von θ, im Vergleich zur Intervallschätzung
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
23/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Allgemeines
I
Wir konstruieren ein symmetrisches Konfidenzintervall auf
Grundlage einer Schätzfunktion Θ̂
I
Von besonderem Interesse ist die Breite des
Konfidenzintervalls. Diese bestimmt sich durch die
Standardabweichung von Θ̂
I
Erwünscht ist in der Regel ein möglichst schmales
Konfidenzintervall, denn dies weist auf eine genaue Schätzung
hin
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
24/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Überblick
I
Konfidenzintervall für den Parameter p einer B(n, p) Variable
I
Konfidenzintervall für den Erwartungswert µ einer N(µ, σ 2 )
Variable bei bekannter Varianz σ 2
I
Konfidenzintervall für den Erwartungswert µ einer N(µ, σ 2 )
Variable bei unbekannter Varianz σ 2
I
Näherungsweises Konfidenzintervall für den Erwartungswert µ
einer Variable mit unbekannter Verteilung
I
Konfidenzintervall für die Varianz σ 2 einer N(µ, σ 2 ) Variable
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
25/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für p einer B(n, p)
I
Befragung einer Zufallsstichprobe von n Personen aus einer
unendlichen Population zu einem Thema mit
Antwortkategorien ja/nein
I
k ist die Anzahl der ’ja’ Antworten in der Stichprobe
I
r=
I
p = P (’ja’) ist der wahre (unbekannte) Anteil der
Ja-Stimmen in der Population
I
r ist ein erwartungstreuer Schätzer für p
I
K ist jene Zufallsvariable, die durch wiederholte Ziehung
unabhängiger Stichproben vom Umfang n aus der unendlichen
Population entsteht, R ist die entsprechende Zufallsvariable
der relativen Häufigkeiten
k
n
die entsprechende relative Häufigkeit
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
26/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für p einer B(n, p)
I
K ∼ B(n, p)
I
Wenn np ≥ 5 und n(1 − p) ≥ 5 darf die Binomialverteilung
näherungsweise durch die N(np, np(1 − p)) ersetzt werden
I
K ∼a N(np, np(1 − p)) und auch
I
np(1−p)
) = N(p, p(1−p)
)
R ∼a N( np
n ,
n
n2
I
Um die Tabelle der N(0, 1) für die Bestimmung der
Endpunkte des Konfidenzintervalls anwenden zu können,
standardisieren wir R
I
Z=
R −p
R − E (R)
=q
∼ N(0, 1)
σR
p(1−p)
n
I
Sei α = 0.05
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
27/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für p einer B(n, p)
Tabelle 1b: P(−1.96 ≤ Z ≤ 1.96) = 0.95
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
28/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für p einer B(n, p)
I
Für 95% aller Stichproben mit Umfang n gilt
|R − p|
|Z | = q
≤ 1.96
p(1−p)
n
I
Wir ersetzen σR durch einen Schätzer σc
R
r
r
p(1 − p)
r (1 − r )
σR =
, σc
R =
n
n−1
I
Also gilt für 95% aller Stichproben mit Umfang n
r
r (1 − r )
|R − p| ≤ 1.96
n−1
I
Grundlage für ein KI mit einer Irrtumswahrscheinlichkeit
α = 0.05
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
29/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für p einer B(n, p)
I
Die Grenzen des KI mit Irrtumswahrscheinlichkeit α = 0.05
werden wie folgt bestimmt
r
r (1 − r )
p1,2 = r ± 1.96
n−1
I
Allgemeiner für beliebige Irrtumswahrscheinlichkeit α
r
r (1 − r )
p1,2 = r ± z1− α2
n−1
I
KI ist symmetrisch um den Punkt r , symmetrisches KI
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
30/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für p einer B(n, p)
I
Bei gegebenem p̂ hängt die Breite des KI von zwei Faktoren
ab: der gewünschten Sicherheit und dem Stichprobenumfang
I
Je höher die Sicherheit, desto kleiner die
Irrtumswahrscheinlichkeit α, desto größer wird z1− α2 , und
desto breiter das Intervall
I
Je größer die Stichprobe, desto kleiner wird σR und dessen
Schätzung σc
R , und desto schmäler das Intervall
I
Interpretation des KI: Werden immer wieder unabhängige
Stichproben vom Umfang n gezogen, und wird für jede dieser
Stichproben p̂ = r gerechnet, so liegt p̂ in (1 − α) Prozent
dieser Stichproben innerhalb des Intervalles [p1 , p2 ]. Der
Parameter p wird mit einer Vertrauenswahrscheinlichkeit von
(1 − α) vom Intervall [p1 , p2 ] überdeckt
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
31/49
Punktschätzung
Konfidenzintervalle (KI)
Parameterschätzung
KI für p einer B(n, p)
I
Beispiel: Es wurden n = 200 Personen befragt, von denen
k = 78 mit ’ja’ geantwortet haben. α = 0.05, bzw. α = 0.01
I
r = p̂ =
78
200
I
= 0.39
r
p1,2 = 0.39 ± 1.96
r
p1,2 = 0.39 ± 2.58
(0.39)(0.61)
= 0.39 ± 0.068
199
(0.39)(0.61)
= 0.39 ± 0.089
199
I
p1,2 = [0.322, 0.458]
Waldherr / Christodoulides
p1,2 = [0.301, 0.479]
Einführung in Quantitative Methoden- 9. VO
32/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI in SPSS
File: SPSS-Konfidenzintervalle.sav;
Konfidenzintervall für Anteil der Haustierbesitzer (n = 166,
α = 0.05)
Deskriptive Statistiken → Explorative Datenanalyse
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
33/49
Parameterschätzung
Waldherr / Christodoulides
Punktschätzung
Konfidenzintervalle (KI)
Einführung in Quantitative Methoden- 9. VO
34/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für µ einer N(µ, σ 2 ) bei bekanntem σ 2
I
Die Normalverteilung ist eine reproduzierende Verteilung
I
Seien X1 , X2 , . . . , Xn voneinander unabhängig normalverteilte
Zufallsvariablen mit Erwartungswerten µ1 , µ2 , . . . , µn und
Varianzen σ12 , σ22 , . . . , σn2 . Dann ist die Zufallsvariable
Y = X1 + X2 + . . . + Xn ebenfalls normalverteilt mit
E [Y ] = µ1 + µ2 + . . . + µn und σY2 = σ12 + σ22 + . . . + σn2
I
Wie ist die Verteilung von Mittelwerten x̄ einer
normalverteilten Variable?
I
X sei N(µ, σ 2 )
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
35/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für µ einer N(µ, σ 2 ) bei bekanntem σ 2
I
Wir ziehen unabhängige Zufallsstichproben vom Umfang n.
Die Mittelwerte x̄ aller Zufallsstichproben erzeugen eine
Variable X̄ = n1 (X1 + X2 + . . . + Xn )
I
X̄ ist abgesehen von der multiplikativen Konstante
Summe normalverteilter Variablen, und es gilt
X̄ ∼ N(µ,
1
n
eine
σ2
)
n
I
Wenn X normalverteilt ist, hat X̄ wiederum Normalverteilung
mit dem selben Erwartungswert, aber wesentlich kleinerer
2
Varianz σn
I
Die Mittelwerte aus Stichproben vom Umfang n gruppieren
sich also enger zusammen als die Messwerte
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
36/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für µ einer N(µ, σ 2 ) bei bekanntem σ 2
I
Wir verwenden die Verteilung von X̄ um ein KI für µ
aufzustellen
I
Standardisieren der normalverteilten Variable X̄
Z=
I
X̄ − µ
√σ
n
Es gilt für (1 − α)% aller Stichproben mit Umfang n
σ
|x̄ − µ| ≤ z1− α2 √
n
I
Waldherr / Christodoulides
σ
µ1,2 = x̄ ± z1− α2 √
n
Einführung in Quantitative Methoden- 9. VO
37/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für µ einer N(µ, σ 2 ) bei bekanntem σ 2
I
I
I
I
I
I
Die Breite des KI hängt von 3 Faktoren ab: von der Streuung
der Variable X bzw. σ, von n, und von der
Irrtumswahrscheinlichkeit α
Je kleiner σ, desto enger das KI
Je größer die Stichprobe, desto enger das KI
Je kleiner α, desto breiter das KI
Beispiel: Eine Stichprobe von n = 234 14-jährigen
SchülerInnen wurde mit einem Intelligenztest, der für 14-18
jährige Jugendliche normiert wurde, getestet. Der Mittelwert
der 14-Jährigen ist x̄ = 98.10. In der Gesamtpopulation aller
Jugendlichen wurde der Test so geeicht, dass die Messwerte
normalverteilt mit µ = 100 und σ = 15 sind.
In welchem Bereich liegt der Erwartungswert der 14-Jährigen,
µ14 (α = 0.05)?
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
38/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für µ einer N(µ, σ 2 ) bei bekanntem σ 2
I
15
= 98.10 ± 1.92
µ1,2 = 98.10 ± 1.96 √
234
I
µ14 wird mit einer Vertrauenswahrscheinlichkeit von 0.95 vom
KI [96.18, 100.02] überdeckt
I
Berechnung des KI beruht auf der Voraussetzung, dass σ 2
bekannt und gültig auch für die Teilpopulation der
14-Jährigen ist
I
Es kommt selten vor, dass σ 2 bekannt ist
I
Typischer ist der Fall unbekannter Varianz
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
39/49
Punktschätzung
Konfidenzintervalle (KI)
Parameterschätzung
KI für µ einer N(µ, σ 2 ) bei unbekanntem σ 2
I
Unbekannte Varianz σ 2 wird aus den vorliegenden Daten
geschätzt
n
1 X
(xi − x̄)2
σ̂ 2 =
n−1
i=1
I
Anstelle der Verteilung
Z=
I
X̄ − µ
√σ
n
∼ N(0, 1)
wird folgender Ausdruck als Grundlage für das KI verwendet
T =
Waldherr / Christodoulides
X̄ − µ
√σ̂
n
∼ t(n−1)
Einführung in Quantitative Methoden- 9. VO
40/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für µ einer N(µ, σ 2 ) bei unbekanntem σ 2
I
Das KI für µ ergibt sich aus
X̄ − µ
≤ t1− α2 , df = n − 1
σ̂
√
I
n
Mit Irrtumswahrscheinlichkeit α gilt
σ̂
|x̄ − µ| ≤ t1− α2 √ , df = n − 1
n
I
Und schließlich das KI
σ̂
µ1,2 = x̄ ± t1− α2 √ , df = n − 1
n
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
41/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für µ einer N(µ, σ 2 ) bei unbekanntem σ 2
I
Beispiel: Der Subtest ’Rechenaufgaben’ eines Intelligenztests
wird einer Zufallsstichprobe von n = 87 15-jährigen Wiener
HauptschulabsolventInnen vorgegeben, wobei x̄ = 25.48 und
s = 6.12. Gesucht ist das Konfidenzintervall für den
Erwartungswert µ der Population der Wiener
HauptschulabsolventInnen (α = 0.05 bzw. 0.01)
I
Waldherr / Christodoulides
6.12
µ1,2 = 25.48 ± t1− α2 √ , df = 86
87
Einführung in Quantitative Methoden- 9. VO
42/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für µ einer N(µ, σ 2 ) bei unbekanntem σ 2
I
Tabelle enthält keine Eintragung für df = 86, aber
nächstgelegene Wert ist df = 60; t0.975 = 2.00 bzw.
t0.995 = 2.66
6.12
6.12
µ1,2 = 25.48 ± (2.00) √ , µ1,2 = 25.48 ± (2.66) √
87
87
I
µ liegt mit einer Irrtumswahrscheinlichkeit α = 0.05 bzw. 0.01
im Intervall [24.17, 26.79] bzw. [23.74, 27.23]
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
43/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
Näherungsweises KI für µ einer Variable mit unbekannter
Verteilung
I
Normalverteilung der betrachteten Variable X war Grundlage
für alle dargestellten KI
I
Was tun, wenn die Normalverteilungsannahme nicht
gerechtfertigt erscheint?
I
KI bleiben näherungsweise gültig wegen Zentralem
Grenzwertsatz
I
Güte der Näherung hängt von der Verteilung von X und dem
Stichprobenumfang n ab
I
Bei kleinem n sollte sich die Verteilung von X nicht allzusehr
von einer Normalverteilung entfernen
I
Großes n kann praktisch jede Abweichung von der
Normalverteilung kompensieren
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
44/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für σ 2 einer N(µ, σ 2 )
I
Ebenso wichtig wie die Verteilung von X̄ ist auch jene von S 2 ,
wobei S 2 jene Variable bezeichnet, die durch wiederholtes
Ziehen von Zufallsstichproben vom Umfang n und Berechnung
von s 2 in dieser Stichprobe entsteht
I
Um σ 2 zu schätzen, verwenden wir
n
S2 =
n
1 X
1 X
(xi − x̄)2 = σ 2
n−1
n−1
i=1
|i=1
I
σ2 2
S =
χ
n − 1 (n−1)
2
Waldherr / Christodoulides
oder
χ2(n−1)
n−1
xi − x̄ 2
σ
{z
}
∼χ2(n−1)
=
S2
σ2
Einführung in Quantitative Methoden- 9. VO
45/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für σ 2 einer N(µ, σ 2 )
I
Grundlage für Aufstellung eines KI für σ 2
I
I
(n − 1)S 2
= σ2
χ2(n−1)
KI mit Irrtumswahrscheinlichkeit α und Freiheitsgraden
df = n − 1
(n − 1)s 2
(n − 1)s 2
2
≥
σ
≥
χ2α
χ21− α
2
Waldherr / Christodoulides
2
Einführung in Quantitative Methoden- 9. VO
46/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für σ 2 einer N(µ, σ 2 )
I
Beispiel: Angenommen, s = 14.7 für eine normalverteilte
Variable in einer Stichprobe von (n = 234) Personen: in
welchem Bereich vermuten wir σ 2 für die entsprechende
Population (α = 0.05)?
I
Tabelle enthält für df = 233 keine Eintragungen ⇒
asymptotische Entwicklung
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
47/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für σ 2 einer N(µ, σ 2 )
I
Bei df → ∞ strebt χ2 gegen die Normalverteilung N(df , 2df )
I
χ20.975 − 233
√
466
√
= 233 + 1.96 466 = 275.3
z0.975 = 1.96 =
χ20.975
χ20.025 − 233
√
466
√
= 233 − 1.96 466 = 190.7
z0.025 = −1.96 =
χ20.025
I
KI für die Varianz
233
14.72
14.72
≤ σ 2 ≤ 233
⇒ 182.89 ≤ σ 2 ≤ 264.02
275.3
190.7
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
48/49
Parameterschätzung
Punktschätzung
Konfidenzintervalle (KI)
KI für σ 2 einer N(µ, σ 2 )
I
Beispiel: Wie vorhin, aber mit einer Stichprobe vom Umfang
n = 24
I
Aus Tabelle für df = 23
χ20.975 = 38.08 χ20.025 = 11.69
I
KI für σ 2
23
I
14.72
14.72
≤ σ 2 ≤ 23
⇒ 130.52 ≤ σ 2 ≤ 425.16
38.08
11.69
Wir sehen, dass die kleine Stichprobe zu einer
unzuverlässigeren Schätzung (breiteres KI) der Varianz führt
Waldherr / Christodoulides
Einführung in Quantitative Methoden- 9. VO
49/49
Herunterladen