Einführung in Quantitative Methoden

Werbung
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Einführung in Quantitative Methoden
Pantelis Christodoulides & Karin Waldherr
21. Mai 2014
Christodoulides / Waldherr
Einführung in Quantitative Methoden
1/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
Prüfverteilungen - Motivation
I
I
I
Inferenzstatistik verwendet Stichprobenkennwerte
(Stichprobenmittelwert, Stichprobenvarianz oder auch den
Quotient zweier Stichprobenvarianzen) als Schätzfunktionen
für die entsprechenden Populationsparameter.
Zieht man immer wieder voneinander unabhängige
Zufallsstichproben und berechnet die Kennwerte, werden die
einzelnen Kennwerte aufgrund der zufälligen
Zusammensetzung der Stichproben nicht ident sein sondern
streuen zufällig um den Erwartungswert. Die Kennwerte
einzelner Zufallsstichproben sind Realisierungen von
Zufallsvariablen (z.B. X̄ , S 2 ).
Kenntnis der Verteilung dieser ZV (= Stichprobenverteilung)
ist Grundlage für Inferenzstatistik, z.B. von Hypothesentests,
Vertrauensbereichen für Schätzwerte.
Christodoulides / Waldherr
Einführung in Quantitative Methoden
2/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
Empirische und Theoretische Verteilungen
Empirisch (beobachtet)
Stichprobe
(Umfang n)
Häufigkeitsverteilung
Theoretisch (erwartet)
Population
n→∞
Wahrscheinlichkeitsfunktion
bzw. Dichte
Verteilungsfunktion
Kumulative relative
Häufigkeitsverteilung
Kennwerte der Verteilung
x̄
E (X ) = µ
2
s
σ2
rXY
ρXY
Empirische Quantile
Theoretische Quantile
Christodoulides / Waldherr
Einführung in Quantitative Methoden
3/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
χ2 -Verteilung
I
I
I
Gegeben: standardnormalverteilte ZV (µ = 0, σ = 1)
Man entnimmt wiederholt (theoretisch unendlich oft) zufällig
einzelne z-Werte und quadriert diese. Diese Zufallsvariable
wird als Z 2 = χ2(1) -verteilte ZV bezeichnet.
Welche Verteilungsform ergibt sich?
I
I
da die z-Werte quadriert werden, können nur Werte ≥ 0
vorkommen
da bei einer N(0,1)-verteilten ZV die Werte zwischen 0 und ±
1 am häufigsten sind, werden daher auch χ2 -Werte zwischen 0
und 1 am häufigsten sein
Christodoulides / Waldherr
Einführung in Quantitative Methoden
4/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
χ2 -Verteilung
I
Entnimmt man wiederholt 2, 3, 4 . . . , oder m unabhängige
zi -Werte, quadriert diese und bildet die Summe der zi2 ,
ergeben sich χ2(2) , χ2(3) , χ2(4) , ... bzw. χ2(m) - verteilte ZV
I
Es entstehen χ2 -Verteilungen mit 2, 3, 4, . . . , bzw. m
Freiheitsgraden (df )
I
Freiheitsgrade = Anzahl der Summanden, die frei variieren
dürfen (d.h. für die es gleichgültig ist, welchen Wert sie
annehmen)
I
E (χ2 ) = df , σ 2 = 2df
Christodoulides / Waldherr
Einführung in Quantitative Methoden
5/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
Dichten verschiedener χ2 -Verteilungen
Christodoulides / Waldherr
Einführung in Quantitative Methoden
6/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
χ2 -Verteilung
I
Die Summe einer χ2 -verteilten Variablen mit df = n und einer
unabhängigen χ2 -verteilten Variablen mit df = m ist ebenfalls
χ2 -verteilt mit df = m + n. (= Reproduktionseigenschaft der
χ2 -Verteilung)
I
Mit wachsender Anzahl von Summanden wird die
χ2 -Verteilung immer symmetrischer und nähert sich einer NV
mit µ = df und σ 2 = 2df (vgl. Zentraler Grenzwertsatz)
Christodoulides / Waldherr
Einführung in Quantitative Methoden
7/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
χ2 -Tabelle
Tabelle 2 gibt ausgewählte α-Quantile der χ2 -Verteilung für
verschiedene Freiheitsgrade an (jene Werte χ20 , für die gilt
P(χ2 ≤ χ20 ) = α).
α
df
1
2
3
4
5
..
.
0.005
0.01
0.025
0.05
0.90
0.95
0.975
0.99
0.995
0.00
0.01
0.07
0.21
0.41
..
.
0.00
0.02
0.11
0.30
0.55
..
.
0.00
0.05
0.22
0.48
0.83
..
.
0.00
0.10
0.35
0.71
1.15
..
.
2.71
4.61
6.25
7.78
9.24
..
.
3.84
5.99
7.82
9.49
11.07
..
.
5.02
7.38
9.35
11.14
12.83
..
.
6.64
9.21
11.34
13.28
15.09
..
.
7.88
10.60
12.84
14.86
16.75
..
.
Christodoulides / Waldherr
Einführung in Quantitative Methoden
8/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
Beispiel: df = 15, α = 0.95
α
df
1
..
.
15
0.005
0.01
0.025
0.05
0.90
0.95
0.975
0.99
0.995
0.00
..
.
4.60
0.00
..
.
5.23
0.00
..
.
6.26
0.00
..
.
7.26
2.71
..
.
22.31
3.84
..
.
25.00
5.02
..
.
27.49
6.64
..
.
30.58
7.88
..
.
32.80
Christodoulides / Waldherr
Einführung in Quantitative Methoden
9/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
Asymptotische Entwicklung von χ2
I
I
Wenn df > 100 asymptotische Entwicklung von χ2
Beispiel√df = 200: annähernd normalverteilt mit
N(200, 400)
I
Z=
I
χ2 − 200
χ2 − E (χ2 )
√
=
σ(χ2 )
400
χ20.99 − 200
∼ z0.99 = 2.33(Tab. 1b)
20
I
χ20.99 ∼ 200 + 20 · 2.33 = 246.6
I
χ20.01 ∼ 200 − 20 · 2.33 = 153.4
Christodoulides / Waldherr
Einführung in Quantitative Methoden
10/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
t-Verteilung
I
Durch Standardisieren einer normalverteilten Variablen erhält
man eine standardnormalverteilte Variable
Z=
X̄ − µX
X̄ − µX
= q 2
σX̄
σX
n
I
Ist Populationsvarianz jedoch nicht bekannt und muss
geschätzt werden, dann ist der Quotient nicht
standardnormalverteilt sondern t-verteilt
T =
X̄ − µX
X̄ − µX
= q 2
σ̂X̄
σ̂X
n
mit n Freiheitsgraden.
Christodoulides / Waldherr
Einführung in Quantitative Methoden
11/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
Dichten verschiedener t-Verteilungen
Die t-Verteilung ist wie die NV eingipfelig und symmetrisch, mit
E (T ) = 0 (für df ≥ 2), und Varianz n/(n − 2) (für df ≥ 3).
Mit wachsender Zahl der Freiheitsgrade nähert sich die
t-Verteilung der N(0,1).
Christodoulides / Waldherr
Einführung in Quantitative Methoden
12/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
t-Tabelle
Tabelle 3 gibt ausgewählte α-Quantile der t-Verteilung für
verschiedene Freiheitsgrade an (jene Werte t0 , für welche gilt
P(t ≤ t0 ) = α)
df
1
2
..
.
0.90
0.95
0.975
α
0.99
0.995
0.999
0.9995
3.09
1.89
..
.
6.31
2.92
..
.
12.71
4.30
..
.
31.82
6.97
..
.
63.66
9.93
..
.
318.31
22.33
..
.
636.62
31.60
..
.
Christodoulides / Waldherr
Einführung in Quantitative Methoden
13/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
Beispiel
0.90
0.95
0.975
α
0.99
0.995
0.999
0.9995
df
10
..
.
1.37
..
.
1.81
..
.
2.23
..
.
2.76
..
.
3.17
..
.
4.14
..
.
4.59
..
.
120
∞
1.29
1.28
1.66
1.65
1.98
1.96
2.36
2.33
2.62
2.58
3.16
3.09
3.37
3.29
Christodoulides / Waldherr
Einführung in Quantitative Methoden
14/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
F -Verteilung
I
I
Gegeben seien zwei stochastisch unabhängige χ2 -verteilte
Variablen, χ2(n) und χ2(m) .
Der Quotient
χ2(n)
n
χ2(m)
m
I
I
I
ist F -verteilt mit df1 = n (Zählerfreiheitsgrade) und df2 = m
(Nennerfreiheitsgrade)
F -Verteilungen sind stetig und asymmetrisch
Da F das Verhältnis zweier quadrierter Werte ist, können nur
positive Werte vorkommen
Form ist abhängig von der Anzahl der Zähler- und
Nennerfreiheitsgrade
Christodoulides / Waldherr
Einführung in Quantitative Methoden
15/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
Dichten verschiedener F -Verteilungen
Christodoulides / Waldherr
Einführung in Quantitative Methoden
16/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
F -Tabelle
I
I
I
I
I
Tabelle 4a gibt jene Werte F0 einer F -verteilten Variablen mit
bestimmter Anzahl von Freiheitsgraden an, für welche gilt
P(F ≤ F0 ) = α.
Quotient wird so gebildet, dass der größere Wert im Zähler
steht.
Für die Werte in der jeweils oberen Zeile ist α = 0.95, für jene
der unteren Zeile ist α = 0.99.
df1 . . . Anzahl der Zählerfreiheitsgrade
df2 . . . Anzahl der Nennerfreiheitsgrade
df1
1
2
3
4
5 ...
10
df2
1
2
161
4052
200
4999
18.51
98.50
19.00
99.00
Christodoulides / Waldherr
216
5403
225
5625
230
5764
...
...
242
6056
19.16
99.17
19.25
99.25
19.30
99.30
...
...
19.40
99.40
Einführung in Quantitative Methoden
17/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Fortsetzung Stetige Verteilungen
1
2
3
4
5
...
10
161
4052
200
4999
216
5403
225
5625
230
5764
...
...
242
6056
18.51
98.50
19.00
99.00
19.16
99.17
19.25
99.25
19.30
99.30
...
...
19.40
99.40
Beispiel
df1
df2
1
2
Christodoulides / Waldherr
Einführung in Quantitative Methoden
18/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Parameterschätzung
I
Schätzung von Populationsparameter aufgrund einer
Stichprobe
1. Punktschätzer
2. Vertrauensbereiche (Konfidenzintervalle)
I
Punktschätzer: Wir benötigen eine Schätzfunktion (kurz:
Schätzer).
I
Bei der Konstruktion von Schätzern werden bestimmte
Eigenschaften berücksichtigt.
I
”Güte” (Qualität) eines Schätzers spielt zentrale Rolle.
Christodoulides / Waldherr
Einführung in Quantitative Methoden
19/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Gütekriterien von Schätzfunktionen nach R.A. Fisher
Populationsparameter sollen aus Stichprobenkennwerten möglichst
’gut’ geschätzt werden. Nach welchen Kriterien können wir
entscheiden, ob ein Stichprobenkennwert ein brauchbarer Schätzer
ist?
I
Erwartungstreue
I
Konsistenz
I
Effizienz
I
Suffizienz (erschöpfend)
Christodoulides / Waldherr
Einführung in Quantitative Methoden
20/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Erwartungstreue
I
Eine Schätzfunktion (kurz: Schätzer) Θ̂ ist erwartungstreu,
wenn sein Erwartungswert dem Populationsparameter
entspricht.
E (Θ̂) = θ
D.h., zieht man aus der Population immer wieder Stichproben
vom Umfang n und berechnet z.B. jedes Mal x̄, entspricht
(auf lange Sicht) das arithmetische Mittel dieser x̄i dem
Populationsparameter µ. Der Erwartungswert der ZV X̄ ist µ.
I
Unter- oder überschätzt ein Schätzer den Parameter
systematisch, weist er einen Bias auf. Der Bias ist die
Differenz E (Θ̂) − θ.
Christodoulides / Waldherr
Einführung in Quantitative Methoden
21/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Beispiel Schütze
Erwartungstreuer Schütze und Schütze mit Bias
Christodoulides / Waldherr
Einführung in Quantitative Methoden
22/53
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
I
X̄ ist ein erwartungstreuer Schätzer für den
Populationsparameter µ: E (X̄ ) = µ.
I
n
1 X
S =
(Xi − X̄ )2
n−1
2
i=1
ist ein erwartungstreuer Schätzer für den
Populationsparameter σ 2 .
I
n
1X
S =
(Xi − X̄ )2
n
2
i=1
ist kein erwartungstreuer Schätzer für σ 2 . Würde man die
Varianzen aller möglichen Zufallsstichproben aus der
Population mit dieser Formel berechnen, und daraus den
Durchschnittswert, würde die Populationsvarianz um den
Faktor (n − 1)/n unterschätzt.
Christodoulides / Waldherr
Einführung in Quantitative Methoden
23/53
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
I
Analog für die Kovarianz:
n
CXY =
1 X
(Xi − X̄ )(Yi − Ȳ )
n−1
i=1
ist ein erwartungstreuer Schätzer.
I
Weitere erwartungstreue Schätzer: Die relative Häufigkeit R
für die Wahrscheinlichkeit eines Ereignisses, und die
Stichprobenkorrelation für ρXY
Christodoulides / Waldherr
Einführung in Quantitative Methoden
24/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Effizienz
I
I
I
I
Ein Schätzer soll auch schon für kleine Stichprobenumfänge
eine möglichst geringe Varianz aufweisen.
Effizienz meint also die Präzision eines Schätzers.
Je kleiner die Varianz der Verteilung eines
Stichprobenkennwertes, umso größer ist seine Effizienz als
Schätzer.
Effizienter Schütze:
Christodoulides / Waldherr
Einführung in Quantitative Methoden
25/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Streuung von Stichprobenmittelwerten
I
I
I
I
I
Wie effizient ist X̄ als Schätzer für µ?
Standardabweichung von Stichprobenkennwerten heißt
Standardfehler
Der Standardfehler des Mittelwertes σX̄ ist abhängig von der
Varianz der Variable X in der Population. σX̄ ändert sich
proportional zur Populationsstreuung.
Weiters beeinflusst der Stichprobenumfang den
Standardfehler. Mit zunehmendem Stichprobenumfang wird
σX̄ kleiner.
Der Standardfehler des Mittelwertes beträgt
s
σX2
σX̄ =
n
Christodoulides / Waldherr
Einführung in Quantitative Methoden
26/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Standardfehler des Medians
I
Der Standardfehler des Medians beträgt
s
σX2
σMd = 1.25
n
I
Somit ist die Varianz der Medianwerteverteilung immer größer
als jene der Mittelwerteverteilung.
I
Der Mittelwert schätzt µ effizienter als der Median.
Christodoulides / Waldherr
Einführung in Quantitative Methoden
27/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Konsistenz
I
I
Ein Schätzer soll für große Stichprobenumfänge (n → ∞)
einen möglichst kleinen zufälligen Fehler aufweisen, d.h. mit
größer werdendem Stichprobenumfang soll Θ̂n gegen den
wahren Parameter θ streben, also immer genauer werden.
Mathematisch
P(|Θ̂n − θ| > ) −→ 0
n→∞
I
für jedes > 0.
Ein Schätzer ist konsistent, wenn die Wahrscheinlichkeit, dass
der Absolutbetrag der Differenz zum wahren Parameter größer
als jede beliebig kleine reelle Zahl ist, mit wachsendem n
gegen 0 strebt.
Konsistente Schätzer sind: Relative Häufigkeit, X̄ , S 2 , und die
Korrelation.
Christodoulides / Waldherr
Einführung in Quantitative Methoden
28/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Suffizienz
I
Ein Schätzer ist dann suffizient (oder erschöpfend), wenn er
alle in den Daten einer Stichprobe enthaltenen Informationen
berücksichtigt, so dass die Berechnung eines weiteren
statistischen Kennwertes keine zusätzliche Information über
den zu schätzenden Parameter liefert.
I
X̄ und S 2 sind suffiziente Schätzer
I
Beispiel: Unter ganz bestimmten Bedingungen ist der
Rohscore (= Anzahl richtig gelöster Aufgaben), den eine
Person in einem Test erreicht, eine erschöpfende
Schätzfunktion für die Fähigkeit der Person. Die Kenntnis,
welche Aufgaben die Person gelöst hat und welche nicht,
liefert keine zusätzliche Information über die Fähigkeit der
Person.
Christodoulides / Waldherr
Einführung in Quantitative Methoden
29/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Methoden zur Konstruktion von Punktschätzern Überblick
I
Methode der kleinsten Quadrate
I
Maximum-Likelihood-Schätzung
Christodoulides / Waldherr
Einführung in Quantitative Methoden
30/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Methode der kleinsten Quadrate
I
I
I
I
auch Ordinary Least Squares-Methode genannt.
Schätzwert θ̂ für θ, sodass Stichprobe möglichst gut
repräsentiert wird in der Form,
dass die Summe der quadrierten Abweichungen zwischen θ̂
und Messwerten minimiert wird.
Es wird die Summe der Abweichungsquadrate gebildet,
S(θ) =
n
X
(xi − θ)2 → min,
i=1
I
und anschließend die partielle Ableitung nach dem Parameter
Null gesetzt.
Beispiel: Regression
Christodoulides / Waldherr
Einführung in Quantitative Methoden
31/53
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Beispiel Mittelwert
S(µ) =
n
X
(xi − µ)2 =
i=1
=
n
X
(xi2 − 2µxi + µ2 ) =
i=1
n
X
xi2 − 2µ
i=1
n
X
xi + nµ2
i=1
n
X
∂S
=2
xi + 2nµ = 0
∂µ
i=1
Pn
xi
⇒ µ̂ = i=1 = x̄
n
Christodoulides / Waldherr
Einführung in Quantitative Methoden
32/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Maximum-Likelihood Schätzung
I
Likelihood-Funktion: Wahrscheinlichkeit konkret beobachteter
Daten unter einem bestimmten Wahrscheinlichkeitsmodell.
I
Für eine diskrete Verteilung, die durch den Parameter θ
charakterisiert ist, ist die Likelihood-Funktion definiert durch:
L(θ) =
n
Y
P(Xi = xi |θ)
i=1
I
Gesucht: Maximum der Likelihood-Funktion für die
beobachteten Daten, d.h. jenes θ̂, bei dem die Likelihood den
größten Wert hat.
Christodoulides / Waldherr
Einführung in Quantitative Methoden
33/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Maximum-Likelihood Schätzung
I
Man bestimmt die Wahrscheinlichkeit für das Auftreten der
beobachteten Daten unter der Annahme aller in Frage
kommenden Stichprobenverteilungen.
I
Der ML-Schätzer ist der Parameter jener Verteilung, bei dem
das beobachtete Resultat am wahrscheinlichsten ist.
Christodoulides / Waldherr
Einführung in Quantitative Methoden
34/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Beispiel: Schätzen des Parameters p einer
Binomialverteilung aufgrund beobachteter Daten
I
I
Pilotstudie mit neuem Antidepressivum; bei 5 der 15
teilnehmenden PatientInnen erfolgreich. Wie kann man
aufgrund dieser Beobachtungen den Parameter p für Erfolg in
der Population schätzen?
Numerische Lösung: Einsetzen verschiedener p̂ in
5
10
L(p) = 15
5 p (1 − p)
I
L(p̂ = 0.1) = 0.01
L(p̂ = 0.2) = 0.103
L(p̂ = 0.3) = 0.206
L(p̂ = 0.4) = 0.186
L(p̂ = 0.5) = 0.092
I
Die Likelihoodfunktion hat den größten Wert bei p̂ = 0.3.
Vielleicht ist ein Wert rund um 0.3 noch besser?
Christodoulides / Waldherr
Einführung in Quantitative Methoden
35/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
I
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Analytische Lösung: Finden des Maximums der Funktion
n k
L(p) =
p (1 − p)n−k
k
durch partielles Differenzieren und Nullsetzen
Christodoulides / Waldherr
Einführung in Quantitative Methoden
36/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Da mathematisch einfacher: Logarithmieren der Likelihoodfunktion
ln L
n
ln L(p) = ln
+ k ln p + (n − k) ln(1 − p) → Max
k
∂ ln L
∂ ln p
∂ ln(1 − p)
=k
+ (n − k)
=0
∂p
∂p
∂p
k
−1
+ (n − k)
=0
p̂
1 − p̂
k(1 − p̂) = (n − k)p̂
k
=r
n
2. Ableitung ist < 0 ⇒ r ist der ML-Schätzer für den Parameter p
der Binomialverteilung. L(p̂ = 0.33) = 0.214
p̂ =
Christodoulides / Waldherr
Einführung in Quantitative Methoden
37/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
ML-Schätzer für Poisson-Verteilung
P(K = k|λ) =
λk e −λ
k!
1. Fall: ein Wert k beobachtet
ln L = k ln λ − ln k! − λ → Max
∂ ln L
k
= −1=0
∂λ
λ
λ̂ = k
Christodoulides / Waldherr
Einführung in Quantitative Methoden
38/53
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
2. Fall: n Werte k1 , . . . , kn beobachtet, ki unabhängig
L(λ) =
n
Y
P(k1 , . . . , kn |λ) =
i=1
ln L =
n
Y
λki e −λ
i=1
ki !
n
X
(ki ln λ − ln ki ! − λ) → Max
i=1
n
∂ ln L
1X
=
ki − n = 0
∂λ
λ
i=1
n
λ̂ =
1X
ki
n
i=1
Christodoulides / Waldherr
Einführung in Quantitative Methoden
39/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Eigenschaften von ML-Schätzern
Sie sind stets
I
konsistent,
I
suffizient,
I
nicht unbedingt erwartungstreu (z.B. Varianz berechnet mit
1/n)
I
ML-Schätzer sind z.B.: R, X̄
I
Nachteile: Oft existiert keine analytische Lösung. Numerische
Lösungsverfahren oft mathematisch nicht trivial
Christodoulides / Waldherr
Einführung in Quantitative Methoden
40/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Konfidenzintervalle - Allgemeines
I
Wir interessieren uns für einen unbekannten wahren Parameter
θ, der die Verteilung einer Zufallsvariable charakterisiert
I
θ wird durch eine Schätzfunktion Θ̂ aus einer
(repräsentativen) Stichprobe mit Umfang n geschätzt
I
Es wird davon ausgegangen, dass die Stichprobe in etwa die
Grundgesamtheit widerspiegelt, und dass deshalb die
Schätzung in der Nähe des wahren Parameters liegen müsste
I
Die Schätzfunktion ist selbst eine Zufallsvariable mit einer
Verteilung, die den Parameter θ enthält
Christodoulides / Waldherr
Einführung in Quantitative Methoden
41/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Konfidenzintervalle - Allgemeines
I
Bei der Schätzung von Parametern geht es nicht nur darum,
Schätzfunktionen zu finden und deren Eigenschaften
(Erwartungstreue, Konsistenz, etc.) abzuklären
I
Man möchte auch Intervalle angeben, in welchen θ mit einer
gewissen Sicherheit liegt
I
Es sei α eine vorgegebene Irrtumswahrscheinlichkeit, und a
bzw. b reelle Zahlen, mit a ≤ b. Die Schätzung des Bereiches
a ≤ θ ≤ b mit der Vertrauenswahrscheinlichkeit (1 − α)
nennen wir Konfidenzintervall des Parameters θ mit
Irrtumswahrscheinlichkeit α
I
Θ̂ Punktschätzung von θ, im Vergleich zur Intervallschätzung
Christodoulides / Waldherr
Einführung in Quantitative Methoden
42/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Konfidenzintervalle - Allgemeines
I
Wir konstruieren ein symmetrisches Konfidenzintervall auf
Grundlage einer Schätzfunktion Θ̂
I
Von besonderem Interesse ist die Breite des
Konfidenzintervalls. Diese bestimmt sich durch die
Standardabweichung von Θ̂
I
Erwünscht ist in der Regel ein möglichst schmales
Konfidenzintervall, denn dies weist auf eine genaue Schätzung
hin
Christodoulides / Waldherr
Einführung in Quantitative Methoden
43/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Überblick
I
Konfidenzintervall für den Parameter p einer B(n, p) Variable
I
Konfidenzintervall für den Erwartungswert µ einer N(µ, σ 2 )
Variable bei bekannter Varianz σ 2
I
Konfidenzintervall für den Erwartungswert µ einer N(µ, σ 2 )
Variable bei unbekannter Varianz σ 2
I
Näherungsweises Konfidenzintervall für den Erwartungswert µ
einer Variable mit unbekannter Verteilung
I
Konfidenzintervall für die Varianz σ 2 einer N(µ, σ 2 ) Variable
Christodoulides / Waldherr
Einführung in Quantitative Methoden
44/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
KI für p einer B(n, p)
I
Befragung einer Zufallsstichprobe von n Personen aus einer
unendlichen Population zu einem Thema mit
Antwortkategorien ja/nein
I
k ist die Anzahl der ’ja’ Antworten in der Stichprobe
I
r=
I
p = P (’ja’) ist der wahre (unbekannte) Anteil der
Ja-Stimmen in der Population
I
r ist ein erwartungstreuer Schätzer für p
I
K ist jene Zufallsvariable, die durch wiederholte Ziehung
unabhängiger Stichproben vom Umfang n aus der unendlichen
Population entsteht, R ist die entsprechende Zufallsvariable
der relativen Häufigkeiten
k
n
die entsprechende relative Häufigkeit
Christodoulides / Waldherr
Einführung in Quantitative Methoden
45/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
KI für p einer B(n, p)
I
I
I
I
I
K ∼ B(n, p)
Wenn np ≥ 5 und n(1 − p) ≥ 5 darf die Binomialverteilung
näherungsweise durch die N(np, np(1 − p)) ersetzt werden
K ∼a N(np, np(1 − p)) und auch
np(1−p)
R ∼a N( np
) = N(p, p(1−p)
)
n ,
n
n2
Um die Tabelle der N(0, 1) für die Bestimmung der
Endpunkte des Konfidenzintervalls anwenden zu können,
standardisieren wir R
I
Z=
R − E (R)
R −p
∼ N(0, 1)
=q
σR
p(1−p)
n
I
Sei α = 0.05
Christodoulides / Waldherr
Einführung in Quantitative Methoden
46/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
KI für p einer B(n, p)
Tabelle 1b: P(−1.96 ≤ Z ≤ 1.96) = 0.95
Christodoulides / Waldherr
Einführung in Quantitative Methoden
47/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
KI für p einer B(n, p)
I
Für 95% aller Stichproben mit Umfang n gilt
|R − p|
|Z | = q
≤ 1.96
p(1−p)
n
I
I
I
Wir ersetzen σR durch einen Schätzer σc
R
r
r
p(1 − p)
r (1 − r )
σR =
, σc
R =
n
n−1
Also gilt für 95% aller Stichproben mit Umfang n
r
r (1 − r )
|R − p| ≤ 1.96
n−1
Grundlage für ein KI mit einer Irrtumswahrscheinlichkeit
α = 0.05
Christodoulides / Waldherr
Einführung in Quantitative Methoden
48/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
KI für p einer B(n, p)
I
Die Grenzen des KI mit Irrtumswahrscheinlichkeit α = 0.05
werden wie folgt bestimmt
r
r (1 − r )
p1,2 = r ± 1.96
n−1
I
Allgemeiner für beliebige Irrtumswahrscheinlichkeit α
r
r (1 − r )
p1,2 = r ± z1− α2
n−1
I
KI ist symmetrisch um den Punkt r , symmetrisches KI
Christodoulides / Waldherr
Einführung in Quantitative Methoden
49/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
KI für p einer B(n, p)
I
I
I
I
Bei gegebenem p̂ hängt die Breite des KI von zwei Faktoren
ab: der gewünschten Sicherheit und dem Stichprobenumfang
Je höher die Sicherheit, desto kleiner die
Irrtumswahrscheinlichkeit α, desto größer wird z1− α2 , und
desto breiter das Intervall
Je größer die Stichprobe, desto kleiner wird σR und dessen
Schätzung σc
R , und desto schmäler das Intervall
Interpretation des KI: Werden immer wieder unabhängige
Stichproben vom Umfang n gezogen, und wird für jede dieser
Stichproben p̂ = r gerechnet, so liegt p̂ in (1 − α) Prozent
dieser Stichproben innerhalb des Intervalles [p1 , p2 ]. Der
Parameter p wird mit einer Vertrauenswahrscheinlichkeit von
(1 − α) vom Intervall [p1 , p2 ] überdeckt
Christodoulides / Waldherr
Einführung in Quantitative Methoden
50/53
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
KI für p einer B(n, p)
I
Beispiel: Es wurden n = 200 Personen befragt, von denen
k = 78 mit ’ja’ geantwortet haben. α = 0.05, bzw. α = 0.01
I
r = p̂ =
78
200
I
= 0.39
r
p1,2 = 0.39 ± 1.96
r
p1,2 = 0.39 ± 2.58
(0.39)(0.61)
= 0.39 ± 0.068
199
(0.39)(0.61)
= 0.39 ± 0.089
199
I
p1,2 = [0.322, 0.458]
Christodoulides / Waldherr
p1,2 = [0.301, 0.479]
Einführung in Quantitative Methoden
51/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
KI in SPSS
File: SPSS-Konfidenzintervalle.sav;
Konfidenzintervall für Anteil der Haustierbesitzer (n = 166,
α = 0.05)
Deskriptive Statistiken → Explorative Datenanalyse
Christodoulides / Waldherr
Einführung in Quantitative Methoden
52/53
Wahrscheinlichkeitsverteilungen III
Parameterschätzung
Christodoulides / Waldherr
Punktschätzung
Eigenschaften von Schätzfunktionen
Methoden zur Konstruktion von Punktschätzern
Konfidenzintervalle (KI)
Einführung in Quantitative Methoden
53/53
Herunterladen