Kapitel 2 Induktive Statistik

Kapitel 2
Induktive Statistik
2.1
Grundprinzipien der induktiven Statistik
Ziel: Inferenzschluss, Repräsentationsschluss: Schluss von einer Stichprobe auf Eigenschaften der Grundgesamtheit, aus der sie stammt.
• Von Interesse sei ein Merkmal X̃ in der Grundgesamtheit Ω̃.
• Ziehe eine Stichprobe (ω1 , . . . , ωn ) von Elementen aus Ω̃ und werte X̃ jeweils aus.
• Man erhält Werte x1 , . . . , xn . Diese sind Realisationen der i.i.d Zufallsvariablen oder
Zufallselemente X1 , . . . , Xn wobei die Wahrscheinlichkeitsverteilung der X1 , . . . , Xn
genau die Häufigkeitsverhältnisse in der Grundgesamtheit widerspiegelt.
Die Frage lautet also: wie kommt man von Realisationen x1 , . . . , xn von i.i.d. Zufallsvariablen X1 , . . . , Xn auf die Verteilung der Xi ?
• Dazu nimmt man häufig an, man kenne den Grundtyp der Verteilung der X1 , . . . , Xn .
Unbekannt seien nur einzelne Parameter davon.
Beispiel: Xi sei normalverteilt, unbekannt seien nur µ, σ 2 .
=⇒ parametrische Verteilungsannahme (meist im Folgenden)
• Alternativ: Verteilungstyp nicht oder nur schwach festgelegt (z.B. symmetrische
Verteilung)
=⇒ nichtparametrische Modelle
• Klarerweise gilt im Allgemeinen (generelles Problem bei der Modellierung): Parametrische Modelle liefern schärfere Aussagen – wenn ihre Annahmen zutreffen. Wenn
ihre Annahmen nicht zutreffen, dann existiert die große Gefahr von Fehlschlüssen.
Wichtige Fragestellungen der induktiven Statistik: Treffe mittels der Auswertung einer
• Zufallsstichprobe
• möglichst gute ? ? ?
• Aussagen ??
63
64
2.2. Punkschätzung
• über bestimmte Charakteristika ?
• der Grundgesamtheit.
? Welche Charakteristika sind für die Fragestellung relevant? Natürlich werden für die
Inferenz bezüglich des Erwartungswerts andere Methoden als für Schlüsse über die
Varianz benötigt.
?? verschiedene Formen:
– Punktschätzung: z.B. wahrer Anteil 0.4751
– Intervallschätzung: z.B. wahrer Anteil liegt zwischen 0.46 und 0.48
– Hpothesentest: der Anteil liegt höchstens bei 50%
? ? ? Was heißt gut?
– Festlegung von Gütekriterien “(Genauigkeit? Wahrscheinlichkeit eines Fehlers
”
gering?)
– Wie konstruiert man ein gutes/optimales Verfahren?
2.2
Punkschätzung
Ziel: Finde einen möglichst guten Schätzwert für eine bestimmte Kenngröße ϑ (Parameter) der Grundgesamtheit, z.B. den wahren Anteil der rot/grün-Wähler, den wahren
Mittelwert, die wahre Varianz, aber auch z.B. das wahre Maximum (Windgeschwindigkeit).
2.2.1
Schätzfunktionen
Gegeben sei die in Kapitel 2.1 beschriebene Situation: X1 , . . . , Xn i.i.d. Stichprobe eines
Merkmales X̃.
Definition: Sei X1 , . . . , Xn i.i.d. Stichprobe. Eine Funktion
T = g(X1 , . . . , Xn )
heißt Schätzer oder Schätzfunktion.
Beachte nochmals: Vor Ziehung der Stichprobe sind die Werte von T zufällig, deshalb
werden Schätzfunktionen mit Großbuchstaben bezeichnet wie Zufallsvariablen
Typische Beispiele für Schätzfunktionen:
1. Arithmetisches Mittel der Stichprobe:
n
1X
X̄ = g(X1 , . . . , Xn ) =
Xi
n i=1
Für binäre, dummy-kodierte Xi ist X̄ auch die relative Häufigkeit des Auftretens
von Xi = 1“ in der Stichprobe
”
Kapitel 2. Induktive Statistik
65
2. Stichprobenvarianz:
n
S̃ 2 = g(X1 , . . . , Xn ) =
1X
(Xi − X̄)2
n i=1
3. Korrigierte Stichprobenvarianz:
n
1 X
1
S 2 = g(X1 , . . . , Xn ) =
(Xi − X̄)2 =
n − 1 i=1
n−1
Ã n
X
i=1
Xi2 − n · X̄ 2
!
4. Größter Stichprobenwert:
X(n) = g(X1 , . . . , Xn ) = max Xi
i=1,...,n
5. Kleinster Stichprobenwert:
X(1) = g(X1 , . . . , Xn )) = min Xi
i=1,...,n
Schätzfunktion und Schätzwert: Da X1 , . . . , Xn zufällig sind, ist auch die Schätzfunktion
T = g(X1 , . . . , Xn ) zufällig. Zieht man mehrere Stichproben, so erhält man jeweils andere
Realisationen von X1 , . . . , Xn , und damit auch von T .
Die Realisation t (konkreter Wert) der Zufallsvariable T (Variable) heißt Schätzwert.
X1 , . . . Xn Zufallsvariable T = g(X1 , . . . , Xn )
↓
↓
↓
↓
x1 , . . . xn Realisationen
t = g(x1 , . . . , xn )
Man hat in der Praxis meist nur eine konkrete Stichprobe und damit auch nur einen
konkreten Wert t von T . Zur Beurteilung der mathematischen Eigenschaften werden aber
alle denkbaren Stichproben und die zugehörigen Realisationen der Schätzfunktion T herangezogen.
D.h. beurteilt wird nicht der einzelne Schätzwert als solcher, sondern die Schätzfunktion,
als Methode, d.h. als Regel zur Berechnung des Schätzwerts aus der Stichprobe.
Andere Notation in der Literatur: ϑ̂ Schätzer für ϑ.
Dabei wird nicht mehr direkt unterschieden zwischen Zufallsvariable (bei uns Großbuchstaben) und Realisation (bei uns klein). =⇒ Schreibe ϑ̂(X1 , . . . , Xn ) bzw. ϑ̂(x1 , . . . , xn )
wenn die Unterscheidung benötigt wird.
Beispiel: Durchschnittliche Anzahl der Statistikbücher in einer Grundgesamtheit von Studenten schätzen.
66
2.2. Punkschätzung
• Grundgesamtheit: Drei Personen Ω̃ = {ω˜1 , ω˜2 , ω˜3 }.
• Merkmal X̃: Anzahl der Statistikbücher
X̃(ω̃1 ) = 3 X̃(ω̃2 ) = 1 X̃(ω̃3 ) = 2.
Wahrer Durchschnittswert: µ = 2.
• Stichprobe X1 , X2 ohne Zurücklegen (Stichprobenumfangn = 2):
X1 = X̃(ω1 )
X2 = X̃(ω2 )
wobei
ω1 erste gezogene Person, ω2 zweite gezogene Person.
Betrachte folgende möglichen Schätzer:
T1 = g1 (X1 , X2 ) = X̄ =
X1 + X2
2
T2 = X1
T3 = g(X1 , X2 ) =
1
max(X1 , X2 )
X(2) =
2
2
Zur Beurteilung: Alle möglichen Stichproben (vom Umfang n = 2, ohne Zurücklegen)
betrachten:
Nummer
der Stichprobe
1
2
3
4
5
6
2.2.2
Personen
ω˜1 ,
ω˜1 ,
ω˜2 ,
ω˜2 ,
ω˜3 ,
ω˜3 ,
ω˜2
ω˜3
ω˜1
ω˜3
ω˜1
ω˜2
Realisationen von
X1 X2 T1 T2 T3
3
3
1
2
3
2
3
3
2
2.5 3
2
3
1
3
2
1
2
1
2
1.5 1
1
3
2
3
2.5 2
2
2
1
1.5 2
1
Gütekriterien
Beurteile die Schätzfunktionen, also das Verfahren an sich, nicht den einzelnen Schätzwert. Besonders bei komplexeren Schätzproblemen sind klar festgelegten Güteeigenschaften wichtig.
Natürlich ist auch festzulegen, was geschätzt werden soll. Im Folgenden sei der Parameter
ϑ stets eine eindimensionale Kenngröße der Grundgesamtheit (z.B. Mittelwert, Varianz,
Maximum)
Da T zufällig ist, kann man nicht erwarten, dass man immer den richtigen Wert trifft,
aber den Erwartungswert von T berechnen:
Erstes Kriterium: keine systematische Unter- oder Überschätzung, d.h.
Erwartungswert des Schätzers = wahrer Wert
Kapitel 2. Induktive Statistik
67
Erwartungstreue, Bias: Gegeben sei eine Stichprobe X1 , . . . , Xn und eine Schätzfunktion
T = g(X1 , . . . , Xn ) (mit existierendem Erwartungswert).
• T heißt erwartungstreu für den Parameter ϑ, falls gilt
Eϑ (T ) = ϑ
für alle ϑ.
• Die Größe
Biasϑ (T ) = Eϑ (T ) − ϑ
heißt Bias (oder Verzerrung) der Schätzfunktion. Erwartungstreue Schätzfunktionen
haben per Definition einen Bias von 0.
Man schreibt Eϑ (T ) und Biasϑ (T ), um deutlich zu machen, dass die Größen von dem
wahren ϑ abhängen.
Anschauliche Interpretation: Erwartungstreue bedeutet, dass man im Mittel (bei wiederholter Durchführung des Experiments) den wahren Wert trifft.
Fortsetzung des Beispiels: Stichprobenziehung gemäß reiner Zufallsauswahl, d.h. jede
Stichprobe hat dieselbe Wahrscheinlichkeit gezogen zu werden (hier 16 ).
Es gilt: (bei ϑ = µ = 2)
1
12
Eµ (T1 ) = (2 + 2.5 + 2 + 1.5 + 2.5 + 1.5) =
=2
6
6
In der Tat gilt allgemein: Das arithmetische Mittel ist erwartungstreu für den Erwartungswert.
1
Eµ (T2 ) = (3 + 3 + 1 + 1 + 2 + 2) = 2
6
Wieder gilt allgemein: Einzelne Stichprobenvariablen ergeben erwartungstreue Schätzer
für den Erwartungswert.
3
4
1
Eµ (T3 ) = (4 · + 2 · 1) = 6= 2
6
2
3
T3 ist nicht erwartungstreu.
4 6
2
Biasµ (T3 ) = Eµ (T3 ) − 2 = − = −
3 3
3
Bias und Erwartungstreue bei einigen typischen Schätzfunktionen
P
• Das arithmetische Mittel X̄ = n1 ni=1 Xi ist erwartungstreu für den Mittelwert µ
einer Grundgesamtheit: Aus X1 , . . . , Xn i.i.d. und Eµ (X1 ) = Eµ (X2 ) = . . . = µ folgt:
Ã n
!
Ã n
!
X
1X
1
E(X̄) = Eµ
Xi = Eµ
Xi
n i=1
n
i=1
n
1X
=
E(Xi )
n i=1
n
1X
1
=
µ= ·n·µ=µ
n i=1
n
68
2.2. Punkschätzung
• Sei σ 2 die Varianz in der Grundgesamtheit. Es gilt
Eσ2 (S̃ 2 ) =
n−1 2
σ ,
n
also ist S̃ 2 nicht erwartungstreu für σ 2 .
Biasσ2 (S̃ 2 ) =
n−1 2
1
σ − σ2 = − σ2
n
n
• Für die korrigierte Stichprobenvarianz gilt dagegen:
Ã
!
n
X
1
Eσ2 (S 2 ) = Eσ2
(Xi − X̄)2
n − 1 i=1
Ã
!
n
nX
1
= Eσ 2
·
(Xi − X̄)2
n − 1 n i=1
µ
¶
n
n
n−1 2
2
S =
·
σ = σ2
= Eσ 2
n−1
n−1
n
Also ist S 2 erwartungstreu für σ 2 . Diese Eigenschaft ist auch die Motivation für die
Korrektur der Stichprobenvarianz.
• Vorsicht: Im Allgemeinen gilt für beliebige, nichtlineare Funktionen g
E g(X) 6= g(E(X)).
√
Man kann also nicht einfach √
z.B. · und E vertauschen. In der√Tat gilt: S 2 ist zwar
erwartungstreu für σ 2 , aber S 2 ist nicht erwartungstreu für σ 2 = σ.
Beispiel Wahlumfrage: Gegeben sei eine Stichprobe der wahlberechtigten Bundesbürger.
Geben Sie einen erwartungstreuen Schätzer des Anteils der rot-grün Wähler an.
Grundgesamtheit: Dichotomes Merkmal
(
1 rot/grün: ja
X̃ =
0 rot/grün: nein
Der Mittelwert π von X̃ ist der Anteil der rot/grün-Wähler in der Grundgesamtheit.
Stichprobe X1 , . . . , Xn vom Umfang n:
(
1 i-te Person wählt rot/grün
Xi =
0 sonst
Aus den Überlegungen zum arithmetischen Mittel folgt, dass
n
1X
X̄ =
Xi
n i=1
ein erwartungstreuer Schätzer für den hier betrachteten Parameter π ist.
Kapitel 2. Induktive Statistik
69
Also verwendet man die relative Häufigkeit in der Stichprobe, um den wahren Anteil π in
der Grundgesamtheit zu schätzen.
Bedeutung der Erwartungstreue: Erwartungstreue ist ein schwaches Kriterium!
Betrachte die offensichtlich unsinnige Schätzfunktion
T2 = g2 (X1 , . . . , Xn ) = X1 ,
d.h. T2 = 100%, falls der erste Befragte rot-grün wählt und T2 = 0% sonst.
Die Schätzfunktion ignoriert fast alle Daten, ist aber erwartungtreu:
E(T2 ) = E(X1 ) = µ
Deshalb betrachtet man zusätzlich die Effizienz eines Schätzers, s.u.
Asymptotische Erwartungstreue
• Eine Schätzfunktion heißt asymptotisch erwartungstreu, falls
lim E(θ̂) = θ.
n→∞
bzw.
lim Bias(θ̂) = 0.
n→∞
gelten.
• Abschwächung des Begriffs der Erwartungstreue: Gilt nur noch bei einer unendlich
großen Stichprobe.
• Erwartungstreue Schätzer sind auch asmptotisch erwartungstreu.
• Sowohl S 2 als auch S̃ 2 sind asymptotisch erwartungstreu.
2.2.3
Effizienz
Beispiel Wahlumfrage: Gegeben sind die drei erwartungstreuen Schätzer (n sei gerade):
T1
T2
n
1 X
=
Xi
n i=1
n/2
1 X
=
Xi
n/2 i=1
Was unterscheidet T1 von dem unsinnigen Schätzer T2 , der die in der Stichprobe enthaltene
Information nicht vollständig ausnutzt?
Vergleiche die Schätzer über ihre Varianz, nicht nur über den Erwartungswert!
70
2.2. Punkschätzung
Wenn n so groß ist, dass der zentrale Grenzwertsatz angewendet werden kann, dann gilt
approximativ
Pn
Pn
Pn
1
Xi − π
1
i=1 (Xi − π)
n
i=1 Xi − n · π
√ p
qi=1
= p
=
∼ N (0; 1)
n
π(1−π)
π(1 − π)
π(1 − π)
n
und damit
n
Analog kann man zeigen:
1X
Xi ∼ N
T1 =
n i=1
n/2
µ
1 X
Xi ∼ N
T2 =
n/2 i=1
π(1 − π)
π;
n
¶
.
µ
¶
π(1 − π)
π,
.
n/2
T1 und T2 sind approximativ normalverteilt, wobei T1 eine deutlich kleinere Varianz als
T2 hat.
T1 und T2 treffen beide im Durchschnitt den richtigen Wert π. T1 schwankt aber weniger
um das wahre π, ist also im Durchschnitt genauer“.
”
Andere Interpretation:
Dichte von T1
¡
¡
ª
Dichte von T2
¡
¡
ª
π− π
π+
Für jeden Punkt π+ > π ist damit P (T1 > π+ ) < P (T2 > π+ )
und für jeden Punkt π− < π ist P (T1 < π− ) < P (T2 < π− ).
Es ist also die Wahrscheinlichkeit, mindstens um π+ − π bzw. π − π− daneben zu liegen,
bei T2 stets größer als bei T1 . Ein konkreter Wert ist damit verlässlicher, wenn er von T1 ,
als wenn er von T2 stammt.
Diese Überlegung gilt ganz allgemein: Ein erwartungstreuer Schätzer ist umso besser, je
kleiner seine Varianz ist.
Var(T ) = Erwartete quadratische Abweichung von T von E(T )
| {z }
=ϑ !
Je kleiner die Varianz, umso mehr konzentriert sich die Verteilung eines erwartungstreuen
Schätzers um den wahren Wert. Dies ist umso wichtiger, da der Schätzer den wahren Wert
i.A. nur selten exakt trifft.
Kapitel 2. Induktive Statistik
71
Effizienz:
• Gegeben seien zwei erwartungstreue Schätzfunktionen T1 und T2 für einen Parameter
ϑ. Gilt
Varϑ (T1 ) ≤ Varϑ (T2 ) für alle ϑ
und
Varϑ∗ (T1 ) < Varϑ∗ (T2 ) für mindestens ein ϑ∗
so heißt T1 effizienter als T2 .
• Eine für ϑ erwartungstreue Schätzfunktion T heißt UMVU-Schätzfunktion für ϑ
(uniformly minimum v ariance unbiased), falls
Varϑ (T ) ≤ Varϑ (T ∗ )
für alle ϑ und für alle erwartungstreuen Schätzfunktionen T ∗ .
Bemerkungen:
• Inhaltliche Bemerkung: Der (tiefere) Sinn von Optimalitätskriterien wird klassischerweise insbesondere auch in der Gewährleistung von Objektivität gesehen. Ohne
wissenschaftlichen Konsens darüber, welcher Schätzer in welcher Situation zu wählen
ist, wäre die Auswertung einer Stichprobe willkürlich und der Manipulation Tür und
Tor geöffnet.
• Ist X1 , . . . , Xn eine i.i.d. Stichprobe mit Xi ∼ N (µ, σ 2 ), dann ist
– X̄ UMVU-Schätzfunktion für µ und
– S 2 UMVU-Schätzfunktion für σ 2 .
• Ist X1 , . . . , Xn mit Xi ∈ {0, 1} eine i.i.d. Stichprobe mit π = P (Xi = 1), dann ist
die relative Häufigkeit X̄ UMVU-Schätzfunktion für π.
• Bei nicht erwartungstreuen Schätzern macht es keinen Sinn, sich ausschließlich auf
die Varianz zu konzentrieren.
Z.B. hat der unsinnige Schätzer T = g(X1 , . . . , Xn ) = 42, der die Stichprobe nicht
beachtet, Varianz 0.
Man zieht dann den sogenannten Mean Squared Error
MSEϑ (T ) := Eϑ (T − ϑ)2
zur Beurteilung heran. Es gilt
MSEϑ (T ) = Varϑ (T ) + (Biasϑ (T ))2 .
Der MSE kann als Kompromiss zwischen zwei Auffassungen von Präzision gesehen
werden: möglichst geringe systematische Verzerrung (Bias) und möglichst geringe
Schwankung (Varianz).
72
2.2. Punkschätzung
Konsistenz
• Ein Schätzer heißt MSE-konsistent, wenn gilt
lim (MSE(T )) = 0.
n→∞
Beispiel: Der MSE von X̄ ist gegeben durch
MSE(X̄) = Var(X̄) + Bias2 (X̄)
σ2
=
+0
n
σ2
=
→ 0.
n
X̄ ist also eine MSE-konsistente Schätzung für den Erwartungswert.
• Ein Schätzer heißt konsistent, wenn gilt
lim (Var(T )) = 0.
n→∞
X̄ ist also auch konsistent.
2.2.4
Konstruktionsprinzipien guter Schätzer
Die Methode der kleinsten Quadrate
=⇒ Regressionsanalyse
Das Maximum-Likelihood-Prinzip
Aufgabe: Schätze den Parameter ϑ eines parametrischen Modells anhand einer i.i.d. Stichprobe X1 , . . . , Xn mit der konkreten Realisation x1 , . . . , xn .
Idee der Maximium-Likelihood (ML) Schätzung für diskrete Verteilungen:
• Man kann für jedes ϑ die Wahrscheinlichkeit ausrechnen, genau die Stichprobe
x1 , . . . , xn zu erhalten:
Pϑ (X1 = x1 , X2 = x2 , . . . , Xn = xn ) =
n
Y
Pϑ (Xi = xi )
i=1
• Je größer für ein gegebenes ϑ0 diese Wahrscheinlichkeit ist, umso plausibler ist es,
dass tatsächlich ϑ0 der wahre Wert ist (gute Übereinstimmung zwischen Modell und
Daten).
Beispiel: I.i.d. Stichprobe vom Umfang n = 5 aus einer B(10, π)-Verteilung:
6 5 3 4 4
Kapitel 2. Induktive Statistik
73
Wahrscheinlichkeit der Stichprobe für gegebenes π:
P (X1 = 6, . . . , X5 = 4|π) = P (X1 = 6|π) · . . . · P (X5 = 4|π)
µ ¶
µ ¶
10 6
10 4
4
=
π (1 − π) · . . . ·
π (1 − π)6 .
6
4
Wahrscheinlichkeit für einige Werte von π:
π
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
P (X1 = 6, . . . , X5 = 4|π)
0.0000000000001
0.0000000227200
0.0000040425220
0.0003025481000
0.0002487367000
0.0000026561150
0.0000000250490
0.0000000000055
0.0000000000000
Man nennt daher L(ϑ) = Pϑ (X1 = x1 , . . . , Xn = xn ), nun als Funktion von ϑ
gesehen, die Likelihood (deutsch: Plausibilität, Mutmaßlichkeit) von ϑ gegeben die
Realisation x1 , . . . , xn .
• Derjenige Wert ϑ̂ = ϑ̂(x1 , . . . , xn ), der L(ϑ) maximiert, heißt Maximum-LikelihoodSchätzwert; die zugehörige Schätzfunktion T (X1 , . . . , Xn ) Maximum-Likelihood-Schätzer.
Bemerkungen:
• Für stetige Verteilungen gilt
Pϑ (X1 = x1 , X2 = x2 , . . . , Xn = xn ) = 0
für beliebige Werte ϑ. In diesem Fall verwendet man die Dichte
fϑ (x1 , . . . , xn ) =
n
Y
fϑ (xi )
i=1
als Maß für die Plausibilität von ϑ.
• Für die praktische Berechnung maximiert man statt der Likelihood typischerweise
die Log-Likelihood
l(ϑ) = ln(L(ϑ)) = ln
n
Y
Pϑ (Xi = xi ) =
i=1
bzw.
l(ϑ) = ln
n
Y
i=1
n
X
ln Pϑ (Xi = xi )
i=1
fϑ (xi ) =
n
X
ln fϑ (xi ).
i=1
Dies liefert denselben Schätzwert ϑ̂ und erspart beim Differenzieren die Anwendung
der Produktregel.
74
2.2. Punkschätzung
Der Logarithmus ist streng monoton wachsend. Allgemein gilt für streng monoton
wachsende Funktionen g: x0 Stelle des Maximums von L(x) ⇐⇒ x0 auch Stelle des
Maximums von g(L(x)).
Definition: Gegeben sei die Realisation x1 , . . . , xn einer i.i.d. Stichprobe. Die Funktion in
ϑ
Y
n



 Pϑ (Xi = xi ) falls Xi diskret
i=1
L(ϑ) = Y
n



falls Xi stetig.
 fϑ (xi )
i=1
heißt Likelihood des Parameters ϑ bei der Beobachtung x1 , . . . , xn .
Derjenige Wert ϑ̂ = ϑ̂(x1 , . . . , xn ), der L(ϑ) maximiert, heißt Maximum-Likelihood-Schätzwert; die zugehörige Schätzfunktion T (X1 , . . . , Xn ) Maximum-Likelihood-Schätzer.
Beispiel: Wahlumfrage
Xi =
(
1 falls Rot/Grün
0 sonst
Verteilung der Xi : Binomialverteilung
P (Xi = 1) = π
P (Xi = 0) = 1 − π
P (Xi = xi ) = π xi · (1 − π)1−xi ,
xi ∈ {0; 1}.
Likelihood:
L(π) = P (X1 = x1 , . . . , Xn = xn )
n
Y
=
π xi (1 − π)1−xi
i=1
Pn
= π
i=1
xi
· (1 − π)n−
Pn
i=1
xi
Logarithmierte Likelihood:
l(ϑ) = ln(P (X1 = x1 , . . . , Xn = xn )) =
n
X
xi · ln(π) + (n −
i=1
Ableiten (nach ϑ):
∂
l(π) =
∂π
Nullsetzen und nach π Auflösen:
∂
l(π) = 0 ⇔
∂π
n
X
xi
i=1
π
n
X
+
n−
π
⇔ (1 − π)
i=1
=
n−
n
X
i=1
i=1
xi
1−π
xi
i=1
n
X
n
X
n
X
· (−1)
xi
i=1
1−π
xi = n · π − π
n
X
i=1
xi
xi ) · ln(1 − π)
Kapitel 2. Induktive Statistik
75
⇔
n
X
i=1
also
π̂ =
xi = n · π
Pn
i=1
xi
n
ML-Schätzung bei Normalverteilung
1. Schritt: Bestimme die Likelihoodfunktion
µ
¶
1
2
L(µ, σ ) =
− 2 (xi − µ)
√
1 exp
2σ
2π(σ 2 ) 2
i=1
Ã
!
n
1
1 X
(xi − µ)2
=
− 2
n
n exp
2σ i=1
2π 2 (σ 2 ) 2
n
Y
2
1
2. Schritt: Bestimme die Log-Likelihoodfunktion
l(µ, σ 2 ) = ln(L(µ, σ 2 ))
n
n
n
1 X
2
= ln(1) − ln(2π) − ln(σ ) − 2
(xi − µ)2
2
2
2σ i=1
3. Schritt: Ableiten und Nullsetzen der Loglikelihoodfunktion
n
X
∂l(µ, σ 2 )
1
=
2
·
(xi − µ) = 0
∂µ
2σ 2
i=1
n
∂l(µ, σ 2 )
n 1
1 X
=
−
+
(xi − µ)2 = 0
∂σ 2
2 σ 2 2(σ 2 )2 i=1
4. Schritt: Auflösen der beiden Gleichungen nach µ und σ 2
Aus der ersten Gleichung erhalten wir
n
X
i=1
xi − nµ = 0
also
µ̂ = x̄.
Aus der zweiten Gleichung erhalten wir durch Einsetzen von µ̂ = x̄
n
X
i=1
also
(xi − x̄)2 = nσ 2
n
1X
σ̂ =
(xi − x̄)2
n i=1
2
76
2.3. Intervallschätzung
Fazit:
• Der ML-Schätzer µ̂ = X̄ für µ stimmt mit dem üblichen Schätzer für den Erwartungswert überein.
• Der ML-Schätzer σ̂ 2 = S̃ 2 für σ 2 ist verzerrt, d.h. nicht erwartungstreu.
Einige allgemeine Eigenschaften von ML-Schätzern
• ML-Schätzer θ̂ sind im Allgemeinen nicht erwartungstreu.
• ML-Schätzer θ̂ sind asymptotisch erwartungstreu.
• ML-Schätzer θ̂ sind konsistent.
2.3
2.3.1
Intervallschätzung
Motivation und Hinführung
Beispiel Wahlumfrage: Der wahre Anteil der rot-grün Wähler 2002 war genau 47.1%.
Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau
einen relativen Anteil von 47.1% von rot-grün Anhängern erhalten zu haben?
Xi =
(
1, rot/grün
0, sonst
P (Xi = 1) = π = 0.471
n
X
X =
Xi ∼ B(n, π) mit n = 1000
i=1
µ ¶
n
P (X = 471) =
· π x · (1 − π)n−x
x
µ
¶
1000
=
· 0.471471 · (1 − 0.471)529
471
= 0.02567
D.h., mit Wahrscheinlichkeit von etwa 97.4%, verfehlt der Schätzer den wahren Wert.
Hat man ein stetiges Merkmal, so ist sogar P (X̄ = a) = 0 für jedes a, d.h. der wahre
Wert wird mit Wahrscheinlichkeit 1 verfehlt.
Konsequenzen:
• Insbesondere Vorsicht bei der Interpretation knapper Ergebnisse“ (z.B. Anteil
”
50.2%)
Kapitel 2. Induktive Statistik
77
• Suche Schätzer mit möglichst kleiner Varianz, um im Durchschnitt möglichst nahe
”
dran zu sein“
• Es ist häufig auch gar nicht nötig, sich genau auf einen Wert festzulegen. Oft reicht
die Angabe eines Intervalls, von dem man hofft, dass es den wahren Wert überdeckt:
Intervallschätzung
Symmetrische Intervallschätzung basierend auf einer Schätzfunktion T = g(X1 , . . . , Xn ):
I(T ) = [T − a, T + a]
Trade off“ bei der Wahl von a:
”
Je größer man a wählt, also je breiter man das Intervall I(T ) macht, umso größer ist die
Wahrscheinlichkeit, dass I(T ) den wahren Wert überdeckt, aber umso weniger aussagekräftig ist dann die Schätzung.
Extremfall im Wahlbeispiel: I(T ) = [0, 1] überdeckt sicher π, macht aber eine wertlose
Aussage
⇒ Wie soll man a wählen?
Typisches Vorgehen:
• Man gebe sich einen Sicherheitsgrad (Konfidenzniveau) γ vor.
• Dann konstruiert man das Intervall so, dass es mindestens mit der Wahrscheinlichkeit γ den wahren Parameter überdeckt.
2.3.2
Definition von Konfidenzintervallen:
Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn zur Schätzung eines Parameters ϑ und eine Zahl γ ∈ (0; 1). Ein zufälliges Intervall C(X1 , . . . , Xn ) heißt Konfidenzintervall zum
Sicherheitsgrad γ (Konfidenzniveau γ), falls für jedes ϑ gilt:
Pϑ (ϑ ∈
Bemerkungen:
C(X1 , . . . , Xn ) ) ≥ γ.
{z
}
|
zufälliges Intervall
• Die Wahrscheinlichkeitsaussage bezieht sich auf das Ereignis, dass das zufällige Intervall den festen, wahren Parameter überdeckt. Streng genommen darf man im
objektivistischen Verständnis von Wahrscheinlichkeit nicht von der Wahrscheinlichkeit sprechen, dass ϑ in dem Intervall liegt“, da ϑ nicht zufällig ist und somit keine
”
Wahrscheinlichkeitsverteilung besitzt.
• Typischerweise konstruiert man Konfidenzintervalle symmetrisch um einen Schätzer
T . Es sind aber auch manchmal z.B. einseitige Konfidenzintervalle, etwa der Form
[X̄, X̄ + b],
sinnvoll (beispielsweise bei sozial unerwünschten Ereignissen).
78
2.3. Intervallschätzung
2.3.3
Konstruktion von Konfidenzintervallen
Für die Konstruktion praktische Vorgehensweise: Suche Zufallsvariable Z, die
• den gesuchten Parameter ϑ enthält und
• deren Verteilung aber nicht mehr von dem Parameter abhängt, ( Pivotgröße“, dt.
”
Angelpunkt).
• Dann wähle den Bereich CZ so, dass Pϑ (Z ∈ CZ ) = γ und
• löse nach ϑ auf.
Konfidenzintervall für den Mittelwert eines normalverteilten Merkmals bei bekannter
Varianz:
X1 , . . . , Xn i.i.d. Stichprobe gemäß Xi ∼ N (µ, σ 2 ), wobei σ 2 bekannt sei.
Starte mit der Verteilung von X̄:
X̄ ∼ N (µ, σ 2 /n).
Dann erfüllt
X̄ − µ √
· n ∼ N (0; 1)
σ
die obigen Bedingungen an eine Pivotgröße.
Z=
Bestimme jetzt einen Bereich [−z, z], wobei z so gewählt sei, dass
P (Z ∈ [−z; z]) = γ
1−γ
2
1−γ
2
γ
@
¡
¡
ª
¡
@
@
R
-z
0
z
⇔
P (Z ≥ z) =
Bestimmung von z:
P (Z ∈ [−z; z]) = γ
1−γ
2
beziehungsweise
2−1+γ
1+γ
1−γ
=
=
.
2
2
2
Der entsprechende Wert lässt sich aus der Tabelle der Standardnormalverteilung ablesen.
P (Z ≤ z) = 1 −
Typische Beispiele:
Kapitel 2. Induktive Statistik
79
1+γ
2
1+γ
2
1+γ
2
γ = 90%
γ = 95%
γ = 99%
1+γ
-Quantil
2
Die Größe z heißt das
= 95%
= 97.5%
= 99.5%
z = 1.65
z = 1.96
z = 2.58
und wird mit z 1+γ bezeichnet.
2
Damit gilt also
³
P −z 1+γ ≤ Z ≤ z 1+γ
2
2
´
µ
¶
X̄ − µ
= P −z 1+γ ≤
≤ z 1+γ = γ
2
2
σ
Jetzt nach µ auflösen:
µ z 1+γ · σ
z 1+γ · σ ¶
2
2
γ = P − √
≤ X̄ − µ ≤ √
n
n
µ
z 1+γ · σ
z 1+γ · σ ¶
2
2
= P −X̄ − √
≤ −µ ≤ −X̄ + √
n
n
µ
z 1+γ · σ
z 1+γ · σ ¶
2
2
= P X̄ − √
≤ µ ≤ X̄ + √
n
n
Damit ergibt sich das Konfidenzintervall
·
z 1+γ · σ ¸
z 1+γ · σ ¸ ·
z 1+γ · σ
2
2
2
, X̄ + √
= X̄ ± √
X̄ − √
n
n
n
Bemerkungen:
• Je größer σ, desto größer das Intervall!
(Größeres σ ⇒ Grundgesamtheit bezüglich des betrachteten Merkmals heterogener,
also größere Streuung von X̄ ⇒ ungenauere Aussagen.)
• Je größer γ, desto größer z 1+γ
2
(Je mehr Sicherheit/Vorsicht desto breiter das Intervall)
√
• Je größer n und damit n, desto schmaler ist das Intervall
(Je größer der Stichprobenumfang ist, desto genauer!)
Kann man zur Stichprobenplanung verwenden!
Konfidenzintervall für den Mittelwert eines normalverteilten Merkmals bei unbekannter Varianz: Neben dem Erwartungswert ist auch σ 2 unbekannt und muss entsprechend durch den UMVU-Schätzer
n
1 X
S =
(Xi − X̄)2 ,
n − 1 i=1
2
(mit S =
√
S 2 ) geschätzt werden. Allerdings ist
Z=
X̄ − µ √
· n
S
80
2.3. Intervallschätzung
jetzt nicht mehr normalverteilt, denn S ist zufällig.
Wir führen deshalb ein neues Verteilungsmodell ein.
t-Verteilung: Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn mit Xi ∼ N (µ, σ 2 ). Dann
heißt die Verteilung von
X̄ − µ √
Z=
· n
S
t-Verteilung (oder Student-Verteilung) mit ν = n − 1 Freiheitsgraden. In Zeichen: Z ∼
t(ν).
Informelle Erklärung zum Begriff Freiheitsgrade: Bei Kenntnis von x̄ nur n − 1 frei variierbare Daten.
Wichtige Werte der t-Verteilung sind tabelliert. Angegeben sind, für verschiedene δ, die
Lösung tδ der Gleichung
(ν)
P (Z ≤ tδ ) = δ,
(ν)
wobei tδ von der Anzahl ν der Freiheitsgrade abhängt. tδ ist das δ-Quantil der entsprechenden t-Verteilung (analog zu zδ als Quantil der Standardnormalverteilung).
Die Dichte einer t-Verteilung ist der Dichte der Standardnormalverteilung sehr ähnlich: Sie
ist auch symmetrisch um 0, besitzt aber etwas höhere Dichte für extreme Werte (schwerere
Enden).
f(x)
0.4
0.3
0.2
0.1
0.0
x
-4
-2
0
2
4
Dichten von t-Verteilungen für ν = 1 (—), = 2 (· · · ), = 5 (- - -) und = 20 (−−) Freiheitsgrade.
Unsicherheit durch zusätzliche Schätzung von σ lässt Daten stärker schwanken.
Je größer ν ist, umso ähnlicher sind sich die t(ν)-Verteilung und die Standardnormalverteilung. Für ν → ∞ sind sie gleich, ab ν = 30 gilt der Unterschied als vernachlässigbar.
Je größer
n, desto√geringer ist der Unterschied zwischen S 2 und σ 2 und damit zwischen
X̄−µ √
n und X̄−µ
n.
S
σ
Konfidenzintervall zum Konfidenzniveau γ:
Kapitel 2. Induktive Statistik
Ausgehend von
P
µ
81
¶
X̄ − µ
−t 1+γ (n − 1) ≤
≤ t 1+γ (n − 1) = γ
2
2
S
wie im Beispiel mit bekannter Varianz nach µ auflösen (mit S statt σ)
P
Ã
t 1+γ (n − 1) · S
t 1+γ (n − 1) · S
X̄ − 2 √
≤ µ ≤ X̄ + 2 √
n
n
!
=γ
Damit ergibt sich das Konfidenzintervall
"
t 1+γ (n − 1) · S
X̄ ± 2 √
n
#
Bemerkungen:
• Es gelten analoge Aussagen zum Stichprobenumfang und Konfidenzniveau wie bei
bekannter Varianz.
• Für jedes γ (und jedes ν) gilt
t 1+γ > z 1+γ
2
2
also ist das t-Verteilungs-Konfidenzintervall (etwas) breiter.
Da σ 2 unbekannt ist, muss es geschätzt werden. Dies führt zu etwas größerer Ungenauigkeit.
• Je größer ν, umso kleiner ist der Unterschied. Für n ≥ 30 rechnet man einfach auch
bei der t-Verteilung mit z 1+γ .
2
Beispiel: Eine Maschine füllt Gummibärchen in Tüten ab, die laut Aufdruck 250g Füllgewicht versprechen. Wir nehmen im folgenden an, dass das Füllgewicht normalverteilt ist.
Bei 16 zufällig aus der Produktion herausgegriffenen Tüten wird ein mittleres Füllgewicht
von 245g und eine Stichprobenstreuung (Standardabweichung) von 10g festgestellt.
a) Berechnen Sie ein Konfidenzintervall für das mittlere Füllgewicht zum Sicherheitsniveau von 95%.
b) Wenn Ihnen zusätzlich bekannt würde, dass die Stichprobenstreuung gleich der tatsächlichen Streuung ist, wäre dann das unter a) zu berechnende Konfidenzintervall für das
mittlere Füllgewicht breiter oder schmäler? Begründen Sie ihre Antwort ohne Rechnung.
• Füllgewicht normalverteilt.
• 16 Tüten gezogen ⇒ n = 16.
• Mittleres Füllgewicht in der Stichprobe: x̄ = 245g.
• Stichprobenstreuung: s = 10g.
82
2.3. Intervallschätzung
zu a) Konstruktion des Konfidenzintervalls: Da die Varianz σ 2 unbekannt ist, muss das
Konfidenzintervall basierend auf der t-Verteilung konstruiert werden:
S
[X̄ ± t 1+γ (n − 1) · √ ]
2
n
Aus dem Sicherheitsniveau γ = 0.95 errechnet sich
1+γ
2
= 0.975.
Nachschauen in t-Tabelle bei 0.975 und 15 Freiheitsgraden (T =
verteilt mit n-1 Freiheitsgeraden) liefert t0.975 = 2.13.
X̄−µ √
n
S
ist t-
Einsetzen liefert damit
[245 ± 2.13 ·
10
] = [239.675; 250.325]
4
zu b) Jetzt sei σ 2 bekannt. Dann kann man mit dem Normalverteilungs-Intervall rechnen:
σ
[X̄ ± z 1+γ · √ ]
2
n
Da jetzt σ bekannt, ist die Unsicherheit geringer und damit das Konfidenzintervall
schmaler.
In der Tat ist z 1+γ < t 1+γ .
2
2
Rechnerisch ergibt sich mit z 1+γ = 1.96 das Konfidenzintervall
2
[240.100; 249.900]
Beispiel: Klausurergebnisse
i
1
2
3
4
5
6
punkte
16.5
16.5
25.5
25
20.5
27.5
i
7
8
9
10
11
12
punkte
27.5
22
16.5
8
33.5
19.5
i
13
14
15
16
17
18
punkte
23
15
31
26
13.5
24
i
19
20
21
22
23
24
punkte
14
21
19.5
17.5
36
31.5
i
25
26
27
28
29
30
punkte
19.5
18
37.5
15.5
7.5
18
i
31
32
33
34
35
punkte
35.5
12.5
25
25.5
18.5
• Mittelwert und Varianz der Grundgesamtheit (alle 35 Klausuren):
µ̂ = punkte = 21.81
σ̂ 2 = s2punkte = 7.562
• Wir ziehen insgesamt 80 Stichproben vom Umfang n = 5, n = 10, n = 20, n = 35
und bestimmen Konfidenzintervalle zum Niveau 95%.
Kapitel 2. Induktive Statistik
83
5
10
15
20
25
30
35
40
95% KI’s, Stichprobenumfang n=5
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
52
54
56
58
60
62
64
66
68
70
72
74
76
78
80
52
54
56
58
60
62
64
66
68
70
72
74
76
78
80
Stichprobe
5
10
15
20
25
30
35
40
95% KI’s, Stichprobenumfang n=10
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
Stichprobe
Punktzahl der Klausur Statistik I: Konfidenzintervalle für 80 Stichproben mit jeweiligem
Stichprobenumfang n = 5 (oben) und n = 10 (unten).
5
10
15
20
25
30
35
40
95% KI’s, Stichprobenumfang n=20
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
52
54
56
58
60
62
64
66
68
70
72
74
76
78
80
52
54
56
58
60
62
64
66
68
70
72
74
76
78
80
Stichprobe
5
10
15
20
25
30
35
40
95% KI’s, Stichprobenumfang n=35
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
Stichprobe
Punktzahl der Klausur Statistik I: Konfidenzintervalle für 80 Stichproben mit jeweiligem
Stichprobenumfang n = 20 (oben), n = 35 (unten).
84
2.3. Intervallschätzung
5
10
15
20
25
30
35
40
95% KI’s, Stichprobenumfang n=5
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
52
54
56
58
60
62
64
66
68
70
72
74
76
78
80
56
58
60
62
64
66
68
70
72
74
76
78
80
Stichprobe
5
10
15
20
25
30
35
40
95% KI’s, Stichprobenumfang n=5, Varianz bekannt
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
52
54
Stichprobe
Punktzahl der Klausur Statistik I: Konfidenzintervalle für 80 Stichproben mit
Stichprobenumfang n = 5. Oben ist die Varianz unbekannt, unten als bekannt
vorausgesetzt.
• Ergebnis:
– Die Breite der Konfidenzintervalle nimmt mit wachsendem n ab.
– Nicht alle Konfidenzintervalle enthalten den wahren Mittelwert µ = 23.1 (per
Konstruktion mit Wahrscheinlichkeit 5%).
– Die Intervalle mit bekannter Varianz sind im Mittel enger.
– Die Intervalle mit bekannter Varianz sind immer gleich lang.
Approximative Konfidenzintervalle: Ist der Stichprobenumfang groß genug, so kann wegen des zentralen Grenzwertsatzes das Normalverteilungs-Konfidenzintervall auf den Erwartungswert beliebiger Merkmale (mit existierender Varianz) angewendet werden und
erhält approximative Konfidenzintervalle.
Beispiel: Konfidenzintervall für den Anteil π: Seien X1 , . . . , Xn i.i.d. mit
(
1
Xi =
, P (Xi = 1) = π.
0
E(Xi ) = π
Var(Xi ) = π · (1 − π)
⇒ E(X̄) = π
π · (1 − π)
Var(X̄) =
n
Kapitel 2. Induktive Statistik
85
und approximativ für großes n:
X̄ − π
q
∼ N (0, 1)
π·(1−π)
n
π im Zähler: unbekannter
Anteil = interessierender Parameter
q
π(1−π)
π im Nenner:
unbekannte Varianz von X̄; schätzen, indem X̄ für π eingesetzt
n
wirdim Nenner


X̄ − π
γ ≈ P −z 1+γ ≤ q
≤ z 1+γ 
2
= P
Ã
2
X̄(1−X̄)
n
X̄ − z 1+γ ·
2
r
X̄(1 − X̄)
n
!
0.465(1 − 0.465)
500
#
X̄(1 − X̄)
≤ π ≤ X̄ + z 1+γ ·
2
n
und damit das Konfidenzintervall
"
X̄ ± z 1+γ ·
2
r
X̄(1 − X̄)
n
r
#
Beispiel Wahlumfrage: Seien n = 500, X̄ = 46.5% und γ = 95%.
z 1+γ = 1.96
2
Konfidenzintervall:
"
X̄ ± z 1+γ ·
2
r
X̄(1 − X̄)
n
#
=
"
0.465 ± 1.96 ·
= [0.421; 0.508]
r

Zugehörige Unterlagen

Ubungen zum Computerpraktikum Stochastik - staff.uni

X = 1 Xi

Hausaufgabe 2

Kapitel 2 Induktive Statistik

Zugehörige Unterlagen

Produkte

Unterstützung

Kapitel 2 Induktive Statistik

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können