Induktive Statistik Kapitel IV - Stichprobenfunktionen (Statistiken)

Werbung
Induktive Statistik
Kapitel IV - Stichprobenfunktionen (Statistiken)
Georg Bol
[email protected]
Markus Höchstötter
[email protected]
11. Januar 2007
Georg Bol, Markus Höchstötter
Aufgabe der schließenden Statistik:
Festlegung einer Entscheidung auf der Grundlage eines
Stichprobenergebnisses
Entscheidungsverfahren:
Zu jedem möglichen Stichprobenergebnis wird die zugehörige
Entscheidung bestimmt.
⇒ Entscheidungsfunktion δ : X → A
X Stichprobenraum,
A Aktionenraum (Menge der Entscheiungsmöglichkeiten)
gesucht: “beste“ Entscheidungfunktion
(benötigt wird dazu ein Bewertungskriterium s.u.)
Kapitel IV - Stichprobenfunktionen (Statistiken)
1
Georg Bol, Markus Höchstötter
Problem: X ⊂ IRk ist i.a. sehr umfangreich, d.h. es gibt sehr viele,
teilweise auch wenig sinnvolle Entscheidungsfunktionen.
Ansatz: Das Stichprobenergebnis enthält auch Informationen, die
für die Entscheidung unwesentlich sind, z.B. die Reihenfolge der
Messwerte bei einer Stichprobe mit Zurücklegen.
֒→ Reduktion der Daten auf den für die Entscheidung
wesentlichen Kern durch eine Auswertung des Stichprobenergebnisses
(z.B. mit Methoden der deskriptiven Statistik)
Kapitel IV - Stichprobenfunktionen (Statistiken)
2
Georg Bol, Markus Höchstötter
Beispiele:
1. Kontrolle einer Warenpartie:
Stichprobenergebnis (x1, x2, ..., xn) mit
xi =
0 i − te Stichprobeneinheit ist gut
1 i − te Stichprobeneinheit ist schlecht
Auswertung:
Anzahl schlechter Einheiten =
n
P
xi
i=1
(Oder: Anzahl guter Teile, Stichprobenausschussanteil, ...)
Kapitel IV - Stichprobenfunktionen (Statistiken)
3
Georg Bol, Markus Höchstötter
2. Justierung einer Maschine:
x1, x2, ..., xn Messwerte
n
P
1
xi Stichprobenmittelwert
n
i=1
ist Kandidat für ein sinnvolles Auswertungsverfahren.
Kapitel IV - Stichprobenfunktionen (Statistiken)
4
Georg Bol, Markus Höchstötter
Stichprobenfunktion:
X Stichprobenraum einer Stichprobe X1, X2, ..., Xn
T : X → IRk heißt Stichprobenfunktion
T (X1, X2, ..., Xn) = T (X) ist dann Zufallsvariable
Kapitel IV - Stichprobenfunktionen (Statistiken)
7
Georg Bol, Markus Höchstötter
Beispiele für Stichprobenfunktionen:
1. T (x1, x2, ..., xn) = x3 bzw. xi für i ∈ {1, 2, ..., n}.
T erhält in der Regel nicht die gesamte Information der Stichprobe,
da nur eines des Stichprobenergebnisse benutzt wird.
2. T (x1, . . . , xn) = (x(1), . . . , x(n)), d.h. die Stichprobenergebnisse
werden ihrer Größe nach geordnet (x(1), . . . , x(n) ist die geordnete Urliste
zu x1, . . . , xn). T heißt Ordnungsstatistik und erhält bei einer Stichprobe
mit Zurücklegen alle relevanten Informationen, da in diesem Fall
die Reihenfolge der Ergebnisse keine Bedeutung hat.
Aber: Keine Datenreduktion.
Kapitel IV - Stichprobenfunktionen (Statistiken)
8
Georg Bol, Markus Höchstötter
3. T (x1, . . . , xn) = xz , xz Zentralwert (Median) von x1, x2, ..., xn,
heißt Stichprobenmedian(-zentralwert).
4. T (x1, . . . , xn) mit
T (x1, . . . , xn) =
1
n
n
P
xi
i=1
heißt Stichprobenmittelwert.
Beispiele 3 und 4 sind Kandidaten für Auswertungen bei Untersuchungen, die mit
Lageparametern zu tun haben.
Kapitel IV - Stichprobenfunktionen (Statistiken)
9
Georg Bol, Markus Höchstötter
5. T (x1, . . . , xn) mit
T (x1, . . . , xn) =
1
n
n
P
i=1
(xi − x̄)2, x̄ = Stichprobenmittelwert,
heißt Stichprobenvarianz.
6. T (x1, . . . , xn)
T (x1, . . . , xn) =
1
n−1
n
P
(xi − x̄)2, x̄ = Stichprobenmittelwert,
i=1
heißt korrigierte Stichprobenvarianz.
Beispiele 5 und 6 kommen bei Untersuchungen zu Streuungsparametern
einer Verteilung in Betracht (aber auch die Stichprobenspannweite, die
mittlere absolute Abweichung der Stichprobe, der Quartilsabstand der
Stichprobe, ...).
Kapitel IV - Stichprobenfunktionen (Statistiken)
10
Georg Bol, Markus Höchstötter
Frage:
Welche Auswertungen sind sinnvoll? Welche Stichprobenfunktionen
dürfen verwendet werden, ohne gute Entscheidungsverfahren auszuschließen?
Antwort: T sollte alle Informationen der Stichprobe über die
entscheidungsrelevante Größe (Zustand) erhalten.
Wie kann dies überprüft werden?
Kapitel IV - Stichprobenfunktionen (Statistiken)
11
Georg Bol, Markus Höchstötter
1. Kontrolle einer Warenpartie:
Intuition:
Anzahl der schlechten Teile in der Stichprobe
enthält alle Informationen über den Ausschussanteil, d.h.
zwei Stichprobenergebnisse
x = (x1, . . . , xn)
und x′ = (x′1, . . . , x′n)
mit übereinstimmender Anzahl schlechter Teile
unterscheiden sich nicht bezüglich ihrer Information
über den Ausschussanteil.
Ist dies richtig?
Kapitel IV - Stichprobenfunktionen (Statistiken)
12
Georg Bol, Markus Höchstötter
Dazu:
Wahrscheinlichkeitsverteilung der Stichprobe X1, . . . , Xn auf Teilbereich
mit k schlechten Teilen: T (X1, . . . , Xn) = k
֒→ Bedingte Wahrscheinlichkeitsverteilung unter der Bedingung:
T (X1, . . . , Xn) = k
Kapitel IV - Stichprobenfunktionen (Statistiken)
13
Georg Bol, Markus Höchstötter
P (X = x | T (X) = k) = P (X1 = x1, . . . , Xn = xn |
n
X
Xi = k)
i=1
P (X1 = x1, . . . , Xn = xn und
n
P
Xi = k)
i=1
=
P(
n
P
Xi = k)
i=1
=











Kapitel IV - Stichprobenfunktionen (Statistiken)
0
n
P
i=1
P (X1 =x1 ,...,Xn =xn )
(nk)pk (1−p)n−k
n
P
xi 6= k
xi = k
i=1
14
Georg Bol, Markus Höchstötter
X1, X2, . . . , Xn unabhängig: Dann
P (X1 = x1, . . . , Xn = xn) = P (X1 = x1) · P (X2 = x2) · . . . · P (Xn = xn)
Mit P (Xi = 1) = p und P (Xi = 0) = 1 − p
n
Y
Px
n
P (Xi = xi) = p
i=1
Kapitel IV - Stichprobenfunktionen (Statistiken)
i=1
i
Px
n
· (1 − p)
n−
i=1
i
15
Georg Bol, Markus Höchstötter
Damit:
P (X = x |
n
X
Xi = k) =
i=1
=




pk (1−p)n−k


 (n)pk (1−p)n−k
k







Kapitel IV - Stichprobenfunktionen (Statistiken)
0
0
1
n
k
( )
n
P
i=1
n
P
xi 6= k
xi = k
i=1
n
P
i=1
n
P
xi 6= k
xi = k
i=1
16
Georg Bol, Markus Höchstötter
Die bedingte Wahrscheinlichkeitsverteilung hängt also nicht von p
ab, die Variation des Stichprobenergebnisses im Teilbereich mit
T (X1, . . . , Xn) = k ist also unbeeinflusst vom Ausschussanteil p
und damit auch ohne Information über p.
Kapitel IV - Stichprobenfunktionen (Statistiken)
17
Georg Bol, Markus Höchstötter
2. Fehleranzahlen
Bei der Produktion von Teilen können ein oder mehrere Fehler entstehen
(z.B. Lackierfehler an Automobilkarossen). Die Anzahl der Fehler
an einer Produkteinheit entspreche einer Zufallsvariable Y .
Y sei Poisson-verteilt mit Parameter λ,
λ sei unbekannt.
Durch eine Stichprobe soll Information über λ ermittelt werden.
Stichprobenergebnis: x1, x2, . . . , xn (xi ganze Zahl ≥ 0)
Kapitel IV - Stichprobenfunktionen (Statistiken)
18
Georg Bol, Markus Höchstötter
Vermutung:
Wesentliche Information über den Parameter λ des Stichprobenergebnisses
ist die Gesamtzahl der Fehler (oder die durchschnittliche Fehlerzahl).
Zugehörige Stichprobenfunktion ist:
T (x1, . . . , xn) =
n
P
xi
i=1
Überprüfung der Vermutung:
Stichprobe mit Zurücklegen, d.h. X1, X2, . . . , Xn unabhängig, identisch verteilt
wie Y
P (X = x1, . . . , Xn = xn | T (X1, . . . , Xn) =
Kapitel IV - Stichprobenfunktionen (Statistiken)
n
X
Xi = k) = ?
i=1
19
Georg Bol, Markus Höchstötter
P
X = x1, . . . , Xn = xn
!
n
X
Xi = k
T (X1, . . . , Xn) =
i=1
=













Kapitel IV - Stichprobenfunktionen (Statistiken)
n
P
0
i=1
P X =k)
P(
P (X=x)
n
i=1
i
n
P
xi 6= k
xi = k
i=1
20
Georg Bol, Markus Höchstötter
mit
P (X = x) = P (X1 = x1, . . . , Xn = xn)
= P (X1 = x1) · P (X2 = x2) · . . . · P (Xn = xn)
=
=
λx1 −λ
x1 ! e
· ... ·
λxn −λ
xn ! e
n
Q
λxi −λ
( xi! e )
i=1
Kapitel IV - Stichprobenfunktionen (Statistiken)
21
Georg Bol, Markus Höchstötter
n
P
Xi ist Poisson-verteilt mit Parameter nλ:
i=1
P(
n
P
Xi = k) =
i=1
Damit ist:
(nλ)k −nλ
k! e
Q(
=
P
P(
X =k)
P (X=x)
n
i=1
i
λxi e−λ )
x !
i=1 i
(nλ)k −nλ
k! e
(
=
Pn xi
1
i=1 e−nλ
xi ! )λ
i=1
(nλ)k −nλ
k! e
Q
n
=
Kapitel IV - Stichprobenfunktionen (Statistiken)
Q
n
n
1
xi !
i=1
nk
k!
22
Georg Bol, Markus Höchstötter
Die bedingte Wahrscheinlichkeitsverteilung
n
P
P X1 = x1, . . . , Xn = xn T (X1, . . . , Xn) =
Xi = k =
i=1
k!
nk
n
Q
i=1
1
xi !
ist also unabhängig vom Parameter λ. Welche spezielle Stichprobe
mit (x1, x2, . . . , xn) mit Gesamtfehlerzahl k vorliegt, liefert demnach
keine Information über λ.
Eine Stichprobenfunktion T enthält also die Information der Stichprobe
über den Parameter der Verteilung, wenn die bedingte Wahrscheinlichkeit
des Stichprobenvektors mit T (X) = t als Bedingung nicht vom
Parameter abhängt. T heißt dann suffizient bezüglich des Parameters.
Kapitel IV - Stichprobenfunktionen (Statistiken)
23
Georg Bol, Markus Höchstötter
Definition:
Sei Γ der Parameterraum zur Verteilungsannahme einer diskreten
Zufallsvariable Y . X = (X1, . . . , Xn) sei eine Stichprobe zu Y mit
Stichprobenraum X . Eine Stichprobenfunktion T : X → IRk heißt suffizient
bzgl. γ ∈ Γ, wenn
Pγ (X = x | T (X) = t)
für alle x ∈ X und t ∈ IRk mit Pγ (T (X) = t) 6= 0 von γ unabhängig ist,
also allein von x und t abhängt.
Kapitel IV - Stichprobenfunktionen (Statistiken)
24
Georg Bol, Markus Höchstötter
Folgerung:
Wegen
Pγ (X = x) = P (X = x | T (X) = t)Pγ (T (X) = t)
ist bei suffizientem T die Wahrscheinlichkeitsverteilung zerlegt in zwei
Faktoren, von denen
P (X = x | T (X) = t)
nur von x (t ergibt sich aus T (x) = t) und
Pγ (T (X) = t) von γ und t abhängt.
Kapitel IV - Stichprobenfunktionen (Statistiken)
25
Georg Bol, Markus Höchstötter
Es gilt demnach mit P (X = x|T (X) = t) = h(x) und Pγ (T (X) = t) = g(T (x), γ)
(*) Pγ (X = x) = g(T (x), γ)h(x).
Aus (*) folgt aber :
Pγ (X = x|T (X) = t) =
Pγ (X = x, T (X) = t)
=
Pγ (T (X) = t)
g(T (x), γ)h(x)
P
Pγ (X = x̃)
x̃∈X : T (x̃)=t
=
g(T (x), γ)h(x)
P
=
g(T (x̃), γ)h(x̃)
x̃∈X : T (x̃)=t
=
h(x)
P
h(x̃)
g(t, γ)h(x)
P
g(t, γ)h(x̃)
x̃∈X : T (x̃)=t
hängt nicht von γ ab
x̃∈X : T (x̃)=t
Kapitel IV - Stichprobenfunktionen (Statistiken)
25
Georg Bol, Markus Höchstötter
Im diskreten Fall ist eine Stichprobenfunktion genau dann suffizient
bezüglich einem Parameter γ, wenn sich die Wahrscheinlichkeitsverteilung
des Stichprobenvektors entsprechend (*) in Faktoren zerlegen lässt.
(Faktorisierungstheorem von Neyman).
Beispiele:
1. Bernoulliverteilung:
P (X1 = x1, . . . , Xn = xn) = P (X1 = x1) · . . . · P (Xn = xn)
Px
n
i
Px
n−
= pi=1 (1 − p)
n
i=1
i
= g(T (x), p)h(x) mit h(x) = 1
Kapitel IV - Stichprobenfunktionen (Statistiken)
26
Georg Bol, Markus Höchstötter
2. Poissonverteilung:
P (X = x) = P (X1 = x1, . . . , Xn = xn)
= P (X1 = x1) · . . . · P (Xn = xn)
=
λx1 −λ
x1 ! e
Px
· ... ·
λxn −λ
xn ! e
=
n
=λ
i=1
i
n
Q
i=1
λxi −λ
( xi! e )
1
e−nλ x1!x2!·...·x
= g(T (x), λ)h(x)
n!
Px
n
i
−nλ
mit g(T (x), λ) = λi=1 e
, T (x) =
n
P
i=1
Kapitel IV - Stichprobenfunktionen (Statistiken)
xi und h(x) =
1
x1 !x2 !·...·xn !
27
Georg Bol, Markus Höchstötter
Im stetigen Fall sind die analogen Betrachtungen mit der Dichtefunktion
durchzuführen.
Beispiel:
1. Exponentialverteilung
Sei Y exponentialverteilt mit Parameter λ > 0, X1, X2, . . . , Xn eine
einfache Stichprobe mit Zurücklegen zu Y . Dann gilt
fX,λ(x1, . . . , xn) =
n
Q
λe−λxi
i=1
Px
−λ
= λn e
Kapitel IV - Stichprobenfunktionen (Statistiken)
n
i=1
i
= ...
28
Georg Bol, Markus Höchstötter
= g(
n
P
i=1
n
Px
n
−λ
mit g(T (x), λ) = λ e
xi, λ) · h(x)
i=1
i
, T (x) =
n
P
xi und h(x) = 1.
i=1
Zur Berechnung der bedingten Dichte unter der Bedingung
T (X) =
n
P
Xi = t
i=1
wird die Verteilung von
n
P
Xi
i=1
benötigt.
Kapitel IV - Stichprobenfunktionen (Statistiken)
29
Georg Bol, Markus Höchstötter
Man erhält (s. Übungsaufgabe aus der Wahrscheinlichkeitstheorie)
die Erlang-Verteilung mit Stufenzahl n mit der Dichtefunktion
f (t) =



λn
(n−1)!

 0
Kapitel IV - Stichprobenfunktionen (Statistiken)
tn−1e−λt t ≥ 0
t<0
30
Georg Bol, Markus Höchstötter
. . . und damit die bedingte Dichte
f(X,λ|T (X)=t)(x) =
n
Q
λe−λxi
i=1
λn
n−1 e−λt
(n−1)! t
Px
n
n
=
−λ
λ e
n
P
i=1
i
Px
n
−λ
λn
xi)n−1e
(n−1)! (
i=1
i=1
i
1
= (n − 1)! P
n
( xi)n−1
i=1
für x = (x1, . . . , xn) mit
P
Kapitel IV - Stichprobenfunktionen (Statistiken)
xi = t.
31
Georg Bol, Markus Höchstötter
Die Dichte lässt sich also analog in zwei Faktoren zerlegen und die bedingte
Dichte ist unabhängig vom Parameter. Die Stichprobenfunktion
T (x1, x2, . . . , xn) =
n
P
xi
i=1
ist also suffizient bezüglich λ.
Kapitel IV - Stichprobenfunktionen (Statistiken)
32
Georg Bol, Markus Höchstötter
2. Normalverteilung
Sei Y N (µ, σ 2)-verteilt, also mit der Dichte
fY,µ,σ2 (y) =
−
√ 1
e
2πσ 2
Kapitel IV - Stichprobenfunktionen (Statistiken)
(y−µ)2
2σ 2
33
Georg Bol, Markus Höchstötter
Dann ist für eine Stichprobe X mit Zurücklegen:
fX,µ,σ2 (x1, . . . , xn) =
n
Y
i=1
=
=
=
Kapitel IV - Stichprobenfunktionen (Statistiken)
√
1
2πσ 2
1
p
(2πσ 2)n
p
(2πσ 2)n
p
1
1
(2πσ 2)n
(x −µ)
− i 2
e 2σ
2
P
−
e
n (x −µ)2
i
2
i=1 2σ
− 12 (
e
2σ
− 12
2σ
e
P x −2µ P x +nµ )
n
2
i
i=1
Px
n
i=1
n
i=1
i
2
P
n
2 µ
xi
nµ2
i σ2
−
i=1
2σ 2
e
e
34
Georg Bol, Markus Höchstötter
Dieser Ausdruck hängt außer von den Parametern µ und σ 2 nur von
n
P
i=1
x2i
und
n
P
xi
i=1
ab. Die zweidimensionale Stichprobenfunktion
T (x1, . . . , xn) = (
n
P
i=1
Kapitel IV - Stichprobenfunktionen (Statistiken)
xi,
n
P
i=1
x2i ) ist suffizient bezüglich (µ, σ 2).
35
Georg Bol, Markus Höchstötter
In den Beispielen spielt die Exponentialfunktion eine wesentliche Rolle,
da das Produkt von Exponentialfunktionen mit der Exponentialfunktion
der Summe der Exponenten übereinstimmt:
n
Q
Pz
n
zi
e =e
i=1
i
i=1
Folgerung:
Immer wenn wir die Wahrscheinlichkeiten bzw. die Dichte der Zufallsvariable
als Exponentialfunktion schreiben können, haben wir gute Aussichten,
eine suffiziente Statistik zu erhalten.
Kapitel IV - Stichprobenfunktionen (Statistiken)
36
Georg Bol, Markus Höchstötter
Beispiele:
1. Poissonverteilung:
Pλ(Y = y) =
λy
y!
1
· e−λ = ey ln λ y!
· e−λ
Daraus folgt für eine einfache Stichprobe X = (X1, . . . , Xn) mit Zurücklegen
n
n
Y
Y
λxi −λ
1 xi ln λ −λ
( e )=
Pλ(X = x) =
( e
e )
xi!
x!
i=1
i=1 i
" n
#
n
Y 1
ln λ
xi
i=1
( ) e
=
e−nλ
x!
i=1 i
P
Kapitel IV - Stichprobenfunktionen (Statistiken)
37
Georg Bol, Markus Höchstötter
2. Normalverteilung:
fµ,σ2 (y) =
=
√
√
1
2πσ 2
1
2πσ 2
(y−µ)2
−
2σ 2
=√
·e
·
2
− µ2
e 2σ
−y 2
2σ 2
·e
y2
− 2 + µy2
2σ
σ
1
·e
2πσ 2
·e
µ2
− 2
2σ
·e
2µy
2σ 2
Daraus folgt für eine einfache Stichprobe X = (X1, . . . , Xn) mit Zurücklegen
fµ,σ2 (x) =
n
Y
fµ,σ2 (xi) =
i=1
Kapitel IV - Stichprobenfunktionen (Statistiken)
√
1
2πσ 2
2
− µ2
2σ
·e
n
− 12
2σ
·e
Px
n
i=1
2
i
P
·e
n
µ
x
2σ 2 i=1 i
38
Georg Bol, Markus Höchstötter
Nennen wir den Parameter γ, so ist in beiden Beispielen die Wahrscheinlichkeit
bzw. die Dichte von der Form
P b (γ)τ (y)
r
(+)
a(γ)h(y)ek=1
Kapitel IV - Stichprobenfunktionen (Statistiken)
k
k
39
Georg Bol, Markus Höchstötter
Beispiele
1. Poissonverteilung:
r=1
1 γlnλ
e−λ y!
e
a(γ)h(γ)eb(y)τ (y)
mit
a(γ) = e−γ , h(y) =
Kapitel IV - Stichprobenfunktionen (Statistiken)
1
y! , b(γ)
= ln γ, τ (y) = y
41
Georg Bol, Markus Höchstötter
Beispiele
2. Normalverteilung
a(γ)h(y)eb1(γ)τi(y)+b2(γ)τ2(y)
r=2
mit
a(µ, σ 2) =
√1
σ2
·
2
− µ2
e 2σ
b1(µ, σ 2) = − 2σ1 2
b2(µ, σ 2) =
Kapitel IV - Stichprobenfunktionen (Statistiken)
µ
σ2
, h(y) =
√1 ,
2π
, τ1(y) = y 2,
, τ2(y) = y.
42
Georg Bol, Markus Höchstötter
Aus der Darstellung (+) für die Wahrscheinlichkeit bzw. Dichte einer
Zufallsvariable ergibt sich unmittelbar für die Wahrscheinlichkeit bzw.
Dichte einer Stichprobe mit Zurücklegen
n
Y
P b (γ)τ (x )
r
(a(γ)h(xi)ek=1
k
k
i
) = a(γ)n
i=1
"
n
Y
P b (γ) P τ (x )
n
r
#
h(xi) ek=1
i=1
k
i=1
k
i
= g(T (x), γ)h̃(x)
mit T (x) =
n
X
i=1
τ1(xi), . . . ,
n
X
!
τr (xi) ,
i=1
P b (γ) P τ (x )
r
g(T (x), γ) = a(γ)nek=1
n
k
i=1
k
i
,
h̃(x) =
n
Y
h(xi)
i=1
Kapitel IV - Stichprobenfunktionen (Statistiken)
43
Georg Bol, Markus Höchstötter
Falls bei der Verteilung der Zufallsvariable Y eine Darstellung der Form
(+) vorliegt, nennen wir die Verteilungsannahme der Zufallsvariable eine
Exponentialfamilie.
Exponentialfamilie:
P b (γ)τ (y)
• Y diskret
r
Pγ (Y = y) = a(γ)h(y)e
j=1
j
j
P b (γ)τ (y)
• Y stetig
r
fY,γ (y) = a(γ)h(y)e
j=1
Kapitel IV - Stichprobenfunktionen (Statistiken)
j
j
44
Georg Bol, Markus Höchstötter
Folgerung:
T (x) = (
n
P
τ1(xi), . . . ,
i=1
n
P
τr (xi))
i=1
ist suffiziente Stichprobenfunktion bezüglich γ.
Kapitel IV - Stichprobenfunktionen (Statistiken)
45
Georg Bol, Markus Höchstötter
Beispiel: Gammaverteilung
Dichte der Gammaverteilung ist
fα,λ(y) =
1
α α−1 −λy
λ
y
e
Γ(α)
0
y≥0
y<0
Γ(α) ist dabei die Gammafunktion an der Stelle α;
für eine natürliche Zahl n gilt Γ(n) = (n − 1)!
Hinweis: Für α = n erhalten wir also die Erlang-Verteilung mit Stufenzahl n.
Kapitel IV - Stichprobenfunktionen (Statistiken)
46
Georg Bol, Markus Höchstötter
Mit
a(α, λ) =
1
α
λ
,
Γ(α)
h(y) =
b1(α, λ) = α − 1,
b2(α, λ) = −λ,
1 y≥0
0 y<0
τ1(y) = ln(y),
τ2(y) = y
gilt
fα,λ(y) = a(α, λ)h(y)eb1(α,λ)τ1(y)+b2(α,λ)τ2(y)
Kapitel IV - Stichprobenfunktionen (Statistiken)
47
Georg Bol, Markus Höchstötter
Damit ist
n
n
X
X
xi)
ln(xi),
T (x) = (
i=1
i=1
suffizient bezüglich α und λ.
Kapitel IV - Stichprobenfunktionen (Statistiken)
48
Georg Bol, Markus Höchstötter
Sei T eine suffiziente Stichprobenfunktion, so sollte die Entscheidung
(Schlussfolgerung) aus dem Stichprobenergebnis nur vom
Auswertungsergebnis bei T abhängen, d.h. sind
x = (x1, . . . , xn) und x̃ = (x˜1, . . . , x˜n)
zwei Stichprobenergebnisse mit
T (x) = T (x̃),
so sollten die Entscheidungen bei x und x̃, übereinstimmen.
Damit wird die Menge der möglichen Entscheidungsverfahren stark reduziert, falls
eine geeignete suffiziente Statistik benutzt wird.
Kapitel IV - Stichprobenfunktionen (Statistiken)
49
Georg Bol, Markus Höchstötter
x, x′
-
δ
X
T
?
?
X T
′
δ
3
A
δ(x) = δ ′(T (x)) = δ ′(T (x′))
3
= δ(x′)
δ = δ′ ◦ T
T (x) = T (x′)
Reduktion auf die wesentliche Information zur Entscheidungsfindung.
Kapitel IV - Stichprobenfunktionen (Statistiken)
50
Georg Bol, Markus Höchstötter
Sei X T die Menge der möglichen Auswertungsergebnisse
bei der Stichprobenfunktion T , also
X T = {T (x)|x ∈ X }
so ist δ T : X T → A eine Entscheidungsfunktion mit Benutzung von T ,
d.h. zum Stichprobenergebnis x wird zunächst die Auswertung T (x)
berechnet und abhängig von diesem Auswertungsergebnis T (x) die
Entscheidung δ(T (x)) getroffen.
Kapitel IV - Stichprobenfunktionen (Statistiken)
51
Georg Bol, Markus Höchstötter
Behauptung:
Wird eine Stichprobenfunktion T aus einer Darstellung der Wahrscheinlichkeits verteilung von Y als Exponentialfamilie gewonnen, so sind
zwei Entscheidungsfunktionen mit Benutzung von T durch
ihren Erwartungswert nahezu vollständig festgelegt.
Kapitel IV - Stichprobenfunktionen (Statistiken)
52
Georg Bol, Markus Höchstötter
Beispiel-Poisson-Verteilung:
T (x1, . . . , xn) =
n
X
xi
i=1
ist suffizient bezüglich dem Parameter λ > 0.
Seien δ1T und δ2T zwei Entscheidungsfunktionen mit Benutzung von T .
Erwartungswert von δi ist
Eλ(δiT (T (X))) =
∞
X
δiT (k)Pλ(T (X) = k) =
k=0
=
∞
X
k=0
Kapitel IV - Stichprobenfunktionen (Statistiken)
∞
X
k=0
n
X
δiT (k)Pλ(
Xj = k)
j=1
k
(nλ)
δiT (k)
e−nλ
k!
53
Georg Bol, Markus Höchstötter
Stimmen die Erwartungswerte von δ1 und δ2 überein für alle λ > 0,
so gilt
∞
X
(nλ)k −nλ
T
T
T
T
0 = Eλ(δ1 (T (X))) − Eλ(δ2 (T (X))) =
(δ1 (k) − δ2 (k))
e
k!
k=0
−nλ
= e
∞
X
(δ1T (k)
k=0
−
(nλ)k
T
δ2 (k))
k!
Da e−nλ 6= 0 ist, ist dies gleichwertig mit
∞
X
k=0
(δ1T (k)
−
Kapitel IV - Stichprobenfunktionen (Statistiken)
(nλ)k
T
δ2 (k))
k!
= 0 für alle λ > 0
⇔ δ1T (k) = δ2T (k) für alle k.
54
Georg Bol, Markus Höchstötter
Eine Stichprobenfunktion T mit der Eigenschaft, dass je zwei Funktionen
δ1T und δ2T mit übereinstimmendem Erwartungswert auch selbst
übereinstimmen, heißt vollständig.
Kapitel IV - Stichprobenfunktionen (Statistiken)
55
Georg Bol, Markus Höchstötter
Definition:
Sei X eine Stichprobe zu Y , X der Stichprobenraum. Y habe eine
parametrische Verteilungsannahme mit Parameter γ aus dem Parameterraum Γ.
Eine Stichprobenfunktion(Statistik) T heißt vollständig bezüglich γ,
wenn für je zwei Funktionen δ1T und δ2T aus
Eγ (δ1T (T (X))) = Eγ (δ2T (T (X))) für alle γ ∈ Γ
folgt, dass
Pγ (δ1T (T (X)) = δ2T (T (X))) = 1
gilt.
Kapitel IV - Stichprobenfunktionen (Statistiken)
56
Georg Bol, Markus Höchstötter
Satz:
Sei X eine Stichprobe zu Y , deren Verteilung sich als Exponentialfamilie
schreiben lässt, d.h. es gilt
P b (γ)τ (y)
r
Y diskret : Pγ (Y = y)
Y stetig : fY,γ (y)
dann ist
T (x1, . . . , xn) =
n
X
= a(γ)h(y)e
τ1(xi), . . . ,
i=1
eine suffiziente und vollständige Statistik, wenn
j=1
n
X
j
j
!
τr (xi)
i=1
B = {(b1(γ), . . . , br (γ)) | γ ∈ Γ} ⊂ IRr
einen offenen Quader im IRr enthält.
Kapitel IV - Stichprobenfunktionen (Statistiken)
57
Georg Bol, Markus Höchstötter
Folgerungen:
Sei X1, X2, . . . , Xn eine einfache Stichprobe mit Zurücklegen zu Y . Dann
ist
T (x1, . . . , xn) =
n
P
xi
i=1
suffizient und vollständig, . . .
Kapitel IV - Stichprobenfunktionen (Statistiken)
58
Georg Bol, Markus Höchstötter
. . . falls y
a) Bernoulli-verteilt mit Parameter p ∈ [0, 1],
(Übungsaufgabe: Man stelle die Wahrscheinlichkeitsverteilung von
Y als Exponentialfamilie dar.)
b) binomialverteilt mit Parameter p ∈ [0, 1],
c) Poisson-verteilt mit Parameter λ > 0,
d) exponentialverteilt mit Parameter λ > 0.
Kapitel IV - Stichprobenfunktionen (Statistiken)
59
Georg Bol, Markus Höchstötter
Beispiel-Normalverteilung:
fµ,σ2 (y) =
=
√
√
1
2πσ 2
1
2πσ 2
Kapitel IV - Stichprobenfunktionen (Statistiken)
−
·e
·
(y−µ)2
2σ 2
2
− µ2
e 2σ
·e
=√
−y 2
2σ 2
1
2πσ 2
·e
·
2
− y 2 + µy2
e 2σ σ
·
2
− µ2
e 2σ
2µy
2σ 2
60
Georg Bol, Markus Höchstötter
1. µ und σ 2 unbekannt (und entscheidungsrelevant):
a(µ, σ 2) =
√1
σ2
·
2
− µ2
e 2σ
b1(µ, σ 2) = − 2σ1 2
b2(µ, σ 2) =
µ
σ2
, h(y) =
√1 ,
2π
, τ1(y) = y 2,
, τ2(y) = y.
ergibt eine Darstellung als Exponentialfamilie.
Kapitel IV - Stichprobenfunktionen (Statistiken)
61
Georg Bol, Markus Höchstötter
T (x1, . . . , xn) = (
n
P
xi,
i=1
n
P
i=1
x2i )
ist eine suffiziente Statistik. Sie ist auch vollständig, da
B
1 µ
= {(− 2 , 2 )|µ ∈ IR, σ 2 > 0}
2σ σ
= {(β1, β2)|β1 < 0, β2 ∈ IR} = IR− × IR
einen offenen Quader im IR2 enthält.
Kapitel IV - Stichprobenfunktionen (Statistiken)
62
Georg Bol, Markus Höchstötter
2. µ unbekannt (und entscheidungsrelevant), σ 2 fest:
Der Parameterraum ist jetzt Γ = IR. Mit
a(µ) =
√1
σ2
b(µ) =
µ
σ2
·
2
− µ2
e 2σ
, h(y) =
√1
2π
·e
y2
2σ 2
,
, τ2(y) = y
erhalten wir eine Darstellung als Exponentialfamilie, so dass
n
P
xi
T (x1, . . . , xn) =
i=1
suffizient bezüglich µ ist. T ist auch vollständig, da
µ
B = { 2 |µ ∈ IR} = IR
(enthält offenen Quader)
σ
Kapitel IV - Stichprobenfunktionen (Statistiken)
63
Georg Bol, Markus Höchstötter
3. σ 2 unbekannt (und entscheidungsrelevant), µ fest:
a(σ 2) =
√1
σ2
, h(y) =
b(σ 2) = − 2σ1 2
√1 ,
2π
, τ (y) = (y − µ)2
ergibt jetzt eine Darstellung als Exponentialfamilie für den Parameter σ 2. Wegen
1
B = {− 2 |σ 2 > 0} = {x ∈ IR|x < 0}
2σ
ist damit
n
X
T (x1, . . . , xn) =
(xi − µ)2
2
suffizient und vollständig bezüglich σ .
Kapitel IV - Stichprobenfunktionen (Statistiken)
i=1
64
Herunterladen