17 Nichtparametrische Schätzer

Werbung
17 Nichtparametrische Schätzer
In diesem Paragraphen werden kurz einige Möglichkeiten skizziert, auch in nichtparametrischen Modellen zu Schätzern “ für interessierende statistische Größen zu gelangen.
”
a) Empirische Verteilungsfunktionen in i.i.d. Stichproben
Seien X1 , . . . , Xn i.i.d. ZV. mit Werten in (Rk , Bk ) und VF. F . Die empirische VF.
n
1 X
Fn (x) :=
I{Xi ≤x} ,
n i=1
x ∈ Rk ,
wobei ≤“ wieder komponentenweise zu verstehen ist, liefert einen P -f.s. (gleichmäßig)
”
konsistenten Schätzer für die zugrunde liegende VF.
F (x) := P X1 ≤ x , x ∈ Rk .
Dies ist eine Konsequenz des folgenden Lemmas von Dvoretzky, Kiefer und Wolfowitz
(1956) :
Lemma 17.1. Seien Fn die empirische VF. einer i.i.d. Stichprobe X1 , . . . , Xn
mit VF. F auf (Rk , Bk ) und dKS Fn , F := supx |Fn (x)−F (x)| , der KolmogorovSmirnov-Abstand zwischen Fn und F . Dann gilt für
a) k = 1 : ∃ C > 0 (unabhängig von F ) so , dass
P dKS (Fn , F ) > α
≤ C e−2nα
≤ Cε,k e−(2−ε)nα
b) k ≥ 2 : ∀ ε > 0 ∃ Cε,k > 0
P dKS (Fn , F ) > α
2
∀ α > 0, n ∈ N;
(unabhängig von F ) so , dass
2
∀ α > 0, n ∈ N.
Auf den Beweis von Lemma 17.1 muss hier verzichtet werden . Als unmittelbare Konsequenz ergibt sich :
Satz 17.1. Unter den Voraussetzungen von Lemma 17.1 gilt :
a) dKS (Fn , F ) −→ 0 P -f.s. (n → ∞) ;
√
p
b) E
n dK,S (Fn , F )
= O(1) (n → ∞) ∀ p > 0 ;
√ dKS (Fn , F ) = Op 1/ n
(n → ∞) .
93
Bemerkung 17.1. Statt des Kolmogorov-Smirnov-Abstands dKS kann man andere
Abstandsmaße benutzen , z.B. den Mallows-Abstand
1/p
dMp (F, G) := inf E |X − Y |p
,
wobei das Infimum genommen wird über der Menge aller ZV. X und Y , die p-te
Momente (p ≥ 1) und VF. F und G besitzen , oder den Lp -Abstand ( bei k = 1 )
dLp (F, G) :=
Z
p1
|F (x) − G(x)| dx ,
p
falls die E.W. unter F und G existieren .
Es gilt
unter den obigen Momentenbedingungen , vgl. Shao (2003) :
a) dMp (Fn , F ) −→ 0
P -f.s. (n → ∞) ;
b) dLp (Fn , F ) −→ 0 P -f.s. (n → ∞)
und
√
E
n dLp (Fn , F ) = O(1) (n → ∞) , falls
R
p/2
1 ≤ p ≤ 2 und
F (x)(1 − F (x))
dx < ∞ ,
oder falls p ≥ 2 .
b) Statistische Funktionale
In vielen nicht-parametrischen Problemen besteht Interesse, nicht ausschließlich die zugrunde liegende VF. F ( etwa im i.i.d. Fall ) zu untersuchen , sondern eventuell nur
charakteristische Parameter der Verteilung zu studieren. Letztere lassen sich in der Regel
in der Form T (F ) schreiben, wobei T : F −→ Rℓ ein statistisches Funktional ist auf
der Menge F der zugrunde liegenden VF.
In einer i.i.d. Stichprobe X1 , . . . , Xn reeller ZV. mit VF. F stellt z.B. der E.W.
R
EF X = x dF (x) ein solches Funktional dar, das in natürlicher Weise über die empirische Version
Z
n
1 X
EFn X =
x dFn (x) =
Xi ,
n i=1
also das arithmetische Mittel , geschätzt werden kann . Ein weiteres Beispiel liefern
Quantile F −1 (p) := inf {x : F (x) ≥ p} (0 < p < 1) , die mittels der Stichprobenquantile
Fn−1 (p) geschätzt werden können .
94
Wir untersuchen exemplarisch das asymptotische Verhalten reeller Funktionale T (Fn )
für i.i.d. Stichproben X1 , . . . , Xn (ℓ = 1) ; die Behandlung im Fall ℓ ≥ 2 verläuft
analog . Die Idee hierbei ist , unter bestimmten Regularitäts- ( Differenzierbarkeits-)
bedingungen , die Asymptotik von T (Fn ) auf die von Fn zurückzuführen.
Definition 17.1. Sei T : F −→ R ein (reelles ) Funktional auf einer Menge F
von VF. auf (Rk , Bk ) und setze D := c(F − G) F, G ∈ F , c ∈ R .
a) Das Funktional T : F −→ R heißt Gâteaux-differenzierbar in F ∈ F , falls
ein lineares Funktional LF : D −→ R existiert derart, dass für ∆ ∈ D
und F + t∆ ∈ F gilt :
lim
t→0
T (F + t∆) − T (F )
− LF (∆)
t
= 0.
b) Sei d eine Metrik auf F , die durch eine Norm k · k auf D induziert ist , d.h. d(F, G) = kF − Gk . Das Funktional T : F −→ R
heißt d-Hadamard-differenzierbar in F ∈ F , falls ein lineares Funktional LF : D −→ R existiert derart, dass für alle Nullfolgen tj → 0 (j → ∞)
und konvergenten Folgen ∆j → ∆ , d.h. k∆j − ∆k → 0 (j → ∞) , mit
∆, ∆j ∈ D und F + tj ∆j ∈ F (j = 1, 2, . . .) gilt :
lim
j→∞
T (F + tj ∆j ) − T (F )
− LF (∆j )
tj
= 0.
c) Sei d eine Metrik auf F . Das Funktional T : F −→ R heißt d-Fréchetdifferenzierbar in F ∈ F , falls ein lineares Funktional LF : D −→ R
existiert derart, dass für {Fj } ⊂ F mit d(Fj , F ) → 0 (j → ∞) gilt :
lim
j→∞
T (Fj ) − T (F ) − LF (Fj − F )
d(Fj , F )
= 0.
Das Funktional LF heißt Differential (Ableitung ) von T in F .
Bezeichnet δx die VF. der Punktmasse in x , so heißt φF (x) := LF (δx − F ) ,
x ∈ R , die Influenzfunktion von T in F
vgl. Hampel (1974) .
√
√
Falls T Gâteaux-differenzierbar ist in F , so folgt mit t = 1/ n , ∆ = n (Fn − F ) :
√ √
(17.1)
n T (Fn ) − T (F ) = LF n (Fn − F ) + Rn
mit einem (stochastischen) Restglied Rn .
95
Da LF linear ist , gilt :
(17.2)
LF
√
n (Fn − F )
n
1 X
= √
φF (Xi )
n i=1
D
−→
(n→∞)
N 0, σF2 ,
2
falls E φF (X1 ) = 0 , σF2 = E φF (X1 ) < ∞ .
Würde nun
(17.3)
Rn = op (1)
(n → ∞)
gelten , so folgte aus (17.1)–(17.3) sofort
(17.4)
√ n T (Fn ) − T (F )
D
−→
(n→∞)
N 0, σF2 .
Leider liefert die Gâteaux-Differenzierbarkeit i.A. nicht (17.3)
stärkere Differenzierbarkeitsvoraussetzungen benötigt werden.
oder (17.4) , so dass
Es gilt der folgende Satz zur asymptotischen Normalität statistischer Funktionale :
Satz 17.2. Seien X1 , X2 , . . . i.i.d. (Rk , Bk )-ZV. mit VF. F und T : F −→ R
ein (reelles) statistisches Funktional .
a) Ist T dKS -Hadamard-differenzierbar in F ∈ F , so gilt für das Restglied Rn
in (17.1) : Rn = op (1) (n → ∞) ;
√
b) Ist T d-Fréchet-differenzierbar in F ∈ F und gilt d(Fn , F ) = Op (1/ n)
(n → ∞) , so folgt für Rn aus (17.1) ebenfalls Rn = op (1) (n → ∞) ;
c) Unter den Voraussetzungen von a) oder b) und von (17.2) liegt asymptotische Normalität von T (Fn ) vor , d.h.
√ n T (Fn ) − T (F )
D
−→
(n→∞)
96
N 0, σF2 .
Beispiel 17.1.
R
a) T : F −→ R , F 7−→ ψ(x) dF (x) , wobei ψ : Rk −→ R F -integrierbar
sei für F ∈ F . Dann ist T ein lineares Funktional ( auf D ) und folglich
d-Fréchet-differenzierbar für jede Metrik d auf F .
b) Sei F reelle VF. und F ′ > 0 auf R . Dann ist das Quantil-Funktional
T (F ) := F −1 (p) , F ∈ F , p ∈ (0, 1) fest , dKS -Hadamard-differenzierbar vgl.
Fernholz (1983) .
Unter den Voraussetzungen von Satz 17.2 c) liegt also asymptotische Normalität vor .
Beispiel 17.1 b) lässt sich aber auch direkt (unter schwächeren Voraussetzungen, s.u.)
behandeln.
Als weiteres Beipiel betrachten wir
M −Schätzer
R
Sei ρ : Rk × R −→ R und seien für F ∈ F die Integrale ρ(x, t) dF (x) wohldefiniert ,
wobei t ∈ Θ , Θ offen in R . Ein M-Funktional ist definiert als Lösung von
(17.5)
Z
ρ x, T (F ) dF (x) = min
t∈Θ
Z
ρ(x, t) dF (x),
F ∈F.
Seien X1 , . . . , Xn i.i.d. mit VF. F ∈ F und empirischer VF. Fn , so heißt T (Fn )
M-Schätzer für T (F ) .
Existiert ψ(x, t) =
(17.6)
λF (t) =
∂ρ(x, t)
∂t
Z
λ1 -f.ü. und gilt
d
ψ(x, t) dF (x) =
dt
Z
ρ(x, t) dF (x) ,
Vertauschung von Differentiation und Integration
97
so folgt , dass λF T (F )
= 0.
Beispiel 17.2.
a) ρ(x, t) = (x − t)2 /2 .
Dann gilt : ψ(x, t) = t − x ;
R
T (F ) = x dF (x) ( E.W.–Funktional ) ; T (Fn ) = X n ( arithmetisches Mittel ) .
b) ρ(x, t) = | x − t | p /p , p ∈ [1, 2) , fest .
ψ(x, t) =
Für p = 1 :
(
| x − t | p−1 ,
Dann gilt :
x<t;
− | x − t | p−1 ,
x>t.
T (F ) = Median von F ;
T (Fn ) = Stichprobenmedian ;
Für 1 < p < 2 :
T (Fn ) = Minimum-Lp -Schätzer .
c) Sei F = Pϑ = fϑ µ : ϑ ∈ Θ ⊂ R1 eine parametrische Familie von Verteilungen
und ρ(x, t) = − log ft (x) . Jeder ML-Schätzer T (Fn ) := ϑ̂ liefert dann einen
M-Schätzer für ϑ ; ML-Schätzer sind also spezielle M-Schätzer .
d) Sei C > 0 konstant. Huber (1964) betrachtet
ρ(x, t) =
(
(x − t)2 /2 ,
ψ(x, t) =
(
t−x ,
C 2 /2
,
|x− t| ≤ C ;
|x− t| ≥ C .
mit
0
,
|x−t| ≤ C ;
|x−t| > C .
Den zugehörigen M-Schätzer T (Fn ) nennt man auch ein
”
getrimmtes Mittel “ .
e) Hampel (1974) betrachtet ψ(x, t) = ψ0 (x − t) mit ψ0 (−s) = −ψ0 (s) und


s
, 0≤s≤a;






a
, a<s≤b;
ψ0 (s) =
a(c − s)


, b<s≤c;


c−b



0
, s>c,
mit Konstanten 0 < a < b < c . Eine geglättete“ Version von ψ0 liefert
”
(
sin(as) , 0 ≤ s ≤ π/a ;
ψ1 (s) =
0
, s > π/a .
98
Das folgende Resultat zeigt, dass M-Schätzer mit stetiger, beschränkter ψ-Funktion
dKS -Hadamard-differenzierbar sind und T (Fn ) folglich asymptotisch normal ist im
Sinne von (17.4) , da die zugehörige Influenzfunktion φ ebenfalls stetig und beschränkt
ist .
Satz 17.3. Seien T ein M-Funktional gemäß (17.5) , ψ = ψ(x, t) stetig und
beschränkt auf Rk × R und λF = λF (t) aus (17.6) stetig differenzierbar in T (F )
mit λ′F (T (F )) 6= 0 .
Dann ist T dKS -Hadamard-differenzierbar in F mit
ψ x, T (F )
,
φF (x) = − ′
x ∈ R.
λF T (F )
c) Stichprobenquantile
Seien X1 , . . . , Xn i.i.d. mit stetiger reeller VF. F , empirischer Verteilungsfunktion
Fn und Ordnungsstatistiken X1:n ≤ . . . ≤ Xn:n . Da F stetig ist , gilt wieder
P X1:n < . . . < Xn:n = 1 .
Für p ∈ (0, 1) , fest , sei das p-Quantil
xp := F −1 (p) := inf x F (x) ≥ p
zu schätzen . Das Stichprobenquantil x̂p := Fn−1 (p) ist ein
”
geeigneter“ Schätzer .
Man beachte , dass P -f.s. gilt :
k
Fn (x) =
für Xk:n ≤ x < Xk+1:n (k = 1, . . . , n − 1) ,
n
folglich , mit kp = ⌈np⌉ , also kp − 1 < np ≤ kp :
Fn Xkp :n ≥ p , Fn Xkp −1:n < p , d.h. x̂p = Xkp :n .
Wir zeigen, dass Ordnungsstatistiken unter bestimmten Voraussetzungen konsistent und
asymptotisch normal sind .
Satz 17.4. Für das p-Quantil xp gelte F (x) > p ∀ x > xp .
k = np + o(n) :
P
Xkn −→ xp
(n → ∞) .
99
Dann gilt für
Satz 17.5. Sei F differenzierbar an der Stelle xp mit F ′ (xp ) > 0 .
√
für k = np + o( n) :
p(1 − p) D
√
n Xk:n − xp −→ N 0,
(n → ∞) .
2
F ′ (xp )
Dann gilt
Bemerkung 17.2. Da x̂p = X⌈np⌉:n und ⌈np⌉ = np + O(1) , liefern die Sätze 17.4
und 17.5 sofort die Konsistenz und asymptotische Normalität der Stichprobenquantile
( unter den entsprechenden Voraussetzungen ) .
d) Kernschätzer
Seien X1 , . . . , Xn i.i.d. ZV. mit reeller VF. F und einer λ1 -Dichte f . Die empirische
Verteilungsfunktion
n
1 X
F̂n (x) =
I{Xi ≤x} ,
n i=1
x ∈ R,
liefert , bei beobachteten X1 , . . . , Xn , eine diskrete VF. als Schätzer für die unbekannte
VF. F , nämlich so , dass jede Beobachtung Xi das Gewicht n1 erhält .
Bei angenommener Dichte f versucht man , mit Hilfe einer Kernfunktion“ K diese
”
diskreten Punktmassen zu verschmieren “ (“ smoothing ”) , um so zu einer stetigen “
”
”
Schätzung für die unbekannte Verteilung (-sdichte) zu gelangen .
R
Konkret sei K = K(u) eine W-Dichte auf (R1 , B1 ) mit E.W.
uK(u) du = 0 und
R 2
Varianz u K(u) du = 1 . Die ZV.
(17.7)
n
1 X 1 x − Xi fˆn (x) :=
K
,
n i=1 h
h
x ∈ R,
heißt Kernschätzer “ ( für f ) mit Kernfunktion “ K und Bandweite “ h = hn .
”
”
”
Anschaulich gesprochen bilden die Funktionen
x − X 1
i
x 7−→
K
nh
h
Dichtefunktionen mit Massen n1 , die um die Beobachtungen Xi herum konzentriert
sind und sich zu einer W-Dichte (mit Gesamtmasse 1) aufsummieren .
100
Ein gebräuchliches Maß für die Güte des Kernschätzers fˆn ist der mittlere integrierte
”
quadratische Fehler“
Mean Integrated Square Error (MISE)“ :
”
(17.8)
MISEf
fˆn
=
=
Z
Z
Ef fˆn (x) − f (x)
2
V arf fˆn (x) dx +
dx
Z
Ef fˆn (x) − f (x)
2
dx ,
der sich als Summe eines (integrierten) Varianzterms “ und eines Biasterms “ dar”
”
1
stellen lässt . Es wird sich zeigen , dass der Varianzterm von der Ordnung O nh
ist , während der Biasterm die Ordnung O h4 hat . Die Bandweite h sollte also
möglichst groß“ sein , um die Varianz gering zu halten , andererseits aber möglichst
”
”
klein “ , um den Bias zu verringern . Eine ausgewogene “ Wahl der Bandweite , d.h.
”
1
mit nh
≈ h4 , führt zu einer optimalen“ Wahl von h ≈ n−1/5 .
”
Eine genaue Abschätzung liefert
Satz 17.6. Seien f eine zweimal stetig differenzierbare W-Dichte ( bzgl. λ1 )
R ′′
R
mit
|f (x)|2 dx < ∞ und K eine Kernfunktion mit
u K(u) du = 0 sowie
R 2
R 2
u K(u) du < ∞ und
K (u) du < ∞ . Dann gibt es eine Konstante C = Cf
derart , dass für h > 0 gilt :
Z
1
2
4
ˆ
Ef fn (x) − f (x) dx ≤ C
+h .
nh
Für h = hn ∼ n−1/5 (n → ∞) folgt somit :
1 MISEf fˆn = O 4/5
(n → ∞) .
n
Bemerkung 17.3. Benutzt man eine Kernfunktion K ( i.A. keine W-Dichte ) mit
R
R ℓ
R r
K(u) du = 1 ,
u K(u) du = 0 (ℓ = 1, . . . , r − 1),
|u| K(u) du < ∞ (∃ r ≥ 2),
R 2
R (r)
K (u) du < ∞ , und ist f r-mal stetig differenzierbar mit
|f (x)|2 dx < ∞ , so
lässt sich die Güte des Kernschätzers wie folgt verbessern : ∃ C = Cf ∀ h > 0
Z
1
2
Ef fˆn (x) − f (x) dx ≤ C
+ h2r .
nh
Für hn ∼ n−1/(2r+1) :
MISEf fˆn = O n−2r/(2r+1)
(n → ∞) .
Letztere Rate ist optimal vgl. van der Vaart (1998) .
101
Zugehörige Unterlagen
Herunterladen