17 Nichtparametrische Schätzer In diesem Paragraphen werden kurz einige Möglichkeiten skizziert, auch in nichtparametrischen Modellen zu Schätzern “ für interessierende statistische Größen zu gelangen. ” a) Empirische Verteilungsfunktionen in i.i.d. Stichproben Seien X1 , . . . , Xn i.i.d. ZV. mit Werten in (Rk , Bk ) und VF. F . Die empirische VF. n 1 X Fn (x) := I{Xi ≤x} , n i=1 x ∈ Rk , wobei ≤“ wieder komponentenweise zu verstehen ist, liefert einen P -f.s. (gleichmäßig) ” konsistenten Schätzer für die zugrunde liegende VF. F (x) := P X1 ≤ x , x ∈ Rk . Dies ist eine Konsequenz des folgenden Lemmas von Dvoretzky, Kiefer und Wolfowitz (1956) : Lemma 17.1. Seien Fn die empirische VF. einer i.i.d. Stichprobe X1 , . . . , Xn mit VF. F auf (Rk , Bk ) und dKS Fn , F := supx |Fn (x)−F (x)| , der KolmogorovSmirnov-Abstand zwischen Fn und F . Dann gilt für a) k = 1 : ∃ C > 0 (unabhängig von F ) so , dass P dKS (Fn , F ) > α ≤ C e−2nα ≤ Cε,k e−(2−ε)nα b) k ≥ 2 : ∀ ε > 0 ∃ Cε,k > 0 P dKS (Fn , F ) > α 2 ∀ α > 0, n ∈ N; (unabhängig von F ) so , dass 2 ∀ α > 0, n ∈ N. Auf den Beweis von Lemma 17.1 muss hier verzichtet werden . Als unmittelbare Konsequenz ergibt sich : Satz 17.1. Unter den Voraussetzungen von Lemma 17.1 gilt : a) dKS (Fn , F ) −→ 0 P -f.s. (n → ∞) ; √ p b) E n dK,S (Fn , F ) = O(1) (n → ∞) ∀ p > 0 ; √ dKS (Fn , F ) = Op 1/ n (n → ∞) . 93 Bemerkung 17.1. Statt des Kolmogorov-Smirnov-Abstands dKS kann man andere Abstandsmaße benutzen , z.B. den Mallows-Abstand 1/p dMp (F, G) := inf E |X − Y |p , wobei das Infimum genommen wird über der Menge aller ZV. X und Y , die p-te Momente (p ≥ 1) und VF. F und G besitzen , oder den Lp -Abstand ( bei k = 1 ) dLp (F, G) := Z p1 |F (x) − G(x)| dx , p falls die E.W. unter F und G existieren . Es gilt unter den obigen Momentenbedingungen , vgl. Shao (2003) : a) dMp (Fn , F ) −→ 0 P -f.s. (n → ∞) ; b) dLp (Fn , F ) −→ 0 P -f.s. (n → ∞) und √ E n dLp (Fn , F ) = O(1) (n → ∞) , falls R p/2 1 ≤ p ≤ 2 und F (x)(1 − F (x)) dx < ∞ , oder falls p ≥ 2 . b) Statistische Funktionale In vielen nicht-parametrischen Problemen besteht Interesse, nicht ausschließlich die zugrunde liegende VF. F ( etwa im i.i.d. Fall ) zu untersuchen , sondern eventuell nur charakteristische Parameter der Verteilung zu studieren. Letztere lassen sich in der Regel in der Form T (F ) schreiben, wobei T : F −→ Rℓ ein statistisches Funktional ist auf der Menge F der zugrunde liegenden VF. In einer i.i.d. Stichprobe X1 , . . . , Xn reeller ZV. mit VF. F stellt z.B. der E.W. R EF X = x dF (x) ein solches Funktional dar, das in natürlicher Weise über die empirische Version Z n 1 X EFn X = x dFn (x) = Xi , n i=1 also das arithmetische Mittel , geschätzt werden kann . Ein weiteres Beispiel liefern Quantile F −1 (p) := inf {x : F (x) ≥ p} (0 < p < 1) , die mittels der Stichprobenquantile Fn−1 (p) geschätzt werden können . 94 Wir untersuchen exemplarisch das asymptotische Verhalten reeller Funktionale T (Fn ) für i.i.d. Stichproben X1 , . . . , Xn (ℓ = 1) ; die Behandlung im Fall ℓ ≥ 2 verläuft analog . Die Idee hierbei ist , unter bestimmten Regularitäts- ( Differenzierbarkeits-) bedingungen , die Asymptotik von T (Fn ) auf die von Fn zurückzuführen. Definition 17.1. Sei T : F −→ R ein (reelles ) Funktional auf einer Menge F von VF. auf (Rk , Bk ) und setze D := c(F − G) F, G ∈ F , c ∈ R . a) Das Funktional T : F −→ R heißt Gâteaux-differenzierbar in F ∈ F , falls ein lineares Funktional LF : D −→ R existiert derart, dass für ∆ ∈ D und F + t∆ ∈ F gilt : lim t→0 T (F + t∆) − T (F ) − LF (∆) t = 0. b) Sei d eine Metrik auf F , die durch eine Norm k · k auf D induziert ist , d.h. d(F, G) = kF − Gk . Das Funktional T : F −→ R heißt d-Hadamard-differenzierbar in F ∈ F , falls ein lineares Funktional LF : D −→ R existiert derart, dass für alle Nullfolgen tj → 0 (j → ∞) und konvergenten Folgen ∆j → ∆ , d.h. k∆j − ∆k → 0 (j → ∞) , mit ∆, ∆j ∈ D und F + tj ∆j ∈ F (j = 1, 2, . . .) gilt : lim j→∞ T (F + tj ∆j ) − T (F ) − LF (∆j ) tj = 0. c) Sei d eine Metrik auf F . Das Funktional T : F −→ R heißt d-Fréchetdifferenzierbar in F ∈ F , falls ein lineares Funktional LF : D −→ R existiert derart, dass für {Fj } ⊂ F mit d(Fj , F ) → 0 (j → ∞) gilt : lim j→∞ T (Fj ) − T (F ) − LF (Fj − F ) d(Fj , F ) = 0. Das Funktional LF heißt Differential (Ableitung ) von T in F . Bezeichnet δx die VF. der Punktmasse in x , so heißt φF (x) := LF (δx − F ) , x ∈ R , die Influenzfunktion von T in F vgl. Hampel (1974) . √ √ Falls T Gâteaux-differenzierbar ist in F , so folgt mit t = 1/ n , ∆ = n (Fn − F ) : √ √ (17.1) n T (Fn ) − T (F ) = LF n (Fn − F ) + Rn mit einem (stochastischen) Restglied Rn . 95 Da LF linear ist , gilt : (17.2) LF √ n (Fn − F ) n 1 X = √ φF (Xi ) n i=1 D −→ (n→∞) N 0, σF2 , 2 falls E φF (X1 ) = 0 , σF2 = E φF (X1 ) < ∞ . Würde nun (17.3) Rn = op (1) (n → ∞) gelten , so folgte aus (17.1)–(17.3) sofort (17.4) √ n T (Fn ) − T (F ) D −→ (n→∞) N 0, σF2 . Leider liefert die Gâteaux-Differenzierbarkeit i.A. nicht (17.3) stärkere Differenzierbarkeitsvoraussetzungen benötigt werden. oder (17.4) , so dass Es gilt der folgende Satz zur asymptotischen Normalität statistischer Funktionale : Satz 17.2. Seien X1 , X2 , . . . i.i.d. (Rk , Bk )-ZV. mit VF. F und T : F −→ R ein (reelles) statistisches Funktional . a) Ist T dKS -Hadamard-differenzierbar in F ∈ F , so gilt für das Restglied Rn in (17.1) : Rn = op (1) (n → ∞) ; √ b) Ist T d-Fréchet-differenzierbar in F ∈ F und gilt d(Fn , F ) = Op (1/ n) (n → ∞) , so folgt für Rn aus (17.1) ebenfalls Rn = op (1) (n → ∞) ; c) Unter den Voraussetzungen von a) oder b) und von (17.2) liegt asymptotische Normalität von T (Fn ) vor , d.h. √ n T (Fn ) − T (F ) D −→ (n→∞) 96 N 0, σF2 . Beispiel 17.1. R a) T : F −→ R , F 7−→ ψ(x) dF (x) , wobei ψ : Rk −→ R F -integrierbar sei für F ∈ F . Dann ist T ein lineares Funktional ( auf D ) und folglich d-Fréchet-differenzierbar für jede Metrik d auf F . b) Sei F reelle VF. und F ′ > 0 auf R . Dann ist das Quantil-Funktional T (F ) := F −1 (p) , F ∈ F , p ∈ (0, 1) fest , dKS -Hadamard-differenzierbar vgl. Fernholz (1983) . Unter den Voraussetzungen von Satz 17.2 c) liegt also asymptotische Normalität vor . Beispiel 17.1 b) lässt sich aber auch direkt (unter schwächeren Voraussetzungen, s.u.) behandeln. Als weiteres Beipiel betrachten wir M −Schätzer R Sei ρ : Rk × R −→ R und seien für F ∈ F die Integrale ρ(x, t) dF (x) wohldefiniert , wobei t ∈ Θ , Θ offen in R . Ein M-Funktional ist definiert als Lösung von (17.5) Z ρ x, T (F ) dF (x) = min t∈Θ Z ρ(x, t) dF (x), F ∈F. Seien X1 , . . . , Xn i.i.d. mit VF. F ∈ F und empirischer VF. Fn , so heißt T (Fn ) M-Schätzer für T (F ) . Existiert ψ(x, t) = (17.6) λF (t) = ∂ρ(x, t) ∂t Z λ1 -f.ü. und gilt d ψ(x, t) dF (x) = dt Z ρ(x, t) dF (x) , Vertauschung von Differentiation und Integration 97 so folgt , dass λF T (F ) = 0. Beispiel 17.2. a) ρ(x, t) = (x − t)2 /2 . Dann gilt : ψ(x, t) = t − x ; R T (F ) = x dF (x) ( E.W.–Funktional ) ; T (Fn ) = X n ( arithmetisches Mittel ) . b) ρ(x, t) = | x − t | p /p , p ∈ [1, 2) , fest . ψ(x, t) = Für p = 1 : ( | x − t | p−1 , Dann gilt : x<t; − | x − t | p−1 , x>t. T (F ) = Median von F ; T (Fn ) = Stichprobenmedian ; Für 1 < p < 2 : T (Fn ) = Minimum-Lp -Schätzer . c) Sei F = Pϑ = fϑ µ : ϑ ∈ Θ ⊂ R1 eine parametrische Familie von Verteilungen und ρ(x, t) = − log ft (x) . Jeder ML-Schätzer T (Fn ) := ϑ̂ liefert dann einen M-Schätzer für ϑ ; ML-Schätzer sind also spezielle M-Schätzer . d) Sei C > 0 konstant. Huber (1964) betrachtet ρ(x, t) = ( (x − t)2 /2 , ψ(x, t) = ( t−x , C 2 /2 , |x− t| ≤ C ; |x− t| ≥ C . mit 0 , |x−t| ≤ C ; |x−t| > C . Den zugehörigen M-Schätzer T (Fn ) nennt man auch ein ” getrimmtes Mittel “ . e) Hampel (1974) betrachtet ψ(x, t) = ψ0 (x − t) mit ψ0 (−s) = −ψ0 (s) und s , 0≤s≤a; a , a<s≤b; ψ0 (s) = a(c − s) , b<s≤c; c−b 0 , s>c, mit Konstanten 0 < a < b < c . Eine geglättete“ Version von ψ0 liefert ” ( sin(as) , 0 ≤ s ≤ π/a ; ψ1 (s) = 0 , s > π/a . 98 Das folgende Resultat zeigt, dass M-Schätzer mit stetiger, beschränkter ψ-Funktion dKS -Hadamard-differenzierbar sind und T (Fn ) folglich asymptotisch normal ist im Sinne von (17.4) , da die zugehörige Influenzfunktion φ ebenfalls stetig und beschränkt ist . Satz 17.3. Seien T ein M-Funktional gemäß (17.5) , ψ = ψ(x, t) stetig und beschränkt auf Rk × R und λF = λF (t) aus (17.6) stetig differenzierbar in T (F ) mit λ′F (T (F )) 6= 0 . Dann ist T dKS -Hadamard-differenzierbar in F mit ψ x, T (F ) , φF (x) = − ′ x ∈ R. λF T (F ) c) Stichprobenquantile Seien X1 , . . . , Xn i.i.d. mit stetiger reeller VF. F , empirischer Verteilungsfunktion Fn und Ordnungsstatistiken X1:n ≤ . . . ≤ Xn:n . Da F stetig ist , gilt wieder P X1:n < . . . < Xn:n = 1 . Für p ∈ (0, 1) , fest , sei das p-Quantil xp := F −1 (p) := inf x F (x) ≥ p zu schätzen . Das Stichprobenquantil x̂p := Fn−1 (p) ist ein ” geeigneter“ Schätzer . Man beachte , dass P -f.s. gilt : k Fn (x) = für Xk:n ≤ x < Xk+1:n (k = 1, . . . , n − 1) , n folglich , mit kp = ⌈np⌉ , also kp − 1 < np ≤ kp : Fn Xkp :n ≥ p , Fn Xkp −1:n < p , d.h. x̂p = Xkp :n . Wir zeigen, dass Ordnungsstatistiken unter bestimmten Voraussetzungen konsistent und asymptotisch normal sind . Satz 17.4. Für das p-Quantil xp gelte F (x) > p ∀ x > xp . k = np + o(n) : P Xkn −→ xp (n → ∞) . 99 Dann gilt für Satz 17.5. Sei F differenzierbar an der Stelle xp mit F ′ (xp ) > 0 . √ für k = np + o( n) : p(1 − p) D √ n Xk:n − xp −→ N 0, (n → ∞) . 2 F ′ (xp ) Dann gilt Bemerkung 17.2. Da x̂p = X⌈np⌉:n und ⌈np⌉ = np + O(1) , liefern die Sätze 17.4 und 17.5 sofort die Konsistenz und asymptotische Normalität der Stichprobenquantile ( unter den entsprechenden Voraussetzungen ) . d) Kernschätzer Seien X1 , . . . , Xn i.i.d. ZV. mit reeller VF. F und einer λ1 -Dichte f . Die empirische Verteilungsfunktion n 1 X F̂n (x) = I{Xi ≤x} , n i=1 x ∈ R, liefert , bei beobachteten X1 , . . . , Xn , eine diskrete VF. als Schätzer für die unbekannte VF. F , nämlich so , dass jede Beobachtung Xi das Gewicht n1 erhält . Bei angenommener Dichte f versucht man , mit Hilfe einer Kernfunktion“ K diese ” diskreten Punktmassen zu verschmieren “ (“ smoothing ”) , um so zu einer stetigen “ ” ” Schätzung für die unbekannte Verteilung (-sdichte) zu gelangen . R Konkret sei K = K(u) eine W-Dichte auf (R1 , B1 ) mit E.W. uK(u) du = 0 und R 2 Varianz u K(u) du = 1 . Die ZV. (17.7) n 1 X 1 x − Xi fˆn (x) := K , n i=1 h h x ∈ R, heißt Kernschätzer “ ( für f ) mit Kernfunktion “ K und Bandweite “ h = hn . ” ” ” Anschaulich gesprochen bilden die Funktionen x − X 1 i x 7−→ K nh h Dichtefunktionen mit Massen n1 , die um die Beobachtungen Xi herum konzentriert sind und sich zu einer W-Dichte (mit Gesamtmasse 1) aufsummieren . 100 Ein gebräuchliches Maß für die Güte des Kernschätzers fˆn ist der mittlere integrierte ” quadratische Fehler“ Mean Integrated Square Error (MISE)“ : ” (17.8) MISEf fˆn = = Z Z Ef fˆn (x) − f (x) 2 V arf fˆn (x) dx + dx Z Ef fˆn (x) − f (x) 2 dx , der sich als Summe eines (integrierten) Varianzterms “ und eines Biasterms “ dar” ” 1 stellen lässt . Es wird sich zeigen , dass der Varianzterm von der Ordnung O nh ist , während der Biasterm die Ordnung O h4 hat . Die Bandweite h sollte also möglichst groß“ sein , um die Varianz gering zu halten , andererseits aber möglichst ” ” klein “ , um den Bias zu verringern . Eine ausgewogene “ Wahl der Bandweite , d.h. ” 1 mit nh ≈ h4 , führt zu einer optimalen“ Wahl von h ≈ n−1/5 . ” Eine genaue Abschätzung liefert Satz 17.6. Seien f eine zweimal stetig differenzierbare W-Dichte ( bzgl. λ1 ) R ′′ R mit |f (x)|2 dx < ∞ und K eine Kernfunktion mit u K(u) du = 0 sowie R 2 R 2 u K(u) du < ∞ und K (u) du < ∞ . Dann gibt es eine Konstante C = Cf derart , dass für h > 0 gilt : Z 1 2 4 ˆ Ef fn (x) − f (x) dx ≤ C +h . nh Für h = hn ∼ n−1/5 (n → ∞) folgt somit : 1 MISEf fˆn = O 4/5 (n → ∞) . n Bemerkung 17.3. Benutzt man eine Kernfunktion K ( i.A. keine W-Dichte ) mit R R ℓ R r K(u) du = 1 , u K(u) du = 0 (ℓ = 1, . . . , r − 1), |u| K(u) du < ∞ (∃ r ≥ 2), R 2 R (r) K (u) du < ∞ , und ist f r-mal stetig differenzierbar mit |f (x)|2 dx < ∞ , so lässt sich die Güte des Kernschätzers wie folgt verbessern : ∃ C = Cf ∀ h > 0 Z 1 2 Ef fˆn (x) − f (x) dx ≤ C + h2r . nh Für hn ∼ n−1/(2r+1) : MISEf fˆn = O n−2r/(2r+1) (n → ∞) . Letztere Rate ist optimal vgl. van der Vaart (1998) . 101