Empirical-Likelihood-Schätzung der Fehlerverteilung im

Werbung
Empirical-Likelihood-Schätzung
der Fehlerverteilung
im nichtparametrischen
Regressionsmodell
Eva-Renate Nagel
Dissertation
zur Erlangung des Doktorgrades
der Naturwissenschaften
an der Fakultät für Mathematik
der Ruhr-Universität Bochum
2006
Inhaltsverzeichnis
Einleitung
III
1 Grundlagen
1.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Bezeichnungen . . . . . . . . . . . . . . . . . . . . . .
1.3 Stochastische und empirische Prozesse . . . . . . . .
1.4 Kerndichteschätzer . . . . . . . . . . . . . . . . . . .
1.5 Regressionsmodelle . . . . . . . . . . . . . . . . . . .
1.5.1 Homoskedastisches Regressionsmodell . . . . .
1.5.2 Heteroskedastisches Regressionsmodell . . . .
1.6 Zusatzinformation . . . . . . . . . . . . . . . . . . . .
1.7 Verwandte Arbeiten . . . . . . . . . . . . . . . . . . .
1.7.1 Literaturübersicht . . . . . . . . . . . . . . . .
1.7.2 Prozess aus Akritas und Van Keilegom (2001)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
14
15
15
17
18
19
19
20
2 Empirical Likelihood
37
2.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2 Herleitung des Schätzers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3 Vergleich mit vorausgegangenen Arbeiten . . . . . . . . . . . . . . . . . . . . . . 45
3 Untersuchung des Schätzers im homoskedastischen Modell
3.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Hilfsresultate . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 Hauptresultate . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Modellspezifische Details zum Empirical-Likelihood-Verfahren
4 Untersuchung des Schätzers im heteroskedastischen Modell
4.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Hilfsresultate . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Hauptresultate . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5 Modellspezifische Details zum Empirical-Likelihood-Verfahren
I
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
48
50
58
65
.
.
.
.
.
73
73
74
76
77
85
II
5 Beispiele und Simulation
91
5.1 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.2 Simulationsstudie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6 Testverfahren
6.1 Einleitung . . . . . . . . . . . . . . . . . .
6.2 Erstes Testverfahren . . . . . . . . . . . .
6.2.1 Idee . . . . . . . . . . . . . . . . .
6.2.2 Asymptotisches Verhalten unter H0
6.2.3 Untersuchung bei fester Alternative
6.2.4 Untersuchung lokaler Alternativen .
6.3 Zweites Testverfahren: EL-Test . . . . . .
6.4 Drittes Testverfahren . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
105
. 105
. 106
. 106
. 107
. 108
. 112
. 115
. 117
Symbolverzeichnis
119
Literaturverzeichnis
120
Einleitung
Einführung
120
100
80
60
dist
0
20
40
60
0
20
40
dist
80
100
120
In der Statistik ist der Zusammenhang zwischen verschiedenen Einflussgrößen und einer Zielgröße von großem Interesse. Als einfache Beispiele betrachten wir den Zusammenhang zwischen
dem monatlichen Einkommen eines Haushalts und seinen Ausgaben für bestimmte Lebensmittel, oder auch den Zusammenhang zwischen dem Alter eines Patienten und seinem Blutdruck.
Wir stellen exemplarisch einen Datensatz vor, bei dem in den 1920er Jahren bei 50 Kraftfahrzeugen ihre Geschwindigkeit und ihr Bremsweg gemessen wurde. In Abb. 1 wird der Bremsweg als
Zielgröße der Einflussgröße Geschwindigkeit gezeichnet und eine nichtparametrische Schätzung
der Regressionskurve, also des Einflusses der Geschwindigkeit auf den Bremsweg, hinzugefügt.
Der Datensatz findet sich in Ezekiel (1930).
5
10
15
20
25
5
speed
10
15
20
25
speed
Abbildung 1: In beiden Abbildungen wird die Geschwindigkeit (in mph) auf der x-Achse und
der zugehörige Bremsweg (in ft) auf der y-Achse von 50 Kraftfahrzeugen gegenübergestellt. Die
Messungen werden im rechten Bild durch eine nichtparametrische Schätzung der unbekannten
Regressionsfunktion ergänzt.
Der funktionale Zusammenhang wird nicht direkt beobachtet, denn er wird durch Messfehler
und andere nicht genauer betrachtete Einflüsse verzerrt. Daher wird im Modell eine Störung
durch einen additiven Fehler berücksichtigt. In dieser Arbeit liegt das Interesse nicht nur in
der Schätzung des funktionalen Zusammenhangs, der in erster Linie durch die sogenannte Regressionsfunktion modelliert wird, sondern vor allem auf der Untersuchung des Fehlers und
III
IV
dessen Verteilung. Eine möglichst genaue Schätzung der Fehlerverteilung wird unter anderem
gebraucht, um ein nichtparametrisches Konfidenzintervall (prediction interval) für die Werte der Regressionsfunktion anzugeben, oder bei Goodness-of-Fit-Tests, vergleiche Akritas und
Van Keilegom (2001). Könnten wir die Fehler selbst beobachten, könnten wir direkt aus den
Fehlern ihre Verteilung schätzen. In diesem Fall wäre der Zusammenhang zwischen Einflussund Zielgröße für die Schätzung irrelevant. Da aber nur Einfluss- und Zielgröße beobachtet
werden, müssen wir die Fehler mithilfe eines Schätzers für die Regressionsfunktion aus den
beobachteten Einfluss- und Zielgrößen schätzen. Vor Beginn der Regressionsschätzung gibt es
die Möglichkeit, sich durch die Wahl eines bestimmten Modells auf spezielle Abhängigkeiten
zwischen Einfluss- und Zielgröße einzuschränken. Dies geschieht bei jeder Annahme eines parametrischen Modells wie z. B. des linearen Regressionsmodells. Kritisch ist dieses Vorgehen,
wenn nicht sichergestellt ist, dass die wahre Funktion überhaupt diesem Modell entspricht.
Wenn der aus der Klasse gewählte Schätzer also prinzipiell der wahren Funktion nicht ausreichend ähnlich sein kann, ist mit fehlerbehafteten Resultaten zu rechnen. Im Zusammenhang mit
dieser Problematik wurden nichtparametrische Regressionsmodelle entwickelt, welche minimale
Annahmen an die Form der Regressionskurve stellen, um grundlegende falsche Spezifikationen
zu vermeiden.
Den Untersuchungen liegen Realisierungen n unabhängiger Zufallsvariablen
(Xi , Yi ) (i = 1, . . . , n)
zugrunde, wobei Xi und Yi jeweils eindimensional sind. Den funktionalen Zusammenhang zwischen der Einflussgröße Xi und der reellen Zielgröße Yi (i = 1, . . . , n) modellieren wir durch
ein nichtparametrisches Regressionsmodell. Die Einflussgrößen beobachten wir nach Annahme
direkt, sie besitzen eine positive Dichte auf einem kompakten Träger (wir wählen das Intervall
[0, 1] o.B.d.A.). Die Daten Yi verstehen wir als Beobachtungen, die zu den speziellen Werten
Xi erhoben wurden. Messfehler und nicht beobachtbare Einflüsse auf die Daten Yi werden
durch einen zufälligen eindimensionalen Fehler εi dargestellt, der innerhalb des Modells eine
additive Störung darstellt. Für das nichtparametrische Modell gibt es zwei Ausprägungen, das
homoskedastische Regressionsmodell und das heteroskedastische Regressionsmodell. Zunächst
betrachten wir das homoskedastische Modell
Yi = m(Xi ) + εi (i = 1, . . . , n)
(1)
unter der Annahme der stochastischen Unabhängigkeit des Fehlers εi und der Einflussgröße
Xi (i = 1, . . . , n). Die Fehler ε1 , . . . , εn sind in beiden beschriebenen Modellen unabhängig
und identisch verteilt mit Erwartungswert Null. Wenn eine These, dass die Fehler normalverteilt sind oder einer anderen näher spezifizierten Verteilung folgen, nicht bestätigt werden
kann, ist es empfehlenswert, von einer solchen Annahme Abstand zu nehmen und entsprechend diese Verteilung ohne parametrische Einschränkungen zu schätzen. Den funktionalen
Zusammenhang zwischen Xi und Yi modellieren wir mit der unbekannten Regressionsfunktion
m(x) = IE[Yi |Xi = x]. Mithilfe eines Schätzers m̂ für m berechnen wir eine Annäherung für
Einleitung
V
den nicht beobachtbaren Fehler, das Residuum ε̂i = Yi − m̂(Xi ) (i = 1, . . . , n). Diese Residuen
sind nun der Ausgangspunkt für die Schätzung der Fehlerverteilung.
8
6
Frequency
1
het_residuals
0
20
0
−20
−1
2
4
0
residuals
10
40
2
12
14
60
Histogram of het_residuals
0
10
20
30
k
40
50
0
10
20
30
40
50
k
−2
−1
0
1
2
3
het_residuals
Abbildung 2: Für den Datensatz aus Abb. 1 wird im linken Bild die Differenz aus Bremsweg
und geschätzter Regressionsfunktion für jede der 50 Messungen dargestellt. Im mittleren Bild
sind die Differenzen zusätzlich standardisiert, dies entspricht Residuen ε̂1 , . . . , ε̂n zum Modell
(2). Das Histogramm im rechten Bild vermittelt einen Eindruck von der Häufigkeit gewisser
Größenordnungen bei dem im mittleren Bild dargestellten Residuensatz.
Außerdem untersuchen wir die Schätzung der Fehlerverteilung im sogenannten heteroskedastischen Modell
Yi = m(Xi ) + σ(Xi )εi (i = 1, . . . , n).
(2)
Hier kann die Zielgröße abzüglich der Regressionsfunktion m(Xi ) immer noch explizit von Xi
so abhängen, dass die gesamte Abhängigkeit des zweiten Summanden von Xi durch den Faktor
σ(Xi ) ausgedrückt wird und der restliche Fehler εi von Xi stochastisch unabhängig ist. Der
Faktor σ 2 (x) = Var(Yi |Xi = x) bezeichnet die unbekannte bedingte Varianz der Zielgröße Yi ,
wobei bezüglich der gegebenen Einflussgröße Xi bedingt wird. Bei den Funktionen m und σ
setzen wir nur die zweimal stetige Differenzierbarkeit im Intervall (0, 1) voraus. Mithilfe von
Schätzern m̂ für m und σ̂ für σ konstruieren wir ähnlich wie im homoskedastischen Modell
m̂(Xi )
(i = 1, . . . , n) als Schätzer für den Fehler εi . Damit erklärt sich der
Residuen ε̂i = Yi −
σ̂(Xi )
Begriff der Homoskedastizität im Gegensatz zur Heteroskedastizität so, dass im ersten Fall die
Streuung bezüglich der Einflussgröße konstant ist.
In Abb. 2 betrachten wir weiter die Daten aus Abb. 1. In der linken Graphik werden die Differenzen aus Bremsweg und nach dem Schätzer der Regressionsfunktion erwarteten Bremsweg
dargestellt. Weil diese Differenzen noch von der Einflussgröße abhängig sind, zeichnen wir in der
mittleren Graphik die aus den Daten errechneten Residuen bezüglich des heteroskedastischen
Regressionsmodells nach Bereinigung der von X abhängigen Streuung. In der rechten Graphik
wird deutlich, wie häufig diese Residuen ε̂ in einer gewissen Größe in diesem Beispiel auftreten.
Schätzungen in nichtparametrischen Modellen sind in den letzten Jahrzehnten intensiv erforscht
worden. Ein Überblick über die nichtparametrische Regression findet sich in Härdle (1990), Fan
VI
und Gijbels (1996) und Härdle et al. (2004).
Generell ist in der Statistik das Schätzen von Verteilungsfunktionen eine wichtige Fragestellung. Wir betrachten Realisierungen von unabhängig und identisch gemäß der Verteilungsfunktion F verteilten Zufallsvariablen ε1 , . . . , εn . Die Verteilungsfunktion zu einer reellwertigen
Zufallsvariablen ε ist eine Abbildung F : IR → [0, 1]. Der Wert F (y) = IP(ε ≤ y) gibt die
Wahrscheinlichkeit an, mit der sich ε in einem Wert kleiner gleich y realisiert. Eine Verteilungsfunktion ist daher monoton wachsend und rechtsseitig stetig, und es gilt limy→−∞ F (y) = 0 und
limy→∞ F (y) = 1. Wir stellen hier einen grundlegenden Ansatz zum Schätzen einer Verteilungsfunktion vor. In parametrischen Zusammenhängen stellt das Likelihoodverfahren ein wichtiges
Konzept dar: Parametrische Likelihoodverfahren dienen der Schätzung von Verteilungen, die bis
auf eine endliche Anzahl an Parametern bekannt sind bzw. als bekannt vorausgesetzt werden.
Empirical-Likelihood-Verfahren stellen eine Fortentwicklung der parametrischen Likelihoodverfahren dar. Als Anfangspunkt für dieses Verfahren kann die Arbeit von Owen (1988) bezeichnet
werden. Grundlage des Empirical-Likelihood-Verfahrens ist die Idee, dass die empirische Verteilungsfunktion
n
1X
Fn (y) =
I{εi ≤ y}
(3)
n i=1
Q
den Ausdruck L(F̃ ) = ni=1 (F̃ (εi ) − F̃ (εi −)) über alle Verteilungsfunktionen F̃ maximiert.
Dabei bezeichnet F̃ (εi −) den linksseitigen Grenzwert der Funktion F̃ im Punkt εi . Die normierte Funktion Fn an der Stelle y zählt die Realisierungen unterhalb von y aus n Daten;
damit ist Fn eine Treppenfunktion mit Sprüngen der Höhe 1/n pro Datum und dient als ein
erster Schätzer für eine Verteilungsfunktion. Grundlegende Ergebnisse von Donsker (1952) zei√
gen schwache Konvergenz des empirischen Prozesses n(Fn − F ) mit Fn aus (3) gegen eine
Brownsche Brücke B mit Kovarianzstruktur Cov(B(y), B(z)) = F (y ∧ z) − F (y)F (z). Als Verallgemeinerung ist der Empirical-Likelihood-Schätzer zu verstehen, er maximiert L(F̃ ) unter
Nebenbedingungen.
Überblick über Literatur
Unter Annahme von Zusatzinformationen wie etwa einem bekannten Erwartungswert und einer
bekannten Varianz wird der Schätzer modifiziert, indem die Maximierung von L(F̃ ) über alle
Verteilungsfunktionen F̃ durchgeführt wird, für welche eine entsprechende Nebenbedingung
gilt.
In der Arbeit von Qin und Lawless (1994) wird das Verfahren von Owen (1988) verallgemeinert. Es werden Daten zu unabhängig und identisch verteilten Zufallsvariablen erhoben, wobei
Teilinformationen über die zugrunde liegende ansonsten unbekannte Verteilungsfunktion in der
Form von sogenannten Schätzfunktionen g(ε, ϑ) = (g1 (ε, ϑ), . . . , gr (ε, ϑ)) mit IEF [g(ε, ϑ)] = 0
vorliegen. Wir betrachten unabhängige und identisch bezüglich der Verteilungsfunktion F verteilte d-dimensionale Zufallsvariablen ε1 , . . . , εn und einen p-dimensionalen Parameter ϑ zur
Verteilung F sowie eine r-dimensionale Nebeninformation g(ε, ϑ) (r ≥ p). Die Existenz eines
Einleitung
VII
Parameters ϑ werden wir im Folgenden nicht voraussetzen. Ein Beispiel für eine solche Nebeninformation ist die Kenntnis des Erwartungswerts zu der Verteilung: Für diese Nebeninformation
hängt g nicht von ϑ ab, und g besteht aus einer Komponente. Wir konstruieren g(ε) = ε mit
IE[g(ε1 )] = IE[ε1 ] = 0. Durch Maximierung von L(F̃ ) unter den in g formalisierten Nebenbedingungen erhalten wir den Empirical-Likelihood-Schätzer F̃n für die Verteilungsfunktion F .
Für beobachtbare Zufallsvariablen ε1 , . . . , εn ist F̃n unabhängig von einer sonstigen Modellwahl
von analoger Gestalt wie der in dieser Arbeit betrachtete Schätzer unter Verwendung der wahren Fehler anstelle der Residuen. Die Funktion F̃n ist eine Treppenfunktion wie Fn , allerdings
sind hier nicht alle Gewichte gleich 1/n, sondern werden in Abhängigkeit von der vorliegenden Zusatzinformation modifiziert. Qin und Lawless (1994) zeigen die schwache Konvergenz
√
des stochastischen Prozesses n(F̃n (y) − F (y)), y ∈ IR, gegen einen zentrierten Gaußprozess
mit Kovarianz F (y ∧ z) − F (y)F (z) − U (y)U (z)σ −2 mit U (y) = IE[g(εi )I{εi < y}], wenn der
Parameter ϑ nulldimensional gewählt wird: ohne Nebeninformation resultiert dies in der asymptotischen Varianz F (y)(1 − F (y)). Das bedeutet, dass das Empirical-Likelihood-Verfahren für
U (y) und die Fehlervarianz σ 2 ungleich Null zu einer eindeutigen Verbesserung der Schätzung,
d.h. einer kleineren Varianz F (y)(1 − F (y)) − U 2 (y)σ −2 führt.
In den vergangenen Jahrzehnten konzentrierte sich die Forschung vor allem auf die nichtparametrische Schätzung der Regressionsfunktion m und der Varianz IE[ε21 ] = σ 2 im homoskedastischen
Modell bzw. auf die nichtparametrische Schätzung der Regressionsfunktion m und der Varianzfunktion σ 2 (X) im heteroskedastischen Modell und zugehörige Hypothesentests. Erst jüngeren
Datums sind asymptotische Resultate zu möglichen Schätzern der Verteilung der nicht beobachtbaren Fehler ε1 , . . . , εn . Die empirische Verteilungsfunktion der geschätzten Fehler wurde
in aktuellen Arbeiten bei Goodness-of-Fit-Tests bezüglich der Regressions- oder Varianzfunktion weiterverwendet. Dazu vergleiche Pardo-Fernández, Van Keilegom und González-Manteiga
(2004) oder Neumeyer und Dette (2005).
In der Arbeit von Akritas und Van Keilegom (2001) wurde die Asymptotik zur empirischen
Verteilungsfunktion
n
1X
I{εˆi ≤ y}
(4)
F̂n (y) =
n i=1
der aus dem nichtparametrischen Modell geschätzten Residuen untersucht. Diese Autoren zeigen
unter bestimmten Annahmen an die Regressionsfunktion m und die Varianzfunktion σ 2 und
die entsprechenden Schätzer die schwache Konvergenz des empirischen Prozesses
√
n(F̂n (y) − F (y)), y ∈ IR
(5)
gegen einen Gaußprozess mit einer komplexen Kovarianzstruktur, die insbesondere von der
unbekannten Fehlerverteilungsfunktion und der unbekannten Dichte abhängt. Der Prozess hat
je nach Wahl der Konvergenzgeschwindigkeit der Bandbreite auch einen von Null verschiedenen
Bias. Müller, Schick und Wefelmeyer (2004) und Cheng (2005) betrachten geglättete Versionen
von (4).
VIII
Fragestellung
Die vorliegende Arbeit beschäftigt sich mit der Anwendung des Empirical-Likelihood-Verfahrens
auf die Schätzung der Fehlerverteilung basierend auf Residuen des nichtparametrischen Regressionsmodells. Ein erster Schätzer für die unbekannte Verteilungsfunktion des Fehlers ohne
Verwendung von Zusatzinformationen ist die empirische Verteilungsfunktion F̂n aus (4) der
Residuen des homoskedastischen oder des heteroskedastischen Regressionsmodells analog zur
empirischen Verteilungsfunktion der wahren Fehler in (3). Dieser Schätzer wurde in der Arbeit
von Akritas und Van Keilegom (2001) eingehend untersucht. In der vorliegenden Arbeit berücksichtigen wir Zusatzinformationen über die Fehlerverteilung im Regressionsmodell explizit in
der Konstruktion der Schätzer. Dabei untersuchen wir insbesondere den Empirical-LikelihoodSchätzer für die Verteilungsfunktion der Fehler
n
F̄n (y) =
1 X
1
I{εˆi ≤ y},
n i=1 1 + η̂nT g(ε̂i )
(6)
wobei der Vektor η̂n als Lösung der Gleichung
n
X
i=1
g(ε̂i )
=0
1 + η̂nT g(ε̂i )
(7)
definiert ist. Das Empirical-Likelihood-Verfahren berücksichtigt Zusatzinformationen über die
zu schätzende Fehlerverteilung in der Form bekannter Funktionen, sogenannter Schätzfunktionen g = (g1 , . . . , gk ) : IR → IRk mit der Eigenschaft IE[g(ε1 )] = 0, für die IE[gj2 (ε1 )] < ∞ für
alle j = 1, . . . , k gilt.
Wir betrachten dabei zwei Klassen von Schätzfunktionen. Die erste Klasse umfasst stetig differenzierbare Funktionen g, die gewisse Annahmen erfüllen. Als Beispiel aus der ersten Klasse
können wir etwa die modelleigene Annahme der Zentriertheit der Fehler darstellen, sie lautet g(ε) = ε. Ein weiteres Beispiel für eine Zusatzinformation ist die Bekanntheit der Varianz des Fehlers mit der zugehörigen Schätzfunktion g(ε) = ε2 − σ 2 . Eine Kombination der
beiden genannten Beispiele bildet eine dritte Möglichkeit mit g(ε) = (ε, ε2 − σ 2 )T . Die zweite Klasse enthält eindimensionale Funktionen g(ε) = I{ε ≤ a} − b mit Konstanten a und
b = F (y) ∈
/ {0, 1}, mit der wir unter anderem Informationen über die Quantile (z.B. über den
Median) beschreiben können.
Das Kernstück der mathematischen Analyse ist der Nachweis eines funktionalen Grenzwertsatzes für den empirischen Prozess
√
n(F̄n (y) − F (y)), y ∈ IR
(8)
für Residuen aus dem homoskedastischen Modell oder dem heteroskedastischen Modell und für
jeweils einen bestimmten Typ von Schätzfunktionen g. In dieser Arbeit zeigen wir jeweils die
schwache Konvergenz gegen einen Gaußprozess unter Angabe der entsprechenden Kovarianzfunktion.
Einleitung
IX
Nach der asymptotischen Untersuchung des Empirical-Likelihood-Schätzers beantworten wir
die Frage, ob die Schätzung der unbekannten Fehlerverteilung durch die Einbeziehung von Zusatzinformationen allgemein und in speziellen Beispielen verbessert wird und in welchem Maß.
Zum Vergleich ziehen wir den bei Akritas und Van Keilegom (2001) untersuchten Schätzer
F̂n aus (4) heran. Grundsätzlich ist bei der Verwendung von mehr Information eine bessere
Schätzung zu erwarten; die Verbesserungen quantifizieren wir im einzelnen.
Tatsächlich erhalten wir als Konsequenz der Veränderungen in den stochastischen Entwicklungen zu F̄n verglichen mit denen zu F̂n auch Änderungen im asymptotischen Bias und der
komplexen asymptotischen Varianz, die sich in vielen Beispielen an merklichen Verbesserungen hinsichtlich einer oder beider Größen niederschlagen. Wir diskutieren diese Veränderungen
anhand einzelner Beispiele. Zur Veranschaulichung dieser Resultate ergänzen wir die asymptotischen Resultate durch Computer-Simulationen für eine Auswahl von Beispielen. In den
Simulationen untersuchen wir das Verhalten verschiedener konkreter Zusatzinformationen bei
unterschiedlichen wahren Fehlerverteilungen und Regressionsfunktionen. In dieser Arbeit wird
erstmals für dieses Regressionsmodell ein Schätzer für die Fehlerverteilung untersucht, dessen
Gestalt explizit Zusatzinformationen berücksichtigt, wobei die verwendbaren Zusatzinformationen zum Teil bereits Teil der Modellannahmen oder leicht zugänglich sind und deren Verwendung sich daher empfiehlt.
Wir gehen an dieser Stelle noch auf die Plausibilität von Zusatzinformationen ein. Die Formalisierung der Zusatzinformationen erfolgt in Annahme (A) auf Seite 19. Dass in Anwendungen
über Zusatzinformationen verfügt wird, ergibt sich aus der Tatsache, dass viele Studien mit sehr
ähnlichem Aufbau wiederholt werden. Unser Verfahren ermöglicht es, gesicherte Informationen
aus vorausgegangenen Studien in die neue Studie einzubinden und damit für eine Verbesserung
der Schätzung zu nutzen. Im Fall der Unsicherheit, ob tatsächlich eine mögliche Zusatzinformation gilt, kann vor der Schätzung auf die Gültigkeit der Zusatzinformation getestet werden.
Wir stellen in Kapitel 6 eine Reihe von Verfahren dazu vor.
Zum Abschluss dieses Überblicks werden die beiden folgenden Anwendungsgebiete gesondert
herausgestellt.
Nach Akritas und Van Keilegom (2001) können konsistente Schätzer für Regressionsfunktion
und Fehlerverteilung zur Konstruktion von Vorhersageintervallen
h
α
α i
, m̂(x) + F̂ −1 1 −
m̂(x) + F̂ −1
h
2
2 α i
−1 α
−1
bzw. m̂(x) + σ̂(x)F̂
, m̂(x) + σ̂(x)F̂
1−
2
2
für zukünftige Beobachtungen an einer festen Stelle x ∈ [0, 1] zum Niveau α verwendet werden.
Dabei bezeichnet m̂ den Schätzer für die Regressionsfunktion, σ̂ 2 den Schätzer für die Varianzfunktion und F̂ −1 (α/2) ein geeignetes α/2−Quantil zum Schätzer der Fehlerverteilung im
linken Intervall zu Modell (1) und im rechten Intervall zu (2).
Eine weitere Anwendung ist die Konstruktion von Testverfahren. Die empirische Verteilungs-
X
funktion der Residuen wird in den Arbeiten Van Keilegom, González-Manteiga und Sánchez
Sellero (2004) und in Dette und Van Keilegom (2005) zur Konstruktion von Anpassungstests
bezüglich der Regressionskurve und der Varianzfunktion aufgegriffen. Zum Test auf Gleichheit von Regressionsfunktionen bei Betrachtung von zwei Datensätzen wird sie ebenfalls eingesetzt, vgl. Pardo-Fernández, Van Keilegom und González-Manteiga (2004) und Neumeyer und
Dette (2005), und zum Test auf Gleichheit verschiedener Fehlerverteilungen in Pardo-Fernández
(2006). Für die Einbindung in Testverfahren wird außerdem auf Kapitel 6 verwiesen.
Überblick über Methoden
In beiden Modellen (1) und (2) müssen die nicht beobachtbaren Fehler aus den Daten geschätzt
werden. Wir haben die Residuen mit Hilfe von Schätzern für die Regressions- und Varianzfunktion definiert, sie hängen auf komplexe Weise von den zugrundeliegenden Daten ab. Der
Schätzer F̄n enthält in den modifizierten Gewichten eine weitere Abhängigkeit von der Funktion
g angewendet auf die Residuen und von dem Lagrange-Multiplikator η̂n , der als Lösung einer
Gleichung mit g(ε̂1 ), . . . , g(ε̂n ) definiert ist. Die Wahl der Schätzer m̂, σ̂ 2 hat unmittelbaren
Einfluss auf das Verhalten der Residuen. Die vorliegende Arbeit konzentriert sich diesbezüglich
auf den Nadaraya-Watson-Schätzer für die Regressionsfunktion m und einen analogen Schätzer
für die Varianzfunktion σ 2 (siehe Nadaraya (1964) oder Watson (1964)). Für diverse Beweise
innerhalb der Entwicklungen werden Funktionen in Funktionenklassen eingebettet. Das Verhalten der stochastischen Prozesse in Abhängigkeit von Funktionen wird indirekt nachgewiesen,
indem Aussagen über empirische Prozesse indiziert in Funktionenklassen gezeigt werden. Diese
Prinzipien zur schwachen Konvergenz empirischer Prozesse werden bereits von Akritas und Van
Keilegom (2001) benutzt. Eine Darstellung der Methoden findet sich in Van der Vaart, Kapitel
19 (1998) und Van der Vaart und Wellner (1996).
Ein Vergleich zwischen den beiden Schätzern aus (4) und (6) erfolgt, indem wir den asymptotischen Bias und die asymptotische Varianz des hier zu untersuchenden stochastischen Prozesses
(8) und des bei Akritas und Van Keilegom (2001) untersuchten empirischen Prozesses (5) einander gegenüberstellen. Wir betrachten zusätzlich den mittleren quadratischen Fehler (mean
squared error), der sich aus der asymptotischen Varianz und dem Bias zusammensetzt.
Gliederung
Die vorliegende Arbeit ist wie folgt gegliedert.
In den sich anschließenden Grundlagen in Kapitel 1 beginnen wir mit der Einführung von später
verwendeten Begrifflichkeiten und Sätzen. Wir stellen das Konzept der Kerndichteschätzung,
die Konstruktion der Schätzfunktionen m̂ und σ̂ 2 , die uns hier interessierenden nichtparametrischen Regressionsmodelle, damit verbundene Techniken und wichtige Veröffentlichungen vor.
In Kapitel 2 führen wir in das Empirical-Likelihood-Verfahren ein. Diese Methode bestimmt
die Form des uns interessierenden Schätzers maßgeblich und verwendet die Zusatzinformation
explizit in der Gestalt der Gewichte der modifizierten empirischen Verteilungsfunktion.
Einleitung
XI
In beiden darauffolgenden Kapiteln stellen wir die zentralen Resultate vor und beweisen diese,
und zwar in Kapitel 3 bezogen auf das homoskedastische und in Kapitel 4 bezogen auf das
heteroskedastische Regressionsmodell. Wir zeigen zuerst in Kapitel 3 eine Reihe von Hilfsresultaten, so dass wir in den Sätzen 3.12 und 3.14 den Nachweis der schwachen Konvergenz der
interessierenden empirischen Prozesse bezogen auf die Residuen im homoskedastischen Regressionsmodell führen können. Mit einer ähnlichen Struktur folgt Kapitel 4 mit einer Reihe von
Hilfsresultaten und den zentralen Sätzen 4.10 und 4.11.
Die Resultate veranschaulichen wir anhand von Beispielen und Simulationen in Kapitel 5.
Durch die Simulationen erhalten wir wichtige Hinweise auf das Verhalten im Fall moderater
Stichprobenumfänge.
Mit Betrachtungen zu einer Reihe von verwandten Testverfahren in Kapitel 6 schließen wir
die Untersuchung des Schätzers F̄n ab. Diese bieten sich zum Testen auf Gültigkeit der für die
Schätzung interessanten Zusatzinformationen im Vorfeld der Schätzung an.
XII
Kapitel 1
Grundlagen
1.1
Überblick
Wir beginnen dieses Kapitel mit einer Reihe von Notationen und Bezeichnungen in Abschnitt
1.2. Im Anschluss daran führen wir in Abschnitt 1.3 stochastische und empirische Prozesse ein.
Die damit verbundenen Begriffe werden in einigen Beweisen benutzt. Den Begriff des Regressionsmodells und die Definition des Kernschätzers, den wir für die Untersuchung von Regressionsmodellen verwenden wollen, betrachten wir in den Abschnitten 1.4 und 1.5. In Abschnitt
1.5 formulieren wir außerdem einige Annahmen, welche wir für die folgenden Kapitel brauchen.
Diesen Abschnitt teilen wir für zwei Ausprägungen des nichtparametrischen Regressionsmodells
auf. Das homoskedastische Modell mit den zugehörigen Annahmen stellen wir in Abschnitt 1.5.1
vor, das heteroskedastische Modell entsprechend in Abschnitt 1.5.2. Die zentrale Annahme hinsichtlich der Zusatzinformation formulieren wir in Abschnitt 1.6. Das Kapitel beenden wir mit
einer Darstellung benachbarter Arbeiten in Abschnitt 1.7. Abschnitt 1.7.1 dient einer Übersicht
der entsprechenden Arbeiten. Herausgehoben wird die im Folgenden besonders wichtige Arbeit
von Akritas und Van Keilegom (2001). In Abschnitt 1.7.2 stellen wir ihre Resultate sowohl
hinsichtlich des homoskedastischen als auch hinsichtlich des heteroskedastischen Modells vor.
1.2
Bezeichnungen
In der vorliegenden Arbeit bezeichnen wir mit X, Y, . . . reellwertige Zufallsvariablen oder kurz
Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, IP). Der Wahrscheinlichkeitsraum
besteht aus einem Grundraum Ω, mit einer aus bestimmten Teilmengen von Ω bestehenden
σ−Algebra A und einem Wahrscheinlichkeitsmaß IP auf A. Ein Wahrscheinlichkeitsmaß P zu
einer Zufallsvariable X wird definiert als P = IPX = IP ◦ X −1 . Die Zufallsvariablen können
unterschiedliche Messräume besitzen, und den einzelnen Zufallsvariablen mit verschiedenen
Messräumen werden Wahrscheinlichkeitsmaße zugeordnet; diese beschreiben die Verteilung
der einzelnen Zufallsvariablen. Die Borel−σ−Algebra B auf einem Raum Ω ist die kleinste
σ−Algebra, die alle offenen Mengen in Ω enthält, sie wird auch als die von der Familie der offenen Mengen erzeugte σ−Algebra bezeichnet. Eine Verteilung zu einer Zufallsvariablen X ordnet
1
2
Kapitel 1. Grundlagen
jedem Element B der Borel−σ−Algebra B einen Wert in [0, 1] zu, also die Wahrscheinlichkeit,
mit der sich X in B realisiert. Existiert eine Dichte f zu einer Verteilung in IR, so beschreibt
Rx
das Integral F (x) = −∞ f (z)dz den Wert der entsprechenden Verteilungsfunktion F . Eine
R∞
Verteilungsfunktion F ist monoton wachsend. Weil f eine Dichte ist, gilt −∞ f (z)dz = 1. In
dieser Arbeit geht es um die Schätzung einer Verteilungsfunktion in einer bestimmten Situation.
Zur Konvergenz von Folgen von Zufallsvariablen (Xn )n∈IN und (Yn )n∈IN werden die folgenden
Notationen wiederholt verwendet: Im Fall der (IP-)fast sicheren (f.s.) Konvergenz von Xn gegen
X, die nach Definition im Fall der Gültigkeit von IP(limn→∞ Xn = X) = 1 gilt, schreiben wir
f.s.
IP
Xn → X. Der Ausdruck Xn → X steht für (IP-)stochastische Konvergenz von Xn gegen eine
Zufallsvariable X und ist nach Definition genau dann gültig, wenn
lim IP(|Xn − X| ≥ ε) = 0 für alle ε > 0
n→∞
gilt. Schwache Konvergenz von stochastischen Prozessen wird in Definition 1.5 eingeführt. Bei
allen angegebenen Konvergenzarten kann auf den Zusatz n → ∞ verzichtet werden, wenn klar
ist, dass es sich um die asymptotische Betrachtung für n → ∞ handelt.
Die Landauschen Symbole für reelle Zahlenfolgen an , bn bezeichnen eine Folge an mit an = o(bn ),
falls limn→∞ abnn = 0 gilt. Ähnlich bedeutet die Notation an = O(bn ), dass es sich bei an /bn um
eine beschränkte Folge handelt. Analog schreiben wir stochastische Nullfolgen und stochastisch
beschränkte Folgen wie folgt: Die Notation Xn = oP (Yn ) steht für (IP-) stochastische Konvergenz des Quotienten Xn /Yn gegen Null. Schließlich bezeichnet Xn = OP (Yn ) (IP-) stochastische
Beschränktheit der Folge Xn /Yn in dem Sinn, dass für alle ε > 0 ein positives M existiert, so
dass IP(|Xn /Yn | > M) ≤ ε für alle n ∈ IN gültig ist.
Zur Schätzung von unbekannten Parametern oder funktionswertigen Größen werden Schätzer
verwendet. Formal nennen wir eine messbare Abbildung S : (IRn , Bn ) → (IRd , Bd ) einen Punktschätzer S für einen Parameter ϑ ∈ IRd , wobei sich der Schätzer auf ein n−Tupel reellwertiger
Zufallsvariablen bezieht. Der Parameter ϑ ist eine Kenngröße der Verteilung dieser Zufallsvariablen. In dieser Arbeit betrachten wir das Verhalten bestimmter Schätzer für funktionswertige
Größen wie Regressionskurven und Verteilungsfunktionen. Den Fall der Schätzung einer Verteilungsfunktion an einer bestimmten Stelle x ∈ IR können wir wie folgt mit dem Begriff des
Punktschätzers beschreiben. Wir betrachten also eine Schätzung von F (x) für festes x ∈ IR,
wobei Xi ∼ F, F : IR → IR gilt. Mit ϑ = F (x), S : IRn → IR und S(X1 , . . . , Xn ) = ϑ̂ ist die
Abbildung S von der Gestalt des eingeführten Punktschätzers.
1.3
Stochastische und empirische Prozesse
In diesem Abschnitt werden stochastische Prozesse und ein Spezialfall von ihnen, die empirischen Prozesse, eingeführt und die Indizierung von stochastischen Prozessen auf Funktionenklassen vorgestellt. Die damit verbundenen Begriffe und Methoden werden für einige Beweise
1.3 Stochastische und empirische Prozesse
3
benötigt, in Kapitel 3 für Lemma 3.5, (ii), (iv) und (v) und die Sätze 3.11, 3.12 und 3.14 und
für ähnliche Behauptungen in Kapitel 4 in den Sätzen 4.8, 4.9, 4.10 und 4.11.
Der erste Teil des Abschnitts dient zur Herleitung der Begriffe, die für den Satz von Donsker für
den uniformen empirischen Prozess (Satz 1.6) und die schwache Konvergenz des empirischen
Prozesses (Satz 1.8) gebraucht werden. Für die vorgestellten Eigenschaften der empirischen
Verteilungsfunktion Fn und des empirischen Prozesses und ihre Beweise wird auf Billingsley
(1968) verwiesen.
Der zweite Teil des Abschnitts hat die Aufgabe, die Betrachtung auf solche stochastischen Prozesse zu erweitern, deren Indexmenge nicht mehr die reellen Zahlen oder ein Teil der reellen
Zahlen sind, sondern Funktionenklassen. Ein Ziel ist die Definition schwacher Konvergenz für
bezüglich Funktionenklassen indizierte stochastische Prozesse. Im Anschluss an Satz 1.8 motivieren wir diese Erweiterung und stellen eine Reihe wichtiger Begriffe vor. Wir verweisen auf
Van der Vaart und Wellner (1996) (kurz: VVW (1996)), Shorack und Wellner (1986) und Pollard (1984) und geben im Folgenden an einigen Stellen zusätzlich detaillierte Verweise an.
Der klassische Schätzer einer Verteilungsfunktion ist die sogenannte empirische Verteilungsfunktion, die im Folgenden ausführlich vorgestellt wird. Wir betrachten in diesem Abschnitt
generell unabhängige und identisch verteilte (i.i.d.) reellwertige Zufallsvariablen X1 , . . . , Xn ,
n ∈ IN, über einem beliebigen Wahrscheinlichkeitsraum (Ω, A, IP), die nach der gleichen Verteilungsfunktion F verteilt sind: Ist F nicht bekannt, so können wir F an der Stelle t ∈ IR
auf der Grundlage von Zufallsvariablen X1 , . . . , Xn durch die empirische Verteilungsfunktion
Fn schätzen, die folgendermaßen definiert ist:
n
Fn (t) :=
1X
I{Xi ≤ t}.
n i=1
(1.1)
Dabei nimmt die Indikatorfunktion I{Xi ≤ t} den Wert 1 an, falls das Ereignis {Xi ≤ t} eintritt,
und sonst den Wert Null. Für Realisierungen (X1 (ω), . . . , Xn (ω)) und festes t ist Fn (ω, t) =
Pn
1
i=1 I{Xi (ω) ≤ t} dann eine Realisierung der Zufallsvariablen Fn (t). Bei Fn (ω, t), t ∈ IR,
n
handelt es sich um eine Treppenfunktion mit Sprüngen um 1/n bei den Realisierungen der
Zufallsvariablen.
Analog ist die uniforme empirische Verteilungsfunktion Gn zum Stichprobenumfang n für unabhängige und identisch U (0, 1)-verteilte Zufallsvariablen U1 , . . . , Un , n ∈ IN, definiert als
n
1X
Gn (t) :=
I{0 ≤ Ui ≤ t}, 0 ≤ t ≤ 1.
n i=1
(1.2)
Auf Gn werden wir in Definition 1.4 zurückgreifen. Nach dem folgenden klassischen Resultat
ist bekannt, dass die empirische Verteilungsfunktion fast sicher gleichmäßig gegen die Verteilungsfunktion der betrachteten Zufallsvariablen konvergiert:
4
Kapitel 1. Grundlagen
Satz 1.1 (Glivenko-Cantelli). Für eine Folge unabhängiger und identisch verteilter Zufallsvariablen (Xn )n∈IN mit Verteilungsfunktion F gilt
lim sup |Fn (x) − F (x)| = 0 fast sicher.
n→∞ x∈IR
Definition 1.2 (Stochastischer Prozess). Ein stochastischer Prozess (X(·, t))t∈T ist eine Familie von reellen Zufallsvariablen, welche auf einem gemeinsamen Wahrscheinlichkeitsraum
(Ω, A, IP) definiert sind. Für festes t ist X(·, t) eine Zufallsvariable X(·, t) : Ω → IR, ω 7→
X(ω, t). Wir setzen voraus, dass für jedes feste ω ∈ Ω der zugehörige Pfad, welcher durch die
Abbildung t 7→ X(ω, t) beschrieben wird, in einem metrischen Raum mit einer zugehörigen σAlgebra liegt. T bezeichnet eine beliebig wählbare Indexmenge. Als Pfadraum wird die Menge
der zugehörigen Pfade bezeichnet. Wir sprechen von einem zentrierten stochastischen Prozess,
wenn die Erwartungswerte IE[X(·, t)] für jedes t ∈ T gleich Null sind.
Die Abhängigkeit von ω ∈ Ω in Definition 1.2 wird in der Notation meist unterdrückt, wir
bezeichnen (X(t))t∈IR daher als stochastischen Prozess. Die Indexmenge T kann eine Klasse
von Funktionen sein und im Spezialfall von Indikatorfunktionen durch Teilmengen von IR (z.B.
[0, 1]) repräsentiert werden. Wir betrachten als Beispiel die Funktionen der Form t 7→ I{X1 ≤ t}
für t ∈ IR. I{X1 ≤ t} stellt für festes t eine Zufallsvariable dar, wenn es sich bei X1 um eine
Zufallsvariable handelt. Bei (I{X1 ≤ t})t∈IR handelt es sich um den zugehörigen stochastischen
Prozess.
Wir definieren spezielle stochastische Prozesse: Die Bezeichnung Gaußprozess wird für solche
stochastischen Prozesse (X(t)), t ∈ T , verwendet, bei denen die Vektoren (X(t1 ), . . . , X(tm ))T ,
t1 , . . . , tm ∈ T der Länge m für alle m ∈ IN normalverteilt sind, also gemäß Nm (µ, Σ) mit
Erwartungswertvektor µ und Kovarianzmatrix Σ verteilt sind. Dabei können µ und Σ jeweils
von den betrachteten Indizes in T abhängen. In den hier gezeigten Sätzen zur schwachen Konvergenz von stochastischen Prozessen treten Gaußprozesse als Grenzprozesse auf.
Ein Spezialfall für einen Gaußprozess ist die sogenannte Brownsche Brücke B 0 : Der Prozess B 0
bezeichnet einen zentrierten Gaußprozess mit fast sicher stetigen Pfaden und der Kovarianzfunktion
Cov(B 0 (s), B 0 (t)) = min(s, t) − s t, 0 ≤ s, t ≤ 1.
(1.3)
Bei der Konstruktion von Zufallsvariablen ist wichtig, welche Eigenschaften sie als Abbildungen
zwischen ihrem Wahrscheinlichkeitsraum (Ω, A, IP) und Messraum (IR, B) (im Fall reellwertiger
Zufallsvariablen) haben. Eine Grundforderung ist im Fall reellwertiger Zufallsvariablen, dass die
Abbildung (A, B)−messbar ist. Da wir zu stochastischen Prozessen übergehen, interessieren wir
uns in besonderer Weise für deren Pfadräume.
Definition 1.3 (cadlag-Raum). Der cadlag-Raum D([0, 1]) bezeichnet die folgende Menge von
Funktionen
D([0, 1]) := {f : [0, 1] → IR | lim f (s) = f (t) für alle t ∈ [0, 1) und
s↓t
lim f (s) existiert in IR für alle t ∈ (0, 1] }.
s↑t
1.3 Stochastische und empirische Prozesse
5
Die Menge enthält also diejenigen reellwertigen Funktionen auf [0, 1], welche rechtsstetig sind
und für welche linksseitige Grenzwerte existieren.
Die Abkürzung cadlag steht für den französischen Ausdruck continue à droite, limites à gauche.
Vergleiche zu D([0, 1]) Billingsley (1968), S. 109, Shorack und Wellner (1986), S. 26 und Pollard
(1984), S. 89. Die Menge D([0, 1]) umfasst also in geeigneter Weise nichtstetige (engl.: discontinuous, daher die Bezeichnung D) Funktionen. D([0, 1]) begegnet uns sofort als Pfadraum in
der folgenden Definition.
Definition 1.4 (Uniformer empirischer Prozess). Der stochastische Prozess Gn = (Gn (t))t∈[0,1]
zur uniformen empirischen Verteilungsfunktion Gn aus (1.2) hat als Pfadraum den cadlag-Raum
D([0, 1]): für jedes feste ω ∈ Ω ist der Pfad Gn (ω, ·), welcher als Abbildung jedem t ∈ [0, 1] den
Wert Gn (ω, t) zuordnet, ein Element von D([0, 1]).
Als uniformen empirischen Prozess αn zum Stichprobenumfang n bezeichnen wir mit Hilfe der
uniformen empirischen Verteilungsfunktion Gn aus (1.2) den stochastischen Prozess
√
n(Gn (t) − t) 0≤t≤1 .
(αn (t))0≤t≤1 :=
Es ist wichtig, den Raum D([0, 1]) mit einer geeigneten Metrik zu versehen, um damit schwache
Konvergenz in Definition 1.5 definieren zu können. Wir betrachten ihn daher zusammen mit
der Supremumsnorm
kf k := sup |f (t)|,
(1.4)
t∈[0,1]
Mit dieser Norm verwenden wir eine passende σ−Algebra: sie wird erzeugt durch die offenen
Bälle
{f : kf − f0 k < d}, f0 ∈ D([0, 1]), d ∈ IR+ .
(1.5)
Zusammen mit dieser σ−Algebra können wir die schwache Konvergenz zum Pfadraum D([0, 1])
einführen:
Definition 1.5. Eine Folge (Xn (·))n∈IN von stochastischen Prozessen im Raum D([0, 1]) konvergiert schwach gegen einen stochastischen Prozess X(·) in D([0, 1]), wenn
lim IE[H(Xn )] = IE[H(X)]
n→∞
(1.6)
für alle beschränkten Funktionale H : D([0, 1]) → IR gilt, welche bezüglich der durch die offenen
Bälle in D([0, 1]) erzeugten σ−Algebra messbar und außerdem bezüglich der Supremumsnorm
stetig sind.
Strenggenommen wird von Verteilungskonvergenz von Zufallsvariablen und der schwachen Konvergenz zugehöriger Wahrscheinlichkeitsmaße gesprochen, in der vorausgegangenen Definition
wird wie auch sonst diese Trennung nicht verfolgt. Bei stochastischen Prozessen wird schwache
Konvergenz betrachtet. Nach dem Satz von Donsker gilt schwache Konvergenz insbesondere
für den uniformen empirischen Prozess αn aus Definition 1.4 (vgl. Billingsley (1968), Theorem
13.1):
6
Kapitel 1. Grundlagen
Satz 1.6 (Donsker). Der uniforme empirische Prozess αn aus Definition 1.4 konvergiert
schwach gegen die Brownsche Brücke B 0 in D([0,1]) für n → ∞.
Nach dem Spezialfall von U (0, 1)-verteilten Zufallsvariablen erhalten wir nun für unabhängige
und identisch nach einer beliebigen Verteilungsfunktion F verteilte reelle Zufallsvariablen die
folgenden Versionen von Definition 1.3 und Satz 1.6.
Definition 1.7 (Empirischer Prozess). Zur empirischen Verteilungsfunktion Fn aus (1.1) definieren wir den stochastischen Prozess
√
n(Fn (t) − F (t)) −∞≤t≤∞
(1.7)
αnF (t) −∞≤t≤∞ :=
als empirischen Prozess αnF zu einer Verteilungsfunktion F mit Stichprobenumfang n.
Weil wir für den empirischen Prozess die erweiterte reelle Achse als Indexbereich betrachten
wollen, definieren wir an dieser Stelle analog zum cadlag-Raum D([0, 1]) zum Intervall [0, 1]
den Pfadraum
D([−∞, ∞]) := {f : [−∞, ∞] → IR | lim f (s) = f (t) für alle t ∈ [−∞, ∞) und
s↓t
lim f (s) existiert in IR für alle t ∈ (−∞, ∞]}.
s↑t
Wie auch im Beweis zu Satz 1.8 angesprochen, lässt sich die Vergehensweise für uniforme
empirische Prozesse mit Pfaden in D([0, 1]) für empirische Prozesse mit Pfaden in D([−∞, ∞])
verwenden: dazu erweitern wir die Definition der auftretenden Verteilungsfunktionen F : IR →
[0, 1] durch F (−∞) := limx→−∞ F (x) = 0 und F (∞) := limx→∞ F (x) = 1, wenden im Fall
stetiger Verteilungsfunktionen F die Quantilstransformation F −1 an und erhalten so wieder
Prozesse mit Pfaden in D([0, 1]).
Satz 1.8 (Schwache Konvergenz für den empirischen Prozess). Für den stochastischen Prozess
αnF aus Definition 1.7 bezüglich einer stetigen Verteilungsfunktion F und die Brownsche Brücke
B 0 von Seite 4 gilt schwache Konvergenz von αnF gegen B 0 ◦ F für n → ∞ in D([−∞, ∞]).
Es handelt sich bei B 0 ◦ F = (B 0 (F (t)))t∈[−∞,∞] um einen zentrierten Gaußprozess mit Kovarianzfunktion
Cov B 0 (F (s)), B 0 (F (t)) = min(F (s), F (t)) − F (s)F (t), −∞ ≤ s, t ≤ ∞.
Beweis zu Satz 1.8. Zum Beweis vergleiche Billingsley (1968), Theorem 16.4 unter Verwendung einer bijektiven Abbildung des kompakten Intervalls [0, 1] auf [−∞, ∞]. Um einen Prozess
auf dem Intervall [0, 1] zu erhalten, verwenden wir genauer eine Quantilstransformation mit F −1
bezüglich stetigem F und die Eigenschaft F (Xi ) ∼ U [0, 1].
Damit haben wir die Begriffe, die bei der Formulierung der schwachen Konvergenz des empirischen Prozesses auftreten, vorgestellt und den ersten Teil dieses Abschnitts abgeschlossen.
Im Folgenden stellen wir den Prozess vor, der uns besonders interessiert. Um diesen Prozess
untersuchen zu können, betrachten wir solche stochastischen Prozesse genauer, bei denen der
1.3 Stochastische und empirische Prozesse
7
Indexbereich nicht mehr aus den reellen Zahlen besteht.
In der folgenden Argumentation verwenden wir die Notation aus der folgenden Definition (vergleiche hierzu VVW (1996), S. 34).
Definition 1.9. Der Pfadraum l∞ (F) bezeichnet die Menge aller gleichmäßig beschränkten
reellen Funktionen auf F, d.h.
l∞ (F) := {z : F → IR : sup |z(ϕ)| < ∞}.
ϕ∈F
Zentrale Aussagen der vorliegenden Arbeit sind die schwache Konvergenz bestimmter stochastischer Prozesse. Wegen der Struktur der Residuen in (1.19), für welche die Zerlegung
m̂)(Xi )
σ(Xi )
ε̂i = (m−σ̂(X
+ σ̂(X
εi gilt, schreiben wir für F̂n (y)
i)
i)
n
n
1X
1X
σ̂(Xi ) (m − m̂)(Xi )
=
−
I{ε̂i ≤ y} = I εi ≤ y
I{εi ≤ yd1 (Xi ) + d2 (Xi )}.
n i=1
σ(Xi )
σ(Xi )
n i=1
Auf diese Weise erhalten wir wieder i.i.d. Zufallsvariablen auf der linken Seite innerhalb des Indikators zu Lasten von Funktionen auf der rechten Seite, die vom gesamten Datensatz abhängen.
√
Wir können so n(F̂n − F ) als empirischen Prozess schreiben, dessen Verhalten von den Eigenschaften der zufälligen Funktionen d1 und d2 abhängt. Unser Vorgehen wird sein, die em√
pirischen Prozesse n(F̂n − F ) durch eine Einbettung der Funktionen d1 und d2 in geeignete
Funktionenklassen zu untersuchen. Daher betrachten wir empirische Prozesse mit komplexeren
Indexbereichen als bisher. Die Verwendung von Funktionenklassen eröffnet uns eine Möglichkeit
zum Nachweis schwacher Konvergenz. Im Folgenden wird eine weitere Verallgemeinerung des
obigen Satzes von Donsker 1.6 hergeleitet (vgl. Satz 1.12).
In der herkömmlichen Betrachtung von Zufallsvariablen wird vorausgesetzt, dass für eine Folge
(Xn )n∈IN von Zufallsvariablen die Zufallsvariable Xn für jedes n eine Borel-messbare Abbildung
ist. Es gibt bei stochastischen Prozessen Beispiele, bei denen diese Borel-Messbarkeit nicht mehr
erfüllt ist.
Bemerkung 1.10. Wir betrachten beispielsweise den uniformen empirischen Prozess αn aus
Definition 1.4 bezüglich i.i.d. Zufallsvariablen, die als Koordinatenprojektionen auf dem Produktwahrscheinlichkeitsraum ([0, 1], B, λ)n definiert sind. λ bezeichnet das Lebesguemaß auf
[0, 1] und B die Borel−σ−Algebra zu [0, 1]. Betrachten wir αn als Abbildung von [0, 1]n nach
D([0, 1]), ist diese Abbildung nicht Borel-messbar, wenn D([0, 1]) mit der Supremumsnorm betrachtet wird. Die σ−Algebra D auf D([0, 1]) ist dann so groß, dass die Menge αn−1 (D) nicht
mehr vollständig in Bn liegt. Vergleiche hierzu VVW (1996), S. 2 und 3, für dieses Beispiel
insbesondere Problem 1.7.3 und Billingsley (1968), S. 150 – 153.
Entsprechend wird versucht, diese Messbarkeit wiederherzustellen, indem wir die verwendete
Metrik und σ−Algebra geeignet wählen, oder das Problem der fehlenden Messbarkeit geschickt
8
Kapitel 1. Grundlagen
zu umgehen. Bei der Entwicklung der Methoden zur schwachen Konvergenz für komplexere
stochastische Prozesse wurden aufgrund dieses Problems verschiedene Ansätze verfolgt. Wir
stellen hier zwei Ansätze kurz vor, für die wir einerseits auf Pollard (1984) und andererseits auf
VVW (1996) (für einen Kurzüberblick S. 2 und 3) verweisen.
Eine Möglichkeit ist, sogenannte äußere Erwartungen anstelle der üblichen Erwartungen zu
betrachten, die für beliebige (nicht notwendig messbare) Abbildungen des Wahrscheinlich¯ definiert werden. Die Forderung der
keitsraums (Ω, A, IP) auf die erweiterte reelle Achse IR
Borel-Messbarkeit bezieht sich dann nur noch auf den Grenzprozess. Damit definieren wir die
schwache Konvergenz eines stochastischen Prozesses in l∞ (F) wie in Definition 1.5, wobei wir
ohne Messbarkeitsannahme den Messraum (l∞ (F), B) mit der zugehörigen Borel−σ−Algebra
wählen und oben genannte äußere Erwartungen benutzen.
Eine andere Möglichkeit ist das Erhalten der Messbarkeit durch Verkleinerung der betrachteten σ−Algebra, indem diese von den offenen Bällen anstelle aller offenen Mengen erzeugt
wird. Vergleiche dazu (1.5). Dabei verwenden wir nach wie vor die Supremumsnorm: Schwache
Konvergenz im Fall von D([0, 1]) haben wir bereits mit der von den offenen Bällen erzeugten
σ−Algebra unter Verwendung der Supremumsnorm definiert.
Wir werden im Folgenden Resultate aus beiden Ansätzen verwenden, insbesondere Resultate
aus VVW (1996) mit der herkömmlichen Notation, denn beide Konzepte sind kompatibel (vgl.
hierzu VVW (1996), S. 34 und 82).
Es ist klar, dass es auf die Mächtigkeit der Funktionenklasse und die Beschaffenheit ihrer Elemente ankommt, ob für sie eine Erweiterung des Satzes von Glivenko-Cantelli oder auch des
Satzes von Donsker gilt. Wir interessieren uns dafür, wie wir stochastische Prozesse, die mit
Funktionenklassen indiziert sind, darauf untersuchen können, ob für sie ein erweiterter Satz
von Glivenko-Cantelli oder sogar Donsker gilt. Dazu führen wir eine Reihe von Definitionen
ein, wie sie bei VVW (1996), S. 80 ff. und S. 154 ff., zu finden sind.
Als Zufallselemente bezeichnen wir Verallgemeinerungen von Zufallsvariablen im folgenden
Sinn: sie sind (A, E)−messbare Abbildungen von einem Wahrscheinlichkeitsraum (Ω, A, IP) in
den Raum (X , E). Das empirische Maß Pn zu einer Menge von Zufallselementen X1 , . . . , Xn auf
P
einem messbaren Raum (Ω, A) bezeichnet das zufällige diskrete Maß Pn (C) = n1 ni=1 I{Xi ∈
C} (vgl. (1.1) für C = (−∞, x]).
Haben wir es mit einer Funktionenklasse F aus messbaren Funktionen ϕ : X → IR zu tun,
P
verstehen wir unter dem empirischen Maß Pn eine Abbildung, die ϕ auf n1 ni=1 ϕ(Xi ) abbildet.
Auf diese Weise können wir den durch die Klasse F indizierten empirischen Prozess definieren,
welcher ϕ auf
Z
n
1 X
√
ϕ(Xi ) − ϕdP
(1.8)
n i=1
R
abbildet. Dabei bezeichnet ϕdP den Erwartungswert von ϕ(X1 ) bezüglich P . Vgl. hierzu die
erste Definition des empirischen Prozesses in Definition 1.7.
1.3 Stochastische und empirische Prozesse
9
Den Satz von Glivenko-Cantelli und den Satz von Donsker schreiben wir jetzt für den mit F
indizierten empirischen Prozess:
Definition 1.11. Eine Funktionenklasse F wird P-Glivenko-Cantelli-Klasse f.s. (oder in Wahrscheinlichkeit) genannt, falls die folgende Konvergenz f.s. (oder in Wahrscheinlichkeit) gilt:
Z
n
1X
sup |
(ϕ(Xi ) − ϕdP )| −→ 0, n → ∞.
(1.9)
ϕ∈F n
i=1
Kurz sagen wir im Fall der Gültigkeit von (1.9), dass die Funktionenklasse F P-GlivenkoCantelli ist. Wenn bezüglich des verwendeten Maßes P keine Verwechslung möglich ist, unterdrücken wir die Angabe von P. Diese Definition gilt der Begriffsbildung, wir werden im
Anschluss an den folgenden Satz Methoden zum Nachweis solcher Konvergenzen für gegebene
Funktionenklassen einführen.
Definition 1.12. Eine Funktionenklasse F wird P-Donsker-Klasse genannt, falls die schwache
Konvergenz von
Z
n
√ 1 X
n
ϕ(Xi ) − ϕdP gegen G, n → ∞, in l∞ (F)
(1.10)
n i=1
gilt, mit einem straffen Borel-messbaren Element aus l∞ (F) als Grenzprozess G. Dabei beR
trachten wir unter der Annahme supϕ∈F |ϕ(x) − ϕdP | < ∞ für jedes x ∈ X von S. 8 den
n√
o
R
P
empirischen Prozess
n( n1 ni=1 ϕ(Xi ) − ϕdP ) : ϕ ∈ F als Abbildung nach l∞ (F).
Für die Notation vergleiche (1.8). Dabei heißt eine Borel-messbare Abbildung X von Ω in
einen metrischen Raum D straff, falls das zugehörige Maß P = IP ◦ X −1 straff ist. Ein BorelWahrscheinlichkeitsmaß P heißt straff, wenn für jedes ε > 0 eine kompakte Menge K mit
P (K) ≥ 1 − ε existiert (VVW (1996), S. 16).
Kurz bezeichnen wir die Funktionenklasse F als P-Donsker, wenn für sie (1.10) erfüllt ist. Wenn
bezüglich des Maßes P keine Verwechslung möglich ist, verkürzen wir auf die Bezeichnungen
wie im Fall von Glivenko-Cantelli-Klassen durch Unterdrücken der Angabe von P .
Eine erste Anwendung des Begriffs Donsker-Klasse stellt der folgende Satz 1.13 dar, er findet sich
als Lemma 19.24 in Van der Vaart (1998), S. 280. Dabei wird der Begriff der zufälligen Funktionen verwendet. Mit zufälligen Funktionen bezeichnen wir messbare Funktionen x 7→ fˆn (x, ω),
wobei fˆn (x, ω) für jedes feste x eine reelle Abbildung auf dem gleichen Wahrscheinlichkeitsraum darstellt, bezüglich dem auch die Beobachtungen X1 (ω), . . . , Xn (ω) definiert sind. Wir
benötigen hier noch die Notation der Lr (P )−Norm einer Funktion ϕ bezüglich eines Wahrscheinlichkeitsmaßes P , also
Z
1/r
r
kϕkP,r =
|ϕ| dP
(1.11)
(vergleiche VVW (1996), S. 84), und können Funktionen ϕ mit endlicher Lr (P )−Norm, d.h.
kϕkP,r < ∞, als ϕ ∈ Lr (P ) bezeichnen.
10
Kapitel 1. Grundlagen
Satz 1.13. Gegeben ist eine P -Donsker-Klasse F von messbaren Funktionen, und ϕ̂n bezeichnet
R
eine Folge zufälliger Funktionen, die ihre Werte in F annehmen, so dass |ϕ̂n − ϕ0 |2 dP für
ein ϕ0 ∈ L2 (P ) in Wahrscheinlichkeit gegen Null konvergiert. Dann konvergiert
!
Z
n
√
1X
n
(ϕ̂n (Xi ) − ϕ0 (Xi )) − (ϕ̂n − ϕ0 )dP
n i=1
in Wahrscheinlichkeit gegen Null, und damit gilt insbesondere Verteilungskonvergenz von
R
√ 1 Pn
n n i=1 (ϕ̂n − ϕ0 )(Xi ) − (ϕ̂n − ϕ0 )dP gegen Null.
Wie oben betont, hängt es von der Mächtigkeit der Funktionenklasse und der Beschaffenheit
ihrer Elemente ab, wie sich der nach der jeweiligen Funktionenklasse indizierte empirische
Prozess hinsichtlich der Glivenko-Cantelli- und Donsker-Eigenschaft verhält. Mit den folgenden
Begriffen können wir die entsprechende Funktionenklasse daraufhin untersuchen. Eingeführt
werden eine Einhüllende, deren Existenz an verschiedenen Stellen vorausgesetzt wird, und die
Konzepte von Überdeckung und Klammerung.
Definition 1.14. Als Einhüllende (engl.: envelope) oder Einhüllendenfunktion Φ zu einer
Funktionenklasse F wird jede Funktion x 7→ Φ(x) bezeichnet, für die für jedes ϕ ∈ F und
für jedes x ∈ X die Abschätzung |ϕ(x)| ≤ Φ(x) gilt. Die Einhüllende Φ muss dabei nicht selbst
in der Klasse F liegen.
Vgl. für Definition 1.14 und die beiden folgenden Definitionen VVW (1996), S. 83 und 84.
Definition 1.15. Als Überdeckungszahl (engl.: covering number) N (ε, F, k · k) bezeichnen wir
die minimale Anzahl von Bällen {ψ : kψ −ϕk < ε} mit Radius ε bezüglich der Norm k·k, welche
gebraucht werden, um die Menge F zu überdecken. Dabei ist ϕ ∈ F. Dabei müssen die Zentren
der Bälle endliche Norm besitzen, sie müssen aber nicht zu F gehören. Die logarithmierte
Überdeckungszahl log N (ε, F, k · k) nennen wir Entropie ohne Klammerung, und der Ausdruck
Z ∞p
log N (ε, F, k · k) dε
0
bezeichnet das zugehörige Überdeckungsintegral.
Definition 1.16. Zu zwei Funktionen l und u bezeichnet die Klammer (engl.: bracket) [l, u]
die Menge aller Funktionen ϕ mit l ≤ ϕ ≤ u. Eine ε−Klammer bezeichnet eine Klammer
[l, u] mit ku − lk < ε. Die Funktionen l, u müssen endliche Norm besitzen, es ist aber nicht
gefordert, dass sie in F liegen. Die Klammerungszahl N[ ] (ε, F, k · k) gibt die minimale Anzahl
von ε−Klammern bezüglich der Norm k · k an, welche zum Überdecken von F gebraucht wird.
Die logarithmierte Klammerungszahl log N[ ] (ε, F, k · k) nennen wir Entropie mit Klammerung,
und das Integral
Z q
∞
0
heißt Klammerungsintegral.
log N[ ] (ε, F, k · k) dε
1.3 Stochastische und empirische Prozesse
11
Der folgende Satz stellt eine Möglichkeit dar, wie wir bei geeignetem Verhalten eines Klammerungsintegrals zeigen können, dass eine Funktionenklasse F Donsker ist bzw. dass ein stochastischer Prozess indiziert nach einer geeigneten Funktionenklasse schwach konvergiert (vgl.
dazu (1.10)).
Satz 1.17. Eine Klasse F von messbaren Funktionen ist P −Donsker, falls das Klammerungsintegral bezüglich der L2 (P )-Norm endlich ist, d.h. falls
Z ∞q
log N[ ] (ε, F, L2 (P ))dε < ∞
0
gilt.
Vergleiche Definition 1.16 unter Verwendung der L2 (P )−Norm, für die Notation kϕkP,2 für ϕ ∈
F zur L2 (P )− Norm siehe (1.11). Für diesen Satz vergleiche VVW (1996), S.85. Wir stellen an
dieser Stelle einige Resultate zusammen, die sich mit der Beibehaltung der Klasseneigenschaften
unter bestimmten Operationen beschäftigen. Nach VVW (1996), Example 2.10.7, S. 192 gilt
R
Lemma 1.18. Für zwei Donskerklassen F und G mit supϕ∈F ∪G | ϕdP | < ∞ ist die paarweise
Summe F + G wieder eine Donskerklasse.
Für das folgende Lemma wird auf VVW (1996), Problem 8, S. 204 verwiesen:
R
Lemma 1.19. Für zwei Donskerklassen F und G mit supϕ1 ∈F | ϕ1 dP | < ∞ und supϕ2 ∈G
R
| ϕ2 dP | < ∞ ist die Klasse F · G von Produkten x 7→ ϕ1 (x)ϕ2 (x) mit ϕ1 ∈ F und ϕ2 ∈ G
eine Glivenko-Cantelli-Klasse in Wahrscheinlichkeit.
Lemma 1.18 und Lemma 1.19 werden in einigen Teilbeweisen zu Lemma 3.5 verwendet. Nach
den Glivenko-Cantelli- und Donsker-Klassen als spezielle Funktionenklassen führen wir im Folgenden eine weitere Klasse ein, nämlich die Vapnik-C̆ervonenkis-Klasse wie in VVW (1996), S.
85 und 86. Für Vapnik-C̆ervonenkis-Klassen sei auf Vapnik und C̆ervonenkis (1971) und (1981)
verwiesen. Der Nachweis, dass eine Klasse VC-Klasse ist, kann zum Nachweis der DonskerEigenschaft genutzt werden, wenn die Klasse außerdem weitere Eigenschaften besitzt. Dazu
dient insbesondere das in Satz 1.23 wiedergegebene Resultat. Im Beweis zu Satz 3.12 werden
wir den Begriff der VC-Klasse als Hilfsmittel in dieser Weise verwenden.
Im ersten Schritt definieren wir VC-Klassen von Mengen. Wir beschäftigen uns mit den möglichen Schnittmengen zweier Mengen, wobei eine der beiden Mengen n Elemente enthält. Nachher
wollen wir diese Schnitte für größere Zahlen n betrachten. Wir zählen die möglichen Teilmengen des Messraums X und einer endlichen Menge {x1 , . . . , xn } ⊂ X . Dabei bezeichnet C eine
Klasse von Teilmengen aus X . Bekanntlich lassen sich aus einer n-elementigen Menge höchstens
2n verschiedene Teilmengen bilden. Die Menge C wird nun als die Menge {x1 , . . . , xn } zerschlagend bezeichnet, wenn wir durch das Schneiden von Elementen C von C mit {x1 , . . . , xn } alle
möglichen 2n Teilmengen von {x1 , . . . , xn } erhalten können.
Betrachten wir diese Eigenschaft für wachsende n, so bezeichnet der VC-Index V (C) die kleinste
Zahl n, bei der keine Menge der Mächtigkeit n von C zerschlagen wird. Damit können wir die
Vapnik-C̆ervonenkis-Klassen definieren:
12
Kapitel 1. Grundlagen
Definition 1.20. Eine Vapnik-C̆ervonenkis-Klasse (kurz: VC-Klasse) bezeichnet eine Menge
C von messbaren Mengen, wenn der zugehörige VC-Index V (C) endlich ist.
Die Idee der Bildung von Schnittmengen ist verwendbar für die Überdeckungszahlen bei Klassen
von Indikatorfunktionen und bei der Beschränkung von gleichmäßigen Überdeckungszahlen. Mit
der folgenden Definition erhalten wir eine VC-Klasse von Funktionen, wenn die zugehörigen
Subgraphen eine VC-Klasse von Mengen gemäß Definition 1.20 bilden (vgl. VVW (1996), S.
86, S. 141). Jeder Funktion aus einer Menge können wir ihren Subgraph auf die folgende Weise
zuordnen: Ein Subgraph einer Funktion ϕ : X → IR bezeichnet die Teilmenge {(x, t) : t < ϕ(x)}
von X × IR.
Definition 1.21. Eine Menge von reellwertigen, messbaren Funktionen F auf einem Messraum
X heißt VC-Klasse von Funktionen, wenn die Menge aller Subgraphen der Funktionen in F eine
VC-Klasse von Mengen in X × IR bildet.
Wenn klar ist, ob die VC-Klasse von Funktionen oder Mengen gemeint ist, kann der Zusatz
bezüglich Funktionen oder Mengen unterdrückt werden. In diesem Zusammenhang definieren
wir noch punktweise separable Funktionenklassen:
Definition 1.22. Sei F eine Klasse von quadratintegrierbaren messbaren Funktionen ϕ : X →
IR auf einem Wahrscheinlichkeitsraum (X , A, P ). Eine Funktionenklasse F heißt punktweise
separabel, wenn eine abzählbare Teilmenge G ⊂ F und außerdem für jedes n ∈ IN eine Nullmenge Nn ⊂ X n (für P n ) existiert, so dass gilt: für alle (x1 , . . . , xn ) ∈
/ Nn und ϕ ∈ F existiert
eine Folge gm in G, so dass gm → ϕ in L2 (P ) gilt und die Konvergenz (gm (x1 ), . . . , gm (xn )) →
(ϕ(x1 ), . . . , ϕ(xn )) , m → ∞ erfüllt ist.
Für diese Definition vgl. VVW (1996), S. 116. Den Begriff verwenden wir im Beweis zu den
Sätzen 3.12, 3.14, 4.10 und 4.11 in Zusammenhang mit dem folgenden Satz, für den wir auf
VVW (1996), Theorem 2.6.8 und Bemerkungen im zugehörigen Beweis verweisen:
Satz 1.23. Eine punktweise separable Funktionenklasse F von Funktionen, welche eine VCKlasse ist und deren Funktionen eine quadratintegrierbare Einhüllende besitzen, ist eine DonskerKlasse.
Durch den folgenden Satz erhalten wir wieder für geeignete endlichdimensionale Vektorräume
VC-Klassen.
Satz 1.24. Jeder endlichdimensionale Vektorraum F bestehend aus messbaren Funktionen ϕ :
X → IR ist eine VC-Klasse vom VC-Index kleiner gleich dim(F) + 2.
Vgl. hierzu VVW (1996) Lemma 2.6.15, S. 146 und die Verwendung im Beweis zu Satz 3.12.
Satz 1.25. Sei F eine VC-Klasse von Funktionen bezüglich einer Menge X und g : X → IR
eine feste Funktion. Dann ist F · g = {ϕg : ϕ ∈ F} eine VC-Klasse.
1.3 Stochastische und empirische Prozesse
13
Vergleiche zum vorausgegangenen Resultat VVW (1996), Lemma 2.6.18 (vi), S. 147 und seine
Anwendung in Satz 3.11. In einigen Beweisen zu Entwicklungen ist es hilfreich zu zeigen, dass
uns interessierende Funktionen Element geeigneter Funktionenklassen sind, über die eine Reihe
von Aussagen zur Verfügung stehen.
Definition 1.26. Die Menge der differenzierbaren Funktionen h : [0, 1] → IR, für welche
max
|h′ (x) − h′ (y)|
sup |h(x)|, sup |h′ (x)| + sup
≤ δ
|x − y|α
x∈[0,1]
x∈[0,1]
x,y∈[0,1]
(1.12)
für ein α > 0 gilt, bildet die Funktionenklasse Cδ1+α [0, 1].
Vergleiche für Definition 1.26 VVW (1996), S. 154. In dieser Arbeit wird für den Nachweis der
schwachen Konvergenz der Weg über die Funktionenklassen genutzt. Wollen wir einen Satz wie
Satz 1.17 verwenden, schätzen wir den Ausdruck log N[ ] (ε, F, L2 (P )) durch einen geeigneten
Ausdruck abhängig von der späteren Integrationsvariable ε ab. An dieser Stelle betrachten wir
spezielle Abschätzungen für die Entropie mit und ohne Klammerung (vgl. Def. 1.15 und 1.16),
für den Fall, dass wir die Funktionenklasse Cδ1+α [0, 1] mit δ = 1 untersuchen. Vergleiche für die
beiden folgenden Aussagen VVW (1996), Theorem 2.7.1 und Korollar 2.7.2:
Satz 1.27. Wir betrachten Cδ1+α [0, 1] mit δ = 1 aus Definition 1.26. Dann existiert eine Konstante K = K(α), so dass
log N (ξ, C11+α [0, 1], k · k∞ ) ≤ K
für jedes ξ > 0 gilt.
1 1/(1+α)
ξ
Eine Abschätzung für die Entropie log N[ ] (ε, Cδ1+α [0, 1], Lr (Q)) ergibt sich aus
Lemma 1.28. Wir betrachten Cδ1+α [0, 1] mit δ = 1 aus Definition 1.26. Dann existiert eine
Konstante K = K(α), so dass
log N[ ] (ξ, C11+α [0, 1], Lr (Q)) ≤ K
1 1/(1+α)
ξ
für jedes r ≥ 1, ξ > 0 und Wahrscheinlichkeitsmaß Q auf [0, 1] gilt.
Die Anwendbarkeit von Satz 1.27 und Lemma 1.28 auf die Klassen Cδ1+α [0, 1] ergibt sich aus
VVW, Problem 2, S. 165:
Lemma 1.29. Sei k·k eine Norm auf einem Vektorraum reellwertiger Funktionen, und sei eine
Teilklasse F von Funktionen aus dem Vektorraum gegeben. Für die Entropie ohne Klammerung
der Klasse M F = {M ϕ|ϕ ∈ F} gilt dann N (ε, M F, k · k) = N (ε/M, F, k · k). Die gleiche
Relation gilt bei der Entropie mit Klammerung.
Damit haben wir einige grundlegende Begriffe und für unsere Verwendung wichtige Aussagen
und weitere Begrifflichkeiten aus der Theorie der stochastischen Prozesse vorgestellt.
14
1.4
Kapitel 1. Grundlagen
Kerndichteschätzer
Wir betrachten unabhängige und identisch bezüglich einer Dichte f verteilte Zufallsvariablen
X1 , . . . , Xn und sind an einer Schätzung der unbekannten Dichte f interessiert. Eine erste
Möglichkeit, eine Dichte ohne Annahme spezieller struktureller Eigenschaften zu schätzen, ist
ein Histogramm: Histogramme werden durch stückweise konstante Funktionen dargestellt, die
aufgrund einer Reihe von Sprüngen nicht überall stetig sind: Der Schätzer ist von der Form
P
fˆH (x) = (n|A(x)|)−1 ni=1 I{Xi ∈ A(x)}, wobei |A(x)| die Breite des aus dem Bildraum gewählten Intervalls A(x) zu einem Wert x angibt. Ein Datum erhält das Gewicht (n|A(x)|)−1 , sofern es
im Intervall A(x) liegt, und ansonsten Gewicht Null. Die Form des Histogramms hängt von der
Wahl der Zerlegung des betrachteten Bildraums in Intervalle ab (vgl. Wand und Jones (1995),
Abschnitt 1.2). Betrachten wir Umgebungen der Form A(x) = [x − h, x + h] für einen positiven
P
Abstand h, erhalten wir als naiven Dichteschätzer fˆn (x) = (2hn)−1 ni=1 I[x−h,x+h] (Xi ). Um zu
einer allgemeineren Schreibweise zu gelangen, nutzen wir aus, dass Xi ∈ [x−h, x+h] äquivalent
zu −1 ≤ (x − Xi )/h ≤ 1 ist. Mit dem Rechteck-Kern Kr (x) = 12 I{x ∈ [−1, 1]} gilt für den
naiven Dichteschätzer insgesamt die Darstellung
n
X
Xi − x
−1
ˆ
.
fn (x) = (nh)
Kr
h
i=1
Diese Darstellung lädt dazu ein, anstelle des Rechteck-Kerns Kr mit den einzig möglichen
Gewichten (2nh)−1 und 0 auch andere Funktionen zu verwenden, zum Beispiel den Gauß-Kern
K(u) := √12π exp − 21 u2 oder den Epanechnikov-Kern K(u) = 3/4(1 − u2 )I{|u| ≤ 1}. Der
Schätzer fˆX heißt Kerndichte-Schätzer für die Dichte f an der Stelle x mit Bandbreite h > 0
und Kern K und ist definiert durch
n
1X1
K
fˆX (x) :=
n i=1 h
Xi − x
h
.
(1.13)
Vergleiche dazu Rosenblatt (1956) und Parzen (1962). Zu beachten ist, dass der Schätzer von n
abhängt, was in seiner Notation unterdrückt wird. Die Bezeichnung fˆX wird im Hinblick auf den
nächsten Abschnitt gewählt, bei dem wir fˆX zum Schätzen der Dichte fX einer Zufallsvariablen
X verwenden. Das Verhalten des Schätzers fˆX hängt also von der Wahl von h und K ab.
Kernfunktionen oder Kerne sind unter gewissen Einschränkungen Dichtefunktionen. In dieser
Arbeit ziehen wir uns bei der Wahl der verwendeten Kerne K auf eine bestimmte Klasse von
Dichten zurück: die genauen Voraussetzungen an diese Dichten formulieren wir in (K) auf
Seite 17. In vielen Anwendungen wird davon ausgegangen, dass die zugrundeliegende Dichte
stetig ist. Dies ist auch in dieser Arbeit der Fall, vgl. die Annahmen an die Dichte fX zu den
Designvariablen in (M1) von S. 16. Wählen wir für fˆX einen stetigen Kern, so ist auch der
Schätzer stetig.
Die grundlegende Idee beim Kernschätzen für Kerne mit kompaktem Träger ist die folgende:
Innerhalb des arithmetischen Mittels sorgt ein Kern für eine Auswahl aus n Realisierungen.
Jedem ausgewählten Wert, der innerhalb eines um x symmetrischen Intervalls liegt, wird je
1.5 Regressionsmodelle
15
nach Entfernung von x und Wahl des Kerns ein Gewicht so zugeordnet, dass sich fˆX wie eine
Dichte verhält. Falls wir den Träger [−1, 1] wählen, ist das Intervall um x jeweils 2h breit. Die
vergebenen Gewichte fassen wir nun zusammen: Das arithmetische Mittel der Gewichte zu den
benachbarten Realisierungen ergibt den Schätzwert der Dichte an der Stelle x.
Neben den Kernen mit kompaktem Träger gibt es auch solche mit nicht kompaktem Träger,
z.B. den oben schon erwähnten Gauß-Kern, er verteilt auf der gesamten reellen Achse positive
Masse in Abhängigkeit davon, wie weit die jeweilige Stelle von x entfernt ist.
Die Wahl der Bandbreite spielt für die Verwendung der Methode eine wichtige Rolle. Einführende Literatur zu Kerndichteschätzern ist z.B. Härdle (1990), Fan und Gijbels (1996) und Härdle
et al. (2004).
1.5
Regressionsmodelle
In dieser Arbeit werden zwei Ausprägungen des nichtparametrischen Regressionsmodells untersucht. Es werden n unabhängige Datenpaare (X1 , Y1 ), . . . , (Xn , Yn ) beobachtet, wobei von
Interesse ist, wie die Beobachtung Yi von der Beobachtung Xi abhängt (i = 1, . . . , n). Die erste
Komponente Xi wird in diesem Zusammenhang auch als erklärende Variable, Designvariable
bzw. der Vektor (X1 , . . . , Xn ) kurz als Design bezeichnet.
Bei beiden vorzustellenden Modellen geht es darum, für solche Beobachtungen den Zusammenhang zwischen beiden Komponenten zu erklären, also eine Gesetzmäßigkeit zu finden, nach
der ein gewisser Wert in der Y −Variable zu erwarten ist für eine spezielle Realisierung von
X. Die Besonderheit der nichtparametrischen Modelle ist es, bezüglich der Form der Regressionsfunktion, die den hauptsächlichen Einfluss zwischen beiden Koordinaten beschreibt, vor
Betrachtung der Daten keine strukturellen Einschränkungen zu treffen. Eine starke strukturelle
Einschränkung wäre beispielsweise die Festlegung auf einen linearen Zusammenhang, das heißt,
die Regressionsfunktion hätte die Gestalt einer Gerade. Die Idee ist, damit grundsätzliche Fehler bei der Wahl des Modells zu verhindern und interessante, möglicherweise nicht vermutete
Zusammenhänge zwischen X und Y aufzudecken.
1.5.1
Homoskedastisches Regressionsmodell
Wir betrachten Beobachtungen der Zufallsvariablen (X1 , Y1 ), . . . , (Xn , Yn ) und gehen im Folgenden davon aus, dass wir die Abhängigkeit durch ein nichtparametrisches Regressionsmodell mit
einer Regressionsfunktion m beschreiben können: Unter Betrachtung eines von Xi unabhängigen additiven Fehlers εi , den wir für die Modellierung sämtlicher sonstiger Einflüsse wie auch
den Messfehler brauchen, ist die Abhängigkeit von Yi von Xi durch das homoskedastische Regressionsmodell zu beschreiben:
Yi = m(Xi ) + εi ,
i = 1, . . . , n.
(1.14)
Weil wir uns in erster Linie für die Fehler εi interessieren, bezeichnen wir ihre unbekannte
Verteilungsfunktion mit F und die zugehörige Dichte mit f . Für die Designvariable X wird die
16
Kapitel 1. Grundlagen
Verteilungsfunktion mit FX , ihre Dichte mit fX bezeichnet. Der Index wird bei den jeweiligen
Schätzern fˆX weiterverwendet, die Abhängigkeit von n bei den zugehörigen Schätzern wird
dabei wie erwähnt in der Notation unterdrückt.
Die Regressionsfunktion und die Fehler können nicht beobachtet werden, so dass zuerst ein
Schätzer für die Regressionsfunktion aus n Datenpaaren berechnet wird, um damit die Fehler
durch die sogenannten Residuen zu schätzen. Diese Residuen sind von der Form
ε̂i = Yi − m̂(Xi ),
i = 1, . . . , n.
(1.15)
Dabei ist m̂(x) der Nadaraya-Watson-Regressionsschätzer (Nadaraya (1964), Watson (1964))
für m(x),
n
1 X 1 Xi − x 1
.
m̂(x) =
K
Yi
n i=1 h
h
fˆX (x)
(1.16)
Der Schätzer m̂(x) für eine gegebene Stelle x basiert auf dem Kerndichteschätzer fˆX für die
Dichte fX des Designs aus (1.13) und wird jeweils für x ∈ [0, 1] bestimmt. Die nichtparametrischen Residuen aus (1.15) werden nun verwendet, um die Verteilungsfunktion F der nicht
beobachtbaren Fehler zu schätzen.
Wir formulieren eine Reihe von Voraussetzungen, auf die wir für die Untersuchung innerhalb
dieses Regressionsmodells zurückgreifen:
(M1) Wir betrachten das Regressionsmodell (1.14) mit zufälligem Design: Die univariaten
Designpunkte X1 , . . . , Xn sind unabhängig und identisch verteilt mit Verteilungsfunktion FX auf einem kompakten Träger, zur Vereinfachung wird [0, 1] gewählt. Die Verteilungsfunktion FX hat eine zweimal stetig differenzierbare Dichte fX , und für fX gilt die
Annahme inf x∈[0,1] fX (x) > 0. Die Regressionsfunktion m ist zweimal stetig differenzierbar
im Intervall (0, 1) mit beschränkten Ableitungen.
(M2) Die Fehler ε1 , . . . , εn sind unabhängig und identisch verteilt mit Verteilungsfunktion F .
Sie sind zentriert, d.h. IE[ε1 ] = 0, und besitzen die Varianz σ 2 = Var(ε1 ) ∈ (0, ∞).
Sie sind unabhängig von den Designpunkten X1 , . . . , Xn . F ist stetig differenzierbar mit
beschränkter und überall positiver Dichte f .
(M3) Es existieren positive reelle Konstanten γ, C und β, so dass für alle z ∈ IR mit |z| ≤ γ
die folgende Abschätzung gilt:
|F (y + z) − F (y) − zf (y)| ≤ C|z|1+β .
Es ist zu beachten, dass (M3) mit β = 1 erfüllt ist unter der stärkeren Annahme, dass f stetig
differenzierbar ist mit supy∈IR |f ′ (y)| < ∞.
1.5 Regressionsmodelle
17
Die Information über die Fehler steckt in den Beobachtungen zu den Zufallsvariablen (X1 , Y1 ),
. . . , (Xn , Yn ). Deshalb verwenden wir anstelle der Fehler die in (1.15) definierten Residuen
ε̂1 , . . . , ε̂n in einem Schätzer für die Verteilungsfunktion der Fehler
n
1X
F̂n (x) :=
I{ε̂i ≤ x}, x ∈ IR.
n i=1
(1.17)
Der Schätzer F̂n ist gerade die empirische Verteilungsfunktion basierend auf den Residuen.
Für die Anwendung des Nadaraya-Watson-Regressionsschätzers treffen wir die folgenden Annahmen an die verwendeten Kerne K und Bandbreiten h.
(K) Die Funktion K bezeichnet eine symmetrische Dichte mit kompaktem Träger und
R
uK(u) du = 0. K ist zweimal stetig differenzierbar.
(H) Die deterministische Folge h = hn bezeichnet eine Folge von Bandbreiten mit nh4 = O(1),
nh3+2α (log(h−1 ))−1 → ∞ (für ein α > 0) und nβ h1+β (log(h−1 ))−1−β → ∞ für n → ∞
(mit β aus Annahme (M3)).
≤ 3 + 2α nicht gebraucht
Zu beachten ist, dass die letzte Bandbreitenannahme im Fall 1+β
β
1
wird. Dieser Fall tritt ein, sobald β ≥ 2 gilt. Die Konstante α spielt nur in den technischen
Beweisschritten eine Rolle und kann beliebig klein gewählt werden.
Bemerkung 1.30. In der vorliegenden Arbeit verwenden wir den Nadaraya-Watson-Schätzer
m̂ aus (1.16) für die Regressionsfunktion. Dieser Schätzer wird auch bei Akritas und Van Keilegom (2001) zugrundegelegt. Er hat den Vorteil, dass er in der Theorie relativ einfach ist und
gleichzeitig in vielen Anwendungen benutzt wird. Dennoch könnten die gleichen Methoden für
den empirischen Prozess der Residuen auch verwendet werden, wenn andere nichtparametrische
Funktionsschätzer verwendet würden. Ein Beispiel sind lokale Polynomschätzer (vgl. Fan und
Gijbels (1996)). Damit sich zu den Resultaten in den nächsten Kapiteln analoge asymptotische
Entwicklungen und Grenzverteilungen ergeben, sollte ein alternativer Schätzer m̂ gleichmäßig
konsistent sein, geeignete Voraussetzungen an die Ableitungen erfüllen, und es sollte eine entR
sprechende lineare Entwicklung für das Integral (m̂ − m)(x)fX (x)dx unter Vernachlässigung
eines Terms der Ordnung oP (n−1/2 ) gelten.
1.5.2
Heteroskedastisches Regressionsmodell
Wir gehen auch hier davon aus, dass wir die Abhängigkeit durch eine Regressionsfunktion m
aus einem nichtparametrischen Regressionsmodell beschreiben können: Hier lassen wir wieder
einen zusätzlichen additiven Term zu, der aber noch in bestimmter Weise von X abhängen darf:
Dieses Modell erlaubt eine stochastische Abhängigkeit des Fehlers ε von X in der Varianz des
Fehlers (Heteroskedastizität), damit kann das Modell als
Yi = m(Xi ) + σ(Xi )εi ,
i = 1, . . . , n
(1.18)
18
Kapitel 1. Grundlagen
geschrieben werden, mit der von Xi abhängigen Varianzfunktion σ 2 (Xi ) und einem im Unterschied zum vorigen Modell standardisierten Fehler εi . Die Funktion σ(Xi ) beschreibt entsprechend die Standardabweichung oder Streuung. Im homoskedastischen Modell war die gesamte
Differenz εi = Yi − m(Xi ) stochastisch unabhängig von Xi ; im heteroskedastischen Modell gilt
das nur für den Term (Yi − m(Xi ))/σ(Xi ), der wieder als εi bezeichnet wird.
Weil die Fehler ε1 , . . . , εn nicht beobachtbar sind, errechnen wir aus den beobachtbaren Anteilen
Schätzer für die ebenfalls unbekannten Funktionen m und σ 2 . In Abhängigkeit von den Daten
und den Schätzern für m und σ 2 definieren wir im heteroskedastischen Fall die Residuen
ε̂i =
Yi − m̂(Xi )
,
σ̂(Xi )
i = 1, . . . , n.
(1.19)
Als Schätzer für die unbekannten Regressionsfunktion m verwenden wir wieder den im letzten
Abschnitt vorgestellten Nadaraya-Watson-Schätzer m̂ aus (1.16). Zusätzlich benötigen wir einen
Schätzer σ̂ 2 für die unbekannte Varianzfunktion. Der Schätzer σ̂ 2 (x) bezeichnet den analog zum
Nadaraya-Watson-Schätzer für die Regressionsfunktion aus der Formel (1.16) konstruierten
Varianzschätzer
n
2 1
1 X 1 Xi − x K
Yi − m̂(x)
σ̂ (x) =
.
n i=1 h
h
fˆX (x)
2
(1.20)
Auch dieser Schätzer greift auf den Kern K und den Dichteschätzer fˆX zurück, die aus dem
letzten Abschnitt bekannt sind.
Die folgende Annahme wird für die Untersuchungen im Modell (1.18) benötigt. Wir betrachten
(1.18) unter Annahme von (M1) (vgl. S. 16) aus dem Abschnitt zum homoskedastischen Modell
und der im Folgenden angegebenen Annahme (M). Dabei ist Annahme (M) stärker als die
beiden im homoskedastischen Fall getroffenen Annahmen (M2) und (M3) (vgl. S. 16). Sie wurde
bereits in Akritas und Van Keilegom (2001) verwendet.
(M) Die Varianzfunktion σ 2 ist beschränkt und zweimal stetig differenzierbar mit beschränkten ersten und zweiten Ableitungen in (0, 1), so dass inf x∈[0,1] σ 2 (x) > 0 gilt. Die Fehler sind unabhängig und identisch verteilt mit Verteilungsfunktion F . Sie sind zentriert,
d.h. IE[ε1 ] = 0, mit Varianz Var(ε1 ) = 1 und existierendem vierten Moment, und unabhängig von den Designpunkten X1 , . . . , Xn . Die Verteilungsfunktion F ist zweimal
stetig differenzierbar mit überall positiver Dichte f , so dass supy∈IR |yf (y)| < ∞ und
supy∈IR |y 2 f ′ (y)| < ∞ gilt.
1.6
Zusatzinformation
Nach der Einführung der zu untersuchenden Regressionsmodelle formulieren wir die Annahme,
die den entscheidenden Unterschied gegenüber der Betrachtung bei Akritas und Van Keilegom
(2001) ausmacht. Die Verfügbarkeit wichtiger Zusatzinformationen über die Fehlerverteilung
setzen wir durch die Annahme (A) voraus:
1.7 Verwandte Arbeiten
19
(A) Es gilt IE[g(ε1 )] = 0 für eine bekannte Funktion g = (g1 , . . . , gk )T : IR → IRk , für welche
IE[gj2 (ε1 )] < ∞ für j = 1, . . . , k erfüllt ist.
Die Gleichung IE[g(ε1 )] = 0 stellt die zentrale Nebenbedingung dar, unter der der empirische
Likelihood maximiert wird.
1.7
1.7.1
Verwandte Arbeiten
Literaturübersicht
Wir stellen hier einige Arbeiten zusammen, die sich mit der Schätzung der Fehlerverteilung
und der Fehlerdichte in verschiedenen Regressionsmodellen beschäftigen und im Kontext dieser
Arbeit besonders interessant sind. Für Literatur zum Empirical-Likelihood-Verfahren sei auf
Abschnitt 2.3 verwiesen.
An erster Stelle ist Akritas und Van Keilegom (2001) zu nennen. In dieser Arbeit wird die Fehlerverteilung im nichtparametrischen Regressionsmodell geschätzt. Dabei wird der NadarayaWatson-Schätzer verwendet. Die spezielle Konstruktion des Schätzers für die Verteilungsfunktion ist von der Berücksichtigung zensierter Daten her motiviert. Diese Arbeit werden wir
ausführlich im Anschluss an diese Übersicht einführen.
Grundsätzlich steht neben der Schätzung einer Verteilungsfunktion auch die Möglichkeit der
Schätzung der zugehörigen Dichte offen. Den Weg über die Dichteschätzung geht die folgende
Veröffentlichung: in Evromovich (2005) wird dazu ein auf dem Pinsker-Orakel beruhender nichtparametrischer Schätzer benutzt, bei dem Residuen nach einem Plug-in-Verfahren verwendet
werden können. Ein Schätzer für die Verteilungsfunktion für die Fehler im nichtparametrischen
Regressionsmodell wird auch in Cheng (2002) untersucht. Cheng (2002) zeigt die gleichmäßige
Konsistenz der auf nichtparametrischen Residuen definierten empirischen Verteilungsfunktion
und untersucht einen Histogramm-Dichteschätzer für die zugehörige Dichte. Die beiden Arbeiten Cheng (2004) und Cheng (2005) setzen die Untersuchung von Schätzern für die Dichte und
die Verteilungsfunktion fort und betrachten zum einen schwache und starke gleichmäßige Konsistenz des Kerndichteschätzers bezogen auf die Fehlerdichte und andererseits die asymptotische
Verteilung eines geeignet standardisierten Schätzers der Fehlerdichte. In Cheng (2005) wird insbesondere eine Aufteilung des Datensatzes vorgenommen. Ein Teil wird zur Schätzung der Regressionsfunktion verwendet und der andere zur Konstruktion der Residuen unter Verwendung
der vorher geschätzten Regressionsfunktion. Weitere Arbeiten zur Schätzung der Fehlerdichte
sind Qin (1996) und Qin, Shi und Chai (1996). Im Zusammenhang mit den Arbeiten von Cheng
ist auch die Monographie Koul (2002) zu nennen, die sich mit dem Verhalten der empirischen
Verteilungsfunktion bezüglich Fehlern aus dem linearen Regressionsmodell beschäftigt.
Die Arbeiten Müller, Schick und Wefelmeyer (2004a) und (2004b) untersuchen einen lokalen
Polynom-Schätzer, wobei unter Nutzung der Leave-one-out-Idee hier die Regressionsfunktion für das nichtparametrische Regressionsmodell geschätzt wird. Bei diesen Untersuchungen
20
Kapitel 1. Grundlagen
werden den Bias unterdrückende Bandbreitenannahmen getroffen. In beiden Arbeiten werden
insbesondere bestimmte Funktionale der unbekannten Verteilungsfunktion untersucht, auf die
wir in Bemerkung 3.6 eingehen. In Müller, Schick und Wefelmeyer (2004c) wird eine geglättete
Version der empirischen Verteilungsfunktion untersucht, die auf nichtparametrischen Residuen
definiert ist. Die Arbeit Müller, Schick und Wefelmeyer (2006) untersucht einen Schätzer für
die Verteilungsfunktion der Fehler im semiparametrischen Regressionsmodell. Durch die Form
des semiparametrischen Modells behandeln die Autoren im Spezialfall ebenfalls das nichtparametrische und das lineare Regressionsmodell. Die der Regressionsfunktion m entsprechende
Funktion wird lokal-linear geschätzt. Auch in dieser Arbeit werden keine Zusatzinformationen
wie in unserer Fragestellung berücksichtigt.
1.7.2
Prozess aus Akritas und Van Keilegom (2001)
Dieser Abschnitt stellt die Hauptresultate aus Akritas und Van Keilegom (2001) (AVK (2001))
vor, auf welche wir im Folgenden wiederholt zurückgreifen werden. Dieser Artikel stellt eine der
grundlegenden Veröffentlichungen für die Schätzung der unbekannten Verteilungsfunktion der
nicht beobachtbaren Fehler εi in Modell (1.14) und Modell (1.18) dar.
AVK (2001) zeigen die schwache Konvergenz eines empirischen Prozesses, der bezüglich Residuen aus einem nichtparametrischen Regressionsmodell definiert wird. Das bei ihnen betrachtete
Modell umfasst das in dieser Arbeit untersuchte nichtparametrische heteroskedastische Regressionsmodell. Das homoskedastische Regressionsmodell ist nicht enthalten, entsprechende
Ergebnisse für das homoskedastische Modell ergeben sich aber durch analoges Vorgehen.
AVK (2001) betrachten das Regressionsmodell Y = m(X) + σ(X)ε unter der Annahme stochaR1
stischer Unabhängigkeit von X und ε mit der Regressionsfunktion m(x) = 0 F −1 (s|x)J(s)ds
R1
und der Varianzfunktion σ 2 (x) = 0 F −1 (s|x)2 J(s)ds − m2 (x). Es gilt F (y|x) = IP(Y ≤
y|X = x). In der genannten Darstellung von m und σ 2 wird die Quantilsfunktion F −1 (s|x) =
inf{y ∈ IR|F (y|x) ≥ s} von Y bei gegebenem x und eine sogenannte Zielfunktion (engl.: score
R1
function) J verwendet, für die 0 J(s)ds = 1 gilt. Bei der Wahl von J = I[0,1] erhalten wir
aus der Wahl von m und σ 2 in der genannten Arbeit die von uns gewählte Darstellung von
R
R
R1
Regressions- und Varianzfunktion mit m(x) = 0 F −1 (s|x)ds = IR sdF (s|x) = IR sf (s|x)ds
R
R
R1
und σ 2 (x) = 0 F −1 (s|x)ds − m2 (x) = IR s2 dF (s|x) − m2 (x) = IR s2 f (s|x)ds − m2 (x) unter
der Annahme, dass eine Dichte zur verwendeten Verteilungsfunktion existiert. Wir setzen in
dieser Arbeit stets J = I[0,1] voraus.
Im Folgenden werden die Hauptresultate und die für die technischen Schritte weiterverwendeten
Hilfsaussagen für den hier interessanten Spezialfall zuerst für das homoskedastische und im Anschluss für das heteroskedastische Modell zusammengefasst. Um in die verwendeten Techniken
einzuführen, werden die beiden Lemmata 1.31 und 1.37 mit Beweis angegeben. Zwei weitere
Lemmata, 1.32 und 1.36, werden explizit gezeigt: diese Aussagen sind Entwicklungen mit einer
verbesserten Rate für die Restterme gegenüber der bei AVK (2001), die unter den stärkeren
Annahmen in dieser Arbeit erhalten werden.
1.7 Verwandte Arbeiten
21
Die in Abschnitt 1.5 eingeführten Annahmen (M1), (M2), (M3), (K) und (H) wurden bereits
in AVK (2001) getroffen, und zwar insbesondere in Theorem 2 zum Nachweis schwacher Kon√
vergenz des bezüglich Residuen definierten empirischen Prozesses n(F̂n − F − b) mit F̂n aus
(1.17) und dem jeweils dem betrachteten Modell entsprechenden Biasterm b.
Wir beginnen nun mit der Darstellung der Resultate bezogen auf das homoskedastische Regressionsmodell. Die Ergebnisse zum heteroskedastischen Modell finden sich ab S. 30.
Nach AVK (2001), Theorem 2 gilt die schwache Konvergenz des bezüglich Residuen aus (1.15)
√
definierten empirischen Prozesses n(F̂n − F − b) mit F̂n aus (1.17) und einem Biasterm b der
Form
Z
1 K
2
((mfX )′′ (x) − (mfX′′ )(x)) dx
(1.21)
b(y) := h f (y)B mit B := µ2
2
und mit
µK
2
:=
Z
K(u)u2 du.
(1.22)
√
Der auf diesen Residuen basierende empirische Prozess n(F̂n − F − b) konvergiert schwach
gegen einen zentrierten Gaußprozess G. Dabei besitzt G die Kovarianzstruktur
Cov(G(y), G(z)) = F (min(y, z)) − F (y)F (z)
+
IE[ε21 ]f (y)f (z)
(1.23)
+ IE[ε1 I{ε1 ≤ y}]f (z) + IE[ε1 I{ε1 ≤ z}]f (y).
Vergleichen wir die Kovarianzstruktur des asymptotischen Prozesses G aus (1.23) mit der Kovarianz Cov(B 0 (F (s)), B 0 (F (t))) aus dem Satz von Donsker, Satz 1.8, werden Unterschiede
ersichtlich. Betrachten wir speziell normalverteilte Fehler mit Erwartungswert Null, erhalten
wir bei der Verwendung nichtparametrischer Residuen anstelle der wahren Fehler sogar eine
gleichmäßig kleinere asymptotische Varianz
Var(G(y)) ≤ Var(B 0 (F (y))) ∀ y ∈ IR,
denn es gilt
Var(G(y)) = F (y)(1 − F (y)) + σ 2 f 2 (y) + 2IE[ε1 I{ε1 ≤ y}]f (y)
= Var(B 0 (F (y))) + σ 2 f 2 (y) − 2σ 2 f 2 (y)
wegen des negativen Ausdrucks
IE[ε1 I{ε1 ≤ y}] = −σ 2 f (y)
(1.24)
im Fall ε ∼ N (0, σ 2 ). Um die Gültigkeit von (1.24) in diesem Spezialfall zu zeigen, berechnen
wir die Ableitung der zugehörigen Dichte
1
∂f (y)
y
1
y2
− 2 y exp − 2 = − 2 f (y).
= √
dy
σ
2σ
σ
2πσ
22
Kapitel 1. Grundlagen
Damit gilt xf (x) = −σ 2 f ′ (x) für alle x ∈ IR. Nach dieser Darstellung gilt im Fall normalverteilter Fehler mit Erwartungswert Null und Varianz σ 2
Z y
Z y
2
xf (x)dx = −σ
IE[εI{ε ≤ y}] =
f ′ (x)dx = −σ 2 f (y),
−∞
−∞
und damit (1.24).
Neben der Varianzverbesserung haben wir beim Prozess G allerdings einen Bias b(y) aus (1.21),
wohingegen im Satz von Donsker kein Bias auftritt. Dies ist dadurch zu erklären, dass beim
Austausch der i.i.d. Zufallsvariablen εi gegen Residuen ε̂i die Schätzung unter Verwendung
weiterer Schätzer erfolgen muss, was oft zu einer weniger genauen Schätzung führt.
Die Biasformel (1.21) wird aus der Entwicklung
Z
F̂n (y) − F (y) = Fn (y) − F (y) + f (y) (m̂(x) − m(x))fX (x) dx + oP (n−1/2 ) (1.25)
gleichmäßig in y ∈ IR abgeleitet, aus dem Beweis zu Theorem 1; vgl. hierzu AVK (2001), S.
555. Wir geben das Ergebnis wieder bezogen auf das homoskedastische Modell an. Wir zeigen
in Lemma 1.32, dass aus der Entwicklung in (1.25) die Gültigkeit der Darstellung
n
h2
1X
εi + f (y) µK
F̂n (y) = Fn (y) + f (y)
n i=1
2 2
Z
((mfX )′′ (x) − (mfX′′ )(x))dx + oP (n−1/2 )
gleichmäßig in y ∈ IR folgt. Fn ist in (1.1) definiert, wobei die Zufallsvariablen Xi durch εi zu
R
ersetzen sind. Das enthaltene Integral (m̂(x) − m(x))fX (x) dx wird in Lemma 1.32 entwickelt.
Aus dem Beweis von Theorem 1 in AVK (2001, S. 555) folgt, dass im homoskedastischen Fall
für die Wahl von J = I[0,1] die in Theorem 1 (S. 552) von AVK (2001) definierte Funktion ϕ
von der folgenden Form ist:
Z I{z ≤ v} − F (v|x) dv.
ϕ(x, z, y) = −f (y)
Hier ist F (v|x) = IP(Yi ≤ v|Xi = x) die bedingte Verteilung von Yi gegeben Xi = x, und es gilt
Z I{z ≤ v} − F (v|x) dv
(1.26)
Z ∞
Z z
1 − F (v|x) dv
F (v|x)dv +
= −
z
−∞
Z ∞
Z 0
Z z
Z z
=
1 − F (v|x) dv −
F (v|x)dv −
F (v|x)dv −
1 − F (v|x) dv
0
−∞
0
0
= IE[Y |X = x] − z = m(x) − z.
Die letzte Gleichheit gilt für Zufallsvariablen Y mit stetiger Verteilungsfunktion F wegen
IE[Y ] =
Z
0
∞
Z
1 − F (v) dv −
0
−∞
F (v)dv
1.7 Verwandte Arbeiten
23
nach Shorack (2000), Kap. 7, Prop. 4.2, (12); sie gilt analog für bedingte Erwartungswerte
IE[Y |X = x] zu stetigen Verteilungsfunktionen F (v|x). Es folgt ϕ(x, z, y) = −f (y)(m(x) − z)
bzw. ϕ(Xi , Yi , y) = f (y)εi , und (1.23) folgt aus Theorem 2 von AVK (2001), S. 552.
In AVK (2001), Prop. 3 werden Annahmen zur Bandbreite, zur Kernfunktion und zur Designverteilung gestellt, die Teil der Annahmen (H), (K) und (M1) von S. 16-17 sind. Zusätzlich
werden Regularitätsannahmen an F getroffen, für die wir auf (M2) von S. 16 verweisen, und
Annahmen zur Funktion J (s. AVK (2001), (A2)(i)). Unter diesen Annahmen wird
sup |m̂(x) − m(x)| = O((nh)−1/2 (log(h−1 )1/2 )) f.s.
(1.27)
x∈[0,1]
gezeigt. Unter den Annahmen aus Prop. 3 gilt nach Prop. 6 aus AVK (2001) eine Entwicklung
für m̂(x) − m(x), die wir im Folgenden aufgreifen.
Das folgende Lemma 1.31 benutzt die Aussage aus AVK (2001), Prop. 6 für eine erweiterte
Entwicklung in dem für uns interessanten Spezialfall unter Betrachtung des homoskedastischen
Modells. Wir setzen für die dort auftretende Funktion J = I[0,1] . Desweiteren wird die Bezeichnung µK
2 aus (1.22) verwendet.
Lemma 1.31. Unter Gültigkeit von (H), (K), (M1) und (M2) gilt in Modell (1.14) für jedes
x ∈ [0, 1]
n
m̂(x) − m(x) =
1 X x − Xi 1
εi
K
nh fX (x) i=1
h
1 1 1
′′
′′
(mf
)
(x)
−
m(x)f
(x)
+
o
.
+ h2 µK
X
P √
2
X
2
fX (x)
nh
Beweis zu Lemma 1.31. Aus AVK (2001), Prop. 6, ist die Entwicklung
Z
n
1
1 X x − Xi m̂(x) − m(x) = −
I{Yi ≤ y} − F (y|x) dy
K
nh fX (x) i=1
h
log h−1 gleichmäßig in x
+OP
nh
bekannt. Es gilt (nh)−1 log(h−1 ) = o((nh)−1/2 ). Mit (1.26) für das enthaltene Integral zerlegen
wir den führenden Term von m̂(x) − m(x). Damit ist
Z
n
1
1 X x − Xi I{Yi ≤ y} − F (y|x) dy
−
K
nh fX (x) i=1
h
n
1
1 X x − Xi = −
K
(m(x) − Yi )
nh fX (x) i=1
h
n
n
1
1 X x − Xi 1 X x − Xi 1
εi +
(m(Xi ) − m(x)).
K
K
=
nh fX (x) i=1
h
nh fX (x) i=1
h
(1.28)
Der erste Summand der rechten Seite von (1.28) ist zentriert und liefert somit keinen Bias.
Seine Varianz ist von der Ordnung O(n−1 h−1 ). Der Erwartungswert des zweiten Summanden
24
Kapitel 1. Grundlagen
der rechten Seite von (1.28) ergibt mit Substitution und Taylorentwicklung bis zur zweiten
Ableitung unter Beachtung der Eigenschaften des Kerns aus (K) von S. 17 den Bias
1
1
bn (x) := h2 µK
((mfX )′′ (x) − m(x)fX′′ (x))
2
2
fX (x)
(1.29)
und ein Restglied der Ordnung o(h2 ). Weil dieses Vorgehen an anderen Stellen wiederholt
angewendet wird, werden diese Schritte hier ausführlich beschrieben. Durch Substitution im
Argument von K und Verwendung von z = x + hu, dz = h du erhalten wir unter Verwendung
der Symmetrie von K
n
z − x
i Z 1 1
h 1
1 X Xi − x K
(m(Xi ) − m(x)) =
(m(z) − m(x))fX (z)dz
K
IE
nh fX (x) i=1
h
h fX (x)
h
Z
1
K(u) fX (x + uh)m(x + uh) − fX (x + uh)m(x) du = bn (x) + Rn (x)
=
fX (x)
mit dem Biasterm bn aus (1.29) und einem Term Rn , dessen Vernachlässigbarkeit noch zu zeigen
ist. Für die letzte Gleichheit haben wir die Taylorentwicklung bis zur zweiten Ableitung
(hu)2
(mfX )′′ (x)
fX (x + uh)m(x + uh) = fX (x)m(x) + hu(mfX )′ (x) +
2
(hu)2 +
(mfX )′′ (ξ) − (mfX )′′ (x)
2
und eine analoge Entwicklung für fX (x + uh) benutzt und Annahme (K) (insbesondere
R
u du = 0 und µK
K(u)u2 du = O(1)) von S. 17 verwendet. Damit ist
2 =
Z
1
K(u) fX (x + uh)m(x + uh) − fX (x + uh)m(x) du
fX (x)
Z
(hu)2
1
K(u) fX (x)m(x) + hu(mfX )′ (x) +
(mfX )′′ (x)
=
fX (x)
2
2
(hu)
+
[(mfX )′′ (ξ1 ) − (mfX )′′ (x)]
2
(hu)2 ′′
(hu)2 ′′
′
′′
−m(x) fX (x) + hufX (x) +
f (x) +
[fX (ξ2 ) − fX (x)] du
2 X
2
R
K(u)
für Zwischenstellen ξ1 und ξ2 zwischen x und x + hu. Die ersten Terme aus der jeweiligen
Entwicklung heben sich gegenseitig weg. Die Terme mit ersten Ableitungen enthalten den Faktor
R
K(u)u du = 0 und fallen daher weg. Übrig bleiben die führenden und vernachlässigbaren
Terme mit zweiten Ableitungen. Für die Ordnung des Restes Rn ist
Z
∂2
∂2
1 h2
K(u)u2 [ 2 ((mfX )(t))|t=ξ1 − 2 (mfX )(x)]du = o(h2 )
Rn (x) =
fX (x) 2
∂t
∂x
für eine Zwischenstelle ξ1 zwischen x und x + hu zu zeigen. Der Faktor in eckigen Klammern in
Rn ist eine Nullfolge, denn m und fX sind zweimal stetig differenzierbar; für festes u konvergiert
also die Zwischenstelle ξ1 gegen x und damit auch die Differenz der zweiten Ableitungen an der
1.7 Verwandte Arbeiten
25
Stelle ξ1 gegen die an der Stelle x. Es bleibt zu zeigen, dass die Limesbildung in das Integral
gezogen werden kann: Gleichmäßig in u gilt die Beschränktheit des Ausdrucks innerhalb der
R
eckigen Klammer. K hat kompakten Träger, und K(u)u2 du = µK
2 = O(1). Die Behauptung
gilt daher mit dem Satz über die majorisierte Konvergenz. Dieses Argument wird in den folgenden Rechnungen wiederholt und auch für die Modifikation von Prop. 7 verwendet. Dieselbe
Rate folgt für den weiteren Restterm, der die Differenz zweiter Ableitungen von fX (x) anstelle
von m(x)fX (x) enthält, vgl. die letzte Zeile der vorletzten Formel. Um den zweiten Term in
(1.28) durch seinen Bias und einen geeigneten Rest zu ersetzen, wird die Varianz des Terms
berechnet. Es gilt mit dem Bias aus (1.29)
=
=
=
=
n
1
1 X x − Xi (m(Xi ) − m(x))
Var
K
nh fX (x) i=1
h
n
h 1
1 X x − Xi IE
K
(m(Xi ) − m(x))
nh fX (x) i=1
h
2 i
1
1
′′
′′
((m(x)f
(x))
−
m(x)f
(x))
+ o(h4 )
− h2 µK
X
2
X
2
fX (x)
n
h 1
x − X i
1
1 X x − Xi 1
i
IE
K
K
(m(Xi ) − m(x))
(m(Xi ) − m(x))
nh fX (x) i=1
h
nh fX (x)
h
1
n − 1
2
1
−1
h2 µK
(mfX )′′ (x) − m(x)fX′′ (x)
+ o(h4 )
+
2
n
2
fX (x)
Z
x − z 1
1
K2
(m(z) − m(x))2 fX (z)dz + O(h4 ) + o(h4 )
nh2 fX2 (x)
h
Z
1
1
1
2
2
4
.
K
(u)(m(x
−
hu)
−
m(x))
f
(x
−
hu)du
+
O(h
)
=
O
X
nh fX2 (x)
n
Im letzten Schritt ist noch durch Entwicklung nach x in (m(x − hu) − m(x))2 ein zusätzlicher
Faktor h hinzugekommen und die Voraussetzung nh4 = O(1) verwendet worden. Damit ist
Lemma 1.31 gezeigt.
Durch direkte Verwendung von Lemma 1.31 würden wir nicht die gewünschte Rate für den
Restterm erzielen, die wir in Lemma 3.5(ii) verwenden wollen. Wir erhalten mit dem folgenden
Lemma unter Verwendung der Definition von m̂ die Rate oP (n−1/2 ) anstelle von obiger Rate
oP ((nh)−1/2 ) für den Restterm.
Lemma 1.32. Unter den Voraussetzungen von Lemma 1.31 gilt in Modell (1.14)
Z n
1 1X
εi + h2 B + oP √
m̂(x) − m(x) fX (x)dx =
n i=1
n
mit Biasanteil B aus (1.21).
Beweis zu Lemma 1.32. Unter Verwendung der Definition von m̂ in (1.16) gilt
Z X
Z n
1 Xi − x 1
1
K
Yi
m̂(x) − m(x) fX (x)dx =
− m(x) fX (x)dx = t1 + t2
n i=1 h
h
fˆX (x)
26
Kapitel 1. Grundlagen
mit
n
1 X 1 Xi − x 1 t1 :=
m(Xi ) − m(x) fX (x)dx,
K
n i=1 h
h
fˆX (x)
Z
n
1 X 1 Xi − x 1
K
t2 :=
εi
fX (x)dx.
ˆ
n i=1 h
h
fX (x)
Z
(1.30)
(1.31)
An erster Stelle wird der Term wegen des Schätzers fˆX im Nenner zerlegt. Hier wird wie in
Bemerkung 1.33 beschrieben weiter entwickelt. Für t1 aus (1.30) gilt
n
1 X 1 Xi − x 1
K
(m(Xi ) − m(x))fX (x)dx
t1 =
n i=1 h
h
fX (x)
Z
n
1 X 1 Xi − x 1 2 ˆ
−
K
(fX (x) − fX (x))(m(Xi ) − m(x))fX (x)dx
n i=1 h
h
fX (x)
Z
n
1 X 1 Xi − x 1 fˆX (x) − fX (x) 2
K
+
n i=1 h
h
fX (x)
fX (x)
fˆX (x) − fX (x) −1
× 1+
(m(Xi ) − m(x))fX (x)dx.
fX (x)
Z
(1.32)
(1.33)
(1.34)
Für den Term t2 aus (1.31) gilt eine entsprechende Darstellung mit führendem Term t21 :=
R 1 Pn 1 Xi −x P
εi dx. Dieser Term liefert n1 ni=1 εi . Bis auf t21 sind alle weiteren Terme
i=1 h K
n
h
aus t2 von der Ordnung oP ( √1n ), was sich analog zu den Rechnungen zu t1 ergibt. Weil t21
zentriert ist, sind für den Erwartungswert zu t1 und t2 die Terme (1.32), (1.33) und (1.34)
ausschlaggebend. Die Schritte für die Bestandteile aus t1 , (1.32), (1.33) und (1.34), werden im
Folgenden beschrieben.
Den gesuchten Biasterm erhalten wir aus dem Erwartungswert von (1.32) durch Substitution
mit z = x + ht
Z
Z
z − x
1
K
(m(z) − m(x))dx fX (z)dz = K(t)(m(x + ht) − m(x))fX (x + ht)dx dt
h
h
Z
h2 K µ2
(mfX )′′ (x) − (mfX′′ )(x) dx + o(h2 ).
=
2
Für die Varianz des Terms (1.32) ergibt sich mit den Substitutionen t = (z −x)/h, v = (z −u)/h
mit x = z − th, u = z − vh
Z
n
h Z 1 X
2 i
1 Xi − x h2 K
K
(m(Xi ) − m(x))dx − µ2 ((mfX )′′ (x) − (mfX′′ )(x))dx
IE
n i=1 h
h
2
Z
h4 1 h4 K 2
=
(m′′ (z))2 fX (z)dz + o
(µ2 )
4n
n
Z
1
h2 h4 2
2
1 h K
µ2 ((mfX )′′ (x) − (mfX′′ )(x))dx = O
+
=o
.
−
n 2
n
n
n
1.7 Verwandte Arbeiten
27
Im Folgenden wird für (1.33) gezeigt, dass
n
hZ 1 X
i
1 1 Xi − x 1 ˆ
Rn := IE
K
fX (x) − fX (x) m(Xi ) − m(x) dx = o √ ,(1.35)
n i=1 h
h
fX (x)
n
n
hZ 1 X
i
1
1 Xi − x 1 ˆ
Sn := Var
K
fX (x) − fX (x) m(Xi ) − m(x) dx = o
(1.36)
n i=1 h
h
fX (x)
n
gelten. Für den Term innerhalb des Erwartungswertes in Rn gilt mit der Definition von fˆX in
(1.13)
Z
n
n
1 X 1 Xi − x 1 1 X 1 Xj − x K
K
− fX (x) (m(Xi ) − m(x))dx
(1.37)
n i=1 h
h
fX (x) n j=1 h
h
Z
n
n
1 X 1 Xi − x 1 1 X 1 Xj − x =
K
K
(m(Xi ) − m(x))dx
n i=1 h
h
fX (x) n j=1 h
h
Z
n
1 X 1 Xi − x 1
−
K
fX (x)(m(Xi ) − m(x))dx.
n i=1 h
h
fX (x)
Wegen der Unterscheidung der Fälle i = j und i 6= j gliedert sich Rn wie folgt weiter auf:
Z Z
1
1
2 z −x
(m(z) − m(x)) dxfX (z)dz
Rn =
K
nh2
h
fX (x)
Z Z
t − x
z − x 1 n − 1 Z
1
K
(m(z) − m(x))fX (t)dt dx fX (z)dz
K
+ 2
h
h
fX (x) n
h
Z Z
z − x
1
K
(m(z) − m(x))dxfX (z)dz
−
h
h
Z Z
1
1
(m(x + hu) − m(x))fX (x + uh)dx du
K 2 (u)
=
nh
fX (x)
Z
Z
Z
n−1
1
+
K(u)(m(x + hu) − m(x))fX (x + uh)du K(v)fX (x + vh)dv dx
n
fX (x)
Z Z
−
K(u)(m(x + hu) − m(x))fX (x + hu)du dx.
Mit einer Taylorentwicklung folgt weiter
Z
Z
h
1
1
′
′
2
((mfX ) (x) − (mfX )(x))dx + O
K (u)u du
Rn =
n
fX (x)
n
Z
2
n−1
1 h K
+
µ ((mfX )′′ (x) − (mfX′′ )(x))
(1.38)
n
fX (x) 2 2
Z
h2
f ′′ (x)]dx
(1.39)
×[ K(v)dvfX (x) + µK
2 2 X
Z
h2 K
− µ2 ((mfX )′′ (x) − (mfX′′ )(x))dx + o(h2 )
(1.40)
2
Z
Z
h2 K
h2 K
′′
′′
µ
((mfX ) (x) − (mfX )(x))dx − µ2 ((mfX )′′ (x) − (mfX′′ )(x))dx
=
2 2
2
h
h2 h2 1 1
+O
+O
+o
+ o(h2 ) + O(h4 ) + o(h4 ) = o √ .
+O
n
n
n
n
n
28
Kapitel 1. Grundlagen
Aus der letzten Gleichheit ist ersichtlich, dass die Terme der Ordnung O(h2 ) in den Zeilen
(1.38), (1.39) und (1.40) gegeneinander wegfallen. Damit ist (1.35) gezeigt, und für den Term
in (1.33) ist noch (1.36) zu zeigen. Die Varianz Sn ist von der Form
n
n
h Z 1 X
1 Xi − x 1 1 X 1 Xj − x IE
K
K
− fX (x) m(Xi ) − m(x) dx − Rn
n i=1 h
h
fX (x) n j=1 h
h
n
n
Z 1 X
i
1 Xk − z 1 1 X 1 Xl − z K
K
− fX (z) m(Xk ) − m(z) dz − Rn .
n k=1 h
h
fX (z) n l=1 h
h
Beim Ausmultiplizieren zerfällt Sn in vier Summanden, wobei sich die drei Summanden, die den
Faktor Rn enthalten, gegen den führenden Term des Summanden ohne Faktoren Rn im Fall,
wo die Summationsindizes i, j, k, l paarweise verschieden
Deshalb betrachten
sind,
wegheben.
Xk −z
Xl −z
wir für den Summanden ohne Faktoren Rn den K
K h
enthaltenen Summanden
h
exemplarisch für den Fall i = k, i 6= j, i 6= l, j 6= l. Analog ergeben sich die Raten für die
anderen Fälle und die Raten in den anderen drei Summanden. Es gilt also
n
n
h Z 1 X
1 Xi − x 1 1 X 1 Xj − x K
K
(m(Xi ) − m(x))dx
Sn1 := IE
n i=1 h
h
fX (x) n j=1,j6=i h
h
n
Z 1 1 X − z 1 1 X
i
1 Xl − z i
K
K
(m(Xi ) − m(z))dz
nh
h
fX (z) n l=1,l6=i,l6=j h
h
Z Z Z Z Z
u − x v − z w − x w − z n(n − 1)(n − 2)
K
K
K
(m(w) − m(x))
K
=
(nh)4
h
h
h
h
(m(w) − m(z))(fX (x))−1 (fX (z))−1 fX (u)fX (v)fX (w) du dv dw dx dz.
Mit den Substitutionen x = u − ha, ha = u − x, a = u−x
und z = v − hb, hb = v − z, b = v−z
h
h
w−v
und
v
=
w
−
hd,
d
=
und im zweiten Schritt mit den Substitutionen u = w − hc, c = w−u
h
h
gilt
Z Z Z Z Z
n(n − 1)(n − 2)h2
w − (v − hb)
w − (u − ha)
Sn1 =
K
K(a)K(b)K
(nh)4
h
h
−1
−1
(fX (u − ha)) (fX (v − hb)) (m(w) − m(u − ha))
(m(w) − m(v − hb))fX (u)fX (v)fX (w) du dv dw da db
Z Z Z Z Z
n(n − 1)(n − 2)
=
K(a)K(b)K(a + c)K(b + d)(m(w) − m(w − hc − ha))
n4
(m(w) − m(w − hd − hb))(fX (w − hc − ha))−1 (fX (w − hd − hb))−1
h2 1
fX (w − hc)fX (w − hd)fX (w) da db dc dd dw = O
=o
.
n
n
Die Rate erhalten wir durch Taylorentwicklung in (m(w)−m(w−hc−ha)), also m(w−hc−ha) =
m(w) + hO(1). Durch das Wegfallen des Terms m(w) gegen −m(w) verschwindet der Term
größter Ordnung, der verbleibende Term ist von der Ordnung O( nh ). Einen weiteren Faktor
h erreichen wir analog aus (m(w) − m(w − hd − hb)). Damit ist der Beweis von (1.36) und
damit die Betrachtung des Terms in (1.33) abgeschlossen. Für den dritten Term aus t1 , (1.34),
1.7 Verwandte Arbeiten
29
erhalten wir durch eine Abschätzung gemäß Bemerkung 1.33 die Ordnung oP ( √1n ). Lemma 1.32
ist also gezeigt.
Lemma 1.32 liefert als Nebenprodukt den Bias zu F̂n (y) − F (y), der aus (1.21) bekannt ist.
Bemerkung 1.33. Diese Bemerkung behandelt eine Technik, die in den Beweisen wiederholt
zum Einsatz kommt. In den Schätzern m̂(x) (und auch in σ̂(x), was wir im heteroskedastischen
Modell zusätzlich verwenden) steht der Faktor fˆ 1(x) mit dem Dichteschätzer fˆX an der Stelle
X
x. Beispielsweise in den Rechnungen zum Term in (1.30) ist dieser Faktor aufgetreten. Um
durch Taylorentwicklung und die Berechnung von Erwartungswert und Varianz führende und
vernachlässigbare Terme identifizieren zu können, ist es nötig, fˆ 1(x) durch den entsprechenden
X
Term fX1(x) mit der Designdichte fX und weitere ggf. vollständig vernachlässigbare Terme zu
ersetzen. Es gilt die Darstellung
1
fˆX (x)
=
1 fˆX (x) − fX (x) −1
1+
.
fX (x)
fX (x)
(1.41)
Wir versuchen, durch geschicktes Abschätzen des letzten Summanden in Klammern der Entwicklung (1.41) einen aufgrund seiner Rate vernachlässigbaren Term zu erhalten. Dazu wird
der Betrag des letzten Terms abgeschätzt, indem die Beträge nach innen gezogen und einzelne
Terme durch Suprema abgeschätzt werden. Genutzt werden kann dabei supx∈[0,1] |fˆX (x) − fX (x)|
= O((nh)−1/2 (log h−1 )1/2 ) f.s. (vgl. AVK (2001), Prop. 1) und supx∈[0,1] |(fˆX (x))−1 | = OP (1)
gemäß Annahme (M1), im heteroskedastischen Modell gemäß (M). Sollte der betrachtete Term
insgesamt nicht die erforderliche Rate zur Vernachlässigung besitzen, kann alternativ höher
entwickelt werden: dies haben wir in den Rechnungen zu t1 aus (1.30) verwendet.
ˆ
z2
1
X (x)
= 1 − z + (1+z)
für z = fX (x)−f
mit fX (x) 6= 0 zu verwenden. Wir
Zu diesem Zweck ist (1+z)
fX (x)
erhalten für den relevanten Faktor
fˆX (x) − fX (x) fˆX (x) − fX (x) 2 fˆX (x) − fX (x) −1 1 +
1−
1+
.
=
fX (x)
fX (x)
fX (x)
fX (x)
fˆX (x)
1
(1.42)
Wieder wird die Rate des letzten Terms aus der Entwicklung mit den oben beschriebenen Schritten berechnet, um neben führenden Termen einen vernachlässigbaren Term zu identifizieren.
Nach den Anpassungen der Resultate aus AVK (2001) auf die aktuelle Fragestellung im homoskedastischen Modell werden die Aussagen auch für das heteroskedastische Modell vorgestellt,
welches bei AVK (2001) ursprünglich (in noch größerer Allgemeinheit) betrachtet wurde. Nach
dem Hauptresultat zur schwachen Konvergenz werden einige Hilfsmittel und Sätze im hier
benötigten Rahmen des heteroskedastischen Modells (1.18) angegeben.
Wir stellen zuerst das entsprechende Theorem zur schwachen Konvergenz vor. Mit Theorem
2 aus AVK (2001) gilt in Modell (1.18), dass unter den Annahmen (M1), (K), (H) und Annahme (M) aus Abschnitt 1.5 für eine Bandbreite h mit nh4 = O(1) der stochastische Prozess
30
Kapitel 1. Grundlagen
√
n(F̂n − F − b1 ) schwach gegen einen zentrierten Gaußprozess G mit Kovarianzstruktur
Cov(G(y), G(z)) = F (min(y, z)) − F (y)F (z)
(1.43)
+ f (y)f (z) + IE[ε1 I{ε1 ≤ y}]f (z) + IE[ε1 I{ε1 ≤ z}]f (y)
1
1
+ yf (y)IE[(ε21 − 1)I{ε1 ≤ z}] + zf (z)IE[(ε21 − 1)I{ε1 ≤ y}]
2
2
1
1
1
3
+ yf (y)f (z)IE[ε1 ] + f (y)zf (z)IE[ε31 ] + yf (y)zf (z)Var(ε21 )
2
2
4
konvergiert. Der Biasterm ist im Unterschied zu b in (1.21) von der Form
b1 (y) = h f (y)B1 + yf (y)B2 ,
2
wobei
Z
1 1 K
(mfX )′′ (x) − (mfX′′ )(x) dx
B1 = µ2
2
σ(x)
Z
1 2
1 K
′′
2 ′′
′
2
(σ fX ) (x) − (σ fX )(x) + 2(m (x)) fX (x) dx
und B2 = µ2
2
2σ 2 (x)
(1.44)
(1.45)
(1.46)
ist.
√
Falls nh4 → 0, n → ∞, gilt, konvergiert der Prozess n(F̂n − F ) gegen einen zentrierten Gaußprozess G mit der Kovarianzfunktion aus (1.43).
In Modell (1.18) vereinfacht sich die Funktion ϕ von Theorem 1 aus AVK (2001) wie folgt:
ϕ(x, z, y) =
=
=
=
Z
f (y)
v − m(x) −
(I{z ≤ v} − F (v|x)) 1 + y
dv
(1.47)
σ(x)
σ(x)
Z z
Z
m(x) ∞
f (y) 1−y
F (v|x)dv
(1 − F (v|x))dv −
−
σ(x)
σ(x)
−∞
z
Z z
Z
f (y) y ∞
−
vF (v|x)dv
v(1 − F (v|x))dv −
σ(x) σ(x) z
−∞
f (y) z2 m(x) f (y)y 1 2
−
(σ (x) + m2 (x)) −
1−y
(m(x) − z) − 2
σ(x)
σ(x)
σ (x) 2
2
f (y)
1
1
1
− 2
σ(x)(m(x) − z) − ym2 (x) + ym(x)z + σ 2 (x)y + m2 (x)y − yz 2 ,
σ (x)
2
2
2
vergleiche Neumeyer und Dette (2004), Beweis von Theorem 3.1, und speziell
2
IE[Y ] =
Z
0
∞
2v(1 − F (v))dv − 2
Z
0
vF (v)dv
(1.48)
−∞
aus Shorack (2000), Kap. 7, Prop. 4.2, (13) für eine Zufallsvariable Y mit stetiger Verteilungsfunktion F . Daher gilt
y
ϕ(Xi , Yi , y) = f (y)(εi + (ε2i − 1)).
2
1.7 Verwandte Arbeiten
31
Der in (1.44) unter Verwendung von (1.45) und (1.46) definierte Bias b1 folgt aus der Entwicklung
Z
m̂(x) − m(x)
F̂n (y) − F (y) = Fn (y) − F (y) + f (y)
fX (x) dx
(1.49)
σ(x)
Z
1 σ̂(x) − σ(x)
+ yf (y)
fX (x) dx + oP √
σ(x)
n
Z
m̂(x) − m(x)
= Fn (y) − F (y) + f (y)
fX (x) dx
σ(x)
Z 2
1 σ̂ (x) − σ 2 (x)
√
f
(x)
dx
+
o
+ yf (y)
X
P
2σ 2 (x)
n
gleichmäßig in y ∈ IR (vgl. AVK (2001), S. 555 und 564) durch Einsetzen der Definitionen von
m̂ in (1.16) und σ̂ 2 in (1.20). Wir zeigen mit Lemma 1.36 und Lemma 1.38, dass aus der obigen
Entwicklung die Darstellung
n
F̂n (y) = Fn (y) + f (y)
h2
+f (y)
2
n
1X1
1X
(εi − 1)2
εi + yf (y)
n i=1
n i=1 2
µK
2
((mfX )′′ (x) − m(x)fX′′ (x))dx
σ(x)
Z
1
2 K
((σ 2 fX )′′ (x) − σ 2 (x)fX′′ (x))dx
+yf (y)h µ2
4σ 2 (x)
Z
1 1
′ 2
+
(m
)
(x)f
(x)dx
+
o
X
P √
2σ 2 (x)
n
Z
folgt. Es gilt eine zu Lemma 1.31 ähnliche Entwicklung, die wir im folgenden Lemma ohne
Beweis vorstellen:
Lemma 1.34. Unter den Voraussetzungen von Lemma 1.31 gilt in Modell (1.18) für jedes
x ∈ [0, 1]
n
1 X x − Xi 1
σ(Xi )εi
K
m̂(x) − m(x) =
nh fX (x) i=1
h
1 h2 K 1 ′′
′′
+ µ2
(mfX ) (x) − (mfX )(x) + oP √
.
2
fX (x)
nh
R
Eine Entwicklung für den Term (m̂(x) − m(x))fX (x) dx wurde schon in Lemma 1.32 gezeigt.
Entsprechend werden auch die folgenden ähnlichen Lemmata ohne Beweis angegeben.
Lemma 1.35. Unter den Voraussetzungen von Lemma 1.31 gilt in Modell (1.18)
Z n
1 1X
σ(Xi )εi + h2 B + oP √
m̂(x) − m(x) fX (x)dx =
n i=1
n
mit Biasanteil B aus (1.21).
32
Kapitel 1. Grundlagen
Lemma 1.36. Unter den Voraussetzungen aus Lemma 1.31 gilt in Modell (1.18)
Z
1
(m̂(x) − m(x))
fX (x)dx
σ(x)
Z
n
1 µK
h2
1X
2
(mfX )′′ (x) − m(x)fX′′ (x) dx + oP √ .
εi +
=
n i=1
2
σ(x)
n
Wir wenden uns nun den Termen zu, die die Differenz σ̂(x) − σ(x) enthalten. In der obigen
Entwicklung in (1.49) tritt der Term
Z
σ̂(x) − σ(x)
fX (x) dx
σ(x)
auf, der im Anschluss an eine Entwicklung für (σ̂ − σ)(x) in Lemma 1.36 entwickelt wird. Wir
werden im Folgenden wiederholt auf die Rate
sup |σ̂(x) − σ(x)| = O((nh)−1/2 (log(h−1 )1/2 )) f.s.
(1.50)
x∈[0,1]
aus Prop. 3 zurückgreifen. Gemäß AVK (2001), Prop. 7 gilt unter Gültigkeit von (H), (K), (M1)
und (M) für jedes x ∈ [0, 1] die Entwicklung
n
σ(x) − σ̂(x) = (nh)
−1
1 X x − Xi K
fX (x) i=1
h
+Rn (x)
Z
[I{Yi ≤ y} − F (y|x)]
y − m(x)
dy
σ(x)
(1.51)
mit supx∈[0,1] |Rn (x)| = O((nh)−1 log h−1 ) fast sicher. Dabei ist (nh)−1 log(h−1 ) = o((nh)−1/2 ).
Im uns interessierenden Fall hat die Entwicklung die folgende Gestalt:
Lemma 1.37. Unter Gültigkeit von (H), (K), (M1) und (M) gilt in Modell (1.18) für jedes
x ∈ [0, 1]
n
σ(x) − σ̂(x) = −
1
1 X x − Xi 1
σ 2 (Xi )(ε2i − 1)
K
nh fX (x) i=1
h
2σ(x)
1 K
h2 1
µ2 (σ 2 fX )′′ (x) − (σ 2 fX′′ )(x)
4 fX (x) σ(x)
h2 1 K ′
+
µ2 (m (x))2
2 σ(x)
1 .
+oP √
nh
+
(1.52)
(1.53)
Beweis zu Lemma 1.37. Das in (1.51) enthaltene Integral wird folgendermaßen vereinfacht.
Gemäß
Z
1 σ 2 (x) + m2 (x)
1 z 2 m(x)(m(x) − z)
y − m(x)
dy =
−
−
(I{z ≤ y} − F (y|x))
σ(x)
2
σ(x)
σ(x) 2
σ(x)
1.7 Verwandte Arbeiten
33
nach der Rechnung zu ϕ aus (1.47) gilt unter Verwendung von (1.26) und (1.48) für den Term
in Zeile (1.51)
Z
n
1
1 X x − Xi y − m(x)
Sn (x) :=
dy
K
[I{Yi ≤ y} − F (y|x)]
nh fX (x) i=1
h
σ(x)
n
1 1 2 m(x)(m(x) − Yi ) 1 X x − Xi 1 σ 2 (x) + m2 (x)
1
−
Y −
. (1.54)
K
=
nh fX (x) i=1
h
2
σ(x)
σ(x) 2 i
σ(x)
Um die Gleichheit zwischen dem Ausdruck in Zeile (1.54) und der behaupteten Darstellung für
σ(x) − σ̂(x) zu zeigen, wird der Term in (1.54) im Folgenden zerlegt. Es gilt
n
1
1 X x − Xi 1
Sn (x) = −
σ 2 (Xi )(ε2i − 1)
(1.55)
K
nh fX (x) i=1
h
2σ(x)
n
1
1 X x − Xi 1
−
K
(σ 2 (Xi ) − σ 2 (x))
(1.56)
nh fX (x) i=1
h
2σ(x)
n
1 X x − Xi 1
1
(m(x) − m(Xi ))2
(1.57)
K
−
nh fX (x) i=1
h
2σ(x)
n
1 X x − Xi 1
1
(m(x) − m(Xi ))σ(Xi )εi
(1.58)
K
+
nh fX (x) i=1
h
σ(x)
=: Sn1 (x) + Sn2 (x) + Sn3 (x) + Sn4 (x).
Dabei ist Sn1 der dominierende Term, die beiden folgenden Terme Sn2 und Sn3 enthalten den
Bias (1.52) und (1.53), und der letzte Term Sn4 leistet einen asymptotisch verschwindenden
Beitrag. Genauer: Der Term Sn1 in (1.55) ist zentriert, findet sich unter den Summanden auf
der rechten Seite der Behauptung, und seine Varianz ist von der Ordnung O(n−1 h−1 ). Für Sn2
in (1.56) gilt mit Substitution und Taylorentwicklung ähnlich wie im Beweis zu Lemma 1.31
IE[Sn2 (x)] =
h2 1
1 K
µ2 (σ 2 fX )′′ (x) − σ 2 (x)fX′′ (x) + o(h2 )
4 fX (x) σ(x)
und Var(Sn2 (x)) = o(n−1 h−1 ). Für (1.57) gilt
IE[Sn3 (x)] =
h2 1 K ′
µ (m (x))2 + o(h2 )
2 σ(x) 2
und Var(Sn3 (x)) = O(n−1 ) + O(h4 ) = o(n−1 h−1 ). Für den Term in (1.58) gilt Zentriertheit und
Var(Sn4 (x)) = O(n−1 ) = o(n−1 h−1 ). Somit ist der Beweis zu Lemma 1.37 abgeschlossen.
R 1
Es folgt die Entwicklung für σ(x)
(σ̂ − σ)(x)fX (x)dx analog zu Lemma 1.36. Darin enthalten
ist die Entwicklung zum zweiten Integral, das in der Entwicklung in (1.49) auftritt.
Lemma 1.38. Unter den Voraussetzungen von Lemma 1.37 gilt in Modell (1.18)
Z
n
1 X 2
1 (ε − 1)
(1.59)
σ̂(x) − σ(x) fX (x)dx =
σ(x)
2n i=1 i
Z
Z
1 1
1 2
′′
2
′′
′ 2
2 K
(σ
f
)
(z)
−
σ
(z)f
(z)
dz
+
(m
)
(z)f
(z)dz
+
o
.
+h µ2
X
X
P √
X
4σ 2 (z)
2σ 2 (z)
n
34
Kapitel 1. Grundlagen
Beweis zu Lemma 1.38. Zu zeigen ist, dass der Erwartungswert zum Term auf der linken
Seite der Behauptung den Bias ergibt. Dabei handelt es sich um den Term in der zweiten Zeile
von der Ordnung O(h2 ). Wir können dabei Terme der Ordnung o( √1n ) vernachlässigen. Für die
Varianz betrachten wir den Term auf der linken Seite abzüglich der nicht vernachlässigbaren
Terme auf der rechten Seite der Behauptung und zeigen hierfür die Ordnung o( n1 ).
Wir beginnen in diesem Lemma mit der Definition des Schätzers σ̂ 2 aus (1.20) und verwenden
nicht die Entwicklung für σ − σ̂ aus Lemma 1.37. Auf diese Weise sind wir auch in Lemma 1.32
vorgegangen. Wir werden die Aussage mit ähnlichen Schritten beweisen und für einige Details
auf den dort ausführlichen Beweis verweisen.
Nach dem Beweis zu Prop. 7 in AVK (2001) gilt
(σ̂ − σ)(x) =
σ̂ 2 (x) − σ 2 (x) [σ̂(x) − σ(x)]2
−
.
2σ(x)
2σ(x)
Für den zweiten Bruch gilt die Abschätzung
[σ̂(x) − σ(x)]2
= O((nh)−1 log(h−1 )) f.s.
2σ(x)
und (nh)−1 log(h−1 ) = o(n−1/2 ) wegen der zweiten Bandbreitenannahme in (H) von S. 17. Aus
diesem Grund reicht es, im Folgenden nur noch den ersten Bruch zu betrachten. Es gilt mit der
Definition von σ̂ 2 aus (1.20)
2
Z
σ̂ (x) − σ 2 (x)
1
fX (x)dx
σ(x)
2σ(x)
Z
n
1
1
1 X
Xi − x
=
(Yi − m̂(x))2 − σ 2 (x)]dx = An + Bn
K
fX (x)[
2
ˆ
2σ (x)
nh i=1
h
fX (x)
Z
n
1
1 X
1
Xi − x
f
(x)
[(Yi − m̂(x))2 − σ 2 (x)]dx
mit An :=
K
X
2
2σ (x)
nh i=1
h
fX (x)
und Bn = oP √1n . Der Nachweis für diese Rate erfolgt analog zu den entsprechenden Termen
aus der Zerlegung von t1 und t2 im Beweis zu Lemma 1.32. Für einen Teil von An erhalten wir
die folgende Zerlegung:
2
Yi − m̂(x) − σ 2 (x)
2
= m(Xi ) − m(x) + m(x) − m̂(x) + σ(Xi )εi − σ 2 (x) + σ 2 (Xi ) − σ 2 (Xi )
2
2
= m(Xi ) − m(x) + 2 m(Xi ) − m(x) m(x) − m̂(x) + m(x) − m̂(x)
+2σ(Xi )εi m(Xi ) − m(x) + 2σ(Xi )εi m(x) − m̂(x) + σ 2 (Xi ) ε2i − 1 + σ 2 (Xi ) − σ 2 (x).
Damit erhalten wir die Zerlegung An =
tn1 :=
Z
n
1 X
1
K
2σ 2 (x) nh i=1
P7
j=1 tnj
Xi − x
h
h
mit
i
(m(Xi ) − m(x))2 dx,
1.7 Verwandte Arbeiten
tn2 :=
Z
tn3 :=
Z
tn4 :=
Z
tn5 :=
Z
tn6 :=
Z
tn7 :=
Z
35
n
1
1 X
K
2σ 2 (x) nh i=1
n
1
1 X
K
2σ 2 (x) nh i=1
n
1 X
1
K
2σ 2 (x) nh i=1
n
1
1 X
K
2σ 2 (x) nh i=1
n
1 X
1
K
2σ 2 (x) nh i=1
n
1
1 X
K
2σ 2 (x) nh i=1
Xi − x
h
Xi − x
h
Xi − x
h
Xi − x
h
Xi − x
h
Xi − x
h
h
h
h
h
h
h
i
2(m(Xi ) − m(x))(m(x) − m̂(x)) dx,
2
i
(m(x) − m̂(x)) dx,
i
2σ(Xi )εi (m(Xi ) − m(x)) dx,
i
2σ(Xi )εi (m(x) − m̂(x)) dx,
σ
2
(Xi )(ε2i
i
− 1) dx,
i
σ 2 (Xi ) − σ 2 (x) dx.
In den Termen tn2 , tn3 und tn5 tritt der Schätzer m̂ auf, den wir wieder gemäß seiner Definition
(1.16) ersetzen. Es gilt nach dem Einsetzen der Definition tn2 = tn21 + tn22 mit tn22 = oP (n−1/2 )
und
Z
n
n
1 X
X − x (m(x) − Y ) i
2 X Xi − x h
1
j
j
(m(X
)
−
m(x))
dx,
K
K
tn21 :=
i
2
2σ (x) nh i=1
h
nh j=1
h
fX (x)
tn3 = tn31 + tn32 mit tn32 = oP (n−1/2 ) und
tn31 :=
Z
n
n
1
1 2
1 X Xi − x 1 X Xj − x K
K
dx,
(m(x) − Yj )
2σ 2 (x) nh i=1
h
nh j=1
h
fX (x)
tn5 = tn51 + tn52 mit tn52 = oP (n−1/2 ) und
tn51 :=
Z
n
n
1 X X − x
1 i
1 X Xi − x h
1
j
2σ(Xi )εi
(m(x) − Yj )
dx
K
K
2σ 2 (x) nh i=1
h
nh j=1
h
fX (x)
auf analoge Weise wie oben bei der Zerlegung in An und Bn . Zentriert sind die Terme tn4 und tn6 ,
Pn
Pn
1
1
1
2
2
wobei tn6 den zentrierten Term 2n
i=1 (εi − 1) enthält und Var(tn6 − 2n
i=1 (εi − 1)) = o( n )
gilt, wie wir unten zeigen werden. Daher betrachten wir für den Bias nur die verbleibenden
Terme tn1 , tn21 , tn31 und tn7 . Es gilt IE[tn21 ] = o( √1n ), IE[tn31 ] = o( √1n ), IE[tn51 ] = o( √1n ),
IE[tn1 ] =
h2 µK
2
IE[tn7 ] =
h2 µK
2
Z
Z
1
2σ 2 (x)
(m′ )2 (x)fX (x)dx + o(h2 ),
1 2
′′
2
′′
(σ
f
)
(x)
−
σ
(x)f
(x)
dx + o(h2 ).
X
X
4σ 2 (x)
36
Kapitel 1. Grundlagen
1
Wir zeigen die Rechnung zur Varianz von tn6 − 2n
Pn
2
i=1 (εi
− 1). Es gilt mit den Substitutionen
i
h
u = x + hv im ersten Schritt und x = z + hw im zweiten Schritt mit ξn :=
1
IE
4n
2
(ε21 − 1)
n
n
i2 i
h 1 X
hZ
1 1 Xi − x 2
1 X 2
2
2
K
σ
(X
)dx
−
1
(εi − 1)) ] = IE
(εi − 1)
IE[(tn6 −
i
2n i=1
2n i=1
σ 2 (x) h
h
Z Z
Z
1 u − x σ 2 (u)
1 u − z σ 2 (u)
= ξn
K
−
1
dx
K
−
1
dzfX (u)du
h
h
σ 2 (x)
h
h
σ 2 (z)
Z Z
σ 2 (x + hv) − σ 2 (x) Z 1 x + hv − z σ 2 (x + hv) − σ 2 (z) K
= ξn
K(v)
σ 2 (x)
h
h
σ 2 (z)
dzfX (x + hv)dxdv
Z Z
1
= ξn
K(v) 2
σ 2 (z + h(v + w)) − σ 2 (z + hw)
σ (z + hw)
Z
h
1
σ 2 (z + h(v + w)) − σ 2 (z) f
(z
+
h(v
+
w))dzdvdw
=
O
=
o
.
K(v + w)
X
σ 2 (z)
n
n
Durch die Differenz im Bruch erhalten wir durch eine Entwicklung den Wegfall des Terms der
Ordnung O( n1 ), der verbleibende Term enthält einen zusätzlichen Faktor h und ist beschränkt.
Die restliche Varianzberechnung folgt mit ähnlichen Schritten wie in den Rechnungen in diesem
Beweis und im ausführlicheren Beweis zu Lemma 1.32. Damit folgt die Behauptung in Lemma
1.38.
Kapitel 2
Empirical Likelihood
2.1
Überblick
In diesem Kapitel wird ein modifizierter Schätzer einer Verteilungsfunktion durch Einbindung
einer Zusatzinformation entwickelt. Dazu wird das Konzept des Empirical Likelihood in Form
eines nichtparametrischen Maximum Likelihood-Verfahrens aus Qin und Lawless (1994), basierend auf Owen (1988), verwendet.
Wir beginnen damit, eine generelle Einordnung des Empirical-Likelihood-Verfahrens und einen
Einblick in die zugehörige Literatur zu geben. Im Anschluss an diese Einführung zeigen wir
konkret die Herleitung des Schätzers mit diesem Verfahren in Abschnitt 2.2. In Abschnitt 2.3
stellen wir einige in diesem Zusammenhang besonders wichtige Arbeiten vor.
Mit Empirical Likelihood wird ein Verfahren der mathematischen Statistik bezeichnet, welches den parametrischen Likelihood-Ansatz auf nichtparametrische Fragestellungen überträgt
und anwendbar macht. Die grundlegenden Arbeiten zum Empirical-Likelihood-Verfahren stammen von Owen (1988, 1990). Konkret dient dieses Verfahren unter anderem zur Konstruktion
von Schätzern, mit denen wir auf der Basis von gewonnenen Daten die Verteilungsfunktion
der zugrundeliegenden Zufallsvariablen oder Funktionale der unbekannten Verteilungsfunktion
nichtparametrisch schätzen bzw. Teststatistiken konstruieren können. Darüber hinaus können
Konfidenzbereiche in nichtparametrischen Zusammenhängen konstruiert und zusätzliche Informationen über die den Daten zugrundeliegende Verteilung in der Schätzung berücksichtigt
werden.
Owen (1988) konstruiert sogenannte Empirical Likelihood-Quotienten-Teststatistiken und zeigt,
dass sie unter gewissen Umständen asymptotisch χ2 -verteilt sind. Dieser Autor beschäftigt sich
mit unabhängigen und identisch verteilten Zufallsgrößen, mit deren Hilfe Schätzer für Parameter der unbekannten Verteilungsfunktion konstruiert werden, die als Funktionale der Verteilungsfunktion dargestellt werden. Die oben genannten Arbeiten sind unter anderem ergänzt
worden durch Hall und LaScala (1990), DiCiccio, Hall und Romano (1989, 1991), DiCiccio und
37
38
Kapitel 2. Empirical Likelihood
Romano (1989), Hall (1990), Kitamura (1997), Einmahl und McKeague (2003), im Hinblick
auf Empirical Likelihood und Hypothesen auf Momenten vergleiche unter anderem Kitamura
(2001), Kitamura, Tripathi und Ahn (2004), und Bonnal und Renault (2004).
Die Artikel Owen (1991) und Hall und LaScala (1990) vermitteln einen Überblick über die
früheren Entwicklungen; einen Überblick über das Empirical Likelihood aus späterer Perspektive enthält die Monographie Owen (2001). Das Verfahren ist auch in Lehrbüchern vertreten,
vgl. Van der Vaart (1998) §25.10 und Shao (1999) §5.1.2. Die beiden Arbeiten Qin und Lawless (1994) und Zhang (1997) sind im Zusammenhang mit der hier betrachteten Fragestellung
besonders wichtig.
Der Empirical-Likelihood-Schätzer für die Verteilung der Fehlervariablen aus dem linearen Regressionsmodell wurde in Nagel (2002) untersucht, dabei basiert der Schätzer auf den aus
dem linearen Modell resultierenden Residuen. Genz (2004) stellt eine Arbeit zum EmpiricalLikelihood-Schätzer für die Fehlerverteilung im AR(1)-Zeitreihenmodell dar. In diesen beiden
Arbeiten wird jeweils nur die Zentriertheit der Fehler als Zusatzinformation berücksichtigt.
Genz und Häusler (2006) betrachten die Schätzung der Verteilungsfunktion F aus beobachtbaren unabhängigen und identisch bezüglich F verteilten Zufallsvariablen unter Betrachtung
einer wie auch in dieser Arbeit zugrundegelegten Zusatzinformation und testen, ob F innerhalb
einer parametrischen Klasse liegt.
Qin und Lawless (1994) und auch Zhang (1997) betrachten einen Datensatz zu (beobachtbaren) unabhängigen und identisch nach einer Verteilungsfunktion F verteilten Zufallsvariablen
ε1 , . . . , εn . In beiden Arbeiten wird ein Schätzer für die zugrundeliegende unbekannte Verteilungsfunktion F für den Fall untersucht, in dem Informationen über die Verteilung verfügbar
sind.
Die Methode aus Qin und Lawless (1994) ist deshalb nicht unverändert auf die hier untersuchte Fragestellung anwendbar, weil die Fehler im nichtparametrischen Regressionsmodell nicht
beobachtbar sind. Daher ist für den Zweck dieser Arbeit das Verfahren aus Qin und Lawless
(1994) anstatt auf die hier genannten Fehler auf Residuen anzuwenden, wann immer von einem
Satz von Realisierungen ε1 , . . . , εn die Rede ist. Die Empirical-Likelihood-Methode wird im Folgenden anhand von beobachtbaren Zufallsvariablen ε1 , . . . , εn vorgestellt, und nach Einführung
der nötigen Begriffe werden die Resultate von Qin und Lawless (1994) genauer dargestellt.
2.2
Herleitung des Schätzers
Zusätzliche Information über die Fehlerverteilung liegen in Form der Schätzgleichung (estimating equation)
IE[g(ε1 )] =
Z
g(y) dF (y) = 0
(2.1)
2.2 Herleitung des Schätzers
39
vor. Dabei ist g = (g1 , . . . , gk )T : IR → IRk eine bekannte Funktion, die sogenannte Schätzfunktion (estimating function), mit IE[gj2 (ε1 )] < ∞ (j = 1, . . . , k). Das könnte zum Beispiel
g(ε) = ε sein, dem entspricht eine Modellannahme von zentrierten Fehlern. Andere Beispiele
sind eine Funktion aus zwei Komponenten g(ε) = (ε, ε2 − σ 2 )T für zentrierte Fehler und eine
bekannte Varianz σ 2 oder die Funktion g(ε) = I{ε ≤ q} − 12 im Falle der Bekanntheit des
Medians q. Dabei ist der Median q definiert als derjenige reelle Wert, für den F (q) = 1/2 gilt.
Der Empirical-Likelihood-Schätzer für die Fehlerverteilung ist
F̃n (y) =
n
X
i=1
pi I{εi ≤ y},
y ∈ IR.
(2.2)
Die Gewichte pi ∈ (0, 1) sind mit pi = F̃n (εi ) − F̃n (εi −) so gewählt, dass die empirische
Wahrscheinlichkeit (Likelihoodfunktion)
L(p1 , . . . , pn ) =
n
Y
pi
(2.3)
i=1
maximiert wird unter den folgenden Bedingungen
n
X
i=1
pi = 1,
Z
g(y) dF̃n (y) =
n
X
pi g(εi ) = 0.
(2.4)
i=1
Die Einschränkung auf pi ∈ (0, 1) schließt den Fall L = 0 aus. Für einen gegebenen Datensatz
werden diese Annahmen für die Garantie der eindeutigen Lösung des Maximierungsproblems
beim Empirical-Likelihood-Ansatz benötigt. Es ist klar, dass wir den Schätzer für einen festen
Datensatz von Fehlern ε1 , . . . , εn bzw. später von Residuen ε̂1 , . . . , ε̂n herleiten. Bei der Untersuchung des Schätzers hinsichtlich seiner asymptotischen und stochastischen Eigenschaften
betrachten wir ihn natürlich bezüglich der den Datensätzen zugrundeliegenden Zufallsvariablen, die wie ihre Realisierungen in der Herleitung mit ε1 , . . . , εn bzw. mit ε̂1 , . . . , ε̂n bezeichnet
werden.
Der Schätzer F̃n wird gerade so gewählt, dass er die Zusatzinformationen aus (2.4) erfüllt. Das
arithmetische Mittel in der zweiten Bedingung aus (2.4) stellt die empirische Version von (2.1)
dar, auf diese Weise wird die Informationen in die Bedingungen integriert. Für die Schätzfunktion g = (g1 , . . . , gk ) wird in dem Sinn Unabhängigkeit vorausgesetzt, dass eine beliebige Komponente gi nicht als Linearkombination der restlichen Komponenten g1 , . . . , gi−1 , gi+1 , . . . , gk
der Schätzfunktion ausgedrückt werden kann.
Wir betrachten an dieser Stelle kurz den Fall, wenn die zweite Bedingung aus (2.4) nicht
verwendet wird. Dies entspricht dem Fall, dass uns gerade keine Informationen über die Verteilungsfunktion vorliegen. In diesem Fall ergeben sich durch die Maximierung von L(p1 , . . . , pn )
alle Gewichte pi gleich 1/n, und wir erhalten mit diesem Verfahren wieder die empirische Verteilungsfunktion Fn definiert in (1.1), wobei Xi durch εi zu ersetzen ist.
40
Kapitel 2. Empirical Likelihood
Damit Vektoren (p1 , . . . , pn ) mit den Eigenschaften aus (2.4) existieren, müssen Realisierungen
g(ε1 ), . . . , g(εn ) zu einem Fehlerdatensatz ε1 , . . . , εn gewisse Eigenschaften besitzen. Betrachten
wir die zweite Gleichung aus (2.4), so ist ersichtlich, dass diese nur lösbar ist, falls sowohl positive als auch negative Realisierungen vorliegen. Deshalb wird Annahme (S1) auf S. 44 formuliert.
Analog wird für die Fehler statt der Residuen die folgende Annahme getroffen:
Es wird für alle j = 1, . . . , k angenommen, dass
min gj (εi ) < 0 < max gj (εi ).
1≤i≤n
(2.5)
1≤i≤n
Wir werden in Lemma 3.18 Bedingungen angeben, unter denen (2.5) mit gegen Eins konvergierender Wahrscheinlichkeit gilt. Im Anschluss nehmen wir stets die Gültigkeit von (2.5) an.
Wir suchen die Maximalstelle der Likelihood-Funktion L aus (2.3) unter den Nebenbedingungen
(2.4), beziehungsweise äquivalent dazu die Maximalstelle p = (p1 , . . . , pn ) der Log-LikelihoodFunktion
l(p1 , . . . , pn ) := log L(p1 , . . . , pn ) =
n
X
log pi
(2.6)
i=1
in der Menge
n
Bn := {(p1 , . . . , pn ) ∈ (0, 1) :
n
X
i=1
pi = 1,
n
n
X
pi g(εi ) = 0}.
(2.7)
i=1
Lemma 2.1 stellt die Existenz und Eindeutigkeit der gesuchten Maximalstelle sicher. Im Anschluss an das Lemma werden wir die Maximalstelle berechnen.
Lemma 2.1. Unter der Annahme (2.5) gilt: die gesuchte Maximalstelle der Log-LikelihoodFunktion aus (2.6) in Bn aus (2.7) existiert und ist eindeutig.
Beweis zu Lemma 2.1. Im Beweis zu Lemma 2.1 zeigen wir zuerst die Existenz und dann
die Eindeutigkeit der gesuchten Maximalstelle. Unter Annahme von (2.5) ist die konvexe Menge
Bn nichtleer. Auf dem kompakten Abschluss von Bn gibt es mindestens ein Maximum von l.
Das Maximum von l wird nicht am Rand angenommen, wo pi = 0 oder pi = 1 für mindestens
einen Index i, 1 ≤ i ≤ n, gilt, da die Funktion L dort den Wert Null annimmt.
Die Eindeutigkeit der Maximalstelle folgt aufgrund der strengen Konkavität der Logarithmusfunktion und der Konvexität der Menge Bn : Setzen wir nämlich mit zwei verschiedenen Maximalstellen q = (q1 , . . . , qn ) und r = (r1 , . . . , rn ) an, so liegt auch jede Konvexkombination
s = (s1 , . . . , sn ) der beiden Maximalstellen in Bn mit si = λqi + (1 − λ)ri ; i = 1, . . . , n, mit
λ ∈ (0, 1). Es gilt l(q1 , . . . , qn ) = maxp∈Bn l(p1 , . . . , pn ) = l(r1 , . . . , rn ). Der Vektor s erfüllt
die Bedingungen, die in Bn gestellt werden. Wenn wir eine solche Konvexkombination in die
Log-Likelihood-Funktion einsetzen, erhalten wir wegen der strikten Konkavität der natürlichen
Logarithmusfunktion auf (0, ∞) und der Jensen-Ungleichung einen echt größeren Wert als die
2.2 Herleitung des Schätzers
41
bisher angenommenen Maximalstellen:
l(s1 , . . . , sn ) =
>
n
X
j=1
n
X
log(λqj + (1 − λ)rj )
(λ log qj + (1 − λ) log rj )
j=1
n
X
= λ
j=1
log qj + (1 − λ)
n
X
log rj
j=1
= (λ + 1 − λ) max l(p1 , . . . , pn ) = max l(p1 , . . . , pn ).
p∈Bn
p∈Bn
Durch diesen Widerspruch ist klar, dass es nur eine Maximalstelle gibt.
Wir berechnen nun die Maximalstelle. Nach der Lagrangeschen Multiplikatorenregel führen wir
Lagrange-Multiplikatoren λn ∈ IR, ηn = (η1n , . . . , ηkn ) ∈ IRk ein und suchen einen stationären
Punkt p ∈ Bn von
H(p1 , . . . , pn , λn , ηn ) =
n
X
i=1
Es gilt
log pi + λn (1 −
n
X
i=1
pi ) − ηnT (n
n
X
pi g(εi )).
i=1
∂H(p1 , . . . , pn , λn , ηn )
1
= − λn − ηnT n g(εi ).
∂pi
pi
(2.8)
Multiplizieren wir die erhaltene partielle Ableitung mit pi und summieren wir über i ∈ {1, . . . , n},
so ergibt sich
n
X
i=1
pi
n
n
n
X
X
pi X
∂H(p1 , . . . , pn , λn , ηn )
=
−
λn pi − ηnT n
pi g(εi )
∂pi
p
i
i=1
i=1
i=1
=
n
X
i=1
1 − λn ·
= n − λn .
n
X
i=1
pi − ηnT · 0
Für λn = n ergibt der Ausdruck Null. Wir setzen λn = n in (2.8) ein und erhalten
1
∂H(p1 , . . . , pn , n, ηn )
= − n(1 + ηnT g(εi )).
∂pi
pi
Uns interessieren solche pi , für welche der letzte Ausdruck Null wird. Für diese stationären
Punkte pi erhalten wir die notwendige Bedingung
1
1
.
− n(1 + ηnT g(εi )) = 0 ⇔ pi =
pi
n(1 + ηnT g(εi ))
Die letzte Darstellung der pi enthält allerdings noch den Lagrange-Multiplikator ηn : Entsprechend den Nebenbedingungen (2.4) löst ηn die Gleichung
n
X
i=1
n
g(εi )
1X
= 0.
pi g(εi ) =
n i=1 1 + ηnT g(εi )
(2.9)
42
Kapitel 2. Empirical Likelihood
Zusätzlich gilt, da 0 < pi < 1 ist, für ηn die Ungleichung
k
X
1
für 1 ≤ i ≤ n.
n
(2.10)
n
o
1
Dk := ηn ∈ IRk : 1 + ηnT g(εi ) > für 1 ≤ i ≤ n .
n
(2.11)
1+
ηnT g(εi )
=1+
T
ηjn
gj (εi ) >
j=1
Wir fassen dies in der Menge Dk zusammen:
Mit der Existenz und Eindeutigkeit der Lösung ηn aus (2.9) in Dk aus (2.11) können wir
den mit der Zusatzinformation hergeleiteten Schätzer vollständig angeben: Der in (2.2) bereits
eingeführte Schätzer hat insbesondere die Gestalt
n
1
1X
I{εi ≤ y}
F̃n (y) :=
n i=1 1 + ηnT g(εi )
(2.12)
für y ∈ IR. Natürlich kann dieser Schätzer nur dann verwendet werden, wenn die Fehler beobachtet werden können. Auf diesen Hinweis kommen wir später zurück. An dieser Stelle geben
wir noch einen Nachweis zur Existenz und Eindeutigkeit der Lösung ηn aus (2.9) in Dk aus
(2.11) an.
Lemma 2.2. Angenommen, es gelten Annahme (2.5) und die Positivdefinitheit der Matrix
Pn
1
T
i=1 g(εi )g(εi ) . Dann existiert genau eine Lösung ηn von (2.9) in Dk (definiert in (2.11)).
n
Beweis zu Lemma 2.2. Die Existenz einer Lösung ηn von (2.9) in Dk folgt aus der Existenz
der Gewichte pi unter der Annahme (2.5). Die Existenz der Gewichte pi aus (2.6) haben wir in
Lemma 2.1 unter Annahme (2.5) nachgewiesen (vgl. dazu die Herleitung weiter vorn).
Die Eindeutigkeit der Lösung ηn von (2.9) in Dk wird durch Beweis durch Widerspruch gezeigt.
Angenommen, es gibt zwei Nullstellen v1 , v2 von (2.9) in Dk . Es gilt also B(v1 ) = B(v2 ) = 0
P
i)
R → IR,
für B(v) := n1 ni=1 1+vg(ε
T g(ε ) . Betrachten wir die Funktion G : I
i
G(t) := (v2 − v1 )T B(v1 + t(v2 − v1 )), t ∈ [0, 1].
Das Argument v1 + t(v2 − v1 ) durchläuft alle Werte auf einer Verbindungsgeraden zwischen v1
und v2 . Wegen der Konvexität von Dk liegt auch v1 + t(v2 − v1 ) in Dk , für t ∈ [0, 1]. Es gilt
G(0) = G(1) = 0. Betrachte die Ableitung von G nach t,
G′ (t) = (v2 − v1 )T DB(v1 + t(v2 − v1 ))(v2 − v1 ).
Dabei bezeichnet DB(w) die Matrix der totalen

∂
B (w)
∂w1 1

DB(w) = 

∂
B (w)
∂w1 k
Ableitung,
...
...
∂
B (w)
∂wk 1
...
∂
B (w)
∂wk k


.

(2.13)
2.2 Herleitung des Schätzers
43
mit dem jl−ten Eintrag, 1 ≤ j, l ≤ k,
n
n
∂
∂ 1 X
1 X gj (εi )gl (εi )
gl (εi ) .
Bl (w) =
=
−
∂wj
∂wj n i=1 1 + wT g(εi )
n i=1 (1 + wT g(εi ))2
Für G′ aus (2.13) gilt G′ (t) < 0 ∀ t ∈ [0, 1], denn die Matrix DB(w) ist negativ definit nach
P
der Annahme, dass n1 ni=1 g(εi )g T (εi ) positiv definit ist, und dass 1 + wT g(εi ) 6= 0 für alle
i = 1, . . . , n gilt: im einzelnen gilt
−xT
n
1 X
n
1X
(1 + wT g(εi ))−2 g(εi )g T (εi ) x ≤ −xT min (1 + wT g(εi ))−2
g(εi )g T (εi ) x < 0.
1≤i≤n
n i=1
n i=1
Dabei gilt die erste Abschätzung wegen
n
1 X
min (1 + wT g(εi ))−2 − (1 + wT g(εi ))−2 xT g(εi )g T (εi )x ≤ 0
n i=1 1≤i≤n
mithilfe von xT g(εi )g T (εi )x ≥ 0 und der großen Klammer kleiner gleich Null für alle i = 1, . . . , n
P
und die zweite Abschätzung wegen der Positivdefinitheit von n1 ni=1 g(εi )g T (εi ) und der Annahme 1 + wT g(εi ) 6= 0 ∀ i = 1, . . . , n.
Da G strikt monoton fallend ist, kann G und damit B nicht zwei Nullstellen haben. Die geforderte Eindeutigkeit der Lösung ηn ist gezeigt und der Beweis zu Lemma 2.2 abgeschlossen.
In Regressionsmodellen allgemein können die Fehler nicht direkt beobachtet werden. Daher ist
es notwendig, eine Schätzung auf der Basis der Residuen durchzuführen, deren Gestalt vom
Modell und dabei ggf. nötigen weiteren Schätzern abhängt. Weil wir in der Herleitung keinen
Gebrauch spezifischer Eigenschaften der Zufallsvariablen ε1 , . . . , εn gemacht haben, welche die
Residuen ε̂1 , . . . , ε̂n aus dem homoskedastischen oder heteroskedastischen Modell nicht besitzen,
benutzen wir das beschriebene Verfahren zur Verwendung der Nebeninformation analog für
Residuen anstelle der Fehler. Analog zu den Bezeichnungen (2.2), (2.3) und (2.4) suchen wir
die Maximalstelle p̂ = (p̂1 , . . . , p̂n ) der Log-Likelihood-Funktion
l(p̂1 , . . . , p̂n ) =
n
X
log p̂i
(2.14)
i=1
mit p̂i = F̃ (ε̂i ) − F̃ (ε̂i −) in der Menge
n
B̂n := {(p̂1 , . . . , p̂n ) ∈ (0, 1) :
n
X
i=1
p̂i = 1,
n
n
X
p̂i g(ε̂i ) = 0}.
(2.15)
i=1
In gleicher Weise erhalten wir den im Folgenden zu untersuchenden Schätzer
n
1
1X
I{ε̂i ≤ x}.
F̄n (x) =
n i=1 1 + η̂nT g(ε̂i )
(2.16)
44
Kapitel 2. Empirical Likelihood
Wie wir bereits im Fall beobachtbarer Zufallsvariablen gesehen haben, ist der auftretende Faktor
η̂n als Lösung der Gleichung
n
in der Menge
1X
1
g(ε̂i ) = 0
n i=1 1 + η̂nT g(ε̂i )
(2.17)
1
für 1 ≤ i ≤ n}
(2.18)
n
unter der im Folgenden zu formulierenden Annahme (S1) definiert, analog zur Definition von
ηn über (2.9) in Dk aus (2.11).
D̂k := {η̂n ∈ IRk : 1 + η̂nT g(ε̂i ) >
Entsprechend der in den Lemmata aus diesem Abschnitt verwendeten Voraussetzungen formulieren wir Annahmen (S1) und (S2), um die Existenz und Eindeutigkeit der Lösung aus der
Maximierung der empirischen Wahrscheinlichkeit (Empirical Likelihood) zu sichern.
(S1) Es wird angenommen, dass min1≤i≤n gj (ε̂i ) < 0 < max1≤i≤n gj (ε̂i ) für alle j = 1, . . . , k
gilt.
P
(S2) Es wird angenommen, dass die Matrizen Σ = IE[g(ε1 )g(ε1 )T ] und ni=1 g(ε̂i )g(ε̂i )T positiv
definit sind.
Zu beachten ist, dass Lemmata 2.1 und 2.2 nicht von der Gestalt der Argumente von g abhängen;
in den Aussagen werden sie lediglich als Realisierungen von Zufallsvariablen betrachtet. Daher
können beide Lemmata 2.1 und 2.2 zur Existenz und Eindeutigkeit direkt unter Angabe der
dann zu treffenden Annahmen übertragen werden.
Lemma 2.3. Unter Annahme (S1) gilt: die gesuchte Maximalstelle der Log-Likelihood-Funktion
aus (2.14) in B̂n aus (2.15) existiert und ist eindeutig.
P
Lemma 2.4. Angenommen, es gelten Annahme (S1) und die Positivdefinitheit von n1 ni=1
g(ε̂i )g(ε̂i )T (Teil aus Annahme (S2)). Dann existiert genau eine Lösung η̂n von (2.17) in D̂k
(definiert in (2.18)).
Bemerkung 2.5. Wie oben ersichtlich, können wir ηn sowie η̂n nicht konkret, sondern nur
als Lösung einer Gleichung in einer Menge angeben. Durch diesen Umstand ist es im Umgang
mit einem konkreten Datensatz wichtig, wie wir den Lagrange-Multiplikator η̂n rechnerisch erhalten können. Eine Möglichkeit ist, je nach gewünschter Genauigkeit die ersten Terme aus
der Taylorentwicklung für η̂n zu einem Datensatz auszurechnen, vgl. Lemma 3.10. Eine weitere
Möglichkeit stellt die Approximation der Lösung durch numerische Verfahren dar. Ist g eine
reellwertige Funktion, so ist ein Bisektionsverfahren besonders einfach, weil die Menge D̂1 als
Intervall dargestellt werden kann. Im Fall von g : IR → IRk , k > 1, verweisen wir auf das multivariate Newton-Raphson-Verfahren. Beide Verfahren werden in Press et al. (2002) vorgestellt
und in den Simulationen in Abschnitt 5.2 verwendet.
Für weitere Details, die modellspezifisch zu betrachten sind, wird auf die Abschnitte 3.5 und
4.5 verwiesen.
2.3 Vergleich mit vorausgegangenen Arbeiten
2.3
45
Vergleich mit vorausgegangenen Arbeiten
Qin und Lawless (1994) und Zhang (1997) beschäftigen sich mit der Schätzung der Verteilung
von beobachtbaren i.i.d. Zufallsvariablen X1 , . . . , Xn unter Berücksichtigung einer Zusatzinformation in Form von IE[g(X, ϑ)] = 0 durch den Schätzer
Fn∗ (x)
=n
−1
n
X
i=1
−1
1 + η T g(Xi , ϑ)
I{Xi ≤ x}.
In g wird ein zusätzlicher Parameter ϑ zugelassen, der für unsere Betrachtungen im Folgenden
keine Rolle spielt und deshalb bei der Diskussion der beiden Arbeiten vernachlässigt wird.
In Qin und Lawless (1994), Theorem 1, wird für den Vektor η = η(n), welcher in dem nach
dem Empirical-Likelihood-Prinzip konstruierten Schätzer auftritt, unter bestimmten Annahmen
√
schwache Konvergenz von nη gezeigt. Die Grenzverteilung ist eine zentrierte Normalverteilung
mit Kovarianzmatrix Σ−1 mit Σ := IE[g(Xi )g T (Xi )]. Im gleichen Theorem wird die punktweise
√
asymptotische zentrierte Normalität von n(Fn∗ (x) − F (x)) gezeigt. In der Arbeit von Zhang
(1997) wird unter gewissen Annahmen und unter Zuhilfenahme einer Entwicklung für den
√
empirischen Prozess n(Fn∗ − F ) schwache Konvergenz gegen einen zentrierten Gaußprozess W
gezeigt, wobei für die Kovarianzfunktion gilt:
IE [W (x)W (y)] = F (min(x, y)) − F (x)F (y) − IE g T (X)I{X ≤ x} Σ−1 IE [g(X)I{X ≤ y}] .
Die Varianzfunktion ist punktweise kleiner gleich der des Grenzprozesses B 0 ◦ F im Satz von
Donsker (vgl. Satz 1.8), in welchem wir den empirischen Prozess aus (1.7) bezüglich Fn aus
(1.1) anstatt bezüglich des oben betrachteten Fn∗ betrachtet haben, ohne die Zusatzinformation
zu berücksichtigen.
46
Kapitel 2. Empirical Likelihood
Kapitel 3
Untersuchung des Schätzers im
homoskedastischen Modell
3.1
Einleitung
In diesem Kapitel untersuchen wir das homoskedastische Modell (1.14). Ziel ist es, die Verteilungsfunktion der Fehler im homoskedastischen Regressionsmodell zu schätzen und dabei
Zusatzinformationen über diese ansonsten unbekannte Verteilungsfunktion einzubeziehen. Dabei benutzen wir den Schätzer, den wir in Kapitel 2 ausführlich eingeführt haben.
Der uns hier interessierende mit dem Empirical-Likelihood-Verfahren hergeleitete Schätzer ist
n
1
1X
I{ε̂i ≤ x}
F̄n (x) =
n i=1 1 + η̂nT g(ε̂i )
(3.1)
bezüglich der Residuen aus (1.15). Wie wir bereits gesehen haben, ist der auftretende Faktor
η̂n als Lösung der Gleichung
n
1X
1
g(ε̂i ) = 0
n i=1 1 + η̂nT g(ε̂i )
(3.2)
in der Menge
D̂k := {η̂n ∈ IRk : 1 + η̂nT g(ε̂i ) >
1
für 1 ≤ i ≤ n}
n
(3.3)
gegeben. Die Residuen und die daraus resultierenden Größen η̂n hängen von (X1 , Y1 ), . . . ,
(Xn , Yn ) ab, darüber hinaus von der Wahl des Regressionsmodells, den daraus resultierenden
zu schätzenden Größen und von der Wahl der bei den Glättungen verwendeten Bandbreite und
der gewählten Kernfunktion.
Beispiel 3.1. Ein zentrales Beispiel ist g(ε) = ε. Durch diese Wahl von g wird die Zentriertheit
der Fehler als Zusatzinformation wie in (A) auf S. 19 formuliert. Das Beispiel ist deshalb so
wichtig, weil die Zentriertheit der Fehler bereits eine Annahme des Regressionsmodells ist. Wenn
47
48
Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell
wir davon ausgehen können, dass die Varianz σ 2 bekannt und das dritte Moment gleich Null
ist, wird g(ε) = (ε, ε2 − σ 2 , ε3 )T gewählt.
Über die auf Momenten basierenden Nebeninformationen hinaus sollen auch Informationen
hinsichtlich der Quantile berücksichtigt werden. Die daraus zu konstruierenden Funktionen g
sind von der Gestalt g(ε) = I{ε ≤ a} − b. Beispielsweise kann so eine a priori Information
wie etwa ein Median, der Null ist, beschrieben werden, nämlich mit der Funktion g(ε) = I{ε ≤
0} − 1/2. Auch für diesen Fall wird der Schätzer untersucht.
Bemerkung 3.2. Im Spezialfall g(x) = x ist es auch möglich, die Verteilungsfunktion der
Fehler auf der Basis zentrierter Residuen zu schätzen. Eine ähnliche Entwicklung für einen
P
P
entsprechenden Schätzer F̂ z (y) = n1 ni=1 I{εi − ¯ε̂ ≤ y} mit ¯ε̂ := n1 nj=1 ε̂j ist möglich, auf
diese Weise ist allerdings nur der Spezialfall g(x) = x zu modellieren.
Dieses Kapitel stellt in Abschnitt 3.2 weitere Annahmen und in Abschnitt 3.3 eine Reihe von
Hilfsresultaten vor, die in Abschnitt 3.4 zu den Hauptresultaten zusammengeführt werden.
Den Schätzer F̄n werden wir entwickeln (vgl. Theorem 3.11) und für einen entsprechenden
empirischen Prozess schwache Konvergenz zeigen. Die Nachweise zur schwachen Konvergenz
führen wir für zwei Typen von Zusatzinformationen in den Theoremen 3.12 und 3.14. Der letzte Abschnitt 3.5 dieses Kapitels beschreibt Aussagen zum verwendeten Empirical-LikelihoodSchätzer, die durch die Verwendung von Residuen aus (1.15) aus dem homoskedastischen Modell
spezifisch zu zeigen sind.
3.2
Annahmen
Wir verweisen an dieser Stelle auf die Annahmen (M1), (M2), (M3), (K), (H) in Abschnitt 1.5.1,
auf (A) in Abschnitt 1.6 und auf (S1) und (S2) in Abschnitt 2.2. Diesen Abschnitt beginnen
wir mit einer genaueren Spezifizierung derjenigen Funktionen g gemäß Annahme (A) aus S. 19,
die wir hier betrachten wollen. Die Annahmen (G1) und (G2) werden im folgenden Text nur
vorausgesetzt, wenn wir sie explizit angeben.
(G1) Die Funktion gj ist stetig differenzierbar und es existieren Konstanten γ, C und β > 0, so
dass
Z
′
g
(y
+
z)
−
g
(y)
−
zg
(y)
f
(y)
dy
≤ C|z|1+β
j
j
j
für alle z ∈ IR mit |z| ≤ γ, j = 1, . . . , k gilt. Für g gilt darüber hinaus IE[|gj′ (ε1 )|] < ∞,
j = 1, . . . , k.
Ohne Einschränkung nutzen wir die gleichen Konstanten γ, C und β wie in Annahme (M3).
(G2) Es existieren Konstanten δ, C, so dass für ein positives κ < 2(1 + α) (mit α aus Annahme
(H)) die Abschätzung gilt:
h
i1/2
2
IE
sup (gj (ε1 + z) − gj (ε1 + z̃))
≤ Cξ 1/κ für j = 1, . . . , k.
z,z̃∈IR:|z|≤δ,
|z̃|≤δ,|z−z̃|≤ξ
3.2 Annahmen
49
Im Folgenden werden die Konsequenzen aus (G2) an einem Beispiel betrachtet.
Beispiel 3.3. Informationen bezüglich der Momente der ansonsten unbekannten Fehlerverteilung können wir als Funktionen g(y) = y k − c schreiben. Solche Funktionen erfüllen die
Annahmen (G1) und (G2), falls IE[ε2k
1 ] < ∞ gilt. Das gleiche gilt für Polynome, zum Beispiel
4
2
für g(y) = y − cy , um eine Beziehung zwischen zweitem und viertem Moment zu berücksichtigen.
Ein konkretes Beispiel für Funktionen vom Typ g(y) = y k −c ist g(y) = y, was mit IE[g(ε1 )] = 0
die Annahme der Zentriertheit der Fehler, also IE[ε1 ] = 0, modelliert. Im Fall g(y) = y ist
gj (y+z)−gj (y)−zgj′ (y) = 0: (G1) gilt ohne die Formulierung zusätzlicher Momentenannahmen.
In (G2) steht der Term (gj (ε1 + z) − gj (ε1 + z̃))2 = (z − z̃)2 ≤ ξ 2 . Durch den außenstehenden
Exponenten 1/2 auf der linken Seite der Ungleichung aus der Annahme ist auf der rechten
Seite C = 1, κ = 1 zu wählen. Vergleiche auch Beispiel 4.2 für ausführliche Diskussionen
entsprechender Annahmen im nächsten Kapitel.
Es ist zu beachten, dass mit Hilfe einer Taylorentwicklung die Gültigkeit von (G2) für κ = 1 mit
Taylorentwicklung gezeigt werden kann, wenn gj stetig differenzierbar ist und die Abschätzung
IE[supz∈IR:|z|≤δ (gj′ (ε1 + z))2 ] < ∞, j = 1, . . . , k gilt. Dann ist κ = 1 < 2(1 + α) stets gültig
(α > 0). Die Glattheitsannahmen (G1) und (G2) sind den Annahmen ähnlich, die bei Müller,
Schick und Wefelmeyer (2004a), Annahme 1, S. 79 und Müller, Schick und Wefelmeyer (2004b),
Annahme B1, S. 536 gestellt werden, um asymptotische Ergebnisse für glatte lineare Schätzer
basierend auf nichtparametrischen Residuen zu erhalten. Vergleiche dazu die Diskussion dieser
Annahmen in Abschnitt 3 von Müller, Schick und Wefelmeyer (2004a).
1
1+α′
Bemerkung 3.4. Der Faktor ξ κ ist ähnlich gewählt wie |s| 2 in Müller, Schick und Wefelmeyer (2004a), Ass. 1, (2.1): Unter der Annahme 0 < α′ ≤ 1 aus der zitierten Arbeit gilt
′
wählen, 1/2 < 1/κ ≤ 1, d.h. 1 ≤ κ < 2. Damit
1/2 < (1 + α′ )/2 ≤ 1 bzw., wenn wir κ1 = 1+α
2
ist auch die Annahme 0 < κ < 2(1 + α) aus (G2) erfüllt.
Es ist außerdem zu beachten, dass die folgende Aussage gilt, sobald g die Gestalt
g(ε) = I{ε ≤ a} − b hat oder die Annahme (G2) für g erfüllt ist:
i
h
(3.4)
∃ δ > 0, so dass IE
sup (gj (ε1 + y) − gj (ε1 ))2 < ∞ ∀ j = 1, . . . , k.
y∈IR:|y|≤δ
Diese Bedingung wird in den Beweisen wiederholt verwendet. Gebraucht werden außerdem noch
Annahmen (S1) und (S2) von Seite 44, um die Existenz und Eindeutigkeit der Lösung aus der
Maximierung der empirischen Wahrscheinlichkeit (Empirical Likelihood) zu sichern.
Es ist zu bemerken, dass die Annahme (S1) in Wahrscheinlichkeit für wachsenden Stichprobenumfang wegen der Annahme (A) gilt, wenn die Residuen ε̂i durch die wahren Fehler εi ersetzt
werden. In Lemma 3.18 geben wir Annahmen an, unter denen die Wahrscheinlichkeit der Gültigkeit von (S1) gegen 1 konvergiert. Schließlich folgt aus der ersten Annahme aus (S2) zusammen
mit dem folgenden Lemma 3.5 (v) die zweite Annahme von (S2) in Wahrscheinlichkeit für
wachsenden Stichprobenumfang: Beweise dazu folgen ebenfalls in Lemma 3.18.
50
3.3
Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell
Hilfsresultate
In diesem Abschnitt zeigen wir eine Reihe von Aussagen, die wir für die Entwicklung des
Schätzers F̄n in Abschnitt 3.4 brauchen.
Lemma 3.5. Es gelte Modell (1.14) mit den Annahmen (M1), (M2), (K), (H) aus Abschnitt
1.5 und (A) aus 1.6.
(i) Für Funktionen g, die von der Form g(ε) = I{ε ≤ a} − b für Konstanten a und b (k = 1)
sind, und für solche g, für welche (G1) und (G2) aus Abschnitt 3.2 gilt, folgt
√
max |gj (ε̂i )| = oP ( n) (j = 1, . . . , k).
i=1,...,n
(ii) Unter den zusätzlichen Annahmen (G1) und (G2) gilt die Entwicklung
n
n
1X
1X
gj (εi ) − IE[gj′ (ε1 )]εi
gj (ε̂i ) =
n i=1
n i=1
Z
1 − (IE[m̂(x)] − m(x)) fX (x)dx IE[gj′ (ε1 )] + oP √
n
n
1 1X
′
2
′
gj (εi ) − IE[gj (ε1 )]εi − h IE[gj (ε1 )]B + oP √
=
(j = 1, . . . , k)
n i=1
n
mit in (1.21) definiertem B.
(iii) Für g(ε) = I{ε ≤ a} − b mit Konstanten a und b (k = 1) gilt die Entwicklung
n
n
1 1X
1X
2
g(ε̂i ) =
g(εi ) + f (a)εi + h f (a)B + oP √
n i=1
n i=1
n
mit in (1.21) definiertem B.
(iv) Für Funktionen g, die von der Form g(ε) = I{ε ≤ a} − b für Konstanten a und b (k = 1)
sind und für solche g, für welche (G1) und (G2) gilt, folgt
n
1X
(gj (ε̂i ) − gj (εi ))2 = oP (1) (j = 1, . . . , k).
n i=1
(v) Für Funktionen g, die von der Form g(ε) = I{ε ≤ a} − b für Konstanten a und b (k = 1)
sind und für solche g, für welche (G1) und (G2) gilt, folgt
n
1X
g(ε̂i )g T (ε̂i ) = Σ + oP (1).
n i=1
Bevor die einzelnen Behauptungen in Lemma 3.5 bewiesen werden, kommentieren wir die Aussage (ii) des Lemmas in der folgenden Bemerkung.
3.3 Hilfsresultate
51
P
Bemerkung 3.6. Die Aussage in Lemma 3.5(ii), eine Entwicklung für n1 ni=1 gj (ε̂i ) für festes
j aus {1, . . . , k} und Residuen ε̂1 , . . . , ε̂n , entspricht Theorem 2 in Müller, Schick und Wefelmeyer (2004a). Die Autoren kommen auf die gleiche Entwicklung wie in Lemma 3.5(ii), verwenden
aber andere Methoden: Als Schätzer für die Regressionsfunktion m verwenden sie in Müller,
Schick und Wefelmeyer (2004a) und (2004b) einen sogenannten lokalen Polynomschätzer. Damit sind die Residuen anders definiert. Außerdem verwenden sie strengere Bandbreitenannahmen, die den Bias unterdrücken; sie wählen für die Bandbreite h = hn die Abhängigkeit
nh4n = o(1). Der verwendete lokale Polynomschätzer modelliert die Abhängigkeit innerhalb der
Residuen nach dem Auslassungsprinzip (Leave-one-out) und nutzt, wo möglich, die so entstandene stochastische Unabhängigkeit, so dass der Beweis nicht übertragen werden kann. Wir
benutzen dagegen den Nadaraya-Watson-Schätzer und weniger starke Bandbreitenvoraussetzungen.
Beweis zu Lemma 3.5(i). Unter den getroffenen Annahmen gilt Bedingung (3.4). Mit der
Dreiecksungleichung ist dann
max |gj (ε̂i )| ≤ max |gj (ε̂i ) − gj (εi )| + max |gj (εi )|
i=1,...,n
i=1,...,n
i=1,...,n
(3.5)
gültig, und es wird zuerst der zweite Term auf der rechten Seite betrachtet. Für jedes ρ > 0
erhalten wir
√
√ (3.6)
IP max |gj (εi )| > ρ n ≤ nIE[I{|gj (ε1 )| > ρ n}]
i=1,...,n
i
1 h
≤ 2 IE gj2 (ε1 )I{gj2 (ε1 ) ≥ ρ2 n} = o(1)
ρ
mit der Annahme IE[gj2 (ε1 )] < ∞ aus (A). Für den ersten Term der rechten Seite von (3.5) gilt
IP
√ √
max |gj (ε̂i ) − gj (εi )| > ρ n ≤ IP max |gj (ε̂i ) − gj (εi )| > ρ n, max |εi − ε̂i | ≤ δ
i=1,...,n
i=1,...,n
i=1,...,n
+ IP max |εi − ε̂i | > δ
i=1,...,n
(mit δ aus Bedingung (3.4)). Die letzte Wahrscheinlichkeit konvergiert gegen Null nach den
Annahmen (M1), (M2), (K) und der zweiten Annahme in (H), denn es gilt fast sicher
max |εi − ε̂i | ≤ sup |m̂(x) − m(x)| = O((nh)−1/2 (log(h−1 ))1/2 ) = o(1).
i=1,...,n
(3.7)
x∈[0,1]
Außerdem gilt
√ √
IP max |gj (ε̂i ) − gj (εi )| > ρ n, max |εi − ε̂i | ≤ δ ≤ IP max |hj (εi )| > ρ n , (3.8)
i=1,...,n
i=1,...,n
i=1,...,n
wobei hj (x) = supy∈IR:|y|≤δ |gj (x + y) − gj (x)| ist. Mit einer Argumentation analog zu (3.6) folgt
√
IP(maxi=1,...,n |hj (εi )| > ρ n) = o(1) unter Verwendung von Annahme (3.4), die gerade die
Existenz eines δ > 0, so dass IE[h2j (ε1 )] < ∞ für j ∈ {1, . . . , k} gilt, garantiert.
52
Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell
Beweis zu Lemma 3.5(ii). Die Aussage entspricht Theorem 2 in Müller, Schick and Wefelmeyer (2004a), vergleiche Bemerkung 3.6. Die gleiche Behauptung wie im genannten Theorem
zeigen wir für den hier verwendeten Schätzer mit anderen Beweisschritten, wobei wir Ideen aus
dem Beweis zu Lemma 1 aus Akritas und Van Keilegom (2001) verwenden. Einige Beweisargumente von Teil (ii) werden wir für den Beweis von (iv) und (v) wieder aufgreifen. Im Folgenden
wird gezeigt, dass
n
n
1 1X
1X
′
2
′
gj (ε̂i ) −
(gj (εi ) + IE[gj (ε1 )]εi ) − h IE[gj (ε1 )]B = oP √
n i=1
n i=1
n
gilt. Im ersten Schritt zeigen wir dazu die schwache Konvergenz des empirischen Prozesses
Z Z
n
1 X
Gn (g̃j ) = √
g̃j (εi , Xi ) −
g̃j (y, x)f (y)fX (x) dy dx ,
(3.9)
n i=1
welcher mit deterministischen Funktionen g̃j ∈ Gj indiziert ist, wobei
o
n
Gj = g̃j : IR × [0, 1] → IR, g̃j (ε, x) = gj (ε + h(x)) − gj (ε) h ∈ H
(3.10)
gilt und H = Cδ1+α [0, 1] aus Definition 1.26 bekannt ist.
Es ist zu beachten, dass für n → ∞ die Funktion m − m̂ mit Wahrscheinlichkeit 1 ein Element
der Klasse Cδ1+α [0, 1] ist, dies wurde in Akritas und Van Keilegom (2001) gezeigt. Weiter gilt
n
n
1X
1X
gj (ε̂i ) =
gj (εi + (m − m̂)(Xi ))
n i=1
n i=1
nach Definition von ε̂i aus (1.15). Die Funktionenklasse Gj hat eine quadratintegrierbare Einhüllende gemäß (3.4), weil supx∈[0,1] |h(x)| ≤ δ für h ∈ H nach (1.12) gilt. Um zu zeigen, dass
Gj Donsker ist, reicht es nach Satz 1.17, die Endlichkeit des Klammerungsintegrals zu zeigen,
also
Z ∞q
log N[ ] (ξ, Gj , L2 (P )) dξ < ∞,
(3.11)
0
vgl. Satz 1.17. Dabei bezeichnen wir mit P die Verteilung von (ε1 , X1 ) und mit N[ ] (ξ, Gj , L2 (P ))
eine Klammerungszahl bezüglich der L2 (P )−Norm, vgl. Notation in (1.11) und Definition 1.16.
Es sei ξ > 0, und es sei ξ˜ = (ξ/(2C))κ gewählt mit einer Konstante C, wie sie in (G2) verwendet
wird.
Nach Satz 1.27 gilt für die Überdeckungszahlen von H bezüglich der Supremumsnorm
˜ H, || · ||∞ ) ≤ Kξ −κ/(1+α)
log N (ξ,
(3.12)
für eine Konstante K. Zusätzlich ist für ξ˜ ≥ δ die Überdeckungszahl 1, wenn als Zentrum
h1 ≡ 0 gewählt ist, und beachtet wird, dass supx∈[0,1] |h(x)| ≤ δ für h ∈ H gilt. Entsprechend
ist das Integral in (3.11) nur für ξ˜ < δ bzw. ξ < δ 1/κ 2C auszuwerten. Im Folgenden bezeichnen
˜ H, || · ||∞ )) die Zentren der Überdeckung von H mit Radius ξ˜
h1 , . . . , hλ (dabei ist λ = N (ξ,
3.3 Hilfsresultate
53
bezüglich der Supremumsnorm. Betrachten wir h ∈ H, dann existiert ein i ∈ {1, . . . , λ} mit
˜ und dann ist eine Klammer für g̃j (ε, x) = gj (ε + h(x)) − gj (ε) durch
||h − hi ||∞ < ξ,
h
i
gj (ε + hi (x)) − gj (ε) − g̃j∗ (ε, x) , gj (ε + hi (x)) − gj (ε) + g̃j∗ (ε, x)
gegeben, wobei g̃j∗ (ε, x) = sup |gj (ε + z) − gj (ε + z̃)| gilt und das Supremum über |z| ≤ δ, |z̃| ≤
δ, |z − z̃| ≤ ξ˜ gebildet wird. Die Klammer hat höchstens eine L2 (P )−Länge von ξ, denn nach
Definition von g̃j∗ (ε, x) gilt
IE
h
2g̃j∗ (ε, x)
2 i1/2
= 2IE
h
sup
|z|≤δ,|z̃|≤δ,|z−z̃|≤ξ̃
|gj (ε + z) − gj (ε + z̃)|
2 i1/2
≤ 2C ξ˜1/κ = ξ
unter Verwendung von (G2). Aus der Anzahl von Zentren λ zur Menge H überträgt sich die
Überdeckungszahl also auf die gesuchte Klammerungszahl, und es ergibt sich N[ ] (ξ, Gj , L2 (P )) =
λ. Weil das Integral nur im Intervall (0, 2Cδ 1/κ ) ausgewertet werden muss, vergleiche
Z 2Cδ1/κ
Z 2Cδ1/κ
κ
κ
− 1+α
1/2
1/2
(Kξ
) dξ = K
ξ − 2(1+α) dξ < ∞,
0
0
κ
< 1. Damit haben wir die
folgt für die linke Seite von (3.11) mit (3.12) nach Annahme 2(1+α)
schwache Konvergenz des empirischen Prozesses aus (3.9) nachgewiesen, und der erste Schritt
ist abgeschlossen.
Im zweiten Schritt setzen wir nun in den Prozess Gn definiert in (3.10) die zufällige Funktion
ĝj (ε, x) = gj (ε + (m − m̂)(x)) − gj (ε) statt g̃j aus (3.10) ein.
R
Im Folgenden verwenden wir, dass die Konvergenz (gj (y + (m − m̂)(x))−gj (y))2 fX (x) dx → 0
für n → ∞ fast sicher für jedes feste y gilt. Genauer gesagt folgt diese Konvergenz durch
Taylorentwicklung und die fast sichere in x gleichmäßige Konvergenz von (m̂ − m)(x) gegen
Null, weil gj′ stetig und damit in einer Umgebung des festen Wertes y beschränkt ist. Nach dem
Satz der majorisierten Konvergenz gilt
Z
Z Z 2
2
gj (y + (m − m̂)(x)) − gj (y) fX (x)f (y) dx dy = oP (1)
ĝj dP =
(3.13)
unter der Annahme (3.4), die uns die Existenz der integrierbaren Majorante garantiert.
Nach (3.13) folgt nun durch Anwendung von Satz 1.13
n
1 X
gj (εi + (m − m̂)(Xi )) − gj (εi )
Gn (ĝj ) = √
n i=1
Z Z
−
(gj (y + (m − m̂)(x)) − gj (y))fX (x)f (y) dx dy = oP (1).
Als dritter Schritt bleibt noch
Z Z
√
n
(gj (y + (m − m̂)(x)) − gj (y))fX (x)f (y) dx dy
Z
Z
√
= n (m − m̂)(x)fX (x) dx gj′ (y)f (y) dy + oP (1)
(3.14)
54
Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell
zu zeigen. Dafür bleibt die Rate oP (1) für
Z Z
√
(gj (y + (m − m̂)(x)) − gj (y) − (m − m̂)(x)gj′ (y))fX (x)f (y) dx dy
An := n
nachzuweisen. Wir betrachten
IP(An > ρ)
= IP(An > ρ, sup |(m − m̂)(x)| ≤ δ) + IP(An > ρ, sup |(m − m̂)(x)| > δ) =: a1 + a2 .
x∈[0,1]
x∈[0,1]
Gemäß Akritas und Van Keilegom (2001), Prop. 3 gilt
a2 ≤ IP( sup |(m − m̂)(x)| > δ) = o(1)
x∈[0,1]
wegen der Gültigkeit von supx∈[0,1] |(m − m̂)(x)| = O((n−1 h−1 log(h−1 ))1/2 ) fast sicher. In der
ersten Wahrscheinlichkeit a1 können wir mit Annahme (G1) für festes x innerhalb des Integrals
über x abschätzen:
Z
√
a1 ≤ IP( nC |(m − m̂)(x)|1+β fX (x)dx > ρ, sup |(m − m̂)(x)| ≤ δ) = o(1),
x∈[0,1]
weil n1/2 ((n−1 h−1 log(h−1 ))1/2 )1+β = o(1) aus der letzten Annahme in (H) folgt. Damit ist die
Gleichung in (3.14) gezeigt. Insgesamt folgt damit die Entwicklung
n
n
1 X
1 X
√
gj (εi + (m − m̂)(Xi )) = √
gj (εi )
n i=1
n i=1
Z
Z
√
+ n (m − m̂)(x)fX (x) dx gj′ (y)f (y) dy + oP (1).
Die Behauptung folgt nun aus Lemma 1.32.
Beweis zu Lemma 3.5(iii). Die Behauptung folgt wie Theorem 1 in Akritas und Van KeileP
gom (2001) im homoskedastischen Modell: Der hier zu entwickelnde Term ist 1/n ni=1 g(ε̂i ) =
F̂n (a) − b. Im genannten Theorem wird F̂n entwickelt, für den uns interessierenden Fall ist die
Entwicklung in (1.25) angegeben. Zusammen mit Lemma 1.32 folgt die Behauptung.
Beweis zu Lemma 3.5(iv). Der Beweis nutzt Ergebnisse der Beweise zu (ii) und (iii). Die
in (3.10) definierte Funktionenklasse Gj ist Donsker (in beiden Fällen von Funktionen g).
Vergleiche für den folgenden Schluss Lemma 1.19: Weil für Gj zusätzlich die dort geforderte
R
Abschätzung sup{| g̃j dP | : g̃j ∈ Gj } < ∞ nach Annahme der Existenz einer quadratintegrierbaren Einhüllenden für die Elemente aus Gj in (3.4) gilt, ist Gj2 = {g̃j2 : g̃j ∈ Gj } eine
Glivenko-Cantelli Klasse in Wahrscheinlichkeit. Es folgt
n 1 X
2 Z Z 2
gj (εi + h(Xi )) − gj (εi ) −
gj (y + h(x)) − gj (y) fX (x)f (y) dx dy = op (1).
sup h∈H n
i=1
3.3 Hilfsresultate
55
Damit gilt
n
2
1 X
gj (εi + (m − m̂)(Xi )) − gj (εi )
n i=1
Z Z 2
gj (y + (m − m̂)(x)) − gj (y) fX (x)f (y) dx dy + oP (1).
=
Die Behauptung folgt, sobald die rechte Seite insgesamt oP (1) ist. Im Fall einer Funktion g, für
welche (G1) und (G2) gilt, folgt die Behauptung aus (3.13) aus dem Beweis zu (ii) des Lemmas.
Für die Indikatorfunktion g(ε) = I{ε ≤ a} − b gilt
Z Z
(g (y + (m − m̂)(x)) − g(y))2 fX (x)f (y) dx dy
Z Z
=
|g (y + (m − m̂)(x)) − g(y)|fX (x)f (y) dx dy
Z
=
|F (a + (m̂ − m)(x)) − F (a)|fX (x) dx.
Die Behauptung ist für Funktionen der Form g(ε) = I{ε ≤ a} − b gültig wegen Annahme (M3),
und weil supx∈[0,1] |m̂(x) − m(x)| = o(1) fast sicher gilt.
Beweis zu Lemma 3.5(v). Für j, ℓ ∈ {1, . . . , k} ist zu zeigen, dass
Z
n
1X
gj (ε̂i )gℓ (ε̂i ) =
gj (y)gℓ (y)f (y) dy + oP (1)
n i=1
gilt. Der Beweis ähnelt dem Beweis von (iv). Die Funktionenklassen
G̃j = {(ε, x) 7→ gj (ε + h(x)) | h ∈ H}
sind Donsker für H = Cδ1+α [0, 1] und für j = 1, . . . , k. Aus der Donskereigenschaft von Gj für
j = 1, . . . , k folgt nach Lemma 1.19, dass die Klasse G̃j G̃ℓ = {(ε, x) 7→ gj (ε+h1 (x))gℓ (ε+h2 (x)) |
h1 , h2 ∈ H} eine Glivenko-Cantelli Klasse in Wahrscheinlichkeit ist. Es gilt
n
1 X
gj (εi + h(Xi ))gℓ (εi + h(Xi )) − IE[gj (ε1 + h(X1 ))gℓ (ε1 + h(X1 ))] = oP (1),
sup h∈H n i=1
und deshalb ist mit ε̂i = εi + (m − m̂)(Xi )
Z Z
n
1 X
gj (ε̂i )gℓ (ε̂i ) −
gj (y + (m − m̂)(x)) gℓ (y + (m − m̂)(x)) fX (x)f (y) dx dy = oP (1)
n i=1
gültig. Wegen supx∈[0,1] |m̂(x) − m(x)| = o(1) f.s. erhalten wir die Behauptung ähnlich zu (3.13)
und den Schritten am Ende des Beweises zu (iv).
Bemerkung 3.7. Die Annahmen (G1) und (G2) von Seite 49 werden hauptsächlich für die
P
stochastischen Entwicklungen von n1 ni=1 g(ε̂i ) in Lemma 3.5 verwendet. Neben den Funktionen
g, für die (G1) und (G2) erfüllt ist, und den Indikatorfunktionen g(ε) = I{ε ≤ a} − b kann
die Theorie allgemein für solche Funktionen g abgeleitet werden, für welche eine Entwicklung
Pn
Pn
1
1
√1
i=1 g(ε̂i ) = n
i=1 (g(εi ) + h(εi )) + oP ( n ) unter schwachen Annahmen an die Funktion h
n
gültig ist (vergleiche Lemma 3.5(ii), (iii)).
56
Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell
Lemma 3.8. Unter (M1), (M2), (K), (H) aus Abschnitt 1.5, (A) aus 1.6 und (S1) und (S2)
von S. 44 gelten
√
(i) ||η̂n || = OP (1/ n),
1
(ii) max = OP (1).
T
i=1,...,n 1 + η̂n g(ε̂i )
Beweis zu Lemma 3.8(i). Der Term η̂n ist als Lösung der Gleichung (3.2) in der Menge D̂k
aus (3.3) definiert. Aus der Gleichung erhalten wir die Abschätzung
n
1 X
g(ε̂i ) 0 = n i=1 1 + η̂nT g(ε̂i )
n
n
1 X
1X T
g(ε̂i ) = g(ε̂i ) −
η̂n g(ε̂i )
n i=1
n i=1
1 + η̂nT g(ε̂i )
n
n
1 X
1
1X
2
||g(ε̂i )||
g(ε̂i ).
− ≥ ||η̂n ||
n i=1
1 + ||η̂n || max max |gj (ε̂i )|
n i=1
j=1,...,k i=1,...,n
Daraus folgt
n
n
n
1 X
1 X
1 X
−1
2
||η̂n || ≤ g(ε̂i )
||g(ε̂i )|| − g(ε̂i ) max max |gj (ε̂i )|
.
j=1,...,k i=1,...,n
n i=1
n i=1
n i=1
P
P
Wegen Lemma 3.5 (iv) und unter der Annahme (S2) gilt, dass n1 ni=1 ||g(ε̂i )||2 = n1 ni=1 (g12 (ε̂i )+
. . . + gk2 (ε̂i )) in Wahrscheinlichkeit gegen IE[g12 (ε1 ) + . . . + gk2 (ε1 )] > 0 konvergiert. Nach Lemma
3.5(i) und zusätzlich je nach Gestalt von g nach Lemma 3.5(ii) bzw. (iii) folgt die Behauptung.
Beweis zu Lemma 3.8(ii). Zum Beweis der Behauptung wird max1≤i≤n |1−(1+ η̂nT g(ε̂i ))−1 | =
oP (1) gezeigt. Nach Lemma 3.5(i) und Lemma 3.8(i) gilt IP(||η̂n || max1≤i≤n,1≤j≤k |gj (ε̂i )| ≥ 1) =
ǫ
x
> ǫ ⇔ x + ǫx > ǫ ⇔ x > 1+ǫ
für
o(1), und weiter gilt für alle ǫ > 0 wegen der Umformung 1−x
x<1
η̂ T g(ε̂ ) i
max
|gj (ε̂i )| < 1
IP max n T
> ǫ , ||η̂n ||
1≤i≤n 1 + η̂n g(ε̂i )
1≤i≤n,1≤j≤k
||η̂ || max
ǫ n
1≤i≤n,1≤j≤k |gj (ε̂i )|
≤ IP
> ǫ = IP ||η̂n ||
max
|gj (ε̂i )| >
= o(1).
1≤i≤n,1≤j≤k
1 − ||η̂n || max1≤i≤n,1≤j≤k |gj (ε̂i )|
1+ǫ
Lemma 3.9. In Modell (1.14) gilt unter den Annahmen (M1), (M2), (K) und (H)
n
1X
sup
|I{εi ≤ x} − I{ε̂i ≤ x}| = op (1).
x∈IR n
i=1
(3.15)
Beweis zu Lemma 3.9. Bei K := { max |ε̂i − εi | ≤ δ} handelt es sich um ein mit gegen
1≤i≤n
Eins konvergierender Wahrscheinlichkeit eintretendes Ereignis für alle δ > 0. Die linke Seite
3.3 Hilfsresultate
57
der in K betrachteten Ungleichung, die Differenz max |ε̂i − εi |, konvergiert fast sicher gegen
1≤i≤n
Null, vergleiche (3.7) bzw. die Konvergenzrate zu supx∈[0,1] |(m − m̂)(x)| aus Akritas und Van
Keilegom (2001), Prop. 3. Der Nachweis erfolgt in drei Schritten. Im ersten Schritt wird auf
dem Ereignis K die Gültigkeit von
|1{εi ≤ x} − I{ε̂i ≤ x}| ≤ I{x − δ < εi ≤ x + δ} für δ > 0 für alle i, 1 ≤ i ≤ n, x ∈ IR,
(3.16)
gezeigt. Im zweiten Schritt folgt der Beweis von (3.15) für festes x, und im dritten Schritt kann
damit das Supremum in (3.15) durch ein Maximum abgeschätzt werden.
Wir zeigen zuerst (3.16). Im Fall, dass der Betrag auf der linken Seite von (3.16) Null ergibt,
ist die Ungleichung immer erfüllt. Deswegen sind nur Fall 1: εi ≤ x und x < ε̂i und Fall 2: x <
εi und ε̂i ≤ x zu untersuchen, in denen die linke Seite von (3.16) Eins ergibt: Im ersten Fall
gilt εi ≤ x < x + δ. Auf K gilt außerdem x − δ ≤ x − |ε̂i − εi | = x − (ε̂i − εi ) = x − ε̂i + εi <
εi wegen x − ε̂i < 0. Im zweiten Fall ist x − δ < x < εi , auf K gilt weiter x + δ ≥ x + |ε̂i − εi | =
x + (εi − ε̂i ) = (x − ε̂i ) + εi ≥ εi wegen x − ε̂i ≥ 0. In beiden Fällen ergibt also der Indikator
auf der rechten Seite ebenfalls Eins. Damit ist (3.16) gezeigt.
Für den Nachweis von
n
1X
|I{εi ≤ x} − I{ε̂i ≤ x}| = op (1)
(3.17)
n i=1
P
für festes x wird das Ereignis { n1 ni=1 |I{εi ≤ x} − I{ε̂i ≤ x}| > ǫ} abgeschätzt. Gehen wir
zu den Wahrscheinlichkeiten über, so erhalten wir für die linke Seite mit (3.16) für jedes ǫ > 0
und jedes δ > 0
X
n
1
|I{εi ≤ x} − I{ε̂i ≤ x}| > ǫ
IP
n i=1
n
1 X
I{x − δ < εi ≤ x + δ} − (F (x + δ) − F (x − δ)) + |F (x + δ) − F (x − δ)| > ǫ
≤ IP n i=1
n
1 X
≤ IP (3.18)
I{x − δ < εi ≤ x + δ} − (F (x + δ) − F (x − δ)) > ǫ/2
n i=1
+ IP(|F (x + δ) − F (x − δ)| > ǫ/2).
(3.19)
Die linke Seite der Ungleichung innerhalb der Wahrscheinlichkeit in (3.18) konvergiert nach dem
starken Gesetz der großen Zahlen fast sicher für jedes δ > 0 gegen Null, für den Summanden in
(3.19) gilt IP(|F (x + δ) − F (x − δ)| > ǫ/2) = 0 für hinreichend kleines δ und stetiges F . Damit
ist (3.17) gezeigt.
Zur Abschätzung des Supremums in (3.15) durch ein Maximum wird diskretisiert. Wir nehmen
eine Einteilung des Wertebereichs [0, 1] der Verteilungsfunktion F in N Abschnitte der Länge
1
für N ∈ IN vor. Die Verteilungsfunktion wird durch F (−∞) := 0 und F (∞) := 1 fortgesetzt.
N
Über die Urbilder der Intervallgrenzen unterteilen wir für streng monoton wachsendes F die
reelle Achse mit −∞ = x0 < x1 < . . . < xN −1 < xN = ∞, so dass
F (xk ) − F (xk−1 ) <
1
N
(3.20)
58
Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell
für k ∈ {1, . . . , N } gilt. Für jedes x gibt es Intervallgrenzen xk−1 , xk , so dass x ∈ [xk−1 , xk )
P
für ein k ∈ {1, . . . , N } gilt. Die Differenz n1 ni=1 |I{εi ≤ x} − I{ε̂i ≤ x}| schätzen wir durch
Verwendung der Grenzen des zu x gehörigen Intervalls nach oben ab, indem wir zwei Fälle
betrachten und diese jeweils durch eine gemeinsame obere Schranke Li := |I{ε̂i ≤ xk } − I{εi ≤
xk−1 }| + |I{ε̂i ≤ xk−1 } − I{εi ≤ xk }| abschätzen. Es gilt
I{εi ≤ x} − I{ε̂i ≤ x} ≤ I{εi ≤ xk } − I{ε̂i ≤ xk−1 } ≤ Li und
I{ε̂i ≤ x} − I{εi ≤ x} ≤ I{ε̂i ≤ xk } − I{εi ≤ xk−1 } ≤ Li .
Damit folgt
n
n
1X
1X
|I{εi ≤ x} − I{ε̂i ≤ x}| ≤
Li
n i=1
n i=1
n
≤
n
1X
1X
|I{ε̂i ≤ xk } − I{εi ≤ xk }| +
(I{εi ≤ xk } − I{εi ≤ xk−1 })
n i=1
n i=1
n
n
1X
1X
+
|I{ε̂i ≤ xk−1 } − I{εi ≤ xk−1 }| +
|I{εi ≤ xk−1 } − I{εi ≤ xk }|.
n i=1
n i=1
Für das Supremum ergibt sich
n
1X
|I{εi ≤ x} − I{ε̂i ≤ x}|
sup
x∈IR n
i=1
n
1X
≤ 2 · max
|I{ε̂i ≤ xk } − I{εi ≤ xk }|
1≤k≤N n
i=1
(3.21)
n
1X
I(xk−1 ,xk ] (εi ) − IE[I(xk−1 ,xk ] (ε1 )]|
+ 2 · max |
1≤k≤N n
i=1
(3.22)
+ 2 · max IE[I(xk−1 ,xk ] (ε1 )].
1≤k≤N
Nach (3.17) ist das arithmetische Mittel in (3.21) für jedes k ∈ {1, . . . , N } von der Ordnung
op (1), also auch für das Maximum in k. Der Summand in (3.22) ist mit dem starken Gesetz der
großen Zahlen ebenfalls von der Ordnung op (1). Schließlich gilt nach (3.20) für alle 1 ≤ k ≤ N
IE[I(xk−1 ,xk ] (ε1 )] = F (xk ) − F (xk−1 ) ≤ N1 , also auch im Maximum über 1 ≤ k ≤ N . Damit gilt
das Lemma 3.9.
3.4
Hauptresultate
Zum Nachweis der schwachen Konvergenz (vgl. die Sätze 3.12 und 3.14) benötigen wir eine
alternative Darstellung für den Schätzer F̄n aus (3.1): Wir verwenden bei den Entwicklungen ein
mehrschrittiges Vorgehen: In Satz 3.11, der Entwicklung für F̄n , tritt der Lagrangemultiplikator
η̂n auf. Deshalb wird eine Entwicklung für den Lagrange-Multiplikator η̂n in Lemma 3.10 gezeigt.
P
In dieser Entwicklung erhalten wir als dominierenden Term die Summe n1 ni=1 g(ε̂i ). Weil
3.4 Hauptresultate
59
wir bestrebt sind, durch die Entwicklungen den Schätzer F̄n durch einen dominanten Term
ausdrücken zu können, welcher eine Summe aus i.i.d. Zufallsvariablen darstellt, haben wir im
Abschnitt 3.3 bereits die genannte Summe entwickelt, und zwar für zwei Typen von Funktionen
g, vgl. dazu Lemma 3.5(ii) und (iii).
Lemma 3.10 (Entwicklung von η̂n ). Vorausgesetzt werden die Annahmen (M1), (M2), (M3),
(K), (H) aus Abschnitt 1.5, (A) aus 1.6, (S1) und (S2) aus Abschnitt 2.2 und Modell (1.14).
Für Funktionen g gemäß (G1) und (G2) wie auch für g(ε) = I{ε ≤ a} − b gilt
−1 1
η̂n = Σ
n
n
X
i=1
1 g(ε̂i ) + oP √ .
n
Beweis zu Lemma 3.10. Nach der Definition des Schätzers F̄n ist η̂n eine Lösung der Gleichung (3.2). Damit gilt die Gleichung
n
n
n
1X
1X T
g(ε̂i )
1X
g(ε̂i ) −
g(ε̂i )g T (ε̂i )η̂n +
(η̂n g(ε̂i ))2
.
0=
n i=1
n i=1
n i=1
1 + η̂nT g(ε̂i )
Bevor die Gleichung nach η̂n aufgelöst wird, kann die Vernachlässigbarkeit des letzten Summanden gezeigt und genutzt werden. Es gilt die Abschätzung für den letzten Summanden
n
1 X
g(ε̂i ) T
2
(η̂n g(ε̂i ))
T
n i=1
1 + η̂n g(ε̂i )
(3.23)
n
1 1X
1
kg(ε̂i )k2 max max |gj (ε̂i )| max =
o
P √
T g(ε̂ )
1≤i≤n 1 + η̂n
1≤j≤k 1≤i≤n
n i=1
n
i
P
wegen Lemma 3.8(i) für kη̂n k, Lemma 3.5(v) für n1 ni=1 kg(ε̂i )k2 , Lemma 3.5(i) für max1≤i≤n
|gj (ε̂i )| und Lemma 3.8(ii) für den verbleibenden Bruch. Nach Lemma 3.5(v) ist die Matrix
Pn
1
T
√1
i=1 g(ε̂i )g (ε̂i ) mit einem Fehler der Ordnung oP ( n ) durch Σ ersetzbar. Lösen wir nun
n
P
0 = n1 ni=1 g(ε̂i )−Σ η̂n +oP ( √1n ) nach η̂n auf, erhalten wir die Behauptung aus Lemma 3.10.
≤ kη̂n k2
Satz 3.11 (Entwicklung von F̄n ). Vorausgesetzt werden die Annahmen (M1), (M2), (M3), (K),
(H) aus Abschnitt 1.5, (A) aus 1.6, (S1) und (S2) aus Abschnitt 2.2 und Modell (1.14). Für
Funktionen g gemäß (G1) und (G2) wie auch für g(ε) = I{ε ≤ a} − b gilt gleichmäßig in y ∈ IR
1 F̄n (y) = F̂n (y) − U T (y)η̂n + oP √
n
mit U (y) = IE[g(ε1 )I{ε1 ≤ y}].
Beweis zu Satz 3.11. Für den Beweis wird F̄n (y) − F̂n (y) mit Taylorentwicklung in Null mit
x2
1
= 1 − x + 1+x
für alle x 6= −1 zerlegt,
explizitem quadratischen Rest 1+x
n 1X
η̂nT g(ε̂i )
F̄n (y) − F̂n (y) = −
I{ε̂i ≤ y}
n i=1 1 + η̂nT g(ε̂i )
n
(η̂nT g(ε̂i ))2
1X T
T
η̂ g(ε̂i ) 1 − η̂n g(ε̂i ) +
I{ε̂i ≤ y}.
= −
n i=1 n
1 + η̂nT g(ε̂i )
60
Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell
Für diesen Term werden drei Teilbehauptungen gezeigt:
n
1X
g(ε̂i )I{ε̂i ≤ y} = U (y) + oP (1),
n i=1
n
1 2
1X T
η̂n g(ε̂i ) I{ε̂i ≤ y} = oP √ ,
n i=1
n
3
n
1 1 X η̂nT g(ε̂i )
I{ε̂
≤
y}
=
o
.
i
P √
n i=1 1 + η̂nT g(ε̂i )
n
(3.24)
(3.25)
(3.26)
Die linke Seite von (3.24) enthält nach Multiplikation mit η̂n den Term U T (y)η̂n . Alle restlichen
√
Terme in (3.24), (3.25) und (3.26) sind aufgrund ihrer Ordnung oP (1/ n) vernachlässigbar:
Für die Abschätzung (3.24) nutzen wir mit
n
n
1X
1 X
Dn1 (y) :=
g(εi )I{εi ≤ y}, Dn2 (y) :=
g(ε̂i ) − g(εi ) I{ε̂i ≤ y},
n i=1
n i=1
n
1X
g(εi ) I{ε̂i ≤ y} − I{εi ≤ y}
Dn3 (y) :=
n i=1
P
die Zerlegung n1 ni=1 g(ε̂i )I{ε̂i ≤ y} = Dn1 (y) + Dn2 (y) + Dn3 (y). Fast sicher gleichmäßige
Konvergenz von Dn1 (y) gegen den Erwartungswert U (y) erhalten wir, weil es sich bei der Klasse
von Funktionen {ε 7→ g(ε)I{ε ≤ y}|y ∈ IR} um eine VC-Klasse handelt (vgl. dazu Lemma 1.25),
und sie daher eine Glivenko-Cantelli-Klasse bildet. Für Dn2 (y) gilt gleichmäßig in y ∈ IR gemäß
Lemma 3.5(v)
kDn2 (y)k ≤
≤
n
1 X
n
1
n
i=1
n
X
2
kg(ε̂i ) − g(εi )k
i=1
n
1/2 1 X
n
i=1
1/2
I{ε̂i ≤ y}
(g1 (ε̂i ) − g1 (εi ))2 + . . . + (gk (ε̂i ) − gk (εi ))2
1/2
= oP (1).
Schließlich erhalten wir für den noch verbliebenen Term
kDn3 (y)k ≤
n
1 X
n
i=1
kg(εi )k2
n
1/2 1 X
n
i=1
(I{ε̂i ≤ y} − I{εi ≤ y})
n
1 X
1/2
= OP (1)
= oP (1)
|I{ε̂i ≤ y} − I{εi ≤ y}|
n i=1
1/2
wegen des starken Gesetzes der großen Zahlen und Lemma 3.9. Die Behauptung in (3.25) gilt
mit
n
n
1
1 X
2
1X T
21
η̂n g(ε̂i ) I{ε̂i ≤ y} ≤ kη̂n k
kg(ε̂i )g T (ε̂i )k = OP
OP (1) = oP √
n i=1
n i=1
n
n
3.4 Hauptresultate
61
wegen Lemma 3.8(i) und Lemma 3.5(v). Die Behauptung in (3.26) folgt, weil
3
n
1 X η̂nT g(ε̂i )
I{ε̂i ≤ y}
n i=1 1 + η̂nT g(ε̂i )
n
1
1
1X
3
T
≤ kη̂n k max kg(ε̂
)g
(ε̂
)k
=
o
max
max
|g
(ε̂
)|
i
i
P
j
i
T g(ε̂ ) 1≤j≤k 1≤i≤n
1≤i≤n 1 + η̂n
n i=1
n
i
wegen Lemma 3.8(i) und (ii) und Lemma 3.5 (i) und (v) gilt. Damit ist der Beweis zu Satz 3.11
abgeschlossen.
P
Nachdem wir die Entwicklungen für den enthaltenen Term n1 ni=1 g(ε̂i ) für beide Typen von
Funktionen g in Lemma 3.5(ii) und (iii), die Entwicklung von η̂n aus Lemma 3.10 und die
Entwicklung von F̄n in Satz 3.11 gezeigt haben, formulieren wir jetzt die angestrebte schwache Konvergenz für den zugehörigen stochastischen Prozess, wieder getrennt nach Typen von
Funktionen g.
Satz 3.12 (Erster Satz zur schwachen Konvergenz). Vorausgesetzt werden die Annahmen (M1),
(M2), (M3), (K), (H) aus Abschnitt 1.5, (A) aus 1.6, (S1) und (S2) aus Abschnitt 2.2 und
Modell (1.14). Für Funktionen g gemäß (G1) und (G2) aus Abschnitt 3.2 gilt dann gleichmäßig
in y ∈ IR die Entwicklung
Z IE[m̂(x)] − m(x) fX (x)dx f (y) + U T (y)Σ−1 IE[g ′ (ε1 )]
F̄ (y) =
n
1 1 X
I{εi ≤ y} + f (y)εi − U T (y)Σ−1 g(εi ) − IE[g ′ (ε1 )]εi + oP √
+
n i=1
n
n
1 1 X
′
T
−1
g(εi ) − IE[g (ε1 )]εi + oP √ .
I{εi ≤ y} + f (y)εi − U (y)Σ
= b̄(y) +
n i=1
n
Dabei ist mit Hilfe von B aus (1.21) der Biasterm
b̄(y) = h2 B f (y) + U T (y)Σ−1 IE[g ′ (ε1 )]
√
definiert. Der Prozess n(F̄n (·) − F (·) − b̄(·)) konvergiert schwach gegen einen zentrierten
Gaußprozess Ḡ mit Kovarianzfunktion
Cov(Ḡ(y), Ḡ(z)) = F (min(y, z)) − F (y)F (z) + f (y)f (z)σ 2
+f (y)IE[ε1 I{ε1 ≤ z}]
+f (z)IE[ε1 I{ε1 ≤ y}]
+U T (y)Σ−1 Σ − IE[g ′ (ε1 )]IE[ε1 g T (ε1 )]
−IE[ε1 g(ε1 )]IE[g (ε1 )] + IE[g (ε1 )]σ IE[g (ε1 )] Σ−1 U (z)
−U T (y)Σ−1 U (z) − IE[g ′ (ε1 )]IE[ε1 I{ε1 ≤ z}]
′
T
−1
U (y) − IE[g (ε1 )]IE[ε1 I{ε1 ≤ y}]
−U (z)Σ
− f (z)U T (y) + f (y)U T (z) Σ−1 IE[ε1 g(ε1 )] − IE[g ′ (ε1 )]σ 2 .
′
T
′
2
′
T
62
Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell
Für U (y) vergleiche Satz 3.11 und für Σ Annahme (S2).
Beweis zu Theorem 3.12. Die Entwicklung für den Prozess setzt sich aus den EntwicklungP
en zu F̄n , η̂n und n1 ni=1 g(ε̂i ) zusammen (vgl. Satz 3.11, Lemma 3.10 und Lemma 3.5(ii)).
√
Für den Nachweis der schwachen Konvergenz zeigen wir, dass der Prozess n(F̄n (·) − F (·) −
b̄(·)) Donsker ist. Weil wir nach Lemma 1.18 aus der Summe zweier Donsker-Klassen mit
R
supϕ∈F1 ∪F1 | ϕdP | < ∞ wieder eine Donsker-Klasse erhalten, müssen wir nur für die beiden
folgenden Funktionenklassen Fℓ (ℓ = 1, 2) den Nachweis führen, dass es sich um DonskerKlassen handelt:
F1 = {ε 7→ I{ε ≤ y} − F (y) | y ∈ IR},
F2 = {ε 7→ f (y)ε − U (y)T Σ−1 (g(ε) − IE[g ′ (ε1 )]ε) | y ∈ IR}
R
und dass supϕ∈F1 ∪F2 | ϕdP | < ∞ gilt. Die letzte Bedingung folgt sofort aus den Annahmen
an ε und g(ε). Bei der ersten Klasse F1 handelt es sich nach klassischen Resultaten für den
empirischen Prozess um eine Donsker-Klasse, vgl. Definition 1.12 und Satz 1.8. Für die zweite
Klasse F2 zeigen wir zuerst, dass es sich um eine VC-Klasse handelt, vgl. dazu Definition 1.21.
Den zweiten Teil der Abbildungen können wir wegen
T
−1
U (y) Σ
′
(g(ε) − IE[g (ε1 )]ε) =
k
X
U (y)T Σ−1
j=1
j
gj (ε) − IE[gj′ (ε1 )]ε
als Teilmenge einer anderen Menge schreiben: zu jedem y ∈ IR gibt es k + 1 reelle Zahlen
c0 , . . . , ck , so dass F2 mit hj (ε) = gj (ε) − IE[gj′ (ε1 )]ε in der Klasse
Fr := {ε 7→ c0 ε +
k
X
j=1
cj hj (ε) | c0 , . . . , ck ∈ IR}
enthalten ist. Weil es sich bei der größeren Klasse um einen höchstens (k + 1)−dimensionalen
Vektorraum von messbaren Funktionen von X nach IR handelt, ist F2 eine VC-Klasse (vergleiche Satz 1.24).
Wir erhalten die punktweise Separabilität für die Klasse F2 gemäß Definition 1.22: Betrachten wir die Funktionenklasse Fr : Für jedes reelle cj , 1 ≤ j ≤ k, existiert eine Folge rationaler Zahlen qj1 , qj2 , . . . mit limm→∞ qjm = cj . Dementsprechend können wir die Funktion
P
gm (ε) := q0m ε + kj=1 qjm hj (ε) als approximierende Funktion wählen. Für festes n und eine Funktion a ∈ Fr gilt die Konvergenz (gm (ε1 ), . . . , gm (εn )) −→ (a(ε1 ), . . . , a(εn )), m → ∞,
und die L2 (P )−Konvergenz
2
IE[(gm (ε1 ) − a(ε1 )) ] = IE[((q0m − c0 )ε1 +
2 2
= (q0m − c0 ) σ + 2(q0m − c0 )
k
X
j=1
k
X
j=1
(qjm − cj )hj (ε1 ))2 ]
(qjm − cj )IE[ε1 hj (ε1 )] +
k
X
j=1
(qjm − cj )2 IE[h2j (ε1 )] → 0, m → ∞,
3.4 Hauptresultate
63
wegen limm→∞ qjm = cj ∀ j = 0, . . . , k und mit der Existenz von IE[ε1 hj (ε1 )] und IE[h2j (ε1 )] für
j = 1, . . . , k gemäß (M2), (S2) und (G1).
Eine solche Wahl einer approximierenden Funktion ist für jedes a ∈ Fr möglich. Die Klasse F2
besitzt eine quadratintegrierbare Einhüllende wegen (M2) und (A). Damit sind die Voraussetzungen für die punktweise Separabilität von F2 nachgewiesen. Mit Satz 1.23 folgt so, dass F2
Donsker ist.
Zur Berechnung der Kovarianzfunktion verwenden wir die Bezeichnung
Hi (y) := I{εi ≤ y} − F (y) + f (y)εi − U (y)T Σ−1 g(εi ) − IE[g ′ (ε1 )]εi .
Damit ist IE[H1 (y)] = 0 und es gilt gleichmäßig in y ∈ IR
n
√ 1 X
Hi (y) + op (1).
n F n (y) − F (y) − b(y) = √
n i=1
Für die Kovarianzen erhalten wir
n
n
1 X
1 X
Hi (y), √
Hj (z) = IE[H1 (y)H1 (z)]
Cov √
n i=1
n j=1
= IE[(I{ε1 ≤ y} − F (y))(I{ε1 ≤ z} − F (z))] + f (y)f (z)IE[ε21 ]
+U (y)T Σ−1 IE[(g(ε1 ) − IE[g ′ (ε1 )]ε1 )(g(ε1 ) − IE[g ′ (ε1 )]ε1 )T ]U (z)Σ−1
+IE[(I{ε1 ≤ y} − F (y))f (z)ε1 ] + IE[(I{ε1 ≤ z} − F (z))f (y)ε1 ]
−IE[(I{ε1 ≤ y} − F (y))U (z)T Σ−1 (g(ε1 ) − IE[g ′ (ε1 )]ε1 )]
−IE[(I{ε1 ≤ z} − F (z))U (y)T Σ−1 (g(ε1 ) − IE[g ′ (ε1 )]ε1 )]
−IE[f (y)ε1 U (z)T Σ−1 (g(ε1 ) − IE[g ′ (ε1 )]ε1 )]
−IE[f (z)ε1 U (y)T Σ−1 (g(ε1 ) − IE[g ′ (ε1 )]ε1 )],
womit Satz 3.12 gezeigt ist.
Bei dem gewonnenen Grenzprozess interessiert neben der Konvergenz selbst insbesondere die
Größe von Bias und Kovarianzfunktion. Im Fall von unabhängig und identischen verteilten
Zufallsvariablen ε1 , . . . , εn war es möglich, durch die Verwendung der Empirical-LikelihoodSchätzmethode gleichmäßig in y ∈ IR eine gleiche oder kleinere Varianz im Vergleich zu dem
Grenzprozess, bei dem keine Zusatzinformation verwendet wird, nachzuweisen. Dies ist aufgrund
von Satz 3.12 bei der Verwendung der nichtparametrischen Residuen anstelle der Fehler nicht für
alle Verteilungsfunktionen F möglich. Wir werden uns in Kapitel 5 eingehend mit verschiedenen
Funktionen g und Verteilungsfunktionen und der daraus resultierenden Varianzveränderung
beschäftigen. Dabei werden wir auch Bias und Varianz simultan vergleichen.
Bemerkung 3.13. Würden wir die stärkere Annahme an die Bandbreite h, nh4 = o(1), treffen,
√
wäre der Bias b̄ ebenfalls von der Ordnung o(1/ n) der Restterme. Durch unsere Annahme
nh4 = O(1) haben aber die Terme der Ordnung O(h2 ) durchaus einen Einfluss. Uns interessiert,
64
Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell
wann die Hinzunahme der Zusatzinformation keinerlei Auswirkung auf die Schätzung hat. Im
Spezialfall g(ε) = IE[g ′ (ε)]ε fällt der gesamte dritte Summand U T (y)Σ−1 (g(εi ) − IE[g ′ (ε1 )]εi )
auf der rechten Seite der Entwicklung von F̄n in Satz 3.12 weg. In diesem Fall reduziert sich
unsere Entwicklung auf F̄n (y) = F̂n (y) + oP (n−1/2 ) und wir erhalten damit asymptotisch keine
Varianzverbesserung. Für den Grenzprozess Ḡ aus Satz 3.12 und den Grenzprozess G von Seite
1.23 gilt also
Var(Ḡ(y)) = Var(G(y)) ⇔ g(ε) = cε für ein c ∈ IR.
Die Gestalt von g entspricht der Zusatzinformation, dass die Fehler zentriert sind. Eine Erklärung für diese Beobachtung haben Müller, Schick und Wefelmeyer (2004a) in ihrer Betrachtung linearer glatter auf Residuen basierender Schätzer geliefert: die Eigenschaft der Zentriertheit wird bereits bei der Konstruktion bzw. Schätzung der Residuen ε̂i ausgenutzt. Sie
stellt daher in diesem Sinn keine zusätzliche Information mehr dar. Bei unserer Diskussion werden Terme der Ordnung O(h2 ) durch die Annahme nh4 = O(1) an die Konvergenz
der Bandbreite mitberücksichtigt: durch die Veränderung des Bias von b(y) in (1.21) zu b̄(y)
sind weitere Verbesserungen der Schätzung möglich, vergleiche die Betrachtung von Beispielen
in Kapitel 5. Es ist besonders auf den Fall normalverteilter Fehler hinzuweisen: hier erhalten wir b̄(y) = 0 für alle y ∈ IR, der gesamte Bias ist also Null. Im Fall von Biasreduzierungen wegen der Verwendung von Kernen höherer Ordnung (vgl. Bemerkung 1.30) können
diese durch den Empirical-Likelihood-Ansatz weiter verbessert werden, wenn die Ungleichung
|f (y) + U T (y)Σ−1 IE[g ′ (ε1 )]| < f (y) gilt: dazu wird auf die erste Zeile der Entwicklung von F̄n (y)
in Satz 3.12 verwiesen.
Nach dem Nachweis schwacher Konvergenz für den interessierenden stochastischen Prozess
für einen Typ von Funktionen g wird nun die analoge Aussage für Funktionen g der Form
g(ε) = I{ε ≤ a} − b gezeigt, mit denen wir die Information über Quantile unter Einsatz von
IE[g(ε1 )] = 0 darstellen können.
Satz 3.14 (Zweiter Satz zur schwachen Konvergenz). Vorausgesetzt werden das Modell (1.14)
und die Annahmen (M1), (M2), (M3), (K), (H) aus Abschnitt 1.5, (A) aus 1.6 und (S1) und
(S2) aus Abschnitt 2.2. Die Funktion g ist von der Form g(ε) = I{ε ≤ a} − b für Konstanten
a ∈ IR und b = F (a) ∈ (0, 1), k = 1. Gleichmäßig in y ∈ IR gilt dann die Entwicklung
n
1 1
1 X
I{εi ≤ y} + f (y)εi − U (y)
(I{εi ≤ a} − b + f (a)εi ) + oP √ .
F̄n (y) = b̄(y) +
n i=1
b(1 − b)
n
Der Biasterm ist von der Form b̄(y) = h2 B(f (y) − U (y)Σ−1 f (a)) mit B aus (1.21).
3.5 Modellspezifische Details
65
√
Der stochastische Prozess n(F̄n (·) − F (·) − b̄(·)) konvergiert schwach gegen einen zentrierten
Gaußprozess Ḡ mit Kovarianzfunktion
Cov(Ḡ(y), Ḡ(y))
= F (min(y, z)) − F (y)F (z) + σ 2 f (y)f (z)
+f (y)IE[ε1 I{ε1 ≤ z}] + f (z)IE[ε1 I{ε1 ≤ y}]
+U (y)U (z)(b(1 − b))−2 b(1 − b) + 2f (a)IE[ε1 I{ε1 ≤ a}] + f 2 (a)σ 2
−1
−U (z)(b(1 − b))
F (min(a, y)) − bF (y) + f (a)IE[ε1 I{ε1 ≤ y}]
−U (y)(b(1 − b))−1 F (min(a, z)) − bF (z) + f (a)IE[ε1 I{ε1 ≤ z}]
2
−1
f (z)U (y) + f (y)U (z) IE[ε1 I{ε1 ≤ a}] + f (a)σ .
−(b(1 − b))
Beweis zu Satz 3.14. In diesem Satz behandeln wir denselben Prozess wie in Satz 3.12 mit
dem Unterschied, dass innerhalb der Entwicklung und des Prozesses hier andere Funktionen g
zugelassen sind. Anhand der Entwicklungen für F̄n aus Satz 3.11 und η̂n aus Lemma 3.10 und für
Pn
1
i=1 g(ε̂i ) aus Lemma 3.5 (iii) (anstatt (ii) in Satz 3.12) gilt die behauptete Entwicklung. Die
n
restlichen Schritte des Beweises, der Nachweis der schwachen Konvergenz für den stochastischen
Prozess und die Berechnung der Kovarianzfunktion, verlaufen analog zum Beweis von Satz
3.12.
Bemerkung 3.15. Satz 3.14 wurde für eindimensionale Funktionen g formuliert. Die Aussagen
sind genauso möglich für mehrdimensionale Funktionen und solche Funktionen, bei denen die
beiden Typen von Funktionen g gemischt auftreten, also pro Komponente liegt einer der beiden
Typen von Funktionen vor. Zusätzlich ist es möglich, entsprechende schwache Konvergenzsätze
zu zeigen, sobald eine stochastische Entwicklung ähnlich wie die in Lemma 3.5(ii) oder (iii)
nachweisbar ist, vgl. Bemerkung 3.7.
3.5
Modellspezifische Details zum Empirical-LikelihoodVerfahren
Die Existenz und Eindeutigkeit von ηn basiert auf der Annahme
min gj (εi ) < 0 < max gj (εi ) für jedes j = 1, . . . , k.
1≤i≤n
1≤i≤n
Analog wird die Annahme (S1) für die Existenz und Eindeutigkeit von η̂n getroffen, jeweils
für Funktionen g gemäß (G1) und (G2) und solche konstruiert aus Indikatorfunktionen. Dass
die Annahme von (S1) gerechtfertigt ist in der Weise, dass dieses Ereignis zumindest unter bestimmten Annahmen mit gegen Eins konvergierender Wahrscheinlichkeit eintritt, wird in den
ersten drei Behauptungen von Lemma 3.18 formuliert und dann gezeigt. In Lemma 3.18 (s4)
und (s5) wird gezeigt, dass beide Teile der Annahme (S2) unter zu nennenden Annahmen zumindest mit gegen Eins wachsender Wahrscheinlichkeit eintreten. Der zweite Teil von (S2) wird
66
Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell
im Beweis der Eindeutigkeit der Lösung η̂n in der Menge D̂k (vgl. Lemma 2.2) verwendet.
Für die Funktion hj : IR3 → IR, definiert durch
hj (ε1 , ξ, δ1 ) :=
sup
|z|≤δ1 ,|z̃|≤δ1 ,|z−z̃|≤ξ
|gj (ε1 + z) − gj (ε1 + z̃)|
(3.27)
mit reellen z, z̃, wird die in Lemma 3.18 (s3) verwendete Annahme formuliert (sie ähnelt der
Annahme (G2), die Konstanten müssen aber nicht wie dort gewählt werden, insbesondere
unterliegt die Konstante κ hier anderen Annahmen):
(G2(Z)) Es existieren Konstanten δ1 und C1 , so dass für ein κ = κ(Z) > 0 und Z > 0 mit der
Funktion hj (ε1 , ξ, δ1 ) aus (3.27) für alle ξ > 0 die folgende Abschätzung für j = 1, . . . , k
gilt:
1/Z
IE[|hj (ε1 , ξ, δ1 )|Z ]
≤ C1 ξ 1/κ .
Für die folgenden Beispiele vergleiche das obige Beispiel 3.3.
Beispiel 3.16. g(ε) = ε: in diesem Fall ist hj (ε1 , ξ, δ1 ) = sup |ε1 − ε1 + z − z̃|, so dass
1
IE |hj (ε1 , ξ, δ1 )|Z Z = sup |z − z̃| ≤ ξ
gilt. Zu wählen ist C1 = 1, κ = 1.
Beispiel 3.17. g(ε) = εa − c, a ∈ IN, a 6= 0; c ∈ IR : Nach (3.27) gilt
a a X
a a−l l X a a−l l a
a
ε z̃ ε z −
hj (ε1 , ξ, δ1 ) = sup (ε1 + z) − c − (ε1 + z̃) + c = sup l 1
l 1
l=0
l=0
a a X
X
a a−l
a a−l l
l |ε1 | sup |z l − z̃ l |.
ε1 (z − z̃ ) ≤
= sup l
l
l=1
l=1
Für das Beispiel a = 2 zeigen wir, wie das Supremum sup |z l − z̃ l | durch in (G2(Z)) vorkommende Terme sup |z − z̃|, sup |z| und sup |z̃| durch ξ und δ1 mit geeigneten Exponenten abzuschätzen
ist:
hj (ε1 , ξ, δ1 ) ≤ 2|ε1 | sup |z − z̃| + sup |z 2 − z̃ 2 | ≤ 2|ε1 | sup |z − z̃| + (sup |z| + sup |z̃|) sup |z − z̃|
= sup |z − z̃| 2|ε1 | + (sup |z| + sup |z̃|) ≤ ξ2(|ε1 | + δ1 );
Z X
Z
Z
Z Z
IE[|ε1 |m ]δ1Z−m .
IE |hj (ε1 , ξ, δ1 )| ≤ ξ 2
m
m=0
Wir betrachten, welche Konstanten C1 , κ hier zu wählen sind. Der Exponent κ aus (G2(Z))
kann hier gleich Eins gesetzt werden. Für die Endlichkeit der rechten Seite wird IE[|ε1 |Z ] = O(1)
1/Z
P
Z
Z
m Z−m
IE[|ε
|
]δ
.
benötigt: wir wählen C1 = 2
1
1
m=0 m
3.5 Modellspezifische Details
67
Lemma 3.18. Die Annahmen (M1), (M2), (M3), (K), (H) und (A) (von S. 16 bis 19) und
Modell (1.14) werden vorausgesetzt. Wir betrachten die folgenden Konvergenzen
lim IP min gj (εi ) < 0 < max gj (εi ) = 1,
(3.28)
n→∞
1≤i≤n
1≤i≤n
lim IP min gj (ε̂i ) < 0 < max gj (ε̂i ) = 1,
(3.29)
n→∞
1≤i≤n
lim IP
n→∞
lim IP
n→∞
n
1 X
n
i=1
n
1 X
n
i=1
1≤i≤n
g(ε̂i )g T (ε̂i ) ist positiv definit = 1,
(3.30)
g(εi )g (εi ) ist positiv definit = 1.
(3.31)
T
(s1) Sei gj eine Funktion, für die das Lebesgue-Maß von {x ∈ IR|gj (x) 6= 0} positiv ist. Für
solche Funktionen gj gilt (3.28).
(s2) Sei gj eine Funktion, für die das Lebesgue-Maß von {x ∈ IR|gj (x) 6= 0} positiv ist und für
die Annahme (G2(Z)) bei Z ≥ 3κ, κ > 0, Z ∈ IN gültig ist. Dann gilt (3.29) für gj .
(s3) Für gj (ε1 ) = I{ε1 ≤ a} − b, b ∈ (0, 1), gilt (3.29).
(s4) Ist Σ positiv definit, dann gilt (3.30).
(s5) Ist Σ positiv definit, dann gilt (3.31).
Beweis zu Lemma 3.18(s1). Mit Übergang zum Gegenereignis gilt für die linke Seite der
Behauptung
q := IP min gj (εi ) < 0 < max gj (εi )
1≤i≤n
1≤i≤n
= 1 − IP { min gj (εi ) ≥ 0} ∪ { max gj (εi ) ≤ 0}
1≤i≤n
1≤i≤n
≥ 1 − IP min gj (εi ) ≥ 0 − IP max gj (εi ) ≤ 0
1≤i≤n
1≤i≤n
!
!
n
n
1X
1X
= 1 − IP
1[0,∞) (gj (εi )) = 1 − IP
1(−∞,0] (gj (εi )) = 1 .
n i=1
n i=1
Aus der letzten Abschätzung folgt durch Einschieben von Fgj (ε) (0) = IP(gj (ε) ≤ 0)
!
!
n
n
1X
1X
1[0,∞) (gj (εi )) ≥ 1 − IP
1(−∞,0] (gj (εi )) ≥ 1
q ≥ 1 − IP
n i=1
n i=1
n
!
1 X
≥ 1 − IP 1(−∞,0] (gj (εi )) − Fgj (ε) (0) ≥ 1 − Fgj (ε) (0)
n
i=1
!
n
1 X
1[0,∞) (gj (εi )) − 1 − Fgj (ε) (0) ≥ Fgj (ε) (0) .
− IP n
i=1
(3.32)
(3.33)
68
Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell
Keine der beiden rechten Seiten der Ungleichungen in den Wahrscheinlichkeiten nimmt einen
der Werte 0 oder 1 an: Wir betrachten den Fall Fgj (ε) (0) 6= 0. Angenommen, es gilt Fgj (ε) (0) = 0.
Dann ist IP(gj (ε) ≤ 0) = 0, damit sind fast sicher alle Werte, die angenommen werden, größer
als Null, es gilt also IP(gj (ε) > 0) = 1. Eine Zufallsvariable gj (ε) mit IP(gj (ε) > 0) = 1 und der
Annahme IE[gj (ε1 )] = 0 aus (A) aus S. 19 existiert nicht.
Wir betrachten den anderen Fall Fgj (ε) (0) = 1, dann ist IP(gj (ε) ≤ 0) = 1. Zusammen mit
IE[gj (ε1 )] = 0 folgt IP(gj (ε) = 0) = 1. Nach den Annahmen an F haben das Lebesgue-Maß und
die Verteilung von ε die gleichen Nullmengen, dadurch entsteht auch hier ein Widerspruch.
Die jeweiligen linken Seiten der Ungleichungen innerhalb der Wahrscheinlichkeiten in den Zeilen
(3.32) und (3.33) sind stochastische Nullfolgen mit dem Satz von Glivenko-Cantelli, d.h. es gilt
n
1 X
sup 1(−∞,y] gj (εi ) − Fgj (ε) (y) −→ 0 f.s., n → ∞,
y∈IR n
i=1
die rechte Seite besteht aus Konstanten ∈
/ {0, 1}, und Behauptung (s1) ist gezeigt.
Beweis zu Lemma 3.18(s2). Wir beschränken uns darauf,
lim IP min gj (ε̂i ) ≥ 0 = 0
n→∞
1≤i≤n
zu zeigen. Die Behauptung in (s2) folgt analog.
Für jede reelle Zahlenfolge cn > 0 mit limn→∞ cn = 0 gilt
IP min gj (ε̂i ) ≥ 0 ≤ IP min gj (εi ) ≥ −cn + IP min gj (εi ) < −cn , min gj (ε̂i ) ≥ 0
1≤i≤n
1≤i≤n
1≤i≤n
1≤i≤n
(3.34)
≤ IP min gj (εi ) ≥ −cn
1≤i≤n
+IP max |gj (εi ) − gj (ε̂i )| > cn .
(3.35)
1≤i≤n
Für den Term in (3.34) gilt
IP
min gj (εi ) ≥ −cn
1≤i≤n
= IP
!
n
1X
I[−cn ,∞) (gj (εi )) = 1 = IP
n i=1
!
n
1X
I[0,∞) (gj (εi ) + cn ) = 1 .
n i=1
Für alle Konstanten η > 0 existiert ein N ∈ IN , so dass 0 < cn < η für alle n > N . Für alle
n > N gilt damit weiter
!
n
1X
I[0,∞) (gj (εi ) + cn ) = 1
IP
n i=1
!
n
1X
≤ IP
I[0,∞) (gj (εi ) + η) − (1 − Fgj (ε)+η (0)) = 1 − (1 − Fgj (ε)+η (0))
n i=1
!
n
1 X
I[0,∞) (gj (εi ) + η) − 1 + Fgj (ε)+η (0)) ≥ Fgj (ε)+η (0) ,
≤ IP n i=1
3.5 Modellspezifische Details
69
wobei Fgj (ε)+η die Verteilungsfunktion von gj (ε) + η bezeichnet. Die linke Seite der Ungleichung
innerhalb der Wahrscheinlichkeit konvergiert ähnlich wie im Beweis zu (s1) für jede Konstante
η fast sicher gegen Null. Für ausreichend kleines η gilt Fgj (ε)+η (0) ∈
/ {0, 1}, wie im Folgenden
gezeigt wird: Die Abschätzung nach oben, IP(gj (ε) + η ≤ 0) < 1, ist gültig wegen IE[gj (ε1 )] = 0
mit IP(gj (ε) + η ≤ 0) ≤ IP(gj (ε) ≤ 0) < 1. Die Abschätzung nach unten, 0 < IP(gj (ε) + η ≤ 0),
wird durch Widerspruch gezeigt.
Wir treffen die Annahme IP(gj (ε) + η ≤ 0) = 0 ∀ η > 0 und betrachten das Ereignis {gj (ε) <
S
S
0} = η>0 {gj (ε) + η ≤ 0} = n {gj (ε) + n1 ≤ 0}. Mit der Stetigkeit von unten gilt IP(gj (ε) <
0) = limn→∞ IP(gj (ε) + n1 ≤ 0), wobei limn→∞ IP(gj (ε) + n1 ≤ 0) nach Annahme gleich Null
ist. Damit muss auch IP(gj (ε) < 0) = 0 gelten, was den Widerspruch zur Annahme liefert:
wegen IE[gj (ε1 )] = 0 muss es demnach ein η > 0 geben, für das IP(gj (ε) + η ≤ 0) > 0 gilt. Die
Konvergenz für den Term in (3.34) ist somit gezeigt.
Der Term in (3.35) wird durch zwei Summanden nach oben abgeschätzt:
IP max |gj (εi ) − gj (ε̂i )| > cn
1≤i≤n
≤ IP max |gj (εi ) − gj (ε̂i )| > cn , max |ε̂i − εi | ≤ δn
(3.36)
1≤i≤n
1≤i≤n
+IP max |ε̂i − εi | > δn .
(3.37)
1≤i≤n
Wir betrachten zuerst (3.37): fast sicher gilt
max |εi − ε̂i | ≤ sup |m̂(x) − m(x)| = O((nh)−1/2 (log(h−1 ))1/2 ) = o(δn )
i=1,...,n
(3.38)
x∈[0,1]
für eine Folge δn , die langsamer gegen Null konvergiert als O((nh)−1/2 (log h−1 )1/2 ).
Der Term in (3.36) wird für κ > 0 folgendermaßen abgeschätzt:
IP max |gj (εi ) − gj (ε̂i )| > cn , max |ε̂i − εi | ≤ δn ≤ IP max |hj (εi , δn , δ1 )| > cn
1≤i≤n
1≤i≤n
1≤i≤n
Z/κ
δn
n ≤ nIE [I{|hj (ε1 , δn , δ1 )| > cn }] ≤ Z IE |hj (ε1 , δn , δ1 )|Z ≤ nC1Z Z
cn
cn
(3.39)
unter Anwendung der Markov-Ungleichung mit der Funktion hj aus (3.27) unter Annahme
(G2(Z)). Abschließend ist zu zeigen, dass die rechte Seite in (3.39) gegen Null konvergiert.
Insgesamt sind also die Folgen cn und δn so zu wählen, dass die folgenden drei Raten gelten:
(nh)−1/2 (log(h−1 ))1/2 = o(δn )
(vgl. (3.38)),
(3.40)
Z/κ
nδn
= o(1)
cZn
cn = o(1)
(vgl. (3.39)), und
(3.41)
(vgl. den Anfang des Beweises zu (s2)).
(3.42)
Als erstes wird δn = (nh)−1/2 (log(h−1 ))1/2 dn mit noch genauer zu bestimmenden dn → ∞
gewählt. Dieses δn erfüllt die erste Forderung. Die Folge dn wird zusätzlich so gewählt, dass
70
Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell
Z/κ
Z/κ
1
nδn = o(1) gilt: Damit kann dann cn = (nδn ) 2Z gewählt werden, und dieses cn erfüllt
Z/κ
Z/κ
n
=
die dritte Forderung. Auch die zweite Forderung ist damit erfüllt, denn nδcnZ = nδZ/κ
1/2
n
(nδn
)
Z/κ
(nδn )1/2
= o(1).
Z/κ
Es bleibt also zu zeigen, wann nδn = o(1) und gleichzeitig dn → ∞ gilt. Wir zerlegen dazu
den folgenden Ausdruck:
nδnZ/κ = n(
Z−2κ
Z
1
log(h−1 ) Z Z/κ
) 2κ dn = (log(h−1 )) 2κ dZ/κ
) 2κ .
Z
n (
nh
nh Z−2κ
Damit der letzte Exponent positiv ist, muss Z > 2κ angenommen werden. Es muss noch Z in
Abhängigkeit von κ so gewählt werden, dass die Konvergenz gegen Null gewährleistet ist. Für
Z
≤ 3, d.h. wir erhalten als weitere Annahme
den Exponenten von h im Nenner setzen wir Z−2κ
Z ≥ 3κ. Verwenden wir zusätzlich die Annahme log(h−1 )(nh3+2α )−1 = o(1) aus (H), ist damit
Z
nδnZ/κ
=
(log(h−1 )) 2κ
Z−2κ
2κ
dZ/κ
n
log(h−1 )
nh3+2α
Der Term
3 Z−2κ
2κ
h
Z
h Z−2κ
log(h−1 )
Z
Z−2κ
2κ
nh3+2α h−(3+2α)+ Z+2κ
Z−2κ 3 Z−2κ
2κ
h
log(h−1 ) 2κ
)
−1 Z/κ 2α( Z−2κ
2κ
= log(h )dn h
Z
nh3+2α
h Z−2κ
(log(h−1 ))
2α(
= log(h−1 )dZ/κ
n h
Z−2κ
)
2κ
o(1)O(1).
(3.43)
Z−2κ
2κ
ist eine Nullfolge wegen o.g. Annahme aus (H). Außerdem ist der Term
− Zκ
)
−1 2α( Z−2κ
2κ
beschränkt wegen der Wahl Z ≥ 3κ. Mit der Wahl dn = log(h )h
gilt dn → ∞ für jedes α > 0 und Z > 2κ wegen limn→∞ log(h−1 )hC = 0 für jede Konstante
C > 0, und mit dem gleichen Argument ist (3.43) gleich
−1
Z−2κ
Z−2κ
o(1) log(h−1 )h2α( 2κ ) log(h−1 )h2α( 2κ )
= o(1).
Damit ist (s2) gezeigt.
Beweis zu Lemma 3.18(s3). Wir beschränken uns auch in diesem Fall darauf,
lim IP min I{ε̂i ≤ a} ≥ b = 0
n→∞
1≤i≤n
zu zeigen. Wir verwenden die Umformung ε̂i ≤ a ⇔ εi ≤ a + m̂(Xi ) − m(Xi ) dazu, dass der
Fehler und nicht das Residuum auf der linken Seite der Ungleichung innerhalb des Indikators
steht.
Mit positiver Konstante c und deterministischer Nullfolge Rn = (nh)−1/2 (log h−1 )1/2 gilt folgende Abschätzung
!
IP min I{ε̂i ≤ a} ≥ b ≤ IP min I{εi ≤ a + sup |(m̂ − m)(x)|} ≥ b
1≤i≤n
≤ IP
1≤i≤n
x∈[0,1]
min I{εi ≤ a + sup |(m̂ − m)(x)|} ≥ b, sup |(m̂ − m)(x)| ≤ cRn
1≤i≤n
x∈[0,1]
x∈[0,1]
!
3.5 Modellspezifische Details
+IP
≤ IP
71
min I{εi ≤ a + sup |(m̂ − m)(x)|} ≥ b, sup |(m̂ − m)(x)| > cRn
1≤i≤n
x∈[0,1]
x∈[0,1]
min I{εi ≤ a + cRn } ≥ b + IP
1≤i≤n
!
!
sup |(m̂ − m)(x)| > cRn .
x∈[0,1]
Um zu zeigen, dass der erste Term für b ∈ (0, 1) gegen Null konvergiert, wird die Wahrscheinlichkeit des Gegenereignisses umgeformt. Es gilt
IP min I{εi ≤ a + cRn } < b = IP (∃ i ∈ {1, . . . , n} : εi > a + cRn )
1≤i≤n
= 1 − IP (εi ≤ a + cRn ∀ i ∈ {1, . . . , n}) = 1 −
n
Y
i=1
F (a + cRn ) −→ 1, n → ∞,
weil F (a + cRn ) ∈ (0, 1) mit der Einschachtelung 0 < b = F (a) ≤ F (a + cRn ) ≤ F (a + c) < 1
ab einem gewissen n und für alle c gilt. Für den zweiten Summanden ist zu beachten, dass
Rn−1 supx∈[0,1] |(m̂−m)(x)| = O(1) f.s. gilt, also f.s. beschränkt ist, nach Prop. 3 aus Akritas und
Van Keilegom (2001) und der speziellen Wahl von Rn . Beim zweiten Term kann die Konstante
c auf der rechten Seite so gewählt werden, dass die zweite Wahrscheinlichkeit für alle n Null
ist.
Beweis zu Lemma 3.18(s4). Nach Lemma 3.5(v) gilt Sn = oP (1) in der Zerlegung Σn :=
Pn
1
T
definit. 0
i=1 g(ε̂i )g (ε̂i ) = Σ + Sn , und nach der ersten Annahme in (S2) ist Σ positiv
n
T
k
bezeichne den Nullvektor. Zu zeigen ist limn→∞ IP x Σn x > 0 ∀x ∈ IR mit x 6= 0 = 1 bzw.
lim IP ∃ x ∈ IRk mit x 6= 0 : xT Σn x ≤ 0 = 0.
n→∞
Weil wir die rechte und linke Seite der Ungleichung für jedes fest gewählte x mit kxk−2 6= 0
multiplizieren können, reicht es, das Ereignis bezüglich der Vektoren x ∈ IRk mit kxk = 1 zu
betrachten. Wegen der Positivdefinitheit von Σ ist a := minkxk=1 xT Σx > 0, das Minimum wird
über einer kompakten Menge gebildet, damit ist seine Existenz gewährleistet. Es gilt
IP ∃ x ∈ IRk mit kxk = 1 : xT Σx + xT Sn x ≤ 0 ≤ IP ∃ x ∈ IRk mit kxk = 1 : a + xT Sn x ≤ 0
= IP ∃ x ∈ IRk mit kxk = 1 : xT Sn x ≤ −a ≤ IP ∃ x ∈ IRk mit kxk = 1 : |xT Sn x| ≥ a
!
k
X
≤ IP ∃ x ∈ IRk mit kxk = 1 :
|(Sn )i,j ||xi ||xj | ≥ a −→ 0, n → ∞,
i,j=1
weil für die i, jten Einträge (Sn )i,j der Matrix Sn und die Einträge x1 , . . . , xk des Vektors x die
Eigenschaften |(Sn )i,j | = oP (1) und 0 ≤ |xi |, |xj | ≤ 1 für jedes 1 ≤ i, j ≤ k gelten. Mit der
Definition der oP -Notation folgt die Behauptung.
Beweis zu Lemma 3.18(s5). Die Behauptung folgt direkt aus dem starken Gesetz der großen
Zahlen.
Damit ist der Beweis zu (s5) und insgesamt der Beweis zu Lemma 3.18 abgeschlossen.
72
Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell
Kapitel 4
Untersuchung des Schätzers im
heteroskedastischen Modell
4.1
Einleitung
Das nichtparametrische heteroskedastische Regressionsmodell ist, wie in (1.18) eingeführt, von
der Form
Yi = m(Xi ) + σ(Xi )εi , i = 1, . . . , n.
Das Modell wurde bereits ausführlich in Abschnitt 1.5.2 eingeführt. Homoskedastisches und heteroskedastisches Regressionsmodell unterscheiden sich in der Modellierung des Fehlers. Unter
Berücksichtigung der nun anders definierten Residuen ε̂1 , . . . , ε̂n aus (1.19) ist der EmpiricalLikelihood-Schätzer F̄n in (1.42) definiert. Die Residuen sind bezüglich des Nadaraya-WatsonSchätzers für m aus (1.16) und des entsprechenden Varianzschätzers aus (1.20) definiert, wobei
wir den Kerndichteschätzer fˆX aus (1.13) benutzen.
Auch in diesem Modell werden wir die schwache Konvergenz des entsprechenden stochastischen
Prozesses zu unserem Schätzer F̄n für die Verteilungsfunktion der Fehler nachweisen und dabei
Zusatzinformationen gemäß Annahme (A) aus S. 19 berücksichtigen. Wir werden später das
asymptotische Verhalten unseres Schätzers mit den Resultaten aus Akritas und Van Keilegom
(2001) vergleichen, wie wir das auch im homoskedastischen Modell getan haben. Das entsprechende Resultat aus Akritas und Van Keilegom (2001) wurde in Abschnitt 1.7 angegeben, vgl.
S. 30.
Beispiel 4.1. Wir interessieren uns in diesem Regressionsmodell unter anderem für die Verwendung der Information, die bereits im Modell enthalten ist, nämlich dass die Fehler zentriert
sind und die Varianz 1 besitzen. Dem entspricht g(ε) = (ε, ε2 − 1)T .
Die in Abschnitt 3.4 in Lemma 3.10 und Satz 3.11 gezeigten Entwicklungen von η̂n und F̄n
können wir für Modell (1.18) direkt übernehmen. Der Hauptunterschied zu den Ergebnissen im
homoskedastischen Fall liegt in der Entwicklung für lineare Funktionale von Residuen, wie sie
73
74
Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell
im homoskedastischen Fall in Lemma 3.5 (ii) gezeigt und in der Bemerkung 3.6 kommentiert
wurde.
Wir betrachten in diesem Kapitel generell das heteroskedastische Regressionsmodell, wenn nicht
explizit anders angegeben.
Für dieses Kapitel wichtige zusätzliche Annahmen werden in Abschnitt 4.2 vorgestellt. In Abschnitt 4.3 folgen eine Reihe von Hilfsresultaten, die für die Hauptresultate in Abschnitt 4.4
verwendet werden. Das Kapitel wird durch eine Reihe von Untersuchungen in Abschnitt 4.5
abgeschlossen, die sich aus der Verwendung des Empirical-Likelihood-Verfahrens ergeben.
4.2
Annahmen
Wir haben bereits Annahmen in den Abschnitten 1.5 und 2.2 formuliert. In Abschnitt 3.2 haben
wir Annahmen (G1) und (G2) speziell für Modell (1.14) angegeben, die wir in diesem Abschnitt
durch (G1’) und (G2’) für Modell (1.18) ersetzen.
Die folgenden Annahmen werden für dieses Kapitel in verschiedenen Lemmata und Sätzen
aufgreifen. Wir verwenden insbesondere Annahmen (M1) aus Abschnitt 1.5.1, (M) aus Abschnitt 1.5.2 und (A) von S. 19. Auch für Modell (1.18) werden Zusatzinformationen zur
Fehlerverteilung anhand zweier Typen von Funktionen g modelliert, und zwar anhand von
Informationsfunktionen g, welche die Annahmen (S1), (S2) (vgl. S. 44) und die unten angegebenen modifizierten Annahmen (G1’), (G2’) erfüllen, und anhand von Funktionen der Form
g(ε) = I{ε ≤ a} − b.
(G1’) Es wird angenommen, dass gj stetig differenzierbar ist, und dass Konstanten γ, C und
β > 0 existieren, so dass
Z
′
g
(y
+
z
+
yz
)
−
g
(y)
−
g
(y)(z
+
yz
)
f
(y)
dy
≤ C max{|z1 |, |z2 |}1+β
j
1
2
j
1
2
j
für alle z1 , z2 ∈ IR mit |z1 |, |z2 | ≤ γ, j = 1, . . . , k gilt.
Darüber hinaus soll IE[|gj′ (ε1 )|] < ∞ und IE[|ε1 gj′ (ε1 )|] < ∞ für j = 1, . . . , k gelten.
(G2’) Es existieren Konstanten δ und C, so dass für ein positives κ mit κ < 2(1 + α) (mit α
aus Annahme (H)) die Abschätzung
h
IE
sup
|zi |≤δ,|z̃i |≤δ,
|zi −z̃i |≤ξ,i=1,2
2
(gj (ε1 + z1 + ε1 z2 ) − gj (ε1 + z̃1 + ε1 z̃2 ))
i1/2
≤ Cξ 1/κ
für j = 1, . . . , k gilt.
Außerdem setzen wir in diesem Kapitel voraus, dass Annahmen (K) und (H) aus Abschnitt
1.5.1 mit β aus Annahme (G1’) gültig sind.
4.2 Annahmen
75
Beispiel 4.2. Analog zu Beispiel 3.3 werden auch hier kurz die Annahmen (G1’) und (G2’)
kommentiert. Wir zeigen im Folgenden, dass für Funktionen g(y) = y k − c, k ∈ IN, c konstant,
Annahme (G1’) erfüllt ist, wenn entsprechende Momentenannahmen wie in (G1’) gefordert
getroffen werden. Es gilt für k ≥ 2
Z
(y + z1 + yz2 )k − y k − ky k−1 (z1 + yz2 ) f (y) dy|
|
= |
Z X
k k
y m (z1 + yz2 )k−m − y k − ky k−1 (z1 + yz2 ) f (y) dy|
m
Z
k m
y (z1 + yz2 )k−m f (y) dy|
= |
m
m=0
Z X
k−2 k
|y|m max{|z1 |, |z2 |}k−m (1 + |y|)k−m f (y) dy
≤
m
m=0
Z
k−2 k−m
X
X k − m k
2
k−m−2
m
= max{|z1 |, |z2 |}
|y|k−m−l f (y) dy
max{|z1 |, |z2 |}
|y|
l
m
m=0
l=0
m=0
k−2
X
≤ C max{|z1 |, |z2 |}2
R
mit Konstante C, die nach Annahme von |y|k f (y)dy < ∞ endlich ist, und mit β = 1.
Für (G2’) betrachten wir die Differenz g(ε1 + z1 + ε1 z2 ) − g(ε1 + z̃1 + ε1 z̃2 ) für g(y) = y k − c,
k ∈ IN, c konstant.
(ε1 + z1 + ε1 z2 )k − (ε1 + z̃1 + ε1 z̃2 )k =
=
k−1
X
εm
1 ((z1
k−m
+ ε1 z2 )
m=0
k−m
− (z̃1 + ε1 z̃2 )
) =
k
X
m=0
k−1
X
m=0
k−m
εm
− (z̃1 + ε1 z̃2 )k−m )
1 ((z1 + ε1 z2 )
εm
1
k−m
X
ε1k−m−l (z1l z2k−m−l
l=0
−
.
z̃1l z̃2k−m−l )
Wir verwenden nun
z1l z2k−m−l − z̃1l z̃2k−m−l = (z1l − z̃1l + z̃1l )z2k−m−l − z̃1l z̃2k−m−l
= (z1l − z̃1l )z2k−m−l + z̃1l (z2k−m−l − z̃2k−m−l ),
und für die verbleibenden Differenzen gilt rekursiv anwendbar für k > 3
z k − z̃ k = z k−1 (z − z̃ + z̃) − z̃ k−1 (z̃ − z + z)
= z k−1 (z − z̃) + z k−1 z̃ − z̃ k−1 (z̃ − z) − z̃ k−1 z
= z k−1 (z − z̃) − z̃ k−1 (z̃ − z) − z z̃(z̃ k−2 − z k−2 ).
Damit enthält jeder Summand zumindest einmal eine Differenz, die durch ξ abgeschätzt werden
kann. Im Fall k = 2 kann beispielsweise die Konstante κ = 1 gewählt werden, und wir setzen
IE[ε41 ] < ∞ voraus.
76
4.3
Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell
Hilfsresultate
In diesem Abschnitt werden drei Lemmata gezeigt, wobei die ersten beiden analoge Aussagen
zu den bereits in Kapitel 3 betrachteten Lemmata darstellen. Das darauffolgende Lemma 4.5
dient als Rechtfertigung einer Annahme in Lemma 4.7.
Lemma 4.3. Es gelte Modell (1.18) mit den Annahmen (M), (M1), (K) und (H) aus Abschnitt
1.5 und (A) aus Abschnitt 1.6. Für Funktionen g, die von der Form g(ε) = I{ε ≤ a} − b für
Konstanten a und b (k = 1) sind, und für solche g, für welche (G1’) und (G2’) gilt, folgt
√
max |gj (ε̂i )| = oP ( n) (j = 1, . . . , k).
i=1,...,n
Beweis zu Lemma 4.3. Eine analoge Aussage für Modell (1.14) wurde in Lemma 3.5(i) gezeigt. Wir betrachten hier explizit den Umgang mit der Differenz ε − ε̂ und zeigen maxi=1,...,n
|εi − ε̂i | = oP (1) und, wie die neuen Annahmen im ansonsten analogen Beweis verwendet werden.
Es wird daran erinnert, dass nach Definition der heteroskedastischen Residuen die Darstellung
m̂(X)
ε − ε̂ = ε − Y −σ̂(X)
= (m̂−m)(X)
+ ε (σ̂−σ)(X)
gilt. Daher folgt die gesuchte Abschätzung
σ̂(X)
σ̂(X)
σ̂(x) − σ(x) m̂(x) − m(x) = oP (1) (4.1)
max |εi | sup max |εi − ε̂i | ≤ sup + i=1,...,n
i=1,...,n
σ̂(x)
σ̂(x)
x∈[0,1]
x∈[0,1]
mit einer Reihe von Hilfsaussagen: Die letzte Gleichheit in (4.1) folgt wegen
sup |m̂(x) − m(x)| = O((n−1 h−1 log h−1 )1/2 )
x∈[0,1]
sup |σ̂(x) − σ(x)| = O((n−1 h−1 log h−1 )1/2 )
x∈[0,1]
(beide gelten fast sicher nach Prop. 3 aus Akritas and Van Keilegom (2001)), wegen (M1), (K),
(H), der Annahme inf x∈[0,1] σ 2 (x) > 0 aus (M), und wegen
max |εi | = oP (n1/4 ),
(4.2)
i=1,...,n
wobei wir (4.2) im Anschluss zeigen werden. Wir benutzen hier auch die Aussage des noch zu
zeigenden Lemmas 4.5. Für (4.2) gilt für alle ε > 0
!
n
[
X
IP max |εi | ≥ ǫn1/4 = IP
{|εi | ≥ ǫn1/4 } ≤
IP |εi | ≥ ǫn1/4
1≤i≤n
= nIP |ε1 | ≥ ǫn
1/4
≤ nIE
1≤i≤n
ε41
1{|ε |4 ≥ǫ4 n}
ǫ4 n 1
i=1
=
1 4
4 ≥ǫ4 n}
IE
ε
1
{ε
1
1
ǫ4
mit der Tschebyschev-Ungleichung. Für den Indikator innerhalb des Erwartungswertes gilt
{|ε1 |4 ≥ ǫ4 n} −→ ∅, n → ∞ ⇔ 1{|ε1 |4 ≥ǫ4 n} → 0, n → ∞.
4.4 Hauptresultate
77
Mit dem Satz von Lebesgue folgt aus der Annahme IE[ε41 ] < ∞ aus (M), dass ε41 eine integrierbare Majorante des Inhalts des Erwartungswertes ist. Damit gilt die Behauptung (4.2) und
insgesamt (4.1).
Für Funktionen hj von Seite 51 erhalten wir die Konvergenz der Wahrscheinlichkeit (3.8) wegen Annahme (G2’). Damit ist gezeigt, wie wir aus dem homoskedastischen Beweis 3.5(i) auf
Lemma 4.3 schließen können.
Mit einem Beweis wie zu Lemma 3.9 gilt Lemma 4.4:
Lemma 4.4. Für Modell (1.18) gilt unter den Annahmen (M1), (M), (K) und (H)
n
1X
sup
|I{εi ≤ x} − I{ε̂i ≤ x}| = op (1).
x∈IR n
i=1
(4.3)
Die Annahme inf x∈[0,1] |σ̂(x)| > 0 rechtfertigen wir mit dem folgenden Lemma 4.5. Um die
Beschränktheit des Nenners von Null weg benutzen zu können, zeigen wir, dass die Annahme inf x∈[0,1] σ(x) > c eine analoge Annahme für σ̂ plausibel macht. In (M) haben wir für die
Varianzfunktion die Annahme inf x∈[0,1] σ(x) > 0 für σ := (σ 2 )1/2 getroffen. Mit der Annahme
inf x∈[0,1] σ(x) > c zeigen wir die Aussage IP inf x∈[0,1] |σ̂(x)| ≤ c/2 → 0, n → ∞. Dies rechtfertigt die Annahme inf x∈[0,1] |σ̂(x)| > c/2 und kann so gezeigt werden:
Lemma 4.5. Unter der Annahme inf x∈[0,1] σ(x) > c gilt
lim IP inf |σ̂(x)| ≤ c/2 = 0.
n→∞
x∈[0,1]
Beweis zu Lemma 4.5. Es gilt
IP( inf |σ̂(x)| ≤ c/2) = IP( inf |σ̂(x)| ≤ c/2, inf σ(x) > c)
x∈[0,1]
x∈[0,1]
x∈[0,1]
≤ IP( sup |(σ̂ − σ)(x)| > c/2) −→ 0, n → ∞
x∈[0,1]
gemäß Prop. 3 aus Akritas und Van Keilegom (2001).
Lemma 4.5 benutzen wir für den Beweis der ersten Hauptaussage, Lemma 4.7.
4.4
Hauptresultate
In diesem Abschnitt zeigen wir mit Lemma 4.7 die grundlegende Aussage, um im vergangenen
P
Kapitel eingeführte Beweismethoden für die Entwicklung von n1 ni=1 gj (ε̂i ) auch in diesem MoP
dell verwendbar zu machen. Im Anschluss wird n1 ni=1 gj (ε̂i ) für beide Typen von Funktionen
g in den Lemmata 4.8 und 4.9 entwickelt. Damit können wir dann die Sätze 4.10 und 4.11 zur
schwachen Konvergenz formulieren und beweisen.
Es geht in Lemma 4.7 darum zu zeigen, dass die beiden Funktionen m−σ̂ m̂ und σ−σ̂
mit geσ̂
1+α
gen 1 konvergierender Wahrscheinlichkeit in der Funktionenklasse Cδ [0, 1] liegen. Die Menge
Cδ1+α [0, 1] haben wir in Definition 1.26 eingeführt.
78
Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell
Bemerkung 4.6. Mit K1 , K2 > 0 bezeichnen wir Konstanten, für welche 2K1 ≤ σ(x) ≤ K2 /2
für alle x ∈ [0, 1] gilt, so dass die Ableitungen σ ′ und σ ′′ ebenfalls durch K2 /2 entsprechend der
Annahme (M) beschränkt sind. Dann folgt die Konvergenz
lim IP K1 ≤ σ̂(x) ≤ K2 für alle x ∈ [0, 1] = 1.
n→∞
An dieser Stelle wird daran erinnert, dass nach der Argumentation aus Akritas und Van Keilegom (2001) die beiden Differenzen m̂−m und σ̂ −σ jeweils Elemente der Menge Cρ1+α [0, 1] sind,
und das für alle ρ > 0 mit Wahrscheinlichkeit Eins, wenn wir die beiden Terme für n → ∞
betrachten. Durch geeignete Wahl von ρ erhalten wir, dass (m̂ − m)/σ̂ und (σ̂ − σ)/σ̂ Elemente
von H = Cδ1+α [0, 1] sind mit Konstante δ aus Annahme (G2’), erneut mit Wahrscheinlichkeit
Eins für n → ∞.
Diese Eigenschaft wird im nächsten Lemma 4.7 bewiesen. Im Folgenden verwenden wir die
Bezeichnung s = σ̂. Für das folgende Lemma ist es zu beachten, dass wir wegen der Bandbreitenannahmen ohnehin auf 0 < α < 0, 5 einschränken.
1+α
[0, 1] mit inf x∈[0,1] |s(x)| ≥ K1
Lemma 4.7. Sei δ > 0 und K1 , K2 > 0, so dass s ∈ CK
2
1+α
und der Funktionenklasse CK2 [0, 1] aus Definition 1.26. Sei 0 < α < 0, 5. Dann existiert eine
Konstante ρ > 0, so dass
h
∈ Cδ1+α [0, 1] für alle h ∈ Cρ1+α [0, 1].
s
Beweis zu Lemma 4.7. Sei h ∈ Cρ1+α [0, 1]. Nach Definition der Funktionenklasse Cρ1+α [0, 1]
gilt dann
|h′ (x) − h′ (y)|
max sup |h(x)|, sup |h (x)| + sup
≤ ρ.
|x − y|α
x∈[0,1]
x∈[0,1]
x,y∈[0,1]
′
(4.4)
Vergleiche hierzu Van der Vaart und Wellner (1996), S. 154. Entsprechend gilt nach Annahme
eine analoge Ungleichung für die Funktion s und Konstante K2 ,
|s′ (x) − s′ (y)|
≤ K2 .
max sup |s(x)|, sup |s (x)| + sup
|x − y|α
x∈[0,1]
x∈[0,1]
x,y∈[0,1]
′
(4.5)
Wegen dieser Eigenschaften und der angenommenen Beschränktheit von s durch K1 von unten
folgt mithilfe von im Folgenden gezeigten technischen Zwischenschritten die folgende Abschätzung für eine Konstante c, die nur von K1 und K2 abhängt:
′
′
h
h
h h ′ (x)
−
(y)|
|
s
s
max sup (x), sup ≤ cρ.
(4.6)
(x) + sup
s
|x − y|α
x∈[0,1] s
x,y∈[0,1]
x∈[0,1]
Die Behauptung erhalten wir dann durch die Wahl ρ = δ/c entsprechend der Definition der
Klasse Cδ1+α [0, 1]. Im Folgenden werden die Abschätzungen im einzelnen gezeigt.
4.4 Hauptresultate
79
Wir beginnen mit den ersten beiden Bestandteilen auf der linken Seite von (4.6). Sie können
wie folgt abgeschätzt werden. Es gilt
h
1
sup (x) ≤ sup |h(x)| sup (x) ≤ ρK1−1 ,
s
s
x
x∈[0,1]
x∈[0,1]
′
′ ′ h
hs
sh
sup (x) ≤ sup 2 (x) + sup 2 (x) ≤ ρK1−1 + ρK2 K1−2 ,
s
s
s
x∈[0,1]
x∈[0,1]
x∈[0,1]
denn es ist jeweils wegen (4.4) und wegen der angenommenen Beschränktheit von s
′ 1
h
′
(x) ≤ sup |h (x)| sup (x) ≤ ρK1−1 ,
sup s
s
x∈[0,1]
x∈[0,1]
x∈[0,1]
′ sh
1
sup 2 (x) ≤ sup |h(x)| sup |s′ (x)| sup 2 (x) ≤ ρK2 K1−2
s
s
x∈[0,1]
x∈[0,1]
x∈[0,1]
x∈[0,1]
gültig. In (4.6) wird noch ein dritter Bestandteil abgeschätzt. Für ihn gilt
sh′ −s′ h
h ′
′h
( 2 )(x) − ( sh′ −s
( ) (x) − ( h )′ (x′ )
)(x′ )
s
s
s
s2
=
sup
.
sup
|x − x′ |α
|x − x′ |α
x,x′ ∈[0,1],x6=x′
x,x′ ∈[0,1],x6=x′
(4.7)
Der Zähler wird zerlegt:
sh′ − s′ h sh′ − s′ h (x)
−
(x′ )
s2
s2
1
1
1
=
(x)h′ (x) −
(x′ )h′ (x′ ) − 2 (x)((s′ h)(x) − (s′ h)(x′ ))
s
s
s
1 1 (x′ ) − 2 (x) (s′ h)(x′ )
+
s2
s
1
1 1
=
(x)(h′ (x) − h′ (x′ )) +
(x) −
(x′ ) h′ (x′ )
s
s
s
1 − 2 (x) h(x)(s′ (x) − s′ (x′ )) + h(x)s′ (x′ ) − s′ (x′ )h(x′ )
s
1 1 ′
(x
)
−
(x) (s′ h)(x′ )
+
s2
s2
1
1 1
=
(x)(h′ (x) − h′ (x′ )) +
(x)
(x′ )(s(x′ ) − s(x))h′ (x′ )
s
s
s
1
1
− 2 (x)h(x)(s′ (x) − s′ (x′ )) − 2 (x)s′ (x′ )(h(x) − h(x′ ))
s
s
1
1
+ 2 (x′ ) 2 (x)(s(x) − s(x′ ))(s(x) + s(x′ ))(s′ h)(x′ ).
s
s
Damit ist der Term in (4.7) nach oben abzuschätzen durch
1 h(x) |h′ (x) − h′ (x′ )|
|s′ (x) − s′ (x′ )|
sup
(x) (4.8)
sup sup (x) +
sup
′
α
′
α
2
|x − x |
s
|x − x |
s
x,x′ ∈[0,1],x6=x′
x∈[0,1]
x∈[0,1]
x,x′ ∈[0,1],x6=x′
′
|s(x ) − s(x)|
1
2
′
sup
|h
(x)|
sup
(4.9)
(x)
+
sup
|x − x′ |α
s
x∈[0,1]
x∈[0,1]
x,x′ ∈[0,1],x6=x′
1 2 ′
+2 sup |s (x)h(x)| sup |s(x)| sup 2 (x)
s
x∈[0,1]
x∈[0,1]
x∈[0,1]
′
|h(x ) − h(x)|
1
′
(4.10)
sup
|s
(x)|
sup
+
sup
2 (x).
′
α
′
′
|x − x |
s
x∈[0,1]
x∈[0,1]
x,x ∈[0,1],x6=x
80
Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell
Gemäß (4.4) und (4.5) kann der erste Term in (4.8) durch ρK1−1 und der zweite durch ρK1−2 K2
nach oben abgeschätzt werden. Die restlichen Terme bis auf den jeweils ersten Term in den
Zeilen (4.9) und (4.10) direkt mit (4.4) und (4.5) abschätzbar. Wir betrachten daher noch
sup
x,x′ ∈[0,1],x6=x′
|s(x′ ) − s(x)|
|h(x′ ) − h(x)|
,
sup
.
|x − x′ |α
|x − x′ |α
x,x′ ∈[0,1],x6=x′
(4.11)
Für 0 < α < 0, 5 gilt mit s(x′ ) − s(x) = s′ (ξ)(x′ − x) mit ξ zwischen x und x′ die Abschätzung
sup
x,x′ ∈[0,1],x6=x′
|s(x′ ) − s(x)|
≤ sup |s′ (x)|
sup
|x − x′ |1−α ≤ K2
′
′
|x − x′ |α
x∈[0,1]
x,x ∈[0,1],x6=x
und für h anstelle von s analog. Für den Term in (4.9) folgt die Abschätzung durch K2 (ρK1−2 +
2K22 ρK1−4 ) und für den Term in (4.10) durch ρK2 K1−2 . Für den Term in (4.7) gilt damit
sh′ −s′ h
′h
( 2 )(x) − ( sh′ −s
)(x′ )
s
s2
≤ ρC
sup
|x − x′ |α
x,x′ ∈[0,1],x6=x′
mit C = K1−1 (1 + 2K1−1 K2 + 2K23 K1−3 + K2 K1−1 ). Damit ist der Beweis zu Lemma 4.7 abgeschlossen.
Mit Lemma 4.7 kann nun Satz 4.8 gezeigt werden. Mit dem folgenden Satz wird das aus Müller,
Schick und Wefelmeyer (2004a) bekannte Resultat (vergleiche Bemerkung 3.6) auf den heteroskedastischen Fall verallgemeinert.
Satz 4.8. Es gelte Modell (1.18) mit den Annahmen (M), (M1), (K), (H) aus Abschnitt 1.5,
(A) aus Abschnitt 1.6 und (G1’), (G2’) aus Abschnitt 4.2. Dann gilt für j = 1, . . . , k
mit
n
n
1 X
1
1X
gj (ε̂i ) =
gj (εi ) − IE[gj′ (ε1 )]εi − IE[ε1 gj′ (ε1 )](ε2i − 1)
n i=1
n i=1
2
1 − h2 IE[gj′ (ε1 )]β1 − h2 IE[ε1 gj′ (ε1 )]β2 + oP √
n
Z
1
1 K
((mfX )′′ (x) − (mfX′′ )(x)) dx,
β1 = µ2
2
σ(x)
Z
1
1 K
2
′′
2 ′′
′
2
(σ
f
)
(x)
−
(σ
f
)(x)
+
2(m
(x))
f
(x)
dx.
β2 = µ2
X
X
X
2
2σ 2 (x)
(4.12)
(4.13)
Beweis zu zu Satz 4.8. Die analoge Behauptung findet sich in Lemma 3.5 (ii), und der Beweis enthält die gleichen Schritte. Wir betrachten hier die Funktionenklassen Gj , vergleiche
hierzu (3.10). Sie sind wie folgt definiert:
o
n
Gj = g̃j : IR × [0, 1] → IR, g̃j (ε, x) = gj (ε + h1 (x) + εh2 (x)) − gj (ε) h1 , h2 ∈ H ,
wobei H = Cδ1+α [0, 1] gilt mit Konstante δ aus Annahme (G2’). Zu zeigen ist, dass es sich
bei Gj um eine Donskerklasse handelt. Dafür gehen wir wie im Beweis von Lemma 3.5 (ii) vor
4.4 Hauptresultate
81
und betrachten für ξ > 0 die Zentren h1 , . . . , hλ der Überdeckung der Klasse H bezüglich der
˜ H, || · ||∞ ), und als Radius für
Supremumsnorm. Dabei ist die Anzahl der Klammern λ = N (ξ,
κ
die Überdeckungen wählen wir ξ˜ = (ξ/(2C)) mit Konstante C aus Annahme (G2’). Damit
haben wir eine Anzahl von N[ ] (ξ, Gj , L2 (P )) = λ2 Klammern der Form
h
i
gj (ε + hℓ (x) + εhk (x)) − gj (ε) − g̃j∗ (ε, x) , gj (ε + hℓ (x) + εhk (x)) − gj (ε) + g̃j∗ (ε, x) ,
ℓ, k ∈ {1, . . . , λ}. Hier ist g̃j∗ (ε, x) = sup |gj (ε + z1 + εz2 ) − gj (ε + z̃1 + εz̃2 )|, und das Supremum
wird über alle |z1 |, |z2 | mit |z̃1 | ≤ δ, |z̃2 | ≤ δ, |z1 − z̃1 | ≤ ξ˜ und |z2 − z̃2 | ≤ ξ˜ gebildet. Die L2 (P )Länge jeder Klammer ist kleiner oder gleich ξ, dies folgt nach Annahme (G2’). Wir erhalten
die Endlichkeit des Klammerungsintegrals (3.11) aus den gleichen Argumenten wie im Beweis
zu Lemma 3.5 (ii).
An dieser Stelle benutzen wir Lemma 4.7. Nach diesem Lemma wissen wir, dass die Wahrscheinlichkeit dafür, dass (m̂ − m)/σ̂ ∈ H und (σ̂ − σ)/σ̂ ∈ H liegt, gegen Eins konvergiert. Die
restlichen Schritte verlaufen analog zum Beweis von Lemma 3.5 (ii), so dass wir die Entwicklung
n
n
1X
(σ − σ̂)(x) 1X (m − m̂)(x)
+ εi
gj (ε̂i ) =
gj ε i +
n i=1
n i=1
σ̂(x)
σ̂(x)
n
1X
gj (εi ) + oP (n−1/2 )
=
n i=1
Z Z (m − m̂)(x)
(σ − σ̂)(x) gj y +
+
+y
− gj (y) fX (x)f (y) dx dy
σ̂(x)
σ̂(x)
erhalten. Nach Annahme (G1’) und der dritten Annahme in (H) folgt außerdem
Z Z
n
n
1X
1X
m(x) − m̂(x)
fX (x)f (y) dx dy
gj (ε̂i ) =
gj (εi ) +
gj′ (y)
n i=1
n i=1
σ̂(x)
Z Z
1
σ(x) − σ̂(x)
′
fX (x)f (y) dx dy + oP √
+
gj (y)y
σ̂(x)
n
Z
n
X
m̂(x) − m(x)
1
gj (εi ) − IE[gj′ (ε1 )]
fX (x) dx
=
n i=1
σ(x)
Z 2
1 σ̂ (x) − σ 2 (x)
′
f
(x)
dx
+
o
.
− IE[ε1 gj (ε1 )]
X
P √
2σ 2 (x)
n
Die letzte Gleichheit erhalten wir wegen der gleichmäßigen fast sicheren Konvergenz von σ̂
gegen σ mit der Konvergenzrate O((n−1 h−1 log h−1 )1/2 ). Vergleiche hierzu Prop. 3 in Akritas
und Van Keilegom (2001), die Annahme an die Bandbreite in (H) und die Darstellung σ̂ −
σ = (σ̂ 2 − σ 2 )/(2σ) − (σ̂ − σ)2 /(2σ). In dieser Darstellung kann für den letzten Term (σ̂ −
σ)2 /(2σ) Vernachlässigbarkeit gezeigt werden. Der Rest des Beweises folgt durch Einsetzen der
Definitionen der Schätzer m̂ aus (1.16) und σ̂ 2 aus (1.20) und durch die Berechnungen der
jeweiligen Erwartungen und Varianzen. Aus den Lemmata 1.36 und 1.38 sind Erwartungswerte
R
R
fX (x) dx und σ̂(x)−σ(x)
fX (x) dx bekannt. Damit ist der
und Varianzen der Terme m̂(x)−m(x)
σ(x)
σ(x)
Beweis zu Satz 4.8 abgeschlossen.
82
Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell
Eine entsprechende Entwicklung zeigen wir für Funktionen der Form g(ε) = I{ε ≤ a} − b:
Satz 4.9. Es gelte Modell (1.18) mit den Annahmen (M), (M1), (K), (H) aus Abschnitt 1.5
und (A) aus Abschnitt 1.6. Für g(ε) = I{ε ≤ a} − b mit Konstanten a und b (k = 1) gilt die
Entwicklung
n
n
1X
1 X
1
gj (ε̂i ) =
gj (εi ) + f (a)εi + af (a)(ε2i − 1)
n i=1
n i=1
2
1 2
2
+ h f (a)β1 + h af (a)β2 + oP √ .
n
Die Terme β1 und β2 wurden in (4.12) und (4.13) definiert.
Beweis zu Satz 4.9. Die Behauptung folgt wie Theorem 1 in Akritas und Van Keilegom
P
(2001) im heteroskedastischen Modell: Der hier zu entwickelnde Term ist 1/n ni=1 g(ε̂i ) =
F̂n (a) − b. Im genannten Theorem wird F̂n entwickelt, für den uns interessierenden Fall ist
die Entwicklung in (1.49) angegeben. Zusammen mit Lemma 1.36 und Lemma 1.38 folgt die
Behauptung.
Aus den Entwicklungen zu F̄n analog zu Satz 3.11 und zu η̂n analog zu Lemma 3.10 aus dem
vorausgegangenen Kapitel und dem gerade gezeigten Satz 4.8 können wir schwache Konvergenz
für den zugehörigen stochastischen Prozess zeigen.
Satz 4.10 (Dritter Satz zur schwachen Konvergenz). Wir betrachten das Modell (1.18). Unter
den Annahmen (M), (M1), (K), (H) aus Abschnitt 1.5, (A) aus Abschnitt 1.6, (G1’), (G2’) aus
Abschnitt 4.2 und (S1) und (S2) aus Abschnitt 2.2 gilt die folgende Entwicklung gleichmäßig in
y ∈ IR:
n
1 Xh
1
I{εi ≤ y} + f (y)εi + yf (y)(ε2i − 1)
n i=1
2
i
1 1
− U (y)T Σ−1 g(εi ) − IE[g ′ (ε1 )]εi − IE[ε1 g ′ (ε1 )](ε2i − 1) + oP √ .
2
n
F n (y) = b(y) +
Dabei ist der Biasterm als
n
o
b(y) = h2 f (y) + U (y)T Σ−1 IE[g ′ (ε1 )] β1 + yf (y) + U (y)T Σ−1 IE[ε1 g ′ (ε1 )] β2
definiert, unter Verwendung der Terme β1 aus (4.12) und β2 und (4.13).
√
Der stochastische Prozess n(F n (·) − F (·) − b(·)) konvergiert schwach gegen einen zentrierten
Gaußprozess G, welcher die Kovarianzfunktion
Cov G(y), G(z)
= Cov (G(y), G(z)) + U (y)T Σ−1 Σ − IE[g ′ (ε1 )]IE[ε1 g T (ε1 )]
4.4 Hauptresultate
83
−IE[ε1 g(ε1 )]IE[g (ε1 )] + IE[g (ε1 )]σ IE[g (ε1 )] Σ−1 U (z)
1
T −1
T −1
2
′
2
− U (y) Σ zf (z) + U (z) Σ yf (y) IE[g(ε1 )(ε1 − 1)] − IE[g (ε1 )]IE[ε1 (ε1 − 1)]
2
−U (y)T Σ−1 U (z) − IE[g ′ (ε1 )]IE[ε1 I{ε1 ≤ z}] + f (z)IE[ε1 g(ε1 )] − f (z)σ 2 IE[g ′ (ε1 )]
−U (z)T Σ−1 U (y) − IE[g ′ (ε1 )]IE[ε1 I{ε1 ≤ y}] + f (y)IE[ε1 g(ε1 )] − f (y)σ 2 IE[g ′ (ε1 )]
′
T
′
2
′
T
1
+ U T (y)Σ−1 IE[ε1 g ′ (ε1 )]IE[(ε21 − 1)2 ]IE[ε1 g ′ (ε1 )]T Σ−1 U (z)
4
1
− U T (y)Σ−1 IE[g(ε1 )(ε21 − 1)] − IE[g ′ (ε1 )]IE[ε1 (ε21 − 1)] IET [ε1 g ′ (ε1 )]Σ−1 U (z)
2
1
− U T (z)Σ−1 IE[g(ε1 )(ε21 − 1)] − IE[g ′ (ε1 )]IE[ε1 (ε21 − 1)] IET [ε1 g ′ (ε1 )]Σ−1 U (y)
2
1 T
+ U (y)Σ−1 zf (z) + U T (z)Σ−1 yf (y) IE[ε1 g ′ (ε1 )]IE[(ε21 − 1)2 ]
4
1 T
+ U (y)Σ−1 IE[ε1 g ′ (ε1 )] IE[(ε21 − 1)I{ε1 ≤ z}] + f (z)IE[ε31 ]
2
1
+ U T (z)Σ−1 IE[ε1 g ′ (ε1 )] IE[(ε21 − 1)I{ε1 ≤ y}] + f (y)IE[ε31 ]
2
besitzt, mit Cov (G(y), G(z)) aus (1.43).
Beweis zu Satz 4.10. Die erste Behauptung des Satzes ist die Entwicklung von F̄n . Wie im
homoskedastischen Fall basiert diese Entwicklung auf Entwicklungen für η̂n und F̄n . Vergleiche
hierzu Lemma 3.10 und Satz 3.11 im vorausgegangenen Kapitel. Beide Entwicklungen lassen
sich mit den gleichen Beweisschritten wie im homoskedastischen Fall zeigen. In den Beweisen
im homoskedastischen Fall haben wir eine Reihe von Hilfsaussagen genutzt, die wir jetzt unter
dem Modell (1.18) wieder benötigen: Dabei handelt es sich um Lemma 3.5 (i), (vi), (v) und
die Lemmata 3.8 and 3.9, die unter den hier getroffenen Annahmen ebenfalls gültig sind. Im
Beweis zu Lemma 3.5(iv) und (v) wird jetzt die Funktionenklasse Gj aus Satz 4.8 betrachtet,
die Aussagen können durch die zusätzlichen Annahmen in (M) analog gezeigt werden. Explizit
haben wir davon mit den Lemmata 4.3 und 4.4 heteroskedastische Versionen von Lemma 3.5(i)
und Lemma 3.9 gezeigt. Die Rate max1≤i≤n |εi − ε̂i | = oP (1) haben wir in Lemma 4.3 gezeigt,
dabei haben wir max1≤i≤n |εi | = oP (n1/4 ) in (4.2) bewiesen und eine Reihe von Raten aus
Akritas und Van Keilegom (2001) zur Abschätzung genutzt. Mit einer Reihe von Beobachtungen
folgt direkt, dass der Beweis analog verläuft. In Lemma 3.5(i) wird die Annahme (G2) verwendet
bzw. die daraus resultierende Abschätzung (3.4). Offensichtlich handelt es sich bei Annahme
(G2) von S. 48 um einen Spezialfall der Annahme (G2’) von S. 74.
Für die Kovarianzfunktion definieren wir
84
Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell
1
Hi (y) := I{εi ≤ y} − F (y) + f (y)εi + f (y)(ε2i − 1)
2
1
−U T (y)Σ−1 g(εi ) − IE[g ′ (ε1 )]εi − IE[ε1 g1′ (ε1 )](ε2i − 1) .
2
Dieser Term setzt sich aus dem in Satz 3.12 definierten Hi zusammen und dem Zusatz, der
durch die Wahl des heteroskedastischen Modells hinzukommt. In Anlehnung an das Vorgehen
in Satz 3.12 ist Hi so definiert, dass IE[Hi (y)] = 0 ist für alle y ∈ IR und alle i = 1, . . . , n. Es
P
√
gilt n F̄ (y) − F (y) − b̄(y) = √1n ni=1 Hi (y) + oP (1). Aus
n
n
1 X
1 X
Cov √
Hi (y), √
Hj (z) = IE[H1 (y)H1 (z)]
n i=1
n j=1
erhalten wir die Kovarianzfunktion Cov(Ḡ(y), Ḡ(z)).
Mit dem Nachweis der Entwicklung folgt der restliche Beweis unter den angeführten Annahmen
genauso wie der von Satz 3.12.
Der vorausgegangene Satz wurde für den Fall formuliert, dass die Funktion zur Modellierung der
Zusatzinformation gemäß den Annahmen (G1’) und (G2’) konstruiert ist. Wir betrachten im
Folgenden schwache Konvergenz, wenn die Zusatzinformation in Form von g(ε) = I{ε ≤ a} − b
vorliegt. Wie bisher nutzen wir Entwicklungen zu F̄n analog zu Satz 3.11 und zu η̂n analog zu
Lemma 3.10 aus dem Kapitel zum homoskedastischen Modell. Anders ist in diesem Fall die
P
Entwicklung für den Term n1 ni=1 g(ε̂i ), vgl. Satz 4.9. Wir zeigen auch für diesen Fall schwache
Konvergenz für den zugehörigen stochastischen Prozess.
Satz 4.11 (Vierter Satz zur schwachen Konvergenz). Wir betrachten das Modell (1.18) und
Funktionen g(ε) = I{ε ≤ a} − b für Konstanten a und b (k = 1). Unter den Annahmen (M),
(M1), (K), (H) aus Abschnitt 1.5, (A) aus Abschnitt 1.6 und (S1) und (S2) aus Abschnitt 2.2
gilt die folgende Entwicklung gleichmäßig in y ∈ IR:
n
1 Xh
1
F n (y) = b(y) +
I{εi ≤ y} + f (y)εi + yf (y)(ε2i − 1)
n i=1
2
i
1 1
2
T −1
− U (y) Σ
g(εi ) + f (a)εi + af (a)(εi − 1) + oP √ .
2
n
Dabei ist der Biasterm definiert als
n
o
b(y) = h2 f (y) − U (y)T Σ−1 f (a) β1 + yf (y) − U (y)T Σ−1 af (a) β2
unter Verwendung der Terme β1 und β2 aus (4.12) und (4.13). Der stochastische Prozess
√
n(F n (·) − F (·) − b(·)) konvergiert schwach gegen einen zentrierten Gaußprozess G, welcher
die Kovarianzfunktion
4.5 Modellspezifische Details
Cov G(y), G(z)
85
= Cov (G(y), G(z)) + U (y)U (z)Σ−2 Σ + 2f (a)IE[ε1 g(ε1 )] + f 2 (a)σ 2
1
− U (y)Σ−1 zf (z) + U (z)Σ−1 yf (y) IE[g(ε1 )(ε21 − 1)] + f (a)IE[ε1 (ε21 − 1)]
2
−U (y)Σ−1 U (z) + f (a)IE[ε1 I{ε1 ≤ z}] + f (z)IE[ε1 g(ε1 )] + f (z)σ 2 f (a)
−1
2
−U (z)Σ
U (y) + f (a)IE[ε1 I{ε1 ≤ y}] + f (y)IE[ε1 g(ε1 )] + f (y)σ f (a)
1
+ U (y)U (z)Σ−2 (af (a))2 IE[(ε21 − 1)2 ]
4
+U (y)U (z)Σ−2 af (a) IE[g(ε1 )(ε21 − 1)] + f (a)IE[ε1 (ε21 − 1)]
1
− af (a)IE[(ε21 − 1)2 ] U (y)Σ−1 zf (z) + U (z)Σ−1 yf (y)
4
1
− U (y)Σ−1 af (a) IE[(ε21 − 1)I{ε1 ≤ z}] + f (z)IE[ε31 ]
2
1
− U (z)Σ−1 af (a) IE[(ε21 − 1)I{ε1 ≤ y}] + f (y)IE[ε31 ]
2
besitzt, mit Cov (G(y), G(z)) aus (1.43) und mit Σ = b(1 − b).
Beweis zu Satz 4.11. In diesem Satz behandeln wir denselben Prozess wie in Satz 4.10 mit
dem Unterschied, dass innerhalb der Entwicklung und des Prozesses hier andere Funktionen
g zugelassen sind. Anhand der Entwicklungen für F̄n und η̂n in Satz 3.11 und Lemma 3.10
P
(diese gelten für die Modelle (1.14) und (1.18) gleichermaßen) und für n1 ni=1 g(ε̂i ) aus Satz 4.9
gilt die behauptete Entwicklung. Die restlichen Schritte des Beweises, der Nachweis der schwachen Konvergenz für den stochastischen Prozess und die Berechnung der Kovarianzfunktion,
verlaufen analog zum Beweis von Satz 4.10.
4.5
Modellspezifische Details zum Empirical-LikelihoodVerfahren
Wie bereits erwähnt, basiert die Existenz und Eindeutigkeit des Lagrange-Multiplikators ηn auf
der Annahme
min gj (εi ) < 0 < max gj (εi ) für jedes j = 1, . . . , k.
1≤i≤n
1≤i≤n
Analog wird die Annahme (S1) für die Existenz und Eindeutigkeit von η̂n getroffen. In Abschnitt
3.5 haben wir in den ersten drei Behauptungen von Lemma 3.18 formuliert und dann gezeigt,
dass jeweils für Funktionen g gemäß (G1) und (G2) und solche konstruiert aus Indikatorfunktionen die Annahme von (S1) gerechtfertigt ist in der Weise, dass dieses Ereignis zumindest
unter bestimmten Annahmen mit gegen Eins konvergierender Wahrscheinlichkeit eintritt. Entsprechende Aussagen werden wir nun in Lemma 4.13 für Funktionen g gemäß (G1’) und (G2’)
86
Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell
bezogen auf Modell (1.18) zeigen. Außerdem wird in Lemma 4.13 (s4’) und (s5’) gezeigt, dass
beide Teile der Annahme (S2) unter zu nennenden Annahmen zumindest mit gegen Eins wachsender Wahrscheinlichkeit eintreten. Der zweite Teil von (S2) wird im Beweis der Eindeutigkeit
der Lösung η̂n in der Menge D̂k (vgl. Lemma 2.2) verwendet.
Für die Funktion kj : IR3 → IR wird die in Lemma 4.13(s2’) verwendete Annahme analog zur
Annahme (G2(Z)) im homoskedastischen Modell formuliert (sie ähnelt der Annahme (G2’), die
Konstanten müssen aber nicht wie dort gewählt werden, insbesondere unterliegt die Konstante
κ hier anderen Annahmen):
(G2’(Z)) Es existieren Konstanten δ1 , C1 , so dass für ein κ = κ(Z) > 0 und ein Z > 0 mit der
Funktion
kj (ε1 , ξ, δ1 ) =
sup
y1 ,y2 ,ỹ1 ,ỹ2 ∈IR:|yi |≤δ1 ,
|ỹi |≤δ1 ,|yi −y˜i |≤ξ,i=1,2
|gj (ε1 + y1 ε1 + y2 ) − gj (ε1 + ỹ1 ε1 + ỹ2 )|
(4.14)
für alle ξ > 0 die folgende Abschätzung für j = 1, . . . , k gilt:
(IE[|kj (ε1 , ξ, δ1 )|Z ])1/Z ≤ C1 ξ 1/κ .
Beispiel 4.12. (vgl. Bsp. 3.17) g(ε) = (ε, ε2 − 1)T : Annahme (G2’(Z)) wird dahingehend
untersucht, welche Momentenannahmen sie erfordert. Die Funktion kj aus (G2’(Z)) ist für
beide Komponenten g1 (ε) = ε und g2 (ε) = ε2 − 1 einzeln abzuschätzen, wobei die Annahmen
zu g2 diejenigen zu g1 beinhalten. Zunächst wird kj (ε1 , ξ, δ1 ) für den allgemeineren Ausdruck
gj (ε) = εa − c, a 6= 0, a ∈ IN, c konstant, abgeschätzt. Im Anschluss wird IE[|k2 (ε1 , ξ, δ1 )|Z ]
im Fall a = 2 abgeschätzt. Aus diesem Ausdruck sind die Momentenannahmen ersichtlich.
Im diesem Beispiel werden Suprema stets wie in der Definition von kj in (4.14) gebildet. Für
gj (ε1 ) = εa − c gilt gemäß (4.14)
kj (ε1 , ξ, δ1 ) = sup | (ε1 + ε1 y1 + y2 )a − c − (ε1 + ε1 ỹ1 + ỹ2 )a + c|
a a X
X
a a−l
a a−l
l
= sup ε1 (ỹ1 ε1 + ỹ2 )l ε1 (y1 ε1 + y2 ) −
l
l
l=0
l=0
a X
a a−l
l
l ε ((y1 ε1 + y2 ) − (ỹ1 ε1 + ỹ2 ) )
= sup l 1
l=1
a X
a a−l
|ε1 | sup |(y1 ε1 + y2 )l − (ỹ1 ε1 + ỹ2 )l |.
≤
l
l=1
Im Fall a = 2, d.h. g(ε) = ε2 − c, gilt
kj (ε1 , ξ, δ1 ) ≤
Damit folgt
2 X
2
l=1
l
|ε12−l | sup |(y1 ε1 + y2 )l − (ỹ1 ε1 + ỹ2 )l | ≤ 2δ1 ξ (|ε1 | + 1)2 .
4.5 Modellspezifische Details
87
Z
IE[|kj (ε1 , ξ, δ1 )| ] ≤
2Z δ1Z ξ Z
2Z X
2Z
IE[|ε1 |m ].
m
m=0
Da in (G2’(Z)) der Term IE[|kj (ε1 , ξ, δ1 )|Z ]1/Z betrachtet wird, kann im betrachteten Beispiel
1/Z
P
2Z
2Z
m
IE[|ε
|
]
κ = 1 und C1 = 2δ1
gewählt werden. Dabei wird die Existenz von
1
m=0 m
IE[|ε1 |2Z ] vorausgesetzt.
Mit der Annahme (G2’(Z)) von Seite 86 kann jetzt Lemma 4.13 formuliert werden. Weil in
Lemma 3.18(s1) die Fehler direkt betrachtet werden, ist die Aussage unabhängig von der Wahl
der Modelle (1.14) oder (1.18) gültig und wird daher hier nicht nochmal genannt. Die Behauptungen (s4) und (s5) aus Lemma 3.18 gelten analog in diesem Modell, deshalb werden
sie in Lemma 4.13 nicht aufgeführt. Wir notieren mit (s2’) bzw. (s3’) die zu (s2) bzw. zu (s3)
verwandte Aussage.
Lemma 4.13. Die folgenden Aussagen gelten unter (M), (M1), (K), (H) aus Abschnitt 1.5
und (A) aus Abschnitt 1.6. Wir betrachten die Konvergenz
lim IP min gj (ε̂i ) < 0 < max gj (ε̂i ) = 1.
(4.15)
n→∞
1≤i≤n
1≤i≤n
(s2’) Sei gj eine Funktion, für die das Lebesgue-Maß von {x ∈ IR|gj (x) 6= 0} positiv ist und
für welche die Annahme (G2’(Z)) mit Zk ≥ 3kκ + 3Z mit Z > 0, κ > 0, k ≥ 3 und
IE[|ε1 |k ] < ∞ erfüllt ist. Dann gilt (4.15) für gj .
(s3’) Für gj (ε) = I{ε ≤ a} − b, b ∈ (0, 1), gilt (4.15) für j = 1, . . . , k.
Beweis zu Lemma 4.13. Im Folgenden beweisen wir (s2’) und (s3’).
Beweis zu (s2’). Wir beschränken uns darauf,
lim IP min gj (ε̂i ) ≥ 0 = 0
n→∞
1≤i≤n
zu zeigen. Die Behauptung in (s2’) folgt analog. Wir betrachten für eine reelle Zahlenfolge
cn > 0, limn→∞ cn = 0, die Zerlegung
IP( min gj (ε̂i ) ≥ 0) ≤ IP( min gj (εi ) ≥ −cn ) + IP( min gj (εi ) < −cn , min gj (ε̂i ) ≥ 0)
1≤i≤n
1≤i≤n
1≤i≤n
1≤i≤n
≤ IP( min gj (εi ) ≥ −cn ) + IP( max |gj (εi ) − gj (ε̂i )| > cn )
1≤i≤n
1≤i≤n
≤ IP( min gj (εi ) ≥ −cn )
(4.16)
1≤i≤n
+IP( max |gj (εi ) − gj (ε̂i )| > cn , max |ε̂i − εi | ≤ δn′ )
(4.17)
+IP( max |ε̂i − εi | > δn′ ).
(4.18)
1≤i≤n
1≤i≤n
1≤i≤n
Der Term in (4.16) konvergiert wie (3.34) im homoskedastischen Modell. Für diesen Beweisteil
wird die Annahme getroffen, dass für die Funktion gj das Lebesgue-Maß von {x ∈ IR|gj (x) 6= 0}
positiv ist. Die Veränderungen von den Termen (3.36) und (3.37) zu (4.17) und (4.18) für
88
Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell
heteroskedastische Residuen werden im Folgenden erklärt. Der Term auf der linken Seite von
(4.18) zerfällt in zwei Summanden,
m̂(x) − m(x) σ̂(x) − σ(x) + sup εi
max |εi − ε̂i | ≤ sup (4.19)
i=1,...,n
σ̂(x)
σ̂(x)
x∈[0,1]
x∈[0,1]
≤
supx∈[0,1] |m̂(x) − m(x)|
supx∈[0,1] |σ̂(x) − σ(x)|
+ max |εi |
i=1,...,n
inf x∈[0,1] |σ̂(x)|
inf x∈[0,1] |σ̂(x)|
= OP ((nh)−1/2 (log h−1 )1/2 ) + oP (n1/k )OP ((nh)−1/2 (log h−1 )1/2 ) = oP (δn′ ).
(4.20)
Für die Ordnung wird maxi=1,...,n |εi | = oP (n1/k ) mit der Annahme IE[|ε1 |k ] < ∞, die Annahme
inf x∈[0,1] |σ̂(x)| > 0 und die Ordnung OP ((nh)−1/2 (log h−1 )1/2 ) für die Zähler der Brüche nach
Akritas und Van Keilegom (2001), Prop. 3 verwendet. Der Term in (4.18) konvergiert gegen
Null für δn′ = Cn1/k (nh)−1/2 (log(h−1 ))1/2 für C > 0 konstant. Die Gleichheit bei Übergang
in die Zeile (4.20) wird hier näher erläutert: Wir zeigen, dass es sich bei maxi=1,...,n |εi − ε̂i | in
(4.19) im Fall k ≥ 3 um eine stochastische Nullfolge handelt. Es gilt
n1/k (nh)−1/2 (log(h−1 ))1/2 =
log(h−1 ) 1/2
n
k−2
k
h
=
log(h−1 ) 1/2
k
(nh k−2 )
k−2
k
= o(1),
k
denn limn→∞ nh k−2 = ∞, falls k ≥ 3, da nach Voraussetzung limn→∞ nh3 = ∞. Damit ist für
k ≥ 3 die Abschätzung max1≤i≤n |εi − ε̂i | = oP (1) und (4.18)= o(1) gezeigt.
Für den Term (4.17) gilt unter Voraussetzung der Existenz von IE[|kj (ε1 , δn′ , δ1 )|Z ] für die Funktion kj aus (4.14) und einer Abschätzung für das Zte Moment gemäß (G2’(Z)) die Abschätzung
IP( max |kj (εi , δn′ , δ1 )| > cn ) ≤ nIE[I{|kj (ε1 , δn′ , δ1 )| > cn }]
(4.21)
1≤i≤n
≤
′ Z/κ
n
′
Z
Z δn
IE[|k
(ε
,
δ
.
,
δ
)|
]
≤
nC
j 1 n 1
2
cZn
cZn
′Z/κ
Für den Term in (4.21) ist daher Konvergenz von c−Z
gegen Null zu zeigen. Die Folgen
n nδn
′
cn und δn sind insgesamt so zu wählen, dass die folgenden drei Raten gleichzeitig gelten:
o(n1/κ (nh)−1/2 (log(h−1 ))1/2 ) = o(δn′ )
nδn′ Z/κ
= o(1)
cZn
cn = o(1)
(vgl. (4.20)),
(4.22)
(vgl. (4.21)),
(vgl. den Anfang des Beweises zu (s2’)).
Die Wahl δn′ = Cn1/k (nh)−1/2 (log h−1 )1/2 erfüllt die erste Forderung. Zu zeigen ist, dass nδn′ Z/κ =
o(1) gilt. Damit wird cn = (nδn′ Z/κ )1/(2Z) gewählt, dieses cn erfüllt die dritte Forderung, weil
nδn′ Z/κ = o(1) gilt. Mit dieser Wahl von δn′ und cn ist auch die zweite Forderung erfüllt. Zu
zeigen bleibt nδn′ Z/κ = o(1). Nach der Wahl von δn′ gilt bis auf konstante Faktoren
nδn′ Z/κ = n(n1/k (nh)−1/2 (log h−1 )1/2 )Z/κ
Z
= (log(h−1 )) 2κ −(
−2kκ−2Z+Zk
)
2κk
(h2α )
−2kκ−2Z+Zk
2κk
log(h−1 ) −2kκ−2Z+Zk
2κk
nh3+2α
h3
Zk
h −2kκ−2Z+Zk
−2kκ−2Z+Zk
2κk
.
4.5 Modellspezifische Details
89
−1
)
Im Fall −2kκ − 2Z + Zk = 0 divergiert nδn′ Z/κ . Gemäß (H) ist der Anteil mit log(h
eine
nh3+2α
Nullfolge, und sein Exponent ist nach der Annahme Zk ≥ 3kκ + 3Z positiv, unter dieser
Annahme gilt also −2kκ − 2Z + Zk > 0. Wenn wir Zk ≥ 3kκ + 3Z voraussetzen, sind die ersten
beiden Terme ebenfalls von der Ordnung o(1), und insgesamt gilt
nδn′ Z/κ =
h3
Zk
h −2kκ−2Z+Zk
−2kκ−2Z+Zk
2κk
o(1).
(4.23)
Zum Nachweis von (4.17) = o(1) ist noch nδn′ Z/κ = o(1) zu zeigen. Wegen des nach Voraussetzung positiven Exponenten außerhalb des Bruchs bleibt für die Exponenten innerhalb des
Zk
≥ 0 zu gewährleisten, die äquivalent zu 3(−2kκ −
Bruchs die Ungleichung 3 − −2kκ−2Z+Zk
2Z + Zk) ≥ 0 bzw. zu 3kκ + 3Z ≤ Zk ist: die Gültigkeit der letzten Ungleichung ist Teil der
Annahmen zur Behauptung. Mit dem Nachweis der Konvergenz von (4.17) gegen Null ist der
Beweis von (s2’) abgeschlossen.
Beweis zu (s3’). Für ein heteroskedastisch erzeugtes Residuum gilt ε̂i ≤ a ⇔ εi ≤ a +
i )−σ(Xi ))
+ m̂(Xi ) − m(Xi ) und eine analoge äquivalente Darstellung für ε̂l > a. Im Ana (σ̂(Xσ(X
i)
schluss wird
(σ̂(Xi ) − σ(Xi ))
+ m̂(Xi ) − m(Xi )
σ(Xi )
1 sup |σ̂(x) − σ(x)| + sup |(m̂ − m)(x)|
≤ a + |a| sup x∈[0,1]
x∈[0,1] σ(x) x∈[0,1]
εi ≤ a + a
≤ a + |a|c1 Rn + c2 Rn
mit deterministischer Nullfolge Rn und Konstanten c1 , c2 > 0 verwendet. Wie im Beweis von
(s3) werden hier zusätzlich die Abschätzungen aus Akritas und Van Keilegom (2001), Prop. 3,
1
| < ∞ verwendet. Mit dieser Argufür supx∈[0,1] |(σ̂ − σ)(x)| und die Annahme supx∈[0,1] | σ̂(x)
mentation folgt (s3’) bereits. Damit ist Lemma 4.13 gezeigt.
Bemerkung 4.14. Der Beweis von Lemma 4.13(s2’) basiert auf den Annahmen, dass die
auftretenden Faktoren k ≥ 3, Z > 0, κ > 0 die Ungleichung Zk ≥ 3kκ + 3Z erfüllen. In
dieser Bemerkung werden konkrete Wahlen von k, κ, Z vorgestellt, die einerseits die Ungleichung
erfüllen und andererseits möglichst geringe Momentenannahmen erfordern. Die Ungleichung in
(s2’) lautet Zk ≥ 3kκ + 3Z. Ist κ = 1, ist dazu Zk ≥ 3(k + Z) äquivalent, und gilt zusätzlich
k = cZ für eine Konstante c > 0, so ist dazu wiederum die Ungleichung cZ 2 ≥ 3Z(c + 1)
. Die Wahl k = cZ liegt wegen des Zusammenhangs der Annahme
äquivalent, d.h. Z ≥ 3 c+1
c
zum kten Moment von |ε| und zum Zten Moment von kj nahe.
Es sind für den Fall κ = 1, k = cZ mit Z ≥ 3 c+1
zum Beispiel die Wahlen Z = k =
c
6; Z = 12, k = 4; k = 4, 5, Z = 9; Z = 4, 5, k = 9 zulässig. In den allgemeinen Annahmen zum
Verfahren im heteroskedastischen Modell ist nur die Annahme k = 4 bereits getroffen, größere
k ziehen zusätzliche Momentenannahmen bezüglich ε nach sich, bzw. bezüglich Z eine stärkere
Annahme in (G2’(Z)).
90
Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell
Kapitel 5
Beispiele und Simulation
In den Sätzen 3.12, 3.14, 4.10 und 4.11 haben wir jeweils schwache Konvergenz für den stochastischen Prozess zum neuen Schätzer F̄n gezeigt, wobei in den Sätzen unterschiedliche Situationen betrachtet wurden (unterschiedliche Typen von Zusatzinformation, unterschiedliche
Struktur bei den Residuen). In diesem Abschnitt werden die Ergebnisse anhand verschiedener
Beispiele betrachtet und zum Vergleich Ergebnissen zum Schätzer F̂n gegenübergestellt. Der
neue Schätzer F̄n berücksichtigt explizit eine bekannte Zusatzinformation, und es soll vorgestellt werden, wie sich die Verbesserungen dadurch bemerkbar machen.
Aus den genannten Sätzen wissen wir, dass die Struktur von Bias und Varianzfunktion von y
abhängt und relativ komplex ist. Da das verwendete Verfahren nicht generell zu asymptotisch
kleinerem Bias oder kleinerer Varianz für alle y ∈ IR für beliebige den Annahmen genügende Fehlerverteilungen und Funktionen g führt, betrachten wir in Abschnitt 5.1 die Ergebnisse
unter Annahme bestimmter wahrer Verteilungsfunktionen für die Fehler. Wir stellen das asymptotische Verhalten anhand einer Reihe von Beispielen vor.
In Abschnitt 5.2 wird außerdem mit Hilfe einer von y unabhängigen Kennzahl die Verbesserung
durch den neuen Schätzer untersucht. Auch dies geschieht für eine Reihe von Beispielen und
verschiedene konkrete Fehlerverteilungen.
5.1
Beispiele
In diesem Abschnitt geht es darum, anhand des asymptotischen mittleren quadratischen Fehlers
(MSE, von der Bezeichnung mean squared error) zwei Schätzer zu vergleichen: wir stellen
den MSE unseres neuen Empirical-Likelihood-Schätzers F̄n dem MSE der bezüglich Residuen
definierten empirischen Verteilungsfunktion F̂n gegenüber. Dabei betrachten wir zuerst den
homoskedastischen Fall. Der MSE zu F̂n ist von folgender Gestalt:
1
Var(G(y)) + b2 (y)
n
1
2 2
F (y)(1 − F (y)) + σ f (y) + 2f (y)IE[ε1 I{ε1 ≤ y}] + h4 f 2 (y)B 2 .
=
n
mse(y) =
91
92
Kapitel 5. Beispiele und Simulation
Vergleiche dazu die Bezeichnungen b und B aus (1.21) aus Abschnitt 1.7.2 und für den Varianzterm Var(G(y)) die Gleichung in (1.23). Für den Empirical-Likelihood-Schätzer betrachten wir
zunächst das Ergebnis aus Satz 3.12 für den Fall von Funktionen g gemäß (G1) und (G2). Hier
verhält sich der MSE wie folgt:
1
Var(Ḡ(y)) + b̄2 (y)
n
1
=
F (y)(1 − F (y)) + σ 2 f 2 (y) + 2f (y)IE[ε1 I{ε1 ≤ y}] + W (y)
n
2
+ h4 f (y) + U (y)T Σ−1 IE[g ′ (ε1 )] B 2 ,
mse(y) =
wobei
W (y) = U T (y)Σ−1 {Σ − IE[g ′ (ε1 )]IE[ε1 g T (ε1 )] − IE[ε1 g(ε1 )]IET [g ′ (ε1 )]
+ σ 2 IE[g ′ (ε1 )]IET [g ′ (ε1 )]}Σ−1 U (y) − 2U T (y)Σ−1 {U (y) − IE[g ′ (ε1 )]IE[ε1 I{ε1 ≤ y}]}
− 2f (y)U T (y)Σ−1 {IE[ε1 g(ε1 )] − IE[g ′ (ε1 )]σ 2 }
gilt.
Vor dem Vergleich müssen wir die Wahl der Bandbreite für beide Schätzer gleichermaßen treffen. Wir nehmen an, dass sich die Bandbreite h gemäß h = cn−1/4 verhält, für eine Konstante
4
c > 0. Damit ist h4 = cn . Diese Wahl entspricht den theoretischen Annahmen. Wir betrachten
im Folgenden verschiedene Beispiele von Funktionen g und Fehlerverteilungen F . Um Unabhängigkeit von der Größe n des Datensatzes in den Abbildungen zu erhalten, multiplizieren
wir die Kurven mit n. Der Wert des Terms B ist abhängig von der Regressionsfunktion m, von
der Designdichte fX und von der Wahl des Kerns K. In den Kurven setzen wir c4 B 2 = 1. Weil
der Bias von B abhängt, ist es klar, dass sich der Einfluss des Bias auf den gesamten MSE
durch eine Veränderung in B verändert: der Biaseinfluss ändert sich auch durch Veränderungen
in der Regressionsfunktion und eine andere Wahl für den Kern oder die Bandbreite.
Beispiel 5.1. Das erste betrachtete Beispiel ist die Nutzung der Zentriertheit des Fehlers, d.h.
g(ε) = ε. Dieses g stellt keine zusätzliche Information dar, denn für dieses g reicht es bereits,
die Modellannahme IE[ε1 ] = 0 explizit zu verwenden. In diesem Fall erhalten wir für beide
Schätzer identische asymptotische Varianz, vergleiche hierzu Bemerkung 3.13. Daher reicht es,
die Unterschiede im Bias zu betrachten. In diesem Spezialfall ist Σ = IE[ε21 ] = σ 2 und g ′ ≡ 1.
Deshalb ist der Bias von der Form
1
2
(5.1)
b̄(y) = h B f (y) + 2 U (y) .
σ
Wir betrachten im Folgenden den Term U (y) genauer. Es gilt im Fall g(ε) = ε für alle y ∈ IR
Z ∞
Z ∞
Z y
tf (t)dt ≤ 0.
(5.2)
tf (t)dt −
tf (t)dt =
U (y) = IE[ε1 I{ε1 ≤ y)}] =
−∞
−∞
y
R∞
Für die Ungleichung in (5.2) betrachte zum einen den ersten Term −∞ tf (t)dt = 0 nach AnR∞
nahme IE[ε1 ] = 0. Zum anderen folgt für den zweiten Term y tf (t)dt ≥ 0, weil außerdem
5.1 Beispiele
93
tf (t) ≤ 0 für alle t < 0 gilt. Damit ist die Gültigkeit der Ungleichung in (5.2) klar. Durch
die Nichtpositivität von U (y) für alle y ∈ IR ist die Möglichkeit gegeben, je nach absoluter
Größe der Summanden f (y) und σ12 U (y) für festes y in (5.1) kleinere Werte für den Bias b̄(y)
im Vergleich mit dem Bias b(y) = h2 Bf (y) zu erhalten.
Wir betrachten den Bias anhand spezieller Fehlerverteilungen: Im Fall normalverteilter Fehler
mit Erwartung Null und Varianz σ 2 und g(ε) = ε ist U (y) = IE[ε1 I{ε1 ≤ y}] = −σ 2 f (y).
Vergleiche hierzu die detaillierten Rechnungen zu (1.24). Für den Spezialfall normalverteilter
Fehler mit Erwartung Null und Varianz σ 2 gilt für den Bias b̄(y) = 0, während für den Vergleichsbias b(y) = h2 Bf (y) 6= 0 für alle y ∈ IR (für den Fall B 6= 0) gilt. In diesem Fall führt
der Empirical-Likelihood-Ansatz zum Wegfallen des Biasterms erster Ordnung. In anderen Beispielen für die Fehlerverteilung erhalten wir für den neuen Bias immer noch bemerkenswerte
Verbesserungen gegenüber dem Bias zu F̂n .
Diese Beobachtungen sind auch in Abbildung 5.1 ersichtlich. Dort wird der quadrierte Bias,
die Varianz und der MSE für drei Fehlerverteilungen gezeigt, nämlich die Normalverteilung,
t-Verteilung mit drei Freiheitsgraden und als Beispiel einer schiefen Verteilung die Doppelexponentialverteilung (im letzteren Fall gilt IE[ε31 ] 6= 0).
¯ → IR zusammen, die jeweils mit f (−∞) := 0 und
Wir stellen die zugehörigen Dichten f : IR
f (∞) := 0 fortgesetzt werden. Als erstes Beispiel für die Fehlerverteilung wird die Normalverteilung mit Erwartungswert 0 und Varianz σ 2 , d.h. N (0, σ 2 ) verwendet, welche die Dichte
x2
1
exp − 2 , x ∈ (−∞, ∞)
(5.3)
f (x) := √
2σ
2πσ 2
besitzt. Hier sind alle ungeraden
Q Momente gleich Null. Für die geraden Momente (γ > 0,
γ−1
γ
2 γ/2
gerade) gilt IE[ε1 ] = (IE[ε1 ])
k .
k=1,k ungerade
Die betrachtete (Student-)t-Verteilung mit d Freiheitsgraden (d ∈ IN ) besitzt die Dichte
−( d+1
2 )
x2
1+ d
Γ
, x ∈ (−∞, ∞),
(5.4)
f (x) :=
√
Γ d2
πd
R∞
welche über die Gamma-Funktion Γ(y) = 0 ty−1 e−t dt (t > 0) definiert ist.
Erstes und zweites Moment der t-Verteilung mit drei Freiheitsgraden ist 0 und 3, erstes bis
viertes Moment der t-Verteilung mit fünf Freiheitsgraden ist 0, 5/3, 0 und 25, erstes bis sechstes Moment der t-Verteilung mit sieben Freiheitsgraden ist 0, 7/5, 0, 49/5, 0 und 343.
Die t-Verteilung ist wie die Normalverteilung nicht schief, ihre Dichte verteilt im Fall kleiner
Freiheitsgrade etwas mehr Masse bei größerer Entfernung vom Maximum der Dichte im Vergleich zur Standardnormalverteilung.
Weil konkrete Funktionen g die Existenz unterschiedlich vieler Momente voraussetzen, variiert
bei den betrachteten Beispielen der Freiheitsgrad d der jeweils benutzten t-Verteilung, wobei
zu einer t-Verteilung mit d Freiheitsgraden jeweils die ersten d − 1 Momente existieren.
d+1
2
94
Kapitel 5. Beispiele und Simulation
-3
-2
-4
0.25
0.25
0.25
0.2
0.2
0.2
0.15
0.15
0.15
0.1
0.1
0.1
0.05
0.05
0.05
-1
1
2
3
-3
-2
-1
1
2
3
-3
-2
-1
1
0.4
0.4
0.4
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0.1
-2
2
4
-4
-2
2
4
-4
-2
2
2
3
4
Abbildung 5.1: Die Abbildung zeigt (von links nach rechts) Kurven zum quadrierten Bias, zur
Varianz und zum MSE im Beispiel 5.1, das heißt g(ε) = ε. Mit durchgezogener Linie werden die
Kurven zu F̂n gezeichnet, mit unterbrochener Linie die Kurven zum neuen Schätzer F̄n . In der
ersten Zeile betrachten wir standardnormalverteilte Fehler. Hier verschwindet der Bias von F̄n .
In der zweiten Zeile finden sich Resultate für nach der t−Verteilung mit drei Freiheitsgraden
verteilte Fehler, wohingegen in der dritten Zeile die Fehler nach der Doppelexponentialverteilung
erzeugt sind. In allen drei Beispielen ist die Varianzkurve zum neuen Schätzer identisch zu der
Varianzkurve zum Schätzer F̂n .
Die Doppelexponentialverteilung besitzt die Dichte
f (x) :=
x − q
x − q 1
exp −
× exp − exp −
, x ∈ (−∞, ∞),
γ
γ
γ
(5.5)
für γ = 3 und q = −γc. Diese Parameter sind gerade so gewählt, dass der Erwartungswert
γc + q Null ist mit der approximativen Wahl c = 0, 5772.
In allen drei Verteilungsbeispielen ist eine Reduzierung des quadrierten Bias ersichtlich.
Beispiel 5.2. Als zweites Beispiel betrachten wir g(ε) = ε2 − σ 2 , dem entspricht die Kenntnis
der Varianz σ 2 . In diesem Fall gilt IE[g ′ (ε1 )] = 0. Deshalb besitzen beide Schätzer den gleichen
Bias b(y) = b̄(y). Dementsprechend vergleichen wir im Folgenden die Varianzen.
5.1 Beispiele
95
Die Varianz zum neuen Schätzer ist
Var(Ḡ(y)) = F (y)(1 − F (y)) + f 2 (y)σ 2 + 2f (y)IE[ε1 I{ε1 ≤ y}]
−U 2 (y)Σ−1 − 2f (y)U (y)Σ−1 IE[ε31 ]
mit Σ = IE[(ε21 − σ 2 )2 ]. Betrachten wir den letzten Term, so ist es offensichtlich, dass ein
verschwindendes drittes Moment zu einer gleichmäßig kleineren Varianz gegenüber Var(G(y))
führt, denn die Varianz Var(Ḡ(y)) unterscheidet sich von Var(G(y)) um den negativen Term
−U 2 (y)Σ−1 . Damit handelt es sich um eine Verbesserung in der Schätzung. Wir geben den
Umfang der Verbesserung erneut für konkrete Fehlerverteilungen an. Für normalverteilte Fehler
mit Erwartungswert Null und Varianz σ 2 gilt
1
Var(Ḡ(y)) = Var(G(y)) − y 2 f 2 (y).
2
(5.6)
Im Folgenden wird die Gleichheit in (5.6) hergeleitet. Es geht darum, das Aussehen von
Var(Ḡ(y)) − Var(G(y)) = −U 2 (y)Σ−1 im Fall normalverteilter Fehler mit Erwartungswert Null
und Varianz σ 2 anzugeben. Hier gilt Σ = IE[(ε21 −σ 2 )2 ] = IE[ε41 ]−(σ 2 )2 = 3(σ 2 )2 −(σ 2 )2 = 2(σ 2 )2
und entsprechend Σ−1 = 12 (σ 2 )−2 . Der Term U (y) zerfällt gemäß U (y) = IE[(ε21 − σ 2 )I{ε1 ≤
y}] = IE[ε21 I{ε1 ≤ y}] − σ 2 F (y). Analog zur Rechnung für den Term U (y) in Beispiel 5.1 gilt
bei ε ∼ N (0, σ 2 )
IE[ε21 I{ε1
≤ y}] =
Z
= −σ 2 [xf (x)|y−∞ −
y
2
x f (x)dx =
−∞
Z y
−∞
Z
y
−∞
x xf (x)dx = −σ
2
Z
y
x f ′ (x)dx
−∞
1f (x)dx] = −σ 2 [xf (x)|y−∞ − F (y)] = −σ 2 [yf (y) − F (y)]
für alle y ∈ IR, so dass für U (y) insgesamt
U (y) =
Z
y
−∞
x2 f (x)dx − σ 2 F (y) = −σ 2 [xf (x)|y−∞ − F (y)] − σ 2 F (y) = −σ 2 yf (y)
gilt. Die Gültigkeit von (5.6) in diesem Fall ergibt sich nun durch Einsetzen der Ergebnisse für
U (y) und Σ−1 in −U 2 (y)Σ−1 .
Für dieses Beispiel vergleiche Abbildung 5.2. Dort wird der quadrierte Bias, die Varianz und
der MSE für drei Fehlerverteilungen gezeigt, nämlich die Normalverteilung, t-Verteilung mit
fünf Freiheitsgraden und die Doppelexponentialverteilung.
96
Kapitel 5. Beispiele und Simulation
-3
0.25
0.25
0.25
0.2
0.2
0.2
0.15
0.15
0.15
0.1
0.1
0.1
0.05
0.05
0.05
-1
-2
-4
1
-2
2
3
-3
-2
-1
1
2
3
-3
-1
-2
0.25
0.25
0.2
0.2
0.2
0.15
0.15
0.15
0.1
0.1
0.1
0.05
0.05
4
-4
-2
2
3
0.25
0.05
2
1
2
4
-4
-2
2
4
Abbildung 5.2: Die Abbildung zeigt (von links nach rechts) Kurven zum quadrierten Bias, zur
Varianz und zum MSE im Beispiel 5.2, das heißt g(ε) = ε2 − σ 2 . Mit durchgezogener Linie werden die Kurven zu F̂n gezeichnet, mit unterbrochener Linie die Kurven zum neuen Schätzer F̄n .
In der ersten Zeile betrachten wir standardnormalverteilte Fehler. In der zweiten Zeile finden
sich Resultate für nach der t−Verteilung mit fünf Freiheitsgraden verteilte Fehler, wohingegen
in der dritten Zeile die Fehler nach der Doppelexponentialverteilung erzeugt sind. In allen drei
Beispielen sind die Biaskurven zu den beiden Schätzern identisch.
Beispiel 5.3. Im vorausgegangenen Beispiel haben wir die Information einer bekannten Varianz
verwendet. Diese Ergebnisse können dadurch weiter verbessert werden, dass wir die Zentriertheit der Fehler zusätzlich berücksichtigen. Dies resultiert in der Funktion g(ε) = (ε, ε2 − σ 2 )T .
Um die Varianz anzugeben, verwenden wir eine Reihe von Bezeichnungen, µ3 = IE[ε31 ], µ4 =
IE[(ε21 − σ 2 )2 ], U1 (y) = IE[ε1 I{ε1 ≤ y}] und U2 (y) = IE[(ε21 − σ 2 )I{ε1 ≤ y}].
Einige Terme vereinfachen sich wie folgt: es gilt IE[g ′ (ε1 )] = (1, 0)T , IE[ε1 g(ε1 )] = (σ 2 , µ3 )T und
!
σ 2 µ3
Σ =
.
µ3 µ4
5.1 Beispiele
-3
97
0.25
0.25
0.25
0.2
0.2
0.2
0.15
0.15
0.15
0.1
0.1
0.1
0.05
0.05
0.05
-1
-2
1
2
3
-3
-2
-1
0.25
-4
-7.5
2
3
-3
-2
-1
0.25
1
0.2
0.2
0.2
0.15
0.15
0.1
0.1
0.1
0.05
0.05
0.05
4
2
-4
-2
4
2
-4
-2
0.2
0.2
0.15
0.15
0.15
0.1
0.1
0.1
0.05
0.05
0.05
2.5
5
7.5
-7.5
-5
-2.5
3
2.5
5
7.5
-7.5
-5
4
2
0.2
-2.5
2
0.25
0.15
-2
-5
1
-2.5
2.5
5
7.5
Abbildung 5.3: Die Abbildung zeigt (von links nach rechts) Kurven zum quadrierten Bias, zur
Varianz und zum MSE im Beispiel 5.3, das heißt g(ε) = (ε, ε2 − σ 2 )T . Mit durchgezogener Linie
werden die Kurven zu F̂n gezeichnet, mit unterbrochener Linie die Kurven zum neuen Schätzer
F̄n . In der ersten Zeile betrachten wir standardnormalverteilte Fehler. Hier ist die unterbrochene Biaskurve Null. In der zweiten Zeile finden sich Resultate für nach der t−Verteilung mit
fünf Freiheitsgraden verteilte Fehler, wohingegen in der dritten Zeile die Fehler die Doppelexponentialverteilung besitzen.
Für die Varianz gilt
Var(Ḡ(y)) = F (y)(1 − F (y)) + f 2 (y)σ 2 + 2f (y)IE[ε1 I{ε1 ≤ y}]
1
U 2 (y)µ4 µ23 + U22 (y)(2σ 2 µ3 − σ 4 µ4 )
+ 2
(σ µ4 − µ23 )2 1
2
2
2
− 2U1 (y)U2 (y)µ33 + 2
f
(y)
U
(y)µ
−
U
(y)µ
σ
1
2
3
3
σ µ4 − µ23
1
= Var(G(y)) − U22 (y) .
µ4
Die letzte Gleichheit gilt nur dann, wenn es sich um Fehlerverteilungen mit verschwindendem
dritten Moment handelt. In diesem Fall erhalten wir erneut die Varianz aus Beispiel 5.2.
Wir betrachten außerdem den Bias für dieses Beispiel, es gilt
b̄(y) = h2 B f (y) +
1
(U
(y)µ
−
U
(y)µ
)
.
1
4
2
3
σ 2 µ4 − µ23
98
Kapitel 5. Beispiele und Simulation
Im Bias steckt das dritte Moment µ3 : im Fall von Verteilungen mit µ3 = 0 erhalten wir den Bias
aus Beispiel 5.1; dies gilt natürlich insbesondere für die zentrierte Normalverteilung. Sobald die
Fehlerverteilung ein verschwindendes drittes Moment besitzt, erhalten wir also einen Schätzer,
der asymptotisch sowohl einen kleineren Bias als auch eine kleinere Varianz besitzt.
Für dieses Beispiel vergleiche Abbildung 5.3. Dort wird der quadrierte Bias, die Varianz und
der MSE für drei Fehlerverteilungen gezeigt, nämlich die Normalverteilung, t-Verteilung mit
fünf Freiheitsgraden und die Doppelexponentialverteilung. Die Verteilungen wurden in Beispiel
5.1 eingeführt. Für alle drei Verteilungen ist eine deutliche Verbesserung im MSE ersichtlich,
wenn die Kurven mit denen aus Beispiel 5.2 gegenübergestellt werden.
Nach den Beispielen zu Satz 3.12 gehen wir zu Informationen bezüglich Quantilen über, wie sie
in Satz 3.14 untersucht werden.
Beispiel 5.4. Als Spezialfall von g(ε) = I{ε ≤ a} − b betrachten wir diese Funktion g für
a = 0, b = 0, 5. Wir nehmen also für die unbekannte Fehlerverteilung an, dass ihr Median gleich
Null ist.
Dann gilt für die Varianz
Var(Ḡ(y)) = F (y)(1 − F (y)) + f 2 (y)σ 2 + 2f (y)IE[ε1 I{ε1 ≤ y}]
h
1
+4 4U 2 (y){ + 2f (0)IE[ε1 I{ε1 ≤ 0}] + f 2 (0)σ 2 }
4
1
−2U (y)(F (min(0, y)) − F (y) + f (0)IE[ε1 I{ε1 ≤ y}])
2
i
2
−2f (y)U (y){IE[ε1 I{ε1 ≤ 0}] + f (0)σ }
mit U (y) = IE[(I{ε1 ≤ 0} − 0, 5)I{ε1 ≤ y}] = F (min(0, y)) − 12 F (y) für alle y ∈ IR. Für den
Bias gilt
1
b̄(y) = h2 B(f (y) − 4U (y)f (0)) = h2 B(f (y) − 4[F (min(0, y)) − F (y)]f (0)).
2
Für dieses Beispiel vergleiche Abbildung 5.4. Dort wird der quadrierte Bias, die Varianz und
der MSE für drei Fehlerverteilungen gezeigt, nämlich für die Normalverteilung, t-Verteilung
mit drei Freiheitsgraden (jeweils mit a = 0 und b = 0, 5) und die Doppelexponentialverteilung
(mit a = 0 und b = 0, 570371).
5.1 Beispiele
-3
-3
-7.5
99
0.25
0.25
0.25
0.2
0.2
0.2
0.15
0.15
0.15
0.1
0.1
0.1
0.05
0.05
0.05
-1
-2
1
-5
3
-3
-2
-1
1
2
3
-3
-2
-1
0.4
0.4
0.4
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0.1
-1
-2
2
1
2
3
-3
-2
-1
1
2
3
-3
-2
-1
0.2
0.2
0.2
0.15
0.15
0.15
0.1
0.1
0.1
0.05
0.05
0.05
-2.5
2.5
5
7.5
-7.5
-5
-2.5
2.5
5
7.5
-7.5
-5
-2.5
1
2
1
2
2.5
5
3
3
7.5
Abbildung 5.4: Die Abbildung zeigt (von links nach rechts) Kurven zum quadrierten Bias, zur
Varianz und zum MSE im Beispiel 5.4, das heißt g(ε) = I{ε ≤ 0}−b. Mit durchgezogener Linie
werden die Kurven zu F̂n gezeichnet, mit unterbrochener Linie die Kurven zum neuen Schätzer
F̄n . In der ersten Zeile betrachten wir standardnormalverteilte Fehler (b = 0, 5). In der zweiten
Zeile finden sich Resultate für nach der t−Verteilung mit drei Freiheitsgraden verteilte Fehler
(b = 0, 5), wohingegen in der dritten Zeile die Fehler die Doppelexponentialverteilung besitzen
(b = 0, 570371).
Beispiel 5.5. In diesem Beispiel wird die Hinzunahme der Zentriertheit der Fehler zum vorangegangenen Beispiel 5.4 betrachtet. Wir betrachten also g(ε) = (ε, I{ε ≤ 0} − F (0))T , wobei
F (0) bekannt ist. Dieses Beispiel wird weder in Satz 3.12 noch in Satz 3.14 betrachtet, da es
eine Mischung beider Typen von betrachteten Funktionen darstellt; die Resultate folgen aber
P
mit den Entwicklungen aus beiden Sätzen. Dabei wird die Entwicklung von n1 ni=1 gj (ε̂i ) aus
Lemma 3.5(ii) für die erste Komponente und aus Lemma 3.5(iii) für die zweite Komponente
verwendet. Für die asymptotische Varianz gilt
Var(Ḡ(y)) = Var(G(y)) + V 2 (y)Var(G(0)) − 2V (y)Cov(G(y), G(0)).
Dabei haben wir Var(G(y)) in (1.23) eingeführt, und es gelten
V (y) =
σ 2 U2 (y) − U1 (0)U1 (y)
,
σ 2 F (0)(1 − F (0)) − U12 (0)
U1 (y) = IE[ε1 I{ε1 ≤ y}], U2 (y) = IE[(I{ε1 ≤ 0} − F (0))I{ε1 ≤ y}] = F (min(0, y)) − F (0)F (y).
100
Kapitel 5. Beispiele und Simulation
Damit ist der Bias von der Gestalt
U1 (y){F (0)(1 − F (0)) + U1 (0)f (0)} − U2 (y){U1 (0) + σ 2 f (0)} b̄(y) = h2 B f (y) +
.
σ 2 F (0)(1 − F (0)) − U12 (0)
Wir gehen auch hier auf spezielle Fehlerverteilungen ein. Im Fall standardnormalverteilter Fehler ist wieder b̄(y) = 0.
Für dieses Beispiel vergleiche Abbildung 5.5. Dort wird der quadrierte Bias, die Varianz und der
MSE für drei Fehlerverteilungen gezeigt, nämlich für die Normalverteilung, t−Verteilung mit
d Freiheitsgraden und die Doppelexponentialverteilung. Verglichen mit den MSE-Ergebnissen
aus Beispiel 5.4 erhalten wir gleichmäßig kleinere MSE-Resultate.
-3
-3
-6
-2
-2
-4
0.25
0.25
0.2
0.2
0.25
0.2
0.15
0.15
0.15
0.1
0.1
0.1
0.05
0.05
0.05
-1
1
2
3
-3
-2
-1
1
2
3
-3
-2
-1
0.4
0.4
0.4
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0.1
-1
1
2
3
-3
-2
-1
1
2
3
-3
-2
-1
0.175
0.175
0.15
0.15
0.15
0.125
0.125
0.125
0.1
0.1
0.1
0.075
0.075
0.05
0.05
0.05
0.025
0.025
0.025
2
4
6
-6
-4
-2
2
1
2
3
2
4
6
3
0.175
0.075
-2
1
2
4
6
-6
-4
-2
Abbildung 5.5: Die Abbildung zeigt (von links nach rechts) Kurven zum quadrierten Bias, zur
Varianz und zum MSE im Beispiel 5.5, das heißt g(ε) = (ε, I{ε ≤ 0} − b)T . Mit durchgezogener
Linie werden die Kurven zu F̂n gezeichnet, mit unterbrochener Linie die Kurven zum neuen
Schätzer F̄n . In der ersten Zeile betrachten wir standardnormalverteilte Fehler (b = 0, 5). In der
zweiten Zeile finden sich Resultate für nach der t−Verteilung mit drei Freiheitsgraden verteilte
Fehler (b = 0, 5), wohingegen in der dritten Zeile die Fehler die Doppelexponentialverteilung
besitzen (b = 0, 570371).
Zum Abschluss wird ein Beispiel zum heteroskedastischen Modell vorgestellt.
5.1 Beispiele
101
Beispiel 5.6. In diesem Beispiel geht es um die Funktion g(ε) = (ε, ε2 −1)T , die zum Einbinden
der Modellannahme der Zentriertheit der Fehler und der Kenntnis σ 2 = 1 in die Fehlerverteilungsschätzung gehört. Wie in Beispiel 5.1 sind die asymptotischen Varianzkurven der beiden
Schätzer F̂n und F̄n identisch. Die Gleichheit der Varianzen ist sofort ersichtlich aus der Entwicklung in Satz 4.10. Der Bias ist nicht für alle y−Werte kleiner für den neuen Schätzer F̄n ,
aber im Fall eines kleineren quadrierten Bias ist die Verbesserung oft sehr deutlich. Für dieses
Beispiel vergleiche Abbildung 5.6. Dort wird der quadrierte Bias, die Varianz und der MSE für
drei Fehlerverteilungen gezeigt, nämlich für die Normalverteilung, die t−Verteilung mit fünf
Freiheitsgraden und die Doppelexponentialverteilung.
Hier sind alle Verteilungen standardisiert, d.h. sie besitzen Erwartungswert Null und Varianz
Eins.
-3
-2
0.4
0.4
0.4
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0.1
-1
1
2
3
-3
-2
-1
1
2
3
-3
-2
-1
1
2
3
1
2
3
2
4
6
0.4
0.5
0.5
0.3
0.4
0.4
0.3
0.3
0.2
0.2
0.2
0.1
0.1
-3
-6
-2
-4
-1
-2
0.1
1
2
3
-3
-2
-1
1
2
3
-3
-2
-1
0.3
0.3
0.3
0.25
0.25
0.25
0.2
0.2
0.2
0.15
0.15
0.15
0.1
0.1
0.1
0.05
0.05
0.05
2
4
6
-6
-4
-2
2
4
6
-6
-4
-2
Abbildung 5.6: Die Abbildung zeigt (von links nach rechts) Kurven zum quadrierten Bias, zur
Varianz und zum MSE im Beispiel 5.6, das heißt g(ε) = (ε, ε2 −1)T , im heteroskedastischen Modell. Mit durchgezogener Linie werden die Kurven zu F̂n gezeichnet, mit unterbrochener Linie
die Kurven zum neuen Schätzer F̄n . In der ersten Zeile betrachten wir standardnormalverteilte
Fehler. In der zweiten Zeile finden sich Resultate für standardisiert nach der t−Verteilung mit
fünf Freiheitsgraden verteilte Fehler, wohingegen in der dritten Zeile die Fehler die standardisierte Doppelexponentialverteilung besitzen. In allen drei Verteilungsbeispielen sind die beiden
Varianzkurven jeweils identisch, und im Normalverteilungsfall verschwindet die unterbrochene
Biaskurve.
102
5.2
Kapitel 5. Beispiele und Simulation
Simulationsstudie
In diesem Abschnitt vergleichen wir das Verhalten der beiden Schätzer für endlichen Stichprobenumfang in einer Simulationsstudie. Hierfür beschränken wir uns auf das homoskedastische
Regressionsmodell (1.14) unter Verwendung der Regressionsfunktion m(x) = 3x2 und im Intervall [0, 1] gleichverteilte Designvariablen. Als vorgegebene Fehlerverteilungen verwenden wir drei
unterschiedliche Verteilungen, die wir bereits in Abschnitt 5.1 untersucht haben. Es handelt sich
dabei um die Standardnormalverteilung, die t-Verteilung mit einer jeweils angegebenen Anzahl
von Freiheitsgraden und die Doppelexponentialverteilung. Für die Schätzung der Regressionsfunktion wählen wir den Normalverteilungskern und wählen die Bandbreiten h mit h = c/n1/4
so, dass sie den theoretischen Bandbreitenvoraussetzungen entsprechen. Die Wahl von h hängt
von Konstanten c ab, für die wir verschiedene Werte zwischen 0, 1 und 3 betrachten.
In dieser Situation geben wir eine Kenngröße an, die nicht mehr für jedes y einzeln angegeben
wird, sondern die Verbesserung in der Schätzung gleichmäßig über alle y angibt. Die verwendete
Kenngröße ist der mittlere integrierte quadratische Fehler (MISE nach der Übersetzung mean
integrated squared error)
IE
Z
2
(Gn (y) − F (y)) dy .
(5.7)
Den MISE berechnen wir für unseren Schätzer Gn = F̄n und zum Vergleich für den bereits
verwendeten Schätzer Gn = F̂n .
Die Berechnung wird aus 1000 Wiederholungen gemittelt. Das Integral (5.7) wird approximiert über die Werte an 100 Gitterpunkten, die für die einzelnen Fehlerverteilungen in unterschiedlichen Intervallen verteilt sind, [−3, 3] im Fall der Normalverteilung, [−4, 4] im Fall der
t-Verteilung und [−7, 7] im Fall der Doppelexponentialverteilung.
Um den Empirical-Likelihood-Schätzer zu berechnen, müssen wir auch den Term η̂n aus (2.17)
approximieren. Wir verwenden hier die Bisektionsmethode bzw. das multivariate NewtonRaphson-Verfahren, beide wurden in Bemerkung 2.5 bereits genannt. Für beide Verfahren wird
auf Press et al. (2002) verwiesen.
In den Abbildungen 5.7 und 5.8 werden Approximationen des MISE als Funktionen in c vorgestellt, wobei die Konstante c wie oben angegeben je nach verwendeter Fehlerverteilung in einem
bestimmten Intervall variiert.
In Abbildung 5.7 sind die Ergebnisse für die Situation von Beispiel 5.1 dargestellt, bei dem die
Zentriertheitsinformation explizit in die Schätzung eingebunden wird.
In der linken Spalte wählen wir Stichprobenumfang 50, in der rechten 100. In der ersten Zeile
ist als Fehlerverteilung die Standardnormalverteilung gewählt. Mit der durchgezogenen Kurve
werden die Werte zum MISE für den Schätzer F̂n dargestellt. In der gestrichelten Kurve stellen
wir dagegen die entsprechenden Ergebnisse für den neuen Schätzer F̄n vor.
Wir erhalten durch den neuen Schätzer bessere Ergebnisse im Sinn eines kleinen MISE, wenn
auch bei manchen Wahlen von Bandbreiten der Unterschied zwischen beiden Kurven sehr gering ist. Analog erzeugte Ergebnisse in der zweiten Zeile entsprechen der t-Verteilung mit drei
5.2 Simulationsstudie
103
Freiheitsgraden und die in der dritten Zeile der Doppelexponentialverteilung. Wir erhalten eine
Verbesserung durch den neuen Schätzer im Sinne eines kleineren MISE in allen Fällen. Interessant ist eine Beobachtung zu den symmetrischen Verteilungen: hier bewirkt eine wachsende
Bandbreite, dass die Verbesserung durch den neuen Schätzer immer deutlicher wird. Dies kann
so erklärt werden, dass bei wachsender Bandbreite auch der Einfluss des Bias auf den MISE
wächst. In diesem Beispiel zeichnet sich der Schätzer besonders durch eine deutliche Biasverbesserung aus.
*10^-3
*10^-3
MISE, normal distribution, sample size 50, example 1
MISE, normal distribution, sample size 100, example 1
1
2
1
4
1
8
2
2
1
2
3.5
7
1
2
1
1
2
1
2
2
6
3
1
2
1
1
2
1
2
2
c
0.1
0.2
MISE
0.3
0.5
0.75
1
0.1
0.2
*10^-3
MISE, t3 distribution, sample size 50, example 1
0.3
c
0.5
0.75
1
MISE, t3 distribution, sample size 100, example 1
1
1
2
2
0.013
1
7
2
0.012
1
6.5
1
2
1
2
2
1
0.011
1
2
1
2
1
2
1
2
1
2
2
0.3
0.5
c
c
0.1
0.2
*10^-2
0.3
0.5
0.75
1
0.1
0.2
*10^-2
MISE, double exponential distribution, sample size 50, example 1
0.75
1
MISE, double exponential , sample size 100, example 1
1
2
2.6
2.5
1.3
2.4
1
2
1
1.2
2
2.3
1
1
2
1
2
1
2.2
1
2
1
2
1
2
1
2
1
1
1
2
1
2
2
2
2
1
2
1
2
1.4
2
2
c
c
0.1 0.2 0.3
0.5
0.75
1
1.25
1.4
2
0.1 0.2 0.3
0.5
0.75
1
1.25
Abbildung 5.7: In dieser Abbildung wird Beispiel 5.1 betrachtet, und zwar für zwei unterschiedliche Stichprobenumfänge, n = 50 (links) und n = 100 (rechts). Die Kurven zeigen den MISE
als Funktion in c, wobei c als Konstante in der Bandbreite h = c/n1/4 auftritt. Als Fehlerverteilungen geben wir (von oben nach unten) N (0, 1), t−Verteilung mit drei Freiheitsgraden und die
Doppelexponentialverteilung vor. Die durchgezogenen Kurven gehören zum Vergleichsschätzer
F̂n , und mit der unterbrochenen Linie kennzeichnen wir die Kurven für den neuen Schätzer F̄n .
In Abbildung 5.8 werden weitere Kurven für den MISE vorgestellt. In der linken Spalte betrachten wir für einen Stichprobenumfang n = 100 Kurven zum Beispiel 5.3, d.h. g(ε) = (ε, ε2 −σ 2 )T .
104
Kapitel 5. Beispiele und Simulation
Von oben nach unten wird die Standardnormalverteilung, die t−Verteilung mit fünf Freiheitsgraden und die Doppelexponentialverteilung zugrundegelegt. Für die ersten beiden Fehlerverteilungsbeispiele ist die Verbesserung im MISE durch die Empirical-Likelihood-Methode sehr
deutlich. Im Fall der Doppelexponentialverteilung ist der MISE für den neuen Schätzer nur
kleiner, wenn die Bandbreitenkonstante größer als c = 0, 5 ist. In diesem Fall ist die Wahl
größerer Bandbreiten zu empfehlen. In der rechten Spalte 5.8 werden analoge Kurven für das
Beispiel 5.5 mit g(ε) = (ε, I{ε ≤ 0} − F (0))T , wobei F (0) bekannt ist, präsentiert. Von oben
nach unten wird die Standardnormalverteilung, die t−Verteilung mit drei Freiheitsgraden und
die Doppelexponentialverteilung zugrundegelegt. In allen Fällen erhalten wir für den neuen
Schätzer einen kleineren MISE.
*10^-3
*10^-2
MISE, normal distribution, sample size 100, example 3
MISE, normal distribution, sample size 50, example 5
1
1
4
0.8
1
2
1
2
3.5
0.7
1
1
2
1
3
1
1
1
2
2
2.5
1
1
2
2
2
2
0.5
2
2
2
0.3
0.5
c
c
0.1
0.2
*10^-2
0.3
0.5
0.75
0.1
1
0.2
*10^-2
MISE, t5 distribution, sample size 100, example 3
MISE, t3 distribution, sample size 50, example 5
1
1
0.71
0.7
1
0.75
1
1
1
0.65
1
1
0.6
1
1
1
0.6
1
1
0.55
2
0.5
2
2
2
2
2
0.5
2
0.45
2
2
2
2
0.45
2
0.43
c
0.1
0.2
*10^-3
0.3
0.5
0.75
c
1
0.1
*10^-2
MISE, double exponential, sample size 100, example 3
0.2
0.3
0.5
1
0.75
MISE, double exponential distribution, sample size 50, example 5
1
3
2
13
2
2.75
12
1
2.5
2
2
1
1
1
1
2
1
1
1
2
1
1
2
1
1.4
2
2
3
1
1
2
2
2
0.75
1
2
2
0.5
1
2.25
11
10
9.84
0.10.20.3
1
1
1.9
2
2
c
0.1 0.2 0.3
0.5
0.75
1
2
1.1
2
1.4
2
c
2
Abbildung 5.8: In dieser Abbildung werden die Beispiele 5.3 in der linken Spalte und 5.5 in der
rechten Spalte betrachtet. Die Kurven zeigen den MISE als Funktion in c, wobei c als Konstante
in der Bandbreite h = c/n1/4 auftritt. Die Stichprobenumfänge sind n = 100 (links) und n = 50
(rechts). Als Fehlerverteilungen geben wir (von oben nach unten) N (0, 1), die t−Verteilung
mit fünf (links) bzw. drei (rechts) Freiheitsgraden und die Doppelexponentialverteilung vor. Die
durchgezogenen Kurven gehören zum Vergleichsschätzer F̂n und mit der unterbrochenen Linie
kennzeichnen wir die Kurven für den neuen Schätzer F̄n .
Kapitel 6
Testverfahren
6.1
Einleitung
Schätzer werden oft mit dem Ziel konstruiert, für die Konstruktion von Konfidenzintervallen
oder -bändern und von Testverfahren genutzt zu werden. In diesem Kapitel soll die Verwendung des ausführlich vorstellten und untersuchten Schätzers F̄n für die Verteilungsfunktion
der Fehler im nichtparametrischen Regressionsmodell anhand eines Tests vorgestellt werden.
Die Testproblematik ergibt sich aus der Konstruktion des Schätzers. Die Grundidee für die
Schätzerkonstruktion war die Verwendung von Zusatzinformationen in Form von bekannten
Funktionen g, für welche die Eigenschaft IE[g(ε1 )] = 0 bekannt ist. Um den Schätzer mit dieser
Zusatzinformation zum Schätzen der unbekannten Verteilungsfunktion verwenden, ist es folgerichtig, zuerst auf die Gültigkeit der zugrundeliegenden Zusatzinformation zu testen. Diese
Aufgabe wird von jedem der drei im Folgenden vorgestellten Testverfahren erfüllt.
Der erste vorgestellte Test benutzt direkt die Entwicklung des Schätzers F̄n innerhalb einer Kolmogorov-Smirnov- und einer Cramér-von-Mises-Teststatistik. Der zweite Test ist ein
Empirical-Likelihood-Ratio-Test, der durch seine Verwandtheit zum Konstruktionsverfahren
für den Schätzer auf der Hand liegt und Teile der benötigten Entwicklungen für F̄n verwendet.
Zum Abschluss wird eine relativ einfache Teststatistik vorgestellt, die direkt eine empirische
Variante des in der Hypothese betrachteten Erwartungswerts aufgreift und deren Untersuchung
ebenfalls auf Teilergebnissen für den Schätzer F̄n beruht.
Die Annahme nh4 = O(1) an die Konvergenzgeschwindigkeit der Bandbreite h zur Konstruktion des Schätzers diente dazu, eine Verbesserung hinsichtlich des Bias zu erhalten. Bei der
Betrachtung der Teststatistiken spielt dieser Bias eine untergeordnete Rolle, wir betrachten
deshalb der Übersichtlichkeit halber die Teststatistiken unter der im Folgenden einzuführenden
im Vergleich zu (H) von S. 17 stärkeren Annahme an die Bandbreite h:
(H1) Für die Bandbreite h gilt
nh4 −→ 0, n → ∞.
105
106
Kapitel 6. Testverfahren
Bemerkung 6.1. Um den Test durchzuführen, ist zu beachten, dass die Varianzen der jeweiligen Grenzverteilung nicht bekannt sind. Die gewünschten Quantile lassen sich mit einem jeweils
geeigneten Bootstrapverfahren durch Simulation approximieren. Dieses Vorgehen wird hier nicht
näher betrachtet; wir beschränken uns auf die Untersuchung des asymptotischen Verhaltens zu
den einzelnen Verfahren.
6.2
6.2.1
Erstes Testverfahren
Idee
Mit den bisherigen asymptotischen Untersuchungen (Entwicklungen, schwache Konvergenz) des
√
Prozesses n(F̄n (·) − F (·) − b̄(·)) und des in Akritas und Van Keilegom (2001) untersuchten
√
Prozesses n(F̂n (·) − F (·) − bAK (·)) wird im Folgenden ein Test konstruiert und analysiert.
Beide genannten Biasterme sind vernachlässigbar, wenn (H1) angenommen wird. Der Test untersucht, ob die Annahme IE[g(ε1 )] = 0 zu einer bekannten Funktion g gerechtfertigt ist. Diese
Eigenschaft begründet die Verwendung des in dieser Arbeit untersuchten Empirical-LikelihoodSchätzers bezüglich der nichtparametrischen Residuen für die Fehlerverteilung.
Wollen wir bezüglich einer mehrdimensionalen Zusatzinformation mit g : IR → IRk , k > 1
die Fehlerverteilung schätzen, ist der vorgeschlagene Test für jede Komponente durchzuführen.
Testen wir simultan für eine vektorwertige Funktion g, ordnet das Testergebnis den einzelnen
Komponenten noch keine Information zu. Dies bedeutet, dass beim Verwerfen der Nullhypothese nicht klar ist, für welche Komponente die Zentriertheit nicht erfüllt ist: in dieser Situation
muss der Test bezüglich fraglicher eindimensionaler Funktionen g einzeln durchgeführt werden.
Für den vorgeschlagenen Test verwenden wir daher nur eindimensionale Funktionen g.
Tests zur Hypothese
H0 : IE[g(ε1 )] = 0 vs. H1 : IE[g(ε1 )] 6= 0
werden auf der Basis der Differenz
n
n
1
1 X −η̂n g(ε̂i )
1 X
− 1 I{ε̂i ≤ y} =
I{ε̂i ≤ y}
F̄n (y) − F̂n (y) =
n i=1 1 + η̂n g(ε̂i )
n i=1 1 + η̂n g(ε̂i )
anhand der Kolmogorov-Smirnov-Teststatistik
√
SKS = n sup |F̄n (y) − F̂n (y)|
(6.1)
(6.2)
(6.3)
y∈IR
oder der Cramér-von-Mises-Teststatistik
Z
SCvM = n (F̄n (y) − F̂n (y))2 dF̂n (y)
konstruiert. Das Verhalten der stochastischen Prozesses
lokalen Alternativen
Hl.a. :
√
(6.4)
n(F̄n (·) − F̂n (·)) wird unter H0 , unter
IE[g(ε1 )] = 0 + n−1/2 c, c 6= 0
(6.5)
6.2 Erstes Testverfahren
107
und festen Alternativen
IE[g(ε1 )] = c, c 6= 0
Hf.a. :
(6.6)
untersucht. Von beiden Teststatistiken wird idealerweise erwartet, dass sie unter fester Alternative gegen ∞ divergieren. Gilt dies im Fall fester Alternativen, ist die Rede von Konsistenz
gegen feste Alternativen.
Beispiel 6.2. Beispiele sind H0 : Median ist Null, d.h. g(ε) = I{ε ≤ 0} − 1/2 oder H0 : µ4 =
3σ 2 , d.h. g(ε) = ε4 − 3ε2 mit viertem Moment µ4 und Varianz σ 2 , beide Eigenschaften sind im
Fall zentrierter normalverteilter Fehler erfüllt.
Wir beginnen mit der Untersuchung unter der Hypothese, um danach das asymptotische Verhalten unter festen Alternativen im Abschnitt 6.2.3 und unter lokalen Alternativen im Abschnitt
6.2.4 zu betrachten.
6.2.2
Asymptotisches Verhalten unter H0
Nach Theorem 3.11 (Entwicklung von F̄n ) und Lemma 3.10 (Entwicklung von η̂n ) gilt gleichmäßig
in y unter H0
n
1 1 2 −1 1 X
F̄n (y) = F̂n (y) − U (y)η̂n + oP √
g(ε̂i ) + oP √ . (6.7)
= F̂n (y) − U (y)IE g (ε)
n i=1
n
n
Das Verfahren wird für differenzierbare Funktionen g im homoskedastischen Regressionsmodell
P
vorgestellt. Für n1 ni=1 g(ε̂i ) gilt daher die in Lemma 3.5(ii) beschriebene Entwicklung unter
Vernachlässigbarkeit des dort genannten Biasterms gemäß der stärkeren Bandbreitenannahme
(H1).
Damit ergibt sich die Entwicklung mit dem folgenden Lemma.
Lemma 6.3. Unter den Annahmen von Satz 3.12 und (H1) gilt unter H0 die Entwicklung
2
−1
F̄n (y) − F̂n (y) = −U (y)IE[g (ε1 )]
n
1 X
1 (g(εi ) − IE[g (ε1 )]εi ) + oP √
n i=1
n
′
(6.8)
mit U (y) = IE[g(ε1 )I{ε1 ≤ y}]. Bei der Entwicklung von g wird Lemma 3.5(ii) unter zusätzlicher Annahme von (H1) verwendet.
Beweis zu Lemma 6.3. Für den Beweis ist auf die Teilentwicklungen zu verweisen, nämlich
auf die in (6.7) vorgestellte Entwicklung für F̂n und die in Satz 3.12 gezeigte Entwicklung für
F̄n unter Vernachlässigung von Biastermen gemäß (H1).
Ähnliche Resultate erhalten wir aus den Ergebnissen der vorangegangenen Kapitel für einen
anderen Typ von Funktionen g und das heteroskedastische Modell.
Nach der Entwicklung in Lemma 6.3 kommen wir zur schwachen Konvergenz.
108
Kapitel 6. Testverfahren
Lemma 6.4. Unter H0 , Annahme (H1) und den Annahmen
aus Satz 3.12
für eindimensionales
√ g konvergiert der stochastische Prozess Vn (y) := n F̄n (y) − F̂n (y) schwach gegen einen
zentrierten Gaußprozess V mit der Kovarianzmatrix
2
−2
IE[V (y)V (z)] = U (y)U (z)IE[g (ε1 )]
IE[g 2 (ε1 )] − 2IE[g(ε1 )ε1 ]IE[g ′ (ε1 )]
+IE[g ′ (ε1 )]IE[ε21 ]IE[g ′ (ε1 )] .
Beweis zu Lemma 6.4. Die Kovarianz IE[V (y)V (z)] = IE[VH0 (y)VH0 (z)] ergibt sich für
n
X
√
2
−1 1
(g(εi ) − IE[g ′ (ε1 )]εi ).
VH0 (y) := − nU (y)IE[g (ε1 )]
n i=1
Die schwache Konvergenz von Vn folgt aus der schwachen Konvergenz des bei der Betrachtung
√
des Schätzers untersuchten Prozesses n(F̄ − F ), der diesen Term einschließt. Außerdem kann
Lemma 6.3 auch durch den Nachweis der Straffheit für den von y abhängigen Anteil und
die Konvergenz für den restlichen von y unabhängigen Term auf der rechten Seite nach dem
zentralen Grenzwertsatz gezeigt werden.
6.2.3
Untersuchung bei fester Alternative
Für die Untersuchung unter fester Alternative Hf.a. nehmen wir an, dass IE[g(ε1 )] = c 6= 0
gilt. Aufgrund der Konstruktion des Schätzers treffen wir für g weiterhin die Annahmen (3.4)
und (S1) und (S2) von Seite 44. Die Annahmen (S1) und (S2) garantieren die Existenz und
Eindeutigkeit der Gewichte p̂1 , . . . , p̂n und damit des Lagrangemultiplikators η̂n . An dieser Stelle
ist zu erklären, warum die Annahme (S1) weiter plausibel ist. Einen Test auf IE[g(ε1 )] = 0
durchzuführen liegt nur dann auf der Hand, wenn für die Beobachtungen bereits g(ε̂1 ), . . . , g(ε̂n )
um Null liegen, also sie nicht alle positiv oder alle negativ sind. Diese Argumentation legitimiert
Annahme (S1) zumindest im Hinblick auf asymptotische Aussagen (für n → ∞).
Wir betrachten die in (6.3) definierte Teststatistik SKS , basierend auf der Differenz F̂n (y) −
F̄n (y). Aus Lemma 6.4 und dem Stetigkeitssatz (vgl. Van der Vaart und Wellner (1996), Theo√
rem 1.3.6) folgt für die Teststatistik SKS unter H0 die schwache Konvergenz von n supy∈IR
|F̂n (y) −F̄n (y)| gegen supy∈IR |V (y)|, für n → ∞, mit V aus Lemma 6.4. Die Hypothese H0
ist abzulehnen, wenn SKS > q1−α gilt, im Fall eines einseitigen Tests. Dabei bezeichnet q1−α
das (1 − α)−Quantil der Verteilung von supy∈IR |V (y)|. Für den Nachweis, dass der Test feste
Alternativen aufdeckt, ist unter Hf.a.
lim IP(SKS > q1−α ) = 1
n→∞
(6.9)
zu zeigen. Bei der Notation für SKS wird die Abhängigkeit von n unterdrückt. Wir definieren
für den folgenden Satz 6.6 eine bestimmte Menge M von Funktionen g und definieren dafür die
folgende Zerlegbarkeit:
(I) Es existieren reelle Konstanten a1 und a2 , so dass g in (−∞, a1 ) monoton wächst oder
fällt, in (a2 , ∞) monoton wächst oder fällt und für das dazwischenliegende Intervall für
Ra
eine Konstante K die Abschätzung a12 |g ′ (y)|dy ≤ K gilt.
6.2 Erstes Testverfahren
109
Definition 6.5. Die Menge M enthält alle Funktionen g, für welche die Annahmen (G1), (G2)
und (I) gelten.
Nach diesen Vorbereitungen formulieren wir nun den zentralen Satz des Abschnitts.
Satz 6.6. Sei g eine Funktion aus der Menge M mit IE[g(ε1 )] = c 6= 0. Für solche g gilt unter
den Annahmen (S1) und (S2) unter der Alternative Hf.a. :
√
(6.10)
∀ q ∈ IR+ : lim IP n sup |F̂n (y) − F̄n (y)| > q = 1.
n→∞
y∈IR
Beweis zu Satz 6.6. Zum Nachweis von Satz 6.6 zeigen wir
√
∀ q ∈ IR+ : lim IP n sup |F̂n (y) − F̄n (y)| ≤ q = 0.
n→∞
(6.11)
y∈IR
Es gilt
√
IP( n sup |F̂n (y) − F̄n (y)| ≤ q) = P1n + P2n
y∈IR
mit
P1n
P2n
√
|c|
n sup |F̂n (y) − F̄n (y)| ≤ q, | g(y)d(F̄n (y) − F̂n (y))| <
,
:= IP
2
y∈IR
Z
√
|c|
n sup |F̂n (y) − F̄n (y)| ≤ q, | g(y)d(F̄n (y) − F̂n (y))| ≥
:= IP
2
y∈IR
Z
(6.12)
(6.13)
für die Konstante c 6= 0, vergleiche die Formulierung der festen Alternative in (6.6). Wir behanR
deln zunächst den ersten Term. Es ist zu beachten, dass g(y)dF̄n (y) = 0 nach Konstruktion
für jedes n gilt. Aus Lemma 3.5(ii) angewandt auf die Funktion g̃ = g − IE[g(ε1 )] ergibt sich
R
P
stochastische Konvergenz von g(y)dF̂n (y) = n1 ni=1 g(ε̂i ) gegen IE[g(ε1 )] = c 6= 0. Weil daraus
R
zusammen | g(y)d(F̄n (y) − F̂n (y))| → |0 − c| = |c| folgt, gilt
|c| Z
P1n ≤ IP g(y)d(F̄n (y) − F̂n (y)) <
−→ 0, n → ∞.
2
Damit ist die Konvergenz des ersten Terms P1n aus (6.12) gegen Null gezeigt; es bleibt die
Konvergenz des zweiten Terms P2n aus (6.13) gegen Null zu zeigen.
Weil die Maße F̂n , F̄n nur auf den Daten ε̂1 , . . . , ε̂n positives Gewicht verteilen, verteilen sie
insbesondere kein Gewicht außerhalb des Intervalls [min1≤i≤n g(ε̂i ), max1≤i≤n g(ε̂i )]. Deshalb
kann die Integration wie folgt eingeschränkt werden. Es gilt
|c| Z max1≤i≤n g(ε̂i )
√
g(y)d(F̄n (y) − F̂n (y)) ≥
.
(6.14)
P2n = IP n sup |F̂n (y) − F̄n (y)| ≤ q, 2
y∈IR
min1≤i≤n g(ε̂i )
Im Folgenden betrachten wir das Integral aus dem zweiten Term,
Z max1≤i≤n g(ε̂i )
In :=
g(y)d(F̄n (y) − F̂n (y)).
min1≤i≤n g(ε̂i )
(6.15)
110
Kapitel 6. Testverfahren
Wir wenden ein Resultat zu partieller Integration aus Hewitt und Stromberg (1969), S. 419
an. Das dort zu findende Theorem (21.69)(iv) für Lebesgue-Stieltjes-Integrale besagt für zwei
reellwertige und monoton wachsende Funktionen α, β auf IR und a < b aus IR
Z
Z
β(x+)dα(x) +
α(x−)dβ(x) = α(b+)β(b+) − α(a−)β(a−).
(6.16)
[a,b]
[a,b]
Dabei sind die Bezeichnungen α(b−) := limx↑b α(x), α(b+) := limx↓b α(x) gewählt.
Im Integral In in (6.15) ist die Funktion g zwar stetig, daher muss nicht zwischen linksseitigem
und rechtsseitigem Grenzwert unterschieden werden. Die Funktion g ist aber im allgemeinen
nicht monoton wachsend, deshalb ist sie als Differenz zweier monotoner Funktionen g1 , g2 mit
g = g1 − g2 zu schreiben:
Wir betrachten stetig differenzierbare Funktionen g hier auf einem kompakten Intervall, denn
wir haben die Integration oben bereits auf ein kompaktes Intervall eingeschränkt. Solche stetig
differenzierbaren Funktionen g auf einem kompakten Intervall sind von beschränkter Variation,
weswegen auf selbigem kompakten Intervall definierte monoton wachsende Funktionen g1 , g2
mit g = g1 − g2 existieren. Vergleiche dazu Hewitt und Stromberg (1969), Theorem (17.16).
Die beiden Funktionen F̄n und F̂n sind nach Konstruktion monoton, hier ist wegen der Sprungfunktionen insbesondere auf den jeweiligen links- oder rechtsseitigen Grenzwert zu achten. Für
an = min1≤i≤n ε̂i und bn = max1≤i≤n ε̂i gilt dann mit der Zerlegung
Z bn
Z bn
In =
g(y)d(F̄n (y) − F̂n (y)) =
(g1 − g2 )(y)d(F̄n (y) − F̂n (y))
an
bn
=
Z
an
an
g1 (y)dF̄n (y) −
Z
bn
an
g1 (y)dF̂n (y) −
Z
bn
g2 (y)dF̄n (y) +
an
Z
bn
g2 (y)dF̂n (y)
an
die partielle Integration nach oben genanntem Theorem aus Hewitt und Stromberg (1969) für
gj , j = 1, 2, und Fk ∈ {F̄n , F̂n }
Z bn
Z bn
gj (y)dFk (y) = gj (bn +)Fk (bn +) − gj (an −)Fk (an −) −
Fk (y−)dgj (y).
an
an
Damit gilt für j = 1, 2
Z bn
Z
gj (y)dF̄n (y) −
an
bn
gj (y)dF̂n (y)
an
bn + Z bn
= gj (y)(F̄n (y) − F̂n (y))
−
(F̄n (y−) − F̂n (y−)) dgj (y)
an −
an
Z
bn
= 0−
(F̄n (y−) − F̂n (y−)) dgj (y).
an
Die letzte Gleichheit gilt, weil F̄n (y) = F̂n (y) für y = min1≤i≤n ε̂i und y = max1≤i≤n ε̂i gilt.
Setzen wir die Resultate für j = 1, 2 wieder zusammen, gilt für das gesuchte Integral
Z bn
Z bn
In = −
(F̄n (y−) − F̂n (y−))dg1 (y) +
(F̄n (y−) − F̂n (y−))dg2 (y)
an
an
6.2 Erstes Testverfahren
= −
Z
111
bn
an
(F̄n (y−) − F̂n (y−))d(g1 − g2 )(y) = −
Z
bn
an
(F̄n (y−) − F̂n (y−))dg(y).
Für die zweite Wahrscheinlichkeit aus der Zerlegung folgt
P2n = IP
√
Z
n sup |F̄n (y) − F̂n (y)| ≤ q, y∈IR
bn
an
q Z bn
|c| ′
|g (y)|dy ≥
.
≤ IP √
2
n an
|c| (F̄n (y−) − F̂n (y−))g (y)dy ≥
2
′
(6.17)
Bis zu dieser Stelle lässt sich der Beweis für beliebige Funktionen g, welche die Annahmen (G1)
und (G2) erfüllen, durchführen. Wegen der folgenden Überlegungen wurde für die Behauptung
die betrachtete Menge von Funktionen g auf M eingeschränkt.
Bevor wir mit dem Fall von Funktionen g in M , die in (−∞, a1 ) und in (a2 , ∞) monoton
wachsen, beginnen, fügen wir eine Betrachtung zu den Integrationsgrenzen ein:
In (6.17) betrachten wir die Integrationsgrenzen an = min1≤i≤n ε̂i und bn = max1≤i≤n ε̂i . Das
Integral bezüglich der zufälligen Grenzen an und bn wollen wir in das Integral unter Verwendung
der deterministischen Grenzen a1 und a2 und sonstige Teile zerlegen. Es gilt die stochastische
Konvergenz von an gegen −∞ und bn gegen ∞, deshalb können wir an < a1 und bn > a2
annehmen. Wir schätzen dafür (6.17) ab:
q Z bn
|c| IP √
|g ′ (y)|dy ≥
2
n an
q Z bn
|c|
≤ IP √
|g ′ (y)|dy ≥ , an < a1 , bn > a2 + IP(an > a1 ) + IP(bn < a2 )
2
n an
q Z a2
|c| ≤ IP √
+ o(1).
|g ′ (y)|dy ≥
2
n a1
Wir betrachten im Folgenden Funktionen g aus Annahme (I), und zwar den Fall, dass g in
(−∞, a1 ) und in (a2 , ∞) monoton wächst. In diesem Fall gilt
Z
bn
an
′
|g (y)|dy ≤
Z
a1
an
′
g (y)dy +
Z
bn
a2
g ′ (y)dy + K ≤ |g(a1 )| + |g(a2 )| + K + 2 max |g(ε̂i )|, (6.18)
1≤i≤n
weil g(c) ≤ max1≤i≤n |g(ε̂i )| für c = an und c = bn . Wir verwenden die Bezeichnung K̃ :=
|g(a1 )| + |g(a2 )| + K im Folgenden. Die Wahrscheinlichkeit in (6.17) ist damit nach oben
abschätzbar durch
√
1
|c| n K̃ |c|
− √
IP 2 max |g(ε̂i )| + K̃ >
≤ IP √ max |g(ε̂i )| >
= o(1).
1≤i≤n
2q
4q 2 n
n 1≤i≤n
Innerhalb der letzten Wahrscheinlichkeit steht auf der linken Seite des betrachteten Ereignisses
eine stochastische Nullfolge und auf der rechten Seite die positive Konstante |c|
abzüglich einer
4q
Nullfolge
K̃
√
.
2 n
Damit ist für den Fall von Funktionen aus M , die außerhalb eines geeigneten
112
Kapitel 6. Testverfahren
Intervalls jeweils monoton wachsend sind, gezeigt, dass P2n aus (6.17) gegen Null konvergiert,
für n → ∞.
In der Menge M sind außerdem Funktionen zugelassen, die in einem oder beiden der Intervalle
(an , a1 ) und (a2 , bn ) monoton fallend statt monoton wachsend sind. In diesem Fall können die
Ungleichungen in (6.18) durch die folgende Zeile ersetzt werden. Wir betrachten exemplarisch
den Fall, wo g in (an , a1 ) monoton fallend und in (a2 , bn ) monoton wachsend ist:
Z
bn
an
′
|g (y)|dy ≤ −
Z
a1
′
g (y)dy +
an
Z
bn
a2
g ′ (y)dy + K ≤ |g(a1 )| + |g(a2 )| + K + 2 max |g(ε̂i )|,
1≤i≤n
was insgesamt zur gleichen Abschätzung und mit den gleichen Schritten wie im ausführlich
betrachteten Fall zur Konvergenz von P2n gegen Null führt. Insgesamt ist für Funktionen g
aus M die Konvergenz der Wahrscheinlichkeit P2n aus (6.13) gegen Null gezeigt. Weil oben
bereits die Konvergenz von P1n aus (6.12) gegen Null gezeigt wurde, ist der Beweis zu Satz 6.6
abgeschlossen.
6.2.4
Untersuchung lokaler Alternativen
Unter lokaler Alternative ist g von der Form g(ε) = gH0 (ε)+ √1n r(ε), wobei für gH0 Annahme (A)
von S. 19 gilt. Wir fordern aufgrund der Konstruktion des Schätzers weiterhin die Annahmen
(3.4), (S1) und (S2). (S1) und (S2) garantieren die Existenz und Eindeutigkeit der Gewichte
p̂1 , . . . , p̂n und damit des Lagrangemultiplikators η̂n jeweils bezüglich des hier betrachteten g.
Unter lokalen Alternativen Hl.a. (vgl. (6.5)) werden wir nachweisen, dass die Teststatistiken
sich asymptotisch anders als unter H0 verhalten. Dazu betrachten wir die Differenz F̄n − F̂n ,
welche in beiden Teststatistiken SKS und SCvM enthalten ist.
Die Entwicklung von F̄n hängt davon ab, welche Gestalt die Entwicklung zum darin vorkommenP
den Term n1 ni=1 g(ε̂i ) besitzt. Das folgende Lemma 6.7 zeigt, dass sich für beide betrachteten
Typen von Funktionen g die Entwicklung dieses Terms unter Hl.a. von der unter H0 asymptotisch unterscheidet. Durch dieses Resultat liegt eine Veränderung im Bias vor, welche ausreicht,
um lokale Alternativen aufzudecken. Dazu wird später Satz 6.9 formuliert.
Lemma 6.7. Es gilt unter (H1) und den Annahmen von Lemma 3.5 ohne die Berücksichtigung
der Annahme IE[g(ε1 )] = 0 unter Hl.a. aus (6.5) mit der Zerlegung g(ε) = gH0 (ε) + √1n r(ε),
wobei für gH0 Annahme (A) von S. 19 gilt, die Entwicklung
n
n
1 1X
1X
1
′
g(ε̂i ) =
(gH0 (εi ) − IE[gH0
(ε1 )]εi ) + √ IE[r(ε1 )] + oP √ ,
n i=1
n i=1
n
n
wobei für den letzten Term insbesondere IE[r(ε1 )] 6= o(1) nach Konstruktion von Hl.a. gilt.
Diese Aussage gilt für Funktionen g gemäß den lokalen Alternativen, die in Funktionen gH0
und r zerfallen, welche beide den Annahmen (G1), (G2) genügen.
6.2 Erstes Testverfahren
113
Beweis zu Lemma 6.7. Im Fall lokaler Alternativen zerfällt g in g(ε) = gH0 (ε) + n−1/2 r(ε)
mit IE[gH0 (ε1 )] = 0 und IE[r(ε1 )] = c 6= 0. Betrachten wir das arithmetische Mittel der g(ε̂i ),
so zerfällt der Term wie folgt:
n
n
n
1X
1X
1 1 X
1
g(ε̂i ) =
gH0 (ε̂i ) + √
r(ε̂i ) − IE[r(ε1 )] + √ IE[r(ε1 )].
n i=1
n i=1
n n i=1
n
(6.19)
P
P
Beide Summen n1 ni=1 gH0 (ε̂i ) und n1 ni=1 (r(ε̂i ) − IE[r(ε1 )]) werden gemäß Lemma 3.5(ii) entwickelt. Es gilt nach der genannten Entwicklung für r und im zweiten Schritt nach dem zentralen
Grenzwertsatz
n
n
1 1 1X
1X
r(ε̂i ) =
(r(εi ) − IE[r(ε1 )] − IE[r′ (ε1 )]εi ) + IE[r(ε1 )] + oP √
= IE[r(ε1 )] + OP √ .
n i=1
n i=1
n
n
Für gH0 gilt die Entwicklung
n
n
1 1X
1X
′
gH0 (ε̂i ) =
(gH0 (εi ) − IE[gH0
(ε1 )]εi ) + oP √ .
n i=1
n i=1
n
Durch das Einsetzen der einzelnen Entwicklungen in die rechte Seite der Gleichung (6.19) ergibt
sich die Behauptung von Lemma 6.7.
Mit dem folgenden Lemma 6.8 ist gewährleistet, dass der Term η̂n im Fall lokaler Alternativen
die gleiche Rate und Entwicklung wie im Fall der Nullhypothese besitzt. Es geht um analoge
Behauptungen wie in Lemma 3.5(i) und Lemma 3.10. Der Term η̂n wird deswegen betrachtet,
weil er in der Entwicklung des Schätzers F̄n auftritt. Wir benutzen im Folgenden die Zerlegung
g = gH0 + √1n r.
Lemma 6.8. Es gelte gelte (M1), (M2), (M3), (K), (H) und Modell (1.14) aus Abschnitt 1.5
und (S1) und (S2) aus Abschnitt 2.2. Für gH0 gelte (A) von S. 19. Für Funktionen g gemäß
(G1) und (G2) aus Abschnitt 3.2 gilt für den Lagrange-Multiplikator η̂n gehörend zu g die Rate
1 |η̂n | = Op √
n
und die Entwicklung
−1 1
η̂n = Σ
n
n
X
i=1
1 g(ε̂i ) + oP √ .
n
Beweis zu Lemma 6.8. Wir betrachten zuerst den Beweis der Rate analog zu Lemma 3.8(i).
Weil nach Konstruktion η̂n Lösung von Gleichung (3.2) ist, erhalten wir auch hier die Abschätzung
n
n
n
1 X
1 X
1 X
−1
2
g(ε̂i )
g(ε̂i ) − g(ε̂i ) max |g(ε̂i )|
.
|η̂n | ≤ i=1,...,n
n i=1
n i=1
n i=1
114
Kapitel 6. Testverfahren
Die Raten der einzelnen Bestandteile sind zu betrachten. Wir erhalten (vgl. Lemma 3.5(iv),(v))
2
n
n n
1 1X 2
1X
1
1X 2
g (ε̂i ) =
gH0 (ε̂i ) + √ r(ε̂i ) =
gH0 (ε̂i ) + OP √ ,
n i=1
n i=1
n i=1
n
n
P
P
2
(ε̂i ) = OP (1) gilt, wie aus einer Taylorentwicklung für n1 ni=1
wobei für den Term n1 ni=1 gH0
P
2
2
(gH0
(ε̂i )−IE[gH0
(ε1 )]) analog zu der in Lemma 3.5(ii) für den Ausdruck n1 ni=1 g(ε̂i ) folgt. Damit
P
erhalten wir n1 ni=1 g 2 (ε̂i ) als führenden Term analog zur Rechnung unter H0 . Für den letzten
√
auftretenden Term maxi=1,...,n |g(ε̂i )| gilt maxi=1,...,n |g(ε̂i )| = oP ( n) unter den Annahmen
IE[g 2 (ε1 )] < ∞ und (3.4) für nach der lokalen Alternative konstruiertes g. Die Beweisschritte
P
folgen dem Beweis zu Lemma 3.5(i). In Lemma 6.7 haben wir n1 ni=1 g(ε̂i ) = OP ( √1n ) unter
Hl.a. bereits gezeigt. Damit ist die erste Behauptung gezeigt, wir können die Rate für η̂n wie
unter der Nullhypothese verwenden.
Für die Entwicklung von η̂n unter lokalen Annahmen (vgl. Lemma 3.10) ist zusätzlich nur noch
Lemma 3.8 (ii) unter lokalen Alternativen zu betrachten: dies folgt direkt mit den bisherigen
verwendeten Schritten.
Damit gelten Raten und Entwicklungen für η̂n unter Hl.a. wie bisher für η̂n unter H0 .
Es folgt insgesamt, dass sich durch den rechts stehenden Term √1n IE[r(ε)] die Entwicklung von
Pn
√1 1
√1
i=1 g(ε̂i ) durch einen beschränkten Term der Ordnung O( n ) von der Entwicklung unter
nn
H0 aus Lemma 3.5 (ii) unterscheidet und damit auch die Entwicklung des Schätzers F̄n .
Das Aufdecken lokaler Alternativen ist gewährleistet, indem wir noch die schwache Konvergenz
√
von n(F̄n − F̂n ) betrachten und eine Veränderung im Grenzprozess erhalten:
Lemma 6.9. Vorausgesetzt werden die Annahmen aus Satz 3.12 für eindimensionales g und
Annahme (H1), wobei die Funktionen gH0 und r − IE[r(ε1 )] den Annahmen (A), (G1) und (G2)
aus Abschnitt 1.6 und Abschnitt 3.2 genügen. Unter Hl.a. aus (6.5) gilt dann die Entwicklung
√
√
2
n(F̄n (y) − F̂n (y)) = − nUH0 (y)IE[gH0
(ε1 )]−1
X
n
1
1
′
(gH0 (εi ) − εi IE[gH0 (ε1 )]) + √ IE[r(ε1 )] + oP (1)
n i=1
n
mit UH0 (y) := IE[gH0 (ε1 )I(ε1 ≤ y)], und der stochastische Prozess
√ 1
2
(ε1 )]−1 √ IE[r(ε1 )]
Vn (y) := n F̄n (y) − F̂n (y) + UH0 (y)IE[gH0
n
konvergiert schwach gegen einen zentrierten Gaußprozess V mit der Kovarianzmatrix
2
IE[V (y)V (z)] = UH0 (y)UH0 (z)IE[gH0
(ε1 )]−2
2
′
′
2
′
IE[gH0 (ε1 )] − 2IE[gH0 (ε1 )ε1 ]IE[gH0 (ε1 )] + IE[gH0 (ε1 )]IE[ε1 ]IE[gH0 (ε1 )] .
Beweis zu Lemma 6.9. Die Entwicklung von F̄n folgt mit analogen Schritten wie in Satz
3.11. Damit bleibt der Term −U (y)η̂n als führender Term weiter zu entwickeln. Hier beziehen
6.3 Zweites Testverfahren
115
sich U und η̂n jeweils auf die Funktion g = gH0 + √1n r unter lokaler Alternative. Aus Lemma 6.8
ist klar, dass die Rate und die Entwicklung von η̂n analog zu Rate und Entwicklung unter H0
P
gelten. Nach Lemma 6.7 gilt eine veränderte Entwicklung für den Term n1 ni=1 g(ε̂i ). Außerdem
gilt U (y) = IE[g(ε1 )I(ε1 ≤ y)] = UH0 (y) + √1n IE[r(ε1 )I(ε1 ≤ y)], und wir verwenden IE[g 2 (ε1 )] =
2
(ε1 )] + O( √1n ). Wir erhalten daher die behauptete Entwicklung
IE[(gH0 + √1n r)2 (ε1 )] = IE[gH0
2
und entsprechend als führenden Biasterm IE[(F̄n − F̂n )(y)] = −UH0 (y)(IE[gH0
(ε)])−1 √1n IE[r(ε1 )].
Die Varianz ergibt sich wie unter H0 , vgl. Lemma 6.4. Die Argumentation für die schwache
Konvergenz entspricht ebenfalls der in Lemma 6.4.
6.3
Zweites Testverfahren: EL-Test
Eine alternatives Testverfahren zu H0 : IE[g(ε)] = 0 für eindimensionale Vektoren g können wir
mit einer Empirical-Likelihood-Ratio-Teststatistik herleiten. Für den Test betrachten wir für
die beiden Mengen
P1 := {(p̂1 , . . . , p̂n ) ∈ IRn : 0 < p̂i < 1∀i = 1 . . . , n;
n
P2 := {(p̂1 , . . . , p̂n ) ∈ IR : 0 < p̂i < 1∀i = 1 . . . , n;
n
X
p̂i = 1} und
i=1
n
X
i=1
p̂i = 1,
n
X
g(ε̂i )p̂i = 0}
i=1
den Ausdruck
Qn 1
Q
1
n
Y
max(p̂1 ,...,p̂n )∈P2 { ni=1 p̂i }
1
i=1 n 1+η̂n g(ε̂i )
Qn
=
=
.
λ :=
1 n
max(p̂1 ,...,p̂n )∈P1 { i=1 p̂i }
1 + η̂n g(ε̂i )
(n)
i=1
Uns interessiert −2 log λ, also
−2 log
n
Y
i=1
n
X
1
=2
log(1 + η̂n g(ε̂i )) =: Ŵn .
1 + η̂n g(ε̂i )
i=1
Die Empirical-Likelihood-Ratio-Teststatistik ist damit Ŵn .
Nach Konstruktion des Likelihood-Ratio-Tests gilt 0 ≤ λ ≤ 1, denn die Menge P2 stellt eine
Teilmenge von P1 dar. Damit ist log λ ≤ 0 und nach Konstruktion die Teststatistik Ŵn ≥ 0.
Wenn H0 gilt, erwarten wir, dass λ nahe bei 1 liegt, bzw. wir erwarten, dass Ŵn nahe bei
Null liegt. Wir wollen die Hypothese verwerfen, wenn die Teststatistik Ŵn einen geeigneten
kritischen Wert übersteigt.
Aus Qin und Lawless (1994) Corollary 4 ist bekannt, dass unter den Annahmen aus Theorem
P
1 der gleichen Arbeit für die entsprechende Teststatistik Wn := 2 ni=1 log(1 + ηnT g(εi )) für
beobachtbare i.i.d. Daten ε1 , . . . , εn unter H0 : IE[g(ε)] = 0 Verteilungskonvergenz gegen χ2k
gilt, wobei k die Dimension von g und der χ2 −Verteilung angibt.
Ziel dieses Abschnittes ist es, eine entsprechende Aussage zur Verteilungskonvergenz für Ŵn zu
zeigen. Wir betrachten die Teststatistik unter den Szenarien H0 und Hl.a. . In der verwandten
Literatur wird für ähnliche Likelihood-Quotienten-Teststatistiken generell das Verhalten unter
116
Kapitel 6. Testverfahren
H0 und nur in manchen Arbeiten unter Hl.a. untersucht, dort fehlt die Betrachtung unter
Hf.a. . Mit den gewonnenen Resultaten scheint das Verhalten der Teststatistik unter Hf.a. nicht
kontrollierbar zu sein. Wir können Konsistenz für den ersten und dritten Test zeigen, vgl.
Abschnitte 6.2 und 6.4.
Satz 6.10. Es gelten die Voraussetzungen aus Satz 3.12, dabei sei insbesondere die Annahme
(A) von S. 19 für gH0 und r(ε) − IE[r(ε)] erfüllt, und es gilt (H1).
n
Dann gilt unter H0 die schwache Konvergenz von Ŵ
gegen eine χ21 −verteilte Zufallsvariable,
σ12
wobei
n
1X
(g(εj ) − εj IE[g1′ (ε)])
Bn1 :=
n j=1
√
mit σ12 = Var( nBn1 Σ−1/2 ) gilt.
n
gegen eine χ21 (δ22 )−verteilte Zufallsvariable,
Unter Hl.a. gilt die schwache Konvergenz von Ŵ
σ12
wobei δ22 = µ22 (σ12 )−1 gilt mit
1
Bn2 := Bn1 + √ IE[r(ε1 )],
n
√
µ2n = IE[ nBn2 Σ−1/2 ] = IE[r(ε1 )]Σ−1/2 und mit σ12 aus der Behauptung unter H0 .
Beweis zu Satz 6.10. Wir zeigen zunächst die Konvergenz unter H0 . Mit Taylorentwicklung
für log(1 + x) mit x = η̂n g(ε̂i ) 6= −1, mit der Abschätzung des Restterms durch die Ordnung
|η̂n | = OP ( √1n ) nach Lemma 3.8(i), und danach mit den Entwicklungen für η̂n aus Lemma 3.10
P
und n1 ni=1 g 2 (ε̂i ) aus Lemma 3.5(v) gilt
n 1 X
1
η̂n g(ε̂i ) − (η̂n g(ε̂i ))2 + OP √
2
n
i=1
n
n
n
n
2 X
X
X
X
−1 1
−1 1
= 2Σ
g(ε̂j )
g(ε̂j )
g 2 (ε̂i ) + oP (1)
g(ε̂i ) − Σ
n j=1
n
j=1
i=1
i=1
Ŵn = 2
n
n
2
X
1X
−1 1
g(ε̂j )
g(ε̂i ) − n Σ
g(ε̂j ) Σ + oP (1)
n j=1
n i=1
n j=1
−1 1
= 2nΣ
n
X
n
1X
g(ε̂j )
g(ε̂i ) + oP (1).
n j=1
n i=1
−1 1
= nΣ
n
X
Die letzte Gleichheit gilt, weil durch das Verrechnen der verschiedenen Σ−Terme im zweiten
Summanden sich erster und zweiter Summand bis auf einen Fehler der angegebenen Rate nur
noch durch den Vorfaktor unterscheiden.
P
Wir erhalten weiter mit der Entwicklung von n1 ni=1 g(ε̂i ) aus Lemma 3.5(ii) unter Hinzunahme
von (H1)
n
2
1 X
2
(g(εj ) − εj IE[g1′ (ε)]) Σ−1 + oP (1) = nBn1
Σ−1 + oP (1)
(6.20)
Ŵn = n
n j=1
mit Bn1 aus der Behauptung und mit
√
σ12 = Var( nBn1 Σ−1/2 ) = Σ−1 IE[(g(ε1 ) − ε1 IE[g ′ (ε1 )])2 ].
6.4 Drittes Testverfahren
117
√
Daher ist Z := nBn1 Σ−1/2 asymptotisch normalverteilt mit Erwartungswert Null und obiger
Varianz σ12 .
Wir interessieren uns für die Grenzverteilung von Ŵn bzw. den führenden Term Z 2 . Nach
Witting (1995), Satz 5.125, Seite 133 gilt für eine Zufallsvariable Z, die asymptotisch N (µ, σ 2 )verteilt ist, die Konvergenz von ( Zσ )2 gegen eine ξ12 (δ 2 )-verteilte Zufallsvariable Z0 , wobei δ 2 =
µ2 (σ 2 )−1 den Nichtzentralitätsparameter bezeichnet. Im Spezialfall µ = 0 gilt die Verteilungskonvergenz von ( Zσ )2 gegen eine χ21 -verteilte Zufallsvariable Z0 . Hier ist der Nichtzentralitätsparameter gerade Null.
Im Fall lokaler Alternativen erfolgen die Entwicklungen von Ŵn wie in der Rechnung unter
P
H0 bis vor der Verwendung der Entwicklung von n1 ni=1 g(ε̂i ) in (6.20). Dort ergibt sich, wie
in Lemma 6.7 gezeigt worden ist, eine andere Entwicklung für diesen Term, so dass Bn2 sich
um einen Biasterm von Bn1 unterscheidet und so die Veränderung von der χ2 −Verteilung
als Grenze zu einer χ2 (δ22 )−Verteilung mit Nichtzentralitätsparameter δ22 als Grenze zustande
kommt. Die Konvergenz mit dem hinzugekommenen Nichtzentralitätsparameter folgt nach den
oben genannten Resultaten ansonsten analog.
6.4
Drittes Testverfahren
Als dritte Möglichkeit untersuchen wir das Verhalten von
n
1X
g(ε̂i )
Tn =
n i=1
unter H0 , Hl.a. und Hf.a. . Die Hypothese wird im Sinne eines zweiseitigen Tests abgelehnt, wenn
die Teststatistik Tn in einen Verwerfungsbereich der Form (−∞, −c α2 )∪(c α2 , ∞) fällt, mit einem
(1 − α2 )−Quantil c α2 zu einer geeigneten symmetrischen asymptotischen Verteilung unter H0 .
Satz 6.11. Es gelte (M1), (M2), (M3), (K), (H) und Modell (1.14) aus Abschnitt 1.5, (S1) und
(S2) aus Abschnitt 2.2 und Annahme (H1) von S. 105. Annahme (A) von S. 19 gelte bezogen
auf gH0 und auf r(ε) − IE[r(ε1 )]. Die Funktion g entspreche den Annahmen (G1) und (G2)
P
aus Abschnitt 3.2. Unter H0 gilt die Entwicklung für n1 ni=1 gH0 (ε̂i ) aus Lemma 3.5(ii) unter
Beachtung von (H1) und die Verteilungskonvergenz von
n
√ 1X
n
gH0 (ε̂i )
n i=1
gegen eine zentrierte normalverteilte Zufallsvariable mit Varianz
σ12 := IE
h
′
gH0 (ε1 ) − IE[gH0
(ε1 )]ε1
2 i
.
118
Kapitel 6. Testverfahren
Unter Hl.a. gilt die Entwicklung für
die Konvergenz von
1
n
Pn
i=1
g(ε̂i ) aus Lemma 6.7 unter Beachtung von (H1) und
n
√ 1 X
n
g(ε̂i ) − µ2
n i=1
gegen eine zentrierte normalverteilte Zufallsvariable mit demselben Varianzterm σ12 wie unter
H0 und dem Bias µ2 := √1n IE[r(ε1 )].
P
Unter Hf.a. gilt stochastische Konvergenz von n1 ni=1 g(ε̂i ) gegen eine von Null verschiedene
Konstante.
Beweis zu Satz 6.11. Die beiden Entwicklungen haben wir bereits in Lemma 6.7 und Lemma
3.5(ii) gezeigt und die Biasterme gemäß (H1) angepasst. Die asymptotische Normalität folgt
unter H0 wie unter Hl.a. aus dem Zentralen Grenzwertsatz, weil wir durch die Entwicklungen
eine geeignet normierte Summe von i.i.d. Zufallsvariablen innerhalb einer deterministischen
Funktion betrachten.
P
P
Unter Hf.a. gilt die Zerlegung n1 ni=1 (gH0 (ε̂i ) + r(ε̂i )) und für n1 ni=1 gH0 (ε̂i ) die in Lemma
P
3.5(ii) angegebene Entwicklung unter Berücksichtigung von (H1). Der Term n1 ni=1 r(ε̂i ) kann
nach Zentrierung mit IE[r(ε1 )] ebenfalls mit Lemma 3.5(ii) unter Berücksichtigung von (H1)
entwickelt werden,
n
n
1X
1X
r(ε̂i ) =
(r(ε̂i ) − IE[r(ε1 )]) + IE[r(ε1 )]
n i=1
n i=1
n
1 1X
(r(εi ) − IE[r(ε1 )] − εi IE[r′ (ε1 )]) + IE[r(ε1 )] + oP √
=
n i=1
n
n
1 1X
′
=
(r(εi ) − εi IE[r (ε1 )]) + oP √ .
n i=1
n
P
Dabei konvergiert n1 ni=1 r(εi ) nach dem Starken Gesetz der Großen Zahlen fast sicher und
damit stochastisch gegen IE[r(ε1 )] = c 6= 0. Im Fall von H0 und Hl.a. ergab der entsprechende
Grenzwert zum führenden Term Null. Auf diese Weise folgt Konsistenz gegen feste Alternativen.
Symbolverzeichnis
Symbol
Bedeutung
Seite
X, Y
Zufallsvariablen
1
(Ω, A, IP)
Wahrscheinlichkeitsraum
1
f, F
Dichte, zugehörige Verteilungsfunktion
2, 2
(Xn )n∈IN , (Yn )n∈IN
Folgen von Zufallsvariablen
2
Xn → X
IP
Xn → X
fast sichere Konvergenz
2
IP−stochastische Konvergenz
2
o(·), O(·)
Landausche Symbole für reelle Zahlenfolgen
2
oP (·), OP (·)
stochastische Konvergenz und Beschränktheit
2
Fn
empirische Verteilungsfunktion
3
Gn
uniforme empirische Verteilungsfunktion
3
(X(·, t))t∈T
stochastischer Prozess mit Indexmenge T
4
B0
Brownsche Brücke
4
(IR, B)
Messraum im Fall reellwertiger Zufallsvariablen
¯
cadlag-Raum auf [0, 1] bzw. auf IR
4
4, 6
αn , αnF
uniformer empirischer, empirischer Prozess
5, 6
kf k
Supremumsnorm zu f
5
Pn
empirisches Maß
8
kϕkP,r
Lr (P )-Norm zu ϕ
9
VC-Index zu einer Menge C von Mengen
12
Cδ1+α [0, 1]
bestimmte Funktionenklasse
13
fX , fˆX
Designdichte, Kerndichteschätzer zu fX
14
K
Kernfunktion
14, 17
Xi
ite Designvariable (i = 1, . . . , n)
15
Yi
ite Zielgrößenvariable (i = 1, . . . , n)
15
εi
ite Fehlervariable (i = 1, . . . , n)
15
m
Regressionsfunktion
15
n
Stichprobengröße
15
f.s.
D([0, 1]), D([−∞, ∞])
V (C)
119
120
Symbol
Bedeutung
Seite
ε̂i
ites Residuum zu Modell (1.14) bzw. (1.18)
16, 18
m̂
Nadaraya-Watson-Schätzer für m
16
F̂n
Empirische Verteilungsfunktion bzgl. Residuen
17
h
Bandbreite
17
Fehlervarianz, Varianzfunktion
16, 17
σ̂ 2
Schätzer zur Varianzfunktion
18
g
bekannte Funktion zur Nebeninformation
19
J
Zielfunktion
20
σ
2
b, B; b1 ; b̄ Bias, Faktor im Bias; Bias; Biasterme
R
µK
Kurznotation für K(u)u2 du
2
21; 30; 61, 64, 82, 84
21
G; Ḡ
zentrierte Gaußprozesse als Grenzprozesse
21; 61, 82
F̃n ; Fn∗
Empirical-Likelihood-Schätzer
39, 42; 45
L, l
Likelihood, Loglikelihood
39, 40
p1 , . . . , pn Gewichte
39
Bn
Menge zugelassener Gewichte p1 , . . . , pn
40
ηn , λn
Lagrange-Multiplikatoren
41
Dk
Menge, in der ηn liegt
42
p̂1 , . . . , p̂n Gewichte bzgl. Residuen
43
B̂n
Menge zugelassener Gewichte p̂1 , . . . , p̂n
43
F̄n
Empirical-Likelihood-Schätzer bzgl. Residuen
43
η̂n
Lagrange-Multiplikator bzgl. Residuen
43
D̂k
Menge, in der η̂n liegt
44
Σ
Kovarianzmatrix
44
U (y)
59
hj , kj
IE[g(ε1 )I{ε1 ≤ y}]
Hilfsfunktionen
66, 86
β1 , β2
Biasterme
80
mse, mse
mittlerer quadratischer Fehler
91, 92
MISE
mittlerer integrierter quadratischer Fehler
102
c
Konstante zur Wahl der Bandbreite
102
SKS
Kolmogorov-Smirnov-Teststatistik
106
SCvM
Cramér-von-Mises-Teststatistik
106
H0 , H1
(Null)hypothese, Alternative
106
Hl.a. , Hf.a lokale Alternative, feste Alternative
106, 107
Ŵn , Tn
115, 117
Teststatistiken
Literaturverzeichnis
M. Akritas, I. Van Keilegom (2001). Nonparametric estimation of the residual distribution. Scand. J. Statist. 28, 549–567.
H. Bonnal, E. Renault (2004). On the Efficient Use of the Informational Content
of Estimating Equations: Implied Probabilities and Euclidean Empirical Likelihood.
Technical report. http://ideas.repec.org/p/cir/cirwor/2004s-18.html
F. Cheng (2002). Consistency of error density and distribution function estimators in
nonparametric regression. Statist. Probab. Lett. 59, 257–270.
F. Cheng (2004). Weak and strong uniform consistency of a kernel error density estimator in nonparametric regression. J. Statist. Plann. Inf. 119, 95–107.
F. Cheng (2005). Asymptotic distributions of error density and distribution function estimators in nonparametric regression. J. Statist. Plann. Inf. 129, 327–349.
H. Dette, I. Van Keilegom (2005). A new test for the parametric form of the variance
function in nonparametric regression. Technical report.
http://www.rub.de/mathematik3/preprint.htm
M. D. Donsker (1952). Justification and extension of Doob’s heuristic approach to the
Kolmogorov–Smirnov theorems. Ann. Math. Statist. 23, 277–281.
T. DiCiccio, J. P. Romano (1989). On adjustments based on the signed root of the empirical likelihood ratio statistic. Biometrika 76, 447–456.
T. DiCiccio, P. Hall, J.P. Romano (1989). Comparison of parametric and empirical
likelihood functions. Biometrika 76, 465–476.
T. DiCiccio, P. Hall, J.P. Romano (1991). Empirical likelihood is Bartlett-correctable. Annals of Statistics 19, 1053–1061.
J.H.J. Einmahl, I.W. McKeague (2003). Empirical likelihood based hypothesis testing.
Bernoulli 9, 267–290.
S. Evromovich (2005). Estimation of the density of regression errors. Ann. Statist. 33,
No. 5, 2194 – 2227.
M. Ezekiel (1930). Methods of Correlation Analysis. Wiley.
J. Fan, I. Gijbels (1996). Local Polynomial Modelling and Its Applications. Chapman &
Hall, London.
121
122
M. Genz (2004). Anwendungen des Empirischen Likelihood-Schätzers der Fehlerverteilung in AR(1)-Prozessen. Dissertation, Justus-Liebig-Universität Gießen.
http://geb.uni-giessen.de/geb/volltexte/2005/2069/pdf/GenzMichael-2004-1203.pdf
M. Genz, E. Häusler (2006). Empirical processes with estimated parameters under
auxiliary information. J. Comput. Appl. Math. 183, 191 – 216.
W. Härdle (1990). Applied nonparametric regression. Cambridge Univ. Press.
W. Härdle, M. Müller, S. Sperlich, A. Werwatz (2004). Nonparametric and semiparametric models. Springer, Berlin.
P. Hall, B. LaScala (1990). Methodology and algorithms of empirical likelihood. Internat. Statist. Rev. 58, 109–127.
P. Hall (1990). Pseudo-likelihood Theory for Empirical Likelihood. Ann. Statist. 18, 121–
140.
E. Hewitt und K. Stromberg (1969). Real and Abstract Analysis. Springer Verlag,
New York. 2. korrigierter Druck.
Y. Kitamura (1997). Empirical Likelihood Methods with weakly dependent processes.
Ann. Statist. 25, 2084–2102.
Y. Kitamura (2001). Asymptotic optimality of empirical likelihood for testing moment
restrictions. Econometrica 69, 1661–1672.
Y. Kitamura, G. Tripathi, H. Ahn (2004). Empirical likelihood-based inference in
conditional moment restriction models. Econometrica 72, 1667–1714.
H. L. Koul (2002). Weighted Empirical Processes in Dynamic Nonlinear Models, 2. Auflage. Springer, New York.
U. Müller, A. Schick, W. Wefelmeyer (2004a). Estimating linear functionals of the
error distribution in nonparametric regression. J. Statist. Planning Inf. 119, 75–93.
U. Müller, A. Schick, W. Wefelmeyer (2004b). Estimating functionals of the error
distribution in parametric and nonparametric regression. J. Nonparam. Statist. 16,
525–548.
U. Müller, A. Schick, W. Wefelmeyer (2004c). Estimating the error distribution
function in nonparametric regression. Technical report,
http://www.mi.uni-koeln.de/∼wefelm/preprints.html
U. Müller, A. Schick, W. Wefelmeyer (2006). Estimating the error distribution function in semiparametric regression. Preprint,
http://www.stat.tamu.edu/∼uschi/research/research.html
É. A. Nadaraya (1964). On nonparametric estimates of density functions and regression
curves. J. Probab. Appl. 10, 186–190.
123
E.-R. Nagel (2002). Der Empirical-Likelihood-Schätzer für die Fehlerverteilung im linearen Regressionsmodell. Diplomarbeit, Betreuer: E. Häusler, Justus-Liebig-Universität
Gießen.
N. Neumeyer, H. Dette (2003). Nonparametric comparison of regression curves: an
empirical process approach. Ann. Stat. 31, Nr. 3, S. 880–920.
N. Neumeyer, H. Dette (2004). Testing for symmetric error distribution in nonparametric regression errors. Statistica Sinica, angenommen.
http://www.rub.de/mathematik3/preprint.htm
N. Neumeyer, H. Dette (2005). A note on one-sided nonparametric analysis of covariance by ranking residuals. Math. Methods Statist. 14, 80–104.
A. B. Owen (1988). Empirical Likelihood ratio confidence intervals for a single functional. Biometrika 75, 2, 237–249.
A. B. Owen (2001). Empirical Likelihood. Chapman & Hall/CRC.
J. C. Pardo-Fernández, I. Van Keilegom, W. González-Manteiga (2004).
Comparison of regression curves based on the estimation of the error distribution.
Discussion Paper 0416. Institut de Statistique (Université catholique de Louvain),
Louvain-la-Neuve.
J. C. Pardo-Fernández (2006). Comparison of error distributions in nonparametric regression. Statist. Probab. Lett., angenommen.
E. Parzen (1962). On estimation of a probability density function and mode. Ann. Math.
Statist. 35, 1065–1076.
D. Pollard (1984). Convergence of Stochastic Processes. Springer Verlag, New York.
W. Press, S. A. Teukolsky, W. T. Vetterling, B. P. Flannery (2002). Numerical
Recipes in C++, The Art of Scientific Computing. Cambridge University Press, 2.
Ausgabe.
J. Qin, J. Lawless (1994). Empirical likelihood and general estimating equations. Ann.
Statist. 22, 300–325.
G. Qin (1996). Consistent Residuals Density Estimation in Nonparametric Regression
Under m(n)-Dependent Sample. J. Math. Res. Exposition 16, 1996, No 4, 5005–516.
G. Qin, S. Shi, G. Chai (1996). Asymptotics of the residual density estimation in nonparametric regression under m(n)-dependence. Appl. Math. J. Chinese Univ. Ser. B
11, 1996, No 1, 59–76.
M. Rosenblatt (1956). Remarks on a some nonparametric estimates of a density function. Ann. Statist. 27, 832–837.
G. R. Shorack, J. A. Wellner (1986). Empirical processes with applications to statistics. Wiley, New York.
124
G. R. Shorack (2000). Probability for statisticians. Springer texts in statistics. Springer
Verlag, New York.
A. W. Van der Vaart (1998). Asymptotic Statistics. Cambridge University Press, Cambridge.
A. W. Van der Vaart, J. A. Wellner (1996). Weak convergence and empirical processes. Springer, New York.
I. Van Keilegom, W. González–Manteiga, C. Sánchez Sellero (2004). Goodnessof-fit tests in parametric regression based on estimation the error distribution. Preprint. Institut de Statistique (Université catholique de Louvain), Louvain-la-Neuve.
V. N. Vapnik, A. Ya. C̆ervonenkis (1971). On uniform convergence of the frequencies
of events to their probabilities. Th. Prob. Appl. 16, 264–280.
V. N. Vapnik, A. Ya. C̆ervonenkis (1981). Necessary and sufficient conditions for the
uniform convergence of means to their expectations. Th. Prob. Appl. 26, 532–533.
M. P. Wand, M. C. Jones (1995). Kernel Smoothing. Chapman & Hall, London.
G. S. Watson (1964). Smooth Regression Analysis. Sankhya A 26, 359–372.
H. Witting (1995). Mathematische Statistik II. B. G. Teubner, Stuttgart.
B. Zhang (1997). Estimating a distribution function in the presence of auxiliary information. Metrika 46, 221–244.
Danksagung
Mein erster Dank gilt Frau Jun.-Prof. Dr. Natalie Neumeyer für ihre ausgezeichnete fachliche Betreuung bei der Entstehung dieser Arbeit. Herrn Prof. Dr. Holger Dette danke ich für
wichtige Anregungen und seine stetige Unterstützung. Außerdem möchte ich mich bei meinen
Kolleginnen und Kollegen für ihre Hilfsbereitschaft bedanken. Nicht zuletzt geht mein Dank
für ihre Unterstützung an meine Familie, meinen Freund und meine Freunde in und außerhalb
von Bochum.
125
126
Dissertation eingereicht am 21. November 2006
Gutachter: Prof. Dr. H. Dette (Ruhr-Universität Bochum)
Jun.-Prof. Dr. N. Neumeyer (Universität Hamburg)
Mündliche Prüfung am 31. Januar 2007
Lebenslauf
Persönliche Daten
Name
Eva-Renate Nagel
Geburtsdatum
08.10.1977
Geburtsort
Lich
Ausbildung
1983 - 1987
Theodor-Heuss-Grundschule Laubach
1987 - 1993
Gesamtschule Laubach, gymnasialer Zweig
1993 - 1996
Laubach-Kolleg der EKHN, gymnasiale Oberstufe
13.06.1996
Abitur
1996 - 2002
Diplomstudiengang Mathematik an der Justus-LiebigUniversität Gießen
Feb. - August 1999
Studienaufenthalt an der Università
degli Studi La Sapienza, Rom
20.12.2002
Diplom in Mathematik
Beschäftigung
Feb. 2003 - März 2006, Wissenschaftliche Mitarbeiterin an der Fakultät für
seit Oktober 2006
Mathematik, Ruhr-Universität Bochum
April - Sep. 2006
Stipendiatin der Wilhelm und Günter Esser Stiftung
127
Zugehörige Unterlagen
Herunterladen