Empirical-Likelihood-Schätzung der Fehlerverteilung im nichtparametrischen Regressionsmodell Eva-Renate Nagel Dissertation zur Erlangung des Doktorgrades der Naturwissenschaften an der Fakultät für Mathematik der Ruhr-Universität Bochum 2006 Inhaltsverzeichnis Einleitung III 1 Grundlagen 1.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Bezeichnungen . . . . . . . . . . . . . . . . . . . . . . 1.3 Stochastische und empirische Prozesse . . . . . . . . 1.4 Kerndichteschätzer . . . . . . . . . . . . . . . . . . . 1.5 Regressionsmodelle . . . . . . . . . . . . . . . . . . . 1.5.1 Homoskedastisches Regressionsmodell . . . . . 1.5.2 Heteroskedastisches Regressionsmodell . . . . 1.6 Zusatzinformation . . . . . . . . . . . . . . . . . . . . 1.7 Verwandte Arbeiten . . . . . . . . . . . . . . . . . . . 1.7.1 Literaturübersicht . . . . . . . . . . . . . . . . 1.7.2 Prozess aus Akritas und Van Keilegom (2001) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 14 15 15 17 18 19 19 20 2 Empirical Likelihood 37 2.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2 Herleitung des Schätzers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.3 Vergleich mit vorausgegangenen Arbeiten . . . . . . . . . . . . . . . . . . . . . . 45 3 Untersuchung des Schätzers im homoskedastischen Modell 3.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Hilfsresultate . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Hauptresultate . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Modellspezifische Details zum Empirical-Likelihood-Verfahren 4 Untersuchung des Schätzers im heteroskedastischen Modell 4.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Hilfsresultate . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Hauptresultate . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Modellspezifische Details zum Empirical-Likelihood-Verfahren I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 47 48 50 58 65 . . . . . 73 73 74 76 77 85 II 5 Beispiele und Simulation 91 5.1 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5.2 Simulationsstudie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6 Testverfahren 6.1 Einleitung . . . . . . . . . . . . . . . . . . 6.2 Erstes Testverfahren . . . . . . . . . . . . 6.2.1 Idee . . . . . . . . . . . . . . . . . 6.2.2 Asymptotisches Verhalten unter H0 6.2.3 Untersuchung bei fester Alternative 6.2.4 Untersuchung lokaler Alternativen . 6.3 Zweites Testverfahren: EL-Test . . . . . . 6.4 Drittes Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 . 105 . 106 . 106 . 107 . 108 . 112 . 115 . 117 Symbolverzeichnis 119 Literaturverzeichnis 120 Einleitung Einführung 120 100 80 60 dist 0 20 40 60 0 20 40 dist 80 100 120 In der Statistik ist der Zusammenhang zwischen verschiedenen Einflussgrößen und einer Zielgröße von großem Interesse. Als einfache Beispiele betrachten wir den Zusammenhang zwischen dem monatlichen Einkommen eines Haushalts und seinen Ausgaben für bestimmte Lebensmittel, oder auch den Zusammenhang zwischen dem Alter eines Patienten und seinem Blutdruck. Wir stellen exemplarisch einen Datensatz vor, bei dem in den 1920er Jahren bei 50 Kraftfahrzeugen ihre Geschwindigkeit und ihr Bremsweg gemessen wurde. In Abb. 1 wird der Bremsweg als Zielgröße der Einflussgröße Geschwindigkeit gezeichnet und eine nichtparametrische Schätzung der Regressionskurve, also des Einflusses der Geschwindigkeit auf den Bremsweg, hinzugefügt. Der Datensatz findet sich in Ezekiel (1930). 5 10 15 20 25 5 speed 10 15 20 25 speed Abbildung 1: In beiden Abbildungen wird die Geschwindigkeit (in mph) auf der x-Achse und der zugehörige Bremsweg (in ft) auf der y-Achse von 50 Kraftfahrzeugen gegenübergestellt. Die Messungen werden im rechten Bild durch eine nichtparametrische Schätzung der unbekannten Regressionsfunktion ergänzt. Der funktionale Zusammenhang wird nicht direkt beobachtet, denn er wird durch Messfehler und andere nicht genauer betrachtete Einflüsse verzerrt. Daher wird im Modell eine Störung durch einen additiven Fehler berücksichtigt. In dieser Arbeit liegt das Interesse nicht nur in der Schätzung des funktionalen Zusammenhangs, der in erster Linie durch die sogenannte Regressionsfunktion modelliert wird, sondern vor allem auf der Untersuchung des Fehlers und III IV dessen Verteilung. Eine möglichst genaue Schätzung der Fehlerverteilung wird unter anderem gebraucht, um ein nichtparametrisches Konfidenzintervall (prediction interval) für die Werte der Regressionsfunktion anzugeben, oder bei Goodness-of-Fit-Tests, vergleiche Akritas und Van Keilegom (2001). Könnten wir die Fehler selbst beobachten, könnten wir direkt aus den Fehlern ihre Verteilung schätzen. In diesem Fall wäre der Zusammenhang zwischen Einflussund Zielgröße für die Schätzung irrelevant. Da aber nur Einfluss- und Zielgröße beobachtet werden, müssen wir die Fehler mithilfe eines Schätzers für die Regressionsfunktion aus den beobachteten Einfluss- und Zielgrößen schätzen. Vor Beginn der Regressionsschätzung gibt es die Möglichkeit, sich durch die Wahl eines bestimmten Modells auf spezielle Abhängigkeiten zwischen Einfluss- und Zielgröße einzuschränken. Dies geschieht bei jeder Annahme eines parametrischen Modells wie z. B. des linearen Regressionsmodells. Kritisch ist dieses Vorgehen, wenn nicht sichergestellt ist, dass die wahre Funktion überhaupt diesem Modell entspricht. Wenn der aus der Klasse gewählte Schätzer also prinzipiell der wahren Funktion nicht ausreichend ähnlich sein kann, ist mit fehlerbehafteten Resultaten zu rechnen. Im Zusammenhang mit dieser Problematik wurden nichtparametrische Regressionsmodelle entwickelt, welche minimale Annahmen an die Form der Regressionskurve stellen, um grundlegende falsche Spezifikationen zu vermeiden. Den Untersuchungen liegen Realisierungen n unabhängiger Zufallsvariablen (Xi , Yi ) (i = 1, . . . , n) zugrunde, wobei Xi und Yi jeweils eindimensional sind. Den funktionalen Zusammenhang zwischen der Einflussgröße Xi und der reellen Zielgröße Yi (i = 1, . . . , n) modellieren wir durch ein nichtparametrisches Regressionsmodell. Die Einflussgrößen beobachten wir nach Annahme direkt, sie besitzen eine positive Dichte auf einem kompakten Träger (wir wählen das Intervall [0, 1] o.B.d.A.). Die Daten Yi verstehen wir als Beobachtungen, die zu den speziellen Werten Xi erhoben wurden. Messfehler und nicht beobachtbare Einflüsse auf die Daten Yi werden durch einen zufälligen eindimensionalen Fehler εi dargestellt, der innerhalb des Modells eine additive Störung darstellt. Für das nichtparametrische Modell gibt es zwei Ausprägungen, das homoskedastische Regressionsmodell und das heteroskedastische Regressionsmodell. Zunächst betrachten wir das homoskedastische Modell Yi = m(Xi ) + εi (i = 1, . . . , n) (1) unter der Annahme der stochastischen Unabhängigkeit des Fehlers εi und der Einflussgröße Xi (i = 1, . . . , n). Die Fehler ε1 , . . . , εn sind in beiden beschriebenen Modellen unabhängig und identisch verteilt mit Erwartungswert Null. Wenn eine These, dass die Fehler normalverteilt sind oder einer anderen näher spezifizierten Verteilung folgen, nicht bestätigt werden kann, ist es empfehlenswert, von einer solchen Annahme Abstand zu nehmen und entsprechend diese Verteilung ohne parametrische Einschränkungen zu schätzen. Den funktionalen Zusammenhang zwischen Xi und Yi modellieren wir mit der unbekannten Regressionsfunktion m(x) = IE[Yi |Xi = x]. Mithilfe eines Schätzers m̂ für m berechnen wir eine Annäherung für Einleitung V den nicht beobachtbaren Fehler, das Residuum ε̂i = Yi − m̂(Xi ) (i = 1, . . . , n). Diese Residuen sind nun der Ausgangspunkt für die Schätzung der Fehlerverteilung. 8 6 Frequency 1 het_residuals 0 20 0 −20 −1 2 4 0 residuals 10 40 2 12 14 60 Histogram of het_residuals 0 10 20 30 k 40 50 0 10 20 30 40 50 k −2 −1 0 1 2 3 het_residuals Abbildung 2: Für den Datensatz aus Abb. 1 wird im linken Bild die Differenz aus Bremsweg und geschätzter Regressionsfunktion für jede der 50 Messungen dargestellt. Im mittleren Bild sind die Differenzen zusätzlich standardisiert, dies entspricht Residuen ε̂1 , . . . , ε̂n zum Modell (2). Das Histogramm im rechten Bild vermittelt einen Eindruck von der Häufigkeit gewisser Größenordnungen bei dem im mittleren Bild dargestellten Residuensatz. Außerdem untersuchen wir die Schätzung der Fehlerverteilung im sogenannten heteroskedastischen Modell Yi = m(Xi ) + σ(Xi )εi (i = 1, . . . , n). (2) Hier kann die Zielgröße abzüglich der Regressionsfunktion m(Xi ) immer noch explizit von Xi so abhängen, dass die gesamte Abhängigkeit des zweiten Summanden von Xi durch den Faktor σ(Xi ) ausgedrückt wird und der restliche Fehler εi von Xi stochastisch unabhängig ist. Der Faktor σ 2 (x) = Var(Yi |Xi = x) bezeichnet die unbekannte bedingte Varianz der Zielgröße Yi , wobei bezüglich der gegebenen Einflussgröße Xi bedingt wird. Bei den Funktionen m und σ setzen wir nur die zweimal stetige Differenzierbarkeit im Intervall (0, 1) voraus. Mithilfe von Schätzern m̂ für m und σ̂ für σ konstruieren wir ähnlich wie im homoskedastischen Modell m̂(Xi ) (i = 1, . . . , n) als Schätzer für den Fehler εi . Damit erklärt sich der Residuen ε̂i = Yi − σ̂(Xi ) Begriff der Homoskedastizität im Gegensatz zur Heteroskedastizität so, dass im ersten Fall die Streuung bezüglich der Einflussgröße konstant ist. In Abb. 2 betrachten wir weiter die Daten aus Abb. 1. In der linken Graphik werden die Differenzen aus Bremsweg und nach dem Schätzer der Regressionsfunktion erwarteten Bremsweg dargestellt. Weil diese Differenzen noch von der Einflussgröße abhängig sind, zeichnen wir in der mittleren Graphik die aus den Daten errechneten Residuen bezüglich des heteroskedastischen Regressionsmodells nach Bereinigung der von X abhängigen Streuung. In der rechten Graphik wird deutlich, wie häufig diese Residuen ε̂ in einer gewissen Größe in diesem Beispiel auftreten. Schätzungen in nichtparametrischen Modellen sind in den letzten Jahrzehnten intensiv erforscht worden. Ein Überblick über die nichtparametrische Regression findet sich in Härdle (1990), Fan VI und Gijbels (1996) und Härdle et al. (2004). Generell ist in der Statistik das Schätzen von Verteilungsfunktionen eine wichtige Fragestellung. Wir betrachten Realisierungen von unabhängig und identisch gemäß der Verteilungsfunktion F verteilten Zufallsvariablen ε1 , . . . , εn . Die Verteilungsfunktion zu einer reellwertigen Zufallsvariablen ε ist eine Abbildung F : IR → [0, 1]. Der Wert F (y) = IP(ε ≤ y) gibt die Wahrscheinlichkeit an, mit der sich ε in einem Wert kleiner gleich y realisiert. Eine Verteilungsfunktion ist daher monoton wachsend und rechtsseitig stetig, und es gilt limy→−∞ F (y) = 0 und limy→∞ F (y) = 1. Wir stellen hier einen grundlegenden Ansatz zum Schätzen einer Verteilungsfunktion vor. In parametrischen Zusammenhängen stellt das Likelihoodverfahren ein wichtiges Konzept dar: Parametrische Likelihoodverfahren dienen der Schätzung von Verteilungen, die bis auf eine endliche Anzahl an Parametern bekannt sind bzw. als bekannt vorausgesetzt werden. Empirical-Likelihood-Verfahren stellen eine Fortentwicklung der parametrischen Likelihoodverfahren dar. Als Anfangspunkt für dieses Verfahren kann die Arbeit von Owen (1988) bezeichnet werden. Grundlage des Empirical-Likelihood-Verfahrens ist die Idee, dass die empirische Verteilungsfunktion n 1X Fn (y) = I{εi ≤ y} (3) n i=1 Q den Ausdruck L(F̃ ) = ni=1 (F̃ (εi ) − F̃ (εi −)) über alle Verteilungsfunktionen F̃ maximiert. Dabei bezeichnet F̃ (εi −) den linksseitigen Grenzwert der Funktion F̃ im Punkt εi . Die normierte Funktion Fn an der Stelle y zählt die Realisierungen unterhalb von y aus n Daten; damit ist Fn eine Treppenfunktion mit Sprüngen der Höhe 1/n pro Datum und dient als ein erster Schätzer für eine Verteilungsfunktion. Grundlegende Ergebnisse von Donsker (1952) zei√ gen schwache Konvergenz des empirischen Prozesses n(Fn − F ) mit Fn aus (3) gegen eine Brownsche Brücke B mit Kovarianzstruktur Cov(B(y), B(z)) = F (y ∧ z) − F (y)F (z). Als Verallgemeinerung ist der Empirical-Likelihood-Schätzer zu verstehen, er maximiert L(F̃ ) unter Nebenbedingungen. Überblick über Literatur Unter Annahme von Zusatzinformationen wie etwa einem bekannten Erwartungswert und einer bekannten Varianz wird der Schätzer modifiziert, indem die Maximierung von L(F̃ ) über alle Verteilungsfunktionen F̃ durchgeführt wird, für welche eine entsprechende Nebenbedingung gilt. In der Arbeit von Qin und Lawless (1994) wird das Verfahren von Owen (1988) verallgemeinert. Es werden Daten zu unabhängig und identisch verteilten Zufallsvariablen erhoben, wobei Teilinformationen über die zugrunde liegende ansonsten unbekannte Verteilungsfunktion in der Form von sogenannten Schätzfunktionen g(ε, ϑ) = (g1 (ε, ϑ), . . . , gr (ε, ϑ)) mit IEF [g(ε, ϑ)] = 0 vorliegen. Wir betrachten unabhängige und identisch bezüglich der Verteilungsfunktion F verteilte d-dimensionale Zufallsvariablen ε1 , . . . , εn und einen p-dimensionalen Parameter ϑ zur Verteilung F sowie eine r-dimensionale Nebeninformation g(ε, ϑ) (r ≥ p). Die Existenz eines Einleitung VII Parameters ϑ werden wir im Folgenden nicht voraussetzen. Ein Beispiel für eine solche Nebeninformation ist die Kenntnis des Erwartungswerts zu der Verteilung: Für diese Nebeninformation hängt g nicht von ϑ ab, und g besteht aus einer Komponente. Wir konstruieren g(ε) = ε mit IE[g(ε1 )] = IE[ε1 ] = 0. Durch Maximierung von L(F̃ ) unter den in g formalisierten Nebenbedingungen erhalten wir den Empirical-Likelihood-Schätzer F̃n für die Verteilungsfunktion F . Für beobachtbare Zufallsvariablen ε1 , . . . , εn ist F̃n unabhängig von einer sonstigen Modellwahl von analoger Gestalt wie der in dieser Arbeit betrachtete Schätzer unter Verwendung der wahren Fehler anstelle der Residuen. Die Funktion F̃n ist eine Treppenfunktion wie Fn , allerdings sind hier nicht alle Gewichte gleich 1/n, sondern werden in Abhängigkeit von der vorliegenden Zusatzinformation modifiziert. Qin und Lawless (1994) zeigen die schwache Konvergenz √ des stochastischen Prozesses n(F̃n (y) − F (y)), y ∈ IR, gegen einen zentrierten Gaußprozess mit Kovarianz F (y ∧ z) − F (y)F (z) − U (y)U (z)σ −2 mit U (y) = IE[g(εi )I{εi < y}], wenn der Parameter ϑ nulldimensional gewählt wird: ohne Nebeninformation resultiert dies in der asymptotischen Varianz F (y)(1 − F (y)). Das bedeutet, dass das Empirical-Likelihood-Verfahren für U (y) und die Fehlervarianz σ 2 ungleich Null zu einer eindeutigen Verbesserung der Schätzung, d.h. einer kleineren Varianz F (y)(1 − F (y)) − U 2 (y)σ −2 führt. In den vergangenen Jahrzehnten konzentrierte sich die Forschung vor allem auf die nichtparametrische Schätzung der Regressionsfunktion m und der Varianz IE[ε21 ] = σ 2 im homoskedastischen Modell bzw. auf die nichtparametrische Schätzung der Regressionsfunktion m und der Varianzfunktion σ 2 (X) im heteroskedastischen Modell und zugehörige Hypothesentests. Erst jüngeren Datums sind asymptotische Resultate zu möglichen Schätzern der Verteilung der nicht beobachtbaren Fehler ε1 , . . . , εn . Die empirische Verteilungsfunktion der geschätzten Fehler wurde in aktuellen Arbeiten bei Goodness-of-Fit-Tests bezüglich der Regressions- oder Varianzfunktion weiterverwendet. Dazu vergleiche Pardo-Fernández, Van Keilegom und González-Manteiga (2004) oder Neumeyer und Dette (2005). In der Arbeit von Akritas und Van Keilegom (2001) wurde die Asymptotik zur empirischen Verteilungsfunktion n 1X I{εˆi ≤ y} (4) F̂n (y) = n i=1 der aus dem nichtparametrischen Modell geschätzten Residuen untersucht. Diese Autoren zeigen unter bestimmten Annahmen an die Regressionsfunktion m und die Varianzfunktion σ 2 und die entsprechenden Schätzer die schwache Konvergenz des empirischen Prozesses √ n(F̂n (y) − F (y)), y ∈ IR (5) gegen einen Gaußprozess mit einer komplexen Kovarianzstruktur, die insbesondere von der unbekannten Fehlerverteilungsfunktion und der unbekannten Dichte abhängt. Der Prozess hat je nach Wahl der Konvergenzgeschwindigkeit der Bandbreite auch einen von Null verschiedenen Bias. Müller, Schick und Wefelmeyer (2004) und Cheng (2005) betrachten geglättete Versionen von (4). VIII Fragestellung Die vorliegende Arbeit beschäftigt sich mit der Anwendung des Empirical-Likelihood-Verfahrens auf die Schätzung der Fehlerverteilung basierend auf Residuen des nichtparametrischen Regressionsmodells. Ein erster Schätzer für die unbekannte Verteilungsfunktion des Fehlers ohne Verwendung von Zusatzinformationen ist die empirische Verteilungsfunktion F̂n aus (4) der Residuen des homoskedastischen oder des heteroskedastischen Regressionsmodells analog zur empirischen Verteilungsfunktion der wahren Fehler in (3). Dieser Schätzer wurde in der Arbeit von Akritas und Van Keilegom (2001) eingehend untersucht. In der vorliegenden Arbeit berücksichtigen wir Zusatzinformationen über die Fehlerverteilung im Regressionsmodell explizit in der Konstruktion der Schätzer. Dabei untersuchen wir insbesondere den Empirical-LikelihoodSchätzer für die Verteilungsfunktion der Fehler n F̄n (y) = 1 X 1 I{εˆi ≤ y}, n i=1 1 + η̂nT g(ε̂i ) (6) wobei der Vektor η̂n als Lösung der Gleichung n X i=1 g(ε̂i ) =0 1 + η̂nT g(ε̂i ) (7) definiert ist. Das Empirical-Likelihood-Verfahren berücksichtigt Zusatzinformationen über die zu schätzende Fehlerverteilung in der Form bekannter Funktionen, sogenannter Schätzfunktionen g = (g1 , . . . , gk ) : IR → IRk mit der Eigenschaft IE[g(ε1 )] = 0, für die IE[gj2 (ε1 )] < ∞ für alle j = 1, . . . , k gilt. Wir betrachten dabei zwei Klassen von Schätzfunktionen. Die erste Klasse umfasst stetig differenzierbare Funktionen g, die gewisse Annahmen erfüllen. Als Beispiel aus der ersten Klasse können wir etwa die modelleigene Annahme der Zentriertheit der Fehler darstellen, sie lautet g(ε) = ε. Ein weiteres Beispiel für eine Zusatzinformation ist die Bekanntheit der Varianz des Fehlers mit der zugehörigen Schätzfunktion g(ε) = ε2 − σ 2 . Eine Kombination der beiden genannten Beispiele bildet eine dritte Möglichkeit mit g(ε) = (ε, ε2 − σ 2 )T . Die zweite Klasse enthält eindimensionale Funktionen g(ε) = I{ε ≤ a} − b mit Konstanten a und b = F (y) ∈ / {0, 1}, mit der wir unter anderem Informationen über die Quantile (z.B. über den Median) beschreiben können. Das Kernstück der mathematischen Analyse ist der Nachweis eines funktionalen Grenzwertsatzes für den empirischen Prozess √ n(F̄n (y) − F (y)), y ∈ IR (8) für Residuen aus dem homoskedastischen Modell oder dem heteroskedastischen Modell und für jeweils einen bestimmten Typ von Schätzfunktionen g. In dieser Arbeit zeigen wir jeweils die schwache Konvergenz gegen einen Gaußprozess unter Angabe der entsprechenden Kovarianzfunktion. Einleitung IX Nach der asymptotischen Untersuchung des Empirical-Likelihood-Schätzers beantworten wir die Frage, ob die Schätzung der unbekannten Fehlerverteilung durch die Einbeziehung von Zusatzinformationen allgemein und in speziellen Beispielen verbessert wird und in welchem Maß. Zum Vergleich ziehen wir den bei Akritas und Van Keilegom (2001) untersuchten Schätzer F̂n aus (4) heran. Grundsätzlich ist bei der Verwendung von mehr Information eine bessere Schätzung zu erwarten; die Verbesserungen quantifizieren wir im einzelnen. Tatsächlich erhalten wir als Konsequenz der Veränderungen in den stochastischen Entwicklungen zu F̄n verglichen mit denen zu F̂n auch Änderungen im asymptotischen Bias und der komplexen asymptotischen Varianz, die sich in vielen Beispielen an merklichen Verbesserungen hinsichtlich einer oder beider Größen niederschlagen. Wir diskutieren diese Veränderungen anhand einzelner Beispiele. Zur Veranschaulichung dieser Resultate ergänzen wir die asymptotischen Resultate durch Computer-Simulationen für eine Auswahl von Beispielen. In den Simulationen untersuchen wir das Verhalten verschiedener konkreter Zusatzinformationen bei unterschiedlichen wahren Fehlerverteilungen und Regressionsfunktionen. In dieser Arbeit wird erstmals für dieses Regressionsmodell ein Schätzer für die Fehlerverteilung untersucht, dessen Gestalt explizit Zusatzinformationen berücksichtigt, wobei die verwendbaren Zusatzinformationen zum Teil bereits Teil der Modellannahmen oder leicht zugänglich sind und deren Verwendung sich daher empfiehlt. Wir gehen an dieser Stelle noch auf die Plausibilität von Zusatzinformationen ein. Die Formalisierung der Zusatzinformationen erfolgt in Annahme (A) auf Seite 19. Dass in Anwendungen über Zusatzinformationen verfügt wird, ergibt sich aus der Tatsache, dass viele Studien mit sehr ähnlichem Aufbau wiederholt werden. Unser Verfahren ermöglicht es, gesicherte Informationen aus vorausgegangenen Studien in die neue Studie einzubinden und damit für eine Verbesserung der Schätzung zu nutzen. Im Fall der Unsicherheit, ob tatsächlich eine mögliche Zusatzinformation gilt, kann vor der Schätzung auf die Gültigkeit der Zusatzinformation getestet werden. Wir stellen in Kapitel 6 eine Reihe von Verfahren dazu vor. Zum Abschluss dieses Überblicks werden die beiden folgenden Anwendungsgebiete gesondert herausgestellt. Nach Akritas und Van Keilegom (2001) können konsistente Schätzer für Regressionsfunktion und Fehlerverteilung zur Konstruktion von Vorhersageintervallen h α α i , m̂(x) + F̂ −1 1 − m̂(x) + F̂ −1 h 2 2 α i −1 α −1 bzw. m̂(x) + σ̂(x)F̂ , m̂(x) + σ̂(x)F̂ 1− 2 2 für zukünftige Beobachtungen an einer festen Stelle x ∈ [0, 1] zum Niveau α verwendet werden. Dabei bezeichnet m̂ den Schätzer für die Regressionsfunktion, σ̂ 2 den Schätzer für die Varianzfunktion und F̂ −1 (α/2) ein geeignetes α/2−Quantil zum Schätzer der Fehlerverteilung im linken Intervall zu Modell (1) und im rechten Intervall zu (2). Eine weitere Anwendung ist die Konstruktion von Testverfahren. Die empirische Verteilungs- X funktion der Residuen wird in den Arbeiten Van Keilegom, González-Manteiga und Sánchez Sellero (2004) und in Dette und Van Keilegom (2005) zur Konstruktion von Anpassungstests bezüglich der Regressionskurve und der Varianzfunktion aufgegriffen. Zum Test auf Gleichheit von Regressionsfunktionen bei Betrachtung von zwei Datensätzen wird sie ebenfalls eingesetzt, vgl. Pardo-Fernández, Van Keilegom und González-Manteiga (2004) und Neumeyer und Dette (2005), und zum Test auf Gleichheit verschiedener Fehlerverteilungen in Pardo-Fernández (2006). Für die Einbindung in Testverfahren wird außerdem auf Kapitel 6 verwiesen. Überblick über Methoden In beiden Modellen (1) und (2) müssen die nicht beobachtbaren Fehler aus den Daten geschätzt werden. Wir haben die Residuen mit Hilfe von Schätzern für die Regressions- und Varianzfunktion definiert, sie hängen auf komplexe Weise von den zugrundeliegenden Daten ab. Der Schätzer F̄n enthält in den modifizierten Gewichten eine weitere Abhängigkeit von der Funktion g angewendet auf die Residuen und von dem Lagrange-Multiplikator η̂n , der als Lösung einer Gleichung mit g(ε̂1 ), . . . , g(ε̂n ) definiert ist. Die Wahl der Schätzer m̂, σ̂ 2 hat unmittelbaren Einfluss auf das Verhalten der Residuen. Die vorliegende Arbeit konzentriert sich diesbezüglich auf den Nadaraya-Watson-Schätzer für die Regressionsfunktion m und einen analogen Schätzer für die Varianzfunktion σ 2 (siehe Nadaraya (1964) oder Watson (1964)). Für diverse Beweise innerhalb der Entwicklungen werden Funktionen in Funktionenklassen eingebettet. Das Verhalten der stochastischen Prozesse in Abhängigkeit von Funktionen wird indirekt nachgewiesen, indem Aussagen über empirische Prozesse indiziert in Funktionenklassen gezeigt werden. Diese Prinzipien zur schwachen Konvergenz empirischer Prozesse werden bereits von Akritas und Van Keilegom (2001) benutzt. Eine Darstellung der Methoden findet sich in Van der Vaart, Kapitel 19 (1998) und Van der Vaart und Wellner (1996). Ein Vergleich zwischen den beiden Schätzern aus (4) und (6) erfolgt, indem wir den asymptotischen Bias und die asymptotische Varianz des hier zu untersuchenden stochastischen Prozesses (8) und des bei Akritas und Van Keilegom (2001) untersuchten empirischen Prozesses (5) einander gegenüberstellen. Wir betrachten zusätzlich den mittleren quadratischen Fehler (mean squared error), der sich aus der asymptotischen Varianz und dem Bias zusammensetzt. Gliederung Die vorliegende Arbeit ist wie folgt gegliedert. In den sich anschließenden Grundlagen in Kapitel 1 beginnen wir mit der Einführung von später verwendeten Begrifflichkeiten und Sätzen. Wir stellen das Konzept der Kerndichteschätzung, die Konstruktion der Schätzfunktionen m̂ und σ̂ 2 , die uns hier interessierenden nichtparametrischen Regressionsmodelle, damit verbundene Techniken und wichtige Veröffentlichungen vor. In Kapitel 2 führen wir in das Empirical-Likelihood-Verfahren ein. Diese Methode bestimmt die Form des uns interessierenden Schätzers maßgeblich und verwendet die Zusatzinformation explizit in der Gestalt der Gewichte der modifizierten empirischen Verteilungsfunktion. Einleitung XI In beiden darauffolgenden Kapiteln stellen wir die zentralen Resultate vor und beweisen diese, und zwar in Kapitel 3 bezogen auf das homoskedastische und in Kapitel 4 bezogen auf das heteroskedastische Regressionsmodell. Wir zeigen zuerst in Kapitel 3 eine Reihe von Hilfsresultaten, so dass wir in den Sätzen 3.12 und 3.14 den Nachweis der schwachen Konvergenz der interessierenden empirischen Prozesse bezogen auf die Residuen im homoskedastischen Regressionsmodell führen können. Mit einer ähnlichen Struktur folgt Kapitel 4 mit einer Reihe von Hilfsresultaten und den zentralen Sätzen 4.10 und 4.11. Die Resultate veranschaulichen wir anhand von Beispielen und Simulationen in Kapitel 5. Durch die Simulationen erhalten wir wichtige Hinweise auf das Verhalten im Fall moderater Stichprobenumfänge. Mit Betrachtungen zu einer Reihe von verwandten Testverfahren in Kapitel 6 schließen wir die Untersuchung des Schätzers F̄n ab. Diese bieten sich zum Testen auf Gültigkeit der für die Schätzung interessanten Zusatzinformationen im Vorfeld der Schätzung an. XII Kapitel 1 Grundlagen 1.1 Überblick Wir beginnen dieses Kapitel mit einer Reihe von Notationen und Bezeichnungen in Abschnitt 1.2. Im Anschluss daran führen wir in Abschnitt 1.3 stochastische und empirische Prozesse ein. Die damit verbundenen Begriffe werden in einigen Beweisen benutzt. Den Begriff des Regressionsmodells und die Definition des Kernschätzers, den wir für die Untersuchung von Regressionsmodellen verwenden wollen, betrachten wir in den Abschnitten 1.4 und 1.5. In Abschnitt 1.5 formulieren wir außerdem einige Annahmen, welche wir für die folgenden Kapitel brauchen. Diesen Abschnitt teilen wir für zwei Ausprägungen des nichtparametrischen Regressionsmodells auf. Das homoskedastische Modell mit den zugehörigen Annahmen stellen wir in Abschnitt 1.5.1 vor, das heteroskedastische Modell entsprechend in Abschnitt 1.5.2. Die zentrale Annahme hinsichtlich der Zusatzinformation formulieren wir in Abschnitt 1.6. Das Kapitel beenden wir mit einer Darstellung benachbarter Arbeiten in Abschnitt 1.7. Abschnitt 1.7.1 dient einer Übersicht der entsprechenden Arbeiten. Herausgehoben wird die im Folgenden besonders wichtige Arbeit von Akritas und Van Keilegom (2001). In Abschnitt 1.7.2 stellen wir ihre Resultate sowohl hinsichtlich des homoskedastischen als auch hinsichtlich des heteroskedastischen Modells vor. 1.2 Bezeichnungen In der vorliegenden Arbeit bezeichnen wir mit X, Y, . . . reellwertige Zufallsvariablen oder kurz Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, IP). Der Wahrscheinlichkeitsraum besteht aus einem Grundraum Ω, mit einer aus bestimmten Teilmengen von Ω bestehenden σ−Algebra A und einem Wahrscheinlichkeitsmaß IP auf A. Ein Wahrscheinlichkeitsmaß P zu einer Zufallsvariable X wird definiert als P = IPX = IP ◦ X −1 . Die Zufallsvariablen können unterschiedliche Messräume besitzen, und den einzelnen Zufallsvariablen mit verschiedenen Messräumen werden Wahrscheinlichkeitsmaße zugeordnet; diese beschreiben die Verteilung der einzelnen Zufallsvariablen. Die Borel−σ−Algebra B auf einem Raum Ω ist die kleinste σ−Algebra, die alle offenen Mengen in Ω enthält, sie wird auch als die von der Familie der offenen Mengen erzeugte σ−Algebra bezeichnet. Eine Verteilung zu einer Zufallsvariablen X ordnet 1 2 Kapitel 1. Grundlagen jedem Element B der Borel−σ−Algebra B einen Wert in [0, 1] zu, also die Wahrscheinlichkeit, mit der sich X in B realisiert. Existiert eine Dichte f zu einer Verteilung in IR, so beschreibt Rx das Integral F (x) = −∞ f (z)dz den Wert der entsprechenden Verteilungsfunktion F . Eine R∞ Verteilungsfunktion F ist monoton wachsend. Weil f eine Dichte ist, gilt −∞ f (z)dz = 1. In dieser Arbeit geht es um die Schätzung einer Verteilungsfunktion in einer bestimmten Situation. Zur Konvergenz von Folgen von Zufallsvariablen (Xn )n∈IN und (Yn )n∈IN werden die folgenden Notationen wiederholt verwendet: Im Fall der (IP-)fast sicheren (f.s.) Konvergenz von Xn gegen X, die nach Definition im Fall der Gültigkeit von IP(limn→∞ Xn = X) = 1 gilt, schreiben wir f.s. IP Xn → X. Der Ausdruck Xn → X steht für (IP-)stochastische Konvergenz von Xn gegen eine Zufallsvariable X und ist nach Definition genau dann gültig, wenn lim IP(|Xn − X| ≥ ε) = 0 für alle ε > 0 n→∞ gilt. Schwache Konvergenz von stochastischen Prozessen wird in Definition 1.5 eingeführt. Bei allen angegebenen Konvergenzarten kann auf den Zusatz n → ∞ verzichtet werden, wenn klar ist, dass es sich um die asymptotische Betrachtung für n → ∞ handelt. Die Landauschen Symbole für reelle Zahlenfolgen an , bn bezeichnen eine Folge an mit an = o(bn ), falls limn→∞ abnn = 0 gilt. Ähnlich bedeutet die Notation an = O(bn ), dass es sich bei an /bn um eine beschränkte Folge handelt. Analog schreiben wir stochastische Nullfolgen und stochastisch beschränkte Folgen wie folgt: Die Notation Xn = oP (Yn ) steht für (IP-) stochastische Konvergenz des Quotienten Xn /Yn gegen Null. Schließlich bezeichnet Xn = OP (Yn ) (IP-) stochastische Beschränktheit der Folge Xn /Yn in dem Sinn, dass für alle ε > 0 ein positives M existiert, so dass IP(|Xn /Yn | > M) ≤ ε für alle n ∈ IN gültig ist. Zur Schätzung von unbekannten Parametern oder funktionswertigen Größen werden Schätzer verwendet. Formal nennen wir eine messbare Abbildung S : (IRn , Bn ) → (IRd , Bd ) einen Punktschätzer S für einen Parameter ϑ ∈ IRd , wobei sich der Schätzer auf ein n−Tupel reellwertiger Zufallsvariablen bezieht. Der Parameter ϑ ist eine Kenngröße der Verteilung dieser Zufallsvariablen. In dieser Arbeit betrachten wir das Verhalten bestimmter Schätzer für funktionswertige Größen wie Regressionskurven und Verteilungsfunktionen. Den Fall der Schätzung einer Verteilungsfunktion an einer bestimmten Stelle x ∈ IR können wir wie folgt mit dem Begriff des Punktschätzers beschreiben. Wir betrachten also eine Schätzung von F (x) für festes x ∈ IR, wobei Xi ∼ F, F : IR → IR gilt. Mit ϑ = F (x), S : IRn → IR und S(X1 , . . . , Xn ) = ϑ̂ ist die Abbildung S von der Gestalt des eingeführten Punktschätzers. 1.3 Stochastische und empirische Prozesse In diesem Abschnitt werden stochastische Prozesse und ein Spezialfall von ihnen, die empirischen Prozesse, eingeführt und die Indizierung von stochastischen Prozessen auf Funktionenklassen vorgestellt. Die damit verbundenen Begriffe und Methoden werden für einige Beweise 1.3 Stochastische und empirische Prozesse 3 benötigt, in Kapitel 3 für Lemma 3.5, (ii), (iv) und (v) und die Sätze 3.11, 3.12 und 3.14 und für ähnliche Behauptungen in Kapitel 4 in den Sätzen 4.8, 4.9, 4.10 und 4.11. Der erste Teil des Abschnitts dient zur Herleitung der Begriffe, die für den Satz von Donsker für den uniformen empirischen Prozess (Satz 1.6) und die schwache Konvergenz des empirischen Prozesses (Satz 1.8) gebraucht werden. Für die vorgestellten Eigenschaften der empirischen Verteilungsfunktion Fn und des empirischen Prozesses und ihre Beweise wird auf Billingsley (1968) verwiesen. Der zweite Teil des Abschnitts hat die Aufgabe, die Betrachtung auf solche stochastischen Prozesse zu erweitern, deren Indexmenge nicht mehr die reellen Zahlen oder ein Teil der reellen Zahlen sind, sondern Funktionenklassen. Ein Ziel ist die Definition schwacher Konvergenz für bezüglich Funktionenklassen indizierte stochastische Prozesse. Im Anschluss an Satz 1.8 motivieren wir diese Erweiterung und stellen eine Reihe wichtiger Begriffe vor. Wir verweisen auf Van der Vaart und Wellner (1996) (kurz: VVW (1996)), Shorack und Wellner (1986) und Pollard (1984) und geben im Folgenden an einigen Stellen zusätzlich detaillierte Verweise an. Der klassische Schätzer einer Verteilungsfunktion ist die sogenannte empirische Verteilungsfunktion, die im Folgenden ausführlich vorgestellt wird. Wir betrachten in diesem Abschnitt generell unabhängige und identisch verteilte (i.i.d.) reellwertige Zufallsvariablen X1 , . . . , Xn , n ∈ IN, über einem beliebigen Wahrscheinlichkeitsraum (Ω, A, IP), die nach der gleichen Verteilungsfunktion F verteilt sind: Ist F nicht bekannt, so können wir F an der Stelle t ∈ IR auf der Grundlage von Zufallsvariablen X1 , . . . , Xn durch die empirische Verteilungsfunktion Fn schätzen, die folgendermaßen definiert ist: n Fn (t) := 1X I{Xi ≤ t}. n i=1 (1.1) Dabei nimmt die Indikatorfunktion I{Xi ≤ t} den Wert 1 an, falls das Ereignis {Xi ≤ t} eintritt, und sonst den Wert Null. Für Realisierungen (X1 (ω), . . . , Xn (ω)) und festes t ist Fn (ω, t) = Pn 1 i=1 I{Xi (ω) ≤ t} dann eine Realisierung der Zufallsvariablen Fn (t). Bei Fn (ω, t), t ∈ IR, n handelt es sich um eine Treppenfunktion mit Sprüngen um 1/n bei den Realisierungen der Zufallsvariablen. Analog ist die uniforme empirische Verteilungsfunktion Gn zum Stichprobenumfang n für unabhängige und identisch U (0, 1)-verteilte Zufallsvariablen U1 , . . . , Un , n ∈ IN, definiert als n 1X Gn (t) := I{0 ≤ Ui ≤ t}, 0 ≤ t ≤ 1. n i=1 (1.2) Auf Gn werden wir in Definition 1.4 zurückgreifen. Nach dem folgenden klassischen Resultat ist bekannt, dass die empirische Verteilungsfunktion fast sicher gleichmäßig gegen die Verteilungsfunktion der betrachteten Zufallsvariablen konvergiert: 4 Kapitel 1. Grundlagen Satz 1.1 (Glivenko-Cantelli). Für eine Folge unabhängiger und identisch verteilter Zufallsvariablen (Xn )n∈IN mit Verteilungsfunktion F gilt lim sup |Fn (x) − F (x)| = 0 fast sicher. n→∞ x∈IR Definition 1.2 (Stochastischer Prozess). Ein stochastischer Prozess (X(·, t))t∈T ist eine Familie von reellen Zufallsvariablen, welche auf einem gemeinsamen Wahrscheinlichkeitsraum (Ω, A, IP) definiert sind. Für festes t ist X(·, t) eine Zufallsvariable X(·, t) : Ω → IR, ω 7→ X(ω, t). Wir setzen voraus, dass für jedes feste ω ∈ Ω der zugehörige Pfad, welcher durch die Abbildung t 7→ X(ω, t) beschrieben wird, in einem metrischen Raum mit einer zugehörigen σAlgebra liegt. T bezeichnet eine beliebig wählbare Indexmenge. Als Pfadraum wird die Menge der zugehörigen Pfade bezeichnet. Wir sprechen von einem zentrierten stochastischen Prozess, wenn die Erwartungswerte IE[X(·, t)] für jedes t ∈ T gleich Null sind. Die Abhängigkeit von ω ∈ Ω in Definition 1.2 wird in der Notation meist unterdrückt, wir bezeichnen (X(t))t∈IR daher als stochastischen Prozess. Die Indexmenge T kann eine Klasse von Funktionen sein und im Spezialfall von Indikatorfunktionen durch Teilmengen von IR (z.B. [0, 1]) repräsentiert werden. Wir betrachten als Beispiel die Funktionen der Form t 7→ I{X1 ≤ t} für t ∈ IR. I{X1 ≤ t} stellt für festes t eine Zufallsvariable dar, wenn es sich bei X1 um eine Zufallsvariable handelt. Bei (I{X1 ≤ t})t∈IR handelt es sich um den zugehörigen stochastischen Prozess. Wir definieren spezielle stochastische Prozesse: Die Bezeichnung Gaußprozess wird für solche stochastischen Prozesse (X(t)), t ∈ T , verwendet, bei denen die Vektoren (X(t1 ), . . . , X(tm ))T , t1 , . . . , tm ∈ T der Länge m für alle m ∈ IN normalverteilt sind, also gemäß Nm (µ, Σ) mit Erwartungswertvektor µ und Kovarianzmatrix Σ verteilt sind. Dabei können µ und Σ jeweils von den betrachteten Indizes in T abhängen. In den hier gezeigten Sätzen zur schwachen Konvergenz von stochastischen Prozessen treten Gaußprozesse als Grenzprozesse auf. Ein Spezialfall für einen Gaußprozess ist die sogenannte Brownsche Brücke B 0 : Der Prozess B 0 bezeichnet einen zentrierten Gaußprozess mit fast sicher stetigen Pfaden und der Kovarianzfunktion Cov(B 0 (s), B 0 (t)) = min(s, t) − s t, 0 ≤ s, t ≤ 1. (1.3) Bei der Konstruktion von Zufallsvariablen ist wichtig, welche Eigenschaften sie als Abbildungen zwischen ihrem Wahrscheinlichkeitsraum (Ω, A, IP) und Messraum (IR, B) (im Fall reellwertiger Zufallsvariablen) haben. Eine Grundforderung ist im Fall reellwertiger Zufallsvariablen, dass die Abbildung (A, B)−messbar ist. Da wir zu stochastischen Prozessen übergehen, interessieren wir uns in besonderer Weise für deren Pfadräume. Definition 1.3 (cadlag-Raum). Der cadlag-Raum D([0, 1]) bezeichnet die folgende Menge von Funktionen D([0, 1]) := {f : [0, 1] → IR | lim f (s) = f (t) für alle t ∈ [0, 1) und s↓t lim f (s) existiert in IR für alle t ∈ (0, 1] }. s↑t 1.3 Stochastische und empirische Prozesse 5 Die Menge enthält also diejenigen reellwertigen Funktionen auf [0, 1], welche rechtsstetig sind und für welche linksseitige Grenzwerte existieren. Die Abkürzung cadlag steht für den französischen Ausdruck continue à droite, limites à gauche. Vergleiche zu D([0, 1]) Billingsley (1968), S. 109, Shorack und Wellner (1986), S. 26 und Pollard (1984), S. 89. Die Menge D([0, 1]) umfasst also in geeigneter Weise nichtstetige (engl.: discontinuous, daher die Bezeichnung D) Funktionen. D([0, 1]) begegnet uns sofort als Pfadraum in der folgenden Definition. Definition 1.4 (Uniformer empirischer Prozess). Der stochastische Prozess Gn = (Gn (t))t∈[0,1] zur uniformen empirischen Verteilungsfunktion Gn aus (1.2) hat als Pfadraum den cadlag-Raum D([0, 1]): für jedes feste ω ∈ Ω ist der Pfad Gn (ω, ·), welcher als Abbildung jedem t ∈ [0, 1] den Wert Gn (ω, t) zuordnet, ein Element von D([0, 1]). Als uniformen empirischen Prozess αn zum Stichprobenumfang n bezeichnen wir mit Hilfe der uniformen empirischen Verteilungsfunktion Gn aus (1.2) den stochastischen Prozess √ n(Gn (t) − t) 0≤t≤1 . (αn (t))0≤t≤1 := Es ist wichtig, den Raum D([0, 1]) mit einer geeigneten Metrik zu versehen, um damit schwache Konvergenz in Definition 1.5 definieren zu können. Wir betrachten ihn daher zusammen mit der Supremumsnorm kf k := sup |f (t)|, (1.4) t∈[0,1] Mit dieser Norm verwenden wir eine passende σ−Algebra: sie wird erzeugt durch die offenen Bälle {f : kf − f0 k < d}, f0 ∈ D([0, 1]), d ∈ IR+ . (1.5) Zusammen mit dieser σ−Algebra können wir die schwache Konvergenz zum Pfadraum D([0, 1]) einführen: Definition 1.5. Eine Folge (Xn (·))n∈IN von stochastischen Prozessen im Raum D([0, 1]) konvergiert schwach gegen einen stochastischen Prozess X(·) in D([0, 1]), wenn lim IE[H(Xn )] = IE[H(X)] n→∞ (1.6) für alle beschränkten Funktionale H : D([0, 1]) → IR gilt, welche bezüglich der durch die offenen Bälle in D([0, 1]) erzeugten σ−Algebra messbar und außerdem bezüglich der Supremumsnorm stetig sind. Strenggenommen wird von Verteilungskonvergenz von Zufallsvariablen und der schwachen Konvergenz zugehöriger Wahrscheinlichkeitsmaße gesprochen, in der vorausgegangenen Definition wird wie auch sonst diese Trennung nicht verfolgt. Bei stochastischen Prozessen wird schwache Konvergenz betrachtet. Nach dem Satz von Donsker gilt schwache Konvergenz insbesondere für den uniformen empirischen Prozess αn aus Definition 1.4 (vgl. Billingsley (1968), Theorem 13.1): 6 Kapitel 1. Grundlagen Satz 1.6 (Donsker). Der uniforme empirische Prozess αn aus Definition 1.4 konvergiert schwach gegen die Brownsche Brücke B 0 in D([0,1]) für n → ∞. Nach dem Spezialfall von U (0, 1)-verteilten Zufallsvariablen erhalten wir nun für unabhängige und identisch nach einer beliebigen Verteilungsfunktion F verteilte reelle Zufallsvariablen die folgenden Versionen von Definition 1.3 und Satz 1.6. Definition 1.7 (Empirischer Prozess). Zur empirischen Verteilungsfunktion Fn aus (1.1) definieren wir den stochastischen Prozess √ n(Fn (t) − F (t)) −∞≤t≤∞ (1.7) αnF (t) −∞≤t≤∞ := als empirischen Prozess αnF zu einer Verteilungsfunktion F mit Stichprobenumfang n. Weil wir für den empirischen Prozess die erweiterte reelle Achse als Indexbereich betrachten wollen, definieren wir an dieser Stelle analog zum cadlag-Raum D([0, 1]) zum Intervall [0, 1] den Pfadraum D([−∞, ∞]) := {f : [−∞, ∞] → IR | lim f (s) = f (t) für alle t ∈ [−∞, ∞) und s↓t lim f (s) existiert in IR für alle t ∈ (−∞, ∞]}. s↑t Wie auch im Beweis zu Satz 1.8 angesprochen, lässt sich die Vergehensweise für uniforme empirische Prozesse mit Pfaden in D([0, 1]) für empirische Prozesse mit Pfaden in D([−∞, ∞]) verwenden: dazu erweitern wir die Definition der auftretenden Verteilungsfunktionen F : IR → [0, 1] durch F (−∞) := limx→−∞ F (x) = 0 und F (∞) := limx→∞ F (x) = 1, wenden im Fall stetiger Verteilungsfunktionen F die Quantilstransformation F −1 an und erhalten so wieder Prozesse mit Pfaden in D([0, 1]). Satz 1.8 (Schwache Konvergenz für den empirischen Prozess). Für den stochastischen Prozess αnF aus Definition 1.7 bezüglich einer stetigen Verteilungsfunktion F und die Brownsche Brücke B 0 von Seite 4 gilt schwache Konvergenz von αnF gegen B 0 ◦ F für n → ∞ in D([−∞, ∞]). Es handelt sich bei B 0 ◦ F = (B 0 (F (t)))t∈[−∞,∞] um einen zentrierten Gaußprozess mit Kovarianzfunktion Cov B 0 (F (s)), B 0 (F (t)) = min(F (s), F (t)) − F (s)F (t), −∞ ≤ s, t ≤ ∞. Beweis zu Satz 1.8. Zum Beweis vergleiche Billingsley (1968), Theorem 16.4 unter Verwendung einer bijektiven Abbildung des kompakten Intervalls [0, 1] auf [−∞, ∞]. Um einen Prozess auf dem Intervall [0, 1] zu erhalten, verwenden wir genauer eine Quantilstransformation mit F −1 bezüglich stetigem F und die Eigenschaft F (Xi ) ∼ U [0, 1]. Damit haben wir die Begriffe, die bei der Formulierung der schwachen Konvergenz des empirischen Prozesses auftreten, vorgestellt und den ersten Teil dieses Abschnitts abgeschlossen. Im Folgenden stellen wir den Prozess vor, der uns besonders interessiert. Um diesen Prozess untersuchen zu können, betrachten wir solche stochastischen Prozesse genauer, bei denen der 1.3 Stochastische und empirische Prozesse 7 Indexbereich nicht mehr aus den reellen Zahlen besteht. In der folgenden Argumentation verwenden wir die Notation aus der folgenden Definition (vergleiche hierzu VVW (1996), S. 34). Definition 1.9. Der Pfadraum l∞ (F) bezeichnet die Menge aller gleichmäßig beschränkten reellen Funktionen auf F, d.h. l∞ (F) := {z : F → IR : sup |z(ϕ)| < ∞}. ϕ∈F Zentrale Aussagen der vorliegenden Arbeit sind die schwache Konvergenz bestimmter stochastischer Prozesse. Wegen der Struktur der Residuen in (1.19), für welche die Zerlegung m̂)(Xi ) σ(Xi ) ε̂i = (m−σ̂(X + σ̂(X εi gilt, schreiben wir für F̂n (y) i) i) n n 1X 1X σ̂(Xi ) (m − m̂)(Xi ) = − I{ε̂i ≤ y} = I εi ≤ y I{εi ≤ yd1 (Xi ) + d2 (Xi )}. n i=1 σ(Xi ) σ(Xi ) n i=1 Auf diese Weise erhalten wir wieder i.i.d. Zufallsvariablen auf der linken Seite innerhalb des Indikators zu Lasten von Funktionen auf der rechten Seite, die vom gesamten Datensatz abhängen. √ Wir können so n(F̂n − F ) als empirischen Prozess schreiben, dessen Verhalten von den Eigenschaften der zufälligen Funktionen d1 und d2 abhängt. Unser Vorgehen wird sein, die em√ pirischen Prozesse n(F̂n − F ) durch eine Einbettung der Funktionen d1 und d2 in geeignete Funktionenklassen zu untersuchen. Daher betrachten wir empirische Prozesse mit komplexeren Indexbereichen als bisher. Die Verwendung von Funktionenklassen eröffnet uns eine Möglichkeit zum Nachweis schwacher Konvergenz. Im Folgenden wird eine weitere Verallgemeinerung des obigen Satzes von Donsker 1.6 hergeleitet (vgl. Satz 1.12). In der herkömmlichen Betrachtung von Zufallsvariablen wird vorausgesetzt, dass für eine Folge (Xn )n∈IN von Zufallsvariablen die Zufallsvariable Xn für jedes n eine Borel-messbare Abbildung ist. Es gibt bei stochastischen Prozessen Beispiele, bei denen diese Borel-Messbarkeit nicht mehr erfüllt ist. Bemerkung 1.10. Wir betrachten beispielsweise den uniformen empirischen Prozess αn aus Definition 1.4 bezüglich i.i.d. Zufallsvariablen, die als Koordinatenprojektionen auf dem Produktwahrscheinlichkeitsraum ([0, 1], B, λ)n definiert sind. λ bezeichnet das Lebesguemaß auf [0, 1] und B die Borel−σ−Algebra zu [0, 1]. Betrachten wir αn als Abbildung von [0, 1]n nach D([0, 1]), ist diese Abbildung nicht Borel-messbar, wenn D([0, 1]) mit der Supremumsnorm betrachtet wird. Die σ−Algebra D auf D([0, 1]) ist dann so groß, dass die Menge αn−1 (D) nicht mehr vollständig in Bn liegt. Vergleiche hierzu VVW (1996), S. 2 und 3, für dieses Beispiel insbesondere Problem 1.7.3 und Billingsley (1968), S. 150 – 153. Entsprechend wird versucht, diese Messbarkeit wiederherzustellen, indem wir die verwendete Metrik und σ−Algebra geeignet wählen, oder das Problem der fehlenden Messbarkeit geschickt 8 Kapitel 1. Grundlagen zu umgehen. Bei der Entwicklung der Methoden zur schwachen Konvergenz für komplexere stochastische Prozesse wurden aufgrund dieses Problems verschiedene Ansätze verfolgt. Wir stellen hier zwei Ansätze kurz vor, für die wir einerseits auf Pollard (1984) und andererseits auf VVW (1996) (für einen Kurzüberblick S. 2 und 3) verweisen. Eine Möglichkeit ist, sogenannte äußere Erwartungen anstelle der üblichen Erwartungen zu betrachten, die für beliebige (nicht notwendig messbare) Abbildungen des Wahrscheinlich¯ definiert werden. Die Forderung der keitsraums (Ω, A, IP) auf die erweiterte reelle Achse IR Borel-Messbarkeit bezieht sich dann nur noch auf den Grenzprozess. Damit definieren wir die schwache Konvergenz eines stochastischen Prozesses in l∞ (F) wie in Definition 1.5, wobei wir ohne Messbarkeitsannahme den Messraum (l∞ (F), B) mit der zugehörigen Borel−σ−Algebra wählen und oben genannte äußere Erwartungen benutzen. Eine andere Möglichkeit ist das Erhalten der Messbarkeit durch Verkleinerung der betrachteten σ−Algebra, indem diese von den offenen Bällen anstelle aller offenen Mengen erzeugt wird. Vergleiche dazu (1.5). Dabei verwenden wir nach wie vor die Supremumsnorm: Schwache Konvergenz im Fall von D([0, 1]) haben wir bereits mit der von den offenen Bällen erzeugten σ−Algebra unter Verwendung der Supremumsnorm definiert. Wir werden im Folgenden Resultate aus beiden Ansätzen verwenden, insbesondere Resultate aus VVW (1996) mit der herkömmlichen Notation, denn beide Konzepte sind kompatibel (vgl. hierzu VVW (1996), S. 34 und 82). Es ist klar, dass es auf die Mächtigkeit der Funktionenklasse und die Beschaffenheit ihrer Elemente ankommt, ob für sie eine Erweiterung des Satzes von Glivenko-Cantelli oder auch des Satzes von Donsker gilt. Wir interessieren uns dafür, wie wir stochastische Prozesse, die mit Funktionenklassen indiziert sind, darauf untersuchen können, ob für sie ein erweiterter Satz von Glivenko-Cantelli oder sogar Donsker gilt. Dazu führen wir eine Reihe von Definitionen ein, wie sie bei VVW (1996), S. 80 ff. und S. 154 ff., zu finden sind. Als Zufallselemente bezeichnen wir Verallgemeinerungen von Zufallsvariablen im folgenden Sinn: sie sind (A, E)−messbare Abbildungen von einem Wahrscheinlichkeitsraum (Ω, A, IP) in den Raum (X , E). Das empirische Maß Pn zu einer Menge von Zufallselementen X1 , . . . , Xn auf P einem messbaren Raum (Ω, A) bezeichnet das zufällige diskrete Maß Pn (C) = n1 ni=1 I{Xi ∈ C} (vgl. (1.1) für C = (−∞, x]). Haben wir es mit einer Funktionenklasse F aus messbaren Funktionen ϕ : X → IR zu tun, P verstehen wir unter dem empirischen Maß Pn eine Abbildung, die ϕ auf n1 ni=1 ϕ(Xi ) abbildet. Auf diese Weise können wir den durch die Klasse F indizierten empirischen Prozess definieren, welcher ϕ auf Z n 1 X √ ϕ(Xi ) − ϕdP (1.8) n i=1 R abbildet. Dabei bezeichnet ϕdP den Erwartungswert von ϕ(X1 ) bezüglich P . Vgl. hierzu die erste Definition des empirischen Prozesses in Definition 1.7. 1.3 Stochastische und empirische Prozesse 9 Den Satz von Glivenko-Cantelli und den Satz von Donsker schreiben wir jetzt für den mit F indizierten empirischen Prozess: Definition 1.11. Eine Funktionenklasse F wird P-Glivenko-Cantelli-Klasse f.s. (oder in Wahrscheinlichkeit) genannt, falls die folgende Konvergenz f.s. (oder in Wahrscheinlichkeit) gilt: Z n 1X sup | (ϕ(Xi ) − ϕdP )| −→ 0, n → ∞. (1.9) ϕ∈F n i=1 Kurz sagen wir im Fall der Gültigkeit von (1.9), dass die Funktionenklasse F P-GlivenkoCantelli ist. Wenn bezüglich des verwendeten Maßes P keine Verwechslung möglich ist, unterdrücken wir die Angabe von P. Diese Definition gilt der Begriffsbildung, wir werden im Anschluss an den folgenden Satz Methoden zum Nachweis solcher Konvergenzen für gegebene Funktionenklassen einführen. Definition 1.12. Eine Funktionenklasse F wird P-Donsker-Klasse genannt, falls die schwache Konvergenz von Z n √ 1 X n ϕ(Xi ) − ϕdP gegen G, n → ∞, in l∞ (F) (1.10) n i=1 gilt, mit einem straffen Borel-messbaren Element aus l∞ (F) als Grenzprozess G. Dabei beR trachten wir unter der Annahme supϕ∈F |ϕ(x) − ϕdP | < ∞ für jedes x ∈ X von S. 8 den n√ o R P empirischen Prozess n( n1 ni=1 ϕ(Xi ) − ϕdP ) : ϕ ∈ F als Abbildung nach l∞ (F). Für die Notation vergleiche (1.8). Dabei heißt eine Borel-messbare Abbildung X von Ω in einen metrischen Raum D straff, falls das zugehörige Maß P = IP ◦ X −1 straff ist. Ein BorelWahrscheinlichkeitsmaß P heißt straff, wenn für jedes ε > 0 eine kompakte Menge K mit P (K) ≥ 1 − ε existiert (VVW (1996), S. 16). Kurz bezeichnen wir die Funktionenklasse F als P-Donsker, wenn für sie (1.10) erfüllt ist. Wenn bezüglich des Maßes P keine Verwechslung möglich ist, verkürzen wir auf die Bezeichnungen wie im Fall von Glivenko-Cantelli-Klassen durch Unterdrücken der Angabe von P . Eine erste Anwendung des Begriffs Donsker-Klasse stellt der folgende Satz 1.13 dar, er findet sich als Lemma 19.24 in Van der Vaart (1998), S. 280. Dabei wird der Begriff der zufälligen Funktionen verwendet. Mit zufälligen Funktionen bezeichnen wir messbare Funktionen x 7→ fˆn (x, ω), wobei fˆn (x, ω) für jedes feste x eine reelle Abbildung auf dem gleichen Wahrscheinlichkeitsraum darstellt, bezüglich dem auch die Beobachtungen X1 (ω), . . . , Xn (ω) definiert sind. Wir benötigen hier noch die Notation der Lr (P )−Norm einer Funktion ϕ bezüglich eines Wahrscheinlichkeitsmaßes P , also Z 1/r r kϕkP,r = |ϕ| dP (1.11) (vergleiche VVW (1996), S. 84), und können Funktionen ϕ mit endlicher Lr (P )−Norm, d.h. kϕkP,r < ∞, als ϕ ∈ Lr (P ) bezeichnen. 10 Kapitel 1. Grundlagen Satz 1.13. Gegeben ist eine P -Donsker-Klasse F von messbaren Funktionen, und ϕ̂n bezeichnet R eine Folge zufälliger Funktionen, die ihre Werte in F annehmen, so dass |ϕ̂n − ϕ0 |2 dP für ein ϕ0 ∈ L2 (P ) in Wahrscheinlichkeit gegen Null konvergiert. Dann konvergiert ! Z n √ 1X n (ϕ̂n (Xi ) − ϕ0 (Xi )) − (ϕ̂n − ϕ0 )dP n i=1 in Wahrscheinlichkeit gegen Null, und damit gilt insbesondere Verteilungskonvergenz von R √ 1 Pn n n i=1 (ϕ̂n − ϕ0 )(Xi ) − (ϕ̂n − ϕ0 )dP gegen Null. Wie oben betont, hängt es von der Mächtigkeit der Funktionenklasse und der Beschaffenheit ihrer Elemente ab, wie sich der nach der jeweiligen Funktionenklasse indizierte empirische Prozess hinsichtlich der Glivenko-Cantelli- und Donsker-Eigenschaft verhält. Mit den folgenden Begriffen können wir die entsprechende Funktionenklasse daraufhin untersuchen. Eingeführt werden eine Einhüllende, deren Existenz an verschiedenen Stellen vorausgesetzt wird, und die Konzepte von Überdeckung und Klammerung. Definition 1.14. Als Einhüllende (engl.: envelope) oder Einhüllendenfunktion Φ zu einer Funktionenklasse F wird jede Funktion x 7→ Φ(x) bezeichnet, für die für jedes ϕ ∈ F und für jedes x ∈ X die Abschätzung |ϕ(x)| ≤ Φ(x) gilt. Die Einhüllende Φ muss dabei nicht selbst in der Klasse F liegen. Vgl. für Definition 1.14 und die beiden folgenden Definitionen VVW (1996), S. 83 und 84. Definition 1.15. Als Überdeckungszahl (engl.: covering number) N (ε, F, k · k) bezeichnen wir die minimale Anzahl von Bällen {ψ : kψ −ϕk < ε} mit Radius ε bezüglich der Norm k·k, welche gebraucht werden, um die Menge F zu überdecken. Dabei ist ϕ ∈ F. Dabei müssen die Zentren der Bälle endliche Norm besitzen, sie müssen aber nicht zu F gehören. Die logarithmierte Überdeckungszahl log N (ε, F, k · k) nennen wir Entropie ohne Klammerung, und der Ausdruck Z ∞p log N (ε, F, k · k) dε 0 bezeichnet das zugehörige Überdeckungsintegral. Definition 1.16. Zu zwei Funktionen l und u bezeichnet die Klammer (engl.: bracket) [l, u] die Menge aller Funktionen ϕ mit l ≤ ϕ ≤ u. Eine ε−Klammer bezeichnet eine Klammer [l, u] mit ku − lk < ε. Die Funktionen l, u müssen endliche Norm besitzen, es ist aber nicht gefordert, dass sie in F liegen. Die Klammerungszahl N[ ] (ε, F, k · k) gibt die minimale Anzahl von ε−Klammern bezüglich der Norm k · k an, welche zum Überdecken von F gebraucht wird. Die logarithmierte Klammerungszahl log N[ ] (ε, F, k · k) nennen wir Entropie mit Klammerung, und das Integral Z q ∞ 0 heißt Klammerungsintegral. log N[ ] (ε, F, k · k) dε 1.3 Stochastische und empirische Prozesse 11 Der folgende Satz stellt eine Möglichkeit dar, wie wir bei geeignetem Verhalten eines Klammerungsintegrals zeigen können, dass eine Funktionenklasse F Donsker ist bzw. dass ein stochastischer Prozess indiziert nach einer geeigneten Funktionenklasse schwach konvergiert (vgl. dazu (1.10)). Satz 1.17. Eine Klasse F von messbaren Funktionen ist P −Donsker, falls das Klammerungsintegral bezüglich der L2 (P )-Norm endlich ist, d.h. falls Z ∞q log N[ ] (ε, F, L2 (P ))dε < ∞ 0 gilt. Vergleiche Definition 1.16 unter Verwendung der L2 (P )−Norm, für die Notation kϕkP,2 für ϕ ∈ F zur L2 (P )− Norm siehe (1.11). Für diesen Satz vergleiche VVW (1996), S.85. Wir stellen an dieser Stelle einige Resultate zusammen, die sich mit der Beibehaltung der Klasseneigenschaften unter bestimmten Operationen beschäftigen. Nach VVW (1996), Example 2.10.7, S. 192 gilt R Lemma 1.18. Für zwei Donskerklassen F und G mit supϕ∈F ∪G | ϕdP | < ∞ ist die paarweise Summe F + G wieder eine Donskerklasse. Für das folgende Lemma wird auf VVW (1996), Problem 8, S. 204 verwiesen: R Lemma 1.19. Für zwei Donskerklassen F und G mit supϕ1 ∈F | ϕ1 dP | < ∞ und supϕ2 ∈G R | ϕ2 dP | < ∞ ist die Klasse F · G von Produkten x 7→ ϕ1 (x)ϕ2 (x) mit ϕ1 ∈ F und ϕ2 ∈ G eine Glivenko-Cantelli-Klasse in Wahrscheinlichkeit. Lemma 1.18 und Lemma 1.19 werden in einigen Teilbeweisen zu Lemma 3.5 verwendet. Nach den Glivenko-Cantelli- und Donsker-Klassen als spezielle Funktionenklassen führen wir im Folgenden eine weitere Klasse ein, nämlich die Vapnik-C̆ervonenkis-Klasse wie in VVW (1996), S. 85 und 86. Für Vapnik-C̆ervonenkis-Klassen sei auf Vapnik und C̆ervonenkis (1971) und (1981) verwiesen. Der Nachweis, dass eine Klasse VC-Klasse ist, kann zum Nachweis der DonskerEigenschaft genutzt werden, wenn die Klasse außerdem weitere Eigenschaften besitzt. Dazu dient insbesondere das in Satz 1.23 wiedergegebene Resultat. Im Beweis zu Satz 3.12 werden wir den Begriff der VC-Klasse als Hilfsmittel in dieser Weise verwenden. Im ersten Schritt definieren wir VC-Klassen von Mengen. Wir beschäftigen uns mit den möglichen Schnittmengen zweier Mengen, wobei eine der beiden Mengen n Elemente enthält. Nachher wollen wir diese Schnitte für größere Zahlen n betrachten. Wir zählen die möglichen Teilmengen des Messraums X und einer endlichen Menge {x1 , . . . , xn } ⊂ X . Dabei bezeichnet C eine Klasse von Teilmengen aus X . Bekanntlich lassen sich aus einer n-elementigen Menge höchstens 2n verschiedene Teilmengen bilden. Die Menge C wird nun als die Menge {x1 , . . . , xn } zerschlagend bezeichnet, wenn wir durch das Schneiden von Elementen C von C mit {x1 , . . . , xn } alle möglichen 2n Teilmengen von {x1 , . . . , xn } erhalten können. Betrachten wir diese Eigenschaft für wachsende n, so bezeichnet der VC-Index V (C) die kleinste Zahl n, bei der keine Menge der Mächtigkeit n von C zerschlagen wird. Damit können wir die Vapnik-C̆ervonenkis-Klassen definieren: 12 Kapitel 1. Grundlagen Definition 1.20. Eine Vapnik-C̆ervonenkis-Klasse (kurz: VC-Klasse) bezeichnet eine Menge C von messbaren Mengen, wenn der zugehörige VC-Index V (C) endlich ist. Die Idee der Bildung von Schnittmengen ist verwendbar für die Überdeckungszahlen bei Klassen von Indikatorfunktionen und bei der Beschränkung von gleichmäßigen Überdeckungszahlen. Mit der folgenden Definition erhalten wir eine VC-Klasse von Funktionen, wenn die zugehörigen Subgraphen eine VC-Klasse von Mengen gemäß Definition 1.20 bilden (vgl. VVW (1996), S. 86, S. 141). Jeder Funktion aus einer Menge können wir ihren Subgraph auf die folgende Weise zuordnen: Ein Subgraph einer Funktion ϕ : X → IR bezeichnet die Teilmenge {(x, t) : t < ϕ(x)} von X × IR. Definition 1.21. Eine Menge von reellwertigen, messbaren Funktionen F auf einem Messraum X heißt VC-Klasse von Funktionen, wenn die Menge aller Subgraphen der Funktionen in F eine VC-Klasse von Mengen in X × IR bildet. Wenn klar ist, ob die VC-Klasse von Funktionen oder Mengen gemeint ist, kann der Zusatz bezüglich Funktionen oder Mengen unterdrückt werden. In diesem Zusammenhang definieren wir noch punktweise separable Funktionenklassen: Definition 1.22. Sei F eine Klasse von quadratintegrierbaren messbaren Funktionen ϕ : X → IR auf einem Wahrscheinlichkeitsraum (X , A, P ). Eine Funktionenklasse F heißt punktweise separabel, wenn eine abzählbare Teilmenge G ⊂ F und außerdem für jedes n ∈ IN eine Nullmenge Nn ⊂ X n (für P n ) existiert, so dass gilt: für alle (x1 , . . . , xn ) ∈ / Nn und ϕ ∈ F existiert eine Folge gm in G, so dass gm → ϕ in L2 (P ) gilt und die Konvergenz (gm (x1 ), . . . , gm (xn )) → (ϕ(x1 ), . . . , ϕ(xn )) , m → ∞ erfüllt ist. Für diese Definition vgl. VVW (1996), S. 116. Den Begriff verwenden wir im Beweis zu den Sätzen 3.12, 3.14, 4.10 und 4.11 in Zusammenhang mit dem folgenden Satz, für den wir auf VVW (1996), Theorem 2.6.8 und Bemerkungen im zugehörigen Beweis verweisen: Satz 1.23. Eine punktweise separable Funktionenklasse F von Funktionen, welche eine VCKlasse ist und deren Funktionen eine quadratintegrierbare Einhüllende besitzen, ist eine DonskerKlasse. Durch den folgenden Satz erhalten wir wieder für geeignete endlichdimensionale Vektorräume VC-Klassen. Satz 1.24. Jeder endlichdimensionale Vektorraum F bestehend aus messbaren Funktionen ϕ : X → IR ist eine VC-Klasse vom VC-Index kleiner gleich dim(F) + 2. Vgl. hierzu VVW (1996) Lemma 2.6.15, S. 146 und die Verwendung im Beweis zu Satz 3.12. Satz 1.25. Sei F eine VC-Klasse von Funktionen bezüglich einer Menge X und g : X → IR eine feste Funktion. Dann ist F · g = {ϕg : ϕ ∈ F} eine VC-Klasse. 1.3 Stochastische und empirische Prozesse 13 Vergleiche zum vorausgegangenen Resultat VVW (1996), Lemma 2.6.18 (vi), S. 147 und seine Anwendung in Satz 3.11. In einigen Beweisen zu Entwicklungen ist es hilfreich zu zeigen, dass uns interessierende Funktionen Element geeigneter Funktionenklassen sind, über die eine Reihe von Aussagen zur Verfügung stehen. Definition 1.26. Die Menge der differenzierbaren Funktionen h : [0, 1] → IR, für welche max |h′ (x) − h′ (y)| sup |h(x)|, sup |h′ (x)| + sup ≤ δ |x − y|α x∈[0,1] x∈[0,1] x,y∈[0,1] (1.12) für ein α > 0 gilt, bildet die Funktionenklasse Cδ1+α [0, 1]. Vergleiche für Definition 1.26 VVW (1996), S. 154. In dieser Arbeit wird für den Nachweis der schwachen Konvergenz der Weg über die Funktionenklassen genutzt. Wollen wir einen Satz wie Satz 1.17 verwenden, schätzen wir den Ausdruck log N[ ] (ε, F, L2 (P )) durch einen geeigneten Ausdruck abhängig von der späteren Integrationsvariable ε ab. An dieser Stelle betrachten wir spezielle Abschätzungen für die Entropie mit und ohne Klammerung (vgl. Def. 1.15 und 1.16), für den Fall, dass wir die Funktionenklasse Cδ1+α [0, 1] mit δ = 1 untersuchen. Vergleiche für die beiden folgenden Aussagen VVW (1996), Theorem 2.7.1 und Korollar 2.7.2: Satz 1.27. Wir betrachten Cδ1+α [0, 1] mit δ = 1 aus Definition 1.26. Dann existiert eine Konstante K = K(α), so dass log N (ξ, C11+α [0, 1], k · k∞ ) ≤ K für jedes ξ > 0 gilt. 1 1/(1+α) ξ Eine Abschätzung für die Entropie log N[ ] (ε, Cδ1+α [0, 1], Lr (Q)) ergibt sich aus Lemma 1.28. Wir betrachten Cδ1+α [0, 1] mit δ = 1 aus Definition 1.26. Dann existiert eine Konstante K = K(α), so dass log N[ ] (ξ, C11+α [0, 1], Lr (Q)) ≤ K 1 1/(1+α) ξ für jedes r ≥ 1, ξ > 0 und Wahrscheinlichkeitsmaß Q auf [0, 1] gilt. Die Anwendbarkeit von Satz 1.27 und Lemma 1.28 auf die Klassen Cδ1+α [0, 1] ergibt sich aus VVW, Problem 2, S. 165: Lemma 1.29. Sei k·k eine Norm auf einem Vektorraum reellwertiger Funktionen, und sei eine Teilklasse F von Funktionen aus dem Vektorraum gegeben. Für die Entropie ohne Klammerung der Klasse M F = {M ϕ|ϕ ∈ F} gilt dann N (ε, M F, k · k) = N (ε/M, F, k · k). Die gleiche Relation gilt bei der Entropie mit Klammerung. Damit haben wir einige grundlegende Begriffe und für unsere Verwendung wichtige Aussagen und weitere Begrifflichkeiten aus der Theorie der stochastischen Prozesse vorgestellt. 14 1.4 Kapitel 1. Grundlagen Kerndichteschätzer Wir betrachten unabhängige und identisch bezüglich einer Dichte f verteilte Zufallsvariablen X1 , . . . , Xn und sind an einer Schätzung der unbekannten Dichte f interessiert. Eine erste Möglichkeit, eine Dichte ohne Annahme spezieller struktureller Eigenschaften zu schätzen, ist ein Histogramm: Histogramme werden durch stückweise konstante Funktionen dargestellt, die aufgrund einer Reihe von Sprüngen nicht überall stetig sind: Der Schätzer ist von der Form P fˆH (x) = (n|A(x)|)−1 ni=1 I{Xi ∈ A(x)}, wobei |A(x)| die Breite des aus dem Bildraum gewählten Intervalls A(x) zu einem Wert x angibt. Ein Datum erhält das Gewicht (n|A(x)|)−1 , sofern es im Intervall A(x) liegt, und ansonsten Gewicht Null. Die Form des Histogramms hängt von der Wahl der Zerlegung des betrachteten Bildraums in Intervalle ab (vgl. Wand und Jones (1995), Abschnitt 1.2). Betrachten wir Umgebungen der Form A(x) = [x − h, x + h] für einen positiven P Abstand h, erhalten wir als naiven Dichteschätzer fˆn (x) = (2hn)−1 ni=1 I[x−h,x+h] (Xi ). Um zu einer allgemeineren Schreibweise zu gelangen, nutzen wir aus, dass Xi ∈ [x−h, x+h] äquivalent zu −1 ≤ (x − Xi )/h ≤ 1 ist. Mit dem Rechteck-Kern Kr (x) = 12 I{x ∈ [−1, 1]} gilt für den naiven Dichteschätzer insgesamt die Darstellung n X Xi − x −1 ˆ . fn (x) = (nh) Kr h i=1 Diese Darstellung lädt dazu ein, anstelle des Rechteck-Kerns Kr mit den einzig möglichen Gewichten (2nh)−1 und 0 auch andere Funktionen zu verwenden, zum Beispiel den Gauß-Kern K(u) := √12π exp − 21 u2 oder den Epanechnikov-Kern K(u) = 3/4(1 − u2 )I{|u| ≤ 1}. Der Schätzer fˆX heißt Kerndichte-Schätzer für die Dichte f an der Stelle x mit Bandbreite h > 0 und Kern K und ist definiert durch n 1X1 K fˆX (x) := n i=1 h Xi − x h . (1.13) Vergleiche dazu Rosenblatt (1956) und Parzen (1962). Zu beachten ist, dass der Schätzer von n abhängt, was in seiner Notation unterdrückt wird. Die Bezeichnung fˆX wird im Hinblick auf den nächsten Abschnitt gewählt, bei dem wir fˆX zum Schätzen der Dichte fX einer Zufallsvariablen X verwenden. Das Verhalten des Schätzers fˆX hängt also von der Wahl von h und K ab. Kernfunktionen oder Kerne sind unter gewissen Einschränkungen Dichtefunktionen. In dieser Arbeit ziehen wir uns bei der Wahl der verwendeten Kerne K auf eine bestimmte Klasse von Dichten zurück: die genauen Voraussetzungen an diese Dichten formulieren wir in (K) auf Seite 17. In vielen Anwendungen wird davon ausgegangen, dass die zugrundeliegende Dichte stetig ist. Dies ist auch in dieser Arbeit der Fall, vgl. die Annahmen an die Dichte fX zu den Designvariablen in (M1) von S. 16. Wählen wir für fˆX einen stetigen Kern, so ist auch der Schätzer stetig. Die grundlegende Idee beim Kernschätzen für Kerne mit kompaktem Träger ist die folgende: Innerhalb des arithmetischen Mittels sorgt ein Kern für eine Auswahl aus n Realisierungen. Jedem ausgewählten Wert, der innerhalb eines um x symmetrischen Intervalls liegt, wird je 1.5 Regressionsmodelle 15 nach Entfernung von x und Wahl des Kerns ein Gewicht so zugeordnet, dass sich fˆX wie eine Dichte verhält. Falls wir den Träger [−1, 1] wählen, ist das Intervall um x jeweils 2h breit. Die vergebenen Gewichte fassen wir nun zusammen: Das arithmetische Mittel der Gewichte zu den benachbarten Realisierungen ergibt den Schätzwert der Dichte an der Stelle x. Neben den Kernen mit kompaktem Träger gibt es auch solche mit nicht kompaktem Träger, z.B. den oben schon erwähnten Gauß-Kern, er verteilt auf der gesamten reellen Achse positive Masse in Abhängigkeit davon, wie weit die jeweilige Stelle von x entfernt ist. Die Wahl der Bandbreite spielt für die Verwendung der Methode eine wichtige Rolle. Einführende Literatur zu Kerndichteschätzern ist z.B. Härdle (1990), Fan und Gijbels (1996) und Härdle et al. (2004). 1.5 Regressionsmodelle In dieser Arbeit werden zwei Ausprägungen des nichtparametrischen Regressionsmodells untersucht. Es werden n unabhängige Datenpaare (X1 , Y1 ), . . . , (Xn , Yn ) beobachtet, wobei von Interesse ist, wie die Beobachtung Yi von der Beobachtung Xi abhängt (i = 1, . . . , n). Die erste Komponente Xi wird in diesem Zusammenhang auch als erklärende Variable, Designvariable bzw. der Vektor (X1 , . . . , Xn ) kurz als Design bezeichnet. Bei beiden vorzustellenden Modellen geht es darum, für solche Beobachtungen den Zusammenhang zwischen beiden Komponenten zu erklären, also eine Gesetzmäßigkeit zu finden, nach der ein gewisser Wert in der Y −Variable zu erwarten ist für eine spezielle Realisierung von X. Die Besonderheit der nichtparametrischen Modelle ist es, bezüglich der Form der Regressionsfunktion, die den hauptsächlichen Einfluss zwischen beiden Koordinaten beschreibt, vor Betrachtung der Daten keine strukturellen Einschränkungen zu treffen. Eine starke strukturelle Einschränkung wäre beispielsweise die Festlegung auf einen linearen Zusammenhang, das heißt, die Regressionsfunktion hätte die Gestalt einer Gerade. Die Idee ist, damit grundsätzliche Fehler bei der Wahl des Modells zu verhindern und interessante, möglicherweise nicht vermutete Zusammenhänge zwischen X und Y aufzudecken. 1.5.1 Homoskedastisches Regressionsmodell Wir betrachten Beobachtungen der Zufallsvariablen (X1 , Y1 ), . . . , (Xn , Yn ) und gehen im Folgenden davon aus, dass wir die Abhängigkeit durch ein nichtparametrisches Regressionsmodell mit einer Regressionsfunktion m beschreiben können: Unter Betrachtung eines von Xi unabhängigen additiven Fehlers εi , den wir für die Modellierung sämtlicher sonstiger Einflüsse wie auch den Messfehler brauchen, ist die Abhängigkeit von Yi von Xi durch das homoskedastische Regressionsmodell zu beschreiben: Yi = m(Xi ) + εi , i = 1, . . . , n. (1.14) Weil wir uns in erster Linie für die Fehler εi interessieren, bezeichnen wir ihre unbekannte Verteilungsfunktion mit F und die zugehörige Dichte mit f . Für die Designvariable X wird die 16 Kapitel 1. Grundlagen Verteilungsfunktion mit FX , ihre Dichte mit fX bezeichnet. Der Index wird bei den jeweiligen Schätzern fˆX weiterverwendet, die Abhängigkeit von n bei den zugehörigen Schätzern wird dabei wie erwähnt in der Notation unterdrückt. Die Regressionsfunktion und die Fehler können nicht beobachtet werden, so dass zuerst ein Schätzer für die Regressionsfunktion aus n Datenpaaren berechnet wird, um damit die Fehler durch die sogenannten Residuen zu schätzen. Diese Residuen sind von der Form ε̂i = Yi − m̂(Xi ), i = 1, . . . , n. (1.15) Dabei ist m̂(x) der Nadaraya-Watson-Regressionsschätzer (Nadaraya (1964), Watson (1964)) für m(x), n 1 X 1 Xi − x 1 . m̂(x) = K Yi n i=1 h h fˆX (x) (1.16) Der Schätzer m̂(x) für eine gegebene Stelle x basiert auf dem Kerndichteschätzer fˆX für die Dichte fX des Designs aus (1.13) und wird jeweils für x ∈ [0, 1] bestimmt. Die nichtparametrischen Residuen aus (1.15) werden nun verwendet, um die Verteilungsfunktion F der nicht beobachtbaren Fehler zu schätzen. Wir formulieren eine Reihe von Voraussetzungen, auf die wir für die Untersuchung innerhalb dieses Regressionsmodells zurückgreifen: (M1) Wir betrachten das Regressionsmodell (1.14) mit zufälligem Design: Die univariaten Designpunkte X1 , . . . , Xn sind unabhängig und identisch verteilt mit Verteilungsfunktion FX auf einem kompakten Träger, zur Vereinfachung wird [0, 1] gewählt. Die Verteilungsfunktion FX hat eine zweimal stetig differenzierbare Dichte fX , und für fX gilt die Annahme inf x∈[0,1] fX (x) > 0. Die Regressionsfunktion m ist zweimal stetig differenzierbar im Intervall (0, 1) mit beschränkten Ableitungen. (M2) Die Fehler ε1 , . . . , εn sind unabhängig und identisch verteilt mit Verteilungsfunktion F . Sie sind zentriert, d.h. IE[ε1 ] = 0, und besitzen die Varianz σ 2 = Var(ε1 ) ∈ (0, ∞). Sie sind unabhängig von den Designpunkten X1 , . . . , Xn . F ist stetig differenzierbar mit beschränkter und überall positiver Dichte f . (M3) Es existieren positive reelle Konstanten γ, C und β, so dass für alle z ∈ IR mit |z| ≤ γ die folgende Abschätzung gilt: |F (y + z) − F (y) − zf (y)| ≤ C|z|1+β . Es ist zu beachten, dass (M3) mit β = 1 erfüllt ist unter der stärkeren Annahme, dass f stetig differenzierbar ist mit supy∈IR |f ′ (y)| < ∞. 1.5 Regressionsmodelle 17 Die Information über die Fehler steckt in den Beobachtungen zu den Zufallsvariablen (X1 , Y1 ), . . . , (Xn , Yn ). Deshalb verwenden wir anstelle der Fehler die in (1.15) definierten Residuen ε̂1 , . . . , ε̂n in einem Schätzer für die Verteilungsfunktion der Fehler n 1X F̂n (x) := I{ε̂i ≤ x}, x ∈ IR. n i=1 (1.17) Der Schätzer F̂n ist gerade die empirische Verteilungsfunktion basierend auf den Residuen. Für die Anwendung des Nadaraya-Watson-Regressionsschätzers treffen wir die folgenden Annahmen an die verwendeten Kerne K und Bandbreiten h. (K) Die Funktion K bezeichnet eine symmetrische Dichte mit kompaktem Träger und R uK(u) du = 0. K ist zweimal stetig differenzierbar. (H) Die deterministische Folge h = hn bezeichnet eine Folge von Bandbreiten mit nh4 = O(1), nh3+2α (log(h−1 ))−1 → ∞ (für ein α > 0) und nβ h1+β (log(h−1 ))−1−β → ∞ für n → ∞ (mit β aus Annahme (M3)). ≤ 3 + 2α nicht gebraucht Zu beachten ist, dass die letzte Bandbreitenannahme im Fall 1+β β 1 wird. Dieser Fall tritt ein, sobald β ≥ 2 gilt. Die Konstante α spielt nur in den technischen Beweisschritten eine Rolle und kann beliebig klein gewählt werden. Bemerkung 1.30. In der vorliegenden Arbeit verwenden wir den Nadaraya-Watson-Schätzer m̂ aus (1.16) für die Regressionsfunktion. Dieser Schätzer wird auch bei Akritas und Van Keilegom (2001) zugrundegelegt. Er hat den Vorteil, dass er in der Theorie relativ einfach ist und gleichzeitig in vielen Anwendungen benutzt wird. Dennoch könnten die gleichen Methoden für den empirischen Prozess der Residuen auch verwendet werden, wenn andere nichtparametrische Funktionsschätzer verwendet würden. Ein Beispiel sind lokale Polynomschätzer (vgl. Fan und Gijbels (1996)). Damit sich zu den Resultaten in den nächsten Kapiteln analoge asymptotische Entwicklungen und Grenzverteilungen ergeben, sollte ein alternativer Schätzer m̂ gleichmäßig konsistent sein, geeignete Voraussetzungen an die Ableitungen erfüllen, und es sollte eine entR sprechende lineare Entwicklung für das Integral (m̂ − m)(x)fX (x)dx unter Vernachlässigung eines Terms der Ordnung oP (n−1/2 ) gelten. 1.5.2 Heteroskedastisches Regressionsmodell Wir gehen auch hier davon aus, dass wir die Abhängigkeit durch eine Regressionsfunktion m aus einem nichtparametrischen Regressionsmodell beschreiben können: Hier lassen wir wieder einen zusätzlichen additiven Term zu, der aber noch in bestimmter Weise von X abhängen darf: Dieses Modell erlaubt eine stochastische Abhängigkeit des Fehlers ε von X in der Varianz des Fehlers (Heteroskedastizität), damit kann das Modell als Yi = m(Xi ) + σ(Xi )εi , i = 1, . . . , n (1.18) 18 Kapitel 1. Grundlagen geschrieben werden, mit der von Xi abhängigen Varianzfunktion σ 2 (Xi ) und einem im Unterschied zum vorigen Modell standardisierten Fehler εi . Die Funktion σ(Xi ) beschreibt entsprechend die Standardabweichung oder Streuung. Im homoskedastischen Modell war die gesamte Differenz εi = Yi − m(Xi ) stochastisch unabhängig von Xi ; im heteroskedastischen Modell gilt das nur für den Term (Yi − m(Xi ))/σ(Xi ), der wieder als εi bezeichnet wird. Weil die Fehler ε1 , . . . , εn nicht beobachtbar sind, errechnen wir aus den beobachtbaren Anteilen Schätzer für die ebenfalls unbekannten Funktionen m und σ 2 . In Abhängigkeit von den Daten und den Schätzern für m und σ 2 definieren wir im heteroskedastischen Fall die Residuen ε̂i = Yi − m̂(Xi ) , σ̂(Xi ) i = 1, . . . , n. (1.19) Als Schätzer für die unbekannten Regressionsfunktion m verwenden wir wieder den im letzten Abschnitt vorgestellten Nadaraya-Watson-Schätzer m̂ aus (1.16). Zusätzlich benötigen wir einen Schätzer σ̂ 2 für die unbekannte Varianzfunktion. Der Schätzer σ̂ 2 (x) bezeichnet den analog zum Nadaraya-Watson-Schätzer für die Regressionsfunktion aus der Formel (1.16) konstruierten Varianzschätzer n 2 1 1 X 1 Xi − x K Yi − m̂(x) σ̂ (x) = . n i=1 h h fˆX (x) 2 (1.20) Auch dieser Schätzer greift auf den Kern K und den Dichteschätzer fˆX zurück, die aus dem letzten Abschnitt bekannt sind. Die folgende Annahme wird für die Untersuchungen im Modell (1.18) benötigt. Wir betrachten (1.18) unter Annahme von (M1) (vgl. S. 16) aus dem Abschnitt zum homoskedastischen Modell und der im Folgenden angegebenen Annahme (M). Dabei ist Annahme (M) stärker als die beiden im homoskedastischen Fall getroffenen Annahmen (M2) und (M3) (vgl. S. 16). Sie wurde bereits in Akritas und Van Keilegom (2001) verwendet. (M) Die Varianzfunktion σ 2 ist beschränkt und zweimal stetig differenzierbar mit beschränkten ersten und zweiten Ableitungen in (0, 1), so dass inf x∈[0,1] σ 2 (x) > 0 gilt. Die Fehler sind unabhängig und identisch verteilt mit Verteilungsfunktion F . Sie sind zentriert, d.h. IE[ε1 ] = 0, mit Varianz Var(ε1 ) = 1 und existierendem vierten Moment, und unabhängig von den Designpunkten X1 , . . . , Xn . Die Verteilungsfunktion F ist zweimal stetig differenzierbar mit überall positiver Dichte f , so dass supy∈IR |yf (y)| < ∞ und supy∈IR |y 2 f ′ (y)| < ∞ gilt. 1.6 Zusatzinformation Nach der Einführung der zu untersuchenden Regressionsmodelle formulieren wir die Annahme, die den entscheidenden Unterschied gegenüber der Betrachtung bei Akritas und Van Keilegom (2001) ausmacht. Die Verfügbarkeit wichtiger Zusatzinformationen über die Fehlerverteilung setzen wir durch die Annahme (A) voraus: 1.7 Verwandte Arbeiten 19 (A) Es gilt IE[g(ε1 )] = 0 für eine bekannte Funktion g = (g1 , . . . , gk )T : IR → IRk , für welche IE[gj2 (ε1 )] < ∞ für j = 1, . . . , k erfüllt ist. Die Gleichung IE[g(ε1 )] = 0 stellt die zentrale Nebenbedingung dar, unter der der empirische Likelihood maximiert wird. 1.7 1.7.1 Verwandte Arbeiten Literaturübersicht Wir stellen hier einige Arbeiten zusammen, die sich mit der Schätzung der Fehlerverteilung und der Fehlerdichte in verschiedenen Regressionsmodellen beschäftigen und im Kontext dieser Arbeit besonders interessant sind. Für Literatur zum Empirical-Likelihood-Verfahren sei auf Abschnitt 2.3 verwiesen. An erster Stelle ist Akritas und Van Keilegom (2001) zu nennen. In dieser Arbeit wird die Fehlerverteilung im nichtparametrischen Regressionsmodell geschätzt. Dabei wird der NadarayaWatson-Schätzer verwendet. Die spezielle Konstruktion des Schätzers für die Verteilungsfunktion ist von der Berücksichtigung zensierter Daten her motiviert. Diese Arbeit werden wir ausführlich im Anschluss an diese Übersicht einführen. Grundsätzlich steht neben der Schätzung einer Verteilungsfunktion auch die Möglichkeit der Schätzung der zugehörigen Dichte offen. Den Weg über die Dichteschätzung geht die folgende Veröffentlichung: in Evromovich (2005) wird dazu ein auf dem Pinsker-Orakel beruhender nichtparametrischer Schätzer benutzt, bei dem Residuen nach einem Plug-in-Verfahren verwendet werden können. Ein Schätzer für die Verteilungsfunktion für die Fehler im nichtparametrischen Regressionsmodell wird auch in Cheng (2002) untersucht. Cheng (2002) zeigt die gleichmäßige Konsistenz der auf nichtparametrischen Residuen definierten empirischen Verteilungsfunktion und untersucht einen Histogramm-Dichteschätzer für die zugehörige Dichte. Die beiden Arbeiten Cheng (2004) und Cheng (2005) setzen die Untersuchung von Schätzern für die Dichte und die Verteilungsfunktion fort und betrachten zum einen schwache und starke gleichmäßige Konsistenz des Kerndichteschätzers bezogen auf die Fehlerdichte und andererseits die asymptotische Verteilung eines geeignet standardisierten Schätzers der Fehlerdichte. In Cheng (2005) wird insbesondere eine Aufteilung des Datensatzes vorgenommen. Ein Teil wird zur Schätzung der Regressionsfunktion verwendet und der andere zur Konstruktion der Residuen unter Verwendung der vorher geschätzten Regressionsfunktion. Weitere Arbeiten zur Schätzung der Fehlerdichte sind Qin (1996) und Qin, Shi und Chai (1996). Im Zusammenhang mit den Arbeiten von Cheng ist auch die Monographie Koul (2002) zu nennen, die sich mit dem Verhalten der empirischen Verteilungsfunktion bezüglich Fehlern aus dem linearen Regressionsmodell beschäftigt. Die Arbeiten Müller, Schick und Wefelmeyer (2004a) und (2004b) untersuchen einen lokalen Polynom-Schätzer, wobei unter Nutzung der Leave-one-out-Idee hier die Regressionsfunktion für das nichtparametrische Regressionsmodell geschätzt wird. Bei diesen Untersuchungen 20 Kapitel 1. Grundlagen werden den Bias unterdrückende Bandbreitenannahmen getroffen. In beiden Arbeiten werden insbesondere bestimmte Funktionale der unbekannten Verteilungsfunktion untersucht, auf die wir in Bemerkung 3.6 eingehen. In Müller, Schick und Wefelmeyer (2004c) wird eine geglättete Version der empirischen Verteilungsfunktion untersucht, die auf nichtparametrischen Residuen definiert ist. Die Arbeit Müller, Schick und Wefelmeyer (2006) untersucht einen Schätzer für die Verteilungsfunktion der Fehler im semiparametrischen Regressionsmodell. Durch die Form des semiparametrischen Modells behandeln die Autoren im Spezialfall ebenfalls das nichtparametrische und das lineare Regressionsmodell. Die der Regressionsfunktion m entsprechende Funktion wird lokal-linear geschätzt. Auch in dieser Arbeit werden keine Zusatzinformationen wie in unserer Fragestellung berücksichtigt. 1.7.2 Prozess aus Akritas und Van Keilegom (2001) Dieser Abschnitt stellt die Hauptresultate aus Akritas und Van Keilegom (2001) (AVK (2001)) vor, auf welche wir im Folgenden wiederholt zurückgreifen werden. Dieser Artikel stellt eine der grundlegenden Veröffentlichungen für die Schätzung der unbekannten Verteilungsfunktion der nicht beobachtbaren Fehler εi in Modell (1.14) und Modell (1.18) dar. AVK (2001) zeigen die schwache Konvergenz eines empirischen Prozesses, der bezüglich Residuen aus einem nichtparametrischen Regressionsmodell definiert wird. Das bei ihnen betrachtete Modell umfasst das in dieser Arbeit untersuchte nichtparametrische heteroskedastische Regressionsmodell. Das homoskedastische Regressionsmodell ist nicht enthalten, entsprechende Ergebnisse für das homoskedastische Modell ergeben sich aber durch analoges Vorgehen. AVK (2001) betrachten das Regressionsmodell Y = m(X) + σ(X)ε unter der Annahme stochaR1 stischer Unabhängigkeit von X und ε mit der Regressionsfunktion m(x) = 0 F −1 (s|x)J(s)ds R1 und der Varianzfunktion σ 2 (x) = 0 F −1 (s|x)2 J(s)ds − m2 (x). Es gilt F (y|x) = IP(Y ≤ y|X = x). In der genannten Darstellung von m und σ 2 wird die Quantilsfunktion F −1 (s|x) = inf{y ∈ IR|F (y|x) ≥ s} von Y bei gegebenem x und eine sogenannte Zielfunktion (engl.: score R1 function) J verwendet, für die 0 J(s)ds = 1 gilt. Bei der Wahl von J = I[0,1] erhalten wir aus der Wahl von m und σ 2 in der genannten Arbeit die von uns gewählte Darstellung von R R R1 Regressions- und Varianzfunktion mit m(x) = 0 F −1 (s|x)ds = IR sdF (s|x) = IR sf (s|x)ds R R R1 und σ 2 (x) = 0 F −1 (s|x)ds − m2 (x) = IR s2 dF (s|x) − m2 (x) = IR s2 f (s|x)ds − m2 (x) unter der Annahme, dass eine Dichte zur verwendeten Verteilungsfunktion existiert. Wir setzen in dieser Arbeit stets J = I[0,1] voraus. Im Folgenden werden die Hauptresultate und die für die technischen Schritte weiterverwendeten Hilfsaussagen für den hier interessanten Spezialfall zuerst für das homoskedastische und im Anschluss für das heteroskedastische Modell zusammengefasst. Um in die verwendeten Techniken einzuführen, werden die beiden Lemmata 1.31 und 1.37 mit Beweis angegeben. Zwei weitere Lemmata, 1.32 und 1.36, werden explizit gezeigt: diese Aussagen sind Entwicklungen mit einer verbesserten Rate für die Restterme gegenüber der bei AVK (2001), die unter den stärkeren Annahmen in dieser Arbeit erhalten werden. 1.7 Verwandte Arbeiten 21 Die in Abschnitt 1.5 eingeführten Annahmen (M1), (M2), (M3), (K) und (H) wurden bereits in AVK (2001) getroffen, und zwar insbesondere in Theorem 2 zum Nachweis schwacher Kon√ vergenz des bezüglich Residuen definierten empirischen Prozesses n(F̂n − F − b) mit F̂n aus (1.17) und dem jeweils dem betrachteten Modell entsprechenden Biasterm b. Wir beginnen nun mit der Darstellung der Resultate bezogen auf das homoskedastische Regressionsmodell. Die Ergebnisse zum heteroskedastischen Modell finden sich ab S. 30. Nach AVK (2001), Theorem 2 gilt die schwache Konvergenz des bezüglich Residuen aus (1.15) √ definierten empirischen Prozesses n(F̂n − F − b) mit F̂n aus (1.17) und einem Biasterm b der Form Z 1 K 2 ((mfX )′′ (x) − (mfX′′ )(x)) dx (1.21) b(y) := h f (y)B mit B := µ2 2 und mit µK 2 := Z K(u)u2 du. (1.22) √ Der auf diesen Residuen basierende empirische Prozess n(F̂n − F − b) konvergiert schwach gegen einen zentrierten Gaußprozess G. Dabei besitzt G die Kovarianzstruktur Cov(G(y), G(z)) = F (min(y, z)) − F (y)F (z) + IE[ε21 ]f (y)f (z) (1.23) + IE[ε1 I{ε1 ≤ y}]f (z) + IE[ε1 I{ε1 ≤ z}]f (y). Vergleichen wir die Kovarianzstruktur des asymptotischen Prozesses G aus (1.23) mit der Kovarianz Cov(B 0 (F (s)), B 0 (F (t))) aus dem Satz von Donsker, Satz 1.8, werden Unterschiede ersichtlich. Betrachten wir speziell normalverteilte Fehler mit Erwartungswert Null, erhalten wir bei der Verwendung nichtparametrischer Residuen anstelle der wahren Fehler sogar eine gleichmäßig kleinere asymptotische Varianz Var(G(y)) ≤ Var(B 0 (F (y))) ∀ y ∈ IR, denn es gilt Var(G(y)) = F (y)(1 − F (y)) + σ 2 f 2 (y) + 2IE[ε1 I{ε1 ≤ y}]f (y) = Var(B 0 (F (y))) + σ 2 f 2 (y) − 2σ 2 f 2 (y) wegen des negativen Ausdrucks IE[ε1 I{ε1 ≤ y}] = −σ 2 f (y) (1.24) im Fall ε ∼ N (0, σ 2 ). Um die Gültigkeit von (1.24) in diesem Spezialfall zu zeigen, berechnen wir die Ableitung der zugehörigen Dichte 1 ∂f (y) y 1 y2 − 2 y exp − 2 = − 2 f (y). = √ dy σ 2σ σ 2πσ 22 Kapitel 1. Grundlagen Damit gilt xf (x) = −σ 2 f ′ (x) für alle x ∈ IR. Nach dieser Darstellung gilt im Fall normalverteilter Fehler mit Erwartungswert Null und Varianz σ 2 Z y Z y 2 xf (x)dx = −σ IE[εI{ε ≤ y}] = f ′ (x)dx = −σ 2 f (y), −∞ −∞ und damit (1.24). Neben der Varianzverbesserung haben wir beim Prozess G allerdings einen Bias b(y) aus (1.21), wohingegen im Satz von Donsker kein Bias auftritt. Dies ist dadurch zu erklären, dass beim Austausch der i.i.d. Zufallsvariablen εi gegen Residuen ε̂i die Schätzung unter Verwendung weiterer Schätzer erfolgen muss, was oft zu einer weniger genauen Schätzung führt. Die Biasformel (1.21) wird aus der Entwicklung Z F̂n (y) − F (y) = Fn (y) − F (y) + f (y) (m̂(x) − m(x))fX (x) dx + oP (n−1/2 ) (1.25) gleichmäßig in y ∈ IR abgeleitet, aus dem Beweis zu Theorem 1; vgl. hierzu AVK (2001), S. 555. Wir geben das Ergebnis wieder bezogen auf das homoskedastische Modell an. Wir zeigen in Lemma 1.32, dass aus der Entwicklung in (1.25) die Gültigkeit der Darstellung n h2 1X εi + f (y) µK F̂n (y) = Fn (y) + f (y) n i=1 2 2 Z ((mfX )′′ (x) − (mfX′′ )(x))dx + oP (n−1/2 ) gleichmäßig in y ∈ IR folgt. Fn ist in (1.1) definiert, wobei die Zufallsvariablen Xi durch εi zu R ersetzen sind. Das enthaltene Integral (m̂(x) − m(x))fX (x) dx wird in Lemma 1.32 entwickelt. Aus dem Beweis von Theorem 1 in AVK (2001, S. 555) folgt, dass im homoskedastischen Fall für die Wahl von J = I[0,1] die in Theorem 1 (S. 552) von AVK (2001) definierte Funktion ϕ von der folgenden Form ist: Z I{z ≤ v} − F (v|x) dv. ϕ(x, z, y) = −f (y) Hier ist F (v|x) = IP(Yi ≤ v|Xi = x) die bedingte Verteilung von Yi gegeben Xi = x, und es gilt Z I{z ≤ v} − F (v|x) dv (1.26) Z ∞ Z z 1 − F (v|x) dv F (v|x)dv + = − z −∞ Z ∞ Z 0 Z z Z z = 1 − F (v|x) dv − F (v|x)dv − F (v|x)dv − 1 − F (v|x) dv 0 −∞ 0 0 = IE[Y |X = x] − z = m(x) − z. Die letzte Gleichheit gilt für Zufallsvariablen Y mit stetiger Verteilungsfunktion F wegen IE[Y ] = Z 0 ∞ Z 1 − F (v) dv − 0 −∞ F (v)dv 1.7 Verwandte Arbeiten 23 nach Shorack (2000), Kap. 7, Prop. 4.2, (12); sie gilt analog für bedingte Erwartungswerte IE[Y |X = x] zu stetigen Verteilungsfunktionen F (v|x). Es folgt ϕ(x, z, y) = −f (y)(m(x) − z) bzw. ϕ(Xi , Yi , y) = f (y)εi , und (1.23) folgt aus Theorem 2 von AVK (2001), S. 552. In AVK (2001), Prop. 3 werden Annahmen zur Bandbreite, zur Kernfunktion und zur Designverteilung gestellt, die Teil der Annahmen (H), (K) und (M1) von S. 16-17 sind. Zusätzlich werden Regularitätsannahmen an F getroffen, für die wir auf (M2) von S. 16 verweisen, und Annahmen zur Funktion J (s. AVK (2001), (A2)(i)). Unter diesen Annahmen wird sup |m̂(x) − m(x)| = O((nh)−1/2 (log(h−1 )1/2 )) f.s. (1.27) x∈[0,1] gezeigt. Unter den Annahmen aus Prop. 3 gilt nach Prop. 6 aus AVK (2001) eine Entwicklung für m̂(x) − m(x), die wir im Folgenden aufgreifen. Das folgende Lemma 1.31 benutzt die Aussage aus AVK (2001), Prop. 6 für eine erweiterte Entwicklung in dem für uns interessanten Spezialfall unter Betrachtung des homoskedastischen Modells. Wir setzen für die dort auftretende Funktion J = I[0,1] . Desweiteren wird die Bezeichnung µK 2 aus (1.22) verwendet. Lemma 1.31. Unter Gültigkeit von (H), (K), (M1) und (M2) gilt in Modell (1.14) für jedes x ∈ [0, 1] n m̂(x) − m(x) = 1 X x − Xi 1 εi K nh fX (x) i=1 h 1 1 1 ′′ ′′ (mf ) (x) − m(x)f (x) + o . + h2 µK X P √ 2 X 2 fX (x) nh Beweis zu Lemma 1.31. Aus AVK (2001), Prop. 6, ist die Entwicklung Z n 1 1 X x − Xi m̂(x) − m(x) = − I{Yi ≤ y} − F (y|x) dy K nh fX (x) i=1 h log h−1 gleichmäßig in x +OP nh bekannt. Es gilt (nh)−1 log(h−1 ) = o((nh)−1/2 ). Mit (1.26) für das enthaltene Integral zerlegen wir den führenden Term von m̂(x) − m(x). Damit ist Z n 1 1 X x − Xi I{Yi ≤ y} − F (y|x) dy − K nh fX (x) i=1 h n 1 1 X x − Xi = − K (m(x) − Yi ) nh fX (x) i=1 h n n 1 1 X x − Xi 1 X x − Xi 1 εi + (m(Xi ) − m(x)). K K = nh fX (x) i=1 h nh fX (x) i=1 h (1.28) Der erste Summand der rechten Seite von (1.28) ist zentriert und liefert somit keinen Bias. Seine Varianz ist von der Ordnung O(n−1 h−1 ). Der Erwartungswert des zweiten Summanden 24 Kapitel 1. Grundlagen der rechten Seite von (1.28) ergibt mit Substitution und Taylorentwicklung bis zur zweiten Ableitung unter Beachtung der Eigenschaften des Kerns aus (K) von S. 17 den Bias 1 1 bn (x) := h2 µK ((mfX )′′ (x) − m(x)fX′′ (x)) 2 2 fX (x) (1.29) und ein Restglied der Ordnung o(h2 ). Weil dieses Vorgehen an anderen Stellen wiederholt angewendet wird, werden diese Schritte hier ausführlich beschrieben. Durch Substitution im Argument von K und Verwendung von z = x + hu, dz = h du erhalten wir unter Verwendung der Symmetrie von K n z − x i Z 1 1 h 1 1 X Xi − x K (m(Xi ) − m(x)) = (m(z) − m(x))fX (z)dz K IE nh fX (x) i=1 h h fX (x) h Z 1 K(u) fX (x + uh)m(x + uh) − fX (x + uh)m(x) du = bn (x) + Rn (x) = fX (x) mit dem Biasterm bn aus (1.29) und einem Term Rn , dessen Vernachlässigbarkeit noch zu zeigen ist. Für die letzte Gleichheit haben wir die Taylorentwicklung bis zur zweiten Ableitung (hu)2 (mfX )′′ (x) fX (x + uh)m(x + uh) = fX (x)m(x) + hu(mfX )′ (x) + 2 (hu)2 + (mfX )′′ (ξ) − (mfX )′′ (x) 2 und eine analoge Entwicklung für fX (x + uh) benutzt und Annahme (K) (insbesondere R u du = 0 und µK K(u)u2 du = O(1)) von S. 17 verwendet. Damit ist 2 = Z 1 K(u) fX (x + uh)m(x + uh) − fX (x + uh)m(x) du fX (x) Z (hu)2 1 K(u) fX (x)m(x) + hu(mfX )′ (x) + (mfX )′′ (x) = fX (x) 2 2 (hu) + [(mfX )′′ (ξ1 ) − (mfX )′′ (x)] 2 (hu)2 ′′ (hu)2 ′′ ′ ′′ −m(x) fX (x) + hufX (x) + f (x) + [fX (ξ2 ) − fX (x)] du 2 X 2 R K(u) für Zwischenstellen ξ1 und ξ2 zwischen x und x + hu. Die ersten Terme aus der jeweiligen Entwicklung heben sich gegenseitig weg. Die Terme mit ersten Ableitungen enthalten den Faktor R K(u)u du = 0 und fallen daher weg. Übrig bleiben die führenden und vernachlässigbaren Terme mit zweiten Ableitungen. Für die Ordnung des Restes Rn ist Z ∂2 ∂2 1 h2 K(u)u2 [ 2 ((mfX )(t))|t=ξ1 − 2 (mfX )(x)]du = o(h2 ) Rn (x) = fX (x) 2 ∂t ∂x für eine Zwischenstelle ξ1 zwischen x und x + hu zu zeigen. Der Faktor in eckigen Klammern in Rn ist eine Nullfolge, denn m und fX sind zweimal stetig differenzierbar; für festes u konvergiert also die Zwischenstelle ξ1 gegen x und damit auch die Differenz der zweiten Ableitungen an der 1.7 Verwandte Arbeiten 25 Stelle ξ1 gegen die an der Stelle x. Es bleibt zu zeigen, dass die Limesbildung in das Integral gezogen werden kann: Gleichmäßig in u gilt die Beschränktheit des Ausdrucks innerhalb der R eckigen Klammer. K hat kompakten Träger, und K(u)u2 du = µK 2 = O(1). Die Behauptung gilt daher mit dem Satz über die majorisierte Konvergenz. Dieses Argument wird in den folgenden Rechnungen wiederholt und auch für die Modifikation von Prop. 7 verwendet. Dieselbe Rate folgt für den weiteren Restterm, der die Differenz zweiter Ableitungen von fX (x) anstelle von m(x)fX (x) enthält, vgl. die letzte Zeile der vorletzten Formel. Um den zweiten Term in (1.28) durch seinen Bias und einen geeigneten Rest zu ersetzen, wird die Varianz des Terms berechnet. Es gilt mit dem Bias aus (1.29) = = = = n 1 1 X x − Xi (m(Xi ) − m(x)) Var K nh fX (x) i=1 h n h 1 1 X x − Xi IE K (m(Xi ) − m(x)) nh fX (x) i=1 h 2 i 1 1 ′′ ′′ ((m(x)f (x)) − m(x)f (x)) + o(h4 ) − h2 µK X 2 X 2 fX (x) n h 1 x − X i 1 1 X x − Xi 1 i IE K K (m(Xi ) − m(x)) (m(Xi ) − m(x)) nh fX (x) i=1 h nh fX (x) h 1 n − 1 2 1 −1 h2 µK (mfX )′′ (x) − m(x)fX′′ (x) + o(h4 ) + 2 n 2 fX (x) Z x − z 1 1 K2 (m(z) − m(x))2 fX (z)dz + O(h4 ) + o(h4 ) nh2 fX2 (x) h Z 1 1 1 2 2 4 . K (u)(m(x − hu) − m(x)) f (x − hu)du + O(h ) = O X nh fX2 (x) n Im letzten Schritt ist noch durch Entwicklung nach x in (m(x − hu) − m(x))2 ein zusätzlicher Faktor h hinzugekommen und die Voraussetzung nh4 = O(1) verwendet worden. Damit ist Lemma 1.31 gezeigt. Durch direkte Verwendung von Lemma 1.31 würden wir nicht die gewünschte Rate für den Restterm erzielen, die wir in Lemma 3.5(ii) verwenden wollen. Wir erhalten mit dem folgenden Lemma unter Verwendung der Definition von m̂ die Rate oP (n−1/2 ) anstelle von obiger Rate oP ((nh)−1/2 ) für den Restterm. Lemma 1.32. Unter den Voraussetzungen von Lemma 1.31 gilt in Modell (1.14) Z n 1 1X εi + h2 B + oP √ m̂(x) − m(x) fX (x)dx = n i=1 n mit Biasanteil B aus (1.21). Beweis zu Lemma 1.32. Unter Verwendung der Definition von m̂ in (1.16) gilt Z X Z n 1 Xi − x 1 1 K Yi m̂(x) − m(x) fX (x)dx = − m(x) fX (x)dx = t1 + t2 n i=1 h h fˆX (x) 26 Kapitel 1. Grundlagen mit n 1 X 1 Xi − x 1 t1 := m(Xi ) − m(x) fX (x)dx, K n i=1 h h fˆX (x) Z n 1 X 1 Xi − x 1 K t2 := εi fX (x)dx. ˆ n i=1 h h fX (x) Z (1.30) (1.31) An erster Stelle wird der Term wegen des Schätzers fˆX im Nenner zerlegt. Hier wird wie in Bemerkung 1.33 beschrieben weiter entwickelt. Für t1 aus (1.30) gilt n 1 X 1 Xi − x 1 K (m(Xi ) − m(x))fX (x)dx t1 = n i=1 h h fX (x) Z n 1 X 1 Xi − x 1 2 ˆ − K (fX (x) − fX (x))(m(Xi ) − m(x))fX (x)dx n i=1 h h fX (x) Z n 1 X 1 Xi − x 1 fˆX (x) − fX (x) 2 K + n i=1 h h fX (x) fX (x) fˆX (x) − fX (x) −1 × 1+ (m(Xi ) − m(x))fX (x)dx. fX (x) Z (1.32) (1.33) (1.34) Für den Term t2 aus (1.31) gilt eine entsprechende Darstellung mit führendem Term t21 := R 1 Pn 1 Xi −x P εi dx. Dieser Term liefert n1 ni=1 εi . Bis auf t21 sind alle weiteren Terme i=1 h K n h aus t2 von der Ordnung oP ( √1n ), was sich analog zu den Rechnungen zu t1 ergibt. Weil t21 zentriert ist, sind für den Erwartungswert zu t1 und t2 die Terme (1.32), (1.33) und (1.34) ausschlaggebend. Die Schritte für die Bestandteile aus t1 , (1.32), (1.33) und (1.34), werden im Folgenden beschrieben. Den gesuchten Biasterm erhalten wir aus dem Erwartungswert von (1.32) durch Substitution mit z = x + ht Z Z z − x 1 K (m(z) − m(x))dx fX (z)dz = K(t)(m(x + ht) − m(x))fX (x + ht)dx dt h h Z h2 K µ2 (mfX )′′ (x) − (mfX′′ )(x) dx + o(h2 ). = 2 Für die Varianz des Terms (1.32) ergibt sich mit den Substitutionen t = (z −x)/h, v = (z −u)/h mit x = z − th, u = z − vh Z n h Z 1 X 2 i 1 Xi − x h2 K K (m(Xi ) − m(x))dx − µ2 ((mfX )′′ (x) − (mfX′′ )(x))dx IE n i=1 h h 2 Z h4 1 h4 K 2 = (m′′ (z))2 fX (z)dz + o (µ2 ) 4n n Z 1 h2 h4 2 2 1 h K µ2 ((mfX )′′ (x) − (mfX′′ )(x))dx = O + =o . − n 2 n n n 1.7 Verwandte Arbeiten 27 Im Folgenden wird für (1.33) gezeigt, dass n hZ 1 X i 1 1 Xi − x 1 ˆ Rn := IE K fX (x) − fX (x) m(Xi ) − m(x) dx = o √ ,(1.35) n i=1 h h fX (x) n n hZ 1 X i 1 1 Xi − x 1 ˆ Sn := Var K fX (x) − fX (x) m(Xi ) − m(x) dx = o (1.36) n i=1 h h fX (x) n gelten. Für den Term innerhalb des Erwartungswertes in Rn gilt mit der Definition von fˆX in (1.13) Z n n 1 X 1 Xi − x 1 1 X 1 Xj − x K K − fX (x) (m(Xi ) − m(x))dx (1.37) n i=1 h h fX (x) n j=1 h h Z n n 1 X 1 Xi − x 1 1 X 1 Xj − x = K K (m(Xi ) − m(x))dx n i=1 h h fX (x) n j=1 h h Z n 1 X 1 Xi − x 1 − K fX (x)(m(Xi ) − m(x))dx. n i=1 h h fX (x) Wegen der Unterscheidung der Fälle i = j und i 6= j gliedert sich Rn wie folgt weiter auf: Z Z 1 1 2 z −x (m(z) − m(x)) dxfX (z)dz Rn = K nh2 h fX (x) Z Z t − x z − x 1 n − 1 Z 1 K (m(z) − m(x))fX (t)dt dx fX (z)dz K + 2 h h fX (x) n h Z Z z − x 1 K (m(z) − m(x))dxfX (z)dz − h h Z Z 1 1 (m(x + hu) − m(x))fX (x + uh)dx du K 2 (u) = nh fX (x) Z Z Z n−1 1 + K(u)(m(x + hu) − m(x))fX (x + uh)du K(v)fX (x + vh)dv dx n fX (x) Z Z − K(u)(m(x + hu) − m(x))fX (x + hu)du dx. Mit einer Taylorentwicklung folgt weiter Z Z h 1 1 ′ ′ 2 ((mfX ) (x) − (mfX )(x))dx + O K (u)u du Rn = n fX (x) n Z 2 n−1 1 h K + µ ((mfX )′′ (x) − (mfX′′ )(x)) (1.38) n fX (x) 2 2 Z h2 f ′′ (x)]dx (1.39) ×[ K(v)dvfX (x) + µK 2 2 X Z h2 K − µ2 ((mfX )′′ (x) − (mfX′′ )(x))dx + o(h2 ) (1.40) 2 Z Z h2 K h2 K ′′ ′′ µ ((mfX ) (x) − (mfX )(x))dx − µ2 ((mfX )′′ (x) − (mfX′′ )(x))dx = 2 2 2 h h2 h2 1 1 +O +O +o + o(h2 ) + O(h4 ) + o(h4 ) = o √ . +O n n n n n 28 Kapitel 1. Grundlagen Aus der letzten Gleichheit ist ersichtlich, dass die Terme der Ordnung O(h2 ) in den Zeilen (1.38), (1.39) und (1.40) gegeneinander wegfallen. Damit ist (1.35) gezeigt, und für den Term in (1.33) ist noch (1.36) zu zeigen. Die Varianz Sn ist von der Form n n h Z 1 X 1 Xi − x 1 1 X 1 Xj − x IE K K − fX (x) m(Xi ) − m(x) dx − Rn n i=1 h h fX (x) n j=1 h h n n Z 1 X i 1 Xk − z 1 1 X 1 Xl − z K K − fX (z) m(Xk ) − m(z) dz − Rn . n k=1 h h fX (z) n l=1 h h Beim Ausmultiplizieren zerfällt Sn in vier Summanden, wobei sich die drei Summanden, die den Faktor Rn enthalten, gegen den führenden Term des Summanden ohne Faktoren Rn im Fall, wo die Summationsindizes i, j, k, l paarweise verschieden Deshalb betrachten sind, wegheben. Xk −z Xl −z wir für den Summanden ohne Faktoren Rn den K K h enthaltenen Summanden h exemplarisch für den Fall i = k, i 6= j, i 6= l, j 6= l. Analog ergeben sich die Raten für die anderen Fälle und die Raten in den anderen drei Summanden. Es gilt also n n h Z 1 X 1 Xi − x 1 1 X 1 Xj − x K K (m(Xi ) − m(x))dx Sn1 := IE n i=1 h h fX (x) n j=1,j6=i h h n Z 1 1 X − z 1 1 X i 1 Xl − z i K K (m(Xi ) − m(z))dz nh h fX (z) n l=1,l6=i,l6=j h h Z Z Z Z Z u − x v − z w − x w − z n(n − 1)(n − 2) K K K (m(w) − m(x)) K = (nh)4 h h h h (m(w) − m(z))(fX (x))−1 (fX (z))−1 fX (u)fX (v)fX (w) du dv dw dx dz. Mit den Substitutionen x = u − ha, ha = u − x, a = u−x und z = v − hb, hb = v − z, b = v−z h h w−v und v = w − hd, d = und im zweiten Schritt mit den Substitutionen u = w − hc, c = w−u h h gilt Z Z Z Z Z n(n − 1)(n − 2)h2 w − (v − hb) w − (u − ha) Sn1 = K K(a)K(b)K (nh)4 h h −1 −1 (fX (u − ha)) (fX (v − hb)) (m(w) − m(u − ha)) (m(w) − m(v − hb))fX (u)fX (v)fX (w) du dv dw da db Z Z Z Z Z n(n − 1)(n − 2) = K(a)K(b)K(a + c)K(b + d)(m(w) − m(w − hc − ha)) n4 (m(w) − m(w − hd − hb))(fX (w − hc − ha))−1 (fX (w − hd − hb))−1 h2 1 fX (w − hc)fX (w − hd)fX (w) da db dc dd dw = O =o . n n Die Rate erhalten wir durch Taylorentwicklung in (m(w)−m(w−hc−ha)), also m(w−hc−ha) = m(w) + hO(1). Durch das Wegfallen des Terms m(w) gegen −m(w) verschwindet der Term größter Ordnung, der verbleibende Term ist von der Ordnung O( nh ). Einen weiteren Faktor h erreichen wir analog aus (m(w) − m(w − hd − hb)). Damit ist der Beweis von (1.36) und damit die Betrachtung des Terms in (1.33) abgeschlossen. Für den dritten Term aus t1 , (1.34), 1.7 Verwandte Arbeiten 29 erhalten wir durch eine Abschätzung gemäß Bemerkung 1.33 die Ordnung oP ( √1n ). Lemma 1.32 ist also gezeigt. Lemma 1.32 liefert als Nebenprodukt den Bias zu F̂n (y) − F (y), der aus (1.21) bekannt ist. Bemerkung 1.33. Diese Bemerkung behandelt eine Technik, die in den Beweisen wiederholt zum Einsatz kommt. In den Schätzern m̂(x) (und auch in σ̂(x), was wir im heteroskedastischen Modell zusätzlich verwenden) steht der Faktor fˆ 1(x) mit dem Dichteschätzer fˆX an der Stelle X x. Beispielsweise in den Rechnungen zum Term in (1.30) ist dieser Faktor aufgetreten. Um durch Taylorentwicklung und die Berechnung von Erwartungswert und Varianz führende und vernachlässigbare Terme identifizieren zu können, ist es nötig, fˆ 1(x) durch den entsprechenden X Term fX1(x) mit der Designdichte fX und weitere ggf. vollständig vernachlässigbare Terme zu ersetzen. Es gilt die Darstellung 1 fˆX (x) = 1 fˆX (x) − fX (x) −1 1+ . fX (x) fX (x) (1.41) Wir versuchen, durch geschicktes Abschätzen des letzten Summanden in Klammern der Entwicklung (1.41) einen aufgrund seiner Rate vernachlässigbaren Term zu erhalten. Dazu wird der Betrag des letzten Terms abgeschätzt, indem die Beträge nach innen gezogen und einzelne Terme durch Suprema abgeschätzt werden. Genutzt werden kann dabei supx∈[0,1] |fˆX (x) − fX (x)| = O((nh)−1/2 (log h−1 )1/2 ) f.s. (vgl. AVK (2001), Prop. 1) und supx∈[0,1] |(fˆX (x))−1 | = OP (1) gemäß Annahme (M1), im heteroskedastischen Modell gemäß (M). Sollte der betrachtete Term insgesamt nicht die erforderliche Rate zur Vernachlässigung besitzen, kann alternativ höher entwickelt werden: dies haben wir in den Rechnungen zu t1 aus (1.30) verwendet. ˆ z2 1 X (x) = 1 − z + (1+z) für z = fX (x)−f mit fX (x) 6= 0 zu verwenden. Wir Zu diesem Zweck ist (1+z) fX (x) erhalten für den relevanten Faktor fˆX (x) − fX (x) fˆX (x) − fX (x) 2 fˆX (x) − fX (x) −1 1 + 1− 1+ . = fX (x) fX (x) fX (x) fX (x) fˆX (x) 1 (1.42) Wieder wird die Rate des letzten Terms aus der Entwicklung mit den oben beschriebenen Schritten berechnet, um neben führenden Termen einen vernachlässigbaren Term zu identifizieren. Nach den Anpassungen der Resultate aus AVK (2001) auf die aktuelle Fragestellung im homoskedastischen Modell werden die Aussagen auch für das heteroskedastische Modell vorgestellt, welches bei AVK (2001) ursprünglich (in noch größerer Allgemeinheit) betrachtet wurde. Nach dem Hauptresultat zur schwachen Konvergenz werden einige Hilfsmittel und Sätze im hier benötigten Rahmen des heteroskedastischen Modells (1.18) angegeben. Wir stellen zuerst das entsprechende Theorem zur schwachen Konvergenz vor. Mit Theorem 2 aus AVK (2001) gilt in Modell (1.18), dass unter den Annahmen (M1), (K), (H) und Annahme (M) aus Abschnitt 1.5 für eine Bandbreite h mit nh4 = O(1) der stochastische Prozess 30 Kapitel 1. Grundlagen √ n(F̂n − F − b1 ) schwach gegen einen zentrierten Gaußprozess G mit Kovarianzstruktur Cov(G(y), G(z)) = F (min(y, z)) − F (y)F (z) (1.43) + f (y)f (z) + IE[ε1 I{ε1 ≤ y}]f (z) + IE[ε1 I{ε1 ≤ z}]f (y) 1 1 + yf (y)IE[(ε21 − 1)I{ε1 ≤ z}] + zf (z)IE[(ε21 − 1)I{ε1 ≤ y}] 2 2 1 1 1 3 + yf (y)f (z)IE[ε1 ] + f (y)zf (z)IE[ε31 ] + yf (y)zf (z)Var(ε21 ) 2 2 4 konvergiert. Der Biasterm ist im Unterschied zu b in (1.21) von der Form b1 (y) = h f (y)B1 + yf (y)B2 , 2 wobei Z 1 1 K (mfX )′′ (x) − (mfX′′ )(x) dx B1 = µ2 2 σ(x) Z 1 2 1 K ′′ 2 ′′ ′ 2 (σ fX ) (x) − (σ fX )(x) + 2(m (x)) fX (x) dx und B2 = µ2 2 2σ 2 (x) (1.44) (1.45) (1.46) ist. √ Falls nh4 → 0, n → ∞, gilt, konvergiert der Prozess n(F̂n − F ) gegen einen zentrierten Gaußprozess G mit der Kovarianzfunktion aus (1.43). In Modell (1.18) vereinfacht sich die Funktion ϕ von Theorem 1 aus AVK (2001) wie folgt: ϕ(x, z, y) = = = = Z f (y) v − m(x) − (I{z ≤ v} − F (v|x)) 1 + y dv (1.47) σ(x) σ(x) Z z Z m(x) ∞ f (y) 1−y F (v|x)dv (1 − F (v|x))dv − − σ(x) σ(x) −∞ z Z z Z f (y) y ∞ − vF (v|x)dv v(1 − F (v|x))dv − σ(x) σ(x) z −∞ f (y) z2 m(x) f (y)y 1 2 − (σ (x) + m2 (x)) − 1−y (m(x) − z) − 2 σ(x) σ(x) σ (x) 2 2 f (y) 1 1 1 − 2 σ(x)(m(x) − z) − ym2 (x) + ym(x)z + σ 2 (x)y + m2 (x)y − yz 2 , σ (x) 2 2 2 vergleiche Neumeyer und Dette (2004), Beweis von Theorem 3.1, und speziell 2 IE[Y ] = Z 0 ∞ 2v(1 − F (v))dv − 2 Z 0 vF (v)dv (1.48) −∞ aus Shorack (2000), Kap. 7, Prop. 4.2, (13) für eine Zufallsvariable Y mit stetiger Verteilungsfunktion F . Daher gilt y ϕ(Xi , Yi , y) = f (y)(εi + (ε2i − 1)). 2 1.7 Verwandte Arbeiten 31 Der in (1.44) unter Verwendung von (1.45) und (1.46) definierte Bias b1 folgt aus der Entwicklung Z m̂(x) − m(x) F̂n (y) − F (y) = Fn (y) − F (y) + f (y) fX (x) dx (1.49) σ(x) Z 1 σ̂(x) − σ(x) + yf (y) fX (x) dx + oP √ σ(x) n Z m̂(x) − m(x) = Fn (y) − F (y) + f (y) fX (x) dx σ(x) Z 2 1 σ̂ (x) − σ 2 (x) √ f (x) dx + o + yf (y) X P 2σ 2 (x) n gleichmäßig in y ∈ IR (vgl. AVK (2001), S. 555 und 564) durch Einsetzen der Definitionen von m̂ in (1.16) und σ̂ 2 in (1.20). Wir zeigen mit Lemma 1.36 und Lemma 1.38, dass aus der obigen Entwicklung die Darstellung n F̂n (y) = Fn (y) + f (y) h2 +f (y) 2 n 1X1 1X (εi − 1)2 εi + yf (y) n i=1 n i=1 2 µK 2 ((mfX )′′ (x) − m(x)fX′′ (x))dx σ(x) Z 1 2 K ((σ 2 fX )′′ (x) − σ 2 (x)fX′′ (x))dx +yf (y)h µ2 4σ 2 (x) Z 1 1 ′ 2 + (m ) (x)f (x)dx + o X P √ 2σ 2 (x) n Z folgt. Es gilt eine zu Lemma 1.31 ähnliche Entwicklung, die wir im folgenden Lemma ohne Beweis vorstellen: Lemma 1.34. Unter den Voraussetzungen von Lemma 1.31 gilt in Modell (1.18) für jedes x ∈ [0, 1] n 1 X x − Xi 1 σ(Xi )εi K m̂(x) − m(x) = nh fX (x) i=1 h 1 h2 K 1 ′′ ′′ + µ2 (mfX ) (x) − (mfX )(x) + oP √ . 2 fX (x) nh R Eine Entwicklung für den Term (m̂(x) − m(x))fX (x) dx wurde schon in Lemma 1.32 gezeigt. Entsprechend werden auch die folgenden ähnlichen Lemmata ohne Beweis angegeben. Lemma 1.35. Unter den Voraussetzungen von Lemma 1.31 gilt in Modell (1.18) Z n 1 1X σ(Xi )εi + h2 B + oP √ m̂(x) − m(x) fX (x)dx = n i=1 n mit Biasanteil B aus (1.21). 32 Kapitel 1. Grundlagen Lemma 1.36. Unter den Voraussetzungen aus Lemma 1.31 gilt in Modell (1.18) Z 1 (m̂(x) − m(x)) fX (x)dx σ(x) Z n 1 µK h2 1X 2 (mfX )′′ (x) − m(x)fX′′ (x) dx + oP √ . εi + = n i=1 2 σ(x) n Wir wenden uns nun den Termen zu, die die Differenz σ̂(x) − σ(x) enthalten. In der obigen Entwicklung in (1.49) tritt der Term Z σ̂(x) − σ(x) fX (x) dx σ(x) auf, der im Anschluss an eine Entwicklung für (σ̂ − σ)(x) in Lemma 1.36 entwickelt wird. Wir werden im Folgenden wiederholt auf die Rate sup |σ̂(x) − σ(x)| = O((nh)−1/2 (log(h−1 )1/2 )) f.s. (1.50) x∈[0,1] aus Prop. 3 zurückgreifen. Gemäß AVK (2001), Prop. 7 gilt unter Gültigkeit von (H), (K), (M1) und (M) für jedes x ∈ [0, 1] die Entwicklung n σ(x) − σ̂(x) = (nh) −1 1 X x − Xi K fX (x) i=1 h +Rn (x) Z [I{Yi ≤ y} − F (y|x)] y − m(x) dy σ(x) (1.51) mit supx∈[0,1] |Rn (x)| = O((nh)−1 log h−1 ) fast sicher. Dabei ist (nh)−1 log(h−1 ) = o((nh)−1/2 ). Im uns interessierenden Fall hat die Entwicklung die folgende Gestalt: Lemma 1.37. Unter Gültigkeit von (H), (K), (M1) und (M) gilt in Modell (1.18) für jedes x ∈ [0, 1] n σ(x) − σ̂(x) = − 1 1 X x − Xi 1 σ 2 (Xi )(ε2i − 1) K nh fX (x) i=1 h 2σ(x) 1 K h2 1 µ2 (σ 2 fX )′′ (x) − (σ 2 fX′′ )(x) 4 fX (x) σ(x) h2 1 K ′ + µ2 (m (x))2 2 σ(x) 1 . +oP √ nh + (1.52) (1.53) Beweis zu Lemma 1.37. Das in (1.51) enthaltene Integral wird folgendermaßen vereinfacht. Gemäß Z 1 σ 2 (x) + m2 (x) 1 z 2 m(x)(m(x) − z) y − m(x) dy = − − (I{z ≤ y} − F (y|x)) σ(x) 2 σ(x) σ(x) 2 σ(x) 1.7 Verwandte Arbeiten 33 nach der Rechnung zu ϕ aus (1.47) gilt unter Verwendung von (1.26) und (1.48) für den Term in Zeile (1.51) Z n 1 1 X x − Xi y − m(x) Sn (x) := dy K [I{Yi ≤ y} − F (y|x)] nh fX (x) i=1 h σ(x) n 1 1 2 m(x)(m(x) − Yi ) 1 X x − Xi 1 σ 2 (x) + m2 (x) 1 − Y − . (1.54) K = nh fX (x) i=1 h 2 σ(x) σ(x) 2 i σ(x) Um die Gleichheit zwischen dem Ausdruck in Zeile (1.54) und der behaupteten Darstellung für σ(x) − σ̂(x) zu zeigen, wird der Term in (1.54) im Folgenden zerlegt. Es gilt n 1 1 X x − Xi 1 Sn (x) = − σ 2 (Xi )(ε2i − 1) (1.55) K nh fX (x) i=1 h 2σ(x) n 1 1 X x − Xi 1 − K (σ 2 (Xi ) − σ 2 (x)) (1.56) nh fX (x) i=1 h 2σ(x) n 1 X x − Xi 1 1 (m(x) − m(Xi ))2 (1.57) K − nh fX (x) i=1 h 2σ(x) n 1 X x − Xi 1 1 (m(x) − m(Xi ))σ(Xi )εi (1.58) K + nh fX (x) i=1 h σ(x) =: Sn1 (x) + Sn2 (x) + Sn3 (x) + Sn4 (x). Dabei ist Sn1 der dominierende Term, die beiden folgenden Terme Sn2 und Sn3 enthalten den Bias (1.52) und (1.53), und der letzte Term Sn4 leistet einen asymptotisch verschwindenden Beitrag. Genauer: Der Term Sn1 in (1.55) ist zentriert, findet sich unter den Summanden auf der rechten Seite der Behauptung, und seine Varianz ist von der Ordnung O(n−1 h−1 ). Für Sn2 in (1.56) gilt mit Substitution und Taylorentwicklung ähnlich wie im Beweis zu Lemma 1.31 IE[Sn2 (x)] = h2 1 1 K µ2 (σ 2 fX )′′ (x) − σ 2 (x)fX′′ (x) + o(h2 ) 4 fX (x) σ(x) und Var(Sn2 (x)) = o(n−1 h−1 ). Für (1.57) gilt IE[Sn3 (x)] = h2 1 K ′ µ (m (x))2 + o(h2 ) 2 σ(x) 2 und Var(Sn3 (x)) = O(n−1 ) + O(h4 ) = o(n−1 h−1 ). Für den Term in (1.58) gilt Zentriertheit und Var(Sn4 (x)) = O(n−1 ) = o(n−1 h−1 ). Somit ist der Beweis zu Lemma 1.37 abgeschlossen. R 1 Es folgt die Entwicklung für σ(x) (σ̂ − σ)(x)fX (x)dx analog zu Lemma 1.36. Darin enthalten ist die Entwicklung zum zweiten Integral, das in der Entwicklung in (1.49) auftritt. Lemma 1.38. Unter den Voraussetzungen von Lemma 1.37 gilt in Modell (1.18) Z n 1 X 2 1 (ε − 1) (1.59) σ̂(x) − σ(x) fX (x)dx = σ(x) 2n i=1 i Z Z 1 1 1 2 ′′ 2 ′′ ′ 2 2 K (σ f ) (z) − σ (z)f (z) dz + (m ) (z)f (z)dz + o . +h µ2 X X P √ X 4σ 2 (z) 2σ 2 (z) n 34 Kapitel 1. Grundlagen Beweis zu Lemma 1.38. Zu zeigen ist, dass der Erwartungswert zum Term auf der linken Seite der Behauptung den Bias ergibt. Dabei handelt es sich um den Term in der zweiten Zeile von der Ordnung O(h2 ). Wir können dabei Terme der Ordnung o( √1n ) vernachlässigen. Für die Varianz betrachten wir den Term auf der linken Seite abzüglich der nicht vernachlässigbaren Terme auf der rechten Seite der Behauptung und zeigen hierfür die Ordnung o( n1 ). Wir beginnen in diesem Lemma mit der Definition des Schätzers σ̂ 2 aus (1.20) und verwenden nicht die Entwicklung für σ − σ̂ aus Lemma 1.37. Auf diese Weise sind wir auch in Lemma 1.32 vorgegangen. Wir werden die Aussage mit ähnlichen Schritten beweisen und für einige Details auf den dort ausführlichen Beweis verweisen. Nach dem Beweis zu Prop. 7 in AVK (2001) gilt (σ̂ − σ)(x) = σ̂ 2 (x) − σ 2 (x) [σ̂(x) − σ(x)]2 − . 2σ(x) 2σ(x) Für den zweiten Bruch gilt die Abschätzung [σ̂(x) − σ(x)]2 = O((nh)−1 log(h−1 )) f.s. 2σ(x) und (nh)−1 log(h−1 ) = o(n−1/2 ) wegen der zweiten Bandbreitenannahme in (H) von S. 17. Aus diesem Grund reicht es, im Folgenden nur noch den ersten Bruch zu betrachten. Es gilt mit der Definition von σ̂ 2 aus (1.20) 2 Z σ̂ (x) − σ 2 (x) 1 fX (x)dx σ(x) 2σ(x) Z n 1 1 1 X Xi − x = (Yi − m̂(x))2 − σ 2 (x)]dx = An + Bn K fX (x)[ 2 ˆ 2σ (x) nh i=1 h fX (x) Z n 1 1 X 1 Xi − x f (x) [(Yi − m̂(x))2 − σ 2 (x)]dx mit An := K X 2 2σ (x) nh i=1 h fX (x) und Bn = oP √1n . Der Nachweis für diese Rate erfolgt analog zu den entsprechenden Termen aus der Zerlegung von t1 und t2 im Beweis zu Lemma 1.32. Für einen Teil von An erhalten wir die folgende Zerlegung: 2 Yi − m̂(x) − σ 2 (x) 2 = m(Xi ) − m(x) + m(x) − m̂(x) + σ(Xi )εi − σ 2 (x) + σ 2 (Xi ) − σ 2 (Xi ) 2 2 = m(Xi ) − m(x) + 2 m(Xi ) − m(x) m(x) − m̂(x) + m(x) − m̂(x) +2σ(Xi )εi m(Xi ) − m(x) + 2σ(Xi )εi m(x) − m̂(x) + σ 2 (Xi ) ε2i − 1 + σ 2 (Xi ) − σ 2 (x). Damit erhalten wir die Zerlegung An = tn1 := Z n 1 X 1 K 2σ 2 (x) nh i=1 P7 j=1 tnj Xi − x h h mit i (m(Xi ) − m(x))2 dx, 1.7 Verwandte Arbeiten tn2 := Z tn3 := Z tn4 := Z tn5 := Z tn6 := Z tn7 := Z 35 n 1 1 X K 2σ 2 (x) nh i=1 n 1 1 X K 2σ 2 (x) nh i=1 n 1 X 1 K 2σ 2 (x) nh i=1 n 1 1 X K 2σ 2 (x) nh i=1 n 1 X 1 K 2σ 2 (x) nh i=1 n 1 1 X K 2σ 2 (x) nh i=1 Xi − x h Xi − x h Xi − x h Xi − x h Xi − x h Xi − x h h h h h h h i 2(m(Xi ) − m(x))(m(x) − m̂(x)) dx, 2 i (m(x) − m̂(x)) dx, i 2σ(Xi )εi (m(Xi ) − m(x)) dx, i 2σ(Xi )εi (m(x) − m̂(x)) dx, σ 2 (Xi )(ε2i i − 1) dx, i σ 2 (Xi ) − σ 2 (x) dx. In den Termen tn2 , tn3 und tn5 tritt der Schätzer m̂ auf, den wir wieder gemäß seiner Definition (1.16) ersetzen. Es gilt nach dem Einsetzen der Definition tn2 = tn21 + tn22 mit tn22 = oP (n−1/2 ) und Z n n 1 X X − x (m(x) − Y ) i 2 X Xi − x h 1 j j (m(X ) − m(x)) dx, K K tn21 := i 2 2σ (x) nh i=1 h nh j=1 h fX (x) tn3 = tn31 + tn32 mit tn32 = oP (n−1/2 ) und tn31 := Z n n 1 1 2 1 X Xi − x 1 X Xj − x K K dx, (m(x) − Yj ) 2σ 2 (x) nh i=1 h nh j=1 h fX (x) tn5 = tn51 + tn52 mit tn52 = oP (n−1/2 ) und tn51 := Z n n 1 X X − x 1 i 1 X Xi − x h 1 j 2σ(Xi )εi (m(x) − Yj ) dx K K 2σ 2 (x) nh i=1 h nh j=1 h fX (x) auf analoge Weise wie oben bei der Zerlegung in An und Bn . Zentriert sind die Terme tn4 und tn6 , Pn Pn 1 1 1 2 2 wobei tn6 den zentrierten Term 2n i=1 (εi − 1) enthält und Var(tn6 − 2n i=1 (εi − 1)) = o( n ) gilt, wie wir unten zeigen werden. Daher betrachten wir für den Bias nur die verbleibenden Terme tn1 , tn21 , tn31 und tn7 . Es gilt IE[tn21 ] = o( √1n ), IE[tn31 ] = o( √1n ), IE[tn51 ] = o( √1n ), IE[tn1 ] = h2 µK 2 IE[tn7 ] = h2 µK 2 Z Z 1 2σ 2 (x) (m′ )2 (x)fX (x)dx + o(h2 ), 1 2 ′′ 2 ′′ (σ f ) (x) − σ (x)f (x) dx + o(h2 ). X X 4σ 2 (x) 36 Kapitel 1. Grundlagen 1 Wir zeigen die Rechnung zur Varianz von tn6 − 2n Pn 2 i=1 (εi − 1). Es gilt mit den Substitutionen i h u = x + hv im ersten Schritt und x = z + hw im zweiten Schritt mit ξn := 1 IE 4n 2 (ε21 − 1) n n i2 i h 1 X hZ 1 1 Xi − x 2 1 X 2 2 2 K σ (X )dx − 1 (εi − 1)) ] = IE (εi − 1) IE[(tn6 − i 2n i=1 2n i=1 σ 2 (x) h h Z Z Z 1 u − x σ 2 (u) 1 u − z σ 2 (u) = ξn K − 1 dx K − 1 dzfX (u)du h h σ 2 (x) h h σ 2 (z) Z Z σ 2 (x + hv) − σ 2 (x) Z 1 x + hv − z σ 2 (x + hv) − σ 2 (z) K = ξn K(v) σ 2 (x) h h σ 2 (z) dzfX (x + hv)dxdv Z Z 1 = ξn K(v) 2 σ 2 (z + h(v + w)) − σ 2 (z + hw) σ (z + hw) Z h 1 σ 2 (z + h(v + w)) − σ 2 (z) f (z + h(v + w))dzdvdw = O = o . K(v + w) X σ 2 (z) n n Durch die Differenz im Bruch erhalten wir durch eine Entwicklung den Wegfall des Terms der Ordnung O( n1 ), der verbleibende Term enthält einen zusätzlichen Faktor h und ist beschränkt. Die restliche Varianzberechnung folgt mit ähnlichen Schritten wie in den Rechnungen in diesem Beweis und im ausführlicheren Beweis zu Lemma 1.32. Damit folgt die Behauptung in Lemma 1.38. Kapitel 2 Empirical Likelihood 2.1 Überblick In diesem Kapitel wird ein modifizierter Schätzer einer Verteilungsfunktion durch Einbindung einer Zusatzinformation entwickelt. Dazu wird das Konzept des Empirical Likelihood in Form eines nichtparametrischen Maximum Likelihood-Verfahrens aus Qin und Lawless (1994), basierend auf Owen (1988), verwendet. Wir beginnen damit, eine generelle Einordnung des Empirical-Likelihood-Verfahrens und einen Einblick in die zugehörige Literatur zu geben. Im Anschluss an diese Einführung zeigen wir konkret die Herleitung des Schätzers mit diesem Verfahren in Abschnitt 2.2. In Abschnitt 2.3 stellen wir einige in diesem Zusammenhang besonders wichtige Arbeiten vor. Mit Empirical Likelihood wird ein Verfahren der mathematischen Statistik bezeichnet, welches den parametrischen Likelihood-Ansatz auf nichtparametrische Fragestellungen überträgt und anwendbar macht. Die grundlegenden Arbeiten zum Empirical-Likelihood-Verfahren stammen von Owen (1988, 1990). Konkret dient dieses Verfahren unter anderem zur Konstruktion von Schätzern, mit denen wir auf der Basis von gewonnenen Daten die Verteilungsfunktion der zugrundeliegenden Zufallsvariablen oder Funktionale der unbekannten Verteilungsfunktion nichtparametrisch schätzen bzw. Teststatistiken konstruieren können. Darüber hinaus können Konfidenzbereiche in nichtparametrischen Zusammenhängen konstruiert und zusätzliche Informationen über die den Daten zugrundeliegende Verteilung in der Schätzung berücksichtigt werden. Owen (1988) konstruiert sogenannte Empirical Likelihood-Quotienten-Teststatistiken und zeigt, dass sie unter gewissen Umständen asymptotisch χ2 -verteilt sind. Dieser Autor beschäftigt sich mit unabhängigen und identisch verteilten Zufallsgrößen, mit deren Hilfe Schätzer für Parameter der unbekannten Verteilungsfunktion konstruiert werden, die als Funktionale der Verteilungsfunktion dargestellt werden. Die oben genannten Arbeiten sind unter anderem ergänzt worden durch Hall und LaScala (1990), DiCiccio, Hall und Romano (1989, 1991), DiCiccio und 37 38 Kapitel 2. Empirical Likelihood Romano (1989), Hall (1990), Kitamura (1997), Einmahl und McKeague (2003), im Hinblick auf Empirical Likelihood und Hypothesen auf Momenten vergleiche unter anderem Kitamura (2001), Kitamura, Tripathi und Ahn (2004), und Bonnal und Renault (2004). Die Artikel Owen (1991) und Hall und LaScala (1990) vermitteln einen Überblick über die früheren Entwicklungen; einen Überblick über das Empirical Likelihood aus späterer Perspektive enthält die Monographie Owen (2001). Das Verfahren ist auch in Lehrbüchern vertreten, vgl. Van der Vaart (1998) §25.10 und Shao (1999) §5.1.2. Die beiden Arbeiten Qin und Lawless (1994) und Zhang (1997) sind im Zusammenhang mit der hier betrachteten Fragestellung besonders wichtig. Der Empirical-Likelihood-Schätzer für die Verteilung der Fehlervariablen aus dem linearen Regressionsmodell wurde in Nagel (2002) untersucht, dabei basiert der Schätzer auf den aus dem linearen Modell resultierenden Residuen. Genz (2004) stellt eine Arbeit zum EmpiricalLikelihood-Schätzer für die Fehlerverteilung im AR(1)-Zeitreihenmodell dar. In diesen beiden Arbeiten wird jeweils nur die Zentriertheit der Fehler als Zusatzinformation berücksichtigt. Genz und Häusler (2006) betrachten die Schätzung der Verteilungsfunktion F aus beobachtbaren unabhängigen und identisch bezüglich F verteilten Zufallsvariablen unter Betrachtung einer wie auch in dieser Arbeit zugrundegelegten Zusatzinformation und testen, ob F innerhalb einer parametrischen Klasse liegt. Qin und Lawless (1994) und auch Zhang (1997) betrachten einen Datensatz zu (beobachtbaren) unabhängigen und identisch nach einer Verteilungsfunktion F verteilten Zufallsvariablen ε1 , . . . , εn . In beiden Arbeiten wird ein Schätzer für die zugrundeliegende unbekannte Verteilungsfunktion F für den Fall untersucht, in dem Informationen über die Verteilung verfügbar sind. Die Methode aus Qin und Lawless (1994) ist deshalb nicht unverändert auf die hier untersuchte Fragestellung anwendbar, weil die Fehler im nichtparametrischen Regressionsmodell nicht beobachtbar sind. Daher ist für den Zweck dieser Arbeit das Verfahren aus Qin und Lawless (1994) anstatt auf die hier genannten Fehler auf Residuen anzuwenden, wann immer von einem Satz von Realisierungen ε1 , . . . , εn die Rede ist. Die Empirical-Likelihood-Methode wird im Folgenden anhand von beobachtbaren Zufallsvariablen ε1 , . . . , εn vorgestellt, und nach Einführung der nötigen Begriffe werden die Resultate von Qin und Lawless (1994) genauer dargestellt. 2.2 Herleitung des Schätzers Zusätzliche Information über die Fehlerverteilung liegen in Form der Schätzgleichung (estimating equation) IE[g(ε1 )] = Z g(y) dF (y) = 0 (2.1) 2.2 Herleitung des Schätzers 39 vor. Dabei ist g = (g1 , . . . , gk )T : IR → IRk eine bekannte Funktion, die sogenannte Schätzfunktion (estimating function), mit IE[gj2 (ε1 )] < ∞ (j = 1, . . . , k). Das könnte zum Beispiel g(ε) = ε sein, dem entspricht eine Modellannahme von zentrierten Fehlern. Andere Beispiele sind eine Funktion aus zwei Komponenten g(ε) = (ε, ε2 − σ 2 )T für zentrierte Fehler und eine bekannte Varianz σ 2 oder die Funktion g(ε) = I{ε ≤ q} − 12 im Falle der Bekanntheit des Medians q. Dabei ist der Median q definiert als derjenige reelle Wert, für den F (q) = 1/2 gilt. Der Empirical-Likelihood-Schätzer für die Fehlerverteilung ist F̃n (y) = n X i=1 pi I{εi ≤ y}, y ∈ IR. (2.2) Die Gewichte pi ∈ (0, 1) sind mit pi = F̃n (εi ) − F̃n (εi −) so gewählt, dass die empirische Wahrscheinlichkeit (Likelihoodfunktion) L(p1 , . . . , pn ) = n Y pi (2.3) i=1 maximiert wird unter den folgenden Bedingungen n X i=1 pi = 1, Z g(y) dF̃n (y) = n X pi g(εi ) = 0. (2.4) i=1 Die Einschränkung auf pi ∈ (0, 1) schließt den Fall L = 0 aus. Für einen gegebenen Datensatz werden diese Annahmen für die Garantie der eindeutigen Lösung des Maximierungsproblems beim Empirical-Likelihood-Ansatz benötigt. Es ist klar, dass wir den Schätzer für einen festen Datensatz von Fehlern ε1 , . . . , εn bzw. später von Residuen ε̂1 , . . . , ε̂n herleiten. Bei der Untersuchung des Schätzers hinsichtlich seiner asymptotischen und stochastischen Eigenschaften betrachten wir ihn natürlich bezüglich der den Datensätzen zugrundeliegenden Zufallsvariablen, die wie ihre Realisierungen in der Herleitung mit ε1 , . . . , εn bzw. mit ε̂1 , . . . , ε̂n bezeichnet werden. Der Schätzer F̃n wird gerade so gewählt, dass er die Zusatzinformationen aus (2.4) erfüllt. Das arithmetische Mittel in der zweiten Bedingung aus (2.4) stellt die empirische Version von (2.1) dar, auf diese Weise wird die Informationen in die Bedingungen integriert. Für die Schätzfunktion g = (g1 , . . . , gk ) wird in dem Sinn Unabhängigkeit vorausgesetzt, dass eine beliebige Komponente gi nicht als Linearkombination der restlichen Komponenten g1 , . . . , gi−1 , gi+1 , . . . , gk der Schätzfunktion ausgedrückt werden kann. Wir betrachten an dieser Stelle kurz den Fall, wenn die zweite Bedingung aus (2.4) nicht verwendet wird. Dies entspricht dem Fall, dass uns gerade keine Informationen über die Verteilungsfunktion vorliegen. In diesem Fall ergeben sich durch die Maximierung von L(p1 , . . . , pn ) alle Gewichte pi gleich 1/n, und wir erhalten mit diesem Verfahren wieder die empirische Verteilungsfunktion Fn definiert in (1.1), wobei Xi durch εi zu ersetzen ist. 40 Kapitel 2. Empirical Likelihood Damit Vektoren (p1 , . . . , pn ) mit den Eigenschaften aus (2.4) existieren, müssen Realisierungen g(ε1 ), . . . , g(εn ) zu einem Fehlerdatensatz ε1 , . . . , εn gewisse Eigenschaften besitzen. Betrachten wir die zweite Gleichung aus (2.4), so ist ersichtlich, dass diese nur lösbar ist, falls sowohl positive als auch negative Realisierungen vorliegen. Deshalb wird Annahme (S1) auf S. 44 formuliert. Analog wird für die Fehler statt der Residuen die folgende Annahme getroffen: Es wird für alle j = 1, . . . , k angenommen, dass min gj (εi ) < 0 < max gj (εi ). 1≤i≤n (2.5) 1≤i≤n Wir werden in Lemma 3.18 Bedingungen angeben, unter denen (2.5) mit gegen Eins konvergierender Wahrscheinlichkeit gilt. Im Anschluss nehmen wir stets die Gültigkeit von (2.5) an. Wir suchen die Maximalstelle der Likelihood-Funktion L aus (2.3) unter den Nebenbedingungen (2.4), beziehungsweise äquivalent dazu die Maximalstelle p = (p1 , . . . , pn ) der Log-LikelihoodFunktion l(p1 , . . . , pn ) := log L(p1 , . . . , pn ) = n X log pi (2.6) i=1 in der Menge n Bn := {(p1 , . . . , pn ) ∈ (0, 1) : n X i=1 pi = 1, n n X pi g(εi ) = 0}. (2.7) i=1 Lemma 2.1 stellt die Existenz und Eindeutigkeit der gesuchten Maximalstelle sicher. Im Anschluss an das Lemma werden wir die Maximalstelle berechnen. Lemma 2.1. Unter der Annahme (2.5) gilt: die gesuchte Maximalstelle der Log-LikelihoodFunktion aus (2.6) in Bn aus (2.7) existiert und ist eindeutig. Beweis zu Lemma 2.1. Im Beweis zu Lemma 2.1 zeigen wir zuerst die Existenz und dann die Eindeutigkeit der gesuchten Maximalstelle. Unter Annahme von (2.5) ist die konvexe Menge Bn nichtleer. Auf dem kompakten Abschluss von Bn gibt es mindestens ein Maximum von l. Das Maximum von l wird nicht am Rand angenommen, wo pi = 0 oder pi = 1 für mindestens einen Index i, 1 ≤ i ≤ n, gilt, da die Funktion L dort den Wert Null annimmt. Die Eindeutigkeit der Maximalstelle folgt aufgrund der strengen Konkavität der Logarithmusfunktion und der Konvexität der Menge Bn : Setzen wir nämlich mit zwei verschiedenen Maximalstellen q = (q1 , . . . , qn ) und r = (r1 , . . . , rn ) an, so liegt auch jede Konvexkombination s = (s1 , . . . , sn ) der beiden Maximalstellen in Bn mit si = λqi + (1 − λ)ri ; i = 1, . . . , n, mit λ ∈ (0, 1). Es gilt l(q1 , . . . , qn ) = maxp∈Bn l(p1 , . . . , pn ) = l(r1 , . . . , rn ). Der Vektor s erfüllt die Bedingungen, die in Bn gestellt werden. Wenn wir eine solche Konvexkombination in die Log-Likelihood-Funktion einsetzen, erhalten wir wegen der strikten Konkavität der natürlichen Logarithmusfunktion auf (0, ∞) und der Jensen-Ungleichung einen echt größeren Wert als die 2.2 Herleitung des Schätzers 41 bisher angenommenen Maximalstellen: l(s1 , . . . , sn ) = > n X j=1 n X log(λqj + (1 − λ)rj ) (λ log qj + (1 − λ) log rj ) j=1 n X = λ j=1 log qj + (1 − λ) n X log rj j=1 = (λ + 1 − λ) max l(p1 , . . . , pn ) = max l(p1 , . . . , pn ). p∈Bn p∈Bn Durch diesen Widerspruch ist klar, dass es nur eine Maximalstelle gibt. Wir berechnen nun die Maximalstelle. Nach der Lagrangeschen Multiplikatorenregel führen wir Lagrange-Multiplikatoren λn ∈ IR, ηn = (η1n , . . . , ηkn ) ∈ IRk ein und suchen einen stationären Punkt p ∈ Bn von H(p1 , . . . , pn , λn , ηn ) = n X i=1 Es gilt log pi + λn (1 − n X i=1 pi ) − ηnT (n n X pi g(εi )). i=1 ∂H(p1 , . . . , pn , λn , ηn ) 1 = − λn − ηnT n g(εi ). ∂pi pi (2.8) Multiplizieren wir die erhaltene partielle Ableitung mit pi und summieren wir über i ∈ {1, . . . , n}, so ergibt sich n X i=1 pi n n n X X pi X ∂H(p1 , . . . , pn , λn , ηn ) = − λn pi − ηnT n pi g(εi ) ∂pi p i i=1 i=1 i=1 = n X i=1 1 − λn · = n − λn . n X i=1 pi − ηnT · 0 Für λn = n ergibt der Ausdruck Null. Wir setzen λn = n in (2.8) ein und erhalten 1 ∂H(p1 , . . . , pn , n, ηn ) = − n(1 + ηnT g(εi )). ∂pi pi Uns interessieren solche pi , für welche der letzte Ausdruck Null wird. Für diese stationären Punkte pi erhalten wir die notwendige Bedingung 1 1 . − n(1 + ηnT g(εi )) = 0 ⇔ pi = pi n(1 + ηnT g(εi )) Die letzte Darstellung der pi enthält allerdings noch den Lagrange-Multiplikator ηn : Entsprechend den Nebenbedingungen (2.4) löst ηn die Gleichung n X i=1 n g(εi ) 1X = 0. pi g(εi ) = n i=1 1 + ηnT g(εi ) (2.9) 42 Kapitel 2. Empirical Likelihood Zusätzlich gilt, da 0 < pi < 1 ist, für ηn die Ungleichung k X 1 für 1 ≤ i ≤ n. n (2.10) n o 1 Dk := ηn ∈ IRk : 1 + ηnT g(εi ) > für 1 ≤ i ≤ n . n (2.11) 1+ ηnT g(εi ) =1+ T ηjn gj (εi ) > j=1 Wir fassen dies in der Menge Dk zusammen: Mit der Existenz und Eindeutigkeit der Lösung ηn aus (2.9) in Dk aus (2.11) können wir den mit der Zusatzinformation hergeleiteten Schätzer vollständig angeben: Der in (2.2) bereits eingeführte Schätzer hat insbesondere die Gestalt n 1 1X I{εi ≤ y} F̃n (y) := n i=1 1 + ηnT g(εi ) (2.12) für y ∈ IR. Natürlich kann dieser Schätzer nur dann verwendet werden, wenn die Fehler beobachtet werden können. Auf diesen Hinweis kommen wir später zurück. An dieser Stelle geben wir noch einen Nachweis zur Existenz und Eindeutigkeit der Lösung ηn aus (2.9) in Dk aus (2.11) an. Lemma 2.2. Angenommen, es gelten Annahme (2.5) und die Positivdefinitheit der Matrix Pn 1 T i=1 g(εi )g(εi ) . Dann existiert genau eine Lösung ηn von (2.9) in Dk (definiert in (2.11)). n Beweis zu Lemma 2.2. Die Existenz einer Lösung ηn von (2.9) in Dk folgt aus der Existenz der Gewichte pi unter der Annahme (2.5). Die Existenz der Gewichte pi aus (2.6) haben wir in Lemma 2.1 unter Annahme (2.5) nachgewiesen (vgl. dazu die Herleitung weiter vorn). Die Eindeutigkeit der Lösung ηn von (2.9) in Dk wird durch Beweis durch Widerspruch gezeigt. Angenommen, es gibt zwei Nullstellen v1 , v2 von (2.9) in Dk . Es gilt also B(v1 ) = B(v2 ) = 0 P i) R → IR, für B(v) := n1 ni=1 1+vg(ε T g(ε ) . Betrachten wir die Funktion G : I i G(t) := (v2 − v1 )T B(v1 + t(v2 − v1 )), t ∈ [0, 1]. Das Argument v1 + t(v2 − v1 ) durchläuft alle Werte auf einer Verbindungsgeraden zwischen v1 und v2 . Wegen der Konvexität von Dk liegt auch v1 + t(v2 − v1 ) in Dk , für t ∈ [0, 1]. Es gilt G(0) = G(1) = 0. Betrachte die Ableitung von G nach t, G′ (t) = (v2 − v1 )T DB(v1 + t(v2 − v1 ))(v2 − v1 ). Dabei bezeichnet DB(w) die Matrix der totalen ∂ B (w) ∂w1 1 DB(w) = ∂ B (w) ∂w1 k Ableitung, ... ... ∂ B (w) ∂wk 1 ... ∂ B (w) ∂wk k . (2.13) 2.2 Herleitung des Schätzers 43 mit dem jl−ten Eintrag, 1 ≤ j, l ≤ k, n n ∂ ∂ 1 X 1 X gj (εi )gl (εi ) gl (εi ) . Bl (w) = = − ∂wj ∂wj n i=1 1 + wT g(εi ) n i=1 (1 + wT g(εi ))2 Für G′ aus (2.13) gilt G′ (t) < 0 ∀ t ∈ [0, 1], denn die Matrix DB(w) ist negativ definit nach P der Annahme, dass n1 ni=1 g(εi )g T (εi ) positiv definit ist, und dass 1 + wT g(εi ) 6= 0 für alle i = 1, . . . , n gilt: im einzelnen gilt −xT n 1 X n 1X (1 + wT g(εi ))−2 g(εi )g T (εi ) x ≤ −xT min (1 + wT g(εi ))−2 g(εi )g T (εi ) x < 0. 1≤i≤n n i=1 n i=1 Dabei gilt die erste Abschätzung wegen n 1 X min (1 + wT g(εi ))−2 − (1 + wT g(εi ))−2 xT g(εi )g T (εi )x ≤ 0 n i=1 1≤i≤n mithilfe von xT g(εi )g T (εi )x ≥ 0 und der großen Klammer kleiner gleich Null für alle i = 1, . . . , n P und die zweite Abschätzung wegen der Positivdefinitheit von n1 ni=1 g(εi )g T (εi ) und der Annahme 1 + wT g(εi ) 6= 0 ∀ i = 1, . . . , n. Da G strikt monoton fallend ist, kann G und damit B nicht zwei Nullstellen haben. Die geforderte Eindeutigkeit der Lösung ηn ist gezeigt und der Beweis zu Lemma 2.2 abgeschlossen. In Regressionsmodellen allgemein können die Fehler nicht direkt beobachtet werden. Daher ist es notwendig, eine Schätzung auf der Basis der Residuen durchzuführen, deren Gestalt vom Modell und dabei ggf. nötigen weiteren Schätzern abhängt. Weil wir in der Herleitung keinen Gebrauch spezifischer Eigenschaften der Zufallsvariablen ε1 , . . . , εn gemacht haben, welche die Residuen ε̂1 , . . . , ε̂n aus dem homoskedastischen oder heteroskedastischen Modell nicht besitzen, benutzen wir das beschriebene Verfahren zur Verwendung der Nebeninformation analog für Residuen anstelle der Fehler. Analog zu den Bezeichnungen (2.2), (2.3) und (2.4) suchen wir die Maximalstelle p̂ = (p̂1 , . . . , p̂n ) der Log-Likelihood-Funktion l(p̂1 , . . . , p̂n ) = n X log p̂i (2.14) i=1 mit p̂i = F̃ (ε̂i ) − F̃ (ε̂i −) in der Menge n B̂n := {(p̂1 , . . . , p̂n ) ∈ (0, 1) : n X i=1 p̂i = 1, n n X p̂i g(ε̂i ) = 0}. (2.15) i=1 In gleicher Weise erhalten wir den im Folgenden zu untersuchenden Schätzer n 1 1X I{ε̂i ≤ x}. F̄n (x) = n i=1 1 + η̂nT g(ε̂i ) (2.16) 44 Kapitel 2. Empirical Likelihood Wie wir bereits im Fall beobachtbarer Zufallsvariablen gesehen haben, ist der auftretende Faktor η̂n als Lösung der Gleichung n in der Menge 1X 1 g(ε̂i ) = 0 n i=1 1 + η̂nT g(ε̂i ) (2.17) 1 für 1 ≤ i ≤ n} (2.18) n unter der im Folgenden zu formulierenden Annahme (S1) definiert, analog zur Definition von ηn über (2.9) in Dk aus (2.11). D̂k := {η̂n ∈ IRk : 1 + η̂nT g(ε̂i ) > Entsprechend der in den Lemmata aus diesem Abschnitt verwendeten Voraussetzungen formulieren wir Annahmen (S1) und (S2), um die Existenz und Eindeutigkeit der Lösung aus der Maximierung der empirischen Wahrscheinlichkeit (Empirical Likelihood) zu sichern. (S1) Es wird angenommen, dass min1≤i≤n gj (ε̂i ) < 0 < max1≤i≤n gj (ε̂i ) für alle j = 1, . . . , k gilt. P (S2) Es wird angenommen, dass die Matrizen Σ = IE[g(ε1 )g(ε1 )T ] und ni=1 g(ε̂i )g(ε̂i )T positiv definit sind. Zu beachten ist, dass Lemmata 2.1 und 2.2 nicht von der Gestalt der Argumente von g abhängen; in den Aussagen werden sie lediglich als Realisierungen von Zufallsvariablen betrachtet. Daher können beide Lemmata 2.1 und 2.2 zur Existenz und Eindeutigkeit direkt unter Angabe der dann zu treffenden Annahmen übertragen werden. Lemma 2.3. Unter Annahme (S1) gilt: die gesuchte Maximalstelle der Log-Likelihood-Funktion aus (2.14) in B̂n aus (2.15) existiert und ist eindeutig. P Lemma 2.4. Angenommen, es gelten Annahme (S1) und die Positivdefinitheit von n1 ni=1 g(ε̂i )g(ε̂i )T (Teil aus Annahme (S2)). Dann existiert genau eine Lösung η̂n von (2.17) in D̂k (definiert in (2.18)). Bemerkung 2.5. Wie oben ersichtlich, können wir ηn sowie η̂n nicht konkret, sondern nur als Lösung einer Gleichung in einer Menge angeben. Durch diesen Umstand ist es im Umgang mit einem konkreten Datensatz wichtig, wie wir den Lagrange-Multiplikator η̂n rechnerisch erhalten können. Eine Möglichkeit ist, je nach gewünschter Genauigkeit die ersten Terme aus der Taylorentwicklung für η̂n zu einem Datensatz auszurechnen, vgl. Lemma 3.10. Eine weitere Möglichkeit stellt die Approximation der Lösung durch numerische Verfahren dar. Ist g eine reellwertige Funktion, so ist ein Bisektionsverfahren besonders einfach, weil die Menge D̂1 als Intervall dargestellt werden kann. Im Fall von g : IR → IRk , k > 1, verweisen wir auf das multivariate Newton-Raphson-Verfahren. Beide Verfahren werden in Press et al. (2002) vorgestellt und in den Simulationen in Abschnitt 5.2 verwendet. Für weitere Details, die modellspezifisch zu betrachten sind, wird auf die Abschnitte 3.5 und 4.5 verwiesen. 2.3 Vergleich mit vorausgegangenen Arbeiten 2.3 45 Vergleich mit vorausgegangenen Arbeiten Qin und Lawless (1994) und Zhang (1997) beschäftigen sich mit der Schätzung der Verteilung von beobachtbaren i.i.d. Zufallsvariablen X1 , . . . , Xn unter Berücksichtigung einer Zusatzinformation in Form von IE[g(X, ϑ)] = 0 durch den Schätzer Fn∗ (x) =n −1 n X i=1 −1 1 + η T g(Xi , ϑ) I{Xi ≤ x}. In g wird ein zusätzlicher Parameter ϑ zugelassen, der für unsere Betrachtungen im Folgenden keine Rolle spielt und deshalb bei der Diskussion der beiden Arbeiten vernachlässigt wird. In Qin und Lawless (1994), Theorem 1, wird für den Vektor η = η(n), welcher in dem nach dem Empirical-Likelihood-Prinzip konstruierten Schätzer auftritt, unter bestimmten Annahmen √ schwache Konvergenz von nη gezeigt. Die Grenzverteilung ist eine zentrierte Normalverteilung mit Kovarianzmatrix Σ−1 mit Σ := IE[g(Xi )g T (Xi )]. Im gleichen Theorem wird die punktweise √ asymptotische zentrierte Normalität von n(Fn∗ (x) − F (x)) gezeigt. In der Arbeit von Zhang (1997) wird unter gewissen Annahmen und unter Zuhilfenahme einer Entwicklung für den √ empirischen Prozess n(Fn∗ − F ) schwache Konvergenz gegen einen zentrierten Gaußprozess W gezeigt, wobei für die Kovarianzfunktion gilt: IE [W (x)W (y)] = F (min(x, y)) − F (x)F (y) − IE g T (X)I{X ≤ x} Σ−1 IE [g(X)I{X ≤ y}] . Die Varianzfunktion ist punktweise kleiner gleich der des Grenzprozesses B 0 ◦ F im Satz von Donsker (vgl. Satz 1.8), in welchem wir den empirischen Prozess aus (1.7) bezüglich Fn aus (1.1) anstatt bezüglich des oben betrachteten Fn∗ betrachtet haben, ohne die Zusatzinformation zu berücksichtigen. 46 Kapitel 2. Empirical Likelihood Kapitel 3 Untersuchung des Schätzers im homoskedastischen Modell 3.1 Einleitung In diesem Kapitel untersuchen wir das homoskedastische Modell (1.14). Ziel ist es, die Verteilungsfunktion der Fehler im homoskedastischen Regressionsmodell zu schätzen und dabei Zusatzinformationen über diese ansonsten unbekannte Verteilungsfunktion einzubeziehen. Dabei benutzen wir den Schätzer, den wir in Kapitel 2 ausführlich eingeführt haben. Der uns hier interessierende mit dem Empirical-Likelihood-Verfahren hergeleitete Schätzer ist n 1 1X I{ε̂i ≤ x} F̄n (x) = n i=1 1 + η̂nT g(ε̂i ) (3.1) bezüglich der Residuen aus (1.15). Wie wir bereits gesehen haben, ist der auftretende Faktor η̂n als Lösung der Gleichung n 1X 1 g(ε̂i ) = 0 n i=1 1 + η̂nT g(ε̂i ) (3.2) in der Menge D̂k := {η̂n ∈ IRk : 1 + η̂nT g(ε̂i ) > 1 für 1 ≤ i ≤ n} n (3.3) gegeben. Die Residuen und die daraus resultierenden Größen η̂n hängen von (X1 , Y1 ), . . . , (Xn , Yn ) ab, darüber hinaus von der Wahl des Regressionsmodells, den daraus resultierenden zu schätzenden Größen und von der Wahl der bei den Glättungen verwendeten Bandbreite und der gewählten Kernfunktion. Beispiel 3.1. Ein zentrales Beispiel ist g(ε) = ε. Durch diese Wahl von g wird die Zentriertheit der Fehler als Zusatzinformation wie in (A) auf S. 19 formuliert. Das Beispiel ist deshalb so wichtig, weil die Zentriertheit der Fehler bereits eine Annahme des Regressionsmodells ist. Wenn 47 48 Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell wir davon ausgehen können, dass die Varianz σ 2 bekannt und das dritte Moment gleich Null ist, wird g(ε) = (ε, ε2 − σ 2 , ε3 )T gewählt. Über die auf Momenten basierenden Nebeninformationen hinaus sollen auch Informationen hinsichtlich der Quantile berücksichtigt werden. Die daraus zu konstruierenden Funktionen g sind von der Gestalt g(ε) = I{ε ≤ a} − b. Beispielsweise kann so eine a priori Information wie etwa ein Median, der Null ist, beschrieben werden, nämlich mit der Funktion g(ε) = I{ε ≤ 0} − 1/2. Auch für diesen Fall wird der Schätzer untersucht. Bemerkung 3.2. Im Spezialfall g(x) = x ist es auch möglich, die Verteilungsfunktion der Fehler auf der Basis zentrierter Residuen zu schätzen. Eine ähnliche Entwicklung für einen P P entsprechenden Schätzer F̂ z (y) = n1 ni=1 I{εi − ¯ε̂ ≤ y} mit ¯ε̂ := n1 nj=1 ε̂j ist möglich, auf diese Weise ist allerdings nur der Spezialfall g(x) = x zu modellieren. Dieses Kapitel stellt in Abschnitt 3.2 weitere Annahmen und in Abschnitt 3.3 eine Reihe von Hilfsresultaten vor, die in Abschnitt 3.4 zu den Hauptresultaten zusammengeführt werden. Den Schätzer F̄n werden wir entwickeln (vgl. Theorem 3.11) und für einen entsprechenden empirischen Prozess schwache Konvergenz zeigen. Die Nachweise zur schwachen Konvergenz führen wir für zwei Typen von Zusatzinformationen in den Theoremen 3.12 und 3.14. Der letzte Abschnitt 3.5 dieses Kapitels beschreibt Aussagen zum verwendeten Empirical-LikelihoodSchätzer, die durch die Verwendung von Residuen aus (1.15) aus dem homoskedastischen Modell spezifisch zu zeigen sind. 3.2 Annahmen Wir verweisen an dieser Stelle auf die Annahmen (M1), (M2), (M3), (K), (H) in Abschnitt 1.5.1, auf (A) in Abschnitt 1.6 und auf (S1) und (S2) in Abschnitt 2.2. Diesen Abschnitt beginnen wir mit einer genaueren Spezifizierung derjenigen Funktionen g gemäß Annahme (A) aus S. 19, die wir hier betrachten wollen. Die Annahmen (G1) und (G2) werden im folgenden Text nur vorausgesetzt, wenn wir sie explizit angeben. (G1) Die Funktion gj ist stetig differenzierbar und es existieren Konstanten γ, C und β > 0, so dass Z ′ g (y + z) − g (y) − zg (y) f (y) dy ≤ C|z|1+β j j j für alle z ∈ IR mit |z| ≤ γ, j = 1, . . . , k gilt. Für g gilt darüber hinaus IE[|gj′ (ε1 )|] < ∞, j = 1, . . . , k. Ohne Einschränkung nutzen wir die gleichen Konstanten γ, C und β wie in Annahme (M3). (G2) Es existieren Konstanten δ, C, so dass für ein positives κ < 2(1 + α) (mit α aus Annahme (H)) die Abschätzung gilt: h i1/2 2 IE sup (gj (ε1 + z) − gj (ε1 + z̃)) ≤ Cξ 1/κ für j = 1, . . . , k. z,z̃∈IR:|z|≤δ, |z̃|≤δ,|z−z̃|≤ξ 3.2 Annahmen 49 Im Folgenden werden die Konsequenzen aus (G2) an einem Beispiel betrachtet. Beispiel 3.3. Informationen bezüglich der Momente der ansonsten unbekannten Fehlerverteilung können wir als Funktionen g(y) = y k − c schreiben. Solche Funktionen erfüllen die Annahmen (G1) und (G2), falls IE[ε2k 1 ] < ∞ gilt. Das gleiche gilt für Polynome, zum Beispiel 4 2 für g(y) = y − cy , um eine Beziehung zwischen zweitem und viertem Moment zu berücksichtigen. Ein konkretes Beispiel für Funktionen vom Typ g(y) = y k −c ist g(y) = y, was mit IE[g(ε1 )] = 0 die Annahme der Zentriertheit der Fehler, also IE[ε1 ] = 0, modelliert. Im Fall g(y) = y ist gj (y+z)−gj (y)−zgj′ (y) = 0: (G1) gilt ohne die Formulierung zusätzlicher Momentenannahmen. In (G2) steht der Term (gj (ε1 + z) − gj (ε1 + z̃))2 = (z − z̃)2 ≤ ξ 2 . Durch den außenstehenden Exponenten 1/2 auf der linken Seite der Ungleichung aus der Annahme ist auf der rechten Seite C = 1, κ = 1 zu wählen. Vergleiche auch Beispiel 4.2 für ausführliche Diskussionen entsprechender Annahmen im nächsten Kapitel. Es ist zu beachten, dass mit Hilfe einer Taylorentwicklung die Gültigkeit von (G2) für κ = 1 mit Taylorentwicklung gezeigt werden kann, wenn gj stetig differenzierbar ist und die Abschätzung IE[supz∈IR:|z|≤δ (gj′ (ε1 + z))2 ] < ∞, j = 1, . . . , k gilt. Dann ist κ = 1 < 2(1 + α) stets gültig (α > 0). Die Glattheitsannahmen (G1) und (G2) sind den Annahmen ähnlich, die bei Müller, Schick und Wefelmeyer (2004a), Annahme 1, S. 79 und Müller, Schick und Wefelmeyer (2004b), Annahme B1, S. 536 gestellt werden, um asymptotische Ergebnisse für glatte lineare Schätzer basierend auf nichtparametrischen Residuen zu erhalten. Vergleiche dazu die Diskussion dieser Annahmen in Abschnitt 3 von Müller, Schick und Wefelmeyer (2004a). 1 1+α′ Bemerkung 3.4. Der Faktor ξ κ ist ähnlich gewählt wie |s| 2 in Müller, Schick und Wefelmeyer (2004a), Ass. 1, (2.1): Unter der Annahme 0 < α′ ≤ 1 aus der zitierten Arbeit gilt ′ wählen, 1/2 < 1/κ ≤ 1, d.h. 1 ≤ κ < 2. Damit 1/2 < (1 + α′ )/2 ≤ 1 bzw., wenn wir κ1 = 1+α 2 ist auch die Annahme 0 < κ < 2(1 + α) aus (G2) erfüllt. Es ist außerdem zu beachten, dass die folgende Aussage gilt, sobald g die Gestalt g(ε) = I{ε ≤ a} − b hat oder die Annahme (G2) für g erfüllt ist: i h (3.4) ∃ δ > 0, so dass IE sup (gj (ε1 + y) − gj (ε1 ))2 < ∞ ∀ j = 1, . . . , k. y∈IR:|y|≤δ Diese Bedingung wird in den Beweisen wiederholt verwendet. Gebraucht werden außerdem noch Annahmen (S1) und (S2) von Seite 44, um die Existenz und Eindeutigkeit der Lösung aus der Maximierung der empirischen Wahrscheinlichkeit (Empirical Likelihood) zu sichern. Es ist zu bemerken, dass die Annahme (S1) in Wahrscheinlichkeit für wachsenden Stichprobenumfang wegen der Annahme (A) gilt, wenn die Residuen ε̂i durch die wahren Fehler εi ersetzt werden. In Lemma 3.18 geben wir Annahmen an, unter denen die Wahrscheinlichkeit der Gültigkeit von (S1) gegen 1 konvergiert. Schließlich folgt aus der ersten Annahme aus (S2) zusammen mit dem folgenden Lemma 3.5 (v) die zweite Annahme von (S2) in Wahrscheinlichkeit für wachsenden Stichprobenumfang: Beweise dazu folgen ebenfalls in Lemma 3.18. 50 3.3 Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell Hilfsresultate In diesem Abschnitt zeigen wir eine Reihe von Aussagen, die wir für die Entwicklung des Schätzers F̄n in Abschnitt 3.4 brauchen. Lemma 3.5. Es gelte Modell (1.14) mit den Annahmen (M1), (M2), (K), (H) aus Abschnitt 1.5 und (A) aus 1.6. (i) Für Funktionen g, die von der Form g(ε) = I{ε ≤ a} − b für Konstanten a und b (k = 1) sind, und für solche g, für welche (G1) und (G2) aus Abschnitt 3.2 gilt, folgt √ max |gj (ε̂i )| = oP ( n) (j = 1, . . . , k). i=1,...,n (ii) Unter den zusätzlichen Annahmen (G1) und (G2) gilt die Entwicklung n n 1X 1X gj (εi ) − IE[gj′ (ε1 )]εi gj (ε̂i ) = n i=1 n i=1 Z 1 − (IE[m̂(x)] − m(x)) fX (x)dx IE[gj′ (ε1 )] + oP √ n n 1 1X ′ 2 ′ gj (εi ) − IE[gj (ε1 )]εi − h IE[gj (ε1 )]B + oP √ = (j = 1, . . . , k) n i=1 n mit in (1.21) definiertem B. (iii) Für g(ε) = I{ε ≤ a} − b mit Konstanten a und b (k = 1) gilt die Entwicklung n n 1 1X 1X 2 g(ε̂i ) = g(εi ) + f (a)εi + h f (a)B + oP √ n i=1 n i=1 n mit in (1.21) definiertem B. (iv) Für Funktionen g, die von der Form g(ε) = I{ε ≤ a} − b für Konstanten a und b (k = 1) sind und für solche g, für welche (G1) und (G2) gilt, folgt n 1X (gj (ε̂i ) − gj (εi ))2 = oP (1) (j = 1, . . . , k). n i=1 (v) Für Funktionen g, die von der Form g(ε) = I{ε ≤ a} − b für Konstanten a und b (k = 1) sind und für solche g, für welche (G1) und (G2) gilt, folgt n 1X g(ε̂i )g T (ε̂i ) = Σ + oP (1). n i=1 Bevor die einzelnen Behauptungen in Lemma 3.5 bewiesen werden, kommentieren wir die Aussage (ii) des Lemmas in der folgenden Bemerkung. 3.3 Hilfsresultate 51 P Bemerkung 3.6. Die Aussage in Lemma 3.5(ii), eine Entwicklung für n1 ni=1 gj (ε̂i ) für festes j aus {1, . . . , k} und Residuen ε̂1 , . . . , ε̂n , entspricht Theorem 2 in Müller, Schick und Wefelmeyer (2004a). Die Autoren kommen auf die gleiche Entwicklung wie in Lemma 3.5(ii), verwenden aber andere Methoden: Als Schätzer für die Regressionsfunktion m verwenden sie in Müller, Schick und Wefelmeyer (2004a) und (2004b) einen sogenannten lokalen Polynomschätzer. Damit sind die Residuen anders definiert. Außerdem verwenden sie strengere Bandbreitenannahmen, die den Bias unterdrücken; sie wählen für die Bandbreite h = hn die Abhängigkeit nh4n = o(1). Der verwendete lokale Polynomschätzer modelliert die Abhängigkeit innerhalb der Residuen nach dem Auslassungsprinzip (Leave-one-out) und nutzt, wo möglich, die so entstandene stochastische Unabhängigkeit, so dass der Beweis nicht übertragen werden kann. Wir benutzen dagegen den Nadaraya-Watson-Schätzer und weniger starke Bandbreitenvoraussetzungen. Beweis zu Lemma 3.5(i). Unter den getroffenen Annahmen gilt Bedingung (3.4). Mit der Dreiecksungleichung ist dann max |gj (ε̂i )| ≤ max |gj (ε̂i ) − gj (εi )| + max |gj (εi )| i=1,...,n i=1,...,n i=1,...,n (3.5) gültig, und es wird zuerst der zweite Term auf der rechten Seite betrachtet. Für jedes ρ > 0 erhalten wir √ √ (3.6) IP max |gj (εi )| > ρ n ≤ nIE[I{|gj (ε1 )| > ρ n}] i=1,...,n i 1 h ≤ 2 IE gj2 (ε1 )I{gj2 (ε1 ) ≥ ρ2 n} = o(1) ρ mit der Annahme IE[gj2 (ε1 )] < ∞ aus (A). Für den ersten Term der rechten Seite von (3.5) gilt IP √ √ max |gj (ε̂i ) − gj (εi )| > ρ n ≤ IP max |gj (ε̂i ) − gj (εi )| > ρ n, max |εi − ε̂i | ≤ δ i=1,...,n i=1,...,n i=1,...,n + IP max |εi − ε̂i | > δ i=1,...,n (mit δ aus Bedingung (3.4)). Die letzte Wahrscheinlichkeit konvergiert gegen Null nach den Annahmen (M1), (M2), (K) und der zweiten Annahme in (H), denn es gilt fast sicher max |εi − ε̂i | ≤ sup |m̂(x) − m(x)| = O((nh)−1/2 (log(h−1 ))1/2 ) = o(1). i=1,...,n (3.7) x∈[0,1] Außerdem gilt √ √ IP max |gj (ε̂i ) − gj (εi )| > ρ n, max |εi − ε̂i | ≤ δ ≤ IP max |hj (εi )| > ρ n , (3.8) i=1,...,n i=1,...,n i=1,...,n wobei hj (x) = supy∈IR:|y|≤δ |gj (x + y) − gj (x)| ist. Mit einer Argumentation analog zu (3.6) folgt √ IP(maxi=1,...,n |hj (εi )| > ρ n) = o(1) unter Verwendung von Annahme (3.4), die gerade die Existenz eines δ > 0, so dass IE[h2j (ε1 )] < ∞ für j ∈ {1, . . . , k} gilt, garantiert. 52 Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell Beweis zu Lemma 3.5(ii). Die Aussage entspricht Theorem 2 in Müller, Schick and Wefelmeyer (2004a), vergleiche Bemerkung 3.6. Die gleiche Behauptung wie im genannten Theorem zeigen wir für den hier verwendeten Schätzer mit anderen Beweisschritten, wobei wir Ideen aus dem Beweis zu Lemma 1 aus Akritas und Van Keilegom (2001) verwenden. Einige Beweisargumente von Teil (ii) werden wir für den Beweis von (iv) und (v) wieder aufgreifen. Im Folgenden wird gezeigt, dass n n 1 1X 1X ′ 2 ′ gj (ε̂i ) − (gj (εi ) + IE[gj (ε1 )]εi ) − h IE[gj (ε1 )]B = oP √ n i=1 n i=1 n gilt. Im ersten Schritt zeigen wir dazu die schwache Konvergenz des empirischen Prozesses Z Z n 1 X Gn (g̃j ) = √ g̃j (εi , Xi ) − g̃j (y, x)f (y)fX (x) dy dx , (3.9) n i=1 welcher mit deterministischen Funktionen g̃j ∈ Gj indiziert ist, wobei o n Gj = g̃j : IR × [0, 1] → IR, g̃j (ε, x) = gj (ε + h(x)) − gj (ε) h ∈ H (3.10) gilt und H = Cδ1+α [0, 1] aus Definition 1.26 bekannt ist. Es ist zu beachten, dass für n → ∞ die Funktion m − m̂ mit Wahrscheinlichkeit 1 ein Element der Klasse Cδ1+α [0, 1] ist, dies wurde in Akritas und Van Keilegom (2001) gezeigt. Weiter gilt n n 1X 1X gj (ε̂i ) = gj (εi + (m − m̂)(Xi )) n i=1 n i=1 nach Definition von ε̂i aus (1.15). Die Funktionenklasse Gj hat eine quadratintegrierbare Einhüllende gemäß (3.4), weil supx∈[0,1] |h(x)| ≤ δ für h ∈ H nach (1.12) gilt. Um zu zeigen, dass Gj Donsker ist, reicht es nach Satz 1.17, die Endlichkeit des Klammerungsintegrals zu zeigen, also Z ∞q log N[ ] (ξ, Gj , L2 (P )) dξ < ∞, (3.11) 0 vgl. Satz 1.17. Dabei bezeichnen wir mit P die Verteilung von (ε1 , X1 ) und mit N[ ] (ξ, Gj , L2 (P )) eine Klammerungszahl bezüglich der L2 (P )−Norm, vgl. Notation in (1.11) und Definition 1.16. Es sei ξ > 0, und es sei ξ˜ = (ξ/(2C))κ gewählt mit einer Konstante C, wie sie in (G2) verwendet wird. Nach Satz 1.27 gilt für die Überdeckungszahlen von H bezüglich der Supremumsnorm ˜ H, || · ||∞ ) ≤ Kξ −κ/(1+α) log N (ξ, (3.12) für eine Konstante K. Zusätzlich ist für ξ˜ ≥ δ die Überdeckungszahl 1, wenn als Zentrum h1 ≡ 0 gewählt ist, und beachtet wird, dass supx∈[0,1] |h(x)| ≤ δ für h ∈ H gilt. Entsprechend ist das Integral in (3.11) nur für ξ˜ < δ bzw. ξ < δ 1/κ 2C auszuwerten. Im Folgenden bezeichnen ˜ H, || · ||∞ )) die Zentren der Überdeckung von H mit Radius ξ˜ h1 , . . . , hλ (dabei ist λ = N (ξ, 3.3 Hilfsresultate 53 bezüglich der Supremumsnorm. Betrachten wir h ∈ H, dann existiert ein i ∈ {1, . . . , λ} mit ˜ und dann ist eine Klammer für g̃j (ε, x) = gj (ε + h(x)) − gj (ε) durch ||h − hi ||∞ < ξ, h i gj (ε + hi (x)) − gj (ε) − g̃j∗ (ε, x) , gj (ε + hi (x)) − gj (ε) + g̃j∗ (ε, x) gegeben, wobei g̃j∗ (ε, x) = sup |gj (ε + z) − gj (ε + z̃)| gilt und das Supremum über |z| ≤ δ, |z̃| ≤ δ, |z − z̃| ≤ ξ˜ gebildet wird. Die Klammer hat höchstens eine L2 (P )−Länge von ξ, denn nach Definition von g̃j∗ (ε, x) gilt IE h 2g̃j∗ (ε, x) 2 i1/2 = 2IE h sup |z|≤δ,|z̃|≤δ,|z−z̃|≤ξ̃ |gj (ε + z) − gj (ε + z̃)| 2 i1/2 ≤ 2C ξ˜1/κ = ξ unter Verwendung von (G2). Aus der Anzahl von Zentren λ zur Menge H überträgt sich die Überdeckungszahl also auf die gesuchte Klammerungszahl, und es ergibt sich N[ ] (ξ, Gj , L2 (P )) = λ. Weil das Integral nur im Intervall (0, 2Cδ 1/κ ) ausgewertet werden muss, vergleiche Z 2Cδ1/κ Z 2Cδ1/κ κ κ − 1+α 1/2 1/2 (Kξ ) dξ = K ξ − 2(1+α) dξ < ∞, 0 0 κ < 1. Damit haben wir die folgt für die linke Seite von (3.11) mit (3.12) nach Annahme 2(1+α) schwache Konvergenz des empirischen Prozesses aus (3.9) nachgewiesen, und der erste Schritt ist abgeschlossen. Im zweiten Schritt setzen wir nun in den Prozess Gn definiert in (3.10) die zufällige Funktion ĝj (ε, x) = gj (ε + (m − m̂)(x)) − gj (ε) statt g̃j aus (3.10) ein. R Im Folgenden verwenden wir, dass die Konvergenz (gj (y + (m − m̂)(x))−gj (y))2 fX (x) dx → 0 für n → ∞ fast sicher für jedes feste y gilt. Genauer gesagt folgt diese Konvergenz durch Taylorentwicklung und die fast sichere in x gleichmäßige Konvergenz von (m̂ − m)(x) gegen Null, weil gj′ stetig und damit in einer Umgebung des festen Wertes y beschränkt ist. Nach dem Satz der majorisierten Konvergenz gilt Z Z Z 2 2 gj (y + (m − m̂)(x)) − gj (y) fX (x)f (y) dx dy = oP (1) ĝj dP = (3.13) unter der Annahme (3.4), die uns die Existenz der integrierbaren Majorante garantiert. Nach (3.13) folgt nun durch Anwendung von Satz 1.13 n 1 X gj (εi + (m − m̂)(Xi )) − gj (εi ) Gn (ĝj ) = √ n i=1 Z Z − (gj (y + (m − m̂)(x)) − gj (y))fX (x)f (y) dx dy = oP (1). Als dritter Schritt bleibt noch Z Z √ n (gj (y + (m − m̂)(x)) − gj (y))fX (x)f (y) dx dy Z Z √ = n (m − m̂)(x)fX (x) dx gj′ (y)f (y) dy + oP (1) (3.14) 54 Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell zu zeigen. Dafür bleibt die Rate oP (1) für Z Z √ (gj (y + (m − m̂)(x)) − gj (y) − (m − m̂)(x)gj′ (y))fX (x)f (y) dx dy An := n nachzuweisen. Wir betrachten IP(An > ρ) = IP(An > ρ, sup |(m − m̂)(x)| ≤ δ) + IP(An > ρ, sup |(m − m̂)(x)| > δ) =: a1 + a2 . x∈[0,1] x∈[0,1] Gemäß Akritas und Van Keilegom (2001), Prop. 3 gilt a2 ≤ IP( sup |(m − m̂)(x)| > δ) = o(1) x∈[0,1] wegen der Gültigkeit von supx∈[0,1] |(m − m̂)(x)| = O((n−1 h−1 log(h−1 ))1/2 ) fast sicher. In der ersten Wahrscheinlichkeit a1 können wir mit Annahme (G1) für festes x innerhalb des Integrals über x abschätzen: Z √ a1 ≤ IP( nC |(m − m̂)(x)|1+β fX (x)dx > ρ, sup |(m − m̂)(x)| ≤ δ) = o(1), x∈[0,1] weil n1/2 ((n−1 h−1 log(h−1 ))1/2 )1+β = o(1) aus der letzten Annahme in (H) folgt. Damit ist die Gleichung in (3.14) gezeigt. Insgesamt folgt damit die Entwicklung n n 1 X 1 X √ gj (εi + (m − m̂)(Xi )) = √ gj (εi ) n i=1 n i=1 Z Z √ + n (m − m̂)(x)fX (x) dx gj′ (y)f (y) dy + oP (1). Die Behauptung folgt nun aus Lemma 1.32. Beweis zu Lemma 3.5(iii). Die Behauptung folgt wie Theorem 1 in Akritas und Van KeileP gom (2001) im homoskedastischen Modell: Der hier zu entwickelnde Term ist 1/n ni=1 g(ε̂i ) = F̂n (a) − b. Im genannten Theorem wird F̂n entwickelt, für den uns interessierenden Fall ist die Entwicklung in (1.25) angegeben. Zusammen mit Lemma 1.32 folgt die Behauptung. Beweis zu Lemma 3.5(iv). Der Beweis nutzt Ergebnisse der Beweise zu (ii) und (iii). Die in (3.10) definierte Funktionenklasse Gj ist Donsker (in beiden Fällen von Funktionen g). Vergleiche für den folgenden Schluss Lemma 1.19: Weil für Gj zusätzlich die dort geforderte R Abschätzung sup{| g̃j dP | : g̃j ∈ Gj } < ∞ nach Annahme der Existenz einer quadratintegrierbaren Einhüllenden für die Elemente aus Gj in (3.4) gilt, ist Gj2 = {g̃j2 : g̃j ∈ Gj } eine Glivenko-Cantelli Klasse in Wahrscheinlichkeit. Es folgt n 1 X 2 Z Z 2 gj (εi + h(Xi )) − gj (εi ) − gj (y + h(x)) − gj (y) fX (x)f (y) dx dy = op (1). sup h∈H n i=1 3.3 Hilfsresultate 55 Damit gilt n 2 1 X gj (εi + (m − m̂)(Xi )) − gj (εi ) n i=1 Z Z 2 gj (y + (m − m̂)(x)) − gj (y) fX (x)f (y) dx dy + oP (1). = Die Behauptung folgt, sobald die rechte Seite insgesamt oP (1) ist. Im Fall einer Funktion g, für welche (G1) und (G2) gilt, folgt die Behauptung aus (3.13) aus dem Beweis zu (ii) des Lemmas. Für die Indikatorfunktion g(ε) = I{ε ≤ a} − b gilt Z Z (g (y + (m − m̂)(x)) − g(y))2 fX (x)f (y) dx dy Z Z = |g (y + (m − m̂)(x)) − g(y)|fX (x)f (y) dx dy Z = |F (a + (m̂ − m)(x)) − F (a)|fX (x) dx. Die Behauptung ist für Funktionen der Form g(ε) = I{ε ≤ a} − b gültig wegen Annahme (M3), und weil supx∈[0,1] |m̂(x) − m(x)| = o(1) fast sicher gilt. Beweis zu Lemma 3.5(v). Für j, ℓ ∈ {1, . . . , k} ist zu zeigen, dass Z n 1X gj (ε̂i )gℓ (ε̂i ) = gj (y)gℓ (y)f (y) dy + oP (1) n i=1 gilt. Der Beweis ähnelt dem Beweis von (iv). Die Funktionenklassen G̃j = {(ε, x) 7→ gj (ε + h(x)) | h ∈ H} sind Donsker für H = Cδ1+α [0, 1] und für j = 1, . . . , k. Aus der Donskereigenschaft von Gj für j = 1, . . . , k folgt nach Lemma 1.19, dass die Klasse G̃j G̃ℓ = {(ε, x) 7→ gj (ε+h1 (x))gℓ (ε+h2 (x)) | h1 , h2 ∈ H} eine Glivenko-Cantelli Klasse in Wahrscheinlichkeit ist. Es gilt n 1 X gj (εi + h(Xi ))gℓ (εi + h(Xi )) − IE[gj (ε1 + h(X1 ))gℓ (ε1 + h(X1 ))] = oP (1), sup h∈H n i=1 und deshalb ist mit ε̂i = εi + (m − m̂)(Xi ) Z Z n 1 X gj (ε̂i )gℓ (ε̂i ) − gj (y + (m − m̂)(x)) gℓ (y + (m − m̂)(x)) fX (x)f (y) dx dy = oP (1) n i=1 gültig. Wegen supx∈[0,1] |m̂(x) − m(x)| = o(1) f.s. erhalten wir die Behauptung ähnlich zu (3.13) und den Schritten am Ende des Beweises zu (iv). Bemerkung 3.7. Die Annahmen (G1) und (G2) von Seite 49 werden hauptsächlich für die P stochastischen Entwicklungen von n1 ni=1 g(ε̂i ) in Lemma 3.5 verwendet. Neben den Funktionen g, für die (G1) und (G2) erfüllt ist, und den Indikatorfunktionen g(ε) = I{ε ≤ a} − b kann die Theorie allgemein für solche Funktionen g abgeleitet werden, für welche eine Entwicklung Pn Pn 1 1 √1 i=1 g(ε̂i ) = n i=1 (g(εi ) + h(εi )) + oP ( n ) unter schwachen Annahmen an die Funktion h n gültig ist (vergleiche Lemma 3.5(ii), (iii)). 56 Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell Lemma 3.8. Unter (M1), (M2), (K), (H) aus Abschnitt 1.5, (A) aus 1.6 und (S1) und (S2) von S. 44 gelten √ (i) ||η̂n || = OP (1/ n), 1 (ii) max = OP (1). T i=1,...,n 1 + η̂n g(ε̂i ) Beweis zu Lemma 3.8(i). Der Term η̂n ist als Lösung der Gleichung (3.2) in der Menge D̂k aus (3.3) definiert. Aus der Gleichung erhalten wir die Abschätzung n 1 X g(ε̂i ) 0 = n i=1 1 + η̂nT g(ε̂i ) n n 1 X 1X T g(ε̂i ) = g(ε̂i ) − η̂n g(ε̂i ) n i=1 n i=1 1 + η̂nT g(ε̂i ) n n 1 X 1 1X 2 ||g(ε̂i )|| g(ε̂i ). − ≥ ||η̂n || n i=1 1 + ||η̂n || max max |gj (ε̂i )| n i=1 j=1,...,k i=1,...,n Daraus folgt n n n 1 X 1 X 1 X −1 2 ||η̂n || ≤ g(ε̂i ) ||g(ε̂i )|| − g(ε̂i ) max max |gj (ε̂i )| . j=1,...,k i=1,...,n n i=1 n i=1 n i=1 P P Wegen Lemma 3.5 (iv) und unter der Annahme (S2) gilt, dass n1 ni=1 ||g(ε̂i )||2 = n1 ni=1 (g12 (ε̂i )+ . . . + gk2 (ε̂i )) in Wahrscheinlichkeit gegen IE[g12 (ε1 ) + . . . + gk2 (ε1 )] > 0 konvergiert. Nach Lemma 3.5(i) und zusätzlich je nach Gestalt von g nach Lemma 3.5(ii) bzw. (iii) folgt die Behauptung. Beweis zu Lemma 3.8(ii). Zum Beweis der Behauptung wird max1≤i≤n |1−(1+ η̂nT g(ε̂i ))−1 | = oP (1) gezeigt. Nach Lemma 3.5(i) und Lemma 3.8(i) gilt IP(||η̂n || max1≤i≤n,1≤j≤k |gj (ε̂i )| ≥ 1) = ǫ x > ǫ ⇔ x + ǫx > ǫ ⇔ x > 1+ǫ für o(1), und weiter gilt für alle ǫ > 0 wegen der Umformung 1−x x<1 η̂ T g(ε̂ ) i max |gj (ε̂i )| < 1 IP max n T > ǫ , ||η̂n || 1≤i≤n 1 + η̂n g(ε̂i ) 1≤i≤n,1≤j≤k ||η̂ || max ǫ n 1≤i≤n,1≤j≤k |gj (ε̂i )| ≤ IP > ǫ = IP ||η̂n || max |gj (ε̂i )| > = o(1). 1≤i≤n,1≤j≤k 1 − ||η̂n || max1≤i≤n,1≤j≤k |gj (ε̂i )| 1+ǫ Lemma 3.9. In Modell (1.14) gilt unter den Annahmen (M1), (M2), (K) und (H) n 1X sup |I{εi ≤ x} − I{ε̂i ≤ x}| = op (1). x∈IR n i=1 (3.15) Beweis zu Lemma 3.9. Bei K := { max |ε̂i − εi | ≤ δ} handelt es sich um ein mit gegen 1≤i≤n Eins konvergierender Wahrscheinlichkeit eintretendes Ereignis für alle δ > 0. Die linke Seite 3.3 Hilfsresultate 57 der in K betrachteten Ungleichung, die Differenz max |ε̂i − εi |, konvergiert fast sicher gegen 1≤i≤n Null, vergleiche (3.7) bzw. die Konvergenzrate zu supx∈[0,1] |(m − m̂)(x)| aus Akritas und Van Keilegom (2001), Prop. 3. Der Nachweis erfolgt in drei Schritten. Im ersten Schritt wird auf dem Ereignis K die Gültigkeit von |1{εi ≤ x} − I{ε̂i ≤ x}| ≤ I{x − δ < εi ≤ x + δ} für δ > 0 für alle i, 1 ≤ i ≤ n, x ∈ IR, (3.16) gezeigt. Im zweiten Schritt folgt der Beweis von (3.15) für festes x, und im dritten Schritt kann damit das Supremum in (3.15) durch ein Maximum abgeschätzt werden. Wir zeigen zuerst (3.16). Im Fall, dass der Betrag auf der linken Seite von (3.16) Null ergibt, ist die Ungleichung immer erfüllt. Deswegen sind nur Fall 1: εi ≤ x und x < ε̂i und Fall 2: x < εi und ε̂i ≤ x zu untersuchen, in denen die linke Seite von (3.16) Eins ergibt: Im ersten Fall gilt εi ≤ x < x + δ. Auf K gilt außerdem x − δ ≤ x − |ε̂i − εi | = x − (ε̂i − εi ) = x − ε̂i + εi < εi wegen x − ε̂i < 0. Im zweiten Fall ist x − δ < x < εi , auf K gilt weiter x + δ ≥ x + |ε̂i − εi | = x + (εi − ε̂i ) = (x − ε̂i ) + εi ≥ εi wegen x − ε̂i ≥ 0. In beiden Fällen ergibt also der Indikator auf der rechten Seite ebenfalls Eins. Damit ist (3.16) gezeigt. Für den Nachweis von n 1X |I{εi ≤ x} − I{ε̂i ≤ x}| = op (1) (3.17) n i=1 P für festes x wird das Ereignis { n1 ni=1 |I{εi ≤ x} − I{ε̂i ≤ x}| > ǫ} abgeschätzt. Gehen wir zu den Wahrscheinlichkeiten über, so erhalten wir für die linke Seite mit (3.16) für jedes ǫ > 0 und jedes δ > 0 X n 1 |I{εi ≤ x} − I{ε̂i ≤ x}| > ǫ IP n i=1 n 1 X I{x − δ < εi ≤ x + δ} − (F (x + δ) − F (x − δ)) + |F (x + δ) − F (x − δ)| > ǫ ≤ IP n i=1 n 1 X ≤ IP (3.18) I{x − δ < εi ≤ x + δ} − (F (x + δ) − F (x − δ)) > ǫ/2 n i=1 + IP(|F (x + δ) − F (x − δ)| > ǫ/2). (3.19) Die linke Seite der Ungleichung innerhalb der Wahrscheinlichkeit in (3.18) konvergiert nach dem starken Gesetz der großen Zahlen fast sicher für jedes δ > 0 gegen Null, für den Summanden in (3.19) gilt IP(|F (x + δ) − F (x − δ)| > ǫ/2) = 0 für hinreichend kleines δ und stetiges F . Damit ist (3.17) gezeigt. Zur Abschätzung des Supremums in (3.15) durch ein Maximum wird diskretisiert. Wir nehmen eine Einteilung des Wertebereichs [0, 1] der Verteilungsfunktion F in N Abschnitte der Länge 1 für N ∈ IN vor. Die Verteilungsfunktion wird durch F (−∞) := 0 und F (∞) := 1 fortgesetzt. N Über die Urbilder der Intervallgrenzen unterteilen wir für streng monoton wachsendes F die reelle Achse mit −∞ = x0 < x1 < . . . < xN −1 < xN = ∞, so dass F (xk ) − F (xk−1 ) < 1 N (3.20) 58 Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell für k ∈ {1, . . . , N } gilt. Für jedes x gibt es Intervallgrenzen xk−1 , xk , so dass x ∈ [xk−1 , xk ) P für ein k ∈ {1, . . . , N } gilt. Die Differenz n1 ni=1 |I{εi ≤ x} − I{ε̂i ≤ x}| schätzen wir durch Verwendung der Grenzen des zu x gehörigen Intervalls nach oben ab, indem wir zwei Fälle betrachten und diese jeweils durch eine gemeinsame obere Schranke Li := |I{ε̂i ≤ xk } − I{εi ≤ xk−1 }| + |I{ε̂i ≤ xk−1 } − I{εi ≤ xk }| abschätzen. Es gilt I{εi ≤ x} − I{ε̂i ≤ x} ≤ I{εi ≤ xk } − I{ε̂i ≤ xk−1 } ≤ Li und I{ε̂i ≤ x} − I{εi ≤ x} ≤ I{ε̂i ≤ xk } − I{εi ≤ xk−1 } ≤ Li . Damit folgt n n 1X 1X |I{εi ≤ x} − I{ε̂i ≤ x}| ≤ Li n i=1 n i=1 n ≤ n 1X 1X |I{ε̂i ≤ xk } − I{εi ≤ xk }| + (I{εi ≤ xk } − I{εi ≤ xk−1 }) n i=1 n i=1 n n 1X 1X + |I{ε̂i ≤ xk−1 } − I{εi ≤ xk−1 }| + |I{εi ≤ xk−1 } − I{εi ≤ xk }|. n i=1 n i=1 Für das Supremum ergibt sich n 1X |I{εi ≤ x} − I{ε̂i ≤ x}| sup x∈IR n i=1 n 1X ≤ 2 · max |I{ε̂i ≤ xk } − I{εi ≤ xk }| 1≤k≤N n i=1 (3.21) n 1X I(xk−1 ,xk ] (εi ) − IE[I(xk−1 ,xk ] (ε1 )]| + 2 · max | 1≤k≤N n i=1 (3.22) + 2 · max IE[I(xk−1 ,xk ] (ε1 )]. 1≤k≤N Nach (3.17) ist das arithmetische Mittel in (3.21) für jedes k ∈ {1, . . . , N } von der Ordnung op (1), also auch für das Maximum in k. Der Summand in (3.22) ist mit dem starken Gesetz der großen Zahlen ebenfalls von der Ordnung op (1). Schließlich gilt nach (3.20) für alle 1 ≤ k ≤ N IE[I(xk−1 ,xk ] (ε1 )] = F (xk ) − F (xk−1 ) ≤ N1 , also auch im Maximum über 1 ≤ k ≤ N . Damit gilt das Lemma 3.9. 3.4 Hauptresultate Zum Nachweis der schwachen Konvergenz (vgl. die Sätze 3.12 und 3.14) benötigen wir eine alternative Darstellung für den Schätzer F̄n aus (3.1): Wir verwenden bei den Entwicklungen ein mehrschrittiges Vorgehen: In Satz 3.11, der Entwicklung für F̄n , tritt der Lagrangemultiplikator η̂n auf. Deshalb wird eine Entwicklung für den Lagrange-Multiplikator η̂n in Lemma 3.10 gezeigt. P In dieser Entwicklung erhalten wir als dominierenden Term die Summe n1 ni=1 g(ε̂i ). Weil 3.4 Hauptresultate 59 wir bestrebt sind, durch die Entwicklungen den Schätzer F̄n durch einen dominanten Term ausdrücken zu können, welcher eine Summe aus i.i.d. Zufallsvariablen darstellt, haben wir im Abschnitt 3.3 bereits die genannte Summe entwickelt, und zwar für zwei Typen von Funktionen g, vgl. dazu Lemma 3.5(ii) und (iii). Lemma 3.10 (Entwicklung von η̂n ). Vorausgesetzt werden die Annahmen (M1), (M2), (M3), (K), (H) aus Abschnitt 1.5, (A) aus 1.6, (S1) und (S2) aus Abschnitt 2.2 und Modell (1.14). Für Funktionen g gemäß (G1) und (G2) wie auch für g(ε) = I{ε ≤ a} − b gilt −1 1 η̂n = Σ n n X i=1 1 g(ε̂i ) + oP √ . n Beweis zu Lemma 3.10. Nach der Definition des Schätzers F̄n ist η̂n eine Lösung der Gleichung (3.2). Damit gilt die Gleichung n n n 1X 1X T g(ε̂i ) 1X g(ε̂i ) − g(ε̂i )g T (ε̂i )η̂n + (η̂n g(ε̂i ))2 . 0= n i=1 n i=1 n i=1 1 + η̂nT g(ε̂i ) Bevor die Gleichung nach η̂n aufgelöst wird, kann die Vernachlässigbarkeit des letzten Summanden gezeigt und genutzt werden. Es gilt die Abschätzung für den letzten Summanden n 1 X g(ε̂i ) T 2 (η̂n g(ε̂i )) T n i=1 1 + η̂n g(ε̂i ) (3.23) n 1 1X 1 kg(ε̂i )k2 max max |gj (ε̂i )| max = o P √ T g(ε̂ ) 1≤i≤n 1 + η̂n 1≤j≤k 1≤i≤n n i=1 n i P wegen Lemma 3.8(i) für kη̂n k, Lemma 3.5(v) für n1 ni=1 kg(ε̂i )k2 , Lemma 3.5(i) für max1≤i≤n |gj (ε̂i )| und Lemma 3.8(ii) für den verbleibenden Bruch. Nach Lemma 3.5(v) ist die Matrix Pn 1 T √1 i=1 g(ε̂i )g (ε̂i ) mit einem Fehler der Ordnung oP ( n ) durch Σ ersetzbar. Lösen wir nun n P 0 = n1 ni=1 g(ε̂i )−Σ η̂n +oP ( √1n ) nach η̂n auf, erhalten wir die Behauptung aus Lemma 3.10. ≤ kη̂n k2 Satz 3.11 (Entwicklung von F̄n ). Vorausgesetzt werden die Annahmen (M1), (M2), (M3), (K), (H) aus Abschnitt 1.5, (A) aus 1.6, (S1) und (S2) aus Abschnitt 2.2 und Modell (1.14). Für Funktionen g gemäß (G1) und (G2) wie auch für g(ε) = I{ε ≤ a} − b gilt gleichmäßig in y ∈ IR 1 F̄n (y) = F̂n (y) − U T (y)η̂n + oP √ n mit U (y) = IE[g(ε1 )I{ε1 ≤ y}]. Beweis zu Satz 3.11. Für den Beweis wird F̄n (y) − F̂n (y) mit Taylorentwicklung in Null mit x2 1 = 1 − x + 1+x für alle x 6= −1 zerlegt, explizitem quadratischen Rest 1+x n 1X η̂nT g(ε̂i ) F̄n (y) − F̂n (y) = − I{ε̂i ≤ y} n i=1 1 + η̂nT g(ε̂i ) n (η̂nT g(ε̂i ))2 1X T T η̂ g(ε̂i ) 1 − η̂n g(ε̂i ) + I{ε̂i ≤ y}. = − n i=1 n 1 + η̂nT g(ε̂i ) 60 Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell Für diesen Term werden drei Teilbehauptungen gezeigt: n 1X g(ε̂i )I{ε̂i ≤ y} = U (y) + oP (1), n i=1 n 1 2 1X T η̂n g(ε̂i ) I{ε̂i ≤ y} = oP √ , n i=1 n 3 n 1 1 X η̂nT g(ε̂i ) I{ε̂ ≤ y} = o . i P √ n i=1 1 + η̂nT g(ε̂i ) n (3.24) (3.25) (3.26) Die linke Seite von (3.24) enthält nach Multiplikation mit η̂n den Term U T (y)η̂n . Alle restlichen √ Terme in (3.24), (3.25) und (3.26) sind aufgrund ihrer Ordnung oP (1/ n) vernachlässigbar: Für die Abschätzung (3.24) nutzen wir mit n n 1X 1 X Dn1 (y) := g(εi )I{εi ≤ y}, Dn2 (y) := g(ε̂i ) − g(εi ) I{ε̂i ≤ y}, n i=1 n i=1 n 1X g(εi ) I{ε̂i ≤ y} − I{εi ≤ y} Dn3 (y) := n i=1 P die Zerlegung n1 ni=1 g(ε̂i )I{ε̂i ≤ y} = Dn1 (y) + Dn2 (y) + Dn3 (y). Fast sicher gleichmäßige Konvergenz von Dn1 (y) gegen den Erwartungswert U (y) erhalten wir, weil es sich bei der Klasse von Funktionen {ε 7→ g(ε)I{ε ≤ y}|y ∈ IR} um eine VC-Klasse handelt (vgl. dazu Lemma 1.25), und sie daher eine Glivenko-Cantelli-Klasse bildet. Für Dn2 (y) gilt gleichmäßig in y ∈ IR gemäß Lemma 3.5(v) kDn2 (y)k ≤ ≤ n 1 X n 1 n i=1 n X 2 kg(ε̂i ) − g(εi )k i=1 n 1/2 1 X n i=1 1/2 I{ε̂i ≤ y} (g1 (ε̂i ) − g1 (εi ))2 + . . . + (gk (ε̂i ) − gk (εi ))2 1/2 = oP (1). Schließlich erhalten wir für den noch verbliebenen Term kDn3 (y)k ≤ n 1 X n i=1 kg(εi )k2 n 1/2 1 X n i=1 (I{ε̂i ≤ y} − I{εi ≤ y}) n 1 X 1/2 = OP (1) = oP (1) |I{ε̂i ≤ y} − I{εi ≤ y}| n i=1 1/2 wegen des starken Gesetzes der großen Zahlen und Lemma 3.9. Die Behauptung in (3.25) gilt mit n n 1 1 X 2 1X T 21 η̂n g(ε̂i ) I{ε̂i ≤ y} ≤ kη̂n k kg(ε̂i )g T (ε̂i )k = OP OP (1) = oP √ n i=1 n i=1 n n 3.4 Hauptresultate 61 wegen Lemma 3.8(i) und Lemma 3.5(v). Die Behauptung in (3.26) folgt, weil 3 n 1 X η̂nT g(ε̂i ) I{ε̂i ≤ y} n i=1 1 + η̂nT g(ε̂i ) n 1 1 1X 3 T ≤ kη̂n k max kg(ε̂ )g (ε̂ )k = o max max |g (ε̂ )| i i P j i T g(ε̂ ) 1≤j≤k 1≤i≤n 1≤i≤n 1 + η̂n n i=1 n i wegen Lemma 3.8(i) und (ii) und Lemma 3.5 (i) und (v) gilt. Damit ist der Beweis zu Satz 3.11 abgeschlossen. P Nachdem wir die Entwicklungen für den enthaltenen Term n1 ni=1 g(ε̂i ) für beide Typen von Funktionen g in Lemma 3.5(ii) und (iii), die Entwicklung von η̂n aus Lemma 3.10 und die Entwicklung von F̄n in Satz 3.11 gezeigt haben, formulieren wir jetzt die angestrebte schwache Konvergenz für den zugehörigen stochastischen Prozess, wieder getrennt nach Typen von Funktionen g. Satz 3.12 (Erster Satz zur schwachen Konvergenz). Vorausgesetzt werden die Annahmen (M1), (M2), (M3), (K), (H) aus Abschnitt 1.5, (A) aus 1.6, (S1) und (S2) aus Abschnitt 2.2 und Modell (1.14). Für Funktionen g gemäß (G1) und (G2) aus Abschnitt 3.2 gilt dann gleichmäßig in y ∈ IR die Entwicklung Z IE[m̂(x)] − m(x) fX (x)dx f (y) + U T (y)Σ−1 IE[g ′ (ε1 )] F̄ (y) = n 1 1 X I{εi ≤ y} + f (y)εi − U T (y)Σ−1 g(εi ) − IE[g ′ (ε1 )]εi + oP √ + n i=1 n n 1 1 X ′ T −1 g(εi ) − IE[g (ε1 )]εi + oP √ . I{εi ≤ y} + f (y)εi − U (y)Σ = b̄(y) + n i=1 n Dabei ist mit Hilfe von B aus (1.21) der Biasterm b̄(y) = h2 B f (y) + U T (y)Σ−1 IE[g ′ (ε1 )] √ definiert. Der Prozess n(F̄n (·) − F (·) − b̄(·)) konvergiert schwach gegen einen zentrierten Gaußprozess Ḡ mit Kovarianzfunktion Cov(Ḡ(y), Ḡ(z)) = F (min(y, z)) − F (y)F (z) + f (y)f (z)σ 2 +f (y)IE[ε1 I{ε1 ≤ z}] +f (z)IE[ε1 I{ε1 ≤ y}] +U T (y)Σ−1 Σ − IE[g ′ (ε1 )]IE[ε1 g T (ε1 )] −IE[ε1 g(ε1 )]IE[g (ε1 )] + IE[g (ε1 )]σ IE[g (ε1 )] Σ−1 U (z) −U T (y)Σ−1 U (z) − IE[g ′ (ε1 )]IE[ε1 I{ε1 ≤ z}] ′ T −1 U (y) − IE[g (ε1 )]IE[ε1 I{ε1 ≤ y}] −U (z)Σ − f (z)U T (y) + f (y)U T (z) Σ−1 IE[ε1 g(ε1 )] − IE[g ′ (ε1 )]σ 2 . ′ T ′ 2 ′ T 62 Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell Für U (y) vergleiche Satz 3.11 und für Σ Annahme (S2). Beweis zu Theorem 3.12. Die Entwicklung für den Prozess setzt sich aus den EntwicklungP en zu F̄n , η̂n und n1 ni=1 g(ε̂i ) zusammen (vgl. Satz 3.11, Lemma 3.10 und Lemma 3.5(ii)). √ Für den Nachweis der schwachen Konvergenz zeigen wir, dass der Prozess n(F̄n (·) − F (·) − b̄(·)) Donsker ist. Weil wir nach Lemma 1.18 aus der Summe zweier Donsker-Klassen mit R supϕ∈F1 ∪F1 | ϕdP | < ∞ wieder eine Donsker-Klasse erhalten, müssen wir nur für die beiden folgenden Funktionenklassen Fℓ (ℓ = 1, 2) den Nachweis führen, dass es sich um DonskerKlassen handelt: F1 = {ε 7→ I{ε ≤ y} − F (y) | y ∈ IR}, F2 = {ε 7→ f (y)ε − U (y)T Σ−1 (g(ε) − IE[g ′ (ε1 )]ε) | y ∈ IR} R und dass supϕ∈F1 ∪F2 | ϕdP | < ∞ gilt. Die letzte Bedingung folgt sofort aus den Annahmen an ε und g(ε). Bei der ersten Klasse F1 handelt es sich nach klassischen Resultaten für den empirischen Prozess um eine Donsker-Klasse, vgl. Definition 1.12 und Satz 1.8. Für die zweite Klasse F2 zeigen wir zuerst, dass es sich um eine VC-Klasse handelt, vgl. dazu Definition 1.21. Den zweiten Teil der Abbildungen können wir wegen T −1 U (y) Σ ′ (g(ε) − IE[g (ε1 )]ε) = k X U (y)T Σ−1 j=1 j gj (ε) − IE[gj′ (ε1 )]ε als Teilmenge einer anderen Menge schreiben: zu jedem y ∈ IR gibt es k + 1 reelle Zahlen c0 , . . . , ck , so dass F2 mit hj (ε) = gj (ε) − IE[gj′ (ε1 )]ε in der Klasse Fr := {ε 7→ c0 ε + k X j=1 cj hj (ε) | c0 , . . . , ck ∈ IR} enthalten ist. Weil es sich bei der größeren Klasse um einen höchstens (k + 1)−dimensionalen Vektorraum von messbaren Funktionen von X nach IR handelt, ist F2 eine VC-Klasse (vergleiche Satz 1.24). Wir erhalten die punktweise Separabilität für die Klasse F2 gemäß Definition 1.22: Betrachten wir die Funktionenklasse Fr : Für jedes reelle cj , 1 ≤ j ≤ k, existiert eine Folge rationaler Zahlen qj1 , qj2 , . . . mit limm→∞ qjm = cj . Dementsprechend können wir die Funktion P gm (ε) := q0m ε + kj=1 qjm hj (ε) als approximierende Funktion wählen. Für festes n und eine Funktion a ∈ Fr gilt die Konvergenz (gm (ε1 ), . . . , gm (εn )) −→ (a(ε1 ), . . . , a(εn )), m → ∞, und die L2 (P )−Konvergenz 2 IE[(gm (ε1 ) − a(ε1 )) ] = IE[((q0m − c0 )ε1 + 2 2 = (q0m − c0 ) σ + 2(q0m − c0 ) k X j=1 k X j=1 (qjm − cj )hj (ε1 ))2 ] (qjm − cj )IE[ε1 hj (ε1 )] + k X j=1 (qjm − cj )2 IE[h2j (ε1 )] → 0, m → ∞, 3.4 Hauptresultate 63 wegen limm→∞ qjm = cj ∀ j = 0, . . . , k und mit der Existenz von IE[ε1 hj (ε1 )] und IE[h2j (ε1 )] für j = 1, . . . , k gemäß (M2), (S2) und (G1). Eine solche Wahl einer approximierenden Funktion ist für jedes a ∈ Fr möglich. Die Klasse F2 besitzt eine quadratintegrierbare Einhüllende wegen (M2) und (A). Damit sind die Voraussetzungen für die punktweise Separabilität von F2 nachgewiesen. Mit Satz 1.23 folgt so, dass F2 Donsker ist. Zur Berechnung der Kovarianzfunktion verwenden wir die Bezeichnung Hi (y) := I{εi ≤ y} − F (y) + f (y)εi − U (y)T Σ−1 g(εi ) − IE[g ′ (ε1 )]εi . Damit ist IE[H1 (y)] = 0 und es gilt gleichmäßig in y ∈ IR n √ 1 X Hi (y) + op (1). n F n (y) − F (y) − b(y) = √ n i=1 Für die Kovarianzen erhalten wir n n 1 X 1 X Hi (y), √ Hj (z) = IE[H1 (y)H1 (z)] Cov √ n i=1 n j=1 = IE[(I{ε1 ≤ y} − F (y))(I{ε1 ≤ z} − F (z))] + f (y)f (z)IE[ε21 ] +U (y)T Σ−1 IE[(g(ε1 ) − IE[g ′ (ε1 )]ε1 )(g(ε1 ) − IE[g ′ (ε1 )]ε1 )T ]U (z)Σ−1 +IE[(I{ε1 ≤ y} − F (y))f (z)ε1 ] + IE[(I{ε1 ≤ z} − F (z))f (y)ε1 ] −IE[(I{ε1 ≤ y} − F (y))U (z)T Σ−1 (g(ε1 ) − IE[g ′ (ε1 )]ε1 )] −IE[(I{ε1 ≤ z} − F (z))U (y)T Σ−1 (g(ε1 ) − IE[g ′ (ε1 )]ε1 )] −IE[f (y)ε1 U (z)T Σ−1 (g(ε1 ) − IE[g ′ (ε1 )]ε1 )] −IE[f (z)ε1 U (y)T Σ−1 (g(ε1 ) − IE[g ′ (ε1 )]ε1 )], womit Satz 3.12 gezeigt ist. Bei dem gewonnenen Grenzprozess interessiert neben der Konvergenz selbst insbesondere die Größe von Bias und Kovarianzfunktion. Im Fall von unabhängig und identischen verteilten Zufallsvariablen ε1 , . . . , εn war es möglich, durch die Verwendung der Empirical-LikelihoodSchätzmethode gleichmäßig in y ∈ IR eine gleiche oder kleinere Varianz im Vergleich zu dem Grenzprozess, bei dem keine Zusatzinformation verwendet wird, nachzuweisen. Dies ist aufgrund von Satz 3.12 bei der Verwendung der nichtparametrischen Residuen anstelle der Fehler nicht für alle Verteilungsfunktionen F möglich. Wir werden uns in Kapitel 5 eingehend mit verschiedenen Funktionen g und Verteilungsfunktionen und der daraus resultierenden Varianzveränderung beschäftigen. Dabei werden wir auch Bias und Varianz simultan vergleichen. Bemerkung 3.13. Würden wir die stärkere Annahme an die Bandbreite h, nh4 = o(1), treffen, √ wäre der Bias b̄ ebenfalls von der Ordnung o(1/ n) der Restterme. Durch unsere Annahme nh4 = O(1) haben aber die Terme der Ordnung O(h2 ) durchaus einen Einfluss. Uns interessiert, 64 Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell wann die Hinzunahme der Zusatzinformation keinerlei Auswirkung auf die Schätzung hat. Im Spezialfall g(ε) = IE[g ′ (ε)]ε fällt der gesamte dritte Summand U T (y)Σ−1 (g(εi ) − IE[g ′ (ε1 )]εi ) auf der rechten Seite der Entwicklung von F̄n in Satz 3.12 weg. In diesem Fall reduziert sich unsere Entwicklung auf F̄n (y) = F̂n (y) + oP (n−1/2 ) und wir erhalten damit asymptotisch keine Varianzverbesserung. Für den Grenzprozess Ḡ aus Satz 3.12 und den Grenzprozess G von Seite 1.23 gilt also Var(Ḡ(y)) = Var(G(y)) ⇔ g(ε) = cε für ein c ∈ IR. Die Gestalt von g entspricht der Zusatzinformation, dass die Fehler zentriert sind. Eine Erklärung für diese Beobachtung haben Müller, Schick und Wefelmeyer (2004a) in ihrer Betrachtung linearer glatter auf Residuen basierender Schätzer geliefert: die Eigenschaft der Zentriertheit wird bereits bei der Konstruktion bzw. Schätzung der Residuen ε̂i ausgenutzt. Sie stellt daher in diesem Sinn keine zusätzliche Information mehr dar. Bei unserer Diskussion werden Terme der Ordnung O(h2 ) durch die Annahme nh4 = O(1) an die Konvergenz der Bandbreite mitberücksichtigt: durch die Veränderung des Bias von b(y) in (1.21) zu b̄(y) sind weitere Verbesserungen der Schätzung möglich, vergleiche die Betrachtung von Beispielen in Kapitel 5. Es ist besonders auf den Fall normalverteilter Fehler hinzuweisen: hier erhalten wir b̄(y) = 0 für alle y ∈ IR, der gesamte Bias ist also Null. Im Fall von Biasreduzierungen wegen der Verwendung von Kernen höherer Ordnung (vgl. Bemerkung 1.30) können diese durch den Empirical-Likelihood-Ansatz weiter verbessert werden, wenn die Ungleichung |f (y) + U T (y)Σ−1 IE[g ′ (ε1 )]| < f (y) gilt: dazu wird auf die erste Zeile der Entwicklung von F̄n (y) in Satz 3.12 verwiesen. Nach dem Nachweis schwacher Konvergenz für den interessierenden stochastischen Prozess für einen Typ von Funktionen g wird nun die analoge Aussage für Funktionen g der Form g(ε) = I{ε ≤ a} − b gezeigt, mit denen wir die Information über Quantile unter Einsatz von IE[g(ε1 )] = 0 darstellen können. Satz 3.14 (Zweiter Satz zur schwachen Konvergenz). Vorausgesetzt werden das Modell (1.14) und die Annahmen (M1), (M2), (M3), (K), (H) aus Abschnitt 1.5, (A) aus 1.6 und (S1) und (S2) aus Abschnitt 2.2. Die Funktion g ist von der Form g(ε) = I{ε ≤ a} − b für Konstanten a ∈ IR und b = F (a) ∈ (0, 1), k = 1. Gleichmäßig in y ∈ IR gilt dann die Entwicklung n 1 1 1 X I{εi ≤ y} + f (y)εi − U (y) (I{εi ≤ a} − b + f (a)εi ) + oP √ . F̄n (y) = b̄(y) + n i=1 b(1 − b) n Der Biasterm ist von der Form b̄(y) = h2 B(f (y) − U (y)Σ−1 f (a)) mit B aus (1.21). 3.5 Modellspezifische Details 65 √ Der stochastische Prozess n(F̄n (·) − F (·) − b̄(·)) konvergiert schwach gegen einen zentrierten Gaußprozess Ḡ mit Kovarianzfunktion Cov(Ḡ(y), Ḡ(y)) = F (min(y, z)) − F (y)F (z) + σ 2 f (y)f (z) +f (y)IE[ε1 I{ε1 ≤ z}] + f (z)IE[ε1 I{ε1 ≤ y}] +U (y)U (z)(b(1 − b))−2 b(1 − b) + 2f (a)IE[ε1 I{ε1 ≤ a}] + f 2 (a)σ 2 −1 −U (z)(b(1 − b)) F (min(a, y)) − bF (y) + f (a)IE[ε1 I{ε1 ≤ y}] −U (y)(b(1 − b))−1 F (min(a, z)) − bF (z) + f (a)IE[ε1 I{ε1 ≤ z}] 2 −1 f (z)U (y) + f (y)U (z) IE[ε1 I{ε1 ≤ a}] + f (a)σ . −(b(1 − b)) Beweis zu Satz 3.14. In diesem Satz behandeln wir denselben Prozess wie in Satz 3.12 mit dem Unterschied, dass innerhalb der Entwicklung und des Prozesses hier andere Funktionen g zugelassen sind. Anhand der Entwicklungen für F̄n aus Satz 3.11 und η̂n aus Lemma 3.10 und für Pn 1 i=1 g(ε̂i ) aus Lemma 3.5 (iii) (anstatt (ii) in Satz 3.12) gilt die behauptete Entwicklung. Die n restlichen Schritte des Beweises, der Nachweis der schwachen Konvergenz für den stochastischen Prozess und die Berechnung der Kovarianzfunktion, verlaufen analog zum Beweis von Satz 3.12. Bemerkung 3.15. Satz 3.14 wurde für eindimensionale Funktionen g formuliert. Die Aussagen sind genauso möglich für mehrdimensionale Funktionen und solche Funktionen, bei denen die beiden Typen von Funktionen g gemischt auftreten, also pro Komponente liegt einer der beiden Typen von Funktionen vor. Zusätzlich ist es möglich, entsprechende schwache Konvergenzsätze zu zeigen, sobald eine stochastische Entwicklung ähnlich wie die in Lemma 3.5(ii) oder (iii) nachweisbar ist, vgl. Bemerkung 3.7. 3.5 Modellspezifische Details zum Empirical-LikelihoodVerfahren Die Existenz und Eindeutigkeit von ηn basiert auf der Annahme min gj (εi ) < 0 < max gj (εi ) für jedes j = 1, . . . , k. 1≤i≤n 1≤i≤n Analog wird die Annahme (S1) für die Existenz und Eindeutigkeit von η̂n getroffen, jeweils für Funktionen g gemäß (G1) und (G2) und solche konstruiert aus Indikatorfunktionen. Dass die Annahme von (S1) gerechtfertigt ist in der Weise, dass dieses Ereignis zumindest unter bestimmten Annahmen mit gegen Eins konvergierender Wahrscheinlichkeit eintritt, wird in den ersten drei Behauptungen von Lemma 3.18 formuliert und dann gezeigt. In Lemma 3.18 (s4) und (s5) wird gezeigt, dass beide Teile der Annahme (S2) unter zu nennenden Annahmen zumindest mit gegen Eins wachsender Wahrscheinlichkeit eintreten. Der zweite Teil von (S2) wird 66 Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell im Beweis der Eindeutigkeit der Lösung η̂n in der Menge D̂k (vgl. Lemma 2.2) verwendet. Für die Funktion hj : IR3 → IR, definiert durch hj (ε1 , ξ, δ1 ) := sup |z|≤δ1 ,|z̃|≤δ1 ,|z−z̃|≤ξ |gj (ε1 + z) − gj (ε1 + z̃)| (3.27) mit reellen z, z̃, wird die in Lemma 3.18 (s3) verwendete Annahme formuliert (sie ähnelt der Annahme (G2), die Konstanten müssen aber nicht wie dort gewählt werden, insbesondere unterliegt die Konstante κ hier anderen Annahmen): (G2(Z)) Es existieren Konstanten δ1 und C1 , so dass für ein κ = κ(Z) > 0 und Z > 0 mit der Funktion hj (ε1 , ξ, δ1 ) aus (3.27) für alle ξ > 0 die folgende Abschätzung für j = 1, . . . , k gilt: 1/Z IE[|hj (ε1 , ξ, δ1 )|Z ] ≤ C1 ξ 1/κ . Für die folgenden Beispiele vergleiche das obige Beispiel 3.3. Beispiel 3.16. g(ε) = ε: in diesem Fall ist hj (ε1 , ξ, δ1 ) = sup |ε1 − ε1 + z − z̃|, so dass 1 IE |hj (ε1 , ξ, δ1 )|Z Z = sup |z − z̃| ≤ ξ gilt. Zu wählen ist C1 = 1, κ = 1. Beispiel 3.17. g(ε) = εa − c, a ∈ IN, a 6= 0; c ∈ IR : Nach (3.27) gilt a a X a a−l l X a a−l l a a ε z̃ ε z − hj (ε1 , ξ, δ1 ) = sup (ε1 + z) − c − (ε1 + z̃) + c = sup l 1 l 1 l=0 l=0 a a X X a a−l a a−l l l |ε1 | sup |z l − z̃ l |. ε1 (z − z̃ ) ≤ = sup l l l=1 l=1 Für das Beispiel a = 2 zeigen wir, wie das Supremum sup |z l − z̃ l | durch in (G2(Z)) vorkommende Terme sup |z − z̃|, sup |z| und sup |z̃| durch ξ und δ1 mit geeigneten Exponenten abzuschätzen ist: hj (ε1 , ξ, δ1 ) ≤ 2|ε1 | sup |z − z̃| + sup |z 2 − z̃ 2 | ≤ 2|ε1 | sup |z − z̃| + (sup |z| + sup |z̃|) sup |z − z̃| = sup |z − z̃| 2|ε1 | + (sup |z| + sup |z̃|) ≤ ξ2(|ε1 | + δ1 ); Z X Z Z Z Z IE[|ε1 |m ]δ1Z−m . IE |hj (ε1 , ξ, δ1 )| ≤ ξ 2 m m=0 Wir betrachten, welche Konstanten C1 , κ hier zu wählen sind. Der Exponent κ aus (G2(Z)) kann hier gleich Eins gesetzt werden. Für die Endlichkeit der rechten Seite wird IE[|ε1 |Z ] = O(1) 1/Z P Z Z m Z−m IE[|ε | ]δ . benötigt: wir wählen C1 = 2 1 1 m=0 m 3.5 Modellspezifische Details 67 Lemma 3.18. Die Annahmen (M1), (M2), (M3), (K), (H) und (A) (von S. 16 bis 19) und Modell (1.14) werden vorausgesetzt. Wir betrachten die folgenden Konvergenzen lim IP min gj (εi ) < 0 < max gj (εi ) = 1, (3.28) n→∞ 1≤i≤n 1≤i≤n lim IP min gj (ε̂i ) < 0 < max gj (ε̂i ) = 1, (3.29) n→∞ 1≤i≤n lim IP n→∞ lim IP n→∞ n 1 X n i=1 n 1 X n i=1 1≤i≤n g(ε̂i )g T (ε̂i ) ist positiv definit = 1, (3.30) g(εi )g (εi ) ist positiv definit = 1. (3.31) T (s1) Sei gj eine Funktion, für die das Lebesgue-Maß von {x ∈ IR|gj (x) 6= 0} positiv ist. Für solche Funktionen gj gilt (3.28). (s2) Sei gj eine Funktion, für die das Lebesgue-Maß von {x ∈ IR|gj (x) 6= 0} positiv ist und für die Annahme (G2(Z)) bei Z ≥ 3κ, κ > 0, Z ∈ IN gültig ist. Dann gilt (3.29) für gj . (s3) Für gj (ε1 ) = I{ε1 ≤ a} − b, b ∈ (0, 1), gilt (3.29). (s4) Ist Σ positiv definit, dann gilt (3.30). (s5) Ist Σ positiv definit, dann gilt (3.31). Beweis zu Lemma 3.18(s1). Mit Übergang zum Gegenereignis gilt für die linke Seite der Behauptung q := IP min gj (εi ) < 0 < max gj (εi ) 1≤i≤n 1≤i≤n = 1 − IP { min gj (εi ) ≥ 0} ∪ { max gj (εi ) ≤ 0} 1≤i≤n 1≤i≤n ≥ 1 − IP min gj (εi ) ≥ 0 − IP max gj (εi ) ≤ 0 1≤i≤n 1≤i≤n ! ! n n 1X 1X = 1 − IP 1[0,∞) (gj (εi )) = 1 − IP 1(−∞,0] (gj (εi )) = 1 . n i=1 n i=1 Aus der letzten Abschätzung folgt durch Einschieben von Fgj (ε) (0) = IP(gj (ε) ≤ 0) ! ! n n 1X 1X 1[0,∞) (gj (εi )) ≥ 1 − IP 1(−∞,0] (gj (εi )) ≥ 1 q ≥ 1 − IP n i=1 n i=1 n ! 1 X ≥ 1 − IP 1(−∞,0] (gj (εi )) − Fgj (ε) (0) ≥ 1 − Fgj (ε) (0) n i=1 ! n 1 X 1[0,∞) (gj (εi )) − 1 − Fgj (ε) (0) ≥ Fgj (ε) (0) . − IP n i=1 (3.32) (3.33) 68 Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell Keine der beiden rechten Seiten der Ungleichungen in den Wahrscheinlichkeiten nimmt einen der Werte 0 oder 1 an: Wir betrachten den Fall Fgj (ε) (0) 6= 0. Angenommen, es gilt Fgj (ε) (0) = 0. Dann ist IP(gj (ε) ≤ 0) = 0, damit sind fast sicher alle Werte, die angenommen werden, größer als Null, es gilt also IP(gj (ε) > 0) = 1. Eine Zufallsvariable gj (ε) mit IP(gj (ε) > 0) = 1 und der Annahme IE[gj (ε1 )] = 0 aus (A) aus S. 19 existiert nicht. Wir betrachten den anderen Fall Fgj (ε) (0) = 1, dann ist IP(gj (ε) ≤ 0) = 1. Zusammen mit IE[gj (ε1 )] = 0 folgt IP(gj (ε) = 0) = 1. Nach den Annahmen an F haben das Lebesgue-Maß und die Verteilung von ε die gleichen Nullmengen, dadurch entsteht auch hier ein Widerspruch. Die jeweiligen linken Seiten der Ungleichungen innerhalb der Wahrscheinlichkeiten in den Zeilen (3.32) und (3.33) sind stochastische Nullfolgen mit dem Satz von Glivenko-Cantelli, d.h. es gilt n 1 X sup 1(−∞,y] gj (εi ) − Fgj (ε) (y) −→ 0 f.s., n → ∞, y∈IR n i=1 die rechte Seite besteht aus Konstanten ∈ / {0, 1}, und Behauptung (s1) ist gezeigt. Beweis zu Lemma 3.18(s2). Wir beschränken uns darauf, lim IP min gj (ε̂i ) ≥ 0 = 0 n→∞ 1≤i≤n zu zeigen. Die Behauptung in (s2) folgt analog. Für jede reelle Zahlenfolge cn > 0 mit limn→∞ cn = 0 gilt IP min gj (ε̂i ) ≥ 0 ≤ IP min gj (εi ) ≥ −cn + IP min gj (εi ) < −cn , min gj (ε̂i ) ≥ 0 1≤i≤n 1≤i≤n 1≤i≤n 1≤i≤n (3.34) ≤ IP min gj (εi ) ≥ −cn 1≤i≤n +IP max |gj (εi ) − gj (ε̂i )| > cn . (3.35) 1≤i≤n Für den Term in (3.34) gilt IP min gj (εi ) ≥ −cn 1≤i≤n = IP ! n 1X I[−cn ,∞) (gj (εi )) = 1 = IP n i=1 ! n 1X I[0,∞) (gj (εi ) + cn ) = 1 . n i=1 Für alle Konstanten η > 0 existiert ein N ∈ IN , so dass 0 < cn < η für alle n > N . Für alle n > N gilt damit weiter ! n 1X I[0,∞) (gj (εi ) + cn ) = 1 IP n i=1 ! n 1X ≤ IP I[0,∞) (gj (εi ) + η) − (1 − Fgj (ε)+η (0)) = 1 − (1 − Fgj (ε)+η (0)) n i=1 ! n 1 X I[0,∞) (gj (εi ) + η) − 1 + Fgj (ε)+η (0)) ≥ Fgj (ε)+η (0) , ≤ IP n i=1 3.5 Modellspezifische Details 69 wobei Fgj (ε)+η die Verteilungsfunktion von gj (ε) + η bezeichnet. Die linke Seite der Ungleichung innerhalb der Wahrscheinlichkeit konvergiert ähnlich wie im Beweis zu (s1) für jede Konstante η fast sicher gegen Null. Für ausreichend kleines η gilt Fgj (ε)+η (0) ∈ / {0, 1}, wie im Folgenden gezeigt wird: Die Abschätzung nach oben, IP(gj (ε) + η ≤ 0) < 1, ist gültig wegen IE[gj (ε1 )] = 0 mit IP(gj (ε) + η ≤ 0) ≤ IP(gj (ε) ≤ 0) < 1. Die Abschätzung nach unten, 0 < IP(gj (ε) + η ≤ 0), wird durch Widerspruch gezeigt. Wir treffen die Annahme IP(gj (ε) + η ≤ 0) = 0 ∀ η > 0 und betrachten das Ereignis {gj (ε) < S S 0} = η>0 {gj (ε) + η ≤ 0} = n {gj (ε) + n1 ≤ 0}. Mit der Stetigkeit von unten gilt IP(gj (ε) < 0) = limn→∞ IP(gj (ε) + n1 ≤ 0), wobei limn→∞ IP(gj (ε) + n1 ≤ 0) nach Annahme gleich Null ist. Damit muss auch IP(gj (ε) < 0) = 0 gelten, was den Widerspruch zur Annahme liefert: wegen IE[gj (ε1 )] = 0 muss es demnach ein η > 0 geben, für das IP(gj (ε) + η ≤ 0) > 0 gilt. Die Konvergenz für den Term in (3.34) ist somit gezeigt. Der Term in (3.35) wird durch zwei Summanden nach oben abgeschätzt: IP max |gj (εi ) − gj (ε̂i )| > cn 1≤i≤n ≤ IP max |gj (εi ) − gj (ε̂i )| > cn , max |ε̂i − εi | ≤ δn (3.36) 1≤i≤n 1≤i≤n +IP max |ε̂i − εi | > δn . (3.37) 1≤i≤n Wir betrachten zuerst (3.37): fast sicher gilt max |εi − ε̂i | ≤ sup |m̂(x) − m(x)| = O((nh)−1/2 (log(h−1 ))1/2 ) = o(δn ) i=1,...,n (3.38) x∈[0,1] für eine Folge δn , die langsamer gegen Null konvergiert als O((nh)−1/2 (log h−1 )1/2 ). Der Term in (3.36) wird für κ > 0 folgendermaßen abgeschätzt: IP max |gj (εi ) − gj (ε̂i )| > cn , max |ε̂i − εi | ≤ δn ≤ IP max |hj (εi , δn , δ1 )| > cn 1≤i≤n 1≤i≤n 1≤i≤n Z/κ δn n ≤ nIE [I{|hj (ε1 , δn , δ1 )| > cn }] ≤ Z IE |hj (ε1 , δn , δ1 )|Z ≤ nC1Z Z cn cn (3.39) unter Anwendung der Markov-Ungleichung mit der Funktion hj aus (3.27) unter Annahme (G2(Z)). Abschließend ist zu zeigen, dass die rechte Seite in (3.39) gegen Null konvergiert. Insgesamt sind also die Folgen cn und δn so zu wählen, dass die folgenden drei Raten gelten: (nh)−1/2 (log(h−1 ))1/2 = o(δn ) (vgl. (3.38)), (3.40) Z/κ nδn = o(1) cZn cn = o(1) (vgl. (3.39)), und (3.41) (vgl. den Anfang des Beweises zu (s2)). (3.42) Als erstes wird δn = (nh)−1/2 (log(h−1 ))1/2 dn mit noch genauer zu bestimmenden dn → ∞ gewählt. Dieses δn erfüllt die erste Forderung. Die Folge dn wird zusätzlich so gewählt, dass 70 Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell Z/κ Z/κ 1 nδn = o(1) gilt: Damit kann dann cn = (nδn ) 2Z gewählt werden, und dieses cn erfüllt Z/κ Z/κ n = die dritte Forderung. Auch die zweite Forderung ist damit erfüllt, denn nδcnZ = nδZ/κ 1/2 n (nδn ) Z/κ (nδn )1/2 = o(1). Z/κ Es bleibt also zu zeigen, wann nδn = o(1) und gleichzeitig dn → ∞ gilt. Wir zerlegen dazu den folgenden Ausdruck: nδnZ/κ = n( Z−2κ Z 1 log(h−1 ) Z Z/κ ) 2κ dn = (log(h−1 )) 2κ dZ/κ ) 2κ . Z n ( nh nh Z−2κ Damit der letzte Exponent positiv ist, muss Z > 2κ angenommen werden. Es muss noch Z in Abhängigkeit von κ so gewählt werden, dass die Konvergenz gegen Null gewährleistet ist. Für Z ≤ 3, d.h. wir erhalten als weitere Annahme den Exponenten von h im Nenner setzen wir Z−2κ Z ≥ 3κ. Verwenden wir zusätzlich die Annahme log(h−1 )(nh3+2α )−1 = o(1) aus (H), ist damit Z nδnZ/κ = (log(h−1 )) 2κ Z−2κ 2κ dZ/κ n log(h−1 ) nh3+2α Der Term 3 Z−2κ 2κ h Z h Z−2κ log(h−1 ) Z Z−2κ 2κ nh3+2α h−(3+2α)+ Z+2κ Z−2κ 3 Z−2κ 2κ h log(h−1 ) 2κ ) −1 Z/κ 2α( Z−2κ 2κ = log(h )dn h Z nh3+2α h Z−2κ (log(h−1 )) 2α( = log(h−1 )dZ/κ n h Z−2κ ) 2κ o(1)O(1). (3.43) Z−2κ 2κ ist eine Nullfolge wegen o.g. Annahme aus (H). Außerdem ist der Term − Zκ ) −1 2α( Z−2κ 2κ beschränkt wegen der Wahl Z ≥ 3κ. Mit der Wahl dn = log(h )h gilt dn → ∞ für jedes α > 0 und Z > 2κ wegen limn→∞ log(h−1 )hC = 0 für jede Konstante C > 0, und mit dem gleichen Argument ist (3.43) gleich −1 Z−2κ Z−2κ o(1) log(h−1 )h2α( 2κ ) log(h−1 )h2α( 2κ ) = o(1). Damit ist (s2) gezeigt. Beweis zu Lemma 3.18(s3). Wir beschränken uns auch in diesem Fall darauf, lim IP min I{ε̂i ≤ a} ≥ b = 0 n→∞ 1≤i≤n zu zeigen. Wir verwenden die Umformung ε̂i ≤ a ⇔ εi ≤ a + m̂(Xi ) − m(Xi ) dazu, dass der Fehler und nicht das Residuum auf der linken Seite der Ungleichung innerhalb des Indikators steht. Mit positiver Konstante c und deterministischer Nullfolge Rn = (nh)−1/2 (log h−1 )1/2 gilt folgende Abschätzung ! IP min I{ε̂i ≤ a} ≥ b ≤ IP min I{εi ≤ a + sup |(m̂ − m)(x)|} ≥ b 1≤i≤n ≤ IP 1≤i≤n x∈[0,1] min I{εi ≤ a + sup |(m̂ − m)(x)|} ≥ b, sup |(m̂ − m)(x)| ≤ cRn 1≤i≤n x∈[0,1] x∈[0,1] ! 3.5 Modellspezifische Details +IP ≤ IP 71 min I{εi ≤ a + sup |(m̂ − m)(x)|} ≥ b, sup |(m̂ − m)(x)| > cRn 1≤i≤n x∈[0,1] x∈[0,1] min I{εi ≤ a + cRn } ≥ b + IP 1≤i≤n ! ! sup |(m̂ − m)(x)| > cRn . x∈[0,1] Um zu zeigen, dass der erste Term für b ∈ (0, 1) gegen Null konvergiert, wird die Wahrscheinlichkeit des Gegenereignisses umgeformt. Es gilt IP min I{εi ≤ a + cRn } < b = IP (∃ i ∈ {1, . . . , n} : εi > a + cRn ) 1≤i≤n = 1 − IP (εi ≤ a + cRn ∀ i ∈ {1, . . . , n}) = 1 − n Y i=1 F (a + cRn ) −→ 1, n → ∞, weil F (a + cRn ) ∈ (0, 1) mit der Einschachtelung 0 < b = F (a) ≤ F (a + cRn ) ≤ F (a + c) < 1 ab einem gewissen n und für alle c gilt. Für den zweiten Summanden ist zu beachten, dass Rn−1 supx∈[0,1] |(m̂−m)(x)| = O(1) f.s. gilt, also f.s. beschränkt ist, nach Prop. 3 aus Akritas und Van Keilegom (2001) und der speziellen Wahl von Rn . Beim zweiten Term kann die Konstante c auf der rechten Seite so gewählt werden, dass die zweite Wahrscheinlichkeit für alle n Null ist. Beweis zu Lemma 3.18(s4). Nach Lemma 3.5(v) gilt Sn = oP (1) in der Zerlegung Σn := Pn 1 T definit. 0 i=1 g(ε̂i )g (ε̂i ) = Σ + Sn , und nach der ersten Annahme in (S2) ist Σ positiv n T k bezeichne den Nullvektor. Zu zeigen ist limn→∞ IP x Σn x > 0 ∀x ∈ IR mit x 6= 0 = 1 bzw. lim IP ∃ x ∈ IRk mit x 6= 0 : xT Σn x ≤ 0 = 0. n→∞ Weil wir die rechte und linke Seite der Ungleichung für jedes fest gewählte x mit kxk−2 6= 0 multiplizieren können, reicht es, das Ereignis bezüglich der Vektoren x ∈ IRk mit kxk = 1 zu betrachten. Wegen der Positivdefinitheit von Σ ist a := minkxk=1 xT Σx > 0, das Minimum wird über einer kompakten Menge gebildet, damit ist seine Existenz gewährleistet. Es gilt IP ∃ x ∈ IRk mit kxk = 1 : xT Σx + xT Sn x ≤ 0 ≤ IP ∃ x ∈ IRk mit kxk = 1 : a + xT Sn x ≤ 0 = IP ∃ x ∈ IRk mit kxk = 1 : xT Sn x ≤ −a ≤ IP ∃ x ∈ IRk mit kxk = 1 : |xT Sn x| ≥ a ! k X ≤ IP ∃ x ∈ IRk mit kxk = 1 : |(Sn )i,j ||xi ||xj | ≥ a −→ 0, n → ∞, i,j=1 weil für die i, jten Einträge (Sn )i,j der Matrix Sn und die Einträge x1 , . . . , xk des Vektors x die Eigenschaften |(Sn )i,j | = oP (1) und 0 ≤ |xi |, |xj | ≤ 1 für jedes 1 ≤ i, j ≤ k gelten. Mit der Definition der oP -Notation folgt die Behauptung. Beweis zu Lemma 3.18(s5). Die Behauptung folgt direkt aus dem starken Gesetz der großen Zahlen. Damit ist der Beweis zu (s5) und insgesamt der Beweis zu Lemma 3.18 abgeschlossen. 72 Kapitel 3. Untersuchung des Schätzers im homoskedastischen Modell Kapitel 4 Untersuchung des Schätzers im heteroskedastischen Modell 4.1 Einleitung Das nichtparametrische heteroskedastische Regressionsmodell ist, wie in (1.18) eingeführt, von der Form Yi = m(Xi ) + σ(Xi )εi , i = 1, . . . , n. Das Modell wurde bereits ausführlich in Abschnitt 1.5.2 eingeführt. Homoskedastisches und heteroskedastisches Regressionsmodell unterscheiden sich in der Modellierung des Fehlers. Unter Berücksichtigung der nun anders definierten Residuen ε̂1 , . . . , ε̂n aus (1.19) ist der EmpiricalLikelihood-Schätzer F̄n in (1.42) definiert. Die Residuen sind bezüglich des Nadaraya-WatsonSchätzers für m aus (1.16) und des entsprechenden Varianzschätzers aus (1.20) definiert, wobei wir den Kerndichteschätzer fˆX aus (1.13) benutzen. Auch in diesem Modell werden wir die schwache Konvergenz des entsprechenden stochastischen Prozesses zu unserem Schätzer F̄n für die Verteilungsfunktion der Fehler nachweisen und dabei Zusatzinformationen gemäß Annahme (A) aus S. 19 berücksichtigen. Wir werden später das asymptotische Verhalten unseres Schätzers mit den Resultaten aus Akritas und Van Keilegom (2001) vergleichen, wie wir das auch im homoskedastischen Modell getan haben. Das entsprechende Resultat aus Akritas und Van Keilegom (2001) wurde in Abschnitt 1.7 angegeben, vgl. S. 30. Beispiel 4.1. Wir interessieren uns in diesem Regressionsmodell unter anderem für die Verwendung der Information, die bereits im Modell enthalten ist, nämlich dass die Fehler zentriert sind und die Varianz 1 besitzen. Dem entspricht g(ε) = (ε, ε2 − 1)T . Die in Abschnitt 3.4 in Lemma 3.10 und Satz 3.11 gezeigten Entwicklungen von η̂n und F̄n können wir für Modell (1.18) direkt übernehmen. Der Hauptunterschied zu den Ergebnissen im homoskedastischen Fall liegt in der Entwicklung für lineare Funktionale von Residuen, wie sie 73 74 Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell im homoskedastischen Fall in Lemma 3.5 (ii) gezeigt und in der Bemerkung 3.6 kommentiert wurde. Wir betrachten in diesem Kapitel generell das heteroskedastische Regressionsmodell, wenn nicht explizit anders angegeben. Für dieses Kapitel wichtige zusätzliche Annahmen werden in Abschnitt 4.2 vorgestellt. In Abschnitt 4.3 folgen eine Reihe von Hilfsresultaten, die für die Hauptresultate in Abschnitt 4.4 verwendet werden. Das Kapitel wird durch eine Reihe von Untersuchungen in Abschnitt 4.5 abgeschlossen, die sich aus der Verwendung des Empirical-Likelihood-Verfahrens ergeben. 4.2 Annahmen Wir haben bereits Annahmen in den Abschnitten 1.5 und 2.2 formuliert. In Abschnitt 3.2 haben wir Annahmen (G1) und (G2) speziell für Modell (1.14) angegeben, die wir in diesem Abschnitt durch (G1’) und (G2’) für Modell (1.18) ersetzen. Die folgenden Annahmen werden für dieses Kapitel in verschiedenen Lemmata und Sätzen aufgreifen. Wir verwenden insbesondere Annahmen (M1) aus Abschnitt 1.5.1, (M) aus Abschnitt 1.5.2 und (A) von S. 19. Auch für Modell (1.18) werden Zusatzinformationen zur Fehlerverteilung anhand zweier Typen von Funktionen g modelliert, und zwar anhand von Informationsfunktionen g, welche die Annahmen (S1), (S2) (vgl. S. 44) und die unten angegebenen modifizierten Annahmen (G1’), (G2’) erfüllen, und anhand von Funktionen der Form g(ε) = I{ε ≤ a} − b. (G1’) Es wird angenommen, dass gj stetig differenzierbar ist, und dass Konstanten γ, C und β > 0 existieren, so dass Z ′ g (y + z + yz ) − g (y) − g (y)(z + yz ) f (y) dy ≤ C max{|z1 |, |z2 |}1+β j 1 2 j 1 2 j für alle z1 , z2 ∈ IR mit |z1 |, |z2 | ≤ γ, j = 1, . . . , k gilt. Darüber hinaus soll IE[|gj′ (ε1 )|] < ∞ und IE[|ε1 gj′ (ε1 )|] < ∞ für j = 1, . . . , k gelten. (G2’) Es existieren Konstanten δ und C, so dass für ein positives κ mit κ < 2(1 + α) (mit α aus Annahme (H)) die Abschätzung h IE sup |zi |≤δ,|z̃i |≤δ, |zi −z̃i |≤ξ,i=1,2 2 (gj (ε1 + z1 + ε1 z2 ) − gj (ε1 + z̃1 + ε1 z̃2 )) i1/2 ≤ Cξ 1/κ für j = 1, . . . , k gilt. Außerdem setzen wir in diesem Kapitel voraus, dass Annahmen (K) und (H) aus Abschnitt 1.5.1 mit β aus Annahme (G1’) gültig sind. 4.2 Annahmen 75 Beispiel 4.2. Analog zu Beispiel 3.3 werden auch hier kurz die Annahmen (G1’) und (G2’) kommentiert. Wir zeigen im Folgenden, dass für Funktionen g(y) = y k − c, k ∈ IN, c konstant, Annahme (G1’) erfüllt ist, wenn entsprechende Momentenannahmen wie in (G1’) gefordert getroffen werden. Es gilt für k ≥ 2 Z (y + z1 + yz2 )k − y k − ky k−1 (z1 + yz2 ) f (y) dy| | = | Z X k k y m (z1 + yz2 )k−m − y k − ky k−1 (z1 + yz2 ) f (y) dy| m Z k m y (z1 + yz2 )k−m f (y) dy| = | m m=0 Z X k−2 k |y|m max{|z1 |, |z2 |}k−m (1 + |y|)k−m f (y) dy ≤ m m=0 Z k−2 k−m X X k − m k 2 k−m−2 m = max{|z1 |, |z2 |} |y|k−m−l f (y) dy max{|z1 |, |z2 |} |y| l m m=0 l=0 m=0 k−2 X ≤ C max{|z1 |, |z2 |}2 R mit Konstante C, die nach Annahme von |y|k f (y)dy < ∞ endlich ist, und mit β = 1. Für (G2’) betrachten wir die Differenz g(ε1 + z1 + ε1 z2 ) − g(ε1 + z̃1 + ε1 z̃2 ) für g(y) = y k − c, k ∈ IN, c konstant. (ε1 + z1 + ε1 z2 )k − (ε1 + z̃1 + ε1 z̃2 )k = = k−1 X εm 1 ((z1 k−m + ε1 z2 ) m=0 k−m − (z̃1 + ε1 z̃2 ) ) = k X m=0 k−1 X m=0 k−m εm − (z̃1 + ε1 z̃2 )k−m ) 1 ((z1 + ε1 z2 ) εm 1 k−m X ε1k−m−l (z1l z2k−m−l l=0 − . z̃1l z̃2k−m−l ) Wir verwenden nun z1l z2k−m−l − z̃1l z̃2k−m−l = (z1l − z̃1l + z̃1l )z2k−m−l − z̃1l z̃2k−m−l = (z1l − z̃1l )z2k−m−l + z̃1l (z2k−m−l − z̃2k−m−l ), und für die verbleibenden Differenzen gilt rekursiv anwendbar für k > 3 z k − z̃ k = z k−1 (z − z̃ + z̃) − z̃ k−1 (z̃ − z + z) = z k−1 (z − z̃) + z k−1 z̃ − z̃ k−1 (z̃ − z) − z̃ k−1 z = z k−1 (z − z̃) − z̃ k−1 (z̃ − z) − z z̃(z̃ k−2 − z k−2 ). Damit enthält jeder Summand zumindest einmal eine Differenz, die durch ξ abgeschätzt werden kann. Im Fall k = 2 kann beispielsweise die Konstante κ = 1 gewählt werden, und wir setzen IE[ε41 ] < ∞ voraus. 76 4.3 Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell Hilfsresultate In diesem Abschnitt werden drei Lemmata gezeigt, wobei die ersten beiden analoge Aussagen zu den bereits in Kapitel 3 betrachteten Lemmata darstellen. Das darauffolgende Lemma 4.5 dient als Rechtfertigung einer Annahme in Lemma 4.7. Lemma 4.3. Es gelte Modell (1.18) mit den Annahmen (M), (M1), (K) und (H) aus Abschnitt 1.5 und (A) aus Abschnitt 1.6. Für Funktionen g, die von der Form g(ε) = I{ε ≤ a} − b für Konstanten a und b (k = 1) sind, und für solche g, für welche (G1’) und (G2’) gilt, folgt √ max |gj (ε̂i )| = oP ( n) (j = 1, . . . , k). i=1,...,n Beweis zu Lemma 4.3. Eine analoge Aussage für Modell (1.14) wurde in Lemma 3.5(i) gezeigt. Wir betrachten hier explizit den Umgang mit der Differenz ε − ε̂ und zeigen maxi=1,...,n |εi − ε̂i | = oP (1) und, wie die neuen Annahmen im ansonsten analogen Beweis verwendet werden. Es wird daran erinnert, dass nach Definition der heteroskedastischen Residuen die Darstellung m̂(X) ε − ε̂ = ε − Y −σ̂(X) = (m̂−m)(X) + ε (σ̂−σ)(X) gilt. Daher folgt die gesuchte Abschätzung σ̂(X) σ̂(X) σ̂(x) − σ(x) m̂(x) − m(x) = oP (1) (4.1) max |εi | sup max |εi − ε̂i | ≤ sup + i=1,...,n i=1,...,n σ̂(x) σ̂(x) x∈[0,1] x∈[0,1] mit einer Reihe von Hilfsaussagen: Die letzte Gleichheit in (4.1) folgt wegen sup |m̂(x) − m(x)| = O((n−1 h−1 log h−1 )1/2 ) x∈[0,1] sup |σ̂(x) − σ(x)| = O((n−1 h−1 log h−1 )1/2 ) x∈[0,1] (beide gelten fast sicher nach Prop. 3 aus Akritas and Van Keilegom (2001)), wegen (M1), (K), (H), der Annahme inf x∈[0,1] σ 2 (x) > 0 aus (M), und wegen max |εi | = oP (n1/4 ), (4.2) i=1,...,n wobei wir (4.2) im Anschluss zeigen werden. Wir benutzen hier auch die Aussage des noch zu zeigenden Lemmas 4.5. Für (4.2) gilt für alle ε > 0 ! n [ X IP max |εi | ≥ ǫn1/4 = IP {|εi | ≥ ǫn1/4 } ≤ IP |εi | ≥ ǫn1/4 1≤i≤n = nIP |ε1 | ≥ ǫn 1/4 ≤ nIE 1≤i≤n ε41 1{|ε |4 ≥ǫ4 n} ǫ4 n 1 i=1 = 1 4 4 ≥ǫ4 n} IE ε 1 {ε 1 1 ǫ4 mit der Tschebyschev-Ungleichung. Für den Indikator innerhalb des Erwartungswertes gilt {|ε1 |4 ≥ ǫ4 n} −→ ∅, n → ∞ ⇔ 1{|ε1 |4 ≥ǫ4 n} → 0, n → ∞. 4.4 Hauptresultate 77 Mit dem Satz von Lebesgue folgt aus der Annahme IE[ε41 ] < ∞ aus (M), dass ε41 eine integrierbare Majorante des Inhalts des Erwartungswertes ist. Damit gilt die Behauptung (4.2) und insgesamt (4.1). Für Funktionen hj von Seite 51 erhalten wir die Konvergenz der Wahrscheinlichkeit (3.8) wegen Annahme (G2’). Damit ist gezeigt, wie wir aus dem homoskedastischen Beweis 3.5(i) auf Lemma 4.3 schließen können. Mit einem Beweis wie zu Lemma 3.9 gilt Lemma 4.4: Lemma 4.4. Für Modell (1.18) gilt unter den Annahmen (M1), (M), (K) und (H) n 1X sup |I{εi ≤ x} − I{ε̂i ≤ x}| = op (1). x∈IR n i=1 (4.3) Die Annahme inf x∈[0,1] |σ̂(x)| > 0 rechtfertigen wir mit dem folgenden Lemma 4.5. Um die Beschränktheit des Nenners von Null weg benutzen zu können, zeigen wir, dass die Annahme inf x∈[0,1] σ(x) > c eine analoge Annahme für σ̂ plausibel macht. In (M) haben wir für die Varianzfunktion die Annahme inf x∈[0,1] σ(x) > 0 für σ := (σ 2 )1/2 getroffen. Mit der Annahme inf x∈[0,1] σ(x) > c zeigen wir die Aussage IP inf x∈[0,1] |σ̂(x)| ≤ c/2 → 0, n → ∞. Dies rechtfertigt die Annahme inf x∈[0,1] |σ̂(x)| > c/2 und kann so gezeigt werden: Lemma 4.5. Unter der Annahme inf x∈[0,1] σ(x) > c gilt lim IP inf |σ̂(x)| ≤ c/2 = 0. n→∞ x∈[0,1] Beweis zu Lemma 4.5. Es gilt IP( inf |σ̂(x)| ≤ c/2) = IP( inf |σ̂(x)| ≤ c/2, inf σ(x) > c) x∈[0,1] x∈[0,1] x∈[0,1] ≤ IP( sup |(σ̂ − σ)(x)| > c/2) −→ 0, n → ∞ x∈[0,1] gemäß Prop. 3 aus Akritas und Van Keilegom (2001). Lemma 4.5 benutzen wir für den Beweis der ersten Hauptaussage, Lemma 4.7. 4.4 Hauptresultate In diesem Abschnitt zeigen wir mit Lemma 4.7 die grundlegende Aussage, um im vergangenen P Kapitel eingeführte Beweismethoden für die Entwicklung von n1 ni=1 gj (ε̂i ) auch in diesem MoP dell verwendbar zu machen. Im Anschluss wird n1 ni=1 gj (ε̂i ) für beide Typen von Funktionen g in den Lemmata 4.8 und 4.9 entwickelt. Damit können wir dann die Sätze 4.10 und 4.11 zur schwachen Konvergenz formulieren und beweisen. Es geht in Lemma 4.7 darum zu zeigen, dass die beiden Funktionen m−σ̂ m̂ und σ−σ̂ mit geσ̂ 1+α gen 1 konvergierender Wahrscheinlichkeit in der Funktionenklasse Cδ [0, 1] liegen. Die Menge Cδ1+α [0, 1] haben wir in Definition 1.26 eingeführt. 78 Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell Bemerkung 4.6. Mit K1 , K2 > 0 bezeichnen wir Konstanten, für welche 2K1 ≤ σ(x) ≤ K2 /2 für alle x ∈ [0, 1] gilt, so dass die Ableitungen σ ′ und σ ′′ ebenfalls durch K2 /2 entsprechend der Annahme (M) beschränkt sind. Dann folgt die Konvergenz lim IP K1 ≤ σ̂(x) ≤ K2 für alle x ∈ [0, 1] = 1. n→∞ An dieser Stelle wird daran erinnert, dass nach der Argumentation aus Akritas und Van Keilegom (2001) die beiden Differenzen m̂−m und σ̂ −σ jeweils Elemente der Menge Cρ1+α [0, 1] sind, und das für alle ρ > 0 mit Wahrscheinlichkeit Eins, wenn wir die beiden Terme für n → ∞ betrachten. Durch geeignete Wahl von ρ erhalten wir, dass (m̂ − m)/σ̂ und (σ̂ − σ)/σ̂ Elemente von H = Cδ1+α [0, 1] sind mit Konstante δ aus Annahme (G2’), erneut mit Wahrscheinlichkeit Eins für n → ∞. Diese Eigenschaft wird im nächsten Lemma 4.7 bewiesen. Im Folgenden verwenden wir die Bezeichnung s = σ̂. Für das folgende Lemma ist es zu beachten, dass wir wegen der Bandbreitenannahmen ohnehin auf 0 < α < 0, 5 einschränken. 1+α [0, 1] mit inf x∈[0,1] |s(x)| ≥ K1 Lemma 4.7. Sei δ > 0 und K1 , K2 > 0, so dass s ∈ CK 2 1+α und der Funktionenklasse CK2 [0, 1] aus Definition 1.26. Sei 0 < α < 0, 5. Dann existiert eine Konstante ρ > 0, so dass h ∈ Cδ1+α [0, 1] für alle h ∈ Cρ1+α [0, 1]. s Beweis zu Lemma 4.7. Sei h ∈ Cρ1+α [0, 1]. Nach Definition der Funktionenklasse Cρ1+α [0, 1] gilt dann |h′ (x) − h′ (y)| max sup |h(x)|, sup |h (x)| + sup ≤ ρ. |x − y|α x∈[0,1] x∈[0,1] x,y∈[0,1] ′ (4.4) Vergleiche hierzu Van der Vaart und Wellner (1996), S. 154. Entsprechend gilt nach Annahme eine analoge Ungleichung für die Funktion s und Konstante K2 , |s′ (x) − s′ (y)| ≤ K2 . max sup |s(x)|, sup |s (x)| + sup |x − y|α x∈[0,1] x∈[0,1] x,y∈[0,1] ′ (4.5) Wegen dieser Eigenschaften und der angenommenen Beschränktheit von s durch K1 von unten folgt mithilfe von im Folgenden gezeigten technischen Zwischenschritten die folgende Abschätzung für eine Konstante c, die nur von K1 und K2 abhängt: ′ ′ h h h h ′ (x) − (y)| | s s max sup (x), sup ≤ cρ. (4.6) (x) + sup s |x − y|α x∈[0,1] s x,y∈[0,1] x∈[0,1] Die Behauptung erhalten wir dann durch die Wahl ρ = δ/c entsprechend der Definition der Klasse Cδ1+α [0, 1]. Im Folgenden werden die Abschätzungen im einzelnen gezeigt. 4.4 Hauptresultate 79 Wir beginnen mit den ersten beiden Bestandteilen auf der linken Seite von (4.6). Sie können wie folgt abgeschätzt werden. Es gilt h 1 sup (x) ≤ sup |h(x)| sup (x) ≤ ρK1−1 , s s x x∈[0,1] x∈[0,1] ′ ′ ′ h hs sh sup (x) ≤ sup 2 (x) + sup 2 (x) ≤ ρK1−1 + ρK2 K1−2 , s s s x∈[0,1] x∈[0,1] x∈[0,1] denn es ist jeweils wegen (4.4) und wegen der angenommenen Beschränktheit von s ′ 1 h ′ (x) ≤ sup |h (x)| sup (x) ≤ ρK1−1 , sup s s x∈[0,1] x∈[0,1] x∈[0,1] ′ sh 1 sup 2 (x) ≤ sup |h(x)| sup |s′ (x)| sup 2 (x) ≤ ρK2 K1−2 s s x∈[0,1] x∈[0,1] x∈[0,1] x∈[0,1] gültig. In (4.6) wird noch ein dritter Bestandteil abgeschätzt. Für ihn gilt sh′ −s′ h h ′ ′h ( 2 )(x) − ( sh′ −s ( ) (x) − ( h )′ (x′ ) )(x′ ) s s s s2 = sup . sup |x − x′ |α |x − x′ |α x,x′ ∈[0,1],x6=x′ x,x′ ∈[0,1],x6=x′ (4.7) Der Zähler wird zerlegt: sh′ − s′ h sh′ − s′ h (x) − (x′ ) s2 s2 1 1 1 = (x)h′ (x) − (x′ )h′ (x′ ) − 2 (x)((s′ h)(x) − (s′ h)(x′ )) s s s 1 1 (x′ ) − 2 (x) (s′ h)(x′ ) + s2 s 1 1 1 = (x)(h′ (x) − h′ (x′ )) + (x) − (x′ ) h′ (x′ ) s s s 1 − 2 (x) h(x)(s′ (x) − s′ (x′ )) + h(x)s′ (x′ ) − s′ (x′ )h(x′ ) s 1 1 ′ (x ) − (x) (s′ h)(x′ ) + s2 s2 1 1 1 = (x)(h′ (x) − h′ (x′ )) + (x) (x′ )(s(x′ ) − s(x))h′ (x′ ) s s s 1 1 − 2 (x)h(x)(s′ (x) − s′ (x′ )) − 2 (x)s′ (x′ )(h(x) − h(x′ )) s s 1 1 + 2 (x′ ) 2 (x)(s(x) − s(x′ ))(s(x) + s(x′ ))(s′ h)(x′ ). s s Damit ist der Term in (4.7) nach oben abzuschätzen durch 1 h(x) |h′ (x) − h′ (x′ )| |s′ (x) − s′ (x′ )| sup (x) (4.8) sup sup (x) + sup ′ α ′ α 2 |x − x | s |x − x | s x,x′ ∈[0,1],x6=x′ x∈[0,1] x∈[0,1] x,x′ ∈[0,1],x6=x′ ′ |s(x ) − s(x)| 1 2 ′ sup |h (x)| sup (4.9) (x) + sup |x − x′ |α s x∈[0,1] x∈[0,1] x,x′ ∈[0,1],x6=x′ 1 2 ′ +2 sup |s (x)h(x)| sup |s(x)| sup 2 (x) s x∈[0,1] x∈[0,1] x∈[0,1] ′ |h(x ) − h(x)| 1 ′ (4.10) sup |s (x)| sup + sup 2 (x). ′ α ′ ′ |x − x | s x∈[0,1] x∈[0,1] x,x ∈[0,1],x6=x 80 Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell Gemäß (4.4) und (4.5) kann der erste Term in (4.8) durch ρK1−1 und der zweite durch ρK1−2 K2 nach oben abgeschätzt werden. Die restlichen Terme bis auf den jeweils ersten Term in den Zeilen (4.9) und (4.10) direkt mit (4.4) und (4.5) abschätzbar. Wir betrachten daher noch sup x,x′ ∈[0,1],x6=x′ |s(x′ ) − s(x)| |h(x′ ) − h(x)| , sup . |x − x′ |α |x − x′ |α x,x′ ∈[0,1],x6=x′ (4.11) Für 0 < α < 0, 5 gilt mit s(x′ ) − s(x) = s′ (ξ)(x′ − x) mit ξ zwischen x und x′ die Abschätzung sup x,x′ ∈[0,1],x6=x′ |s(x′ ) − s(x)| ≤ sup |s′ (x)| sup |x − x′ |1−α ≤ K2 ′ ′ |x − x′ |α x∈[0,1] x,x ∈[0,1],x6=x und für h anstelle von s analog. Für den Term in (4.9) folgt die Abschätzung durch K2 (ρK1−2 + 2K22 ρK1−4 ) und für den Term in (4.10) durch ρK2 K1−2 . Für den Term in (4.7) gilt damit sh′ −s′ h ′h ( 2 )(x) − ( sh′ −s )(x′ ) s s2 ≤ ρC sup |x − x′ |α x,x′ ∈[0,1],x6=x′ mit C = K1−1 (1 + 2K1−1 K2 + 2K23 K1−3 + K2 K1−1 ). Damit ist der Beweis zu Lemma 4.7 abgeschlossen. Mit Lemma 4.7 kann nun Satz 4.8 gezeigt werden. Mit dem folgenden Satz wird das aus Müller, Schick und Wefelmeyer (2004a) bekannte Resultat (vergleiche Bemerkung 3.6) auf den heteroskedastischen Fall verallgemeinert. Satz 4.8. Es gelte Modell (1.18) mit den Annahmen (M), (M1), (K), (H) aus Abschnitt 1.5, (A) aus Abschnitt 1.6 und (G1’), (G2’) aus Abschnitt 4.2. Dann gilt für j = 1, . . . , k mit n n 1 X 1 1X gj (ε̂i ) = gj (εi ) − IE[gj′ (ε1 )]εi − IE[ε1 gj′ (ε1 )](ε2i − 1) n i=1 n i=1 2 1 − h2 IE[gj′ (ε1 )]β1 − h2 IE[ε1 gj′ (ε1 )]β2 + oP √ n Z 1 1 K ((mfX )′′ (x) − (mfX′′ )(x)) dx, β1 = µ2 2 σ(x) Z 1 1 K 2 ′′ 2 ′′ ′ 2 (σ f ) (x) − (σ f )(x) + 2(m (x)) f (x) dx. β2 = µ2 X X X 2 2σ 2 (x) (4.12) (4.13) Beweis zu zu Satz 4.8. Die analoge Behauptung findet sich in Lemma 3.5 (ii), und der Beweis enthält die gleichen Schritte. Wir betrachten hier die Funktionenklassen Gj , vergleiche hierzu (3.10). Sie sind wie folgt definiert: o n Gj = g̃j : IR × [0, 1] → IR, g̃j (ε, x) = gj (ε + h1 (x) + εh2 (x)) − gj (ε) h1 , h2 ∈ H , wobei H = Cδ1+α [0, 1] gilt mit Konstante δ aus Annahme (G2’). Zu zeigen ist, dass es sich bei Gj um eine Donskerklasse handelt. Dafür gehen wir wie im Beweis von Lemma 3.5 (ii) vor 4.4 Hauptresultate 81 und betrachten für ξ > 0 die Zentren h1 , . . . , hλ der Überdeckung der Klasse H bezüglich der ˜ H, || · ||∞ ), und als Radius für Supremumsnorm. Dabei ist die Anzahl der Klammern λ = N (ξ, κ die Überdeckungen wählen wir ξ˜ = (ξ/(2C)) mit Konstante C aus Annahme (G2’). Damit haben wir eine Anzahl von N[ ] (ξ, Gj , L2 (P )) = λ2 Klammern der Form h i gj (ε + hℓ (x) + εhk (x)) − gj (ε) − g̃j∗ (ε, x) , gj (ε + hℓ (x) + εhk (x)) − gj (ε) + g̃j∗ (ε, x) , ℓ, k ∈ {1, . . . , λ}. Hier ist g̃j∗ (ε, x) = sup |gj (ε + z1 + εz2 ) − gj (ε + z̃1 + εz̃2 )|, und das Supremum wird über alle |z1 |, |z2 | mit |z̃1 | ≤ δ, |z̃2 | ≤ δ, |z1 − z̃1 | ≤ ξ˜ und |z2 − z̃2 | ≤ ξ˜ gebildet. Die L2 (P )Länge jeder Klammer ist kleiner oder gleich ξ, dies folgt nach Annahme (G2’). Wir erhalten die Endlichkeit des Klammerungsintegrals (3.11) aus den gleichen Argumenten wie im Beweis zu Lemma 3.5 (ii). An dieser Stelle benutzen wir Lemma 4.7. Nach diesem Lemma wissen wir, dass die Wahrscheinlichkeit dafür, dass (m̂ − m)/σ̂ ∈ H und (σ̂ − σ)/σ̂ ∈ H liegt, gegen Eins konvergiert. Die restlichen Schritte verlaufen analog zum Beweis von Lemma 3.5 (ii), so dass wir die Entwicklung n n 1X (σ − σ̂)(x) 1X (m − m̂)(x) + εi gj (ε̂i ) = gj ε i + n i=1 n i=1 σ̂(x) σ̂(x) n 1X gj (εi ) + oP (n−1/2 ) = n i=1 Z Z (m − m̂)(x) (σ − σ̂)(x) gj y + + +y − gj (y) fX (x)f (y) dx dy σ̂(x) σ̂(x) erhalten. Nach Annahme (G1’) und der dritten Annahme in (H) folgt außerdem Z Z n n 1X 1X m(x) − m̂(x) fX (x)f (y) dx dy gj (ε̂i ) = gj (εi ) + gj′ (y) n i=1 n i=1 σ̂(x) Z Z 1 σ(x) − σ̂(x) ′ fX (x)f (y) dx dy + oP √ + gj (y)y σ̂(x) n Z n X m̂(x) − m(x) 1 gj (εi ) − IE[gj′ (ε1 )] fX (x) dx = n i=1 σ(x) Z 2 1 σ̂ (x) − σ 2 (x) ′ f (x) dx + o . − IE[ε1 gj (ε1 )] X P √ 2σ 2 (x) n Die letzte Gleichheit erhalten wir wegen der gleichmäßigen fast sicheren Konvergenz von σ̂ gegen σ mit der Konvergenzrate O((n−1 h−1 log h−1 )1/2 ). Vergleiche hierzu Prop. 3 in Akritas und Van Keilegom (2001), die Annahme an die Bandbreite in (H) und die Darstellung σ̂ − σ = (σ̂ 2 − σ 2 )/(2σ) − (σ̂ − σ)2 /(2σ). In dieser Darstellung kann für den letzten Term (σ̂ − σ)2 /(2σ) Vernachlässigbarkeit gezeigt werden. Der Rest des Beweises folgt durch Einsetzen der Definitionen der Schätzer m̂ aus (1.16) und σ̂ 2 aus (1.20) und durch die Berechnungen der jeweiligen Erwartungen und Varianzen. Aus den Lemmata 1.36 und 1.38 sind Erwartungswerte R R fX (x) dx und σ̂(x)−σ(x) fX (x) dx bekannt. Damit ist der und Varianzen der Terme m̂(x)−m(x) σ(x) σ(x) Beweis zu Satz 4.8 abgeschlossen. 82 Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell Eine entsprechende Entwicklung zeigen wir für Funktionen der Form g(ε) = I{ε ≤ a} − b: Satz 4.9. Es gelte Modell (1.18) mit den Annahmen (M), (M1), (K), (H) aus Abschnitt 1.5 und (A) aus Abschnitt 1.6. Für g(ε) = I{ε ≤ a} − b mit Konstanten a und b (k = 1) gilt die Entwicklung n n 1X 1 X 1 gj (ε̂i ) = gj (εi ) + f (a)εi + af (a)(ε2i − 1) n i=1 n i=1 2 1 2 2 + h f (a)β1 + h af (a)β2 + oP √ . n Die Terme β1 und β2 wurden in (4.12) und (4.13) definiert. Beweis zu Satz 4.9. Die Behauptung folgt wie Theorem 1 in Akritas und Van Keilegom P (2001) im heteroskedastischen Modell: Der hier zu entwickelnde Term ist 1/n ni=1 g(ε̂i ) = F̂n (a) − b. Im genannten Theorem wird F̂n entwickelt, für den uns interessierenden Fall ist die Entwicklung in (1.49) angegeben. Zusammen mit Lemma 1.36 und Lemma 1.38 folgt die Behauptung. Aus den Entwicklungen zu F̄n analog zu Satz 3.11 und zu η̂n analog zu Lemma 3.10 aus dem vorausgegangenen Kapitel und dem gerade gezeigten Satz 4.8 können wir schwache Konvergenz für den zugehörigen stochastischen Prozess zeigen. Satz 4.10 (Dritter Satz zur schwachen Konvergenz). Wir betrachten das Modell (1.18). Unter den Annahmen (M), (M1), (K), (H) aus Abschnitt 1.5, (A) aus Abschnitt 1.6, (G1’), (G2’) aus Abschnitt 4.2 und (S1) und (S2) aus Abschnitt 2.2 gilt die folgende Entwicklung gleichmäßig in y ∈ IR: n 1 Xh 1 I{εi ≤ y} + f (y)εi + yf (y)(ε2i − 1) n i=1 2 i 1 1 − U (y)T Σ−1 g(εi ) − IE[g ′ (ε1 )]εi − IE[ε1 g ′ (ε1 )](ε2i − 1) + oP √ . 2 n F n (y) = b(y) + Dabei ist der Biasterm als n o b(y) = h2 f (y) + U (y)T Σ−1 IE[g ′ (ε1 )] β1 + yf (y) + U (y)T Σ−1 IE[ε1 g ′ (ε1 )] β2 definiert, unter Verwendung der Terme β1 aus (4.12) und β2 und (4.13). √ Der stochastische Prozess n(F n (·) − F (·) − b(·)) konvergiert schwach gegen einen zentrierten Gaußprozess G, welcher die Kovarianzfunktion Cov G(y), G(z) = Cov (G(y), G(z)) + U (y)T Σ−1 Σ − IE[g ′ (ε1 )]IE[ε1 g T (ε1 )] 4.4 Hauptresultate 83 −IE[ε1 g(ε1 )]IE[g (ε1 )] + IE[g (ε1 )]σ IE[g (ε1 )] Σ−1 U (z) 1 T −1 T −1 2 ′ 2 − U (y) Σ zf (z) + U (z) Σ yf (y) IE[g(ε1 )(ε1 − 1)] − IE[g (ε1 )]IE[ε1 (ε1 − 1)] 2 −U (y)T Σ−1 U (z) − IE[g ′ (ε1 )]IE[ε1 I{ε1 ≤ z}] + f (z)IE[ε1 g(ε1 )] − f (z)σ 2 IE[g ′ (ε1 )] −U (z)T Σ−1 U (y) − IE[g ′ (ε1 )]IE[ε1 I{ε1 ≤ y}] + f (y)IE[ε1 g(ε1 )] − f (y)σ 2 IE[g ′ (ε1 )] ′ T ′ 2 ′ T 1 + U T (y)Σ−1 IE[ε1 g ′ (ε1 )]IE[(ε21 − 1)2 ]IE[ε1 g ′ (ε1 )]T Σ−1 U (z) 4 1 − U T (y)Σ−1 IE[g(ε1 )(ε21 − 1)] − IE[g ′ (ε1 )]IE[ε1 (ε21 − 1)] IET [ε1 g ′ (ε1 )]Σ−1 U (z) 2 1 − U T (z)Σ−1 IE[g(ε1 )(ε21 − 1)] − IE[g ′ (ε1 )]IE[ε1 (ε21 − 1)] IET [ε1 g ′ (ε1 )]Σ−1 U (y) 2 1 T + U (y)Σ−1 zf (z) + U T (z)Σ−1 yf (y) IE[ε1 g ′ (ε1 )]IE[(ε21 − 1)2 ] 4 1 T + U (y)Σ−1 IE[ε1 g ′ (ε1 )] IE[(ε21 − 1)I{ε1 ≤ z}] + f (z)IE[ε31 ] 2 1 + U T (z)Σ−1 IE[ε1 g ′ (ε1 )] IE[(ε21 − 1)I{ε1 ≤ y}] + f (y)IE[ε31 ] 2 besitzt, mit Cov (G(y), G(z)) aus (1.43). Beweis zu Satz 4.10. Die erste Behauptung des Satzes ist die Entwicklung von F̄n . Wie im homoskedastischen Fall basiert diese Entwicklung auf Entwicklungen für η̂n und F̄n . Vergleiche hierzu Lemma 3.10 und Satz 3.11 im vorausgegangenen Kapitel. Beide Entwicklungen lassen sich mit den gleichen Beweisschritten wie im homoskedastischen Fall zeigen. In den Beweisen im homoskedastischen Fall haben wir eine Reihe von Hilfsaussagen genutzt, die wir jetzt unter dem Modell (1.18) wieder benötigen: Dabei handelt es sich um Lemma 3.5 (i), (vi), (v) und die Lemmata 3.8 and 3.9, die unter den hier getroffenen Annahmen ebenfalls gültig sind. Im Beweis zu Lemma 3.5(iv) und (v) wird jetzt die Funktionenklasse Gj aus Satz 4.8 betrachtet, die Aussagen können durch die zusätzlichen Annahmen in (M) analog gezeigt werden. Explizit haben wir davon mit den Lemmata 4.3 und 4.4 heteroskedastische Versionen von Lemma 3.5(i) und Lemma 3.9 gezeigt. Die Rate max1≤i≤n |εi − ε̂i | = oP (1) haben wir in Lemma 4.3 gezeigt, dabei haben wir max1≤i≤n |εi | = oP (n1/4 ) in (4.2) bewiesen und eine Reihe von Raten aus Akritas und Van Keilegom (2001) zur Abschätzung genutzt. Mit einer Reihe von Beobachtungen folgt direkt, dass der Beweis analog verläuft. In Lemma 3.5(i) wird die Annahme (G2) verwendet bzw. die daraus resultierende Abschätzung (3.4). Offensichtlich handelt es sich bei Annahme (G2) von S. 48 um einen Spezialfall der Annahme (G2’) von S. 74. Für die Kovarianzfunktion definieren wir 84 Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell 1 Hi (y) := I{εi ≤ y} − F (y) + f (y)εi + f (y)(ε2i − 1) 2 1 −U T (y)Σ−1 g(εi ) − IE[g ′ (ε1 )]εi − IE[ε1 g1′ (ε1 )](ε2i − 1) . 2 Dieser Term setzt sich aus dem in Satz 3.12 definierten Hi zusammen und dem Zusatz, der durch die Wahl des heteroskedastischen Modells hinzukommt. In Anlehnung an das Vorgehen in Satz 3.12 ist Hi so definiert, dass IE[Hi (y)] = 0 ist für alle y ∈ IR und alle i = 1, . . . , n. Es P √ gilt n F̄ (y) − F (y) − b̄(y) = √1n ni=1 Hi (y) + oP (1). Aus n n 1 X 1 X Cov √ Hi (y), √ Hj (z) = IE[H1 (y)H1 (z)] n i=1 n j=1 erhalten wir die Kovarianzfunktion Cov(Ḡ(y), Ḡ(z)). Mit dem Nachweis der Entwicklung folgt der restliche Beweis unter den angeführten Annahmen genauso wie der von Satz 3.12. Der vorausgegangene Satz wurde für den Fall formuliert, dass die Funktion zur Modellierung der Zusatzinformation gemäß den Annahmen (G1’) und (G2’) konstruiert ist. Wir betrachten im Folgenden schwache Konvergenz, wenn die Zusatzinformation in Form von g(ε) = I{ε ≤ a} − b vorliegt. Wie bisher nutzen wir Entwicklungen zu F̄n analog zu Satz 3.11 und zu η̂n analog zu Lemma 3.10 aus dem Kapitel zum homoskedastischen Modell. Anders ist in diesem Fall die P Entwicklung für den Term n1 ni=1 g(ε̂i ), vgl. Satz 4.9. Wir zeigen auch für diesen Fall schwache Konvergenz für den zugehörigen stochastischen Prozess. Satz 4.11 (Vierter Satz zur schwachen Konvergenz). Wir betrachten das Modell (1.18) und Funktionen g(ε) = I{ε ≤ a} − b für Konstanten a und b (k = 1). Unter den Annahmen (M), (M1), (K), (H) aus Abschnitt 1.5, (A) aus Abschnitt 1.6 und (S1) und (S2) aus Abschnitt 2.2 gilt die folgende Entwicklung gleichmäßig in y ∈ IR: n 1 Xh 1 F n (y) = b(y) + I{εi ≤ y} + f (y)εi + yf (y)(ε2i − 1) n i=1 2 i 1 1 2 T −1 − U (y) Σ g(εi ) + f (a)εi + af (a)(εi − 1) + oP √ . 2 n Dabei ist der Biasterm definiert als n o b(y) = h2 f (y) − U (y)T Σ−1 f (a) β1 + yf (y) − U (y)T Σ−1 af (a) β2 unter Verwendung der Terme β1 und β2 aus (4.12) und (4.13). Der stochastische Prozess √ n(F n (·) − F (·) − b(·)) konvergiert schwach gegen einen zentrierten Gaußprozess G, welcher die Kovarianzfunktion 4.5 Modellspezifische Details Cov G(y), G(z) 85 = Cov (G(y), G(z)) + U (y)U (z)Σ−2 Σ + 2f (a)IE[ε1 g(ε1 )] + f 2 (a)σ 2 1 − U (y)Σ−1 zf (z) + U (z)Σ−1 yf (y) IE[g(ε1 )(ε21 − 1)] + f (a)IE[ε1 (ε21 − 1)] 2 −U (y)Σ−1 U (z) + f (a)IE[ε1 I{ε1 ≤ z}] + f (z)IE[ε1 g(ε1 )] + f (z)σ 2 f (a) −1 2 −U (z)Σ U (y) + f (a)IE[ε1 I{ε1 ≤ y}] + f (y)IE[ε1 g(ε1 )] + f (y)σ f (a) 1 + U (y)U (z)Σ−2 (af (a))2 IE[(ε21 − 1)2 ] 4 +U (y)U (z)Σ−2 af (a) IE[g(ε1 )(ε21 − 1)] + f (a)IE[ε1 (ε21 − 1)] 1 − af (a)IE[(ε21 − 1)2 ] U (y)Σ−1 zf (z) + U (z)Σ−1 yf (y) 4 1 − U (y)Σ−1 af (a) IE[(ε21 − 1)I{ε1 ≤ z}] + f (z)IE[ε31 ] 2 1 − U (z)Σ−1 af (a) IE[(ε21 − 1)I{ε1 ≤ y}] + f (y)IE[ε31 ] 2 besitzt, mit Cov (G(y), G(z)) aus (1.43) und mit Σ = b(1 − b). Beweis zu Satz 4.11. In diesem Satz behandeln wir denselben Prozess wie in Satz 4.10 mit dem Unterschied, dass innerhalb der Entwicklung und des Prozesses hier andere Funktionen g zugelassen sind. Anhand der Entwicklungen für F̄n und η̂n in Satz 3.11 und Lemma 3.10 P (diese gelten für die Modelle (1.14) und (1.18) gleichermaßen) und für n1 ni=1 g(ε̂i ) aus Satz 4.9 gilt die behauptete Entwicklung. Die restlichen Schritte des Beweises, der Nachweis der schwachen Konvergenz für den stochastischen Prozess und die Berechnung der Kovarianzfunktion, verlaufen analog zum Beweis von Satz 4.10. 4.5 Modellspezifische Details zum Empirical-LikelihoodVerfahren Wie bereits erwähnt, basiert die Existenz und Eindeutigkeit des Lagrange-Multiplikators ηn auf der Annahme min gj (εi ) < 0 < max gj (εi ) für jedes j = 1, . . . , k. 1≤i≤n 1≤i≤n Analog wird die Annahme (S1) für die Existenz und Eindeutigkeit von η̂n getroffen. In Abschnitt 3.5 haben wir in den ersten drei Behauptungen von Lemma 3.18 formuliert und dann gezeigt, dass jeweils für Funktionen g gemäß (G1) und (G2) und solche konstruiert aus Indikatorfunktionen die Annahme von (S1) gerechtfertigt ist in der Weise, dass dieses Ereignis zumindest unter bestimmten Annahmen mit gegen Eins konvergierender Wahrscheinlichkeit eintritt. Entsprechende Aussagen werden wir nun in Lemma 4.13 für Funktionen g gemäß (G1’) und (G2’) 86 Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell bezogen auf Modell (1.18) zeigen. Außerdem wird in Lemma 4.13 (s4’) und (s5’) gezeigt, dass beide Teile der Annahme (S2) unter zu nennenden Annahmen zumindest mit gegen Eins wachsender Wahrscheinlichkeit eintreten. Der zweite Teil von (S2) wird im Beweis der Eindeutigkeit der Lösung η̂n in der Menge D̂k (vgl. Lemma 2.2) verwendet. Für die Funktion kj : IR3 → IR wird die in Lemma 4.13(s2’) verwendete Annahme analog zur Annahme (G2(Z)) im homoskedastischen Modell formuliert (sie ähnelt der Annahme (G2’), die Konstanten müssen aber nicht wie dort gewählt werden, insbesondere unterliegt die Konstante κ hier anderen Annahmen): (G2’(Z)) Es existieren Konstanten δ1 , C1 , so dass für ein κ = κ(Z) > 0 und ein Z > 0 mit der Funktion kj (ε1 , ξ, δ1 ) = sup y1 ,y2 ,ỹ1 ,ỹ2 ∈IR:|yi |≤δ1 , |ỹi |≤δ1 ,|yi −y˜i |≤ξ,i=1,2 |gj (ε1 + y1 ε1 + y2 ) − gj (ε1 + ỹ1 ε1 + ỹ2 )| (4.14) für alle ξ > 0 die folgende Abschätzung für j = 1, . . . , k gilt: (IE[|kj (ε1 , ξ, δ1 )|Z ])1/Z ≤ C1 ξ 1/κ . Beispiel 4.12. (vgl. Bsp. 3.17) g(ε) = (ε, ε2 − 1)T : Annahme (G2’(Z)) wird dahingehend untersucht, welche Momentenannahmen sie erfordert. Die Funktion kj aus (G2’(Z)) ist für beide Komponenten g1 (ε) = ε und g2 (ε) = ε2 − 1 einzeln abzuschätzen, wobei die Annahmen zu g2 diejenigen zu g1 beinhalten. Zunächst wird kj (ε1 , ξ, δ1 ) für den allgemeineren Ausdruck gj (ε) = εa − c, a 6= 0, a ∈ IN, c konstant, abgeschätzt. Im Anschluss wird IE[|k2 (ε1 , ξ, δ1 )|Z ] im Fall a = 2 abgeschätzt. Aus diesem Ausdruck sind die Momentenannahmen ersichtlich. Im diesem Beispiel werden Suprema stets wie in der Definition von kj in (4.14) gebildet. Für gj (ε1 ) = εa − c gilt gemäß (4.14) kj (ε1 , ξ, δ1 ) = sup | (ε1 + ε1 y1 + y2 )a − c − (ε1 + ε1 ỹ1 + ỹ2 )a + c| a a X X a a−l a a−l l = sup ε1 (ỹ1 ε1 + ỹ2 )l ε1 (y1 ε1 + y2 ) − l l l=0 l=0 a X a a−l l l ε ((y1 ε1 + y2 ) − (ỹ1 ε1 + ỹ2 ) ) = sup l 1 l=1 a X a a−l |ε1 | sup |(y1 ε1 + y2 )l − (ỹ1 ε1 + ỹ2 )l |. ≤ l l=1 Im Fall a = 2, d.h. g(ε) = ε2 − c, gilt kj (ε1 , ξ, δ1 ) ≤ Damit folgt 2 X 2 l=1 l |ε12−l | sup |(y1 ε1 + y2 )l − (ỹ1 ε1 + ỹ2 )l | ≤ 2δ1 ξ (|ε1 | + 1)2 . 4.5 Modellspezifische Details 87 Z IE[|kj (ε1 , ξ, δ1 )| ] ≤ 2Z δ1Z ξ Z 2Z X 2Z IE[|ε1 |m ]. m m=0 Da in (G2’(Z)) der Term IE[|kj (ε1 , ξ, δ1 )|Z ]1/Z betrachtet wird, kann im betrachteten Beispiel 1/Z P 2Z 2Z m IE[|ε | ] κ = 1 und C1 = 2δ1 gewählt werden. Dabei wird die Existenz von 1 m=0 m IE[|ε1 |2Z ] vorausgesetzt. Mit der Annahme (G2’(Z)) von Seite 86 kann jetzt Lemma 4.13 formuliert werden. Weil in Lemma 3.18(s1) die Fehler direkt betrachtet werden, ist die Aussage unabhängig von der Wahl der Modelle (1.14) oder (1.18) gültig und wird daher hier nicht nochmal genannt. Die Behauptungen (s4) und (s5) aus Lemma 3.18 gelten analog in diesem Modell, deshalb werden sie in Lemma 4.13 nicht aufgeführt. Wir notieren mit (s2’) bzw. (s3’) die zu (s2) bzw. zu (s3) verwandte Aussage. Lemma 4.13. Die folgenden Aussagen gelten unter (M), (M1), (K), (H) aus Abschnitt 1.5 und (A) aus Abschnitt 1.6. Wir betrachten die Konvergenz lim IP min gj (ε̂i ) < 0 < max gj (ε̂i ) = 1. (4.15) n→∞ 1≤i≤n 1≤i≤n (s2’) Sei gj eine Funktion, für die das Lebesgue-Maß von {x ∈ IR|gj (x) 6= 0} positiv ist und für welche die Annahme (G2’(Z)) mit Zk ≥ 3kκ + 3Z mit Z > 0, κ > 0, k ≥ 3 und IE[|ε1 |k ] < ∞ erfüllt ist. Dann gilt (4.15) für gj . (s3’) Für gj (ε) = I{ε ≤ a} − b, b ∈ (0, 1), gilt (4.15) für j = 1, . . . , k. Beweis zu Lemma 4.13. Im Folgenden beweisen wir (s2’) und (s3’). Beweis zu (s2’). Wir beschränken uns darauf, lim IP min gj (ε̂i ) ≥ 0 = 0 n→∞ 1≤i≤n zu zeigen. Die Behauptung in (s2’) folgt analog. Wir betrachten für eine reelle Zahlenfolge cn > 0, limn→∞ cn = 0, die Zerlegung IP( min gj (ε̂i ) ≥ 0) ≤ IP( min gj (εi ) ≥ −cn ) + IP( min gj (εi ) < −cn , min gj (ε̂i ) ≥ 0) 1≤i≤n 1≤i≤n 1≤i≤n 1≤i≤n ≤ IP( min gj (εi ) ≥ −cn ) + IP( max |gj (εi ) − gj (ε̂i )| > cn ) 1≤i≤n 1≤i≤n ≤ IP( min gj (εi ) ≥ −cn ) (4.16) 1≤i≤n +IP( max |gj (εi ) − gj (ε̂i )| > cn , max |ε̂i − εi | ≤ δn′ ) (4.17) +IP( max |ε̂i − εi | > δn′ ). (4.18) 1≤i≤n 1≤i≤n 1≤i≤n Der Term in (4.16) konvergiert wie (3.34) im homoskedastischen Modell. Für diesen Beweisteil wird die Annahme getroffen, dass für die Funktion gj das Lebesgue-Maß von {x ∈ IR|gj (x) 6= 0} positiv ist. Die Veränderungen von den Termen (3.36) und (3.37) zu (4.17) und (4.18) für 88 Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell heteroskedastische Residuen werden im Folgenden erklärt. Der Term auf der linken Seite von (4.18) zerfällt in zwei Summanden, m̂(x) − m(x) σ̂(x) − σ(x) + sup εi max |εi − ε̂i | ≤ sup (4.19) i=1,...,n σ̂(x) σ̂(x) x∈[0,1] x∈[0,1] ≤ supx∈[0,1] |m̂(x) − m(x)| supx∈[0,1] |σ̂(x) − σ(x)| + max |εi | i=1,...,n inf x∈[0,1] |σ̂(x)| inf x∈[0,1] |σ̂(x)| = OP ((nh)−1/2 (log h−1 )1/2 ) + oP (n1/k )OP ((nh)−1/2 (log h−1 )1/2 ) = oP (δn′ ). (4.20) Für die Ordnung wird maxi=1,...,n |εi | = oP (n1/k ) mit der Annahme IE[|ε1 |k ] < ∞, die Annahme inf x∈[0,1] |σ̂(x)| > 0 und die Ordnung OP ((nh)−1/2 (log h−1 )1/2 ) für die Zähler der Brüche nach Akritas und Van Keilegom (2001), Prop. 3 verwendet. Der Term in (4.18) konvergiert gegen Null für δn′ = Cn1/k (nh)−1/2 (log(h−1 ))1/2 für C > 0 konstant. Die Gleichheit bei Übergang in die Zeile (4.20) wird hier näher erläutert: Wir zeigen, dass es sich bei maxi=1,...,n |εi − ε̂i | in (4.19) im Fall k ≥ 3 um eine stochastische Nullfolge handelt. Es gilt n1/k (nh)−1/2 (log(h−1 ))1/2 = log(h−1 ) 1/2 n k−2 k h = log(h−1 ) 1/2 k (nh k−2 ) k−2 k = o(1), k denn limn→∞ nh k−2 = ∞, falls k ≥ 3, da nach Voraussetzung limn→∞ nh3 = ∞. Damit ist für k ≥ 3 die Abschätzung max1≤i≤n |εi − ε̂i | = oP (1) und (4.18)= o(1) gezeigt. Für den Term (4.17) gilt unter Voraussetzung der Existenz von IE[|kj (ε1 , δn′ , δ1 )|Z ] für die Funktion kj aus (4.14) und einer Abschätzung für das Zte Moment gemäß (G2’(Z)) die Abschätzung IP( max |kj (εi , δn′ , δ1 )| > cn ) ≤ nIE[I{|kj (ε1 , δn′ , δ1 )| > cn }] (4.21) 1≤i≤n ≤ ′ Z/κ n ′ Z Z δn IE[|k (ε , δ . , δ )| ] ≤ nC j 1 n 1 2 cZn cZn ′Z/κ Für den Term in (4.21) ist daher Konvergenz von c−Z gegen Null zu zeigen. Die Folgen n nδn ′ cn und δn sind insgesamt so zu wählen, dass die folgenden drei Raten gleichzeitig gelten: o(n1/κ (nh)−1/2 (log(h−1 ))1/2 ) = o(δn′ ) nδn′ Z/κ = o(1) cZn cn = o(1) (vgl. (4.20)), (4.22) (vgl. (4.21)), (vgl. den Anfang des Beweises zu (s2’)). Die Wahl δn′ = Cn1/k (nh)−1/2 (log h−1 )1/2 erfüllt die erste Forderung. Zu zeigen ist, dass nδn′ Z/κ = o(1) gilt. Damit wird cn = (nδn′ Z/κ )1/(2Z) gewählt, dieses cn erfüllt die dritte Forderung, weil nδn′ Z/κ = o(1) gilt. Mit dieser Wahl von δn′ und cn ist auch die zweite Forderung erfüllt. Zu zeigen bleibt nδn′ Z/κ = o(1). Nach der Wahl von δn′ gilt bis auf konstante Faktoren nδn′ Z/κ = n(n1/k (nh)−1/2 (log h−1 )1/2 )Z/κ Z = (log(h−1 )) 2κ −( −2kκ−2Z+Zk ) 2κk (h2α ) −2kκ−2Z+Zk 2κk log(h−1 ) −2kκ−2Z+Zk 2κk nh3+2α h3 Zk h −2kκ−2Z+Zk −2kκ−2Z+Zk 2κk . 4.5 Modellspezifische Details 89 −1 ) Im Fall −2kκ − 2Z + Zk = 0 divergiert nδn′ Z/κ . Gemäß (H) ist der Anteil mit log(h eine nh3+2α Nullfolge, und sein Exponent ist nach der Annahme Zk ≥ 3kκ + 3Z positiv, unter dieser Annahme gilt also −2kκ − 2Z + Zk > 0. Wenn wir Zk ≥ 3kκ + 3Z voraussetzen, sind die ersten beiden Terme ebenfalls von der Ordnung o(1), und insgesamt gilt nδn′ Z/κ = h3 Zk h −2kκ−2Z+Zk −2kκ−2Z+Zk 2κk o(1). (4.23) Zum Nachweis von (4.17) = o(1) ist noch nδn′ Z/κ = o(1) zu zeigen. Wegen des nach Voraussetzung positiven Exponenten außerhalb des Bruchs bleibt für die Exponenten innerhalb des Zk ≥ 0 zu gewährleisten, die äquivalent zu 3(−2kκ − Bruchs die Ungleichung 3 − −2kκ−2Z+Zk 2Z + Zk) ≥ 0 bzw. zu 3kκ + 3Z ≤ Zk ist: die Gültigkeit der letzten Ungleichung ist Teil der Annahmen zur Behauptung. Mit dem Nachweis der Konvergenz von (4.17) gegen Null ist der Beweis von (s2’) abgeschlossen. Beweis zu (s3’). Für ein heteroskedastisch erzeugtes Residuum gilt ε̂i ≤ a ⇔ εi ≤ a + i )−σ(Xi )) + m̂(Xi ) − m(Xi ) und eine analoge äquivalente Darstellung für ε̂l > a. Im Ana (σ̂(Xσ(X i) schluss wird (σ̂(Xi ) − σ(Xi )) + m̂(Xi ) − m(Xi ) σ(Xi ) 1 sup |σ̂(x) − σ(x)| + sup |(m̂ − m)(x)| ≤ a + |a| sup x∈[0,1] x∈[0,1] σ(x) x∈[0,1] εi ≤ a + a ≤ a + |a|c1 Rn + c2 Rn mit deterministischer Nullfolge Rn und Konstanten c1 , c2 > 0 verwendet. Wie im Beweis von (s3) werden hier zusätzlich die Abschätzungen aus Akritas und Van Keilegom (2001), Prop. 3, 1 | < ∞ verwendet. Mit dieser Argufür supx∈[0,1] |(σ̂ − σ)(x)| und die Annahme supx∈[0,1] | σ̂(x) mentation folgt (s3’) bereits. Damit ist Lemma 4.13 gezeigt. Bemerkung 4.14. Der Beweis von Lemma 4.13(s2’) basiert auf den Annahmen, dass die auftretenden Faktoren k ≥ 3, Z > 0, κ > 0 die Ungleichung Zk ≥ 3kκ + 3Z erfüllen. In dieser Bemerkung werden konkrete Wahlen von k, κ, Z vorgestellt, die einerseits die Ungleichung erfüllen und andererseits möglichst geringe Momentenannahmen erfordern. Die Ungleichung in (s2’) lautet Zk ≥ 3kκ + 3Z. Ist κ = 1, ist dazu Zk ≥ 3(k + Z) äquivalent, und gilt zusätzlich k = cZ für eine Konstante c > 0, so ist dazu wiederum die Ungleichung cZ 2 ≥ 3Z(c + 1) . Die Wahl k = cZ liegt wegen des Zusammenhangs der Annahme äquivalent, d.h. Z ≥ 3 c+1 c zum kten Moment von |ε| und zum Zten Moment von kj nahe. Es sind für den Fall κ = 1, k = cZ mit Z ≥ 3 c+1 zum Beispiel die Wahlen Z = k = c 6; Z = 12, k = 4; k = 4, 5, Z = 9; Z = 4, 5, k = 9 zulässig. In den allgemeinen Annahmen zum Verfahren im heteroskedastischen Modell ist nur die Annahme k = 4 bereits getroffen, größere k ziehen zusätzliche Momentenannahmen bezüglich ε nach sich, bzw. bezüglich Z eine stärkere Annahme in (G2’(Z)). 90 Kapitel 4. Untersuchung des Schätzers im heteroskedastischen Modell Kapitel 5 Beispiele und Simulation In den Sätzen 3.12, 3.14, 4.10 und 4.11 haben wir jeweils schwache Konvergenz für den stochastischen Prozess zum neuen Schätzer F̄n gezeigt, wobei in den Sätzen unterschiedliche Situationen betrachtet wurden (unterschiedliche Typen von Zusatzinformation, unterschiedliche Struktur bei den Residuen). In diesem Abschnitt werden die Ergebnisse anhand verschiedener Beispiele betrachtet und zum Vergleich Ergebnissen zum Schätzer F̂n gegenübergestellt. Der neue Schätzer F̄n berücksichtigt explizit eine bekannte Zusatzinformation, und es soll vorgestellt werden, wie sich die Verbesserungen dadurch bemerkbar machen. Aus den genannten Sätzen wissen wir, dass die Struktur von Bias und Varianzfunktion von y abhängt und relativ komplex ist. Da das verwendete Verfahren nicht generell zu asymptotisch kleinerem Bias oder kleinerer Varianz für alle y ∈ IR für beliebige den Annahmen genügende Fehlerverteilungen und Funktionen g führt, betrachten wir in Abschnitt 5.1 die Ergebnisse unter Annahme bestimmter wahrer Verteilungsfunktionen für die Fehler. Wir stellen das asymptotische Verhalten anhand einer Reihe von Beispielen vor. In Abschnitt 5.2 wird außerdem mit Hilfe einer von y unabhängigen Kennzahl die Verbesserung durch den neuen Schätzer untersucht. Auch dies geschieht für eine Reihe von Beispielen und verschiedene konkrete Fehlerverteilungen. 5.1 Beispiele In diesem Abschnitt geht es darum, anhand des asymptotischen mittleren quadratischen Fehlers (MSE, von der Bezeichnung mean squared error) zwei Schätzer zu vergleichen: wir stellen den MSE unseres neuen Empirical-Likelihood-Schätzers F̄n dem MSE der bezüglich Residuen definierten empirischen Verteilungsfunktion F̂n gegenüber. Dabei betrachten wir zuerst den homoskedastischen Fall. Der MSE zu F̂n ist von folgender Gestalt: 1 Var(G(y)) + b2 (y) n 1 2 2 F (y)(1 − F (y)) + σ f (y) + 2f (y)IE[ε1 I{ε1 ≤ y}] + h4 f 2 (y)B 2 . = n mse(y) = 91 92 Kapitel 5. Beispiele und Simulation Vergleiche dazu die Bezeichnungen b und B aus (1.21) aus Abschnitt 1.7.2 und für den Varianzterm Var(G(y)) die Gleichung in (1.23). Für den Empirical-Likelihood-Schätzer betrachten wir zunächst das Ergebnis aus Satz 3.12 für den Fall von Funktionen g gemäß (G1) und (G2). Hier verhält sich der MSE wie folgt: 1 Var(Ḡ(y)) + b̄2 (y) n 1 = F (y)(1 − F (y)) + σ 2 f 2 (y) + 2f (y)IE[ε1 I{ε1 ≤ y}] + W (y) n 2 + h4 f (y) + U (y)T Σ−1 IE[g ′ (ε1 )] B 2 , mse(y) = wobei W (y) = U T (y)Σ−1 {Σ − IE[g ′ (ε1 )]IE[ε1 g T (ε1 )] − IE[ε1 g(ε1 )]IET [g ′ (ε1 )] + σ 2 IE[g ′ (ε1 )]IET [g ′ (ε1 )]}Σ−1 U (y) − 2U T (y)Σ−1 {U (y) − IE[g ′ (ε1 )]IE[ε1 I{ε1 ≤ y}]} − 2f (y)U T (y)Σ−1 {IE[ε1 g(ε1 )] − IE[g ′ (ε1 )]σ 2 } gilt. Vor dem Vergleich müssen wir die Wahl der Bandbreite für beide Schätzer gleichermaßen treffen. Wir nehmen an, dass sich die Bandbreite h gemäß h = cn−1/4 verhält, für eine Konstante 4 c > 0. Damit ist h4 = cn . Diese Wahl entspricht den theoretischen Annahmen. Wir betrachten im Folgenden verschiedene Beispiele von Funktionen g und Fehlerverteilungen F . Um Unabhängigkeit von der Größe n des Datensatzes in den Abbildungen zu erhalten, multiplizieren wir die Kurven mit n. Der Wert des Terms B ist abhängig von der Regressionsfunktion m, von der Designdichte fX und von der Wahl des Kerns K. In den Kurven setzen wir c4 B 2 = 1. Weil der Bias von B abhängt, ist es klar, dass sich der Einfluss des Bias auf den gesamten MSE durch eine Veränderung in B verändert: der Biaseinfluss ändert sich auch durch Veränderungen in der Regressionsfunktion und eine andere Wahl für den Kern oder die Bandbreite. Beispiel 5.1. Das erste betrachtete Beispiel ist die Nutzung der Zentriertheit des Fehlers, d.h. g(ε) = ε. Dieses g stellt keine zusätzliche Information dar, denn für dieses g reicht es bereits, die Modellannahme IE[ε1 ] = 0 explizit zu verwenden. In diesem Fall erhalten wir für beide Schätzer identische asymptotische Varianz, vergleiche hierzu Bemerkung 3.13. Daher reicht es, die Unterschiede im Bias zu betrachten. In diesem Spezialfall ist Σ = IE[ε21 ] = σ 2 und g ′ ≡ 1. Deshalb ist der Bias von der Form 1 2 (5.1) b̄(y) = h B f (y) + 2 U (y) . σ Wir betrachten im Folgenden den Term U (y) genauer. Es gilt im Fall g(ε) = ε für alle y ∈ IR Z ∞ Z ∞ Z y tf (t)dt ≤ 0. (5.2) tf (t)dt − tf (t)dt = U (y) = IE[ε1 I{ε1 ≤ y)}] = −∞ −∞ y R∞ Für die Ungleichung in (5.2) betrachte zum einen den ersten Term −∞ tf (t)dt = 0 nach AnR∞ nahme IE[ε1 ] = 0. Zum anderen folgt für den zweiten Term y tf (t)dt ≥ 0, weil außerdem 5.1 Beispiele 93 tf (t) ≤ 0 für alle t < 0 gilt. Damit ist die Gültigkeit der Ungleichung in (5.2) klar. Durch die Nichtpositivität von U (y) für alle y ∈ IR ist die Möglichkeit gegeben, je nach absoluter Größe der Summanden f (y) und σ12 U (y) für festes y in (5.1) kleinere Werte für den Bias b̄(y) im Vergleich mit dem Bias b(y) = h2 Bf (y) zu erhalten. Wir betrachten den Bias anhand spezieller Fehlerverteilungen: Im Fall normalverteilter Fehler mit Erwartung Null und Varianz σ 2 und g(ε) = ε ist U (y) = IE[ε1 I{ε1 ≤ y}] = −σ 2 f (y). Vergleiche hierzu die detaillierten Rechnungen zu (1.24). Für den Spezialfall normalverteilter Fehler mit Erwartung Null und Varianz σ 2 gilt für den Bias b̄(y) = 0, während für den Vergleichsbias b(y) = h2 Bf (y) 6= 0 für alle y ∈ IR (für den Fall B 6= 0) gilt. In diesem Fall führt der Empirical-Likelihood-Ansatz zum Wegfallen des Biasterms erster Ordnung. In anderen Beispielen für die Fehlerverteilung erhalten wir für den neuen Bias immer noch bemerkenswerte Verbesserungen gegenüber dem Bias zu F̂n . Diese Beobachtungen sind auch in Abbildung 5.1 ersichtlich. Dort wird der quadrierte Bias, die Varianz und der MSE für drei Fehlerverteilungen gezeigt, nämlich die Normalverteilung, t-Verteilung mit drei Freiheitsgraden und als Beispiel einer schiefen Verteilung die Doppelexponentialverteilung (im letzteren Fall gilt IE[ε31 ] 6= 0). ¯ → IR zusammen, die jeweils mit f (−∞) := 0 und Wir stellen die zugehörigen Dichten f : IR f (∞) := 0 fortgesetzt werden. Als erstes Beispiel für die Fehlerverteilung wird die Normalverteilung mit Erwartungswert 0 und Varianz σ 2 , d.h. N (0, σ 2 ) verwendet, welche die Dichte x2 1 exp − 2 , x ∈ (−∞, ∞) (5.3) f (x) := √ 2σ 2πσ 2 besitzt. Hier sind alle ungeraden Q Momente gleich Null. Für die geraden Momente (γ > 0, γ−1 γ 2 γ/2 gerade) gilt IE[ε1 ] = (IE[ε1 ]) k . k=1,k ungerade Die betrachtete (Student-)t-Verteilung mit d Freiheitsgraden (d ∈ IN ) besitzt die Dichte −( d+1 2 ) x2 1+ d Γ , x ∈ (−∞, ∞), (5.4) f (x) := √ Γ d2 πd R∞ welche über die Gamma-Funktion Γ(y) = 0 ty−1 e−t dt (t > 0) definiert ist. Erstes und zweites Moment der t-Verteilung mit drei Freiheitsgraden ist 0 und 3, erstes bis viertes Moment der t-Verteilung mit fünf Freiheitsgraden ist 0, 5/3, 0 und 25, erstes bis sechstes Moment der t-Verteilung mit sieben Freiheitsgraden ist 0, 7/5, 0, 49/5, 0 und 343. Die t-Verteilung ist wie die Normalverteilung nicht schief, ihre Dichte verteilt im Fall kleiner Freiheitsgrade etwas mehr Masse bei größerer Entfernung vom Maximum der Dichte im Vergleich zur Standardnormalverteilung. Weil konkrete Funktionen g die Existenz unterschiedlich vieler Momente voraussetzen, variiert bei den betrachteten Beispielen der Freiheitsgrad d der jeweils benutzten t-Verteilung, wobei zu einer t-Verteilung mit d Freiheitsgraden jeweils die ersten d − 1 Momente existieren. d+1 2 94 Kapitel 5. Beispiele und Simulation -3 -2 -4 0.25 0.25 0.25 0.2 0.2 0.2 0.15 0.15 0.15 0.1 0.1 0.1 0.05 0.05 0.05 -1 1 2 3 -3 -2 -1 1 2 3 -3 -2 -1 1 0.4 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 -2 2 4 -4 -2 2 4 -4 -2 2 2 3 4 Abbildung 5.1: Die Abbildung zeigt (von links nach rechts) Kurven zum quadrierten Bias, zur Varianz und zum MSE im Beispiel 5.1, das heißt g(ε) = ε. Mit durchgezogener Linie werden die Kurven zu F̂n gezeichnet, mit unterbrochener Linie die Kurven zum neuen Schätzer F̄n . In der ersten Zeile betrachten wir standardnormalverteilte Fehler. Hier verschwindet der Bias von F̄n . In der zweiten Zeile finden sich Resultate für nach der t−Verteilung mit drei Freiheitsgraden verteilte Fehler, wohingegen in der dritten Zeile die Fehler nach der Doppelexponentialverteilung erzeugt sind. In allen drei Beispielen ist die Varianzkurve zum neuen Schätzer identisch zu der Varianzkurve zum Schätzer F̂n . Die Doppelexponentialverteilung besitzt die Dichte f (x) := x − q x − q 1 exp − × exp − exp − , x ∈ (−∞, ∞), γ γ γ (5.5) für γ = 3 und q = −γc. Diese Parameter sind gerade so gewählt, dass der Erwartungswert γc + q Null ist mit der approximativen Wahl c = 0, 5772. In allen drei Verteilungsbeispielen ist eine Reduzierung des quadrierten Bias ersichtlich. Beispiel 5.2. Als zweites Beispiel betrachten wir g(ε) = ε2 − σ 2 , dem entspricht die Kenntnis der Varianz σ 2 . In diesem Fall gilt IE[g ′ (ε1 )] = 0. Deshalb besitzen beide Schätzer den gleichen Bias b(y) = b̄(y). Dementsprechend vergleichen wir im Folgenden die Varianzen. 5.1 Beispiele 95 Die Varianz zum neuen Schätzer ist Var(Ḡ(y)) = F (y)(1 − F (y)) + f 2 (y)σ 2 + 2f (y)IE[ε1 I{ε1 ≤ y}] −U 2 (y)Σ−1 − 2f (y)U (y)Σ−1 IE[ε31 ] mit Σ = IE[(ε21 − σ 2 )2 ]. Betrachten wir den letzten Term, so ist es offensichtlich, dass ein verschwindendes drittes Moment zu einer gleichmäßig kleineren Varianz gegenüber Var(G(y)) führt, denn die Varianz Var(Ḡ(y)) unterscheidet sich von Var(G(y)) um den negativen Term −U 2 (y)Σ−1 . Damit handelt es sich um eine Verbesserung in der Schätzung. Wir geben den Umfang der Verbesserung erneut für konkrete Fehlerverteilungen an. Für normalverteilte Fehler mit Erwartungswert Null und Varianz σ 2 gilt 1 Var(Ḡ(y)) = Var(G(y)) − y 2 f 2 (y). 2 (5.6) Im Folgenden wird die Gleichheit in (5.6) hergeleitet. Es geht darum, das Aussehen von Var(Ḡ(y)) − Var(G(y)) = −U 2 (y)Σ−1 im Fall normalverteilter Fehler mit Erwartungswert Null und Varianz σ 2 anzugeben. Hier gilt Σ = IE[(ε21 −σ 2 )2 ] = IE[ε41 ]−(σ 2 )2 = 3(σ 2 )2 −(σ 2 )2 = 2(σ 2 )2 und entsprechend Σ−1 = 12 (σ 2 )−2 . Der Term U (y) zerfällt gemäß U (y) = IE[(ε21 − σ 2 )I{ε1 ≤ y}] = IE[ε21 I{ε1 ≤ y}] − σ 2 F (y). Analog zur Rechnung für den Term U (y) in Beispiel 5.1 gilt bei ε ∼ N (0, σ 2 ) IE[ε21 I{ε1 ≤ y}] = Z = −σ 2 [xf (x)|y−∞ − y 2 x f (x)dx = −∞ Z y −∞ Z y −∞ x xf (x)dx = −σ 2 Z y x f ′ (x)dx −∞ 1f (x)dx] = −σ 2 [xf (x)|y−∞ − F (y)] = −σ 2 [yf (y) − F (y)] für alle y ∈ IR, so dass für U (y) insgesamt U (y) = Z y −∞ x2 f (x)dx − σ 2 F (y) = −σ 2 [xf (x)|y−∞ − F (y)] − σ 2 F (y) = −σ 2 yf (y) gilt. Die Gültigkeit von (5.6) in diesem Fall ergibt sich nun durch Einsetzen der Ergebnisse für U (y) und Σ−1 in −U 2 (y)Σ−1 . Für dieses Beispiel vergleiche Abbildung 5.2. Dort wird der quadrierte Bias, die Varianz und der MSE für drei Fehlerverteilungen gezeigt, nämlich die Normalverteilung, t-Verteilung mit fünf Freiheitsgraden und die Doppelexponentialverteilung. 96 Kapitel 5. Beispiele und Simulation -3 0.25 0.25 0.25 0.2 0.2 0.2 0.15 0.15 0.15 0.1 0.1 0.1 0.05 0.05 0.05 -1 -2 -4 1 -2 2 3 -3 -2 -1 1 2 3 -3 -1 -2 0.25 0.25 0.2 0.2 0.2 0.15 0.15 0.15 0.1 0.1 0.1 0.05 0.05 4 -4 -2 2 3 0.25 0.05 2 1 2 4 -4 -2 2 4 Abbildung 5.2: Die Abbildung zeigt (von links nach rechts) Kurven zum quadrierten Bias, zur Varianz und zum MSE im Beispiel 5.2, das heißt g(ε) = ε2 − σ 2 . Mit durchgezogener Linie werden die Kurven zu F̂n gezeichnet, mit unterbrochener Linie die Kurven zum neuen Schätzer F̄n . In der ersten Zeile betrachten wir standardnormalverteilte Fehler. In der zweiten Zeile finden sich Resultate für nach der t−Verteilung mit fünf Freiheitsgraden verteilte Fehler, wohingegen in der dritten Zeile die Fehler nach der Doppelexponentialverteilung erzeugt sind. In allen drei Beispielen sind die Biaskurven zu den beiden Schätzern identisch. Beispiel 5.3. Im vorausgegangenen Beispiel haben wir die Information einer bekannten Varianz verwendet. Diese Ergebnisse können dadurch weiter verbessert werden, dass wir die Zentriertheit der Fehler zusätzlich berücksichtigen. Dies resultiert in der Funktion g(ε) = (ε, ε2 − σ 2 )T . Um die Varianz anzugeben, verwenden wir eine Reihe von Bezeichnungen, µ3 = IE[ε31 ], µ4 = IE[(ε21 − σ 2 )2 ], U1 (y) = IE[ε1 I{ε1 ≤ y}] und U2 (y) = IE[(ε21 − σ 2 )I{ε1 ≤ y}]. Einige Terme vereinfachen sich wie folgt: es gilt IE[g ′ (ε1 )] = (1, 0)T , IE[ε1 g(ε1 )] = (σ 2 , µ3 )T und ! σ 2 µ3 Σ = . µ3 µ4 5.1 Beispiele -3 97 0.25 0.25 0.25 0.2 0.2 0.2 0.15 0.15 0.15 0.1 0.1 0.1 0.05 0.05 0.05 -1 -2 1 2 3 -3 -2 -1 0.25 -4 -7.5 2 3 -3 -2 -1 0.25 1 0.2 0.2 0.2 0.15 0.15 0.1 0.1 0.1 0.05 0.05 0.05 4 2 -4 -2 4 2 -4 -2 0.2 0.2 0.15 0.15 0.15 0.1 0.1 0.1 0.05 0.05 0.05 2.5 5 7.5 -7.5 -5 -2.5 3 2.5 5 7.5 -7.5 -5 4 2 0.2 -2.5 2 0.25 0.15 -2 -5 1 -2.5 2.5 5 7.5 Abbildung 5.3: Die Abbildung zeigt (von links nach rechts) Kurven zum quadrierten Bias, zur Varianz und zum MSE im Beispiel 5.3, das heißt g(ε) = (ε, ε2 − σ 2 )T . Mit durchgezogener Linie werden die Kurven zu F̂n gezeichnet, mit unterbrochener Linie die Kurven zum neuen Schätzer F̄n . In der ersten Zeile betrachten wir standardnormalverteilte Fehler. Hier ist die unterbrochene Biaskurve Null. In der zweiten Zeile finden sich Resultate für nach der t−Verteilung mit fünf Freiheitsgraden verteilte Fehler, wohingegen in der dritten Zeile die Fehler die Doppelexponentialverteilung besitzen. Für die Varianz gilt Var(Ḡ(y)) = F (y)(1 − F (y)) + f 2 (y)σ 2 + 2f (y)IE[ε1 I{ε1 ≤ y}] 1 U 2 (y)µ4 µ23 + U22 (y)(2σ 2 µ3 − σ 4 µ4 ) + 2 (σ µ4 − µ23 )2 1 2 2 2 − 2U1 (y)U2 (y)µ33 + 2 f (y) U (y)µ − U (y)µ σ 1 2 3 3 σ µ4 − µ23 1 = Var(G(y)) − U22 (y) . µ4 Die letzte Gleichheit gilt nur dann, wenn es sich um Fehlerverteilungen mit verschwindendem dritten Moment handelt. In diesem Fall erhalten wir erneut die Varianz aus Beispiel 5.2. Wir betrachten außerdem den Bias für dieses Beispiel, es gilt b̄(y) = h2 B f (y) + 1 (U (y)µ − U (y)µ ) . 1 4 2 3 σ 2 µ4 − µ23 98 Kapitel 5. Beispiele und Simulation Im Bias steckt das dritte Moment µ3 : im Fall von Verteilungen mit µ3 = 0 erhalten wir den Bias aus Beispiel 5.1; dies gilt natürlich insbesondere für die zentrierte Normalverteilung. Sobald die Fehlerverteilung ein verschwindendes drittes Moment besitzt, erhalten wir also einen Schätzer, der asymptotisch sowohl einen kleineren Bias als auch eine kleinere Varianz besitzt. Für dieses Beispiel vergleiche Abbildung 5.3. Dort wird der quadrierte Bias, die Varianz und der MSE für drei Fehlerverteilungen gezeigt, nämlich die Normalverteilung, t-Verteilung mit fünf Freiheitsgraden und die Doppelexponentialverteilung. Die Verteilungen wurden in Beispiel 5.1 eingeführt. Für alle drei Verteilungen ist eine deutliche Verbesserung im MSE ersichtlich, wenn die Kurven mit denen aus Beispiel 5.2 gegenübergestellt werden. Nach den Beispielen zu Satz 3.12 gehen wir zu Informationen bezüglich Quantilen über, wie sie in Satz 3.14 untersucht werden. Beispiel 5.4. Als Spezialfall von g(ε) = I{ε ≤ a} − b betrachten wir diese Funktion g für a = 0, b = 0, 5. Wir nehmen also für die unbekannte Fehlerverteilung an, dass ihr Median gleich Null ist. Dann gilt für die Varianz Var(Ḡ(y)) = F (y)(1 − F (y)) + f 2 (y)σ 2 + 2f (y)IE[ε1 I{ε1 ≤ y}] h 1 +4 4U 2 (y){ + 2f (0)IE[ε1 I{ε1 ≤ 0}] + f 2 (0)σ 2 } 4 1 −2U (y)(F (min(0, y)) − F (y) + f (0)IE[ε1 I{ε1 ≤ y}]) 2 i 2 −2f (y)U (y){IE[ε1 I{ε1 ≤ 0}] + f (0)σ } mit U (y) = IE[(I{ε1 ≤ 0} − 0, 5)I{ε1 ≤ y}] = F (min(0, y)) − 12 F (y) für alle y ∈ IR. Für den Bias gilt 1 b̄(y) = h2 B(f (y) − 4U (y)f (0)) = h2 B(f (y) − 4[F (min(0, y)) − F (y)]f (0)). 2 Für dieses Beispiel vergleiche Abbildung 5.4. Dort wird der quadrierte Bias, die Varianz und der MSE für drei Fehlerverteilungen gezeigt, nämlich für die Normalverteilung, t-Verteilung mit drei Freiheitsgraden (jeweils mit a = 0 und b = 0, 5) und die Doppelexponentialverteilung (mit a = 0 und b = 0, 570371). 5.1 Beispiele -3 -3 -7.5 99 0.25 0.25 0.25 0.2 0.2 0.2 0.15 0.15 0.15 0.1 0.1 0.1 0.05 0.05 0.05 -1 -2 1 -5 3 -3 -2 -1 1 2 3 -3 -2 -1 0.4 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 -1 -2 2 1 2 3 -3 -2 -1 1 2 3 -3 -2 -1 0.2 0.2 0.2 0.15 0.15 0.15 0.1 0.1 0.1 0.05 0.05 0.05 -2.5 2.5 5 7.5 -7.5 -5 -2.5 2.5 5 7.5 -7.5 -5 -2.5 1 2 1 2 2.5 5 3 3 7.5 Abbildung 5.4: Die Abbildung zeigt (von links nach rechts) Kurven zum quadrierten Bias, zur Varianz und zum MSE im Beispiel 5.4, das heißt g(ε) = I{ε ≤ 0}−b. Mit durchgezogener Linie werden die Kurven zu F̂n gezeichnet, mit unterbrochener Linie die Kurven zum neuen Schätzer F̄n . In der ersten Zeile betrachten wir standardnormalverteilte Fehler (b = 0, 5). In der zweiten Zeile finden sich Resultate für nach der t−Verteilung mit drei Freiheitsgraden verteilte Fehler (b = 0, 5), wohingegen in der dritten Zeile die Fehler die Doppelexponentialverteilung besitzen (b = 0, 570371). Beispiel 5.5. In diesem Beispiel wird die Hinzunahme der Zentriertheit der Fehler zum vorangegangenen Beispiel 5.4 betrachtet. Wir betrachten also g(ε) = (ε, I{ε ≤ 0} − F (0))T , wobei F (0) bekannt ist. Dieses Beispiel wird weder in Satz 3.12 noch in Satz 3.14 betrachtet, da es eine Mischung beider Typen von betrachteten Funktionen darstellt; die Resultate folgen aber P mit den Entwicklungen aus beiden Sätzen. Dabei wird die Entwicklung von n1 ni=1 gj (ε̂i ) aus Lemma 3.5(ii) für die erste Komponente und aus Lemma 3.5(iii) für die zweite Komponente verwendet. Für die asymptotische Varianz gilt Var(Ḡ(y)) = Var(G(y)) + V 2 (y)Var(G(0)) − 2V (y)Cov(G(y), G(0)). Dabei haben wir Var(G(y)) in (1.23) eingeführt, und es gelten V (y) = σ 2 U2 (y) − U1 (0)U1 (y) , σ 2 F (0)(1 − F (0)) − U12 (0) U1 (y) = IE[ε1 I{ε1 ≤ y}], U2 (y) = IE[(I{ε1 ≤ 0} − F (0))I{ε1 ≤ y}] = F (min(0, y)) − F (0)F (y). 100 Kapitel 5. Beispiele und Simulation Damit ist der Bias von der Gestalt U1 (y){F (0)(1 − F (0)) + U1 (0)f (0)} − U2 (y){U1 (0) + σ 2 f (0)} b̄(y) = h2 B f (y) + . σ 2 F (0)(1 − F (0)) − U12 (0) Wir gehen auch hier auf spezielle Fehlerverteilungen ein. Im Fall standardnormalverteilter Fehler ist wieder b̄(y) = 0. Für dieses Beispiel vergleiche Abbildung 5.5. Dort wird der quadrierte Bias, die Varianz und der MSE für drei Fehlerverteilungen gezeigt, nämlich für die Normalverteilung, t−Verteilung mit d Freiheitsgraden und die Doppelexponentialverteilung. Verglichen mit den MSE-Ergebnissen aus Beispiel 5.4 erhalten wir gleichmäßig kleinere MSE-Resultate. -3 -3 -6 -2 -2 -4 0.25 0.25 0.2 0.2 0.25 0.2 0.15 0.15 0.15 0.1 0.1 0.1 0.05 0.05 0.05 -1 1 2 3 -3 -2 -1 1 2 3 -3 -2 -1 0.4 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 -1 1 2 3 -3 -2 -1 1 2 3 -3 -2 -1 0.175 0.175 0.15 0.15 0.15 0.125 0.125 0.125 0.1 0.1 0.1 0.075 0.075 0.05 0.05 0.05 0.025 0.025 0.025 2 4 6 -6 -4 -2 2 1 2 3 2 4 6 3 0.175 0.075 -2 1 2 4 6 -6 -4 -2 Abbildung 5.5: Die Abbildung zeigt (von links nach rechts) Kurven zum quadrierten Bias, zur Varianz und zum MSE im Beispiel 5.5, das heißt g(ε) = (ε, I{ε ≤ 0} − b)T . Mit durchgezogener Linie werden die Kurven zu F̂n gezeichnet, mit unterbrochener Linie die Kurven zum neuen Schätzer F̄n . In der ersten Zeile betrachten wir standardnormalverteilte Fehler (b = 0, 5). In der zweiten Zeile finden sich Resultate für nach der t−Verteilung mit drei Freiheitsgraden verteilte Fehler (b = 0, 5), wohingegen in der dritten Zeile die Fehler die Doppelexponentialverteilung besitzen (b = 0, 570371). Zum Abschluss wird ein Beispiel zum heteroskedastischen Modell vorgestellt. 5.1 Beispiele 101 Beispiel 5.6. In diesem Beispiel geht es um die Funktion g(ε) = (ε, ε2 −1)T , die zum Einbinden der Modellannahme der Zentriertheit der Fehler und der Kenntnis σ 2 = 1 in die Fehlerverteilungsschätzung gehört. Wie in Beispiel 5.1 sind die asymptotischen Varianzkurven der beiden Schätzer F̂n und F̄n identisch. Die Gleichheit der Varianzen ist sofort ersichtlich aus der Entwicklung in Satz 4.10. Der Bias ist nicht für alle y−Werte kleiner für den neuen Schätzer F̄n , aber im Fall eines kleineren quadrierten Bias ist die Verbesserung oft sehr deutlich. Für dieses Beispiel vergleiche Abbildung 5.6. Dort wird der quadrierte Bias, die Varianz und der MSE für drei Fehlerverteilungen gezeigt, nämlich für die Normalverteilung, die t−Verteilung mit fünf Freiheitsgraden und die Doppelexponentialverteilung. Hier sind alle Verteilungen standardisiert, d.h. sie besitzen Erwartungswert Null und Varianz Eins. -3 -2 0.4 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 -1 1 2 3 -3 -2 -1 1 2 3 -3 -2 -1 1 2 3 1 2 3 2 4 6 0.4 0.5 0.5 0.3 0.4 0.4 0.3 0.3 0.2 0.2 0.2 0.1 0.1 -3 -6 -2 -4 -1 -2 0.1 1 2 3 -3 -2 -1 1 2 3 -3 -2 -1 0.3 0.3 0.3 0.25 0.25 0.25 0.2 0.2 0.2 0.15 0.15 0.15 0.1 0.1 0.1 0.05 0.05 0.05 2 4 6 -6 -4 -2 2 4 6 -6 -4 -2 Abbildung 5.6: Die Abbildung zeigt (von links nach rechts) Kurven zum quadrierten Bias, zur Varianz und zum MSE im Beispiel 5.6, das heißt g(ε) = (ε, ε2 −1)T , im heteroskedastischen Modell. Mit durchgezogener Linie werden die Kurven zu F̂n gezeichnet, mit unterbrochener Linie die Kurven zum neuen Schätzer F̄n . In der ersten Zeile betrachten wir standardnormalverteilte Fehler. In der zweiten Zeile finden sich Resultate für standardisiert nach der t−Verteilung mit fünf Freiheitsgraden verteilte Fehler, wohingegen in der dritten Zeile die Fehler die standardisierte Doppelexponentialverteilung besitzen. In allen drei Verteilungsbeispielen sind die beiden Varianzkurven jeweils identisch, und im Normalverteilungsfall verschwindet die unterbrochene Biaskurve. 102 5.2 Kapitel 5. Beispiele und Simulation Simulationsstudie In diesem Abschnitt vergleichen wir das Verhalten der beiden Schätzer für endlichen Stichprobenumfang in einer Simulationsstudie. Hierfür beschränken wir uns auf das homoskedastische Regressionsmodell (1.14) unter Verwendung der Regressionsfunktion m(x) = 3x2 und im Intervall [0, 1] gleichverteilte Designvariablen. Als vorgegebene Fehlerverteilungen verwenden wir drei unterschiedliche Verteilungen, die wir bereits in Abschnitt 5.1 untersucht haben. Es handelt sich dabei um die Standardnormalverteilung, die t-Verteilung mit einer jeweils angegebenen Anzahl von Freiheitsgraden und die Doppelexponentialverteilung. Für die Schätzung der Regressionsfunktion wählen wir den Normalverteilungskern und wählen die Bandbreiten h mit h = c/n1/4 so, dass sie den theoretischen Bandbreitenvoraussetzungen entsprechen. Die Wahl von h hängt von Konstanten c ab, für die wir verschiedene Werte zwischen 0, 1 und 3 betrachten. In dieser Situation geben wir eine Kenngröße an, die nicht mehr für jedes y einzeln angegeben wird, sondern die Verbesserung in der Schätzung gleichmäßig über alle y angibt. Die verwendete Kenngröße ist der mittlere integrierte quadratische Fehler (MISE nach der Übersetzung mean integrated squared error) IE Z 2 (Gn (y) − F (y)) dy . (5.7) Den MISE berechnen wir für unseren Schätzer Gn = F̄n und zum Vergleich für den bereits verwendeten Schätzer Gn = F̂n . Die Berechnung wird aus 1000 Wiederholungen gemittelt. Das Integral (5.7) wird approximiert über die Werte an 100 Gitterpunkten, die für die einzelnen Fehlerverteilungen in unterschiedlichen Intervallen verteilt sind, [−3, 3] im Fall der Normalverteilung, [−4, 4] im Fall der t-Verteilung und [−7, 7] im Fall der Doppelexponentialverteilung. Um den Empirical-Likelihood-Schätzer zu berechnen, müssen wir auch den Term η̂n aus (2.17) approximieren. Wir verwenden hier die Bisektionsmethode bzw. das multivariate NewtonRaphson-Verfahren, beide wurden in Bemerkung 2.5 bereits genannt. Für beide Verfahren wird auf Press et al. (2002) verwiesen. In den Abbildungen 5.7 und 5.8 werden Approximationen des MISE als Funktionen in c vorgestellt, wobei die Konstante c wie oben angegeben je nach verwendeter Fehlerverteilung in einem bestimmten Intervall variiert. In Abbildung 5.7 sind die Ergebnisse für die Situation von Beispiel 5.1 dargestellt, bei dem die Zentriertheitsinformation explizit in die Schätzung eingebunden wird. In der linken Spalte wählen wir Stichprobenumfang 50, in der rechten 100. In der ersten Zeile ist als Fehlerverteilung die Standardnormalverteilung gewählt. Mit der durchgezogenen Kurve werden die Werte zum MISE für den Schätzer F̂n dargestellt. In der gestrichelten Kurve stellen wir dagegen die entsprechenden Ergebnisse für den neuen Schätzer F̄n vor. Wir erhalten durch den neuen Schätzer bessere Ergebnisse im Sinn eines kleinen MISE, wenn auch bei manchen Wahlen von Bandbreiten der Unterschied zwischen beiden Kurven sehr gering ist. Analog erzeugte Ergebnisse in der zweiten Zeile entsprechen der t-Verteilung mit drei 5.2 Simulationsstudie 103 Freiheitsgraden und die in der dritten Zeile der Doppelexponentialverteilung. Wir erhalten eine Verbesserung durch den neuen Schätzer im Sinne eines kleineren MISE in allen Fällen. Interessant ist eine Beobachtung zu den symmetrischen Verteilungen: hier bewirkt eine wachsende Bandbreite, dass die Verbesserung durch den neuen Schätzer immer deutlicher wird. Dies kann so erklärt werden, dass bei wachsender Bandbreite auch der Einfluss des Bias auf den MISE wächst. In diesem Beispiel zeichnet sich der Schätzer besonders durch eine deutliche Biasverbesserung aus. *10^-3 *10^-3 MISE, normal distribution, sample size 50, example 1 MISE, normal distribution, sample size 100, example 1 1 2 1 4 1 8 2 2 1 2 3.5 7 1 2 1 1 2 1 2 2 6 3 1 2 1 1 2 1 2 2 c 0.1 0.2 MISE 0.3 0.5 0.75 1 0.1 0.2 *10^-3 MISE, t3 distribution, sample size 50, example 1 0.3 c 0.5 0.75 1 MISE, t3 distribution, sample size 100, example 1 1 1 2 2 0.013 1 7 2 0.012 1 6.5 1 2 1 2 2 1 0.011 1 2 1 2 1 2 1 2 1 2 2 0.3 0.5 c c 0.1 0.2 *10^-2 0.3 0.5 0.75 1 0.1 0.2 *10^-2 MISE, double exponential distribution, sample size 50, example 1 0.75 1 MISE, double exponential , sample size 100, example 1 1 2 2.6 2.5 1.3 2.4 1 2 1 1.2 2 2.3 1 1 2 1 2 1 2.2 1 2 1 2 1 2 1 2 1 1 1 2 1 2 2 2 2 1 2 1 2 1.4 2 2 c c 0.1 0.2 0.3 0.5 0.75 1 1.25 1.4 2 0.1 0.2 0.3 0.5 0.75 1 1.25 Abbildung 5.7: In dieser Abbildung wird Beispiel 5.1 betrachtet, und zwar für zwei unterschiedliche Stichprobenumfänge, n = 50 (links) und n = 100 (rechts). Die Kurven zeigen den MISE als Funktion in c, wobei c als Konstante in der Bandbreite h = c/n1/4 auftritt. Als Fehlerverteilungen geben wir (von oben nach unten) N (0, 1), t−Verteilung mit drei Freiheitsgraden und die Doppelexponentialverteilung vor. Die durchgezogenen Kurven gehören zum Vergleichsschätzer F̂n , und mit der unterbrochenen Linie kennzeichnen wir die Kurven für den neuen Schätzer F̄n . In Abbildung 5.8 werden weitere Kurven für den MISE vorgestellt. In der linken Spalte betrachten wir für einen Stichprobenumfang n = 100 Kurven zum Beispiel 5.3, d.h. g(ε) = (ε, ε2 −σ 2 )T . 104 Kapitel 5. Beispiele und Simulation Von oben nach unten wird die Standardnormalverteilung, die t−Verteilung mit fünf Freiheitsgraden und die Doppelexponentialverteilung zugrundegelegt. Für die ersten beiden Fehlerverteilungsbeispiele ist die Verbesserung im MISE durch die Empirical-Likelihood-Methode sehr deutlich. Im Fall der Doppelexponentialverteilung ist der MISE für den neuen Schätzer nur kleiner, wenn die Bandbreitenkonstante größer als c = 0, 5 ist. In diesem Fall ist die Wahl größerer Bandbreiten zu empfehlen. In der rechten Spalte 5.8 werden analoge Kurven für das Beispiel 5.5 mit g(ε) = (ε, I{ε ≤ 0} − F (0))T , wobei F (0) bekannt ist, präsentiert. Von oben nach unten wird die Standardnormalverteilung, die t−Verteilung mit drei Freiheitsgraden und die Doppelexponentialverteilung zugrundegelegt. In allen Fällen erhalten wir für den neuen Schätzer einen kleineren MISE. *10^-3 *10^-2 MISE, normal distribution, sample size 100, example 3 MISE, normal distribution, sample size 50, example 5 1 1 4 0.8 1 2 1 2 3.5 0.7 1 1 2 1 3 1 1 1 2 2 2.5 1 1 2 2 2 2 0.5 2 2 2 0.3 0.5 c c 0.1 0.2 *10^-2 0.3 0.5 0.75 0.1 1 0.2 *10^-2 MISE, t5 distribution, sample size 100, example 3 MISE, t3 distribution, sample size 50, example 5 1 1 0.71 0.7 1 0.75 1 1 1 0.65 1 1 0.6 1 1 1 0.6 1 1 0.55 2 0.5 2 2 2 2 2 0.5 2 0.45 2 2 2 2 0.45 2 0.43 c 0.1 0.2 *10^-3 0.3 0.5 0.75 c 1 0.1 *10^-2 MISE, double exponential, sample size 100, example 3 0.2 0.3 0.5 1 0.75 MISE, double exponential distribution, sample size 50, example 5 1 3 2 13 2 2.75 12 1 2.5 2 2 1 1 1 1 2 1 1 1 2 1 1 2 1 1.4 2 2 3 1 1 2 2 2 0.75 1 2 2 0.5 1 2.25 11 10 9.84 0.10.20.3 1 1 1.9 2 2 c 0.1 0.2 0.3 0.5 0.75 1 2 1.1 2 1.4 2 c 2 Abbildung 5.8: In dieser Abbildung werden die Beispiele 5.3 in der linken Spalte und 5.5 in der rechten Spalte betrachtet. Die Kurven zeigen den MISE als Funktion in c, wobei c als Konstante in der Bandbreite h = c/n1/4 auftritt. Die Stichprobenumfänge sind n = 100 (links) und n = 50 (rechts). Als Fehlerverteilungen geben wir (von oben nach unten) N (0, 1), die t−Verteilung mit fünf (links) bzw. drei (rechts) Freiheitsgraden und die Doppelexponentialverteilung vor. Die durchgezogenen Kurven gehören zum Vergleichsschätzer F̂n und mit der unterbrochenen Linie kennzeichnen wir die Kurven für den neuen Schätzer F̄n . Kapitel 6 Testverfahren 6.1 Einleitung Schätzer werden oft mit dem Ziel konstruiert, für die Konstruktion von Konfidenzintervallen oder -bändern und von Testverfahren genutzt zu werden. In diesem Kapitel soll die Verwendung des ausführlich vorstellten und untersuchten Schätzers F̄n für die Verteilungsfunktion der Fehler im nichtparametrischen Regressionsmodell anhand eines Tests vorgestellt werden. Die Testproblematik ergibt sich aus der Konstruktion des Schätzers. Die Grundidee für die Schätzerkonstruktion war die Verwendung von Zusatzinformationen in Form von bekannten Funktionen g, für welche die Eigenschaft IE[g(ε1 )] = 0 bekannt ist. Um den Schätzer mit dieser Zusatzinformation zum Schätzen der unbekannten Verteilungsfunktion verwenden, ist es folgerichtig, zuerst auf die Gültigkeit der zugrundeliegenden Zusatzinformation zu testen. Diese Aufgabe wird von jedem der drei im Folgenden vorgestellten Testverfahren erfüllt. Der erste vorgestellte Test benutzt direkt die Entwicklung des Schätzers F̄n innerhalb einer Kolmogorov-Smirnov- und einer Cramér-von-Mises-Teststatistik. Der zweite Test ist ein Empirical-Likelihood-Ratio-Test, der durch seine Verwandtheit zum Konstruktionsverfahren für den Schätzer auf der Hand liegt und Teile der benötigten Entwicklungen für F̄n verwendet. Zum Abschluss wird eine relativ einfache Teststatistik vorgestellt, die direkt eine empirische Variante des in der Hypothese betrachteten Erwartungswerts aufgreift und deren Untersuchung ebenfalls auf Teilergebnissen für den Schätzer F̄n beruht. Die Annahme nh4 = O(1) an die Konvergenzgeschwindigkeit der Bandbreite h zur Konstruktion des Schätzers diente dazu, eine Verbesserung hinsichtlich des Bias zu erhalten. Bei der Betrachtung der Teststatistiken spielt dieser Bias eine untergeordnete Rolle, wir betrachten deshalb der Übersichtlichkeit halber die Teststatistiken unter der im Folgenden einzuführenden im Vergleich zu (H) von S. 17 stärkeren Annahme an die Bandbreite h: (H1) Für die Bandbreite h gilt nh4 −→ 0, n → ∞. 105 106 Kapitel 6. Testverfahren Bemerkung 6.1. Um den Test durchzuführen, ist zu beachten, dass die Varianzen der jeweiligen Grenzverteilung nicht bekannt sind. Die gewünschten Quantile lassen sich mit einem jeweils geeigneten Bootstrapverfahren durch Simulation approximieren. Dieses Vorgehen wird hier nicht näher betrachtet; wir beschränken uns auf die Untersuchung des asymptotischen Verhaltens zu den einzelnen Verfahren. 6.2 6.2.1 Erstes Testverfahren Idee Mit den bisherigen asymptotischen Untersuchungen (Entwicklungen, schwache Konvergenz) des √ Prozesses n(F̄n (·) − F (·) − b̄(·)) und des in Akritas und Van Keilegom (2001) untersuchten √ Prozesses n(F̂n (·) − F (·) − bAK (·)) wird im Folgenden ein Test konstruiert und analysiert. Beide genannten Biasterme sind vernachlässigbar, wenn (H1) angenommen wird. Der Test untersucht, ob die Annahme IE[g(ε1 )] = 0 zu einer bekannten Funktion g gerechtfertigt ist. Diese Eigenschaft begründet die Verwendung des in dieser Arbeit untersuchten Empirical-LikelihoodSchätzers bezüglich der nichtparametrischen Residuen für die Fehlerverteilung. Wollen wir bezüglich einer mehrdimensionalen Zusatzinformation mit g : IR → IRk , k > 1 die Fehlerverteilung schätzen, ist der vorgeschlagene Test für jede Komponente durchzuführen. Testen wir simultan für eine vektorwertige Funktion g, ordnet das Testergebnis den einzelnen Komponenten noch keine Information zu. Dies bedeutet, dass beim Verwerfen der Nullhypothese nicht klar ist, für welche Komponente die Zentriertheit nicht erfüllt ist: in dieser Situation muss der Test bezüglich fraglicher eindimensionaler Funktionen g einzeln durchgeführt werden. Für den vorgeschlagenen Test verwenden wir daher nur eindimensionale Funktionen g. Tests zur Hypothese H0 : IE[g(ε1 )] = 0 vs. H1 : IE[g(ε1 )] 6= 0 werden auf der Basis der Differenz n n 1 1 X −η̂n g(ε̂i ) 1 X − 1 I{ε̂i ≤ y} = I{ε̂i ≤ y} F̄n (y) − F̂n (y) = n i=1 1 + η̂n g(ε̂i ) n i=1 1 + η̂n g(ε̂i ) anhand der Kolmogorov-Smirnov-Teststatistik √ SKS = n sup |F̄n (y) − F̂n (y)| (6.1) (6.2) (6.3) y∈IR oder der Cramér-von-Mises-Teststatistik Z SCvM = n (F̄n (y) − F̂n (y))2 dF̂n (y) konstruiert. Das Verhalten der stochastischen Prozesses lokalen Alternativen Hl.a. : √ (6.4) n(F̄n (·) − F̂n (·)) wird unter H0 , unter IE[g(ε1 )] = 0 + n−1/2 c, c 6= 0 (6.5) 6.2 Erstes Testverfahren 107 und festen Alternativen IE[g(ε1 )] = c, c 6= 0 Hf.a. : (6.6) untersucht. Von beiden Teststatistiken wird idealerweise erwartet, dass sie unter fester Alternative gegen ∞ divergieren. Gilt dies im Fall fester Alternativen, ist die Rede von Konsistenz gegen feste Alternativen. Beispiel 6.2. Beispiele sind H0 : Median ist Null, d.h. g(ε) = I{ε ≤ 0} − 1/2 oder H0 : µ4 = 3σ 2 , d.h. g(ε) = ε4 − 3ε2 mit viertem Moment µ4 und Varianz σ 2 , beide Eigenschaften sind im Fall zentrierter normalverteilter Fehler erfüllt. Wir beginnen mit der Untersuchung unter der Hypothese, um danach das asymptotische Verhalten unter festen Alternativen im Abschnitt 6.2.3 und unter lokalen Alternativen im Abschnitt 6.2.4 zu betrachten. 6.2.2 Asymptotisches Verhalten unter H0 Nach Theorem 3.11 (Entwicklung von F̄n ) und Lemma 3.10 (Entwicklung von η̂n ) gilt gleichmäßig in y unter H0 n 1 1 2 −1 1 X F̄n (y) = F̂n (y) − U (y)η̂n + oP √ g(ε̂i ) + oP √ . (6.7) = F̂n (y) − U (y)IE g (ε) n i=1 n n Das Verfahren wird für differenzierbare Funktionen g im homoskedastischen Regressionsmodell P vorgestellt. Für n1 ni=1 g(ε̂i ) gilt daher die in Lemma 3.5(ii) beschriebene Entwicklung unter Vernachlässigbarkeit des dort genannten Biasterms gemäß der stärkeren Bandbreitenannahme (H1). Damit ergibt sich die Entwicklung mit dem folgenden Lemma. Lemma 6.3. Unter den Annahmen von Satz 3.12 und (H1) gilt unter H0 die Entwicklung 2 −1 F̄n (y) − F̂n (y) = −U (y)IE[g (ε1 )] n 1 X 1 (g(εi ) − IE[g (ε1 )]εi ) + oP √ n i=1 n ′ (6.8) mit U (y) = IE[g(ε1 )I{ε1 ≤ y}]. Bei der Entwicklung von g wird Lemma 3.5(ii) unter zusätzlicher Annahme von (H1) verwendet. Beweis zu Lemma 6.3. Für den Beweis ist auf die Teilentwicklungen zu verweisen, nämlich auf die in (6.7) vorgestellte Entwicklung für F̂n und die in Satz 3.12 gezeigte Entwicklung für F̄n unter Vernachlässigung von Biastermen gemäß (H1). Ähnliche Resultate erhalten wir aus den Ergebnissen der vorangegangenen Kapitel für einen anderen Typ von Funktionen g und das heteroskedastische Modell. Nach der Entwicklung in Lemma 6.3 kommen wir zur schwachen Konvergenz. 108 Kapitel 6. Testverfahren Lemma 6.4. Unter H0 , Annahme (H1) und den Annahmen aus Satz 3.12 für eindimensionales √ g konvergiert der stochastische Prozess Vn (y) := n F̄n (y) − F̂n (y) schwach gegen einen zentrierten Gaußprozess V mit der Kovarianzmatrix 2 −2 IE[V (y)V (z)] = U (y)U (z)IE[g (ε1 )] IE[g 2 (ε1 )] − 2IE[g(ε1 )ε1 ]IE[g ′ (ε1 )] +IE[g ′ (ε1 )]IE[ε21 ]IE[g ′ (ε1 )] . Beweis zu Lemma 6.4. Die Kovarianz IE[V (y)V (z)] = IE[VH0 (y)VH0 (z)] ergibt sich für n X √ 2 −1 1 (g(εi ) − IE[g ′ (ε1 )]εi ). VH0 (y) := − nU (y)IE[g (ε1 )] n i=1 Die schwache Konvergenz von Vn folgt aus der schwachen Konvergenz des bei der Betrachtung √ des Schätzers untersuchten Prozesses n(F̄ − F ), der diesen Term einschließt. Außerdem kann Lemma 6.3 auch durch den Nachweis der Straffheit für den von y abhängigen Anteil und die Konvergenz für den restlichen von y unabhängigen Term auf der rechten Seite nach dem zentralen Grenzwertsatz gezeigt werden. 6.2.3 Untersuchung bei fester Alternative Für die Untersuchung unter fester Alternative Hf.a. nehmen wir an, dass IE[g(ε1 )] = c 6= 0 gilt. Aufgrund der Konstruktion des Schätzers treffen wir für g weiterhin die Annahmen (3.4) und (S1) und (S2) von Seite 44. Die Annahmen (S1) und (S2) garantieren die Existenz und Eindeutigkeit der Gewichte p̂1 , . . . , p̂n und damit des Lagrangemultiplikators η̂n . An dieser Stelle ist zu erklären, warum die Annahme (S1) weiter plausibel ist. Einen Test auf IE[g(ε1 )] = 0 durchzuführen liegt nur dann auf der Hand, wenn für die Beobachtungen bereits g(ε̂1 ), . . . , g(ε̂n ) um Null liegen, also sie nicht alle positiv oder alle negativ sind. Diese Argumentation legitimiert Annahme (S1) zumindest im Hinblick auf asymptotische Aussagen (für n → ∞). Wir betrachten die in (6.3) definierte Teststatistik SKS , basierend auf der Differenz F̂n (y) − F̄n (y). Aus Lemma 6.4 und dem Stetigkeitssatz (vgl. Van der Vaart und Wellner (1996), Theo√ rem 1.3.6) folgt für die Teststatistik SKS unter H0 die schwache Konvergenz von n supy∈IR |F̂n (y) −F̄n (y)| gegen supy∈IR |V (y)|, für n → ∞, mit V aus Lemma 6.4. Die Hypothese H0 ist abzulehnen, wenn SKS > q1−α gilt, im Fall eines einseitigen Tests. Dabei bezeichnet q1−α das (1 − α)−Quantil der Verteilung von supy∈IR |V (y)|. Für den Nachweis, dass der Test feste Alternativen aufdeckt, ist unter Hf.a. lim IP(SKS > q1−α ) = 1 n→∞ (6.9) zu zeigen. Bei der Notation für SKS wird die Abhängigkeit von n unterdrückt. Wir definieren für den folgenden Satz 6.6 eine bestimmte Menge M von Funktionen g und definieren dafür die folgende Zerlegbarkeit: (I) Es existieren reelle Konstanten a1 und a2 , so dass g in (−∞, a1 ) monoton wächst oder fällt, in (a2 , ∞) monoton wächst oder fällt und für das dazwischenliegende Intervall für Ra eine Konstante K die Abschätzung a12 |g ′ (y)|dy ≤ K gilt. 6.2 Erstes Testverfahren 109 Definition 6.5. Die Menge M enthält alle Funktionen g, für welche die Annahmen (G1), (G2) und (I) gelten. Nach diesen Vorbereitungen formulieren wir nun den zentralen Satz des Abschnitts. Satz 6.6. Sei g eine Funktion aus der Menge M mit IE[g(ε1 )] = c 6= 0. Für solche g gilt unter den Annahmen (S1) und (S2) unter der Alternative Hf.a. : √ (6.10) ∀ q ∈ IR+ : lim IP n sup |F̂n (y) − F̄n (y)| > q = 1. n→∞ y∈IR Beweis zu Satz 6.6. Zum Nachweis von Satz 6.6 zeigen wir √ ∀ q ∈ IR+ : lim IP n sup |F̂n (y) − F̄n (y)| ≤ q = 0. n→∞ (6.11) y∈IR Es gilt √ IP( n sup |F̂n (y) − F̄n (y)| ≤ q) = P1n + P2n y∈IR mit P1n P2n √ |c| n sup |F̂n (y) − F̄n (y)| ≤ q, | g(y)d(F̄n (y) − F̂n (y))| < , := IP 2 y∈IR Z √ |c| n sup |F̂n (y) − F̄n (y)| ≤ q, | g(y)d(F̄n (y) − F̂n (y))| ≥ := IP 2 y∈IR Z (6.12) (6.13) für die Konstante c 6= 0, vergleiche die Formulierung der festen Alternative in (6.6). Wir behanR deln zunächst den ersten Term. Es ist zu beachten, dass g(y)dF̄n (y) = 0 nach Konstruktion für jedes n gilt. Aus Lemma 3.5(ii) angewandt auf die Funktion g̃ = g − IE[g(ε1 )] ergibt sich R P stochastische Konvergenz von g(y)dF̂n (y) = n1 ni=1 g(ε̂i ) gegen IE[g(ε1 )] = c 6= 0. Weil daraus R zusammen | g(y)d(F̄n (y) − F̂n (y))| → |0 − c| = |c| folgt, gilt |c| Z P1n ≤ IP g(y)d(F̄n (y) − F̂n (y)) < −→ 0, n → ∞. 2 Damit ist die Konvergenz des ersten Terms P1n aus (6.12) gegen Null gezeigt; es bleibt die Konvergenz des zweiten Terms P2n aus (6.13) gegen Null zu zeigen. Weil die Maße F̂n , F̄n nur auf den Daten ε̂1 , . . . , ε̂n positives Gewicht verteilen, verteilen sie insbesondere kein Gewicht außerhalb des Intervalls [min1≤i≤n g(ε̂i ), max1≤i≤n g(ε̂i )]. Deshalb kann die Integration wie folgt eingeschränkt werden. Es gilt |c| Z max1≤i≤n g(ε̂i ) √ g(y)d(F̄n (y) − F̂n (y)) ≥ . (6.14) P2n = IP n sup |F̂n (y) − F̄n (y)| ≤ q, 2 y∈IR min1≤i≤n g(ε̂i ) Im Folgenden betrachten wir das Integral aus dem zweiten Term, Z max1≤i≤n g(ε̂i ) In := g(y)d(F̄n (y) − F̂n (y)). min1≤i≤n g(ε̂i ) (6.15) 110 Kapitel 6. Testverfahren Wir wenden ein Resultat zu partieller Integration aus Hewitt und Stromberg (1969), S. 419 an. Das dort zu findende Theorem (21.69)(iv) für Lebesgue-Stieltjes-Integrale besagt für zwei reellwertige und monoton wachsende Funktionen α, β auf IR und a < b aus IR Z Z β(x+)dα(x) + α(x−)dβ(x) = α(b+)β(b+) − α(a−)β(a−). (6.16) [a,b] [a,b] Dabei sind die Bezeichnungen α(b−) := limx↑b α(x), α(b+) := limx↓b α(x) gewählt. Im Integral In in (6.15) ist die Funktion g zwar stetig, daher muss nicht zwischen linksseitigem und rechtsseitigem Grenzwert unterschieden werden. Die Funktion g ist aber im allgemeinen nicht monoton wachsend, deshalb ist sie als Differenz zweier monotoner Funktionen g1 , g2 mit g = g1 − g2 zu schreiben: Wir betrachten stetig differenzierbare Funktionen g hier auf einem kompakten Intervall, denn wir haben die Integration oben bereits auf ein kompaktes Intervall eingeschränkt. Solche stetig differenzierbaren Funktionen g auf einem kompakten Intervall sind von beschränkter Variation, weswegen auf selbigem kompakten Intervall definierte monoton wachsende Funktionen g1 , g2 mit g = g1 − g2 existieren. Vergleiche dazu Hewitt und Stromberg (1969), Theorem (17.16). Die beiden Funktionen F̄n und F̂n sind nach Konstruktion monoton, hier ist wegen der Sprungfunktionen insbesondere auf den jeweiligen links- oder rechtsseitigen Grenzwert zu achten. Für an = min1≤i≤n ε̂i und bn = max1≤i≤n ε̂i gilt dann mit der Zerlegung Z bn Z bn In = g(y)d(F̄n (y) − F̂n (y)) = (g1 − g2 )(y)d(F̄n (y) − F̂n (y)) an bn = Z an an g1 (y)dF̄n (y) − Z bn an g1 (y)dF̂n (y) − Z bn g2 (y)dF̄n (y) + an Z bn g2 (y)dF̂n (y) an die partielle Integration nach oben genanntem Theorem aus Hewitt und Stromberg (1969) für gj , j = 1, 2, und Fk ∈ {F̄n , F̂n } Z bn Z bn gj (y)dFk (y) = gj (bn +)Fk (bn +) − gj (an −)Fk (an −) − Fk (y−)dgj (y). an an Damit gilt für j = 1, 2 Z bn Z gj (y)dF̄n (y) − an bn gj (y)dF̂n (y) an bn + Z bn = gj (y)(F̄n (y) − F̂n (y)) − (F̄n (y−) − F̂n (y−)) dgj (y) an − an Z bn = 0− (F̄n (y−) − F̂n (y−)) dgj (y). an Die letzte Gleichheit gilt, weil F̄n (y) = F̂n (y) für y = min1≤i≤n ε̂i und y = max1≤i≤n ε̂i gilt. Setzen wir die Resultate für j = 1, 2 wieder zusammen, gilt für das gesuchte Integral Z bn Z bn In = − (F̄n (y−) − F̂n (y−))dg1 (y) + (F̄n (y−) − F̂n (y−))dg2 (y) an an 6.2 Erstes Testverfahren = − Z 111 bn an (F̄n (y−) − F̂n (y−))d(g1 − g2 )(y) = − Z bn an (F̄n (y−) − F̂n (y−))dg(y). Für die zweite Wahrscheinlichkeit aus der Zerlegung folgt P2n = IP √ Z n sup |F̄n (y) − F̂n (y)| ≤ q, y∈IR bn an q Z bn |c| ′ |g (y)|dy ≥ . ≤ IP √ 2 n an |c| (F̄n (y−) − F̂n (y−))g (y)dy ≥ 2 ′ (6.17) Bis zu dieser Stelle lässt sich der Beweis für beliebige Funktionen g, welche die Annahmen (G1) und (G2) erfüllen, durchführen. Wegen der folgenden Überlegungen wurde für die Behauptung die betrachtete Menge von Funktionen g auf M eingeschränkt. Bevor wir mit dem Fall von Funktionen g in M , die in (−∞, a1 ) und in (a2 , ∞) monoton wachsen, beginnen, fügen wir eine Betrachtung zu den Integrationsgrenzen ein: In (6.17) betrachten wir die Integrationsgrenzen an = min1≤i≤n ε̂i und bn = max1≤i≤n ε̂i . Das Integral bezüglich der zufälligen Grenzen an und bn wollen wir in das Integral unter Verwendung der deterministischen Grenzen a1 und a2 und sonstige Teile zerlegen. Es gilt die stochastische Konvergenz von an gegen −∞ und bn gegen ∞, deshalb können wir an < a1 und bn > a2 annehmen. Wir schätzen dafür (6.17) ab: q Z bn |c| IP √ |g ′ (y)|dy ≥ 2 n an q Z bn |c| ≤ IP √ |g ′ (y)|dy ≥ , an < a1 , bn > a2 + IP(an > a1 ) + IP(bn < a2 ) 2 n an q Z a2 |c| ≤ IP √ + o(1). |g ′ (y)|dy ≥ 2 n a1 Wir betrachten im Folgenden Funktionen g aus Annahme (I), und zwar den Fall, dass g in (−∞, a1 ) und in (a2 , ∞) monoton wächst. In diesem Fall gilt Z bn an ′ |g (y)|dy ≤ Z a1 an ′ g (y)dy + Z bn a2 g ′ (y)dy + K ≤ |g(a1 )| + |g(a2 )| + K + 2 max |g(ε̂i )|, (6.18) 1≤i≤n weil g(c) ≤ max1≤i≤n |g(ε̂i )| für c = an und c = bn . Wir verwenden die Bezeichnung K̃ := |g(a1 )| + |g(a2 )| + K im Folgenden. Die Wahrscheinlichkeit in (6.17) ist damit nach oben abschätzbar durch √ 1 |c| n K̃ |c| − √ IP 2 max |g(ε̂i )| + K̃ > ≤ IP √ max |g(ε̂i )| > = o(1). 1≤i≤n 2q 4q 2 n n 1≤i≤n Innerhalb der letzten Wahrscheinlichkeit steht auf der linken Seite des betrachteten Ereignisses eine stochastische Nullfolge und auf der rechten Seite die positive Konstante |c| abzüglich einer 4q Nullfolge K̃ √ . 2 n Damit ist für den Fall von Funktionen aus M , die außerhalb eines geeigneten 112 Kapitel 6. Testverfahren Intervalls jeweils monoton wachsend sind, gezeigt, dass P2n aus (6.17) gegen Null konvergiert, für n → ∞. In der Menge M sind außerdem Funktionen zugelassen, die in einem oder beiden der Intervalle (an , a1 ) und (a2 , bn ) monoton fallend statt monoton wachsend sind. In diesem Fall können die Ungleichungen in (6.18) durch die folgende Zeile ersetzt werden. Wir betrachten exemplarisch den Fall, wo g in (an , a1 ) monoton fallend und in (a2 , bn ) monoton wachsend ist: Z bn an ′ |g (y)|dy ≤ − Z a1 ′ g (y)dy + an Z bn a2 g ′ (y)dy + K ≤ |g(a1 )| + |g(a2 )| + K + 2 max |g(ε̂i )|, 1≤i≤n was insgesamt zur gleichen Abschätzung und mit den gleichen Schritten wie im ausführlich betrachteten Fall zur Konvergenz von P2n gegen Null führt. Insgesamt ist für Funktionen g aus M die Konvergenz der Wahrscheinlichkeit P2n aus (6.13) gegen Null gezeigt. Weil oben bereits die Konvergenz von P1n aus (6.12) gegen Null gezeigt wurde, ist der Beweis zu Satz 6.6 abgeschlossen. 6.2.4 Untersuchung lokaler Alternativen Unter lokaler Alternative ist g von der Form g(ε) = gH0 (ε)+ √1n r(ε), wobei für gH0 Annahme (A) von S. 19 gilt. Wir fordern aufgrund der Konstruktion des Schätzers weiterhin die Annahmen (3.4), (S1) und (S2). (S1) und (S2) garantieren die Existenz und Eindeutigkeit der Gewichte p̂1 , . . . , p̂n und damit des Lagrangemultiplikators η̂n jeweils bezüglich des hier betrachteten g. Unter lokalen Alternativen Hl.a. (vgl. (6.5)) werden wir nachweisen, dass die Teststatistiken sich asymptotisch anders als unter H0 verhalten. Dazu betrachten wir die Differenz F̄n − F̂n , welche in beiden Teststatistiken SKS und SCvM enthalten ist. Die Entwicklung von F̄n hängt davon ab, welche Gestalt die Entwicklung zum darin vorkommenP den Term n1 ni=1 g(ε̂i ) besitzt. Das folgende Lemma 6.7 zeigt, dass sich für beide betrachteten Typen von Funktionen g die Entwicklung dieses Terms unter Hl.a. von der unter H0 asymptotisch unterscheidet. Durch dieses Resultat liegt eine Veränderung im Bias vor, welche ausreicht, um lokale Alternativen aufzudecken. Dazu wird später Satz 6.9 formuliert. Lemma 6.7. Es gilt unter (H1) und den Annahmen von Lemma 3.5 ohne die Berücksichtigung der Annahme IE[g(ε1 )] = 0 unter Hl.a. aus (6.5) mit der Zerlegung g(ε) = gH0 (ε) + √1n r(ε), wobei für gH0 Annahme (A) von S. 19 gilt, die Entwicklung n n 1 1X 1X 1 ′ g(ε̂i ) = (gH0 (εi ) − IE[gH0 (ε1 )]εi ) + √ IE[r(ε1 )] + oP √ , n i=1 n i=1 n n wobei für den letzten Term insbesondere IE[r(ε1 )] 6= o(1) nach Konstruktion von Hl.a. gilt. Diese Aussage gilt für Funktionen g gemäß den lokalen Alternativen, die in Funktionen gH0 und r zerfallen, welche beide den Annahmen (G1), (G2) genügen. 6.2 Erstes Testverfahren 113 Beweis zu Lemma 6.7. Im Fall lokaler Alternativen zerfällt g in g(ε) = gH0 (ε) + n−1/2 r(ε) mit IE[gH0 (ε1 )] = 0 und IE[r(ε1 )] = c 6= 0. Betrachten wir das arithmetische Mittel der g(ε̂i ), so zerfällt der Term wie folgt: n n n 1X 1X 1 1 X 1 g(ε̂i ) = gH0 (ε̂i ) + √ r(ε̂i ) − IE[r(ε1 )] + √ IE[r(ε1 )]. n i=1 n i=1 n n i=1 n (6.19) P P Beide Summen n1 ni=1 gH0 (ε̂i ) und n1 ni=1 (r(ε̂i ) − IE[r(ε1 )]) werden gemäß Lemma 3.5(ii) entwickelt. Es gilt nach der genannten Entwicklung für r und im zweiten Schritt nach dem zentralen Grenzwertsatz n n 1 1 1X 1X r(ε̂i ) = (r(εi ) − IE[r(ε1 )] − IE[r′ (ε1 )]εi ) + IE[r(ε1 )] + oP √ = IE[r(ε1 )] + OP √ . n i=1 n i=1 n n Für gH0 gilt die Entwicklung n n 1 1X 1X ′ gH0 (ε̂i ) = (gH0 (εi ) − IE[gH0 (ε1 )]εi ) + oP √ . n i=1 n i=1 n Durch das Einsetzen der einzelnen Entwicklungen in die rechte Seite der Gleichung (6.19) ergibt sich die Behauptung von Lemma 6.7. Mit dem folgenden Lemma 6.8 ist gewährleistet, dass der Term η̂n im Fall lokaler Alternativen die gleiche Rate und Entwicklung wie im Fall der Nullhypothese besitzt. Es geht um analoge Behauptungen wie in Lemma 3.5(i) und Lemma 3.10. Der Term η̂n wird deswegen betrachtet, weil er in der Entwicklung des Schätzers F̄n auftritt. Wir benutzen im Folgenden die Zerlegung g = gH0 + √1n r. Lemma 6.8. Es gelte gelte (M1), (M2), (M3), (K), (H) und Modell (1.14) aus Abschnitt 1.5 und (S1) und (S2) aus Abschnitt 2.2. Für gH0 gelte (A) von S. 19. Für Funktionen g gemäß (G1) und (G2) aus Abschnitt 3.2 gilt für den Lagrange-Multiplikator η̂n gehörend zu g die Rate 1 |η̂n | = Op √ n und die Entwicklung −1 1 η̂n = Σ n n X i=1 1 g(ε̂i ) + oP √ . n Beweis zu Lemma 6.8. Wir betrachten zuerst den Beweis der Rate analog zu Lemma 3.8(i). Weil nach Konstruktion η̂n Lösung von Gleichung (3.2) ist, erhalten wir auch hier die Abschätzung n n n 1 X 1 X 1 X −1 2 g(ε̂i ) g(ε̂i ) − g(ε̂i ) max |g(ε̂i )| . |η̂n | ≤ i=1,...,n n i=1 n i=1 n i=1 114 Kapitel 6. Testverfahren Die Raten der einzelnen Bestandteile sind zu betrachten. Wir erhalten (vgl. Lemma 3.5(iv),(v)) 2 n n n 1 1X 2 1X 1 1X 2 g (ε̂i ) = gH0 (ε̂i ) + √ r(ε̂i ) = gH0 (ε̂i ) + OP √ , n i=1 n i=1 n i=1 n n P P 2 (ε̂i ) = OP (1) gilt, wie aus einer Taylorentwicklung für n1 ni=1 wobei für den Term n1 ni=1 gH0 P 2 2 (gH0 (ε̂i )−IE[gH0 (ε1 )]) analog zu der in Lemma 3.5(ii) für den Ausdruck n1 ni=1 g(ε̂i ) folgt. Damit P erhalten wir n1 ni=1 g 2 (ε̂i ) als führenden Term analog zur Rechnung unter H0 . Für den letzten √ auftretenden Term maxi=1,...,n |g(ε̂i )| gilt maxi=1,...,n |g(ε̂i )| = oP ( n) unter den Annahmen IE[g 2 (ε1 )] < ∞ und (3.4) für nach der lokalen Alternative konstruiertes g. Die Beweisschritte P folgen dem Beweis zu Lemma 3.5(i). In Lemma 6.7 haben wir n1 ni=1 g(ε̂i ) = OP ( √1n ) unter Hl.a. bereits gezeigt. Damit ist die erste Behauptung gezeigt, wir können die Rate für η̂n wie unter der Nullhypothese verwenden. Für die Entwicklung von η̂n unter lokalen Annahmen (vgl. Lemma 3.10) ist zusätzlich nur noch Lemma 3.8 (ii) unter lokalen Alternativen zu betrachten: dies folgt direkt mit den bisherigen verwendeten Schritten. Damit gelten Raten und Entwicklungen für η̂n unter Hl.a. wie bisher für η̂n unter H0 . Es folgt insgesamt, dass sich durch den rechts stehenden Term √1n IE[r(ε)] die Entwicklung von Pn √1 1 √1 i=1 g(ε̂i ) durch einen beschränkten Term der Ordnung O( n ) von der Entwicklung unter nn H0 aus Lemma 3.5 (ii) unterscheidet und damit auch die Entwicklung des Schätzers F̄n . Das Aufdecken lokaler Alternativen ist gewährleistet, indem wir noch die schwache Konvergenz √ von n(F̄n − F̂n ) betrachten und eine Veränderung im Grenzprozess erhalten: Lemma 6.9. Vorausgesetzt werden die Annahmen aus Satz 3.12 für eindimensionales g und Annahme (H1), wobei die Funktionen gH0 und r − IE[r(ε1 )] den Annahmen (A), (G1) und (G2) aus Abschnitt 1.6 und Abschnitt 3.2 genügen. Unter Hl.a. aus (6.5) gilt dann die Entwicklung √ √ 2 n(F̄n (y) − F̂n (y)) = − nUH0 (y)IE[gH0 (ε1 )]−1 X n 1 1 ′ (gH0 (εi ) − εi IE[gH0 (ε1 )]) + √ IE[r(ε1 )] + oP (1) n i=1 n mit UH0 (y) := IE[gH0 (ε1 )I(ε1 ≤ y)], und der stochastische Prozess √ 1 2 (ε1 )]−1 √ IE[r(ε1 )] Vn (y) := n F̄n (y) − F̂n (y) + UH0 (y)IE[gH0 n konvergiert schwach gegen einen zentrierten Gaußprozess V mit der Kovarianzmatrix 2 IE[V (y)V (z)] = UH0 (y)UH0 (z)IE[gH0 (ε1 )]−2 2 ′ ′ 2 ′ IE[gH0 (ε1 )] − 2IE[gH0 (ε1 )ε1 ]IE[gH0 (ε1 )] + IE[gH0 (ε1 )]IE[ε1 ]IE[gH0 (ε1 )] . Beweis zu Lemma 6.9. Die Entwicklung von F̄n folgt mit analogen Schritten wie in Satz 3.11. Damit bleibt der Term −U (y)η̂n als führender Term weiter zu entwickeln. Hier beziehen 6.3 Zweites Testverfahren 115 sich U und η̂n jeweils auf die Funktion g = gH0 + √1n r unter lokaler Alternative. Aus Lemma 6.8 ist klar, dass die Rate und die Entwicklung von η̂n analog zu Rate und Entwicklung unter H0 P gelten. Nach Lemma 6.7 gilt eine veränderte Entwicklung für den Term n1 ni=1 g(ε̂i ). Außerdem gilt U (y) = IE[g(ε1 )I(ε1 ≤ y)] = UH0 (y) + √1n IE[r(ε1 )I(ε1 ≤ y)], und wir verwenden IE[g 2 (ε1 )] = 2 (ε1 )] + O( √1n ). Wir erhalten daher die behauptete Entwicklung IE[(gH0 + √1n r)2 (ε1 )] = IE[gH0 2 und entsprechend als führenden Biasterm IE[(F̄n − F̂n )(y)] = −UH0 (y)(IE[gH0 (ε)])−1 √1n IE[r(ε1 )]. Die Varianz ergibt sich wie unter H0 , vgl. Lemma 6.4. Die Argumentation für die schwache Konvergenz entspricht ebenfalls der in Lemma 6.4. 6.3 Zweites Testverfahren: EL-Test Eine alternatives Testverfahren zu H0 : IE[g(ε)] = 0 für eindimensionale Vektoren g können wir mit einer Empirical-Likelihood-Ratio-Teststatistik herleiten. Für den Test betrachten wir für die beiden Mengen P1 := {(p̂1 , . . . , p̂n ) ∈ IRn : 0 < p̂i < 1∀i = 1 . . . , n; n P2 := {(p̂1 , . . . , p̂n ) ∈ IR : 0 < p̂i < 1∀i = 1 . . . , n; n X p̂i = 1} und i=1 n X i=1 p̂i = 1, n X g(ε̂i )p̂i = 0} i=1 den Ausdruck Qn 1 Q 1 n Y max(p̂1 ,...,p̂n )∈P2 { ni=1 p̂i } 1 i=1 n 1+η̂n g(ε̂i ) Qn = = . λ := 1 n max(p̂1 ,...,p̂n )∈P1 { i=1 p̂i } 1 + η̂n g(ε̂i ) (n) i=1 Uns interessiert −2 log λ, also −2 log n Y i=1 n X 1 =2 log(1 + η̂n g(ε̂i )) =: Ŵn . 1 + η̂n g(ε̂i ) i=1 Die Empirical-Likelihood-Ratio-Teststatistik ist damit Ŵn . Nach Konstruktion des Likelihood-Ratio-Tests gilt 0 ≤ λ ≤ 1, denn die Menge P2 stellt eine Teilmenge von P1 dar. Damit ist log λ ≤ 0 und nach Konstruktion die Teststatistik Ŵn ≥ 0. Wenn H0 gilt, erwarten wir, dass λ nahe bei 1 liegt, bzw. wir erwarten, dass Ŵn nahe bei Null liegt. Wir wollen die Hypothese verwerfen, wenn die Teststatistik Ŵn einen geeigneten kritischen Wert übersteigt. Aus Qin und Lawless (1994) Corollary 4 ist bekannt, dass unter den Annahmen aus Theorem P 1 der gleichen Arbeit für die entsprechende Teststatistik Wn := 2 ni=1 log(1 + ηnT g(εi )) für beobachtbare i.i.d. Daten ε1 , . . . , εn unter H0 : IE[g(ε)] = 0 Verteilungskonvergenz gegen χ2k gilt, wobei k die Dimension von g und der χ2 −Verteilung angibt. Ziel dieses Abschnittes ist es, eine entsprechende Aussage zur Verteilungskonvergenz für Ŵn zu zeigen. Wir betrachten die Teststatistik unter den Szenarien H0 und Hl.a. . In der verwandten Literatur wird für ähnliche Likelihood-Quotienten-Teststatistiken generell das Verhalten unter 116 Kapitel 6. Testverfahren H0 und nur in manchen Arbeiten unter Hl.a. untersucht, dort fehlt die Betrachtung unter Hf.a. . Mit den gewonnenen Resultaten scheint das Verhalten der Teststatistik unter Hf.a. nicht kontrollierbar zu sein. Wir können Konsistenz für den ersten und dritten Test zeigen, vgl. Abschnitte 6.2 und 6.4. Satz 6.10. Es gelten die Voraussetzungen aus Satz 3.12, dabei sei insbesondere die Annahme (A) von S. 19 für gH0 und r(ε) − IE[r(ε)] erfüllt, und es gilt (H1). n Dann gilt unter H0 die schwache Konvergenz von Ŵ gegen eine χ21 −verteilte Zufallsvariable, σ12 wobei n 1X (g(εj ) − εj IE[g1′ (ε)]) Bn1 := n j=1 √ mit σ12 = Var( nBn1 Σ−1/2 ) gilt. n gegen eine χ21 (δ22 )−verteilte Zufallsvariable, Unter Hl.a. gilt die schwache Konvergenz von Ŵ σ12 wobei δ22 = µ22 (σ12 )−1 gilt mit 1 Bn2 := Bn1 + √ IE[r(ε1 )], n √ µ2n = IE[ nBn2 Σ−1/2 ] = IE[r(ε1 )]Σ−1/2 und mit σ12 aus der Behauptung unter H0 . Beweis zu Satz 6.10. Wir zeigen zunächst die Konvergenz unter H0 . Mit Taylorentwicklung für log(1 + x) mit x = η̂n g(ε̂i ) 6= −1, mit der Abschätzung des Restterms durch die Ordnung |η̂n | = OP ( √1n ) nach Lemma 3.8(i), und danach mit den Entwicklungen für η̂n aus Lemma 3.10 P und n1 ni=1 g 2 (ε̂i ) aus Lemma 3.5(v) gilt n 1 X 1 η̂n g(ε̂i ) − (η̂n g(ε̂i ))2 + OP √ 2 n i=1 n n n n 2 X X X X −1 1 −1 1 = 2Σ g(ε̂j ) g(ε̂j ) g 2 (ε̂i ) + oP (1) g(ε̂i ) − Σ n j=1 n j=1 i=1 i=1 Ŵn = 2 n n 2 X 1X −1 1 g(ε̂j ) g(ε̂i ) − n Σ g(ε̂j ) Σ + oP (1) n j=1 n i=1 n j=1 −1 1 = 2nΣ n X n 1X g(ε̂j ) g(ε̂i ) + oP (1). n j=1 n i=1 −1 1 = nΣ n X Die letzte Gleichheit gilt, weil durch das Verrechnen der verschiedenen Σ−Terme im zweiten Summanden sich erster und zweiter Summand bis auf einen Fehler der angegebenen Rate nur noch durch den Vorfaktor unterscheiden. P Wir erhalten weiter mit der Entwicklung von n1 ni=1 g(ε̂i ) aus Lemma 3.5(ii) unter Hinzunahme von (H1) n 2 1 X 2 (g(εj ) − εj IE[g1′ (ε)]) Σ−1 + oP (1) = nBn1 Σ−1 + oP (1) (6.20) Ŵn = n n j=1 mit Bn1 aus der Behauptung und mit √ σ12 = Var( nBn1 Σ−1/2 ) = Σ−1 IE[(g(ε1 ) − ε1 IE[g ′ (ε1 )])2 ]. 6.4 Drittes Testverfahren 117 √ Daher ist Z := nBn1 Σ−1/2 asymptotisch normalverteilt mit Erwartungswert Null und obiger Varianz σ12 . Wir interessieren uns für die Grenzverteilung von Ŵn bzw. den führenden Term Z 2 . Nach Witting (1995), Satz 5.125, Seite 133 gilt für eine Zufallsvariable Z, die asymptotisch N (µ, σ 2 )verteilt ist, die Konvergenz von ( Zσ )2 gegen eine ξ12 (δ 2 )-verteilte Zufallsvariable Z0 , wobei δ 2 = µ2 (σ 2 )−1 den Nichtzentralitätsparameter bezeichnet. Im Spezialfall µ = 0 gilt die Verteilungskonvergenz von ( Zσ )2 gegen eine χ21 -verteilte Zufallsvariable Z0 . Hier ist der Nichtzentralitätsparameter gerade Null. Im Fall lokaler Alternativen erfolgen die Entwicklungen von Ŵn wie in der Rechnung unter P H0 bis vor der Verwendung der Entwicklung von n1 ni=1 g(ε̂i ) in (6.20). Dort ergibt sich, wie in Lemma 6.7 gezeigt worden ist, eine andere Entwicklung für diesen Term, so dass Bn2 sich um einen Biasterm von Bn1 unterscheidet und so die Veränderung von der χ2 −Verteilung als Grenze zu einer χ2 (δ22 )−Verteilung mit Nichtzentralitätsparameter δ22 als Grenze zustande kommt. Die Konvergenz mit dem hinzugekommenen Nichtzentralitätsparameter folgt nach den oben genannten Resultaten ansonsten analog. 6.4 Drittes Testverfahren Als dritte Möglichkeit untersuchen wir das Verhalten von n 1X g(ε̂i ) Tn = n i=1 unter H0 , Hl.a. und Hf.a. . Die Hypothese wird im Sinne eines zweiseitigen Tests abgelehnt, wenn die Teststatistik Tn in einen Verwerfungsbereich der Form (−∞, −c α2 )∪(c α2 , ∞) fällt, mit einem (1 − α2 )−Quantil c α2 zu einer geeigneten symmetrischen asymptotischen Verteilung unter H0 . Satz 6.11. Es gelte (M1), (M2), (M3), (K), (H) und Modell (1.14) aus Abschnitt 1.5, (S1) und (S2) aus Abschnitt 2.2 und Annahme (H1) von S. 105. Annahme (A) von S. 19 gelte bezogen auf gH0 und auf r(ε) − IE[r(ε1 )]. Die Funktion g entspreche den Annahmen (G1) und (G2) P aus Abschnitt 3.2. Unter H0 gilt die Entwicklung für n1 ni=1 gH0 (ε̂i ) aus Lemma 3.5(ii) unter Beachtung von (H1) und die Verteilungskonvergenz von n √ 1X n gH0 (ε̂i ) n i=1 gegen eine zentrierte normalverteilte Zufallsvariable mit Varianz σ12 := IE h ′ gH0 (ε1 ) − IE[gH0 (ε1 )]ε1 2 i . 118 Kapitel 6. Testverfahren Unter Hl.a. gilt die Entwicklung für die Konvergenz von 1 n Pn i=1 g(ε̂i ) aus Lemma 6.7 unter Beachtung von (H1) und n √ 1 X n g(ε̂i ) − µ2 n i=1 gegen eine zentrierte normalverteilte Zufallsvariable mit demselben Varianzterm σ12 wie unter H0 und dem Bias µ2 := √1n IE[r(ε1 )]. P Unter Hf.a. gilt stochastische Konvergenz von n1 ni=1 g(ε̂i ) gegen eine von Null verschiedene Konstante. Beweis zu Satz 6.11. Die beiden Entwicklungen haben wir bereits in Lemma 6.7 und Lemma 3.5(ii) gezeigt und die Biasterme gemäß (H1) angepasst. Die asymptotische Normalität folgt unter H0 wie unter Hl.a. aus dem Zentralen Grenzwertsatz, weil wir durch die Entwicklungen eine geeignet normierte Summe von i.i.d. Zufallsvariablen innerhalb einer deterministischen Funktion betrachten. P P Unter Hf.a. gilt die Zerlegung n1 ni=1 (gH0 (ε̂i ) + r(ε̂i )) und für n1 ni=1 gH0 (ε̂i ) die in Lemma P 3.5(ii) angegebene Entwicklung unter Berücksichtigung von (H1). Der Term n1 ni=1 r(ε̂i ) kann nach Zentrierung mit IE[r(ε1 )] ebenfalls mit Lemma 3.5(ii) unter Berücksichtigung von (H1) entwickelt werden, n n 1X 1X r(ε̂i ) = (r(ε̂i ) − IE[r(ε1 )]) + IE[r(ε1 )] n i=1 n i=1 n 1 1X (r(εi ) − IE[r(ε1 )] − εi IE[r′ (ε1 )]) + IE[r(ε1 )] + oP √ = n i=1 n n 1 1X ′ = (r(εi ) − εi IE[r (ε1 )]) + oP √ . n i=1 n P Dabei konvergiert n1 ni=1 r(εi ) nach dem Starken Gesetz der Großen Zahlen fast sicher und damit stochastisch gegen IE[r(ε1 )] = c 6= 0. Im Fall von H0 und Hl.a. ergab der entsprechende Grenzwert zum führenden Term Null. Auf diese Weise folgt Konsistenz gegen feste Alternativen. Symbolverzeichnis Symbol Bedeutung Seite X, Y Zufallsvariablen 1 (Ω, A, IP) Wahrscheinlichkeitsraum 1 f, F Dichte, zugehörige Verteilungsfunktion 2, 2 (Xn )n∈IN , (Yn )n∈IN Folgen von Zufallsvariablen 2 Xn → X IP Xn → X fast sichere Konvergenz 2 IP−stochastische Konvergenz 2 o(·), O(·) Landausche Symbole für reelle Zahlenfolgen 2 oP (·), OP (·) stochastische Konvergenz und Beschränktheit 2 Fn empirische Verteilungsfunktion 3 Gn uniforme empirische Verteilungsfunktion 3 (X(·, t))t∈T stochastischer Prozess mit Indexmenge T 4 B0 Brownsche Brücke 4 (IR, B) Messraum im Fall reellwertiger Zufallsvariablen ¯ cadlag-Raum auf [0, 1] bzw. auf IR 4 4, 6 αn , αnF uniformer empirischer, empirischer Prozess 5, 6 kf k Supremumsnorm zu f 5 Pn empirisches Maß 8 kϕkP,r Lr (P )-Norm zu ϕ 9 VC-Index zu einer Menge C von Mengen 12 Cδ1+α [0, 1] bestimmte Funktionenklasse 13 fX , fˆX Designdichte, Kerndichteschätzer zu fX 14 K Kernfunktion 14, 17 Xi ite Designvariable (i = 1, . . . , n) 15 Yi ite Zielgrößenvariable (i = 1, . . . , n) 15 εi ite Fehlervariable (i = 1, . . . , n) 15 m Regressionsfunktion 15 n Stichprobengröße 15 f.s. D([0, 1]), D([−∞, ∞]) V (C) 119 120 Symbol Bedeutung Seite ε̂i ites Residuum zu Modell (1.14) bzw. (1.18) 16, 18 m̂ Nadaraya-Watson-Schätzer für m 16 F̂n Empirische Verteilungsfunktion bzgl. Residuen 17 h Bandbreite 17 Fehlervarianz, Varianzfunktion 16, 17 σ̂ 2 Schätzer zur Varianzfunktion 18 g bekannte Funktion zur Nebeninformation 19 J Zielfunktion 20 σ 2 b, B; b1 ; b̄ Bias, Faktor im Bias; Bias; Biasterme R µK Kurznotation für K(u)u2 du 2 21; 30; 61, 64, 82, 84 21 G; Ḡ zentrierte Gaußprozesse als Grenzprozesse 21; 61, 82 F̃n ; Fn∗ Empirical-Likelihood-Schätzer 39, 42; 45 L, l Likelihood, Loglikelihood 39, 40 p1 , . . . , pn Gewichte 39 Bn Menge zugelassener Gewichte p1 , . . . , pn 40 ηn , λn Lagrange-Multiplikatoren 41 Dk Menge, in der ηn liegt 42 p̂1 , . . . , p̂n Gewichte bzgl. Residuen 43 B̂n Menge zugelassener Gewichte p̂1 , . . . , p̂n 43 F̄n Empirical-Likelihood-Schätzer bzgl. Residuen 43 η̂n Lagrange-Multiplikator bzgl. Residuen 43 D̂k Menge, in der η̂n liegt 44 Σ Kovarianzmatrix 44 U (y) 59 hj , kj IE[g(ε1 )I{ε1 ≤ y}] Hilfsfunktionen 66, 86 β1 , β2 Biasterme 80 mse, mse mittlerer quadratischer Fehler 91, 92 MISE mittlerer integrierter quadratischer Fehler 102 c Konstante zur Wahl der Bandbreite 102 SKS Kolmogorov-Smirnov-Teststatistik 106 SCvM Cramér-von-Mises-Teststatistik 106 H0 , H1 (Null)hypothese, Alternative 106 Hl.a. , Hf.a lokale Alternative, feste Alternative 106, 107 Ŵn , Tn 115, 117 Teststatistiken Literaturverzeichnis M. Akritas, I. Van Keilegom (2001). Nonparametric estimation of the residual distribution. Scand. J. Statist. 28, 549–567. H. Bonnal, E. Renault (2004). On the Efficient Use of the Informational Content of Estimating Equations: Implied Probabilities and Euclidean Empirical Likelihood. Technical report. http://ideas.repec.org/p/cir/cirwor/2004s-18.html F. Cheng (2002). Consistency of error density and distribution function estimators in nonparametric regression. Statist. Probab. Lett. 59, 257–270. F. Cheng (2004). Weak and strong uniform consistency of a kernel error density estimator in nonparametric regression. J. Statist. Plann. Inf. 119, 95–107. F. Cheng (2005). Asymptotic distributions of error density and distribution function estimators in nonparametric regression. J. Statist. Plann. Inf. 129, 327–349. H. Dette, I. Van Keilegom (2005). A new test for the parametric form of the variance function in nonparametric regression. Technical report. http://www.rub.de/mathematik3/preprint.htm M. D. Donsker (1952). Justification and extension of Doob’s heuristic approach to the Kolmogorov–Smirnov theorems. Ann. Math. Statist. 23, 277–281. T. DiCiccio, J. P. Romano (1989). On adjustments based on the signed root of the empirical likelihood ratio statistic. Biometrika 76, 447–456. T. DiCiccio, P. Hall, J.P. Romano (1989). Comparison of parametric and empirical likelihood functions. Biometrika 76, 465–476. T. DiCiccio, P. Hall, J.P. Romano (1991). Empirical likelihood is Bartlett-correctable. Annals of Statistics 19, 1053–1061. J.H.J. Einmahl, I.W. McKeague (2003). Empirical likelihood based hypothesis testing. Bernoulli 9, 267–290. S. Evromovich (2005). Estimation of the density of regression errors. Ann. Statist. 33, No. 5, 2194 – 2227. M. Ezekiel (1930). Methods of Correlation Analysis. Wiley. J. Fan, I. Gijbels (1996). Local Polynomial Modelling and Its Applications. Chapman & Hall, London. 121 122 M. Genz (2004). Anwendungen des Empirischen Likelihood-Schätzers der Fehlerverteilung in AR(1)-Prozessen. Dissertation, Justus-Liebig-Universität Gießen. http://geb.uni-giessen.de/geb/volltexte/2005/2069/pdf/GenzMichael-2004-1203.pdf M. Genz, E. Häusler (2006). Empirical processes with estimated parameters under auxiliary information. J. Comput. Appl. Math. 183, 191 – 216. W. Härdle (1990). Applied nonparametric regression. Cambridge Univ. Press. W. Härdle, M. Müller, S. Sperlich, A. Werwatz (2004). Nonparametric and semiparametric models. Springer, Berlin. P. Hall, B. LaScala (1990). Methodology and algorithms of empirical likelihood. Internat. Statist. Rev. 58, 109–127. P. Hall (1990). Pseudo-likelihood Theory for Empirical Likelihood. Ann. Statist. 18, 121– 140. E. Hewitt und K. Stromberg (1969). Real and Abstract Analysis. Springer Verlag, New York. 2. korrigierter Druck. Y. Kitamura (1997). Empirical Likelihood Methods with weakly dependent processes. Ann. Statist. 25, 2084–2102. Y. Kitamura (2001). Asymptotic optimality of empirical likelihood for testing moment restrictions. Econometrica 69, 1661–1672. Y. Kitamura, G. Tripathi, H. Ahn (2004). Empirical likelihood-based inference in conditional moment restriction models. Econometrica 72, 1667–1714. H. L. Koul (2002). Weighted Empirical Processes in Dynamic Nonlinear Models, 2. Auflage. Springer, New York. U. Müller, A. Schick, W. Wefelmeyer (2004a). Estimating linear functionals of the error distribution in nonparametric regression. J. Statist. Planning Inf. 119, 75–93. U. Müller, A. Schick, W. Wefelmeyer (2004b). Estimating functionals of the error distribution in parametric and nonparametric regression. J. Nonparam. Statist. 16, 525–548. U. Müller, A. Schick, W. Wefelmeyer (2004c). Estimating the error distribution function in nonparametric regression. Technical report, http://www.mi.uni-koeln.de/∼wefelm/preprints.html U. Müller, A. Schick, W. Wefelmeyer (2006). Estimating the error distribution function in semiparametric regression. Preprint, http://www.stat.tamu.edu/∼uschi/research/research.html É. A. Nadaraya (1964). On nonparametric estimates of density functions and regression curves. J. Probab. Appl. 10, 186–190. 123 E.-R. Nagel (2002). Der Empirical-Likelihood-Schätzer für die Fehlerverteilung im linearen Regressionsmodell. Diplomarbeit, Betreuer: E. Häusler, Justus-Liebig-Universität Gießen. N. Neumeyer, H. Dette (2003). Nonparametric comparison of regression curves: an empirical process approach. Ann. Stat. 31, Nr. 3, S. 880–920. N. Neumeyer, H. Dette (2004). Testing for symmetric error distribution in nonparametric regression errors. Statistica Sinica, angenommen. http://www.rub.de/mathematik3/preprint.htm N. Neumeyer, H. Dette (2005). A note on one-sided nonparametric analysis of covariance by ranking residuals. Math. Methods Statist. 14, 80–104. A. B. Owen (1988). Empirical Likelihood ratio confidence intervals for a single functional. Biometrika 75, 2, 237–249. A. B. Owen (2001). Empirical Likelihood. Chapman & Hall/CRC. J. C. Pardo-Fernández, I. Van Keilegom, W. González-Manteiga (2004). Comparison of regression curves based on the estimation of the error distribution. Discussion Paper 0416. Institut de Statistique (Université catholique de Louvain), Louvain-la-Neuve. J. C. Pardo-Fernández (2006). Comparison of error distributions in nonparametric regression. Statist. Probab. Lett., angenommen. E. Parzen (1962). On estimation of a probability density function and mode. Ann. Math. Statist. 35, 1065–1076. D. Pollard (1984). Convergence of Stochastic Processes. Springer Verlag, New York. W. Press, S. A. Teukolsky, W. T. Vetterling, B. P. Flannery (2002). Numerical Recipes in C++, The Art of Scientific Computing. Cambridge University Press, 2. Ausgabe. J. Qin, J. Lawless (1994). Empirical likelihood and general estimating equations. Ann. Statist. 22, 300–325. G. Qin (1996). Consistent Residuals Density Estimation in Nonparametric Regression Under m(n)-Dependent Sample. J. Math. Res. Exposition 16, 1996, No 4, 5005–516. G. Qin, S. Shi, G. Chai (1996). Asymptotics of the residual density estimation in nonparametric regression under m(n)-dependence. Appl. Math. J. Chinese Univ. Ser. B 11, 1996, No 1, 59–76. M. Rosenblatt (1956). Remarks on a some nonparametric estimates of a density function. Ann. Statist. 27, 832–837. G. R. Shorack, J. A. Wellner (1986). Empirical processes with applications to statistics. Wiley, New York. 124 G. R. Shorack (2000). Probability for statisticians. Springer texts in statistics. Springer Verlag, New York. A. W. Van der Vaart (1998). Asymptotic Statistics. Cambridge University Press, Cambridge. A. W. Van der Vaart, J. A. Wellner (1996). Weak convergence and empirical processes. Springer, New York. I. Van Keilegom, W. González–Manteiga, C. Sánchez Sellero (2004). Goodnessof-fit tests in parametric regression based on estimation the error distribution. Preprint. Institut de Statistique (Université catholique de Louvain), Louvain-la-Neuve. V. N. Vapnik, A. Ya. C̆ervonenkis (1971). On uniform convergence of the frequencies of events to their probabilities. Th. Prob. Appl. 16, 264–280. V. N. Vapnik, A. Ya. C̆ervonenkis (1981). Necessary and sufficient conditions for the uniform convergence of means to their expectations. Th. Prob. Appl. 26, 532–533. M. P. Wand, M. C. Jones (1995). Kernel Smoothing. Chapman & Hall, London. G. S. Watson (1964). Smooth Regression Analysis. Sankhya A 26, 359–372. H. Witting (1995). Mathematische Statistik II. B. G. Teubner, Stuttgart. B. Zhang (1997). Estimating a distribution function in the presence of auxiliary information. Metrika 46, 221–244. Danksagung Mein erster Dank gilt Frau Jun.-Prof. Dr. Natalie Neumeyer für ihre ausgezeichnete fachliche Betreuung bei der Entstehung dieser Arbeit. Herrn Prof. Dr. Holger Dette danke ich für wichtige Anregungen und seine stetige Unterstützung. Außerdem möchte ich mich bei meinen Kolleginnen und Kollegen für ihre Hilfsbereitschaft bedanken. Nicht zuletzt geht mein Dank für ihre Unterstützung an meine Familie, meinen Freund und meine Freunde in und außerhalb von Bochum. 125 126 Dissertation eingereicht am 21. November 2006 Gutachter: Prof. Dr. H. Dette (Ruhr-Universität Bochum) Jun.-Prof. Dr. N. Neumeyer (Universität Hamburg) Mündliche Prüfung am 31. Januar 2007 Lebenslauf Persönliche Daten Name Eva-Renate Nagel Geburtsdatum 08.10.1977 Geburtsort Lich Ausbildung 1983 - 1987 Theodor-Heuss-Grundschule Laubach 1987 - 1993 Gesamtschule Laubach, gymnasialer Zweig 1993 - 1996 Laubach-Kolleg der EKHN, gymnasiale Oberstufe 13.06.1996 Abitur 1996 - 2002 Diplomstudiengang Mathematik an der Justus-LiebigUniversität Gießen Feb. - August 1999 Studienaufenthalt an der Università degli Studi La Sapienza, Rom 20.12.2002 Diplom in Mathematik Beschäftigung Feb. 2003 - März 2006, Wissenschaftliche Mitarbeiterin an der Fakultät für seit Oktober 2006 Mathematik, Ruhr-Universität Bochum April - Sep. 2006 Stipendiatin der Wilhelm und Günter Esser Stiftung 127