Blockwise Bootstrap for the estimated empirical process based on

Werbung
Blockwise Bootstrap for the
estimated empirical process
based on weakly dependent
observations
Barbara Wieczorek
Institut für Stochastik
Friedrich-Schiller-Universität Jena
9. August 2010
Inhaltsverzeichnis
1 Einführung
4
2 Grenzverteilung des geschätzten empirischen Prozesses
8
3 Beweis der Verteilungskonvergenz des Originalprozesses
11
3.1
Messbarkeit des geschätzten empirischen Prozesses . . . . . . . . .
11
3.2
Darstellung des geschätzten empirischen Prozesses . . . . . . . . .
11
3.3
Konvergenz der endlichdimensionalen Verteilungen . . . . . . . . .
13
3.4
Gleichgradige Stetigkeit in Wahrscheinlichkeit von Wn auf einem
Gitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5
26
Approximierbarkeit des Grenzprozesses auf einem Gitter und Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
4 Imitation des Originalprozesses durch einen Bootstrap-Prozess
37
5 Konvergenz des Bootstrap-Prozesses gegen Gaußprozess
38
5.1
Darstellung des Bootstrap-Prozesses . . . . . . . . . . . . . . . . .
5.2
Konvergenz der endlichdimensionalen Verteilungen des BootstrapProzesses
5.2.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
Konvergenz der Kovarianzen gegen die Kovarianzen des
Originalprozesses . . . . . . . . . . . . . . . . . . . . . . .
5.2.2
40
42
Anwendung des zentralen Grenzwertsatzes für Dreiecksschemata auf die endlichdimensionalen Verteilungen des
zentrierten Bootstrap-Prozesses W̃n∗ . . . . . . . . . . . . .
5.3
Stochastische Equicontinuität des Bootstrap-Prozesses
. . . . . .
5.4
Konvergenz der Varianz der Zuwächse des Bootstrap-Prozesses gegen die Varianz der Zuwächse des Originalprozesses . . . . . . . .
σ̂n2
gegen σ
2
5.4.1
Punktweise Konvergenz von
. . . . . . . . . .
5.4.2
gleichmäßige Konvergenz des stochastischen Anteils in s
und t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5
48
52
53
56
62
Beschränkung der Wahrscheinlichkeit für Zuwächse des BootstrapProzesses zwischen zwei festen Punkten . . . . . . . . . . . . . . .
70
6 Anwendung auf Teststatistiken und Konsistenz des Bootstrap-Verfahrens 76
2
6.1
6.2
Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
6.1.1
Kolmogorov-Smirnov-Test . . . . . . . . . . . . . . . . . .
77
6.1.2
Arithmetisches Mittel als Parameterschätzer . . . . . . . .
78
Lokale Alternativen . . . . . . . . . . . . . . . . . . . . . . . . . .
80
7 Anhang
80
7.1
Darstellung für quadratisches Risiko von σ̂n2 (s, t) . . . . . . . . . .
82
7.2
Bzgl. glm. Konvergenz: Abschätzung vierter Momente . . . . . . .
83
3
1 Einführung
Bei der Analyse von Zeitreihendaten ist es oft von Interesse zu überprüfen, ob
den beobachteten Daten eine bestimmte stationäre Verteilung zugrundeliegt. Dies
kann mittels Hypothesentests erfolgen, bei denen in einem bestimmten Sinn die
empirische Verteilungsfunktion der Beobachtungen X1 , ..., Xn und die theoretisch
angenommene verglichen werden.
Oftmals wird aber nicht eine konkrete Verteilungsfunktion F spezifiziert, vielmehr ist die Hypothese von Interesse, dass F einer bestimmten Familie F von
Verteilungen angehört.
Um allerdings dennoch die empirische Verteilungsfunktion der Beobachtungen
mit einer geeigneten Funktion vergleichen zu können, werden Komponenten, die
in der Beschreibung der vermuteten Familie auftreten, anhand der Beobachtungen geschätzt und die so gewonnene Verteilungsfunktion, bezeichnet mit Fest , für
den Vergleich herangezogen.
Hierzu wird der sogenannte geschätzte empirische Prozess definiert
Definition 1 Der auf einem Wahrscheinlichkeitsraum (Ω, A, P) definierte stochastische Prozess (Wn (x))x∈R mit
Wn (x) =
n
√ 1 X
1Xt ≤x − Fest (x)
n
n t=1
heißt geschätzter empirischer Prozess.
Wn (x) wird als ein Element des Raumes D = D(R̄), (cadlag-Funktionen auf R̄)
betrachtet, ausgestattet mit der Supremumsnorm und der σ-Algebra P, welche
durch die endlichdimensionalen Projektionen πSn : D → Rn erzeugt wird.
Im folgenden wird angenommen, dass es sich bei F um eine parametrische Familie
von Verteilungsfunktionen handelt, wobei der Parameter θ p−dimensional sei. Die
Nullhypothese lautet folgendermaßen
H0 : F ∈ F := {Fθ : θ ∈ Θ ⊆ Rp }
Die Schätzung der Verteilungsfunktion erfolgt nun über die Schätzung des Parameters θ durch den Schätzer θ̂n , und der geschätzte empirische Prozess stellt sich
im weiteren Verlauf folgendermaßen dar:
√
Wn (x) = n(Fn (x) − Fθ̂n (x))
4
Um zu überprüfen, ob den beobachteten Daten tatsächlich eine Verteilung aus der
angenommenen Familie zugrundeliegt, werden häufig Teststatistiken angewendet,
die auf dem geschätzten empirischen Prozess beruhen. Diese sind messbare Abbildungen von (D, P) nach (R, B(R)).
Konvergiert der Prozess Wn für n → ∞ in Verteilung gegen einen Prozess mit
Pfaden in einem separablen Teilraum von D, und sind die Teststatistiken stetige
Funktionale, so kann aus der Grenzverteilung von Wn mit Hilfe des Continuous
Mapping Theorem die Grenzverteilung der verwendeten Teststatistiken abgeleitet werden. Somit können asymptotische Konfidenzintervalle für die Werte der
entsprechenden Teststatistiken konstruiert werden.
Häufig verwendete Tests hierbei sind etwa der Kolmogorov-Smirnov-Test, der auf
der Supremumsnorm des Prozesses Wn beruht oder der Cramér-von-Mises-Test,
der als Teststatistik die L2 -Abweichung unter H0 besitzt.
Diese Teststatistiken hängen in der vorliegenden Situation von der zugrundeliegenden Verteilungsfunktion ab und somit können auf direktem Wege keine
asymptotisch gültigen kritischen Werte zum Testen der Nullhypothese gewonnen
werden.
Um dennoch zu kritischen Werten für die verwendete Teststatistik zu gelangen,
kann der geschätzte Empirische Prozess auf Grundlage der beobachteten Daten
durch ein geeignetes Bootstrap-Verfahren imitiert werden. Die Parameter der
Verteilungen der Teststatistiken, die auf dem Bootstrap-Prozess beruhen, sind
dann bekannt, und für die Bootstrap-Statistik können kritische Werde ermittelt
werden. Dies kann erfolgen durch analytische Berechnung der Verteilung oder,
für den Fall, dass dies nicht praktikabel ist, durch Approximation der Verteilung
der Teststatistik durch wiederholtes Simulieren unter Nutzung der beobachteten
Daten. Ziel ist nun zu zeigen, dass mit einem geeigneten Bootstrap-Verfahren,
welches den Originalprozess gut imitiert, die Anwendung des kritischen Wertes
der Bootstrap-Statistik auf die Originalstatistik asymptotisch (in Wahrscheinlichkeit) zu einem Niveau-α-Test führt.
Zur Nachbildung des Originalprozesses durch einen Bootstrap-Prozess ist es naheliegend, die durch die Schätzung der Parameter der vermuteten Verteilungsfunktion gewonnene Information zur Generierung der Bootstrap-Stichprobe zu
verwenden.
5
Für den Fall unabhängig und identisch verteilter Zufallsgrößen wurde dies von
[11] betrachtet. Dort wird davon ausgegangen, dass die vermutete Verteilungsfamilie von einem endlichdimensionalen Parameter θ abhängt, so dass durch dessen Schätzung unabhängige Zufallsgrößen mit Verteilungsfunktion Fθ̂n generiert
werden können. Es konnte gezeigt werden, dass Originalprozess und BootstrapProzess fast sicher die gleiche Grenzverteilung besitzen.
In [1] wurde unter ähnlichen Voraussetzungen zusätzlich ein nichtparametrisches
Bootstrap-Verfahren angewendet. Der hierbei entstehende geschätzte empirische
Prozess ist allerdings einen zusätzlichen Bias-Term auf. Durch Einführung einer
Biaskorrektur kann allerdings gezeigt werden, dass der um die Biaskorrektur veränderte Prozess dieselbe Grenzverteilung wie der Originalprozess besitzt.
Liegen keine unabhängigen Beobachtungen vor, so soll durch das verwendete
Bootstrap-Verfahren auch die Abhängigkeitsstruktur des Prozesses geeignet nachgebildet werden, weswegen die Generierung einer Bootstrap-Stichprobe mit zugrundeliegender Verteilungsfunktion Fθ̂n so nicht auf den abhängigen Fall übertragen werden kann.
Auch die Verwendung eines modellbasierten Bootstrap unter der Annahme eines
bestimmten Zeitreihenmodells ist problematisch, da die Eigenschaften der stationären Verteilung im allgemeinen Fall nicht hinreichend greifbar sind, ebenso wie
Effekte, die durch das Schätzen von Innovationen zutage treten.
Um diese beim modellbasierten Bootstrap zutage tretenden Probleme zu umgehen, wurde in der vorliegenden Arbeit stattdessen ein Blockbootstrap-Verfahren
angewendet. Hierbei werden aus den Beobachtungen X1 , ..., Xn k := kn unabhängige Blöcke gezogen, die jeweils die Länge l := ln besitzen.
Ähnlich wie in [3] bei der Verwendung des nichtparametrischen Bootstrap für
unabhängige Beobachtungen, tritt beim entstehenden geschätzten emprischen
Prozess, welcher auf der Bootstrap-Stichprobe beruht, ein zusätzlicher Biasterm
auf. Daher wird hier in analoger Weise wie in [3] eine Bias-Korrektur vorgenommen und gezeigt, dass der so modifizierte Prozess in Wahrscheinlichkeit dieselbe
Grenzverteilung wie der Originalprozess besitzt. Im nächsten Abschnitt wird konkretisiert werden, welche Voraussetzungen der zugrundeliegende Prozess und der
Parameterschätzer erfüllen müssen, um zunächst zur Grenzverteilung der Folge
von Originalprozessen Wn zu gelangen. Für den Fall unabhängiger Beobachtungen
wurde in [4] die Verteilungskonvergenz des geschätzten empirischen Prozesses ge-
6
gen einen zentrierten Gaußprozess nachgewiesen. Bei vorliegen stark mischender
Daten wurde in [10] ebenfalls die Verteilungskonvergenz gegen einen zentrierten
Gaußprozess gezeigt. Was die Konvergenz des Bootstrap-Prozesses belangt, so
wurde der geschätzte empirische Prozess bisher unter Unabhängigkeit der zugrundeliegenden Daten betrachtet. ([11], [1]). Allerdings wurde von [3] ein Bootstrapverfahren für allgemeine funktionenindizierte empirische Prozesse unter der
Voraussetzung stark mischender Zufallsgrößen betrachtet. Genutzt wurde hierfür
ein Blockbootstrapverfahren, wie in [6] für stationäre Beobachtungen vorgeschlagen. Es wurde gezeigt, dass der auf den Bootstrap-Beobachtungen basierende
Prozess fast sicher in Verteilung gegen denselben Grenzprozess konvergiert wie
der Originalprozess.
In der aktuellen Arbeit wird die Konsistenz eines Blockbootstrap-Verfahren wie in
[3] für den geschätzten empirischen Prozess unter der Voraussetzung von schwach
abhängigen Beobachtungen, im Sinne von [5] gezeigt. Das genutzte Abhängigkeitskonzept ist allgemeiner als das Mixing-Konzept. Da gewisse Prozessklassen
wie etwa innovationsgesteuerte Prozesse, deren Innovationen eine diskrete Verteilung besitzen, nicht mischend sind, wird das von Doukhan und Louhichi in
eingeführte Konzept der schwachen Abhängigkeit (weak dependence) eingesetzt,
welches auch eben genannte Prozessklassen sowie die mischenden Prozesse abdeckt.
Im Folgenden wird vorausgesetzt, dass die Beobachtungen X1 , ..., Xn schwach
abhängig sind in dem Sinne, dass die Kovarianzen gewisser Funktionen über Teilvektoren aus dem zugrundeliegenden Prozess in einem bestimmten Sinne gegen
Null konvergieren, falls die dazwischenliegende Zeitlücke groß wird. Dieses Konzept der schwachen Abhängigkeit im Sinne von Doukhan und Louhichi lautet in
seiner allgemeinen Form folgendermaßen:
Definition 2 Die Folge (Xn )n∈N von Zufallsvariablen heißt (ζ, F, ψ)-schwach
abhängig, falls eine Klasse F reellwertiger Funktionen, eine Nullfolge ζ = (ζr )r∈N
und eine Funktion ψ mit Argumenten (h, k, u, v) ∈ F 2 ×N2 existieren, so dass für
jedes u-Tupel (i1 , ..., iu ) und jedes v-Tupel (j1 , ..., jv ) mit i1 ≤ ... ≤ iu < iu + r ≤
j1 ≤ ... ≤ jv gilt
| cov(h(Xi1 , ..., Xiu ), k(Xj1 , ..., Xjv ))| ≤ ψ(h, k, u, v) · ζr
für alle Funktionen h, k ∈ F, die auf Ru bzw. Rv definiert sind.
7
Um nun die Verteilungskonvergenz des geschätzten empirischen Prozesses nachzuweisen, wird nun zunächst formuliert, unter welchen Voraussetzungen an die
schwache Abhängigkeit der Beobachtungen und an den Parameterschätzer θ̂n die
Konvergenz des geschätzten empirischen Prozesses gegen einen zentrierten Gaußprozess gilt.
2 Grenzverteilung des geschätzten empirischen
Prozesses
Um die Verteilungskonkvergenz des geschätzten empirischen Prozesses unter noch
zu konkretisierenden Bedingungen nachzuweisen, wird zunächst die Konvergenz
der endlichdimensionalen Verteilungen und anschließend die stochastische Equicontinuität des Prozesses gezeigt.
Des weiteren wird nachgewiesen, dass die Pfade der Grenzvereilung mit Wahrscheinlichkeit 1 stetig sind, sich also in einem separablen Teilraum von D befinden. Dies ist insofern wichtig, als dann ebenfalls die Verteilungskonvergenz von
Funktionalen, welche auf diesem Teilraum stetig sind, gefolgert werden kann.
Für den Beweis der der Konvergenz der endlichdimensionalen Verteilungen ist der
folgende zentrale Grenzwertsatz aus [8] (Theorem 6.1) von Bedeutung, welcher im
Falle des Originalprozesses für eine Folge von Zufallsvariablen angewendet wird.
8
Theorem 1 Sei (Xn,k )k=1,...,n , n ∈ N, ein Dreiecksschema von zeilenweise unab2
≤ C < ∞. Außerdem gelte
hängigen Zufallsvariablen mit EXn,k = 0 und EXn,k
für alle ε > 0
n
√
1X
n→∞
2
EXn,k
I(|Xn,k |/ n > ε) → 0
n k=1
und
n→∞
Var(Xn,1 + ... + Xn,n )/n → σ 2 ∈ [0, ∞)
Für n ≥ n0 existiert eine monotone nichtwachsende und summierbare Folge
(ζr )r∈N so dass, für alle Indizes 1 ≤ s1 < s2 < ... < su < su + r = t1 ≤ t2 ≤ n
die folgenden oberen Schranken für Kovarianzen gelten: Für alle messbaren und
quadratisch integrierbaren Funktionen f : Ru → R gilt:
q
|cov(f (Xn,s1 , ..., Xn,su ), Xn,t1 )| ≤ Ef 2 (Xn,s1 , ..., Xn,su ) · ζr
für alle messbaren und beschränkten Funktionen f : Ru → R
| cov(f (Xn,s1 , ..., Xn,su ), Xn,t1 Xn,t2 )| ≤ ||f ||∞ · ζr
Dann gilt
1
D
√ (Xn,1 + ... + Xn,n ) → N (0, σ 2 )
n
Um die Konvergenz von Wn gegen einen Gaußprozess zu zeigen, werden nun eine
Reihe von Voraussetzungen getroffen.
Diese betreffen die Abhängigkeitsstruktur des Prozesses Xt sowie Eigenschaften
des Parameterschätzers θ̂n .
Annahme (A1):
(i) (Xt )t∈Z ist reellwertiger, strikt stationärer Prozess, definiert auf einem Wahrscheinlichkeitsraum (Ω, A, P). (Xt )t∈N ist schwach abhängig in folgendem
Sinne: für ζr = ρr , ρ < 1:
∀s1 < s2 < ... < su < su + r = t1 < ... < tv v ≤ 4
9
p
cov f (Xs1 , ..., Xsu ), g(Xt1 , ..., Xtv ) ≤ Ef (Xs1 , ..., Xsu )2 ·Lip(g)·K ·ζr
für alle f ∈ L2 (Ru ) und g ∈ L2 (Rv ), Lip(g) < ∞ und eine Konstante
K ∈ [0, ∞).
(iii) Für den Schätzer θ̂n für θ gelte, für eine messbare Funktion
l : R × Θ → Rp (k ≤ p)
√
n
1 X
n(θ̂n − θ) = √
l(Xi , θ) + εn ,
n i=1
P
εn → 0
l besitze die folgenden Eigenschaften:
E(l(X0 , θ)) = (0, .., 0),
E(||l(X0 , θ)||2+δ
2 ) < ∞ für ein δ > 0,
Lip(lc ) = cγ , für ein γ > 0
(iii) Die eindimensionalen Randverteilungen von (Xt ) besitzen Verteilungsfunktion Fθ (x), wobei θ ∈ Θ ⊆ Rp , wobei Fθ lipschitzstetig in x ist und:
Ḟθ (x) :=
∂
F (x)
∂θ θ
∈ Rp ist gleichmäßig stetig auf R×U , wobei U Umgebung
von θ ist und besitzt endliche Grenzwerte für x → ±∞.
Die gestutzte Version lc (·, ·, θ) von l(·, ·, θ) sei hierbei folgendermaßen definiert:
lc (Xk , θ) := l(Xk , θ) · 1{||Xk ||>c}
Die Voraussetzung des exponentiellen Abfallens des Abhängigkeitskoeffizienten
kann in Abhängigkeit von der konkret vorliegenden Situation abgeschwächt werden, da allerdings ohnehin eine Vielzahl in der Praxis bedeutender Prozesse die
oben geforderte Eigenschaft besitzen, stellt dies keine wesentliche Einschränkung
dar und erleichtert die Lesbarkeit und somit die Anwendbarkeit der Resultate.
In [8] wurde gezeigt, dass die unter A1 (i) getroffene Voraussetzung an das Abhängigkeitsverhalten des Prozesses von wichtigen Prozessklassen wie AR(p)- und
ARCH(p)-Prozessen erfüllt wird.
Das folgende Theorem beinhaltet die Konvergenz des geschätzten empirischen
Prozesses in Verteilung gegen einen zentrierten Gaußprozess G mit fast sicher
stetigen Pfaden unter den soeben getätigten Annahmen.
10
Theorem 2
Es gelte A1. Dann gilt:
D
Wn → G
wobei G ein zentrierter Gaußprozess ist mit fast sicher stetigen Pfaden und Kovarianzfunktion
cov(G(xi ), G(xj )) =
X
cov Zθ (X0 , xi ), Zθ (Xk , xj )
k∈Z
wobei
Zθ (X0 , xi ) = 1{Xk ≤x} − Fθ (x) − l(Xk , θ) · Ḟθ (x)
3 Beweis der Verteilungskonvergenz des
Originalprozesses
3.1 Messbarkeit des geschätzten empirischen Prozesses
Wird der Raum D[−∞, ∞] mit der Supremumsnorm ausgestattet, so ist der empirische Prozess bezüglich der zugehörigen Borel- σ-Algebra nicht messbar. (S.
Pollard, S. 65)
Für festes t gilt jedoch, dass Wn (t) eine A − B(R)-messbare Zufallsvariable ist.
Jedes Wn ist messbar bezüglich der σ−Algebra P, die durch die endlichdimensionalen Projektionen erzeugt wird. P ist wiederum äquivalent zur σ−Algebra,
welche durch die abgeschlossenen Kugeln erzeugt wird. Alle wichtigen Funktionale auf D[−∞, ∞] sind P-messbar (s. [9]).
3.2 Darstellung des geschätzten empirischen Prozesses
Zunächst wird unter Ausnutzung der oben genannten Voraussetzungen eine Darstellung des Prozesses Wn gezeigt, die den Prozess in einen zentrierten Anteil
zerlegt und einen Restterm, der das asymptotische Verhalten nicht beeinflusst,
wie im folgenden zu zeigen sein wird.
Es gilt zunächst unter Verwendung der Taylorschen Formel aufgrund der Existenz
11
von Ḟθ (x):
√
n · [Fn (x) − Fθ (x) + Fθ (x) − Fθ̂n (x)]
√
=
n · [Fn (x) − Fθ (x)] + n[(θ − θ̂n ) · Ḟθ̃n (x)]
√
√
=
n · [Fn (x) − Fθ (x)] + n(θ − θ̂n ) · Ḟθ (x)
√
+ n(θ − θ̂n ) · [Ḟθ̃n (x) − Ḟθ (x)]
Wn (x) =
√
für θ̃n zwischen θ̂n und θ
Gemäß Voraussetzung gilt
n
√
1 X
n(θ̂n − θ) = √
l(Xi , θ) + εn
n i=1
und wie aus dem später gezeigten folgen wird, ist
√1
n
n
P
l(Xi , θ) asymptotisch
i=1
normalverteilt und damit P-beschränkt. Aufgrund der gleichmäßigen Stetigkeit
P
von Ḟθ (x) gilt Ḟθ̃n (x) − Ḟθ (x) → 0, gleichmäßig in x. Daher geht der letzte Summand im letztgenannten Ausdruck in Wahrscheinlichkeit gegen 0, gleichmäßig in
x. Es kann also geschrieben werden
Wn (x) =
√
n
1 X
l(Xk , θ)Ḟθ (x) + oP (1)
n · [Fn (x) − Fθ (x)] − √
| {z }
n k=1
glm. in x
=
1
√
n
n
X
[1{Xk ≤x} − Fθ (x) − l(Xk , θ) · Ḟθ (x)] + oP (1)
k=1
n
1 X
=: Un (x) − √
l(Xk , θ) + oP (1)
n k=1
n
1 X
=: √
Zθ (Xk , x) + oP (1)
n k=1
(1)
=: Zn (x) + oP (1)
(2)
wobei
Zθ (Xk , x) := 1{Xk ≤x} − Fθ (x) − `(Xk , θ) · Ḟθ (x)
Mit dem Portmanteau-Theorem kann die Verteilungskonvergenz von Wn gegen
G folgendermaßen charakterisiert werden (Theorem 2.1 in [2]):
12
d
Wn → G ⇔ ∀f : D(R̄) → R gleichmäßig stetig und beschränkt gilt:
n→∞
Ef (Wn ) → Ef (G).
Hierzu werden die folgenden Prozesse Ũ und G̃ definiert, die zwischen (später
festzulegenden) Gitterpunkten {x0 , ..., xM }, M ∈ N, konstant sind:
W̃n (x) = Wn (xi ) für alle x ∈ (xi−1 , xi ], i = 1, ..., M
G̃(x) = G(xi ) für alle x ∈ (xi−1 , xi ], i = 1, ..., M
Damit gilt:
|Ef (Wn ) − Ef (G)|
≤ |Ef (Wn ) − Ef (W̃n )| + |Ef (W̃n ) − Ef (G̃)| + |Ef (G̃) − Ef (G)|
= T1 + T2 + T3
In Betrachtung des Terms T2 definieren wir weiterhin
~ n = (Wn (x1 ), ..., Wn (xM )) und G
~ n = (G(x1 ), ..., G(xM )):
U
~ n ) := f (W̃n ) und f˜(G)
~ := f (G̃), wobei f˜ : RM → R.
und f˜(U
Da f gleichmäßig stetig und beschränkt ist, gilt dies auch für f˜, das heißt die Ver~ n)
teilungskonvergenz von W̃n gegen G̃ ist äquivalent zur Konvergenz von Ef˜(W
~ und dies wiederum zur Verteilungskonvergenz von W
~ n gegen G.
~
gegen Ef˜(G)
3.3 Konvergenz der endlichdimensionalen Verteilungen
Um die Konvergenz von T2 gegen Null zu zeigen, ist zunächst die Konvergenz
der endlichdimensionalen Verteilungen von Zn gegen die von G zu zeigen. Mit
dem Satz von Cramér-Slutsky konvergieren somit auch die endlichdimensionalen
Verteilungen von Wn gegen die eines Gaußprozesses.
Der Satz von Cramér-Wold erlaubt, die Verteilungskonvergenz auf den univariaten Fall zu reduzieren. Zu beweisen ist also folgendes Lemma
Lemma 1 Sei c = (c1 , ..., cM )T beliebig ∈ RM . Dann gilt
n
M
1 XX
D
~ ∼ N (0, cT Σx1 ,...,x c)
√
ct Zθ (Xk , xt ) → cT G
M
n k=1 t=1
wobei Σx1 ,...,xM (i, j) =
P
cov Zθ (X0 , xi ), Zθ (Xk , xj )
k∈Z
13
Beweis:
Definiere
n
n
M
1 X
1 XX
√
ct Zθ (Xk , xt )
ct Tk := √
n k=1
n k=1 t=1
Es wird nun der oben formulierte zentrale Grenzwertsatz für schwach abhängige
Zufallsvariablen angewendet.
• E(Tk ) = 0 ist klar, denn es gilt E(1{Xk ≤xt } −Fθ (xt )) = 0 und E(l(Xk , θ) = 0
gemäß Voraussetzung.
• E(Tk2 ) existiert, da zum einen E(1{Xk ≤xt } − Fθ (xt )) beschränkt ist und
zum anderen Ḟθ (x) beschränkt ist und E(||l(X0 , θ)||2+δ
2 ) existiert. (und somit E(||l(X0 , θ)||22 ) und dadurch ETk2 )
• Lindeberg-Bedingung ist erfüllt, da die Tk aufgrund der strikten Stationarität identisch verteilt sind. Die quadratische Integrierbarkeit gilt gemäß des
zuletzt ausgeführten Punktes. integrierbar sind.
Um die Konvergenz von σn2 = Var (T12 , ..., Tn2 ) gegen σ zu zeigen, wird die
P
absolute Konvergenz der Reihe k∈Z cov(T0 , Tk ) gezeigt, denn dann gilt
σn2
=
=
n
n
n
X
1 XX
1
1
Tk ) =
Var(
cov(Tk , Tj ) =
n
n k=1 j=1
n
k=1
X (n − |k|)+
k∈Z
n→∞
→
X
n
cov(T0 , Tk )
cov(T0 , Tk )
mit Satz von Lebesgue
k∈Z
14
n−1
X
k=−(n−1)
(n − |k|) cov(T0 , Tk )
Referenz Hierzu schreiben wir für den letzten Term
M
X
X
=
cov
ci [1{X0 ≤xi } − Fθ (xi ) − l(X0 , θ) · Ḟθ (xi )],
i=1
k∈Z
M
X
cj [1{Xk ≤xj } − Fθ (xj ) − l(Xk , θ) · Ḟθ (xj )]
j=1
=
M X
M
XX
k∈Z
−
i=1 j=1
ci cj · cov(1{X0 ≤xi } − Fθ (xi ), l(Xk , θ) · Ḟθ (xj ))
{z
}
|
j=1
=:(ii a))
M X
M
X
i=1
+
=:(i)
M X
M
X
i=1
−
ci cj · cov(1{X0 ≤xi } − Fθ (xi ), 1{Xk ≤xj } − Fθ (xj ))
|
{z
}
ci cj · cov(1{Xk ≤xj } − Fθ (xj ), l(X0 , θ) · Ḟθ (xi ))
{z
}
|
j=1
=:(ii b))
M X
M
X
i=1 j=1
ci cj · cov(l(X0 , θ) · Ḟθ (xi ), l(Xk , θ)) · Ḟθ (xj )
|
{z
}
=:(iii)
Da gilt
n
n
1 X
1 X
σn2 = c0 [cov( √
Z(Xt , Xt , xi ), √
Z(Xt , Xt , xj ))] c
n t=1
n t=1
ist durch den Nachweis von σn2 → σ 2 ebenso die Konvergenz der Kovarianzen
gezeigt.
Es wird nun die absolute Konvergenz der Reihe unter Ausnutzung der schwachen
Abhängigkeit der Xi und der Eigenschaften des Parameterschätzers θ̂n gezeigt,
was impliziert, dass die Reihe und somit σn2 einen Grenzwert besitzt. Hierzu werden die mit (i), (iia), (iib) und (iii) bezeichneten Terme separat betrachtet.
zu (i):
Unter Einführung der Bezeichnung Yxi (X0 ) := 1{X1 ≤xi } − Fθ (xi ) erhält man zunächst
| cov(1{X1 ≤xi } − Fθ (xi ), 1{Xk ≤xj } − Fθ (xj ))| = | cov(Yxi (X0 ), Yxj (Xk ))|
Um die schwache Abhängigkeit der Xk ausnutzen zu können, muss die Lipschitzstetigkeit in X des zweiten Terms gegeben sein. Da es sich hierbei allerdings um
15
eine nichtstetige Funktion handelt, wird folgende lipschitzstetige Glättung Ỹx (X)
von Yx (X) definiert:
Xk − x Ỹx (X) := 1{X≤x} + 1{x<X≤x+a} · 1 −
− Fθ (x)
a
Die Funktion Ỹx (X) ist tatsächlich lipschitzstetig, und dies gleichmäßig in x, denn
sup |Ỹx (Xk ) − Ỹx (X0 )| = sup |1{Xk ≤x} − 1{X0 ≤x} + 1{x<Xk ≤x+a} · (1 −
x∈R
x∈R
−1{x<X0 ≤x+a} · (1 −
≤
Xk − x
)
a
X0 − x
) − Fθ (x) + Fθ (x)|
a
1
· |X0 − Xk |
a
Da die Funktionen Yx (Xk ) und Ỹx (Xk ) quadratisch integrierbar sind, folgt somit
aufgrund der schwachen Abhängigkeit der Xk :
| cov(Yxi (X0 ), Yxj (Xk )| ≤ | cov(Yxi (X0 ), Ỹxj (Xk )| + | cov(Yxi (X0 ), Yxj (Xk ) − Ỹxj (Xk ))|
q
1
≤
E(1{X0 ≤xi } − Fθ (xi ))2 · · K · ζk
a
X k − xj
+| E[(1{X0 ≤xi } − Fθ (xi )) · (−1{xj <Xk ≤xj +a} )(1 −
)]|
a
X k − xj
+| E[1{X0 ≤xi } − Fθ (xi )] ·E[(−1{xj <Xk ≤xj +a} )(1 −
)]|
a
|
{z
}
=0
q
1
≤
E(1{X0 ≤xi } − Fθ (xi ))2 · · K · ζk + (Fθ (xj + a) − Fθ (xj ))
a
q
1
≤
E(1{X0 ≤xi } − Fθ (xi ))2 · · K · ζk + Ca
a
1
1
1
≤ 2(K 2 · C 2 ) · ζk2
(C Lipschitzkonstante von Fθ )
wobei im letzten Schritt a so gewählt wird, dass beide Summanden von der gleichen Ordnung sind.
zu (iia):
Mit den oben eingeführten Bezeichnungen gilt für diesen Term
| cov(1{X0 ≤xi } − Fθ (xj ), l(Xk , θ) · Ḟθ (xj )| ≤ | cov(l(Xk , θ) · Ḟθ (xj ), Ỹxi (X0 ))|
+ | cov(l(Xk , θ) · Ḟθ (xj ), Yxi (X0 ) − Ỹxi (X0 ))|
16
Der ertse Summand kann durch die Lipschitzstetigkeit von Ỹxi (·) mithilfe der
schwachen Abhängigkeit der Xk abgeschätzt werden. Es gilt, wobei l(m) bzw.
F (m) jeweils die m-te Komponente des jeweiligen Vektors bezeichnet:
| cov(l(Xk , θ) · Ḟθ (xj ), Ỹxi (X0 ))| = | cov
p
X
(m)
l(m) (Xk , θ) · Ḟθ
(xj ), Ỹxi (X0 ) |
m=1
p
=|
X
(m)
(xj ), Ỹxi (X0 ) |
(m)
(xj ), Ỹxi (X0 ) ||
cov l(m) (Xk , θ) · Ḟθ
m=1
≤
≤
≤
p
X
| cov l(m) (Xk , θ) · Ḟθ
m=1
p q
X
m=1
p q
X
(m)
E(l(m) (Xk , θ) · Ḟθ
(m)
E(l(m) (Xk , θ))2 · ||Ḟθ
m=1
p
≤
X
(xj ))2 ·
(m)
||l(Xk , θ)|| · ||Ḟθ
m=1
|| ·
|| ·
1
· K · ζk
a
1
· K · ζk
a
1
1
· K · ζk = p · ||l(Xk , θ)|| · ||Ḟθ || · · K · ζk ,
a
a
da aufgrund der Voraussetzungen sowohl Ḟ als auch ||l(Xk , θ)|| beschränkt sind.
Für den zweiten Term gilt des weiteren
| cov(l(Xk , θ) · Ḟθ (xj ), Yxi (X0 ) − Ỹxi (X0 ))|
X0 − x i
≤ | E[l(Xk , θ) · Ḟθ (xi ) · (−1{xi <X0 ≤xi +a} (1 −
))]|
a
X 0 − xi
+| E[l(Xk , θ) · Ḟθ (xj )] ·E[(−1{xi <X0 ≤xi +a} (1 −
))]|
|
{z
}
a
=0
= |
p
X
(m)
E[l(m) (Xk , θ) · Ḟθ
(xi ) · (−1{xi <X0 ≤xi +a} (1 −
m=1
p
≤
X
||l(Xk , θ)||2 · ||Ḟθ || · (E[|1{xi <X0 ≤xi +a} (1 −
m=1
X0 − xi 2 1/2
)| ])
a
≤ p · ||l(Xk , θ)||2 · ||Ḟθ || · (E[1{xi <X0 ≤xi +a} ])1/2
p
= p · ||l(Xk , θ)||2 · ||Ḟθ || · (Fθ (xi + a) − Fθ (xi ))
√
≤ p · ||l(Xk , θ)||2 · ||Ḟθ || · C · a
17
X 0 − xi
))]|
a
Somit gilt insgesamt
| cov(1{X0 ≤xi } − Fθ (xj ), l(Xk , θ) · Ḟθ (xj )|
√
1
˙
≤ p||l(X
· D · ζk + C · a
k , θ)||2 · ||Ḟθ || ·
a
1
1
1
˙
≤ p||l(Xk , θ)||2 · ||Ḟθ || · 2(K 3 · C 3 ) · ζk3 ,
wobei der letzte Schritt durch Ausbalancieren der Summanden durch die Wahl
von a erzielt wird.
Die unter (iia) durchgeführten Rechenschritte gelten völlig analog für den Ausdruck (ii b)).
zu (iii)
Um wiederum die schwache Abhängigkeit der Xk ausnutzen zu können, muss
die Funktion l(·, ·, θ) in einen lipschitzstetigen Anteil und einen Restterm zerlegt
werden. An dieser Stelle kommt zum Tragen, dass vorausgesetzt wurde, dass
l(·, ·, θ) lipschitzstetig ist, sofern die Argumente der Norm nach beschränkt sind.
Die Funktion l erfüllt im Allgemeinen keine Lipschitzbedingung bezüglich Xk .
Sind allerdings die Xk beschränkt, so ist die Funktion l in vielen in der Praxis
üblichen Fällen lipschitzstetig.
18
Man erhält
| cov(l(X0 , θ) · Ḟθ (xi ), l(Xk , θ) · Ḟθ (xj ))|
≤
| cov(l(X0 , θ) · Ḟθ (xi ), lc (Xk , θ) · Ḟθ (xj ))|
≤
+ | cov(l(X0 , θ) · Ḟθ (xi ), (l(Xk , θ) − lc (Xk , θ)) · Ḟθ (xj ))|
1/2
E||l(X0 , θ)||22
· ||Ḟθ (·)|| · ||Ḟθ (·)|| · cγ · ζk
+ E(|lT (X0 , θ) · Ḟθ (xi )| · |lT (Xk , θ) · Ḟθ (xj )| · 1{|Xk |>c} )
1/2
≤
E||l(X0 , θ)||22
· ||Ḟθ (·)|| · ||Ḟθ (·)|| · cγ · ζk
1 1
+ E(|lT (X0 , θ) · Ḟθ (xi )|2 ) 2 · E(|lT (Xk , θ) · Ḟθ (xj )|2 · 1{|Xk |>c} ) 2
1/2 γ
· c · ζk
≤
K · E||l(X0 , θ)||22
1 1
δ/2
+ E(|lT (X0 , θ) · Ḟθ (xi )|2 ) 2 · E(|lT (Xk , θ) · Ḟθ (xj )|2+δ 2+δ · E 1{|Xk |>c} ) 2+δ
1/2 γ
· c · ζk
≤
K · E||l(X0 , θ)||22
1
1 δ/2
2+δ
+ E(|lT (X0 , θ) · Ḟθ (xi )|2 ) 2 · E(||lT (Xk , θ)||2+δ
· ||Ḟθ (xj )||2+δ
· E 1{|Xk |>c} ) 2+δ
2
2
1/2 γ
=
K · E||l(X0 , θ)||22
· c · ζk
1
δ/2
1
2+δ
· P(|Xk | > c) 2+δ
+ E(|lT (X0 , θ) · Ḟθ (xi )|2 ) 2 · ||Ḟθ (xj )||2+δ
· E(||lT (Xk , θ)||2+δ
2
2
1/2 γ
≤
K · E||l(X0 , θ)||22
· c · ζk
δ/2
2+δ
2
1
1
E(|X
|
)
k
2+δ
+ E(|lT (X0 , θ) · Ḟθ (xi )|2 ) 2 · ||Ḟθ (xj )||2+δ
· E(||lT (Xk , θ)||2+δ
·
2
2
cδ/(2+δ)
Die obigen Abschätzungen erfolgen durch wiederholtes Anwenden der HölderUngleichung und durch Nutzung der Markov-Ungleichung im letzten Schritt.
Minimiert wird der letzte Ausdruck, wenn beide Summanden von derselben Ordnung sind. Dies kann durch die Wahl von c, jener Konstanten, bei welcher l(·, θ)
bezüglich des Argumentes gestutzt wird, erreicht werden.
Man erhält hierbei
2+δ
− γ(2+δ)+δ
c ζk
und daher gilt abschließend
| cov(l(X0 , θ) · Ḟθ (xi ), l(Xk , θ) · Ḟθ (xj ))|
≤
δ
K̃ · ζ γ(2+δ)+δ
In diesem Schritt erhöht sich die bisher benötigte Anforderung an Momente von
l(X0 , θ) zu E||l(X0 , θ)||2+δ
2 , wobei δ positiv ist, aber beliebig klein sein kann. Für
19
Xk selbst ergibt sich keine neue Momentenbedingung. Unter der Voraussetzung
des exponentiellen Abfallens von ζk bleibt die Summierbarkeit der betrachteten
Reihe erhalten. Die restlichen Schritte gelten analog.
Insgesamt gilt also für die hinsichtlich der Konvergenz von σn2 betrachtete Reihe:
X
| cov(T0 , Tk )| ≤
k∈Z
M X
M
XX
1
1
1
|ci | · |cj | · 2(K 2 · C 2 ) · ζk2
k∈Z i=1 j=1
p
1
1
1
+2 sup ||Ḟθ (x)|| E||l(Xk , Xk , θ)||2 · 2(K 3 · C 3 ) · ζk3
x∈R
δ(r−1)/r
γ+δ(r−1)/r
+K̃ · ζk−p
<∞
An dieser Stelle wird exponentielles Abfallen von ζk nicht benötigt, sondern es
1/3
mus lediglich die Summierbarkeit der auftretenden Potenzen ζk
gewährleistet
sein.
Somit ist die Konvergenz σn2 → σ 2 und somit die Konvergenz der Kovarianzen
n
P
Zθ (Xk , Xk , θ) gegen die von G
der endlichdimensionalen Verteilungen von √1n
k=1
gezeigt.
• Sei jetzt f : Ru → R quadratisch integrierbar bzgl. der Verteilung von
(Ts1 , ..., Tsu ), s1 < ... < su < su + r = t1 . Dann gilt
| cov(f (Ts1 , ..., Tsu ), Tt1 )| ≤
M
X
i=1
+
|ci | | cov(f (Ts1 , ..., Tsu ), Yxi (Xt1 ))|
{z
}
|
=:(i)
M
X
i=1
|ci | | cov(f (Ts1 , ..., Tsu ), l(Xt1 , θ) · Fθ (xi )|
{z
}
|
=:(ii)
Die beiden Terme werden analog zum obigen Vorgehen analysiert und man erhält
im Falle von (i)
| cov(f (Ts1 , ..., Tsu ), Yxi (xt1 ))| ≤ | cov(f (Ts1 , ..., Tsu ), Ỹxi (xt1 ))|
+ | cov(f (Ts1 , ..., Tsu ), Yxi (xt1 ) − Ỹxi (Xt1 ))|
p
√
1
Ef 2 (Ts1 , ..., Tsu ) · ( · K · ζr + C · a)
≤
a
p
1 1
2
≤
Ef (Ts1 , ..., Tsu ) · (KC) 3 ζr3
20
und für (ii), wobei hier wiederum die Beschränktheit von Xk und die daraus
resultierende Lipschitzstetigkeit von l ausgenutzt werden:
| cov(f (Ts1 , ...., Tsu ), l(Xt1 , θ) · Ḟθ (xi )|
≤ | cov(f (Ts1 , ...., Tsu ), lc (Xt1 , θ) · Ḟθ (xi )|
+| cov(f (Ts1 , ...., Tsu ), (l(Xt1 , θ) − lc (Xt1 , θ)) · Ḟθ (xi )|
Der erste Term ist von der Ordnung cγ · ζk .
Der zweite kann weiter abgeschätzt werden mit
≤ |E(f (Ts1 , ...., Tsu )) · (l(Xt1 , θ) − lc (Xt1 , θ)) · Ḟθ (xi )|
≤
≤
≤
≤
+|E(f (Ts1 , ...., Tsu )) · E((l(Xt1 , θ) − lc (Xt1 , θ)) · Ḟθ (xi ))|
q
p
2
2 · E(f (Ts1 , ...., Tsu )) · E((l(Xt1 , θ) · Ḟθ (xj ) · 1{||Xt1 ||>c} )2 )
q
q
p
δ/2
1
2+δ 1+δ/2
2
· {E(1{|Xt1 |>c} )} 1+δ/2
2 · E(f (Ts1 , ...., Tsu )) · E(||l(Xt1 , θ)||2 )
p
δ/2
1
− δ
2+δ · E(|X |2 ) 2+δ c 2+δ
2 · E(f 2 (Ts1 , ...., Tsu )) · E(||l(Xt1 , θ)||2+δ
t1
2 )
p
− 2+δ
K · E(f 2 (Ts1 , ...., Tsu )) · ζk γ(2+δ)+δ
was wiederum durch Ausbalancieren des zweiten und ersten Terms erreicht wird.
Somit erhält man
cov(f (Ts1 , ..., Tsu ), Tt1 )
M
p
X
− 2+δ 1 1
ct |
≤|
E(f 2 (Ts1 , ..., Tsu )) · (KC) 3 ζr3 + ||Ḟθ (xi )|| · c · K · ζk γ(2+δ)+δ
t=1
• Sei f : Ru → R messbar und beschränkt. Dann
21
| cov(f (Ts1 , ..., Tsu ), Tt1 · Tt2 )| ≤
M X
M
X
i=1 j=1
+
M X
M
X
i=1 j=1
+|
+
M X
M
X
=:(i)
|ci ||cj | · | cov(f (Ts1 , ..., Tsu ), Yxi (Xt1 ) · (l(Xt2 , θ) · Ḟ (xj )))|
{z
}
|
=:(ii)
M X
M
X
j=1 i=1
|ci ||cj | | cov(f (Ts1 , ..., Tsu ), Yxi (Xt1 ) · Yxj (Xt2 ))|
{z
}
|
|ci ||cj | · | cov(f (Ts1 , ..., Tsu ), Yxj (Xt2 ) · (l(Xt1 , θ)) · Ḟ (xi ))|
{z
}
|
=:(iii)
|ci ||cj | · | cov(f (Ts1 , ..., Tsu ), (l(Xt1 , θ) · Ḟ (xi )) · (l(Xt2 , θ) · Ḟ (xj ))|
i=1 j=1
Da die Funktion Yxi (·)Yxj (·) : R×R → R nicht lipschitzstetig ist, wird wieder eine
Glättung vorgenommen, hier durch Ỹxi (·)Ỹxj (·). Diese Funktion ist lipschitzstetig,
denn es gilt
|Ỹxi (X1 )Ỹxj (X2 ) − Ỹxi (Z1 )Ỹxj (Z2 )|
≤ |Ỹxi (X1 )(Ỹxj (X2 ) − Ỹxj (Z2 ))| + |Ỹxj (Z2 )(Ỹxi (Z1 ) − Ỹxi (X1 ))|
1
1
≤ ||Ỹxi ||∞ |X2 − Z2 | + ||Ỹxj ||∞ |Z1 − X1 |
a
a
1
≤ (|X2 − Z2 | + |Z1 − X1 |)
a
1
1
= ||(X1 , Z1 )T − (X2 , Z2 )T ||1 ≤ d||(X1 , Z1 )T − (X2 , Z2 )T ||
a
a
Hierbei bezeichnen ||·|| eine beliebige Norm auf R2 sowie ||·||1 die 1-Norm auf R2 .
Aufgrund der Äquivalenz von Normen auf Rn gelten die letzte Abschätzungen für
eine bestimmte Konstante d.
Für den Fall der Funktionen
Ỹx (·) · lc (·, θ) · Ḟθ (x) : R × R → R und
lc (·, θ) · lc (·, ·, θ) : R × R → R
gelten ähnliche Überlegungen. Hierbei macht man sich zunutze, dass aufgrund der
Lipschitzstetigkeit der Stutzung der Funktion lc (·, θ) die Werte dieser Funktion
beschränkt sind, denn für ein beliebiges Argument gilt
||lc (X, θ) − lc (0, θ)|| ≤ cγ · |Xi | < c1+γ falls |X| ≤ c sowie
||lc (X, θ)|| = ||l(c, θ)|| bzw. ||l(−c, θ)||, falls |X| > c
22
Damit gilt zum einen
||Ỹxi (X1 ) · (lc (X2 , θ) · Ḟθ (xi )) − Ỹxi (Z1 ) · (lc (Z2 , θ)Ḟθ (xj ))||
1
≤ ||Ỹxi ||∞ · cγ |X2 − Z2 | + ||lc (·, θ)||∞ |Z1 − X1 |
a
≤ max{cγ , ||lc (·, θ)||∞ } · (|X2 − Z2 | + |X1 − Z1 |)
≤ max{cγ , ||lc (·, θ)||∞ } · d||(X1 , Z1 )T − (X2 , Z2 )T ||
Analog zeigt man
|lc (X1 , θ) · lc (Z1 , θ) − lc (X2 , θ) · lc (Z2 , θ)||
≤ ||lc (·, θ)||∞ · cγ · d||(X1 , Z1 )T − (X2 , Z2 )T ||
Man erhält somit für (i):
| cov(f (Ts1 , ..., Tsu ), Yxi (Xt1 ) · Yxj (Xt2 ))|
≤ | cov(f (Ts1 , ..., Tsu ), Ỹxi (Xt1 ) · Ỹxj (Xt2 ))|
+| cov(f (Ts1 , ..., Tsu ), Yxi (Xt1 ) · Yxj (Xt2 ) − Ỹxi (Xt1 ) · Ỹxj (Xt1 ))|
23
Weiter gilt
| cov(f (Ts1 , ..., Tsu ), Yxi (Xt1 ) · Yxj (Xt2 ) − Ỹxi (Xt1 ) · Ỹxj (Xt1 ))|
≤ E |f (Ts1 , ..., Tsu ) · (Yxi (Xt1 ) · Yxj (Xt2 ) − Ỹxi (Xt1 ) · Ỹxj (Xt1 ))|
+E(|f (Ts1 , ..., Tsu )|) · E(|Yxi (Xt1 ) · Yxj (Xt2 ) − Ỹxi (Xt1 ) · Ỹxj (Xt1 )|)|
≤ 2 · ||f ||∞ · E(|Yxi (Xt1 ) · Yxj (Xt2 ) − Ỹxi (Xt1 ) · Ỹxj (Xt1 )|)
= 2 · ||f ||∞ · E (1{Xt1 ≤xi } − Fθ (xi )) · (1{Xt2 ≤xj } − Fθ (xj ))}
X t − xi − Fθ (xi ))
− (1{Xt1 ≤xi } + 1{xi <Xt1 ≤xi +a} 1 − 1
a
Xt2 − xj · (1{Xt2 ≤xj } + 1{xj <Xt2 ≤xj +a} 1 −
− Fθ (xj )) a
X t − xj = 2 · ||f ||∞ E | − 1{Xt1 ≤xi } 1{xj <Xt2 ≤xj +a} 1 − 2
a
X t 1 − xi −1{Xt2 ≤xj } 1{xi <Xt1 ≤xi +a} 1 −
a
Xt1 − xi X t − xj −1{xi <Xt1 ≤xi +a} 1 −
1{xj <Xt2 ≤xj +a} 1 − 2
a
a
Xt1 − xi X t − xj +1{xi <Xt1 ≤xi +a} 1 −
Fθ (xj ) + 1{xj <Xt2 ≤xj +a} 1 − 2
Fθ (xi )|
a
a
≤ 2 · ||f ||∞ · (|Fθ (xj + a) − Fθ (xj )| + |Fθ (xi + a) − Fθ (xi )|
+|Fθ (xi + a) − Fθ (xi )|
+Fθ (xj )|Fθ (xi + a) − Fθ (xi )| + Fθ (xi )|Fθ (xj + a) − Fθ (xj )|)
≤ 2 · ||f ||∞ · 5 · Ca
und man erhält somit für (i)
| cov(f (Ts1 , ..., Tsu ), Yxi (Xt1 ) · Yxj (Xt2 ))|
d
≤ ||f ||∞ · · K · ζr + 10 · ||f ||∞ · C · a = ||f ||∞ (10CdK)1/2 ζr1/2
a
wiederum durch Ausbalancieren der beiden Summanden.
zu (ii):
Aufgrund der Vorausetzungen an die Beobachtungen und die Funktion l(·, θ)
24
erhält man
| cov(f (Ts1 , ..., Tsu ), Yxi (Xt1 ) · (l(Xt2 , θ) · Ḟθ (xj )))| ≤
| cov(f (Ts1 , ..., Tsu ), Ỹxi (Xt1 ) · (l(Xt2 , θ) · Ḟθ (xj )))|
+| cov(f (Ts1 , ..., Tsu ), (Yxi (Xt1 ) − Ỹxi (Xt1 )) · (l(Xt2 , θ) · Ḟθ (xj )))|
+| cov(f (Ts1 , ..., Tsu ), (Yxi (Xt1 ) · (l(Xt2 , θ) · Ḟθ (xj ) − lc (Xt2 , θ) · Ḟθ (xj )))|
≤ ||f ||∞ ||Ḟθ ||∞ max{cγ , ||lc (·, θ)||∞ } · d · K · ζr
+ 2 E f (Ts1 , ..., Tsu ) · (Yxi (Xt1 ) − Ỹxi (Xt1 )) · l(Xt2 , θ) · Ḟθ (xj )
+ 2 E f (Ts1 , ..., Tsu ) · Yxi (Xt1 ) · (l(Xt2 , θ) · Ḟθ (xj ) − lc (Xt2 , θ) · Ḟθ (xj ))
≤ ||f ||∞ ||Ḟθ ||∞ max{cγ , ||lc (·, θ)||∞ } · d · K · ζr
1/2
+ 2 · ||f ||∞ · (Fθ (xi + a) − Fθ (xi ))1/2 · E(||l(Xt2 , θ)||22 )
· ||Ḟθ (xj )||2
1/2
+ 2 · ||f ||∞ · E(||l(Xt2 , θ)||22 )
· ||Ḟθ (xj )||2 · (E(|Xt2 |2 )1/2 c−1
≤ ||f ||∞ ||Ḟθ ||∞ max{cγ , ||lc (·, θ)||∞ } · d · K · ζr + 2 · K · C 1/2 · a1/2 + c−1
≤ ||f ||∞ ||Ḟθ ||∞ · cγ+1 · 2 · d · K · ζr + 2 · K · (C 1/2 · a1/2 + c−1 )
1
= C̃ · ζ − 2+γ
wobei o.B.d.A. angenommen wird, dass c > max{1, l(0, θ)}, sowie, dass alle drei
Summanden von derselben Ordnung sind.
Dies gilt analog für (iii).
zu (iv):
genau nachschauen
| cov(f (Ts1 , ..., Tsu ), l(Xt1 , θ) · l(Xt2 , θ))|
≤ ||f ||∞ ||Ḟθ ||∞ cγ1 cγ2 · K · ζr
Also gilt für messbare und beschränkte Funktionen f : Ru → R
M X
M
X
| cov(f (Ts1 , ..., Tsu ), Tt1 · Tt2 )| ≤
|ci ||cj |||f ||∞ ||Ḟθ ||∞ (10Cd2 K)1/2 ζr1/2
i=1 j=1
+2
M X
M
X
|ci ||cj | · ||f ||∞ ||Ḟθ ||∞ (2 · C · K · d2 )1/2 · ζr1/2
i=1 j=1
+
M X
M
X
|ci ||cj | · |||f ||∞ ||Ḟθ ||∞ cγ1 cγ2 · K · ζr
i=1 j=1
25
(3)
1/2
was summierbar ist unter der Voraussetzung, dass ζr
summierbar ist.
Insgesamt können die unter (3) und (3) auftretenden Ausdrücke majorisiert werden durch
p
E(f 2 (Ts1 , ..., Tsu )) · ζ̃r bzw. ||f ||∞ ζ̃r
wobei ζ̃r eine summierbare Folge ist.
Damit sind die Voraussetzungen des zentralen Grenzwertsatzes erfüllt und die
Konvergenz der endlichdimensionalen Verteilungen des Prozesses
n
1 X
√
Zθ (Xk , Xk , x)
n k=1
gegen G ist gezeigt und somit auch die Konvergenz der endlichdimensionalen Verteilungen von Wn (x). (Mit Cramér-Slutsky).
3.4 Gleichgradige Stetigkeit in Wahrscheinlichkeit von Wn
auf einem Gitter
Nachdem nun die Konvergenz von T2 = |Ef (W̃n ) − Ef (G̃)| gezeigt ist, wird nun
die Konvergenz von T1 = |Ef (Wn ) − Ef (W̃n )| nachgewiesen.
Hierzu überlegt man sich, dass aufgrund der gleichmäßigen Stetigkeit von f gilt:
∀ε > 0 ∃δ := δ(ε) > 0 : ||Wn − W̃n || ≤ δ → |f (Wn ) − f (W̃n )| ≤ ε
Falls im Gegenzug gilt:
||Wn − W̃n || > δ
so folgt aufgrund der Beschränktheit von f
|f (Wn ) − f (W̃n )| ≤ 2||f ||∞
Somit kann T1 folgendermaßen abgeschätzt werden
T1 = |Ef (Wn ) − Ef (W̃n )| ≤ E|f (Wn ) − f (W̃n )|
≤ εP (||Wn − W̃n ||∞ ≤ δ) + 2||f ||∞ P(||Wn − W̃n ||∞ > δ)
26
Letztere Wahrscheinlichkeit muss also klein sein, etwa kleiner als η := ε/(2||f ||∞ ),
so dass der gesamte Ausdruck kleiner wird als 2ε. Zu zeigen ist nun, dass das
Gitter G := {x0 , ..., xM } in Abhängigkeit von η so gewählt werden kann, dass dies
erfüllt ist.
Weiter gilt
P(||Wn − W̃n || > δ) = P( max
sup
i=1,...,M t∈(x
i−1 ,xi ]
|Wn (xi ) − Wn (t)| > δ)
n
1 X
≤ P( max
sup |Un (xi ) − Un (t) + √
l(Xk , θ) · (Ḟθ (xi ) − Ḟθ (t))|
i=1,...,M t∈(x
n k=1
i−1 ,xi ]
+oP (1) > δ)
δ
|Un (xi ) − Un (t)| > )
i=1,...,M t∈(x
2
i−1 ,xi ]
n
1 X
δ
+ P( max
sup | √
l(Xk , θ) · (Ḟθ (xi ) − Ḟθ (t))| + oP (1) > )
i=1,...,M t∈(x
2
n k=1
i−1 ,xi ]
≤ P( max
sup
Findet man für beide Wahrscheinlichkeiten ein separates Gitter, so dass die Wahrscheinlichkeiten durch η/2 abgeschätzt werden, so kann als Gitter G die Vereinigung der beiden Gitter gewählt werden. In den folgenden Rechnungen wird erläutert werden, dass durch Hinzunahme von Gitterpunkten zum gegebenen Gitter
dann die Abschätzung erhalten bleibt.
Es wird nun zunächst die erste Wahrscheinlichkeit betrachtet.
Um die Existenz eines Gitters G = {x0 , ..., xM } zu zeigen, so dass gilt
δ
η
|Un (xi ) − Un (t)| > ) ≤ ,
i=1,...,M t∈(x
2
2
i−1 ,xi ]
P( max
sup
wird in mehreren Schritten vorgegangen. Zunächst wird ein feines Gitter konstruiert, so dass die Wahrscheinlichkeit, dass die Zuwächse des Prozesses zwischen den
Punkten des feinen Gitters größer als bestimmte Konstanten sind, kleiner als
η
4
ist.
Dann wird gezeigt, dass unter der Voraussetzung, dass die Zuwächse auf dem
feinen Gitter klein sind, auch die Zuwächse zwischen Kontinuum und feinem Gitter klein sind und die Zuwächse zwischen feinem Gitter und einem zu wählenden
gröberen Gitter klein sind.
Definiere hierzu eine Folge von Gittern Gj , j ∈ N auf R̄ mit jeweils 2j Gitter-
27
punkten folgendermaßen:



−∞,
k=0


xj,k = Fθ−1 ( 2kj ), 1 ≤ k ≤ 2j − 1



∞,
k = 2j
wobei Fθ−1 (x) := inf{t : Fθ (t) = x}.
Auf diesem Gitter sind die Zuwächse der Verteilungsfunktion Fθ kleiner als 2−j .
Offensichtlich gilt für j1 ≤ j2 , dass Gj1 ⊆ Gj2 . Jn wird nun so gewählt, dass gilt
2Jn −1 < n ≤ 2Jn
Für noch festzulegendes J0 werden nun das feine Gitter GJn und das gröbere GJ0
betrachtet. Hierzu werden für jedes Gitter GJ0 +1 , ..., GJn zugehörige Sprunghöhen
λj definiert:
λj := K · 2−αj
Folgendes Lemma besagt nun, dass für geeignet gewähltes K und α die Zuwächse
von Un auf Gj , j = J0 + 1, ..., Jn , mit beliebig kleiner Wahrscheinlichkeit ab
hinreichend großem n größer als λj sind.
Lemma 2
Für λj := K · 2−αj gilt: Es existieren α, K := K(η), n0 := n0 (η) so,
dass für n ≥ n0 :
P(
max
j∈ {J0 +1,...,Jn
},k=1,...,2j
|Un (xj,k−1 ) − Un (xj,k )| > λj ) ≤
η
2
(4)
Beweis:
Zum Beweis der Aussage wird folgendes Hilfsresultat benötigt, welches besagt, wie
die vierten Momente der Zuwächse des Prozesses Un beschränkt werden können:
0
E(|Un (x) − Un (y)|4 ) ≤ Cγ {PX
θ ((x, y]) +
1 1+γ
1
}
= (Fθ (xj,k ) − Fθ (xj,k−1 ) + )1+γ (5)
n
n
Es gilt zunächst unter Anwendung der Bonferroni- und der Markov-Ungleichung:
28
P(
max
j∈{J0 +1,...,Jn },k∈{1,...,2j }
|Un (xj,k ) − Un (xj,k−1 )| > λj )
j
≤
Jn
2
X
X
P(|Un (xj,k ) − Un (xj,k−1 )| > λj )
j=J0 +1 k=1
j
≤
Jn
2
X
X
Cγ
j=J0 +1 k=1
E|Un (xj,k − Un (xj,k−1 ))|4
K 4 · 2−4αj
und unter Anwendung des Hilfsresultates (5)
j
≤
Jn
2
X
X
j=J0
(Fθ (xj,k ) − Fθ (xj,k−1 ) + n1 )1+γ
Cγ
K 4 · 2−4αj
+1 k=1
j
Jn
2
X
Cγ · 22γ−γj X
1
≤
(Fθ (xj,k ) − Fθ (xj,k−1 ) + )
4
−4αj
K ·2
n
j=J +1
k=1
0
wobei im vorigen Schritt ausgenutzt wurde, dass 1/n < 21−Jn ≤ 21−j für j =
J0 + 1, ..., Jn .
≤
Jn
Cγ 2γ X
2j
(4α−γ)j
)
2
2
(1
+
K4
n
|{z}
j=J0 +1
≤2Jn /n
2Jn Cγ 2γ (4α−γ)(J0 +1)
)· 4 ·2 ·2
·
≤ (1 +
n
K
Jn −1
≤ (1 + 2 ·
η
≤
4
2
n
)·
JnX
−J0 −1
2(4α−γ)j
j=0
Cγ 2γ (4α−γ)(J0 +1)
·2 2
· Sα,γ
K4
was für alle n gilt, falls α so gewählt wird, dass 4α < γ gilt, womit Sα,γ < ∞ gilt,
und K genügend groß gewählt wird.
Offensichtlich gilt auch für Punkte, die zwischen den Gitterpunkten liegen, die
Abschätzung |Un (t1 ) − Un (t2 )| ≤ λj , falls t1 , t2 in einem Intervall des Gitters Gj
enthalten sind, da die Wahrscheinlichkeit dadurch klein wird, dass der Zuwachs
der Verteilungsfunktion zwischen den Gitterpunkten klein ist. Demzufolge kann
er dazwischen höchstens genauso groß sein.
29
Das nächste Lemma besagt nun, dass die Zuwächse des Prozesses zwischen einem
beliebigen Punkt t ∈ Gj , j ∈ {J0 + 1, ..., Jn } und dem t am nächsten gelegenen
Gitterpunkt aus GJ0 unter einer beliebig kleinen Schranke bleiben, falls die Zuwächse innerhalb der Punkte der Gitter Gj , j = J0 + 1, ..., Jn , die Schranken λj
nicht überschreiten. Dies gilt für hinreichend großes n, welches von der Größe der
Schranke abhängt.
Lemma 3 Falls gilt:
max
j∈ {J0 +1,...,Jn },k=1,...,2j
|Un (xj,k−1 ) − Un (xj,k )| ≤ λj
(6)
mit λj = K · 2−αj , (α, K, so dass die Bedingungen für Lemma 1 erfüllt sind),
dann existiert ein J0 := J0 (δ, α, K), so dass für t ∈ Gj , j ∈ {J0 + 1, ..., Jn }, mit
t ∈ (xJ0 ,i−1 , xJ0 ,i ]
|Un (xJ0 ,i ) − Un (t)| ≤
δ
4
(7)
Beweis:
Sei für t := xj,k ein Punkt beliebig auf Gj , für j ≥ J0 + 1. Dann existiert
ein i ∈ {1, ..., 2J0 } : t ∈ (xJ0 ,i−1 , xJ0 ,i ] und falls t < xJ0 ,i existieren Intervalle
[xjl ,k−1 , xjl ,k ] mit jl > J0 und l = 1, ..., L, wobei die jl paarweise verschieden sind,
L
S
so dass: [t, xJ0 ,i ] = [xjl ,k−1 , xjl ,k ],
l=1
d.h. [t, xJ0 ,i ] kann als Vereinigung von Intervallen aus Gittern Gj , j ∈ {J0 +
1, ..., Jn } paarweise verschiedener Feinheit dargestellt werden. Daher kann abgeschätzt werden:
|Un (xJ0 ,i ) − Un (t)| ≤
L
X
|Un (xjl ,kl ) − Un (xjl ,kl −1 )| ≤
l=1
=K
L
X
l=1
2−αjl ≤ K
L
X
λjl
l=1
Jn
X
2−αj ≤ 2−αJ0 · K
Jn
X
j=1
j=J0 +1
2−αj ≤
δ
4
falls J0 genügend groß gewählt wird.
An dieser Stelle wird nun der Fall betrachtet, dass zu den Gitterpunkten aus
30
GJ0 noch weitere hinzugenommen werden. Zur Vereinigung von Gitterintervallen paarweise verschiedener Gitter der Feinheit j ∈ {J0 + 1, ..., Jn } kommt dann
höchstens noch ein Intervall hinzu, innerhalb dessen die Differenz des Prozesses
höchstens λJ0 +1 ist und die Aussage des Lemmas bleibt erhalten.
Im nächsten Schritt wird nun gezeigt, dass die Zuwächse des Prozesses Un zwischen einem beliebigen Punkt t aus R und dem t am nächsten gelegenen Gitterpunkt aus GJn unter einer vorgegebenen Schranke bleiben, falls n genügend groß
gewählt wird.
Lemma 4 Falls gilt:
max
j∈ {J0 +1,...,Jn },k=1,...,2j
|Un (xj,k−1 ) − Un (xj,k )| ≤ λj
(8)
mit λj = K · 2−αj , (α, K, so dass die Bedingungen für Lemma 1 erfüllt sind),
dann existiert ein n1 := n1 (δ) und ein Gitterpunkt xJn (t) ∈ GJn , so dass für n ≥ n1
gilt
max
sup
i=1,...,M t∈(x
i−1 ,xi ]
|Un (t) − Un (xJn (t) )| ≤
δ
4
Beweis: Sei jetzt t beliebig aus R. Dann gilt: ∃i(t) : t ∈ (xJn ,i(t)−1 , xJn ,i(t) ] und
es gilt:
n
1 X
P(xJn ,i(t)−1 < Xk ≤ xJn ,i(t) )
Un (xJn ,i(t)−1 ) − √
n k=1
n
1 X
= √
1{Xk ≤xJn ,i(t)−1 } − Fθ (xJn ,i(t)−1 ) − P(xJn ,i(t)−1 < Xk ≤ xJn ,i(t) )
n k=1
n
1 X
1{Xk ≤xJn ,i(t)−1 } − Fθ (xJn ,i(t)−1 ) − P(xJn ,i(t)−1 < Xk ≤ t)
≤ √
n k=1
n
1 X
= √
1{Xk ≤t} − Fθ (t) = Un (t)
n k=1
n
1 X
≤ √
1{Xk ≤xJn ,i(t) } − Fθ (xJn ,i(t) ) − P(xJn ,i(t)−1 < Xk ≤ xJn ,i(t) )
n k=1
n
1 X
= Un (xJn ,i(t) ) + √
P(xJn ,i(t)−1 < Xk ≤ xJn ,i(t) )
n k=1
31
√
n(Fθ (xJn ,i(t) ) − Fθ (xJn ,i(t)−1 ))
√
1
≤ Un (xJn ,i(t) ) + n 2−Jn ≤ Un (xJn ,i(t) ) + √
n
≤ Un (xJn ,i(t) ) +
n
√
√ 2
δ
1 X
√
P(xJn ,i(t)−1 < Xk ≤ xJn ,i(t) ) ≤ n21−Jn ≤ n · ≤ − λJn
n
4
n k=1
für genügend großes n, welches aufgrund der Wahl der Gitterpunkte aus GJn
nicht von t abhängig ist und somit kann der Wert des Prozesses Un an der Stelle
t folgendermaßen eingegrenzt werden:
Un (xJn ,i(t)−1 ) −
δ
δ
+ λJn ≤ Un (t) ≤ Un (xJn ,i(t) ) + − λJn
4
4
δ
δ
⇔ − + λJn ≤ Un (t) − Un (xJn ,i(t)−1 ) ≤ Un (xJn ,i(t) ) − Un (xJn ,i(t)−1 ) + − λJn
4
4
δ
δ
⇒ − + λJn ≤ Un (t) − Un (xJn ,i(t)−1 ) ≤ λJn + − λJn
4
4
Hieraus folgt
|Un (t) − Un (xJn ,i(t)−1 )| ≤
δ
4
Bezeichne mit xJn (t) den Punkt xJn ,i(t)−1 . Damit gilt:
sup |Un (t) − Un (xJn (t) )| ≤
t∈R
δ
4
woraus die Behauptung folgt.
Nun wird abschließend zusammengefasst, dass mit der Wahl von J0 aus Lemma
... für genügend großes n der Prozess gut auf dem groben Gitter GJ0 bzw. auf
einem Gitter, welches GJ0 enthält, approximiert werden kann.
Lemma 5
Es existiert eine Zerlegung
−∞ = x0 < ... < xM = ∞ von [−∞, ∞] und ein n2 := n2 (δ, η), n ≥ n2 gilt:
δ
η
|Un (xi ) − Un (t)| > ) ≤
1≤i≤M t∈(x
4
2
i−1 ,xi ]
P( max
sup
Dies gilt analog für jede Obermenge des Gitters {x0 , ..., xM }
32
Beweis:
Setze nun GJ0 =: {x0 , ..., xM }, λj wie oben. Damit gilt insgesamt für n2 ≥
max{n0 , n1 }:
δ
|Un (xi ) − Un (t)| > )
1≤i≤M t∈(x
2
i−1 ,xi ]
P( max
sup
δ
|Un (xi ) − Un (xJn (t))| + |Un (xJn (t)) − Un (t)| > )
1≤i≤M t∈(x
2
i−1 ,xi ]
δ
≤ P({ max
sup
|Un (xi ) − Un (t))| > }
1≤i≤M t∈: t∈(x
4
i−1 ,xi ]∩GJn
δ ∪ { max
sup |Un (xJn (t)) − Un (t)| > }
1≤i≤M t: t∈(x
4
i−1 ,xi ]
δ
= 1 − P({ max
sup
|Un (xi ) − Un (t)| ≤ }
1≤i≤M t∈: t∈(x
4
i−1 ,xi ]∩GJn
δ ∩ { max sup |Un (xJn (t)) − Un (t)| ≤ }
1≤i≤M t: (x
4
i−1 ,xi ]
≤ 1 − P( max P |Un (xj,k ) − Un ((xj,k−1 )| ≤ λj
≤ P( max
sup
j=J0 +1,..,Jn
k=1,...,2j
η
η
≤ 1 − (1 − ) =
2
2
Dass die Aussage auch für jede Obermenge von GJ0 gilt, folgt aus den Überlegun
gen der vorangegangenen Lemmata.
Nachdem nun die Approximierbarkeit des Prozesses Un auf einem Gitter gezeigt
worden ist, wird nun der zweite Teil des Ausgangsprozesses Wn betrachtet. Hierbei ist zu zeigen, dass
Lemma 6 Für beliebige δ > 0 gilt:
Es existiert ein Gitter −∞ = y0 < .... < yN −1 < yN = ∞, so dass für alle η > 0
n
1 X
|√
l(Xk , Xk , θ) · (Ḟθ (yi ) − Ḟθ (t))| > δ) ≤ η
1≤i≤N t∈(y
n k=1
i−1 ,yi ]
P( max
sup
für hinreichend großes n, für alle ω ∈ Ω(n) .
Beweis:
Aus der Anwendung des zentralen Grenzwertsatzes folgt, dass auch
33
√1
n
n
P
k=1
l(Xk , Xk , θ)
asymptotisch normalverteilt ist und damit P-beschränkt. Es gilt also, dass zu jedem η ein a ∈ R existiert und ein n3 (η, a), so dass für n > n3 (η, a)
n
1 X
P(|| √
l(Xk , θ)|| > a) ≤ η
n k=1
Wähle nun, für noch zu bestimmendes N , y0 und yN so, dass
|| lim Ḟθ (t) − Ḟθ (y0 )|| <
δ
a
|| lim Ḟθ (t) − Ḟθ (yN )|| <
δ
a
t→−∞
bzw.
t→∞
Aufgrund der gleichmäßigen Stetigkeit von Ḟ existiert ein ε := ε( aδ ), so dass gilt
|x − y| ≤ ε ⇒ ||Ḟ (x) − Ḟ (y)|| <
δ
a
Wähle nun die Gitterpunkte y1 ,....,yN −1 (mit N = N (δ)) so, dass |yi − yi−1 | ≤ ε.
Damit gilt, für hinreichend großes n ≥ n3 (δ, a) (echt größer kann gelten aufgrund
des noch hinzukommenden Terms oP (1)):
n
1 X
l(Xk , θ) · (Ḟθ (yi ) − Ḟθ (t)| + oP (1) > δ)
|√
1≤i≤M t∈(y
n k=1
i−1 ,yi ]
P( max
sup
n
1 X
δ
≤ P(|| √
l(Xk , θ)|| · + oP (1) > δ)
a
n k=1
n
1 X
= P(|| √
l(Xk , θ)|| + a · oP (1) > a) ≤ η
n k=1
Auch hier ist offensichtlich, dass dieselbe Aussage für jede Obermenge des Gitters
{y0 , ..., yN } gilt.
Bezeichne nun mit Gδ,η := {z0 , ..., zM̃ } die Vereinigung der beiden Gitter {x0 , ..., xM }
und {y0 , ..., yN }, wobei gilt M̃ ≤ M + N + 2. Dann gilt:
P( max
sup
|Wn (zi ) − Wn (t)| > δ) ≤
1≤i≤M̃ t∈(zi−1 zi ]
δ
|Un (zi ) − Un (t)| > )
2
1≤i≤M̃ t∈(zi−1 zi ]
n
1 X
δ
P( max sup | √
l(Xk , θ) · (Ḟθ (zi ) − Ḟθ (t))| + oP (1) > ) ≤ η
1≤i≤M t∈(z
2
n k=1
i−1 zi ]
P( max
+
sup
34
womit die Approximierbarkeit des Prozesses Wn auf einem endlichen Gitter und
somit die Konvergenz gegen Null des Terms T1 gezeigt ist.
3.5 Approximierbarkeit des Grenzprozesses auf einem
Gitter und Stetigkeit
Nun muss auch für den Grenzprozess G gezeigt werden, dass er auf einem Gitter
gut approximiert werden kann.
Um die Konvergenz des Terms |Ef (G̃) − Ef (G)| gegen Null zu zeigen, muss also
ebenso wie im letzten Schritt gezeigt werden, dass für alle η und δ ein Gitter
{x0 , ..., xM } existiert, so dass
P( max
sup
1≤i≤M t∈(x
i−1 ,xi ]
|G(xi ) − G(t)| > δ) ≤ η
Die Argumentation hier ist analog zu derjenigen in Neumann und Paparoditis
(2007).
Zunächst weiß man aufgrund der Approximierbarkeit von Wn auf einem Gitter,
dass eine Folge von Gittern G (N ) := {x0 , ..., xMN } mit G (N ) ⊆ G (N +1) existiert, die
folgendes erfüllt:
P
max
sup
1≤i≤MN t∈(x
i−1 ,xi ]
|Wn (xi ) − Wn (t)| >
1
1
≤
,
N
N
(9)
falls n ≥ nN .
Bezeichnet man mit G (∞) die Vereinigung aller Gitter G (N ) , so existiert gemäß
dem Theorem von Kolmogorov (s. Bauer, S. ?) ein reellwertiger stochastischer
Prozess G̃, definiert auf G (∞) , dessen endlichdimensionale Verteilungen zentrierte
Normalverteilungen mit Kovaranzmatrix (Γ(ti , tk ))1≤i,k≤n sind.
Aufgrund der Konvergenz der endlichdimensionalen Verteilungen von Wn gegen
diejenigen von G̃ gilt auch für jedes beliebige N 0 :
1
1≤i≤MN t∈(xi−1 ,xi ]∩G (N 0 )
N
1
n→∞
→ P max
max 0 |G̃(xi ) − G̃(t)| >
.
1≤i≤MN t∈(xi−1 ,xi ]∩G (N )
N
P
max
max
|Wn (xi ) − Wn (t)| >
Aufgrund von Eigenschaft (9) gilt ∀N 0 ≥ N und n ≥ nN auch
1
1
P max
max 0 |Wn (xi ) − Wn (t)| >
≤
1≤i≤MN t∈(xi−1 ,xi ]∩G (N )
N
N
35
und damit folgt auch für den Grenzprozess
P
max
max
1≤i≤MN t∈(xi−1 ,xi ]∩G
(N 0 )
|G̃(xi ) − G̃(t)| >
1
1
≤
N
N
∀N 0 ≥ N.
Aufgrund der Stetigkeit von unten des Maßes P gilt auch
P
max
max
1≤i≤MN t∈(xi−1 ,xi ]∩G (∞)
|G̃(xi ) − G̃(t)| >
1
1
≤
N
N
∀N 0 ≥ N.
Zu zeigen bleibt nun noch, dass diese Relation erhalten bleibt, wenn t beliebig
aus (xi−1 , xi ] zugelassen ist.
Hierzu muss der auf G (∞) definierte Prozess G̃ geeignet zu einem Prozess auf R̄
fortgesetzt werden.
Sei t beliebig aus R. Dann existiert eine Folge
xiN −1 ≤ t ≤ xiN
(xiN )N ∈N , xiN ∈ G (N )
, so dass Es gilt, dass xiN −1 ≤ xiN +1 −1 ∀N und daher besitzt xiN −1 einen Grenzwert xi∞ −1 aus G (∞) , wobei gilt xi∞ −1 ∈ [xiN −1 , xiN ], ∀N ∈ N. Es gilt daher
P |G̃(xi∞ −1 ) − G̃(xiN )| >
1
1
≤
N
N
.
woraus folgt
N →∞
|G̃(xi∞ −1 ) − G̃(xiN )| → 0 in P-Wahrscheinlichkeit
Setze G(t) := G(xi∞ −1 ). Daher gilt für den so definierten Prozess G:
P
max
max
1≤i≤MN t∈R:t∈(xi−1 ,xi ]
|G̃(xi ) − G̃(t)| >
1
1
≤
N
N
∀N.
Dies bedeutet zum einen die gleichgradige Stetigkeit in Wahrscheinlichkeit auf
der Folge von Gittern G (N ) und zum anderen auch die Stetigkeit der Pfade des
Prozesses mit Wahrscheinlichkeit eins, denn wären die Pfade von G nicht fast
sicher stetig, dann würde gelten
∃ε > 0 : P(∃x ∈ R : ∃N : ∀δ > 0 : ∃y : |x − y| ≤ δ, |G(x) − G(y)| ≥
1
)>ε
N
und, für hinreichend großes N 0
∃ε > 0 : P(∃x ∈ R : ∃N : ∀δ > 0 : ∃y : |x − y| ≤ δ, |G(x) − G(y)| ≥
36
1
1
)> 0
0
N
N
0
Es existiert aber ein Punkt xiN 0 aus G (N ) , so dass x ∈ [xiN 0 −1 , xiN 0 ] bzw. x ∈
[xiN 0 , xiN 0 +1 ], so dass die oben getätigte Annahme zum Widerspruch geführt wird.
(Unterscheidung, ob x am Rand des Intervalls oder innerhalb liegt). Somit ist die
fast sichere Stetigkeit der Pfade des Prozesses G gezeigt.
Es ist also die Verteilungskonvergenz des geschätzten empirischen Prozesses gegen einen zentrierten Gaußprozess mit fast sicher stetigen Pfaden gezeigt.
4 Imitation des Originalprozesses durch einen
Bootstrap-Prozess
Das Ziel beim Bootstrapping ist nun, anhand der beobachteten Daten X1 , ..., Xn
neue Daten zu generieren, und anhand dieser neu generierten Daten den originalen geschätzten empirischen Prozess so zu imitieren, dass dieser bei Gültigkeit
von H0 in Wahrscheinlichkeit Verteilungskonvergenz gegen denselben Grenzprozess aufweist.
Um den geschätzten empirischen Prozess hinreichend gut nachbilden zu können, müssen, wie aus dem ersten Teil der Arbeit ersichtlich wurde, BootstrapVerfahren angewendet werden, die sowohl in geeigneter Weise die Abhängigkeitsstruktur der beobachteten Größen nachbilden als auch eine Aufspaltung des Prozesses wie oben beschrieben erlauben.
Ein Vorgehen wie im Falle unabhängiger Beobachtungen ist hierbei allerdings
nicht möglich, da zwar Beobachtungen mit zugrundeliegender Verteilungsfunktion Fθ̂n generiert werden können, wobei diese Verteilungsfunktion die Rolle der
Funktion Fθ beim Originalprozess übernimmt. Allerdings ist es auf diesem Wege nicht möglich, ohne zusätzliche Modellannahmen das Abhängigkeitsverhalten
geeignet zu imitieren.
Um dies zu umgehen, wird die Methode des Blockwise Bootstrap angewendet.
Die Bootstrap-Stichprobe X1∗ , ..., Xn∗ wird gewonnen, indem aus der Originalstichprobe k := kn Blöcke der Länge l := ln unabhängig gezogen werden. Der zugehörige geschätzte empirische Prozess für die Beobachtungen X1∗ , ..., Xn∗ lautet:
√
n(Fn∗ (t) − F (t, θ̂n∗ ))
37
Mit F̃n (t) wird der auf die Originalstichprobe bedingte Erwartungswert von Fn∗ (t)
bezeichnet; Es gelten die beiden Darstellungen
k
Fn∗ (t)
l
k
1X1X
1X
=
I(XSi +j ≤ t) =:
HSi (t)
k i=1 l j=1
k i=1
und
F̃n (t) = E
∗
(Fn∗ (t))
=E
∗1
l
l
X
n−l
(I(XS1 +j
j=1
l
1
1 XX
≤ t)) =
I(Xr+j ≤ t)
n − l + 1 l r=0 j=1
Während beim Originalprozess die tatsächliche Verteilungsfunktion eingeschoben
werden konnte und sich so der Prozess in einen zentrierten Anteil aufspalten ließ
sowie einen Anteil, der den Effekt der Parameterschätzung beinhaltete, sieht die
Situation im Bootstrap-Fall folgendermaßen aus
Wn∗ (t) =
√
n Fn∗ (t) − F̃n (t) + F̃n (t) − F (t, θ̂n∗ )
wobei sich für den zweiten Teil keine Linearisierung vornehmen lässt. Weiter kann
Wn∗ (t) geschrieben werden als
√
Wn∗ (t) =
n Fn∗ (t) − F̃n (t) + Fθ̂n (t) − F (t, θ̂n∗ ) + F̃n (t) − Fθ̂n (t)
√
=:
n Fn∗ (t) − F̃n (t) + Fθ̂n (t) − F (t, θ̂n∗ ) + Bn (t)
=: Wn∗ (t) + Bn (t)
Der Prozess Wn∗ (t) entspricht nun auf der Bootstrap-Seite dem Originalprozess.
Insgesamt wird also im folgenden gezeigt werden, dass
Wn∗ (t) = Wn∗ (t) − Bn (t)
in Wahrscheinlichkeit gegen denselben Gaußprozess konvergiert wie der Originalprozess.
5 Konvergenz des Bootstrap-Prozesses gegen
Gaußprozess
Um die Konvergenz des Bootstrap-Prozesses gegen denselben Gaußprozess zu
zeigen wie für den Originalprozess, beweist man, dass für gleichmäßig stetige
38
Funktionen f : D(R̄) → R
|E∗n f (Wn∗ ) − Ef (G)| → 0,
P
das heißt, es existiert eine Folge von Teilmengen Ωn von Ω, so dass gilt
∀ε ∃n0 (ε) : ∀n ≥ n0 (ε) : |E∗n f (Wn∗ ) − Ef (G)| ≤ ε, ∀ω ∈ Ω(n)
Dies wird auf analoge Weise gezeigt wie für den Originalprozess. Zunächst wird
die Konvergenz der endlichdimensionalen Verteilungen von Wn∗ gegen die von G
gezeigt, und schließlich die gleichgradige Stetigkeit in Wahrscheinlichkeit von Wn∗
auf einem geeignet gewählten Gitter. Um die Konvergenz des Bootstrap-Prozesses
auch unter H1 zu gewährleisten, wird vorausgesetzt, dass der Schätzer für den
Parameter θ̂n gegen einen Wert θ̄ ∈ Θ konvergiert.
Insgesamt müssen folgende Voraussetzungen hinsichtlich des Bootstrapverfahrens
und des Parameterschätzers erfüllt sein:
Annahme (A1 )∗ :
• Für die Anzahl der Blöcke k und die Blocklänge l gelte
n = l · k sowie l = n1/2−ε
• Es seien Si , i = 1, ..., k, unabhängig und gleichverteilt auf der Menge der
Zahlen {0, ..., n − l}. Die Bootstrap-Stichprobe wird gewonnen durch
X1∗ , ..., Xn∗ = XS1 +1 , ..., XS1 +l , ..., XSk +l
Des weiteren gelte für ω ∈ Ω(n)
P
(ii)∗ Es gilt θ̂n → θ̄
(iii) Für den Schätzer θ̂n∗ für θ̂n gelte, für eine messbare Funktion
` : Rk+1 × Θ → Rp (k ≤ p)
√
n(θ̂n∗
k
l
l
X
1 X 1 X
∗ 1
√
− θ̂n ) = √
`(XS1 +j , θ̄) − E ( √
`(XSi +j , θ̄)) + oP∗ (1)
k i=1 l j=1
l j=1
` besitze die folgenden Eigenschaften:
E(||`(X0 , θ)||4 ) < ∞
Lip(`c ) = cγ , für ein γ > 0
39
Außerdem gelte
(iv)∗ Ḟθ̄ (x) existiert und ist gleichmäßig stetig auf R × U , wobei U Umgebung
von θ̄ ist und Ḟθ̄ (x) besitzt Grenzwerte für x → ±∞, wobei gilt:
(v)∗ Fθ̃ (x), θ̃ ∈ U ist gleichmäßig lipschitzstetig in x mit Lipschitzkonstante C
Voraussetzung (iii)∗ ist beispielshalber für das arithmetische Mittel erfüllt, was
später noch gezeigt werden wird.
Insgesamt gilt in Analogie zu Theorem 2
Es gelte (A1)∗ . Dann gilt:
Theorem 3
D
Wn∗ (x) → G in P-Wahrscheinlichkeit
wobei G derselbe Gaußprozess ist wie in Theorem 2.
cov(G(xi ), G(xj )) =
X
cov Zθ̄ (X0 , xi ), Zθ̄ (Xk , xj )
k∈Z
wobei
n
1 X
Zθ̄ (X0 , xi ) = √
[1{Xk ≤x} − Fθ̄ (x) − l(Xk , θ̄) · Ḟθ̄ (x)]
n k=1
5.1 Darstellung des Bootstrap-Prozesses
Um zu einer geeigneten Darstellung für den Bootstrap-Prozess Wn∗ zu gelangen,
geht man so vor wie im Falle des Originalprozesses.
Es gilt:
Wn∗ (x) :=
√
n(Fn∗ (x) − Fθ̂n∗ ) =
√
n(Fn∗ (x) − F̃n (x)) +
Weiter gilt aufgrund von (ii)∗ und (iv)∗
40
√
n(Fθ̂n (x) − Fθ̂n∗ )
√
√
n(Fθ̂n (x) − Fθ̂n∗ (x)) =
n · (θ̂n − θ̂n∗ ) · Ḟθ̃n∗ (x)
√
√
=
n · (θ̂n − θ̂n∗ ) · Ḟθ̄ (x) + n(θ̂n − θ̂n∗ ) · (Ḟθ̃n∗ (x) − Ḟθ̄ (x))
k
l
l
1 X 1 X
1 X
√
= √
`(XSi +j , θ̄) − E∗ ( √
`(XSi +j , θ̄)) Ḟθ̄ (x)
k i=1
l j=1
l j=1
√
+ n(θ̂n − θn∗ ) · (Ḟθ̃n∗ (x) − Ḟθ̄ (x))
mit θ̃∗ zwischen θ̂n und θ̂n∗ . Um zu zeigen, dass der letzte Summand in P∗n −Wahrscheinlichkeit
gegen Null konvergiert, überlegt man sich, dass wegen Voraussetzung (ii)∗ gilt,
√
dass n(θ̂n∗ − θ̂n ) asymptotisch normalverteilt ist in P-Wahrscheinlichkeit Damit
P∗
P
n
gilt |θ̂n∗ − θ̂n | →
0, und wegen θ̂n → θ̄ gilt
P∗
n
θ̂n∗ →
θ̄ in P−Wahrscheinlichkeit
Damit kann aufgrund der gleichmäßigen Stetigkeit von Ḟ geschrieben werden, für
ω ∈ Ω(n)
Wn∗ (x)
k
l
1 Xn 1 X
√
1{XSi +j ≤x} − F̃n (x)
= √
k i=1
l j=1
o
∗
− `(XSi +j , θ̄) · Ḟθ̄ (x) − E (`(XSi +j , θ̄) · Ḟθ̄ (x)) + oPn∗ (1)
=:
Un∗ (x)
k
l
1 Xh 1 X
√
−√
`(XSi +j , θ̄) · Ḟθ̄ (x)
k i=1
l j=1
l
i
1 X
`(XSi +j , θ̄) · Ḟθ̄ (x) + oPn∗ (1)
−E √
l j=1
∗
k
l
o
1 Xn 1 X ∗
√
=: √
Zθ̄ (XSi +j , x) + oPn∗ (1)
k i=1
l j=1
wobei
Zθ̄∗ (XSi +j , x) := 1{XSi +j ≤x} − F̃n (x)− `(XSi +j , θ̄)· Ḟθ̄ (x)−E∗ (`(XSi +j , θ̄)· Ḟθ̄ (x))
Nun wird folgendermaßen vorgegangen:
Zunächst wird die Konvergenz der endlichdimensionalen Verteilungen von
k
l
o
1 Xn 1 X ∗
√
Zθ̄ (XSi +j , x)
W̃n ∗ (x) := √
k i=1
l j=1
41
gegen die des Grenzprozesses G gezeigt.
Mit dem Satz von Cramér-Slutsky gilt dann ebenso die Konvergenz der endlichdimensionalen Verteilungen von Wn∗ gegen diejenigen von G.
Dann wird die Straffheit des Prozesses Wn∗ nachgewiesen.
5.2 Konvergenz der endlichdimensionalen Verteilungen des
Bootstrap-Prozesses
5.2.1 Konvergenz der Kovarianzen gegen die Kovarianzen des
Originalprozesses
Für die Konvergenz der endlichdimensionalen Verteilungen des Bootstrap-Prozesses
W̃n∗ wird zunächst gezeigt, dass die Kovarianzstruktur des Prozesses im Grenzwert
dieselbe ist wie diejenige des Grenzprozesses G. Die Konvergenz der Kovarianzen
von W̃n∗ gegen diejenigen von G gilt aufgrund der getroffenen Voraussetzungen
wiederum in P-Wahrscheinlichkeit.
Lemma 7
cov∗ (W̃n∗ (s), W̃n∗ (t)) = cov(W (s), W (t)) + oP (1)
Beweis: Gemäß obiger Definition gilt
k
l
1 X 1 X
√
W̃n∗ (s) = √
1{XSi +j ≤s} − `(XSi +j , θ̄) · Ḟθ̄ (s)
k i=1
l j=1
l
1 X
−E √
1{XSi +j ≤s} − `(XSi +j , θ̄) · Ḟθ̄ (s)
l j=1
∗
Bezeichne weiter
l
1 X
Dn (Si , s) := √
1{XSi +j ≤s} − `(XSi +j , θ̄) · Ḟθ̄ (s) − Fθ̄ (s)
l j=1
l
1 X
=: √
z(XSi +j , s) − Fθ̄ (s)
l j=1
42
Damit gilt
cov
∗
(Wn∗ (s), Wn∗ (t))
k
k
1 X
1 X
√
√
= cov (
Dn (Si , s),
Dn (Si , t))
k i=1
k i=1
∗
= cov∗ (Dn (S1 , s), Dn (S1 , t))
= E∗ (Dn (S1 , s) · Dn (S1 , t)) − E∗ (Dn (S1 , s)) · E∗ (Dn (S1 , t))
Es wird nun gezeigt, dass der erste Teil des letzten Ausdrucks in Wahrscheinlichkeit gegen die entsprechende Kovarianz des Originalprozessees konvergiert und
für den zweiten Teil wird Konvergenz gegen Null in Wahrscheinlichkeit nachgewiesen. Analyse des ersten Terms
Durch Nulladdition erhält man:
E∗ [Dn (S1 , s) · Dn (S1 , t)] =
u+l
u+l
n−l n
X
1 X
1
1 X
√
(z(Xj , s) − Fθ̄ (s)) √
(z(Xj , t) − Fθ̄ (t))
=
n − l + 1 u=0
l j=u+1
l j=u+1
u+l
u+l
1 X
o
1 X
−E √
(z(Xj , s) − Fθ̄ (s)) √
(z(Xj , t) − Fθ̄ (t))
l j=u+1
l j=u+1
u+l
u+l
1 X
1 X
(z(Xj , s) − Fθ̄ (s)) √
(z(Xj , t) − Fθ̄ (t))
+E √
l j=u+1
l j=u+1
=: (n − l + 1)−1
1
+E √
n−l n
o
X
Hu (s, t)
u=0
u+l
X
u+l
1 X
√
(z(Xj , s) − Fθ̄ (s))
(z(Xj , t) − Fθ̄ (t))
l j=u+1
l j=u+1
mit
u+l
u+l
1 X
1 X
Hu (s, t) = √
(z(Xj , s) − Fθ̄ (s)) √
(z(Xj , t) − Fθ̄ (t)) −
l j=u+1
l j=u+1
u+l
u+l
1 X
o
1 X
(z(Xj , s) − Fθ̄ (s)) √
(z(Xj , t) − Fθ̄ (t))
−E √
l j=u+1
l j=u+1
Nun wird gezeigt, dass das arithmetische Mittel über die Hu in Wahrscheinlichkeit gegen Null konvergiert, gleichmäßig für s, t ∈ R2 , während der Ausdruck in
der letzten Zeile für n gegen unendlich gegen die entsprechende Kovarianz des
Grenzprozesses G konvergiert.
43
Lemma 8 Es gilt die Konvergenz von (n − l + 1)−1
Pn−l
u=0
Hu (s, t) gegen Null in
W’keit, gleichmäßig für alle s, t ∈ R2 .
Beweis:
Bezeichne mit
z̃(Xi , s, Xj , t) :=
z(Xi , s) − Fθ̄ (s) · z(Xj , t) − Fθ̄ (t)
− (E(z(Xi , s)) − Fθ̄ (s)) · (E(z(Xj , t) − Fθ̄ (t))
Ausmultiplizieren ergibt damit:
u+l
u+l
1 X X
Hu (s, t) =
z̃(Xi , s, Xj , t)
l i=u+1 j=u+1
l−1
o
X
1n
=
z̃(Xi , s, Xi , t) +
[z̃(Xi , s, Xi+j , t) + z̃(Xi+j , s, Xi , t)]
l
j=1
Durch Zusammenfassung gleicher Terme erhält man somit für die gewichtete
Summe über die Hu
(n − l + 1)
−1
n−l
X
Hu =
u=0
n
l−1
n
o
X
X
1
w(i) · z̃(Xi , s, Xi , t) +
[z̃(Xi , s, Xi+j , t) + z̃(Xi+j , s, Xi , t)]
=
n − l + 1 i=1
j=1
=
n
l−1
n
o
X
X
1
w(i) · z̃(Xi , s, Xi , t) +
[z̃(Xi , s, Xi+j , t) + z̃(Xi+j , s, Xi , t)]
n − l + 1 i=1
j=1
Für die Gewichtsfunktion w(·) gilt aufgrund der Vielfachheit der auftretenden
Terme folgendes:
l · w(i) = i · 1{i ≤ l} + l · 1{l < i ≤ n − l} + (n − (i − 1)) · 1{n − l < i ≤ n}
woraus insbesondere folgt, dass 0 < w(·) ≤ 1.
Abgeschätzt werden soll jetzt die Wahrscheinlichkeit, dass der letztgenannte Ausdruck betragsmäßig größer als ε ist, wobei ε > 0 beliebig aber fest gewählt sei.
Diese Wahrscheinlichkeit kann wiederum beschränkt werden durch Anwendung
44
der Tschebyschow-Ungleichung, und aufgrund der Tatsache, dass der letztgenannte Term zentriert ist, ist diese Wahrscheinlichkeit somit kleiner oder gleich
n
nX
1
Var
w(i) · z̃(Xi , s, Xi , t)
ε2 (n − l + 1)2
i=1
+
l−1
X
o2
w(i)[z̃(Xi , s, Xi+j , t) + z̃(Xi+j , s, Xi , t)]
j=1
≤
1
ε2 (n − l + 1)2
n X
n X
cov
w(i) · z̃(Xi , s, Xi , t) +
i=1 k=1
+
l−1
X
w(i)[z̃(Xi , s, Xi+j , t) + z̃(Xi+j , s, Xi , t)],
j=1
w(k) · z̃(Xk , s, Xk , t) +
l−1
X
+
w(k)[z̃(Xk , s, Xk+j , t) + z̃(Xk+j , s, Xk , t)] j=1
≤
ε2 (n
1
− l + 1)2
n X
n X
cov z̃(Xi , s, Xi , t) +
i=1 k=1
+
l−1
X
[z̃(Xi , s, Xi+j , t) + z̃(Xi+j , s, Xi , t)],
j=1
z̃(Xk , s, Xk , t) +
l−1
X
+
[z̃(Xk , s, Xk+j , t) + z̃(Xk+j , s, Xk , t)] j=1
≤
1
ε2 (n − l + 1)2
n−1
X
(n − i) cov z̃(X1 , s, X1 , t)
i=−(n−1)
+
l−1
X
[z̃(X1 , s, X1+j , t) + z̃(X1+j , s, X1 , t)] ,
j=1
z̃(X1+|i| , s, X1+|i| , t)
+
l−1
X
[z̃(X1+|i| , s, X1+|i|+j , t) + z̃(X1+|i|+j , s, X1+|i| , t)] j=1
Die Linearität der Kovarianz bedingt, dass unter der äußeren Summe die Summe
über insgesamt [1 + (2l − 2)]2 = (2l + 1)2 einzelne Kovarianzen auftritt.
45
Jede einzelne der Kovarianzen ist von der Struktur
cov(z̃(X1 , s, X1+j , t), z̃(X1+|i| , s, X1+|i|+r , t))
= cov(f1 (X1 , s) · f2 (X1+j , t), f3 (X1+|i| , s) · f4 (X1+|i|+r , t))
wobei f1 (X, s), ..., f4 (X, s) ∈ {1{X ≤ s}, `(X, θ̄) · Ḟθ̄ (s), Fθ̄ (s)}. Falls nun für
obige Kovarianzen gilt, dass 1 + j ≥ 1 + |i|, so kann eine Abschätzung durch
die Varianz erfolgen, denn die Eigenschaft der schwachen Abhängigkeit kann hier
nicht ausgenutzt werden, da keine Zeitlücke besteht. Die Varianz ist endlich, unter der Voraussetzung, dass l(X, θ̄) vierte Momente besitzt.
Vereinfachend wird die Abschätzung für die Varianzen benutzt, falls |i| ≤ l. Hiervon betroffen sind für festes i insgesamt (2l2 − 1) Terme, und dies für i von 0
bis l − 1. Die Summe über all diese Kovarianzen kann als nach oben abgeschätzt
werden durch
Für festes i können alle Kovarianzen gemäß den Ausführungen auf S. 17/18 abgeschätzt werden durch
cov(z̃(X1 , s, Xl , t), z̃(X1+|i| , s, X1+|i|+r , t)) ≤ const · ζ̃ |i|−l+1
wobei ζ̃ = ζ const(γ) Die äußere Summe läuft in diesem Fall über O(l2 Terme, und
man erhält insgesamt die Ordnung
O(n−1 · n · l2 )
Aufgrund der Voraussetzung l = O(n1/2−ε ) geht also dieser Teil deAusdrucks
gegen Null.
Allerdings kann für |i| ≤ l − 1 der Term unter der Summe nur durch const · l2
(weil l2 Summanden innerhalb der Summe) abgeschätzt werden. Die Anzahl dieser
Summanden beträgt O(l). Insgesamt ist der Teil des gesamten Ausdrucks, welcher
diese Kovarianzen umfasst, von der Ordnung
l3
n−l+1
Dies geht gegen Null, sofern gewährleistet ist, dass
l3 = o(n) ⇔ n3/2−3ε−1 = o(1) ⇔ 1/2 − 3ε < 0 ⇔
1
<ε
6
An dieser Stelle werden 4. Momente benötigt. Abschätzung der Kovarianzen erfolgt über die Lipschitzstetigkeit der abgeschnittenen Version von `(·, θ̄).
46
Konvergenz des zweiten Terms gegen die Kovarianzen des Originalprozesses!
u+l
u+l
n−l
X
1 X
1
1 X
(z(Xj , s) − Fθ̄ (s)) √
(z(Xj , t) − Fθ̄ (t))
E √
n − l + 1 u=0
l j=u+1
l j=u+1
l
l
1 XX
=
E (z(Xj , s) − Fθ̄ (s))(z(Xr , t) − Fθ̄ (t))
l j=1 r=1
=
l−1
X
(l − i)+
i=0
X
n→∞
→
l
cov (z(X1 , s) − Fθ̄ (s))(z(X1+|i| , t) − Fθ̄ (t))
cov Zθ̄ (X1 , s), Zθ̄ (X1+|i| , t) = cov(G(s), G(t))
i∈N
Analyse des zweiten Terms
Gemäß Künsch, (3.14) gilt: (Analog zu Betrachtungen weiter oben)
√
∗
E [Dn (S1 , s)] =
l(n − l + 1)
−1
n
X
w(j)(z(Xj , s) − Fθ̄ (s))
j=1
wobei |w(j)| ≤ 1.
Daher gilt:
n
X
√
−1
w(j)(z(Xj , s) − Fθ̄ (s))| > ε
P l(n − l + 1) |
j=1
n
X
√
1
−1
≤ 2 Var l(n − l + 1)
w(j)(z(Xj , s) − Fθ̄ (s))
ε
j=1
=ε
−2
≤ε
=ε
−2
−2
≤ ε−2
ε−2
n
X
2
1
E
w(j)(z(X
,
s)
−
F
(s))
j
θ̄
l(n − l + 1)2
j=1
n X
n
X
1
|E
(z(X
,
s)
−
F
(s))(z(X
,
s)
−
F
(s))
|
i
j
θ̄
θ̄
l(n − l + 1)2 i=1 j=1
1
l(n − l + 1)2
i=n−1
X
(n − i) cov (z(X1 , s) − Fθ̄ (s)), (z(X1+|i| ) − Fθ̄ (s)) i=−(n−1)
∞
X
(n − i)+ cov (z(X1 , s) − Fθ̄ (s)), (z(X1+|i| ) − Fθ̄ (s)) l(n − l + 1) i=−∞
n
l(n − l + 1)
≤
∞
X
cov (z(X1 , s) − Fθ̄ (s)), (z(X1+|i| ) − Fθ̄ (s)) n→∞
→ 0
i=−∞
47
für beliebig aber festes ε > 0.
Damit gilt die Konvergenz der Kovarianzen des Bootstrap-Prozesses gegen die
des Originalprozesses in Wahrscheinlichkeit.
5.2.2 Anwendung des zentralen Grenzwertsatzes für Dreiecksschemata
auf die endlichdimensionalen Verteilungen des zentrierten
Bootstrap-Prozesses W̃n∗
Nun kann durch Anwendung des zentralen Grenzwertsatzes von Lindeberg-Levy
die Konvergenz der endlichdimensionalen Verteilungen nachgewiesen werden. Die
gewichteten Summen über die einzelnen Blöcke werden hierbei als voneinander
unabhängige Zufallsgrößen betrachtet und daher kann der Grenzwertsatz für unabhängige Zufallsgrößen angewendet werden.
Es gilt folgendes Lemma
Lemma 9 Sei c = (c1 , ..., cM )T beliebig ∈ RM und x1 , ..., xM ∈ R. Dann gilt
n
M
1 XX
d
~ ∼ N (0, cT Σx1 ,...,x c) in P − W’keit,
√
ct Zθ̄∗ (Xk∗ , xt ) → cT G
M
n k=1 t=1
wobei Σx1 ,...,xM (i, j) =
P
cov Zθ̄ (X0 , xi ), Zθ̄ (Xk , xj ) , d.h.
k∈Z
M
n
1 XX
~ ≤ t)| ≥ ε) n→∞
ct Zθ̄∗ (Xk∗ , x) ≤ t) − P(cT G
→ 0
∀ε > 0 : P(sup |P∗n ( √
n
t∈R
k=1 t=1
Beweis:
Betrachte c1 , ..., cm ∈ R und x1 , ..., xM ∈ R. Setze wie oben:
z(Xi , xt ) := I(Xi ≤ xt ) + Ḟθ̄ (xt ) · `(Xi , θ̄)
Es gilt:
n
M
1 XX
√
ct Zθ̄∗ (Xk∗ , xt ) =
n k=1 t=1
k
l
M
1 X 1 XX
√
√
ct Zθ̄∗ (XSi +j , xt )
k i=1 l j=1 t=1
k
1 X ∗
=: √
Ti,n
k i=1
48
∗
Die Zufallsgrößen Ti,n
sind hierbei zeilenweise unabhängig und identisch verteilt
sowie (bedingt auf die Originalstichprobe) zentriert.
Es kann somit der zentrale Grenzwertsatz für zeilenweise unabhängige Dreiecksschemata angewendet werden Hierzu ist die Lindeberg-Bedingung nachzuweisen:
Bzw.: Es existiert eine Folge von Teilmengen (Ωn )n∈N von Ω, so dass auf dieser
Teilmenge für beliebiges δ ein n0 existiert, so dass .... (Dieses δ hängt wiederum
von der Differenz ab, welche die entprechenden Wahrscheinlichkeiten haben sollen).
Dann ist die Wahrscheinlichkeit, dass der Lindeberg-Term dieses δ überschreitet,
klein...
k
X
1
∗
∗
∗
∗ 2 n→∞
E
1{|T
|
>
εs
}
·
(T
)
→ 0 in P-W’keit
i,n
k
i,n
(s∗k )2
i=1
wobei
(s∗k )2
:=
k
X
∗
E
∗ 2
(Ti,n
)
=
i=1
= k·
i=1
M X
M
X
r=1 t=1
= k·
k
X
M X
M
X
l X
M
l
M
h 1 X
i
1 XX
∗
ct Zθ̄ (XSi +j , xt ) · √
ct Zθ̄∗ (XSi +j , xt )
E √
l j=1 t=1
l j=1 t=1
∗
l
l
1 X ∗
1 X ∗
cr ct · cov∗ √
Zθ̄ (XS1 +j , xr ), √
Zθ̄ (XS1 +j , xt )
l j=1
l j=1
cr ct cov∗ W̃n∗ (xr ), W̃n∗ (xt )
r=1 t=1
Gemäß Lemma 7 gilt somit, dass
M X
M
M X
M
X
X
X
1
n→∞
cr ct
cov Zθ̄ (X0 , xr ), Zθ̄ (Xκ , xt )
cr ct cov(W (xr ), W( xt )) =
· (s∗k )2 →
k
r=1 t=1
r=1 t=1
κ∈Z
= cT Σx1 ,...,xM c in P-W’keit
und damit gilt, falls die Lindeberg-Bedingung erfüllt ist, dass
1
√
k
k
X
i=1
k
P
∗
Ti,n
1
= √ s∗k
k
∗
Ti,n
i=1
s∗k
D
→ N (0, cT Σx1 ,...,xM c)
mit dem Satz von Cramér-Slutsky.
49
Wir kommen nun zum
Nachweis der Lindeberg-Bedingung:
Es ist aufgrund der Konvergenz von k1 (s∗k ) hinreichend zu zeigen, dass
k
1 ∗ X
∗
∗ 2 n→∞
E(
1{|Ti,n
| > ε} · (Ti,n
) ) → 0 in P-W’keit
k
i=1
∗
Letzerer Ausdruck ist aufgrund der Tatsache, dass die Ti,n
zeilenweise identisch
verteilt sind (die Blöcke werden unabhängig gezogen), gleich
∗
∗ 2
E∗ ( 1{|T1,n
| > ε} · (T1,n
))
S
M
M
1 +l
1 +l
n SX
X
1 X
1 X
√
√
= E∗
cr z(Xj , xr ) − E∗ [
cr z(Xj , xr )]
l r=1
l r=1
S1 +1
j=S1 +1
S
M
M
1 +l
1 +l
o
SX
X
√
1 X
1 X
n→∞
∗
√
√
→ 0
·I
cr z(Xj , xr ) − E [
cr z(Xj , xr )] > k · ε
l r=1
l r=1
S1 +1
j=S1 +1
Gezeigt wird nun, dass die Wahrscheinlichkeit, dass der Wert der oben auftretenden Indikatorfunktion gleich 1 ist, kleiner als µ ist für ein beliebig aber fest
gewähltes µ und hinreichend großes n. Für diejenigen ω ∈ Ω, für welche die Indikatorfunktion gleich Null ist, gilt nämlich, dass der in der Lindeberg-Bedingung
auftretende bedingte Erwartungswert gleich Null ist. Somit folgt dann die Konvergenz des bedingten Erwartungswertes gegen Null in P-Wahrscheinlichkeit.
Es gilt
E∗
1 +l
SX
M
n−l
X
1 X
1
√
cr z(Xj , xr ) =
n − l + 1 k=0
l r=1
j=S1 +1
50
k+l
M
X
1 X
√
cr z(Xj , xr ))
l r=1
j=k+1
und weiter
M
M
n−l
1 +l
SX
X
√
1 X
1
1 X
√
√
P
cr z(Xj , xr ) −
cr z(Xj , xr ) > k · ε
n − l + 1 k=0 l r=1
l r=1
j=S1 +1
M
M
n−l
u+l
n−l
X
[ n X
√
o
1
1 X
1 X
√
√
cr z(Xj , xr ) −
cr z(Xj , xr )| > k · ε ∩ S1 = u
=P
n − l + 1 k=0 l r=1
l r=1
u=0
j=u+1
n−l
M
M
u+l
X
X
√
1 X
1
1
1 X
√
√
cr z(Xj , xr ) −
cr z(Xj , xr )| > k · ε ·
≤
P |
n − l + 1 k=0 l r=1
n−l+1
l r=1
u=0
j=u+1
n−l
X
≤
u+l
M
n−l
M
X
X
√
1 X
1
1 X
√
√
P |
cr z(Xj , xr ) −
cr z(Xj , xr )| > k · ε
u∈{0,...,n−l}
n − l + 1 k=0 l r=1
l r=1
j=u+1
max
E
≤
1
|
l
max
u+l
P
M
P
j=u+1 r=1
u∈{0,...,n−l}
E
=
1
|
l
l P
M
P
1
n−l+1
cr z(Xj , xr ) −
cr z(Xj , xr ) −
j=1 r=1
1
n−l+1
k·
n−l
M
PP
cr z(Xj , xr )|2
k=0 r=1
k · ε2
n−l
M
PP
cr z(Xj , xr )|2
k=0 r=1
ε2
Der letzte Schritt gilt aufgrund der Stationarität des zugrundeliegenden Prozesses
der Beobachtungen.
Nun wird die Ordnung des Zählers betrachtet:
Es gilt
E
u+l
M
n−l X
M
X
1
1 X X
|
cr z(Xj , xr ) −
cr z(Xj , xr )|2
l j=u+1 r=1
n − l + 1 k=0 r=1
u+l X
M
X
2
1
cr z(Xj , xr )
=
·E
l
j=u+1 r=1
u+l
X
2
−
E
l(n − l + 1) j=u+1
+
1
l(n − l + 1)2
u+l X
M
X
cr z(Xj , xr )
j=u+1 r=1
n−l X
M
X
n−l X
M
X
cr z(Xj , xr )
k=0 r=1
2
cr z(Xj , xr )
k=0 r=1
Aufgrund der Voraussetzung an die Momente der Funktion `(·, θ̄) sind die innerhalb der Summen auftretenden Momente beschränkt. Der erste Term umfasst
insgesamt M 2 · l2 Summanden, der zweite (n − l + 1) · l · M 2 und der letzte
(n − l + 1)2 · M 2 .
51
Der führende Term ist also der erste und dieser ist von der Ordnung O(l) aufgrund des Vorfaktors l−1 .
Insgesamt ergibt sich also für den Zähler die Ordnung O(l), während der Nenner
die Ordnung k besitzt.
Die Wahrscheinlichkeit kann also insgesamt beschränkt werden durch
O( kl ) und geht gegen Null unter der Voraussetzung l = o(k).
Somit ist die Konvergenz der endlichdimensionalen Verteilungen des BootstrapProzesses gewährleistet .
Im nächsten Abschnitt wird die stochastische Equicontinuität des BootstrapProzesses nachgewiesen. Dies wird erzielt, indem die zwei Teile des Prozesses
separat betrachtet werden, der Anteil, welcher der Differenz zwischen empirischer
und tatsächlicher Verteilungsfunktion entspricht sowie der Anteil, der den Effekt
der Parameterschätzung imitiert.
Betrachte
Un∗ (t)
−
Un∗ (s)
√ k
l X
(HSi (t) − HSi (s)) − (F̃n (t) − F̃n (s))
=√
k i=1
Die in der Summe auftretenden Zufallsgrößen sind unabhängig und identisch
verteilt und durch 1 beschränkt. Die Varianz der Summe beträgt
k
X
k
Var ( (HSi (t) − HSi (s)) − (F̃n (t) − F̃n (s)) = Var∗ (Un∗ (t) − Un∗ (s))
l
i=1
∗
5.3 Stochastische Equicontinuität des Bootstrap-Prozesses
In Analogie zur Vorgehensweise im Falle des Originalprozessees wird nun die stochastische Equicontinuität des Bootstrap-Prozesses gezeigt. Equicontinuität des
Bootstrap-Prozesses nachzuweisen, wird in mehreren Schritten vorgegangen.
Ziel ist es, die Existenz eines Gitters mit endlich vielen Punkten auf [−∞, ∞] zu
zeigen, so dass das Maximum der Zuwächse des Prozesses zwischen den Gitterpunkten und dazwischenliegenden Punkten mit hoher Warscheinlichkeit (bedingt
auf die Originalstichprobe) klein ist, falls ω ∈ Ωn und Ωn sind wiederum Teilmengen von Ω, deren Wahrscheinlicheit mit n → ∞ gegen 1 geht.
52
In einem ersten Schritt wird eine Folge von Gittern bis zu einer von n abhängigen
Feinheit konstruiert, so dass die entsprechenden Zuwächse zwischen dem feinen
und dem groben Gitter mit hoher Wahrscheinilchkeit klein sind. Hierfür wird auf
die Chaining-Technik zurückgegriffen. Hierbei macht man sich zunutze, dass die
Zuwächse zwischen zwei festen Punkten mit hoher Wahrscheinlichkeit eine genügend kleine Schranke nicht überschreiten.
Dann wird gezeigt, dass dies auch beim Übergang zum Kontinuum funktioniert.
Um zu einer Abschätzung der Wahrscheinlichkeiten zu gelangen, dass zwischen
zwei festen Punkten die Zuwächse eine bestimmte Schranke nicht überschreiten,
wird die Ungleichung von Bennett angewendet. Entscheidend hierfür und für den
Übergang vom feinen Gitter auf das Kontinuum ist die Konvergenz der Varianz der Zuwächse des Bootstrap-Prozesses (bedingt auf die Originalstichprobe)
gegen die Varianz der Zuwächse des Originalprozesses. Für die letztgenannte Problematik ist eine polynomielle Konvergenzrate in Wahrscheinlichkeit zu zeigen.
Dies wird zu Beginn des Abschnitts in mehreren Schritten durchgeführt. Die Beweisschritte orientieren sich an der Arbeit von Naik-Nimbalkar und Rajarshi ([7]),
wo der empirische Prozess basierend auf mischenden Zufallsvariablen betrachet
wurde.
5.4 Konvergenz der Varianz der Zuwächse des
Bootstrap-Prozesses gegen die Varianz der Zuwächse
des Originalprozesses
In diesem Abschnitt wird gezeigt dass die Varianz der Zuwächse des BootstrapProzesses Un∗ in Wahrscheinlichkeit gegen einen Grenzwert konvergiert, welcher
demjenigen der Varianz der Zuwächse des zugehörigen Teils des Originalprozesses
entspricht.
Bezeichne hierzu mit σ 2 (s, t) den Grenzwert der Varianz der Differenz des Prozesses Un an den Punkten s und t (für n gegen unendlich).
Zunächst wird nachgewiesen, dass σ 2 (s, t) unter den Voraussetzungen an die
schwache Abhängigkeit und die Verteilungsfunktion der zugrundeliegenden Beobachtungen stetig in s und t ist.
53
Es gilt:
σ 2 (s, t) := lim Var(Un (t) − Un (s))
n→∞
n
1 X
= lim Var( √
I(s < Xi ≤ t) − (F (t) − F (s)))
n→∞
|
{z
}
n i=1
=:F (s,t)
1
= lim E( √
n→∞
n
n
X
i=1
n−1
X
= lim
I(s < Xi ≤ t) − F (s, t))2
n→∞
i=−(n−1)
∞
X
n−i
cov[(I(s < X1 ≤ t) − F (s, t))(I(s < X1+|i| ≤ t) − F (s, t))]
n
(n − i)+
cov[(I(s < X1 ≤ t) − F (s, t))(I(s < X1+|i| ≤ t) − F (s, t))]
n→∞
n
i=−∞
= lim
=
∞
X
cov[(I(s < X1 ≤ t) − F (s, t))(I(s < X1+|i| ≤ t) − F (s, t))]
i=−∞
mit Satz von Lebesgue.
Um den letzten Ausdruck entsprechend abzuschätzen, wird die schwache Abhängigkeit der Xi ausgenutzt. (siehe Anhang für eine detaillierte Rechnung)
Damit gilt folgende Abschätzung für σ 2 (s, t)
2
σ (s, t) =
∞
X
cov
i=−∞
∞
X
≤ C
= C
I(s < X1 ≤ t) − F (s, t) · I(s < X1+|i| ≤ t) − F (s, t)
(E I(s < X1+|i| ≤ t) − (F (t) − F (s))2 |)1/2 ρ|i|/2
i=−∞
∞
X
(F (t) − F (s) − (F (t) − F (s))2 |)1/2 ρ|i|/2
|
{z
} |
{z
}
i=−∞
≤1
≥0
1
≤ C|F (t) − F (s)| 2 ·
∞
X
1
ρ|i|/2 = C̃|F (t) − F (s)| 2
i=−∞
Der Schritt von erster zu zweiter Zeile erfolgt durch Anwendung der HölderUngleichung, von zweiter zu dritter durch Ausmultiplizieren und Anwendung der
Linearität des Erwartungswertes und die letzten beiden Schritte durch die Lipschitzstetigkeit der Verteilungsfunktion F sowie die Summierbarkeit des Abhän-
54
gigkeitskoeffizienten.
Es gilt also:
Lemma 10 Sei (Xi )i∈N ein Prozess, welcher der Voraussetzung A1 (i) genügt.
Zudem sei die Verteilungsfunktion der Randverteilungen lipschitzstetig
1
σ 2 (s, t) ≤ C̃|F (t) − F (s)| 2
Hier ist wiederum exponentielles Abnehmen des Mischungskoeffizienten vorausgesetzt, dies kann allerdings abgeschwächt werden. Lediglich die Summierbarkeit
im obigen Sinne muss gewährleistet sein.
Die Varianz der Zuwächse des Bootstrap-Prozesses Un∗ , bedingt auf die Originalstichprobe, wird mit σ̂n2 (·, ·) bezeichnet. Es gilt also:
σ̂n2 (s, t) =: Var∗ (Un∗ (t) − Un∗ (s))
Die Abweichung von σ̂n2 (s, t) von σ 2 (s, t) wird mit ∆n (s, t) bezeichnet:
σ̂n2 (s, t) = σ 2 (s, t) + ∆n (s, t)
Das folgende Lemma beinhaltet nun die gleichmäßige Konvergenz von σ̂n2 (s, t) in
Wahrscheinlichkeit gegen σ 2 (s, t) mit polynomieller Rate:
Lemma 11 Es gilt: (Voraussetzungen??) Es existiert ein r > 0, so dass
sup |σ̂n2 (s, t) − σ 2 (s, t)| = OP (n−r )
(s,t)∈R2
Dieses wird in mehreren Schritten bewiesen. Zunächst wird die punktweise Konvergenz des stochastischen Anteils in Wahrscheinlichkeit der Ordnung O(n−r )
nachgewiesen, für den deterministischen Anteil wird die gleichmäßige Konvergenz gezeigt. Monotonie-Argumente zeigen weiter die gleichmäßige Konvergenz
des stochastischen Anteils.
Es gilt zunächst die in Naik-Nimbalkar und Rajarshi verwendete Darstellung:
n−l
σ̂n2 (s, t) =
l
X n X Uj+r (s, t) − (F̃n (t) − F̃n (s)) o2
l
n − l + 1 j=0 r=1
l
55
denn
σ̂n2 (s, t) = Var∗ (Un∗ (t) − Un∗ (s))
k
l
1 X
1 X
∗
√
√
= Var
I(XSi +j ≤ t) − I(XSi +j ≤ s)
k i=1 l j=1
n−l
X
1
−
I(Xm+j ≤ t) − I(Xm+j ≤ s)
n − l + 1 m=0
l
1 X
= Var∗ ( √
Uj+r (s, t) − F̃n (t) − F̃n (s))
l j=1
l
2 1 ∗ X
Uj+r (s, t) − (F̃n (t) − F̃n (s))
= E
l
j=1
n−l
=
l
X n X Uj+r (s, t) − (F̃n (t) − F̃n (s)) o2
l
n − l + 1 j=0 r=1
l
5.4.1 Punktweise Konvergenz von σ̂n2 gegen σ 2
Zunächst ist die punktweise Konsistenz von σ̂n2 in Wahrscheinlichkeit zu zeigen.
Hierfür wird die Abweichung von σ̂n2 (s, t) von σ 2 (s, t) in einen stochastischen und
einen deterministischen Anteil zerlegt.
|σ̂n2 (s, t) − σ 2 (s, t)| ≤
≤ |σ̂n2 (s, t) − Eσ̂n2 (s, t)| + |Eσ̂n2 (s, t) − σ 2 (s, t)|
Nun werden der stochastische und deterministische Anteil separat betrachtet.
Punktweises quadratisches Risiko des stochastischen Anteils
In Analogie zu Naik-Nimbalkar (S. 985f) kann der stochastische Anteil folgendermaßen dargestellt werden:
σ̂n2 (s, t) − E[σ̂n2 (s, t)] =
n−l
hX
i
l
Vj (s, t) + V (s, t)
n − l + 1 j=0
56
wobei
l
n X
o2
−1
Vj (s, t) =
l
[Uj+r (s, t) − (F (t) − F (s))]
r=1
l
o2
n X
−1
[Uj+r (s, t) − (F (t) − F (s)]
−E l
r=1
und
2
V (s, t) = −(n − l + 1) [F̃n (t) − F̃n (s)] − [F (t) − F (s)]
2
+(n − l + 1)E [F̃n (t) − F̃n (s)] − [F (t) − F (s)]
(Ausführliche Rechnung hierzu: siehe Anhang)
Um zu einer Ordnung für das punktweise quadratische Risiko zu gelangen, schätzt
man weiter anhand der Minkowski-Ungleichung ab
n−l
nh X
o2
2
2
2 i1/2
2
2
−2
E σ̂n (s, t) − E[σ̂n (s, t)] ≤ l (n − l + 1)
E
Vj
+ [E(V 2 )]1/2
j=0
Während bei Naik-Nimbalkar Momente vierter Ordnung abgeschätzt werden,
reicht für diese Zwecke eine Abschätzung zweiter Momente.
Unter der Voraussetzung, dass der Prozess Xi strikt stationär ist, ist Vj ebenso
strikt stationär. Die Eigenschaft der schwachen Abhängigkeit der Xi wird im folgenden für die Abschätzung der zweiten Momente der jeweiligen Ausdrücke auf
der rechten Seite ausgenutzt werden.
Für die Mischungskoeffizienten ist exponentielles Abfallen nachzuweisen. (Die
Zeitlücke verkleinert sich zu i − l.)
Betrachtung der vierten Momente von
n−l
P
Vj (s, t).
j=0
Die vierten Momente der Summe über Vj (s, t) können mit einer Momentenungleichung für schwach abhängige Zufallsvariablen nach oben abgeschätzt werden
57
(ausführliche Rechnung siehe Anhang):
n−l
X
E(
Vj )4
j=0
l−1
n−l−1
X
X
v−l+1 2
2
1+
≤ 4! (n − l + 1)
const · ζ 3
v=0
v=l
+(n − l + 1)
l−1
X
1+
v=0
n−l−1
X
(v + 1)2 const · ζ
v−l+1
3
v=l
= O(l2 (n − l + 1)2 + l(n − l + 1))
Betrachtung der zweiten Momente von V
Es werden nun die zweiten Momente von V betrachtet. Wie in Naik-Nimbalkar
wird folgende Bezeichnung gewählt
B := B(s, t) := {[F̃n (t) − F̃n (s)] − [F (t) − F (s)]}2
Somit gilt
E(V 2 ) = (n − l + 1)2 [EB 2 − [EB]2 ],
denn
E(V 2 ) = (n−l+1)E (B−EB)2 = (n−l+1)2 Var(B) = (n−l+1)2 (EB 2 −[EB]2 )
Es wird nun zunächst die Differenz zwischen der empirischen Verteilungsfunktion
basierend auf der Bootstrap-Stichprobe und der empirischen Verteilungsfunktion
basierend auf der Originalstichprobe betrachtet. Hierbei gilt:
n−l
l
n
X1X
1X
1
F̃n (t) − Fn (t) =
I(Xr+j ≤ t) −
I(Xi ≤ t)
n − l + 1 j=0 l r=1
n i=1
n
n
X
1
1X
=
w(i)I(Xi ≤ t) −
I(Xi ≤ t)
n − l + 1 i=1
n i=1
=
n
X
(
i=1
≤
n
X
i=1
(
w(i)
1
− )I(Xi ≤ t)
n−l+1 n
1
1
l−1
− )I(Xi ≤ t) = O(
)
n−l+1 n
n−l+1
58
Weiter gilt damit:
E|F̃n (t) − Fn (t)|2 = O(
(l − 1)2
)
(n − l + 1)2
Betrachte nun des weiteren
n
2
E(Fn (t) − F (t))
n
1 XX 1
=
cov(1{Xi ≤ t}, 1{Xj ≤ t}))
n i=1 j=1 n
∞
1 X (n − i)+
cov(1{X1 ≤ t}, 1{X1+|i| ≤ t})
=
n i=−∞
n
=
1
· const
n
unter hinreichenden Bedingungen an die schwache Abhängigkeit der Xi . Also
erhält man
E(V 2 ) = (n − l + 1)2 [EB 2 − [EB]2 ]
Es gilt aufgrund der beiden obigen Betrachtungen, unter Anwendung der MinkowskiUngleichung
E(B 2 ) = E[F̃n (t) − F̃n (s) − (F (t) − F (s))]4
= E[(F̃n (s, t) − Fn (s, t) + Fn (s, t) − F (s, t)]4
=
E[F̃n (s, t) − Fn (s, t) + (Fn (s, t) − F (s, t))]2
1
21 ·4
1
(E[F̃n (s, t) − Fn (s, t)]2 ) 2 + (E[Fn (s, t) − F (s, t)]2 ) 2 ]4
l−1
1
≤ C[
+ √ ]4
n−l+1
n
1 4
= O( √
)
n
≤
da der zweite Term in der Summe der führende ist aufgrund der Voraussetzung
1
an l (l = n 2 −ε ).
E(V 2 ) = O((n − l + 1)2 (
l−1
1
1
+ √ )2 = O((n − l + 1)12 ( √ )4 ) = O(1)
n−l+1
n
n
59
Insgesamt gilt:
n−l
nh X
o2
2
2
2 i1/2
2
2
−2
E σ̂n (s, t) − E[σ̂n (s, t)]
≤ l (n − l + 1)
E
Vj
+ [E(V 2 )]1/2
j=0
n
o2
≤ l2 (n − l + 1)−2 O((l(n − l + 1))1/2 ) + O(1)
= O(
l
) = O(n−1/2−ε )
n−l+1
Dies gilt gleichmäßig für s, t ∈ R2 , da die getätigten Abschätzungen jeweils gleichmäßig für beliebige s und t galten.
Somit ist die punktweise Konvergenz des stochastischen Anteils des quadratischen
Risikos von σ̂n2 (s, t) nachgewiesen. Dies gilt auch mit der gewünschten Ordnung
n−r , wie aus der letzten Rechnung ersichtlich wird.
Konvergenz des deterministischen Anteils
Im nächsten Schritt ist für das punktweise quadratische Risiko die Konvergenz
des deterministischen Anteils nachzuweisen.
Es gilt zunächst:
E σ̂n2 (s, t)
n−l n X
l
X
l
1
=
E
Uj+r (s, t) − F (s, t)
(n − l + 1) j=0
l r=1
+ F (s, t) −
l
1 X
l
o2
F̃n (s, t)
r=1
n−l
l
hX
1 X
2 i
l
E
Uj+r − F (s, t)
=
(n − l + 1) j=0
l r=1
l
1 X
+ 2l · E
Uj+r (s, t) − F (s, t) F (s, t) − F̃n (s, t)
l r=1
2
+ l · E F (s, t) − F̃n (s, t)
Die letzten beiden Summanden des Ausdrucks können unter Anwendung der Ungleichung von Cauchy-Schwarz und mithilfe der im vorherigen Abschnitt darge-
60
legten Überlegungen betragsmäßig abgeschätzt werden durch
l
1X
2 1/2 2 1/2
2l · E
U1+r (s, t) − F (s, t)
· E F (s, t) − F̃n (s, t)
l r=1
2
+ l · E F (s, t) − F̃n (s, t)
l−1
l−1
l2
1
) + l · O(
) = O( )
= l · O( √ ) · O(
n−l+1
n−l+1
n
l
√
1
was für l = o n gegen Null geht. Unter der geforderten Bedingung n = O(n 2 −ε )
1
geht dies auch mit polynomieller Rate O(n− r ) gegen Null.
Man erhält also
Eσ̂n2 (s, t)
n−l
l
X
1 X
2
l2
l
E
Uj+r − F (s, t) + O( )
=
(n − l + 1) j=0
l r=1
n
l
2
1 X
l2
U1+r − F (s, t)
+ O( )
= l·E
l r=1
n
=
l−1
X
i=−(l−1)
l−i
l2
cov(U1 (s, t), U1+|i| (s, t)) + O( )
l
n
Damit gilt insgesamt für den Bias von σ̂n2 (s, t) unter Ausnutzung der Darstellung
für σ 2 (s, t).
∞
X
|Eσ 2 (s, t) − σ̂n2 (s, t)| ≤ cov(U1 (s, t), U1+|i| (s, t))|
i=−∞
−
l−1
X
i=−(l−1)
l−1
X
≤
i=−(l−1)
+
≤
X
|i|≥l
∞
X
l2
l−i
cov(U1 (s, t), U1+|i| (s, t)) + O( )
l
n
i
· | cov(U1 (s, t), U1+|i| (s, t))|
l
l2
| cov(U1 (s, t), U1+|i| (s, t))| + O( )
n
i
cov(U1 (s, t), U1+|i| (s, t))|
l
i=−∞
X
l2
+
| cov(U1 (s, t), U1+|i| (s, t))| + O( )
n
|i|≥l
61
Mit der Voraussetzung des exponentiellen Abfallens des Abhängigkeitskoeffizienten und anhand von l = o(n1/2 ) gilt insgesamt die Konvergenz gegen Null des
letzten Ausdrucks, wobei der erste Term von der Ordnung O(l−1 ), der zweite von
der Ordnung O(ρl ) und letzterer von der Ordnung n−2ε ist und somit gilt die
Konvergenz des Bias gegen Null mit der Ordnung n−r , für ein positives r ∈ R.
Da exponentielles Abfallen der Kovarianzen auch für das Supremum über s und
t gilt, gilt diese Konvergenz gleichmäßig in s, t.
noch zu zeigen: Covarianzen können mithilfe einer lipschitzstetigen Glättung von
n−l
U1 (s, t) −
l
X1X
1
I[s < Xi ≤ t]
n − l + 1 j=0 l i=1
abgeschätzt werden. s. S. 988 in N-N. und R.
5.4.2 gleichmäßige Konvergenz des stochastischen Anteils in s und t.
Während unter entsprechenden Voraussetzungen an die Blocklänge nunmehr die
punktweise Konvergenz der auf die Originalstichprobe bedingten Varianz der Zuwächse gegen die Varianz der Zuwächse des Originalprozesses mit polynomieller
Rate gezeigt ist, bleibt nun zu zeigen, dass auch das Supremum über (s, t) ∈ R2 in
Wahrscheinlichkeit gegen Null konvergiert. Da dies für den deterministischen Anteil der Abweichung der auf die Originalstichprobe bedingten Varianz von σ 2 (s, t)
gezeigt ist, bleibt dies nun noch für den stochastischen Anteil zu zeigen.
Betrachte hierzu wiederum Vj (s, t), wobei analog zu Naik-Nimbalkar (S. 988)
62
folgende Darstellung gilt:
l
n X
o2
−1
Vj (s, t) =
l
[Uj+r (s, t) − (F (t) − F (s))]
r=1
l
o2
n X
[Uj+r (s, t) − (F (t) − F (s)]
−E l−1
r=1
=
l
1 X
l
2
1X
Uj+r (s, t) − 2 · F (s, t)
Uj+r (s, t) + F (s, t)2
l r=1
l r=1
l
l
2
1X
1X
−E
Uj+r (s, t) + 2 · E
Uj+r (s, t) F (s, t) − F (s, t)2
l r=1
l r=1
=
l
1 X
l
2
1 X
2
Uj+r (s, t) − E
Uj+r (s, t)
l r=1
l r=1
l
1X
Uj+r (s, t) · F (s, t) + 2F (s, t)2
−2 ·
l r=1
l
2 1
1 X
= 2
Uj+r (s, t) − 2 E
l r=1
l
−2 · F (s, t) ·
l
1X
l
l
X
2 Uj+r (s, t)
r=1
Uj+r (s, t) − F (s, t)
r=1
Es sei hierbei Uj (s, t) := I(s < Xj ≤ t) und die Xj uniform verteilt und schwach
abhängig in geeignetem Sinne.
Bezeichne mit V (n) (s, t) :=
1
n−l+1
n−l
P
Vj (s, t).
j=0
Es sei R2 mit einem zweidimensionalen Gitter {x1 , ..., xMn }2 versehen, wobei die
Gitterpunkte (xi,n , xj,n ) gemäß den Zuwächsen der Verteilungsfunktion in Abhängigkeit der noch zu bestimmenden Konstanten Mn folgendermaßen gewählt
werden:
x(i,n) =: xi =





−∞,
F
−1
( Min ),
+∞,
i=0
i ∈ {1, ..., Mn − 1}
i = Mn
(Für den Fall, dass die Xi nicht uniform verteilt sind, werden die Gitterpunkte
63
entsprechend den Zuwächsen der Verteilungsfunktion der Xi gewählt).
Es gilt:
sup |V (n) (s, t)| =
s,t∈R2
max
sup
1≤i,p≤Mn s,t∈[x
i−1 ,xi ]×[xp−1 ,xp ]
|V (n) (s, t)|
Dann gilt für s ∈ [xi−1 , xi ] := I1 und t ∈ [xp−1 , xp ] := I2 aufgrund der Monotonie
der Indikatorfunktion folgende Abschätzung nach oben, indem s und t jeweils
durch die geeigneten Grenzen der jeweiligen Intervalle ersetzt werden:
V
(n)
n−l n
l
l
X
X
2 1
2
1
1 X
U
(x
,
x
)
−
E
U
(x
,
x
)
(s, t) ≤
j+r
i−1
p
j+r
i
p−1
n − l + 1 j=0 l2 r=1
l2
r=1
l
i 1X
p
i − 1 o
p−1
−
)
−
)
Uj+r (xi , xp−1 ) − (
−2(
Mn
Mn l r=1
Mn
Mn
(In der ersten Zeile werden im ersten Summanden die untere Grenze innerhalb der
Indikatorfunktion möglichst klein sowie die obere möglichst groß gewählt, beim
zweiten Summanden umgekehrt. In der zweiten Zeile wird analog vorgegangen.)
l
n−l n
l
X
X
2
2 1
1
1 X
U
(x
,
x
)
=
U
(x
,
x
)
−
E
j+r
i−1
p
j+r
i−1
p
n − l + 1 j=0 l2 r=1
l2
r=1
l
−2(
p−1
i 1X
−
)
Uj+r (xi , xp−1 ) − (xp , xi−1 )
Mn
Mn l r=1
l
l
X
X
2 1
2 o
1
+ 2E
Uj+r (xi−1 , xp ) − 2 E
Uj+r (xi , xp−1 )
l
l
r=1
r=1
64
(Nulladdition in der ersten bzw. letzten Zeile)
=
n−l n
l
l
X
X
2 1
2
1
1 X
U
(x
,
x
)
−
E
U
(x
,
x
)
j+r
i−1
p
j+r
i−1
p
n − l + 1 j=0 l2 r=1
l2
r=1
l
i−1 1X
p
i−1 p
−
)
Uj+r (xi−1 , xp ) − (
−
)
− 2(
Mn
Mn l r=1
Mn
Mn
l
p
i−1 1X
+ 2(
−
)
Uj+r (xi−1 , xp ) − Uj+r (xi , xp−1 )
Mn
Mn l r=1
l
p
i−1
2 1X
(Uj+r (xi , xp−1 ) − (
−
)
+2 ·
Mn l r=1
Mn
Mn
l
l
X
X
2 1
2 o
1
+ 2E
Uj+r (xi−1 , xp ) − 2 E
Uj+r (xi , xp−1 )
l
l
r=1
r=1
(Hier erfolgte eine Nulladdition so, dass die Summanden innerhalb der Summe
in der zweiten Zeile zentriert sind. Die dritte und vierte Zeile ergeben sich durch
die Korrektur der Veränderungen in Zeile zwei.)
Demnach gilt für beliebiges s und t in oben genannten Intervallen
V (n) (s, t) − V (n) (xi−1 , xp )
n−l n
l
X
p
i−1 1X
1
2(
−
)
Uj+r (xi−1 , xp ) − (Uj+r (xi , xp−1 )
≤
n − l + 1 j=0
Mn
Mn l r=1
l
+2 ·
2 1X
p
i−1
(Uj+r (xi , xp−1 ) − (
−
)
Mn l r=1
Mn
Mn
l
l
X
X
2 1
2 o
1
+ 2E
Uj+r (xi−1 , xp ) − 2 E
Uj+r (xi , xp−1 )
l
l
r=1
r=1
Nun gilt:
Uj+r (xi−1 , xp ) − Uj+r (xi , xp−1 ) = 1{Xj+r ∈ (xi−1 , xp ]} − 1{Xj+r ∈ (xi , xp−1 ]}
= 1{Xj+r ∈ (xi−1 , xi ]} + 1{Xj+r ∈ (xp−1 , xp ]}
= Uj+r (xi−1 , xi ) + Uj+r (xp−1 , xp )
65
Daher kann weiter geschrieben werden:
V (n) (s, t) − V (n) (xi−1 , xp )
n−l n
l
X
1
i−1 1X
p
≤
−
)
Uj+r (xi−1,xi ) + (Uj+r (xp−1 , xp )
2(
n − l + 1 j=0
Mn
Mn l r=1
l
+2 ·
p−1
i
2
2 1X
(Uj+r (xi , xp−1 ) − (
−
)−
Mn l r=1
Mn
Mn
Mn
l
l
X
X
2 1
2 o
1
+ 2E
Uj+r (xi−1 , xp ) − 2 E
Uj+r (xi , xp−1 )
l
l
r=1
r=1
:= Rn (xi−1 , xp )
Für jede einzelne Zeile des vorletzten Ausdrucks wird nun Konvergenz gegen Null
in Wahrscheinlichkeit nachgewiesen.
Betrachtung der ersten Zeile
Diese Zeile kann zunächst geschrieben werden als
n−l
l
X p−i+1 1X
1
)
2(
Uj+r (xi−1 , xi ) − E(Uj+r (xi−1 , xi ))
n − l + 1 j=0
Mn
l r=1
+
n−l
l
n−l
l
X p−i+1 1X
1
)
Uj+r (xp−1 , xp ) − E(Uj+r (xp−1 , xp ))
2(
n − l + 1 j=0
Mn
l r=1
X p−i+1 1X 1
1
+
2(
)
2
n − l + 1 j=0
Mn
l r=1 Mn
=: 2 ·
p−i+1
· (An + Bn + Cn )
Mn
Die Wahrscheinlichkeit, dass An betragsmäßig größer als ein fest vorgegebenes δ
wird, kann mithilfe der Markov-Ungleichung und anhand einer Ungleichung für
das vierte Moment einer Summe schwach abhängiger Zufallsvariablen abgeschätzt
werden. Genaue Rechnungen: Siehe Anhang. Es gilt:
P(An > δ) ≤
E(A4n )
δ4
Weiter gilt unter Verwendung einer Ungleichung für die vierten Momente schwach
66
abhängiger Zufallsvariablen (s. Anhang für genauere Rechnungen)
E(A4n ) ≤ 4!
l−1
n−l−1
X
X v−l+1 2
1
1
+
ζ 3
(n − l + 1)2 v=0
v=l
l−1
n−l−1
X
X
1
2
2 v−l+1
3
+
(v + 1) +
(v + 1) ζ
(n − l + 1)3 v=0
v=l
2
1
1
3
≤ 4!
l
+
c
+
l
+
c
1
2
(n − l + 1)2
(n − l + 1)3
l2
= O(
)
(n − l + 1)2
Dieselbe Überlegung gilt für Bn .
Cn ist von der Ordnung O( M1n ) (deterministisch).
Betrachtung der zweiten Zeile
Die Wahrscheinlichkeit, dass dieser Ausdruck betragsmäßig größer δ ist, kann
wiederum in analoger Weise abgeschätzt werden, wie dies soeben für An und Bn
geschehen ist. Aufgrund des zusätzlichen Faktors Mn−1 ergibt sich hierfür die Ordnung O(n−1 · Mn−2 ).
Betrachtung der dritten Zeile
Aufgrund der Tatsache, dass die quadrierten Erwartungswerte für jedes j ∈
{0, ..., n − l} identisch sind, kann diese Zeile mittels Ausmultiplizieren zunächst
67
geschrieben werden als
l
l
1 XX
E Ur (xi−1 , xp ) · Uk (xi−1 , xp ) − Ur (xi , xp−1 ) · Uk (xi , xp−1 )
2
l r=1 k=1
=
l
1X
E
U
(x
,
x
)
−
U
(x
,
x
)
r
i−1
p
r
i
p−1
l2 r=1
l−1
2 X h (l − k)
+
cov(U1 (xi−1 , xp ), U1+k (xi−1 , xp ))
l k=1
l
− cov(U1 (xi , xp−1 ), U1+k (xi , xp−1 ))
(l − k)
+
· E(U1 (xi−1 , xp )) · E(U1+k (xi−1 , xp ))
l
i
−E(U1 (xi , xp−1 )) · E(U1+k (xi , xp−1 ))
p
1
i−1 p−1
i ·
−
−
+
l Mn
Mn
Mn
Mn
l−1
h
2 X (l − k)
+
cov(U1 (xi−1 , xp ) · U1+k (xi−1 , xp )
l k=1
l
− cov(U1 (xi , xp−1 ) · U1+k (xi , xp−1 ))
(l − k) (p − i + 1)2 (p − 1 − i)2 +
·
−
l
Mn2
Mn2
l−1
2 X h (l − k)
1 2
cov(U1 (xi−1 , xp ) · U1+k (xi−1 , xp ))
+
=
l Mn
l k=1
l
− cov(U1 (xi , xp−1 ) · U1+k (xi , xp−1 ))
i
l−k
+
·
(4p
−
4i)
l · Mn2
l−1
2
2X
≤
+
cov(U1 (xi−1 , xp ) · U1+k (xi−1 , xp ))
l · Mn
l k=1
=
l−1
+
2X
cov(U1 (xi , xp−1 ) · U1+k (xi , xp−1 ))
l k=1
+
4
Mn
Der Ausdruck ist daher insgesamt von der Ordnung O( M1n )+O( 1l ) und geht somit
im deterministischen Sinne gegen Null. (auch noch, wenn mit nr multipliziert).
68
Insgesamt kann nun Vn (s, t) − Vn (xi−1 , xp ) dargestellt werden als
Dn + En
wobei Dn die stochastischen Komponenten und En die deterministischen enthält.
Gemäß den oben getätigten Überlegungen gilt zum einen
1
1
En = O( +
)
l
Mn
sowie
E(Dn2 ) = O(n−1 )
Daher gilt auch
nr
nr
) sowie E(Dn2 ) = O(n2r−1 )
n En = O( +
l
Mn
r
Somit kann nr · Rn (xi , xp ) betragsmäßig abgeschätzt werden:
P(nr |Rn (xi , xp )| > δ) ≤ P(nr |Dn | > δ/2) + P(nr |En | > δ/2)
4
1
1
2
r
E(D
)
+
P(n
|const
·
(
+
)| > δ/2)
n
δ2
l
Mn
Dies geht gegen Null, sofern 2r < 1, nr = o(Mn ).
Analoge Betrachtungen führen zu einer ähnlichen Abschätzung nach unten und
es gilt somit
Vn (s, t) − Vn (
i
p
i p−1
,
) ≥ Rn (
,
)
Mn Mn
Mn Mn
Also gilt insgesamt für beliebiges (s, t) ∈ I1 × I2 :
i p−1
i p−1
i−1 p
i−1 p
,
) + Rn (
,
) ≤ Vn (s, t) ≤ Vn (
,
) + Rn (
,
))
Mn Mn
Mn Mn
Mn Mn
Mn Mn
und daher
Vn (
sup |Vn (s, t)| ≤ max{|Vn (
s,t∈I1 ×I2
i p−1
i p−1
i−1 p
i−1 p
,
)+Rn (
,
)|, |Vn (
,
)+Rn (
,
)|}
Mn Mn
Mn Mn
Mn Mn
Mn Mn
und somit
max
sup |Vn (s, t)| ≤
1≤i,p≤Mn s,t∈I1 ×I2
|Vn (
max max{|Vn (
1≤i,p≤Mn
i−1 p
i−1 p
,
) + Rn (
,
)|}
Mn Mn
Mn Mn
69
i p−1
i p−1
,
) + Rn (
,
)|,
Mn Mn
Mn Mn
Es gilt weiter:
i p−1
i p−1
i−1 p
i−1 p
P
max max{|Vn (
,
) + Rn (
,
)|, |Vn (
,
) + Rn (
,
)|} > δ
1≤i,p≤Mn
Mn Mn
Mn Mn
Mn Mn
Mn Mn
i
p
i
p
≤ 2Mn2 P |Vn (
,
)| > δ/2 + P |Rn (
,
)| > δ/2
Mn Mn
Mn Mn
2
l
= O(Mn2
)
(n − l + 1)2
Als Bedingung an Mn ergibt sich hieraus:
0
Mn ≤ n1/2+ε−ε
(wobei l = O(n1/2−ε ). Komisch ist, dass Mn also fast beliebig klein werden kann,
solange es gegen unendlich geht. Bei Naik-Nimbalkar und Rajarshi soll gelten:
0
Mn = O(n1/2−ε+ε )
und l/Mn → 0. Da gibt es eine untere Schranke...
5.5 Beschränkung der Wahrscheinlichkeit für Zuwächse des
Bootstrap-Prozesses zwischen zwei festen Punkten
Unter Verwendung des letzten Lemmas gilt analog zu Lemma 4.1 in Naik-Nimbalkar
und Rajarshi
Lemma 12
∀λ ∈ (0, 1), ∀η > 0 und ∀δ > 0 mit δ 2 /η > n−ε /(2B −1 (λ)) und δ 2 ≥ ∆n gilt
η 2 (λ/2) o
P
−
> η] ≤ 2 exp −
2δ 2
falls für die Punkte s und t gilt: L · |F (t) − F (s)|1/2 ≤ δ 2
∗
[|Un∗ (t)
Un∗ (s)|
n
Das heißt, die W’keit für Zuwächse größer als η zwischen zwei Punkten fällt exponentiell, solange δ im Verhältnis zu η nicht zu klein wird. (Die Konstante L
kommt aufgrund der Abschätzung von σ 2 (s, t) (eigentlich L̃)).
Beweis:
70
Um dieses Lemma zu beweisen macht man sich die Unabhängigkeit der einzelnen
Blöcke zunutze. Hierzu schreiben wir zunächst:
√ k
l X
∗
∗
Un (t) − Un (s) = √
HSi (t) − HSi (s) − (F̃n (t) − F̃n (s))
k i=1
weiter gilt aufgrund der Unabhängigkeit der Summanden:
k
X
k
Var∗ (
HSi (t) − HSi (s) − (F̃n (t) − F̃n (s))) = σ̂n2 (s, t)
l
i=1
Die einzelnen Summanden sind unabhängig und beschränkt. Daher kann die Ungleichung von Bennett angewendet werden und es gilt unter der Voraussetzung
1
1
l = O(n 2 −ε ) gilt (Vielmehr wohl: l = n 2 −ε )
P∗ (|Un∗ (t) − Un∗ (s)| > η)
√
k
X
k
= P(|
HSi (t) − HSi (s) − (F̃n (t) − F̃n (s))| > √ η)
l
i=1
p
p
1 p
η l/k
η k/l B 2
= 2 exp − η k/l 2
2
σ̂n (s, t) σ̂n (s, t)
p
2
1 η
η k/l ≤ 2 exp −
B
2 σ̂n2 (s, t) σ̂n2 (s, t)
p
1
η k/l η2
B
≤ 2 exp −
2 ∆n + σ 2 (s, t) ∆n + σ 2 (s, t)
⇒ σ̂n2 nach oben abschätzen
Um den Ausdruck B(...) durch eine Konstante abschätzen zu können, muss gewährleistet sein, dass das Funktionsargument durch eine Konstante nach oben
beschränkt ist, da die Funktion B(·) fallend ist. Diese Umformungen beweisen:
da der letzte Ausdruck mit größerem n immer kleiner wird, gilt, dass für eine
beliebige Konstante λ der Ausdruck weiter abgeschätzt werden kann durch
1 η2 ≤ 2 exp −
λ
2 2δ 2
vorausgesetzt, n ist hinreichend groß und σ 2 (s, t) ≤ δ (∆n ebenfalls hinreichend
klein .
71
Das zuletzt genannte Lemma wird nun angewendet auf Teilmengen Ω(n) von Ω,
für die gilt, dass ∆n , also die Abweichung |σ̂n2 (·, ·) − σ 2 (·, ·)|, kleiner als O(n−r )
ist. Gemäß dem vorher gezeigten geht die Wahrscheinlichkeit dieser Teilmengen
gegen 1 für n → ∞. Wir konstruieren nun eine Folge von Gittern;
Gemäß Pollard, S.143 wird δi exponentiell fallend gewählt:
δi = 2−i
Um die in Lemma 2 genannte Ungleichung ausnutzen zu können, muss gelten:
{δi2 ≥ max{∆n , n−ε /(2B −1 (λ))}
(Wir können davon ausgehen, dass η < 1 gilt. Durch die Wahl von δi oben werden
die Voraussetzungen dann auf alle Fälle nicht verletzt.)
Es ist nun ein imax =: in zu bestimmen. Dies wird so gewählt, dass
δi2n ≥ ∆n + n−ε /(2B −1 (λ))
Für in gilt:
2−2i ≥ ∆n + n−ε /(2B −1 (λ))
⇔ in ≤ − ln(∆n + n−ε /(2B −1 (λ)))/(2 ln 2)
(in ist also von der Größenordnung konstante · ln n). Abschätzung durch den
kleineren Ausdruck innerhalb der Klammern. (Zu zeigen ist, dass ∆n polynomiell
fällt.)
Es wird nun eine Folge von Gittern Gi konstruiert, so dass für benachbarte Punkte
tj und tj+1 gilt: σ 2 (tj , tj+1 ) ≤ δi2 .
Dies wird erreicht, indem die Punkte so gewählt werden, dass die Zuwächse der
Verteilungsfunktion F zwischen den Gitterpunkten des Gitters Gi von der Höhe
1
· 2−4i
2
L
sind. Dann gilt nämlich:
σ 2 (tj , tj−1 ) ≤ L(F (tj ) − F (tj−1 ))1/2 ≤ 2−2i = δi2
Die Mächtigkeit des Gitters Gi beträgt demnach:
c̃ · 24i + 1
72
Wie in Pollard (Der Konstante D entspricht hier 2/λ, Ni+1 ist die Mächtigkeit
des Gitters Gi ):
2
δi [ln(Ni+1 /δi )]1/2
λ
2 −i
=
2 [ln(Ni+1 · 2i )]1/2
λ
= 2−i (ln(24i + 1) + i ln 2)
ηi :=
∼ 2−i 3i ln 2
Damit gilt für tj , tj−1 aus Gi :
3 ln 2
1
P∗ (|Un (tj ) − Un (tj−1 )| > ηi ) ≤ exp{− (ln(22i + 1) + i ln 2)λ} ≤ e−( 2 i)
2
Für die Summe der ηi gilt also:
k
X
i=1
k
X
2
δi [2 ln(L2 · (24i + 1) · 2i )]1/2
ηi =
|
{z
}
λ
i=1
O(i)
k
X
2 −i
=
2 · O(i)
λ
i=1
Wird mit xi (t) der t am nächsten gelegene Punkt des Gitters Gi bezeichnet, so
gilt (gemäß Pollard, S. 143) für einen Index i0 :
∗
P (max
t∈Gin
|Un∗ (xi0 (t))
−
Un∗ (t)|
>
in
X
ηk ) ≤
k=i0
in
X
2δk
k=i0
Insgesamt gilt also zunächst aufgrund der Summierbarkeit der ηk und δk :
Lemma 13 Für jedes vorgegebene η − δ-Paar existiert ein Index i0 , so dass für
ω ∈ Ω(n) gilt:
P∗ ( max
max
j∈1,...,Min t∈[xi0 ,j−1 ,xi0 ,j )∩Gin
|Un∗ (xi0 (t)) − Un∗ (t)| > η) ≤ δ
Wähle hierzu i0 so, dass für die Summe der ηk und δk (wie oben definiert) jeweils
η bzw. δ als obere Schranke gilt. Dann kann die W’keit entsprechend abgeschätzt
werden. (S.o.)
Nachdem im letzten Lemma gezeigt ist, dass für ω ∈ Ω(n) (aufgrund der Kleinheit
der Abweichung ∆n ) die Zuwächse zwischen den Punkten des Gitters Gi0 und den
73
Punkten des Gitters Gin mit hoher Wahrscheinlichkeit klein sind, gilt es nun noch
zu zeigen, dass die Zuwächse zwischen beliebigen Punkten des Kontinuums und
dem nächstgelegenen Gitterpunkt aus Gin ebenfalls mit hoher Wahrscheinlichkeit
klein sind. Dann kann der betrachtete Prozess gut auf dem endlichen Gitter Gi0
approximiert werden.
Dies folgt aus einem Analogon zu Lemma 4.3 aus Naik-Nimbalkar und Rajarshi
Lemma 14
Zu zeigen ist nun noch folgendes: Für Gin mit der Mächtigkeit Min gilt:
P∗ ( sup
|Un∗ (xin (t)) − Un∗ (t)| > η) ≤ δ
t∈[−∞,∞]
Beweis:
Hierzu wird die gleiche Vorgehensweise gewählt wie in Naik-Nimbalkar und Rajarshi, Lemma 4.3;
Bei einer Originalstichprobe vom Umfang n nimmt Un∗ (t) − Un∗ (s) höchstens
(n + 1)2 unterschiedliche Werte an
Für beliebige Punkte t und t0 mit Fn (t) = Fn (t0 ) gilt, dass
1{Xr ≤ t} = 1{Xr ≤ t0 }.
Also gilt ebenfalls:
l
n−l
l
XX
1
1X
1{Xi+r ≤ t} −
1{Xj+r ≤ t}
l r=1
l(n − l + 1) j=0 r=1
= Hi (t) − E∗ (Fn∗ (t)) = Hi (t0 ) − E∗ (Fn∗ (t0 ))
und damit auch
HSi (t) = HSi (t0 ), ∀i ∈ {1, ..., k}
sowie
Un∗ (t) = Un∗ (t0 )
Die empirische Verteilungsfunktion Fn nimmt nur n + 1 Werte an, so dass
Un∗ (t) − Un∗ (s) nur (n + 1)2 Werte annehmen kann.
74
Also gilt
P∗ ( sup
|Un∗ (xin (t)) − Un∗ (t)| > η)
t∈[−∞,∞]
≤ (n + 1)2 ·
sup
P∗ (|Un∗ (xin (t)) − Un∗ (t)| > η)
t∈[−∞,∞]
Des weiteren gilt folgende Darstellung:
k
X
[HSi (t) − HSi (s)] − [F̃n (t) − F̃n (s)]
√ √
=
l· k
i=1
Die Summanden sind beschränkt durch
√
√l .
k
Daher kann anhand der Bernstein-
Ungleichung abgeschätzt werden:
1
η2
p
P∗ (|Un∗ (xin (t)) − Un∗ (t)| > η) ≤ 2 · exp −
2 σ̂n2 (xi,n (t), t) + 32 η l/k
1
η2
= exp −
2
2 σ̂n2 (xi,n (t), t) + 3 ηln−1/2
Des weiteren kann σ̂n2 (xi,n (t), t) betragsmäßig abgeschätzt werden durch
σ̂n2 (xi,n (t), t) ≤ ∆n + σ 2 (xi,n (t), t) ≤ ∆n + δn2
aufgrund der Wahl der Gitterpunkte.
Daher kann die oben genannte Wahrscheinlichkeit beschränkt werden durch
1
η2
exp −
2
2
−1/2
2 ∆n + δn + 3 ηn
Auf den Mengen Ω(n) kann dies aufgrund der Eigenschaften von ∆n und δn2 abgeschätzt werden durch
O(n−r ), für ein r > 0
Insgesamt gilt also:
P∗ ( sup
n→∞
|Un∗ (xin (t)) − Un∗ (t)| > η) ≤ 2(n + 1)2 exp(−Cnr ) → 0
t∈[−∞,∞]
A
Die Straffheit des zweiten Teils des Prozesses folgt daraus, dass
n
1 X
√
(l(Xi∗ , θ) − E∗ l(Xi∗ , θ))
n i=1
asymptotisch normalverteilt ist (was noch zu zeigen ist) und Ḟθ hinreichend gutartig. Damit gelten die Betrachtungen analog zum parametrischen Bootstrap.
75
6 Anwendung auf Teststatistiken und Konsistenz
des Bootstrap-Verfahrens
Die oben bewiesene Verteilungskonvergenz des Bootstrap-Prozesses gegen denselben Grenzprozess wie im Falle des Originalprozesses kann nun angewendet werden, um kritische Werte für Teststatistiken zu erhalten, die asymptotisch Tests
zum gewünschten Konfidenzniveau liefern.
Die Übertragung der Verteilungskonvergenz des empirischen Prozesses auf die
der Teststatistik liefert das Continuous Mapping Theorem, siehe Pollard, Kapitel
IV.2
Theorem 4 Gegeben seien metrische Räume X und X 0 sowie darauf σ-Algebren
A bzw. A0 . Sei H : X → X 0 eine A/A0 -messbare Abbildung. Gilt, dass H in jedem
Punkt einer separablen, A-messbaren Menge C von completely regular points,
D
D
dann folgt aus Xn → X zusammen mit P(X ∈ C)=1, dass HXn → HX.
Das zuletzt erzielte Resultat in anderer Form lautet
n→∞
P |P∗n (Wn∗ ∈ A) − P(G ∈ A)| > ε → 0
Die Pfade von G sind gemäß Theorem 2 auf einer Menge konzentriert, die die
in Theorem 4 geforderten Eigenschaften erfüllt, denn alle Punkte in D(R̄) und
somit insbesondere diejenigen in C(R̄) sind completely regular (?) und es gilt
ebenfalls, dass C(R̄) eine vollständige, P-messbare Menge in (D, P) ist(?).
Bezeichnet H : D(R̄) → R also ein auf C(R̄) stetiges Funktional, so überträgt
sich anhand des Continuous Mapping Theorems die Verteilungskonvergenz von
Wn gegen G auf die Verteilungskonvergenz von HWn gegen HG und für den
Bootstrap-Prozess gilt die entsprechende Aussage in Wahrscheinlichkeit.
Gilt darüber hinaus, dass die Grenzverteilung von HG stetig ist, so gilt sogar
n→∞
P sup |P∗n (HWn∗ ≤ x) − P(HG ≤ x)| > ε → 0
x∈R
und damit auch
n→∞
P sup |P∗n (HWn∗ ≤ x) − P(HWn ≤ x)| > ε → 0
x∈R
Unter der Voraussetzung der stetigen Grenzverteilung der Teststatistik ist also
die schwache Konsistenz des Bootstrap-Verfahrens in der Supremums-Norm gewährleistet.
76
(n)
Damit gilt, wenn mit t1−α das 1 − α-Quantil der Verteilung von HWn∗ bezeichnet
wird
(n)
(n)
P |P∗n (HWn∗ ≤ t1−α ) − P(HWn ≤ t1−α )| > ε
n→∞
(n)
= P |1 − α − P(HWn ≤ t1−α )| > ε → 0, d.h.
(n)
P
P(HWn ≤ t1−α )| → 1 − α
Falls also die Teststatistik eine stetige Abbildung ist auf der Menge, auf der die
Pfade des Grenzprozesses mit Wahrscheinlichkeit 1 konzentriert sind, und falls die
Verteilung von HG stetig ist, liefert also die Verwendung des kritischen Wertes
der Bootstrap-Statistik einen Test, der asymptotisch das gewünschte Konfidenzniveau erreicht.
6.1 Beispiele
6.1.1 Kolmogorov-Smirnov-Test
Im Raum D(R̄), ausgestattet mit der Sup-Norm, ist die Abbildung
|| · ||∞ : D(R̄) → R
stetig, die Verteilungskonvergenz der Prozesse überträgt sich also mit Theorem 4
auf die Teststatistik. Die Stetigkeit der Grenzverteilung ist ebenfalls gewährleistet. Zu zeigen ist hierzu, dass für beliebiges a ∈ R gilt:
h→0
|P(||G||∞ > a) − P (||G||∞ > a + h)| → 0,
dass also für beliebiges ε > 0 ein h0 := h(a, ε) existiert, so dass für h ≤ h0 gilt
|P(||G||∞ > a) − P (||G||∞ > a + h)| ≤ ε
Sei nun h > 0. Dann gilt
|P(||G||∞ > a) − P(||G||∞ > a + h)|
= P(||G||∞ > a) − P(||G||∞ > a + h)
= P( max
sup
i=1,...,Mh t∈(x
i−1 ,xi ]
− P( max
sup
|G(xi ) − G(t) − G(xi )| > a + h − h)
i=1,...,Mh t∈(x
i−1 ,xi ]
≤ P( max
sup
i=1,...,Mh t∈(x
i−1 ,xi ]
|G(xi ) − G(t) − G(xi )| > a + h)
|G(xi ) − G(t)| > h) + P( max |G(xi )| > a − h)
i=1,...,Mh
− P( max |G(xi )| > a + h)
i=1,...,Mh
77
Aufgrund der Approximierbarkeit des Grenzprozesses auf einem Gitter können
die Punkte x0 , ..., xMh für jedes h so gewählt werden, dass der erste Term unter
einer beliebig kleinen Schranke ε/2 bleibt.
Um zu zeigen, dass der zweite Term für hinreichend kleines h ebenfalls kleiner
als ε/2 ist, ist die Stetigkeit der Verteilung von
max |G(xi )| zu zeigen. Diese
i=1,...,Mh
folgt aber aus der Tatsache, dass unter der Bedingung
X
Var(G( xi )) =
cov(Zθ (Xk , xi ), Zθ (X0 , xi )) > 0
k∈Z
für beliebiges b ∈ R gilt
[
P( max |G(xi )| = b) ≤ P(
i=1,...,Mh
≤
Mh
X
{|G(xi )| = b})
i=1,...,Mh
P (G(xi ) = b) + P (G(xi ) = −b) = 0
i=1
da G(b) für beliebiges b normalverteilt ist mit positiver Varianz. Analoge Überlegungen gelten für h < 0, äquivalent zur Subtraktion von h > 0:
|P(||G||∞ > a − h) − P(||G||∞ > a)|
= P(||G||∞ > a − h) − P(||G||∞ > a)
= P( max
sup
i=1,...,Mh t∈(x
i−1 ,xi ]
− P( max
sup
|G(xi ) − G(t) − G(xi )| > a + h − 2h)
i=1,...,Mh t∈(x
i−1 ,xi ]
≤ P( max
sup
i=1,...,Mh t∈(x
i−1 ,xi ]
|G(xi ) − G(t) − G(xi )| > a)
|G(xi ) − G(t)| > h) + P( max |G(xi )| > a − 2h)
i=1,...,Mh
− P( max |G(xi )| > a)
i=1,...,Mh
6.1.2 Arithmetisches Mittel als Parameterschätzer
Sei θ der Erwartungswert der Beobachtungen X1 , ..., Xi . Setze als Schätzer für θ
n
1X
Xi
θ̂n =
n i=1
und analog für die Bootstrap-Stichprobe
n
θ̂n∗ =
k
k
1X ∗ 1X1X
X =
XSi +j
n i=1 i
k i=1 l j=1
78
Da θ̂n bereits eine lineare Funktion der Beobachtungen ist, ist die Voraussetzung
A1 (iii) bereits erfüllt, wenn die Beobachtungen Momente der Ordnung 24 besitzen.
Für den Fall des auf der Bootstrap-Stichprobe basierenden Schätzers ist Voraussetzung A1 (ii)∗ nachzuprüfen.
Zu zeigen ist:
k
θ̂n∗
l
n−l
l
X1X
1X1X
1
− θ̂n =
`(XSi +j ) −
`(Xr+j , θ) + lP∗ (1)
k i=1 l j=1
n − l + 1 r=0 l j=1
Es gilt
k
θ̂n∗
− θ̂n
l
n
1X i
1 X h1 X
XSi +j −
Xt
=
k i=1 l j=1
n t=1
k
=
l
n
1X1X
1X
XSi +j − E∗ (
XS0 +j )
k i=1 l j=1
l j=1
n
+
k
n
X
1X
1
w̃(t)Xt −
Xt
n − l + 1 t=1
n t=1
l
n
X
1X1X
1
=
XSi +j −
w̃(t)Xt
k i=1 l j=1
n − l + 1 t=1
n
n
X
1X
1
w̃(t)Xt −
Xt
+
n − l + 1 t=1
n t=1
Betrachtung des Restterms in der letzten Zeile
n
n
X
1
1X
+
w̃(t)Xt −
Xt
n − l + 1 t=1
n t=1
n
n
X
X
l+1
1
=
(1 − w̃(t))Xt +
Xt
n − l + 1 t=0
n(n − l + 1) t=1
=
l
n
l
1X
l
1 X
(1 − w̃(t))Xt +
(1 − w̃(t))Xt
n − l + 1 l t=1
n − l + 1 l t=n−l+1
n
+
X
l+1
Xt
n(n − l + 1) t=1
Unter Anwendung einer Ungleichung für die vierten Momente schwach abhängiger
Zufallsvariablen konvergiert der Resterm in Wahrscheinlichkeit gegen Null.
79
6.2 Lokale Alternativen
Es ist zu zeigen, dass das vorgeschlagene Bootstrap-Verfahren auch unter H1 := {
P
Voraussetzung: Es gilt, dass θ̂n → θ̄, für einen Wert θ̄ ∈ Rp .
Betrachtet wird eine Folge von Prozessen (Xnt )t∈Z für n ∈ N, die die unter (A1)
gestellten Voraussetzungen erfüllt und deren stationäre Verteilung die Verteilungsfunktion
1
F̃n := Fθ + √ g
n
besitzt mit lim g(x) 6= 0 ∀x ∈ R und g lipschitzstetig mit Lipschitzkonstante C.
n→∞
Dann gilt
Wn (x) =
√
n Fn (x) − F̃θ̂n (x)
√
1
n Fn (x) − F̃n (x) + Fθ (x) − Fθ̂n (x) + √ g(x)
n
√
√
= g(x) + n Fn (x) − F̃n (x) + n Fθ (x) − Fθ̂n (x)
√
√
√
= g(x) + n Fn (x) − F̃n (x) + n(θ − θ̂n ) · Ḟθ (x) + n(θ − θ̂n ) Ḟθ̃n (x) − Ḟθ (x)
√
√
= g(x) + n Fn (x) − F̃n (x) + n(θ − θ̂n ) · Ḟθ (x) + oP (1)
=
Analog zur Aussage von Theorem 1 konvergiert diese Folge von Prozessen in Verteilung gegen G̃ + g (siehe Beweis von Theorem 1), wobei es sich dabei um einen
nichtzentrierten Gaußprozess handelt.
Unter der Voraussetzung, dass die unter H1 betrachteten Prozesse für n → ∞
dieselbe Kovarianzstruktur besitzen wie der Grenzprozess G, gilt somit die Konvergenz gegen G + g.
7 Anhang
Abschätzung der Kovarianzen
Definiere Ys,t (Xi ) := I(s < Xi ≤ t) − F (s, t) sowie
Xi − s a
Xi − s +I(s < Xi ≤ s + a) 1 −
a
Ỹs,t (Xi ) := I(s < Xi ≤ t) − F (s, t) + I(s − a < Xi ≤ s) 1 +
80
Ỹs,t (Xi ) ist gleichmäßig lipschitzstetig in Xi , für alle s, t ∈ R2 . Damit gilt aufgrund
der Eigenschaft der schwachen Abhängigkeit der Xi :
| cov(Ys,t (S1 ), Ys,t (X1+|i| ))| ≤ cov(Ys,t (X1 ), Ỹs,t (X1+|i| ))
+| cov(Ys,t (X1 ), Ys,t (X1+|i| − Ỹs,t (X1+|i| )))|
q
1
2
≤ · E(Ys,t
(X1 ) · K · ρ|i|
a
+E[(I(s < X1 ≤ t) − F (s, t))(−I(s − a < X1+|i| ≤ s)
−I(t < X1+|i| ≤ t + a) 1 −
X1+|i| − s
+1
a
X1+|i| − t )]
a
1 q
2
≤ · E(Ys,t
(X1 ) · K · ρ|i| + 2 · ·aL · F (s, t) = O(ρ|i|/2 )
a
falls a ρ|i|/2 . Damit ist die Summe über die Kovarianzen absolut konvergent
und insgesamt gilt für σ 2 (s, t)
2
σ (s, t) =
∞
X
cov[(I(s < X1 ≤ t) − F (s, t))(I(s < X1+|i| ≤ t) − F (s, t))]
i=−∞
81
7.1 Darstellung für quadratisches Risiko von σ̂n2 (s, t)
denn
σ̂n2 (s, t) − E[σ̂n2 (s, t)] =
n−l
hX
i
l
=
Vj (s, t) + V (s, t)
n − l + 1 j=0
n−l hn
X
1
Uj+r (s, t) − (F̃n (t) − F̃n (s)) o2 i
−
E
n − l + 1 j=0
l
n−l
l
n−l
l
X 1 X
X1X
2
1
Uj+r (s, t)}2 −
Uj+r (s, t) · [F̃n (t) − F̃n (s)]
=
n − l + 1 j=0 l r=1
n − l + 1 j=0 l r=1
1
+ 2 {F̃n (t) − F̃n (s)}2
l
l
n−l
l
X
X
2
1
1X
2
Uj+r (s, t)) · (F̃n (t) − F̃n (s)}
Uj+r (s, t)} − 2 E{(
−
E{
n − l + 1 j=0
l r=1
l
r=1
+E(F̃n (t) − F̃n (s))2
n−l
l
X
1
1
1X
=
Uj+r (s, t)]2 − 2 {F̃n (t) − F̃n (s)}2
[
n − l + 1 j=0 l r=1
l
n−l
−
l
X 1X
2
(
Uj+r (s, t))(F (t) − F (s))
n − l + 1 j=0 l r=1
n−l
l
X 1X
1
1
−
Uj+r (s, t)]2 − 2 E[(F̃n (t) − F̃n (s))2 ]
E[
n − l + 1 j=0 l r=1
l
n−l
+2
l
X1X
1
Uj+r (s, t)(F (t) − F (s)) + [F (t) − F (s)]2 − [F (t) − F (s)]2
n − l + 1 j=0 l r=1
|
{z
}
=F̃n (s,t)
Die vierten Momente der Summe über die Vj können anhand einer Ungleichung
für die vierten MOmente von Summen schwach abhängiger Zufallsgrößen abgeschätzt werden. Vergleiche hierzu Neumann/Paparoditis (s. auch Anhang).
Demzufolge gilt:
n−l
n−l
n−l
i2
X
4
X
X
2
(r + 1)2 · Cr,4 (B)
E
Vj ≤ (n − l + 1)
cov(V1 , V1+r ) + 3(n − l + 1)
j=0
r=0
r=0
82
wobei gilt
1
l2
und insgesamt ergibt sich damit
l
l
n−l
X
X
4
X
2 1
const +
l2 · ρ|i|−l
E
Vj
= (n − l + 1) · 4
l
1
1
j=0
Cr,4 ρr−|l| ·
+3(n − l + 1)
7.2 Bzgl. glm. Konvergenz: Abschätzung vierter Momente
Es wird die Ungleichung für die vierten Momente schwach abhängiger Zufallsvariablen angewendet.
Im betrachteten Fall handelt es sich um folgende Summe:
n−l
l
X1X
1
Uj+r (xi−1 , xi ) − E(Uj+r (xi−1 , xi ))
n − l + 1 j=0 l r=1
Bezeichne im folgenden abkürzend
Ūj+r (xi−1 , xi ) := Uj+r (xi−1 , xi ) − E(Uj+r (xi−1 , xi ))
Das vierte Moment der Summe kann folgendermaßen abschätzt werden
n−l
l
4
X
1
1X
U
(x
,
x
)
−
E(U
(x
,
x
))
j+r i−1
i
j+r i−1
i
(n − l + 1)4 j=0 l r=1
≤ 4!
1
(n − l + 1)2
n−l−1
X
Cv,2
v=0
2
n−l−1
X
1
2
C
(v
+
1)
+
v,4
(n − l + 1)3 v=0
Cv,2 bzw. Cv,4 bezeichnet ...
Betrachtung von Cv,2 und Cv,4
l
l
l
l
n
1 X
1X
1X
1X
Ūt ,
Ūv +t
Ūv +t
Ūv +t ,
Cv,4 = max cov
l t =1 1 l t =1 1 2 l t =1 2 3 l t =1 3 4
1
cov
l
X
1
lt
1 =1
Ūt1
2
l
X
1
lt
2
3
l
X
1
Ūv1 +t2 ,
lt
=1
3 =1
Ūv2 +t3
4
l
X
1
lt
Ūv3 +t4
4 =1
l
l
l
l
1X
o
1X
1X
1X
cov
Ūt
Ūv +t
Ūv +t ,
Ūv +t
l t =1 1 l t =1 1 2 l t =1 2 3 l t =1 3 4
1
2
3
83
4
,
wobei 0 ≤ v1 ≤ v1 ≤ v2 und in der ersten Zeile v1 = v gilt, in der zweiten
v2 − v1 = v sowie in der dritten v3 − v2 = v.
Die dritte Kovarianz kann abgeschätzt werden, da das Produkt aus den drei
Summen durch 1 beschränkt ist und die Summe nach dem Komma durch eine lipschitzstetige Variante der Uv3 +t4 ersetzt werden kann. Diese ist wie folgt
definiert:
Xj − (xi−1 − a) a
+ 1{xi−1 ≤ Xi < xi } − F (xi , xi + a)
Xi − (xi − a) + 1{xi ≤ Xi < xi + a} · 1 −
a
=: 11,i + 12,i + 13,i
Ũj (xi−1 , xi ) = 1{xi−1 − a ≤ Xj < xi−1 } ·
Also ergibt sich in diesem Fall
l
l
l
l
1X
1X
1X
1X
Ūt1
Ūv1 +t2
Ūv2 +t3 ,
Ūv3 +t4
l t =1
l t =1
l t =1
l t =1
1
2
3
4
√
1
≤ (C · · K + C · a)ζ v−l+1
a
cov
nochmal nachschauen, ausbalancieren
Bei der ersten Kovarianz gilt zunächst folgende Abschätzung
l
1 X
l
l
l
1X
1X
1X
Ut1 ,
Ũv1 +t2
Ũv2 +t3
Ũv3 +t4
cov
l t =1
l t =1
l t =1
l t =1
1
2
3
4
1 XXXX
= 4
cov Ut1 , Ũv1 +t2 Ũv2 +t3 Ũv3 +t4
l t t t t
1
2
3
4
3
≤
· K · ζ k−v
a
da die Lipschitzkonstante des Produktes aus den drei geglätteten Funktionen
aufgrund deren Beschränktheit durch 1 gleich
84
3
a
beträgt.
Nun bleibt noch abzuschätzen
l
1 X
l
l
l
1X
1X
1X
cov
Ut1 ,
Ũv1 +t2
Ũv2 +t3
Ũv3 +t4
l t =1
l t =1
l t =1
l t =1
1
2
3
l
X
l
X
1
−
lt
2
l
X
1
lt
= cov
Ut1 ,
1 =1
l
X
1
lt
= cov
1 =1
3
l
1X
Ūv2 +t3
Ūv3 +t4
l t =1
=1
4
1 XXX
Ũ
Ũ
Ũ
−
Ū
Ū
Ū
v
+t
v
+t
v
+t
v
+t
v
+t
v
+t
1
2
2
3
3
4
1
2
2
3
3
4
l3 t t t
2
Ut1 ,
1
Ūv1 +t2
lt
=1
4
3
4
1 XXX
l3 t t t
2
3
4
X
1j1 ,v1 +t2 · 1j2 ,v2 +t3 · 1j3 ,v3 +t4
1≤j1 ,j2 ,j3 ≤3
nicht alle=2
=
1 XXXX X
l4 t t t t 1≤j ,j ,j
1
2
3
4
cov Ut1 , 1j1 ,v1 +t2 · 1j2 ,v2 +t3 · 1j3 ,v3 +t4
1 2 3 ≤3
nicht alle=2
Betrachtung von cov Ut1 , 1j1 ,v1 +t2 · 1j2 ,v2 +t3 · 1j3 ,v3 +t4 :
| cov Ut1 , 1j1 ,v1 +t2 · 1j2 ,v2 +t3 · 1j3 ,v3 +t4 |
= |E(Ut1 · 1j1 ,v1 +t2 · 1j2 ,v2 +t3 · 1j3 ,v3 +t4 − E(Ut1 ) · E(1j1 ,v1 +t2 · 1j2 ,v2 +t3 · 1j3 ,v3 +t4 )|
q
p
≤ | E(Ut1 ) · E (1j1 ,v1 +t2 · 1j2 ,v2 +t3 · 1j3 ,v3 +t4 )2 |
+ | E(Ut1 ) · E(1j1 ,v1 +t2 · 1j2 ,v2 +t3 · 1j3 ,v3 +t4 )|
Abschätzung von E(1j1 ,v1 +t2 · 1j2 ,v2 +t3 · 1j3 ,v3 +t4 ). Es gilt
E(1j1 ,v1 +t2 · 1j2 ,v2 +t3 · 1j3 ,v3 +t4 )| ≤ C · a
da zwei der Faktoren betragsmäßig durch 1 abgeschätzt werden können und der
dritte aufgrund der Lipschitzstetigkeit von F durch C · a. Analog gilt
q
√
E (1j1 ,v1 +t2 · 1j2 ,v2 +t3 · 1j3 ,v3 +t4 )2 ≤ C · a
Also gilt insgesamt
l
l
l
1X
1X
1X
Ũv1 +t2
Ũv2 +t3
Ũv3 +t4 |
l t =1
l t =1
l t =1
l t =1
1
2
3
4
√
3
≤ ( · K · ζ v−l+1 + · Ca + C · a
a
| cov
l
1 X
Ut1 ,
85
Analog kann abgeschätzt werden:
l
l
l
l
X
1X
1X
1X
cov 1
Ut1
Uv1 +t2 ,
Uv2 +t3
Uv3 +t4 l t =1
l t =1
l t =1
l t =1
1
2
3
4
√
2
cot K · ζ v−l+1 + Ca + C · a
≤
a
√
v−l+1
≤ (2K + max{C, C}) · ζ 3
Von der gleichen Ordnung ist Cv,2 . Insgesamt gilt also:
n−l
l
X
4
1
1X
Uj+r (xi−1 , xi ) − E(Uj+r (xi−1 , xi ))
n − l + 1 j=0 l r=1
≤ 4!
l−1
n−l−1
X
X v−l+1 2
1
1
+
ζ 3
(n − l + 1)2 v=0
v=l
n−l−1
l−1
X
X
1
2 v−l+1
2
3
(v
+
1)
ζ
(v
+
1)
+
+
(n − l + 1)3 v=0
v=l
2
1
1
3
≤ 4!
l
+
c
+
l
+
c
1
2
(n − l + 1)2
(n − l + 1)3
l2
= O(
)
(n − l + 1)2
Analog können die vierten Momente von
Vj (s, t) =
l
l
1 X
2
1 X
2
Y (Xj+r ) − E
Y (Xj+r )
l r=1
l r=1
abgeschätzt werden.
Es gilt wiederum
l
l
l
l
X
2 1 X
2 1 X
2 1 X
2 cov 1
Ūt1 ,
Ūv1 +t2
Ūv2 +t3
Ūv3 +t4
l t =1
l t =1
l t =1
l t =1
1
2
3
4
l
l
l
l
1X
2 1 X
2 1 X
2 1 X
2 ≤ cov
Ūt ,
Ũv +t
Ũv +t
Ũv +t
l t =1 1
l t =1 1 2
l t =1 2 3
l t =1 3 4
1
2
l
X
1
+ cov
lt
Ūt1
1 =1
−
l
X
1
lt
2 =1
2
3
l
X
1
,
lt
2
Ūv1 +t2
4
l
X
2 1
Ũv1 +t2
lt
=1
3
l
X
2 1
lt
3 =1
86
Ūv2 +t3
l
2 1 X
2
Ũv2 +t3
Ũv3 +t4
l t =1
=1
4
l
X
2 1
lt
4 =1
Ūv3 +t4
2 Die erste Kovarianz kann abgeschätzt werden durch
C·
6
·K
a
Für die zweite gilt mit analogen Betrachtungsweisen wie zuvor
l
l
l
l
X
2 1 X
2 1 X
2 1 X
2
cov 1
Ūt1 ,
Ũv1 +t2
Ũv2 +t3
Ũv3 +t4
l t =1
l t =1
l t =1
l t =1
1
2
−
l
X
1
lt
Ūv1 +t2
2 =1
cov
l
X
1
lt
1 =1
Ut1 ,
3
l
X
2 1
lt
Ūv2 +t3
3 =1
4
l
X
2 1
lt
Ūv3 +t4
2 4 =1
1 X
Ũv +t Ũv +t Ũv +t Ũv +t Ũv +t Ũv +t
l3 t ,t ,t , 1 2 1 3 2 4 2 5 3 6 3 7
2 3 4
t5 ,t6 ,t7
− Ūv1 +t2 Ūv1 +t3 Ūv2 +t4 Ūv2 +t5 Ūv3 +t6 Ūv3 +t7
X
1
1 X
= cov
Ut1 , 3
1j1 ,v1 +t2 1j1 ,v1 +t3 1j2 ,v2 +t4 1j2 ,v2 +t5 1j3 ,v3 +t6 1j3 ,v3 +t7
l t =1
l t ,t ,t , 1≤j ,j ,j ≤3
l
X
1
2 3 4
t5 ,t6 ,t7
1 2 3
nicht alle=2
Somit lassen sich die Kovarianzen analog abschätzen wie im Fall zuvor durch
√
v−l+1
6
· K · ζ v−l+1 + Ca + C · a ≤ const · ζ 3
a
Hier gilt:
Literatur
[1] G. J. Babu and C. R. Rao. Goodness-of-fit Tests When Parameters are
Estimated. Sankyha, 66:63–74, 2004.
[2] P. Billingsley. Convergence of probability measures. Wiley, 1968.
[3] P. Bühlman. The blockwise bootstrap for general empirical processes of
stationary sequences. Stoch. Proc. Appl., 58:247–265, 1995.
[4] Weak convergence of the sample distribution function when parameters are
estimated. Ann. Statist., 1:279-290, 1973.
[5] P. Doukhan and S. Louhichi. A new weak dependence condition and application to moment inequalities. Stoch. Proc. Appl., 84:313–342, 1999.
87
[6] H. R. Künsch. The jackknife and the bootstrap for general stationary observations Ann. Statist., 17, 1217-1241, 1989.
[7] U. V. Naik-Nimbalkar and M. B. Rajarshi. Validity of Blockwise Bootstrap
for Empirical Processes with Stationary Observations. Ann. Statist., 22:980–
994, 1994.
[8] M. H. Neumann and E. Paparoditis. Goodness-of-fit tests for markovian time
series models: Central limit theory and boostrap approximations. Bernoulli,
14:14-46, 2007.
[9] D. Pollard. Convergence of stochastic processes. Springer, 2008.
[10] Rao, M. S. and Krishnaiah, Y.S.R.. Weak convergence of empirical processes
of strong mixing sequences under estimation of parameters. Sankhya Ser. A,
50:26-43, 1988.
[11] W. Stute, W. Gonzáles-Manteiga and M. Presedo-Quindimil. Bootstrap
based goodness-of-fit-tests Metrika, 40:243-256, 1993.
88
Herunterladen