Untitled - Ruhr-Universität Bochum

Werbung
Mathematische Ökonometrie
Ansgar Steland
Fakultät für Mathematik
Ruhr-Universität Bochum, Germany
[email protected]
Skriptum zur LV im SoSe 2005. Diese erste Rohversion erhebt keinen Anspruch auf Korrektheit.
KAPITEL 1
Grundlagen
In diesem Kapitel stellen wir einige Grundresultate der Wahrscheinlichkeitstheorie zusammen, die in der asymptotischen Statistik für unabhängige Daten benötigt werden.
1. Konvergenzbegriffe
{Xn } sei eine Folge von R-wertigen Zufallsvariablen.
Xn konvergiert fast sicher gegen eine Zufallsvariable X, wenn Xn (ω) → X(ω) im Sinne der
reellen Analysis gilt, für alle ω einer Menge vom Maß 1, d.h.:
P ( lim Xn = X) = 1
n→∞
Wir schreiben dafür:
f.s.
Xn → X,
n → ∞.
Man spricht von stochastischer Konvergenz und notiert
P
Xn → X,
n → ∞,
wenn für jedes ε > 0 gilt:
lim P (|Xn − X| > ε) = 0,
n→∞
d.h. die Wahrscheinlichkeit, dass der Abstand von Xn zu X höchstens ε beträgt, konvergiert
für n → ∞ gegen 0.
Seien nun X, X1 , X2 , . . . Zufallsvariablen mit E|X|p , E|Xi |p < ∞, p ∈ N. {Xn } konvergiert
im p-ten Mittel gegen X, falls
E(Xn − X)p → 0,
n → ∞.
In Zeichen:
Lp
Xn → X,
n → ∞.
3
Die Menge der Zufallsvariablen (genauer: Äquivalenzklassen P -f.s. äquivalenter Zufallsvariablen) mit E|X|p < ∞ bildet einen linearen normierten Raum. Die Norm ist durch
kXkLp = (E|X|p )1/p ,
X ∈ Lp ,
gegeben. Konvergenz im p-ten Mittel ist also gerade die Normkonvergenz im Raum Lp .
Für die Anwendungen ist die Konvergenz im quadratischen Mittel besonders wichtig.
Es gilt
f.s.
→
P
⇒
→
⇒
→
und
Lp
→
P
Ferner erzwingt Lp -Konvergenz auch die Konvergenz bzgl. niederer Mittel, d.h.
Lp
→
Lq
⇒
→,
falls p ≥ q
1.1. Konvergenz von Summen, Produkten,...
1.1.1. Summen: Aus der f.s., stochastischen oder Lp -Konvergenz von Summanden darf
man auf die Konvergenz der Summen schließen:
Satz 1.1. Seien X, Xn , Y, Yn Zufallsvariablen. Dann gilt
Xn → X, Yn → Y
⇒
f.s.
Xn + Yn → X + Y,
Lp
P
wenn n → ∞, für die Konvergenzbegriffe →, → und →.
1.1.2. Produkte: Bei der Produktbildung folgt aus der L2 -Konvergenz der Faktoren
lediglich die L1 -Konvergenz, da mit X und Y das Produkt nicht in L2 sein muss (jedoch
auf jeden Fall in L1 ).
Satz 1.2. Seien X, Xn , Y, Yn Zufallsvariablen. Dann gilt
Xn → X, Yn → Y
⇒
f.s.
Xn Yn → XY,
P
wenn n → ∞, für die Konvergenzbegriffe → und →. Ferner gilt
L
L
Xn →2 X, Yn →2 Y
⇒
wenn n → ∞.
4
L
Xn Yn →1 XY,
1.1.3. Stetige Abbildungen: Fast sichere und stochastische Konvergenz respektieren stetige Abbildungen.
Satz 1.3. Sei g : R → R stetig. Dann gilt
Xn → X
⇒
g(Xn ) → g(X),
f.s.
P
wenn n → ∞, für die Konvergenzbegriffe → und →.
1.2. Satz von der dominierten Konvergenz. Die f.s. Konvergenz Xn → X zieht
nicht automatisch die Konvergenz der Erwartungswerte nach sich. Für integrable Zufallsvariablen hat man den folgenden wichtigen Satz.
Satz 1.4. (Satz v.d. dominierten Konvergenz)
X, X1 , X2 , . . . seien integrabel. Es gelte für alle ω ∈ Ω
Xn (ω) → X(ω),
n → ∞.
Ferner gebe es eine integrable Majorante Y ∈ L1 , d.h.
|Xn | ≤ Y
für alle n, sowie EY < ∞.
Dann folgt Konvergenz der Erwartungswerte:
lim E(Xn ) = E(X).
n→∞
L
Die L1 -Konvergenz Xn →1 X, n → ∞, zieht wegen |E(Xn ) − E(X)| ≤ E|Xn − X| die
Konvergenz der Erwartungswerte nach sich: E(Xn ) → E(X), n → ∞. Somit konvergieren
Lp
die Erwartungswerte erst recht, wenn Xn → X.
2. Verteilungskonvergenz
{Xn } sei eine Folge von R-wertigen Zufallsvariablen. Die zugehörigen Verteilungsfunktionen
seien mit
Fn (x) = P (Xn ≤ x),
x ∈ R,
bezeichnet.
Die Folge {Xn } konvergiert in Verteilung gegen X, wenn
lim Fn (x) = F (x),
n→∞
5
für alle x ∈ R, in denen F stetig ist. Man schreibt hierfür
d
Fn → F,
d
Xn → X,
d
Xn → F.
oder
Beispiel 1.1. Es sei Xn ∼ U (1/2 − 1/n, 1/2 + 1/n) und X = 1/2. Dann ist
(
0 t < 1/2
FX (t) := P (X ≤ t) =
1 t ≥ 1/2
Also ist FX stetig in [0, 1/2) sowie (1/2, 1], aber unstetig in 1/2. Es gilt Fn (x) → F (x) für
x ∈ [0, 1/2) und x ∈ (1/2, 1], aber für alle n gilt: Fn (1/2) = 1/2 6→ F (1/2) = 1.
Es ist wichtig festzuhalten, dass Konvergenz in Verteilung nichts über die Konvergenz
der Zufallsvariablen Xn besagt, sondern über die Konvergenz der zugehörigen (nichtstochastischen) Verteilungsfunktionen. Die stochastische Konvergenz von Xn gegen eine
Zufallsvariable X ist jedoch hinlänglich für die Verteilungskonvergenz:
P
d
Proposition 1.1. Aus Xn → X, n → ∞, folgt Xn → X, n → ∞.
2.1. Konvergenz von Summen und Produkten. Im Allgemeinen ist der Schluss
d
d
d
Xn → X, Yn → Y ⇒ Xn + Yn → X + Y
falsch. Er ist jedoch richtig, wenn einer der beteiligten Grenzwerte eine Konstante ist:
Satz 1.5. (Slutzky)
d
d
Gilt Xn → X und Yn → c ∈ R, so folgt
d
Xn + / − / · Yn → X + / − / · Y,
wenn n → ∞.
Eine Standardsituation, in der man den Satz von Slutzky anwendet ist die folgende:
Xn = Yn + Rn ,
P
mit Rn → 0, n → ∞
Kann man nun zeigen, dass Yn in Verteilung gegen Y konvergiert, so ist dies auch für Xn
richtig:
d
Xn → Y
6
3. Einige Ungleichungen
Satz 1.6. (Cauchy-Schwarz-Ungleichung).
Für Zufallsvariablen X, Y ∈ L2 , d.h. E(X 2 ) < ∞ und E(Y 2 ) < ∞ gilt:
p
p
E|XY | ≤ E(X 2 ) E(Y 2 ),
d.h. kXY kL1 ≤ kXkL2 kY kL2 .
Satz 1.7. (Jensen-Ungleichung).
X sei eine integrable Zufallsvariable, d.h. E(X) ∈ R. g : R → R sei eine konvexe Funktion,
so dass Eg(X) ∈ R. Dann gilt
g(E(X)) ≤ E(g(X))
Ist g hingegen konkav, so gilt
g(E(X)) ≥ E(g(X))
Satz 1.8. (Tschebyscheff-Ungleichung). X sei eine positive Zufallsvariable und g positiv
und monoton wachsend auf R+ . Dann gilt für jedes a > 0
P (X > a) ≤
E(g(X))
.
g(a)
4. Gesetz der großen Zahl
Der Umgang mit arithmetischen Mitteln als Schätzung für den Erwartungswert gehört
gewissermaßen zum Alltag des Ökonometrikers. Es stellt sich die Frage, unter welchen
Bedingungen Konvergenz vorliegt.
Seien X1 , . . . , Xn unabhängig und identisch verteilt mit existierendem Erwartungswert µ =
E(X). Sei
n
Xn =
1X
Xi .
n i=1
Das schwache Gesetz besagt, dass X n gegen µ konvergiert, wenn n → ∞, im Sinne der
stochastischen Konvergenz
P
X n → µ,
n → ∞.
7
Gilt σ 2 = E(X12 ) < ∞, so folgt dies sofort aus der Tschebyscheff-Ungleichung (mit g(z) =
z 2 ), da
P (|X n − µ| > ε) ≤
E|X n − µ|2
ε2
mit E|X n − µ|2 = Var (X n ) = σ 2 /n.
Das starke Gesetz liefert die f.s. Konvergenz. Wir formulieren das Ergebnis ohne Beweis.
Satz 1.9. (Starkes Gesetz der großen Zahl)
X1 , . . . , Xn seien unabhängig und identisch verteilt. Dann gilt
n
1X
f.s.
Xn =
Xi → µ = E(X1 )
n i=1
für n → ∞ genau dann, wenn E|X1 | < ∞.
5. Zentraler Grenzwertsatz
Sind X1 , . . . , Xn unabhängig und identisch normalverteilt mit µ = E(X1 ) und 0 < σ 2 =
Var (X1 ) < ∞, so ist das arithmetische Mittel ebenfalls normalverteilt: X n ∼ N (µ, σ 2 /n).
Anders geschrieben:
√
n(X n − µ) ∼ N (0, σ 2 ).
Es stellt sich die Frage, ob solch ein Ergebnis zumindest näherungsweise für große n auch
dann gilt, wenn die Xi nicht normalverteilt sind.
Wir formulieren den zentralen Grenzwertsatz für unabhängige, aber nicht notwendigerweise
identisch verteilte Zufallsvariablen, die von n abhängen dürfen. Es sei also
{Xni : i = 1, . . . , n, n ≥ 1}
ein Schema von zeilenweise unabhängigen Zufallsvariablen, d.h., für alle n sind Xn1 , . . . , Xnn
unabhängig verteilt. Setze
Sn =
n
X
Xni
i=1
und
σn2
= Var (Sn ) =
n
X
i=1
8
Var (Xni )
Satz 1.10. (ZGWS unter Lindeberg-Bedingung).
Für jedes n seien Xn1 , . . . , Xnn seien unabhängig verteilt mit
E(Xni ) = 0
und
2
E(Xni
)<∞
für alle i = 1, . . . , n. Ist die Lindeberg-Bedingung
n
1 X
2
∀ε > 0 : lim 2
E(Xni
1(|Xni | > εσn )) = 0
n→∞ σn
i=1
erfüllt, dann folgt
Sn − E(Sn ) d
p
→ N (0, 1),
Var (Sn )
wenn n → ∞.
Wir betrachten einige wichtige Spezialfälle:
(1) Sind die Xi (f.s.) gleichmäßig beschränkt, d.h.
P (|Xi | ≤ K) = 1,
für alle i
und gilt
σn2
=
n
X
Var (Xi ) → ∞,
i=1
dann ist die Lindeberg-Bedingung erfüllt: Wähle n so groß, dass εσn > K. Dann
P
gilt {|Xi | > εσn } = ∅ für i = 1, . . . , n, so dass ni=1 E(Xi2 1(|Xi | > εσn )) = 0.
(2) Sind X1 , . . . , Xn i.i.d. mit gemeinsamer Varianz σ 2 , so gilt
σn2 = nVar (Xi ) = nσ 2 .
Die Lindeberg-Bedingung hat dann die Gestalt
n
√
1 X
1
E(|Xi |2 1(|Xi | > εσn )) = 2 E(|X1 |2 1(|X1 | > ε nσ)).
2
σn i=1
σ
Man hat für alle ω ∈ Ω
√
Xi (ω)2 1(|Xi (ω)| > ε nσ) → 0,
n → ∞,
√
also ω-punktweise Konvergenz gegen 0. Wegen Xi (ω)2 1(|Xi (ω)| > ε nσ) ≤ Xi (ω)2
ist Xi2 ist eine integrierbare Dominante. Nach dem Satz von der dominierten Konvergenz folgt daher:
√
E(|Xi |2 1(|Xi | > εσ n)) → 0,
9
n → ∞.
Wir notieren noch die folgende Varianten für Summenstatistiken mit nicht-stochastischen
Gewichten.
Satz 1.11. (ZGWS für gewichtete Summen)
X1 , X2 , . . . seien i.i.d. mit E(Xi ) = 0 und 0 < Var (Xi ) < ∞. {ani : i = 1, . . . , n, n ≥ 1}
seien nicht-stochastische Gewichte mit
maxi=1,...,n |ani |
pPn
(1)
→ 0,
2
a
i=1 ni
n → ∞.
Dann ist die gewichtete Summe
Sn =
n
X
ani Xi
i=1
asymptotisch normalverteilt, d.h.
S
d
p n
→ N (0, 1),
Var (Sn )
P
wobei Var (Sn ) = σ 2 ni=1 a2ni .
n → ∞,
Beweis. Wir überprüfen die Lindeberg-Bedingung für die Zufallsvariablen
√
Zni = ani Xi / n,
Dann ist E(Zni ) = 0 und
n
n
X
σ2 X 2
Var (
Zni ) =
a .
n i=1 ni
i=1
Die Lindeberg-Bedingung nimmt die Form
"
#
pP
n
2
X
a
1
i ni
P
E a2ni Xi2 1(|Xi | > εσ
σ 2 ni=1 a2ni i=1
|ani |
pP
2
an. Den Indikator können wir nach oben durch 1(|Xi | > εσ
i ani / maxi |ani |) abschätzen.
Da die Xi identisch verteilt sind, ist


s
X
E a2ni Xi2 1(|Xi | > εσ
a2ni / max |ani |) = a2ni E X12 1(|X1 | > εσ .
i
Somit ist
i
"
#
2
a
1
i ni
E X12 1(|X1 | > εσ
→0
2
σ
maxi |ani |
pP
nachzuweisen. Dies folgt wie in 2. durch den Satz von der dominierten Konvergenz, da
pP
2
i ani / maxi |ani | → ∞, wenn n → ∞.
10
Korollar 1.1. Die Bedingung (1) ist insbesondere dann erfüllt, wenn
Mn = max |ani | → 0,
n → ∞,
i=1,...,n
und
n
X
a2ni → τ > 0,
n → ∞.
i=1
Dann folgt für i.i.d.-Zufallsvariablen X1 , X2 , . . . mit E(Xi ) = 0 und 0 < σ 2 = Var (Xi ) <
∞
n
X
d
ani Xi → N (0, σ 2 τ ),
i=1
wenn n → ∞.
Beispiel 1.2. Betrachte
n
1 Xi
Sn = √
Xi
n i=1 n
wobei X1 , X2 , . . . i.i.d. mit E(Xi ) = 0 und 0 < σ 2 = Var (Xi ) < ∞ seien. Dann ist
P
Sn = ni=1 ani Xi mit Gewichtsschema
Für die Gewichte ani
i
ani = 3/2 .
n
√
√
= (i/n)/ n ≤ 1/ n gilt offensichtlich Mn = maxi |ani | → 0, wenn
n → ∞, und
n
X
i=1
a2ni
n
1
1 X 2 n(n + 1)(2n + 1)
i =
→ ,
= 3
3
n i=1
6n
3
n → ∞.
Somit folgt
n
X
i
d
Xi → N (0, σ 2 /3),
n
i=1
n → ∞.
Der zentrale Grenzwertsatz liefert zunächst die punktweise Konvergenz von
√
x ∈ R,
Fn (x) = P ( n(X n − µ) ≤ x),
gegen
F (x) = Φ(x/σ),
x ∈ R,
wobei Φ(x) = (2π)−1 exp(−x2 /2) die Verteilungsfunktion der Standardnormalverteilung
ist, da Φ(x) in allen Punkten x ∈ R stetig ist. Gilt diese Konvergenz auch gleichmäßig in
x? Dies folgt aus einem allgemeinen Satz von Polya.
11
Satz 1.12. (Polya)
{Fn } sei eine Folge von Verteilungsfunktionen. F sei eine stetige Verteilungsfunktion. Gelte
Fn (x) → F (x),
n → ∞,
d
für alle x ∈ R, d.h. Fn → F , für n → ∞. Dann folgt
sup |Fn (x) − F (x)| → 0,
n → ∞.
x∈R
Es folgt somit
√
lim sup |P ( n(X n − µ)/σ ≤ x) − Φ(x)| = 0.
n→∞
x
Existiert das dritte absolute Moment, so kann man die Konvergenzrate angeben.
Satz 1.13. (Berry-Esseen)
X1 , X2 , . . . seien i.i.d. mit µ = E(Xi ) und σ 2 = Var (Xi ), i = 1, . . . , n. Ferner existiere
ρ3 = E|Xi − µ|3 ,
0 < ρ3 < ∞.
Dann gilt für alle n ∈ N:
√
cρ3
|P ( n(X n − µ)/σ ≤ x) − Φ(x)| ≤ 3 √ ,
σ n
wobei c eine Konstante ist, die nicht von n abhängt.
6. Verteilungskonvergenz für Zufallsvektoren
X = (X1 , . . . , Xp )0 ,
Xn = (Xn1 , . . . , Xnp )0 ,
n ∈ N,
seien unabhängige Zufallsvektoren mit Werten in Rp für ein p ∈ N. Definiere
Fn (x) = P (Xn ≤ x),
x ∈ Rp ,
sowie F (x) = P (X ≤ x), x ∈ Rp . {Xn } konvergiert in Verteilung gegen X, wenn
Fn (x) = F (x),
n → ∞,
für alle x, in denen F stetig ist.
Das wichtigste Hilfsmittel, um die Verteilungskonvergenz von Folgen von Zufallsvektoren
zu verifizieren, ist die Rückführung auf den univariaten Fall durch die sog. Cramer-WoldTechnik.
12
Satz 1.14. (Cramer-Wold)
X, X1 , X2 , . . . seien Zufallsvektoren mit
d
Xn → X,
n → ∞,
genau dann, wenn für alle λ = (λ1 , . . . , λp )0 ∈ Rp − {0} die univariate Folge λ0 Xn in
Verteilung gegen λ0 X konvergiert, d.h.
p
X
d
λk Xnk →
k=1
p
X
λk Xk ,
k=1
für n → ∞.
Satz 1.15. (Multivariater zentraler Grenzwertsatz)
X1 , X2 , . . . seien i.i.d. Zuvallsvektoren mit Erwartungswert µ = E(X1 ) ∈ Rp und Kovarianzmatrix Σ = E(X1 − µ)(X1 − µ)0 . Dann gilt
n
0 d
√
1 X
√
(Xi − µ) = n X ·1 − µ1 , . . . , X ·p − µp → N (0, Σ),
n i=1
für n → ∞.
Mitunter würde man in Formeln auftretende stochastische Terme Xn gerne durch eine
Konstante abschätzen. Sind die Xn nicht f.s. gleichmäßig beschränkt, so kommt man oft
noch zum Ziel, wenn die Folge stochastisch beschränkt ist.
Definition 1.1. Man nennt eine Folge {Xn } stochastisch beschränkt, i.Z.
Xn = OP (1),
wenn es zu jedem ε > 0 eine Konstante M = M (ε) > 0 und einen Index n0 ∈ N gibt, so
dass
P (kXn k > M ) ≤ ε,
∀n ≥ n0 .
Hinreichend für stochastische Beschränktheit ist Verteilungskonvergenz.
Lemma 1.1. Es gelte
d
Xn → X ∼ F,
n → ∞,
Dann folgt
Xn = OP (1)
13
Beweis. Sei ε > 0 und H(z) = P (kXk ≤ z), x ∈ R. Man hat für n ≥ n0
P (kXn k > M ) ≤ |P (kXn k > M ) − (1 − H)(M )| + |(1 − H)(M )| ≤ ε,
wenn M = F −1 (1 − ε/2) und n0 so groß gewählt wird, dass für n ≥ n0 der erste Term auf
der rechten Seite höchstens ε/2 ist.
7. Stetigkeitssatz (CM-Theorem)
Verteilungskonvergenz bleibt unter stetigen Funktionen erhalten. Dies besagt dass häufig
angewandte CM-Theorem (continuous mapping theorem).
Satz 1.16. (CM-Theorem) Es gelte
d
Xn → X,
n → ∞.
Ist ϕ eine stetige Funktion, so folgt
d
ϕ(Xn ) → ϕ(X),
n→∞
Beispiel 1.3. X1 , . . . , Xn seien i.i.d. mit E(Xi ) = µ und 0 < σ 2 = Var (Xi ) < ∞. Dann
gilt
√ X −µ d
→ N (0, 1),
n → ∞,
n
σ
d
d.h. Tn → U , wenn U ∼ N (0, 1). Sei ϕ(z) = z 2 , z ∈ R. Nach dem CM-Theorem folgt
Tn =
d
Tn2 = ϕ(Tn ) → ϕ(U ) ∼ χ2 (1),
n → ∞.
Das folgende Beispiel formulieren wir lieber als Lemma, da wir es oft (ohne Hinweis)
verwenden werden.
Lemma 1.2. Ist Xn ein Folge von Zufallsvektoren, die in Verteilung gegen eine multivariate
Normalverteilung konvergieren,
d
Xn → N (µ, Σ),
n → ∞,
und ist {An } eine Folge von Matrizien, die gegen eine deterministische Matrix A konvergiert, d.h.
P
An → A,
n → ∞,
so folgt
d
An Xn → N (Aµ, AΣA0 ),
14
für n → ∞.
Beweis. Zunächst ist klar, dass
d
AN (µ, Σ) = N (Aµ, AΣA0 )
Die Abbildung ϕ(x) = Ax ist stetig, also folgt nach dem CM-Theorem
d
AXn = ϕ(Xn ) → ϕ(N (µ, Σ)) = N (Aµ, AΣA0 ),
wenn n → ∞. Wir wollen eigentlich An Xn betrachten:
An Xn = AXn + (An − A)Xn .
Die Behauptung folgt, wenn wir
P
(An − A)Xn → 0,
n→∞
zeigen. Da Xn = OP (1), gibt es zu jedem ε > 0 eine Konstante M > 0, so dass P (kXn k >
M ) ≤ ε/2 für hinreichend großes n. Somit folgt für beliebiges η > 0
P (k(An − A)Xn k > η) ≤ P (kAn − AkkXn k > η)
≤ P (kAn − AkkXn k > η, kXn k ≤ M ) + P (kXn k > M )
≤ P (kAn − Ak > η/M ) + ε/2.
Nach Voraussetzung wird der 1. Term ≤ ε/2, wenn n hinreichend groß wird.
15
Herunterladen