Mathematische Ökonometrie Ansgar Steland Fakultät für Mathematik Ruhr-Universität Bochum, Germany [email protected] Skriptum zur LV im SoSe 2005. Diese erste Rohversion erhebt keinen Anspruch auf Korrektheit. KAPITEL 1 Grundlagen In diesem Kapitel stellen wir einige Grundresultate der Wahrscheinlichkeitstheorie zusammen, die in der asymptotischen Statistik für unabhängige Daten benötigt werden. 1. Konvergenzbegriffe {Xn } sei eine Folge von R-wertigen Zufallsvariablen. Xn konvergiert fast sicher gegen eine Zufallsvariable X, wenn Xn (ω) → X(ω) im Sinne der reellen Analysis gilt, für alle ω einer Menge vom Maß 1, d.h.: P ( lim Xn = X) = 1 n→∞ Wir schreiben dafür: f.s. Xn → X, n → ∞. Man spricht von stochastischer Konvergenz und notiert P Xn → X, n → ∞, wenn für jedes ε > 0 gilt: lim P (|Xn − X| > ε) = 0, n→∞ d.h. die Wahrscheinlichkeit, dass der Abstand von Xn zu X höchstens ε beträgt, konvergiert für n → ∞ gegen 0. Seien nun X, X1 , X2 , . . . Zufallsvariablen mit E|X|p , E|Xi |p < ∞, p ∈ N. {Xn } konvergiert im p-ten Mittel gegen X, falls E(Xn − X)p → 0, n → ∞. In Zeichen: Lp Xn → X, n → ∞. 3 Die Menge der Zufallsvariablen (genauer: Äquivalenzklassen P -f.s. äquivalenter Zufallsvariablen) mit E|X|p < ∞ bildet einen linearen normierten Raum. Die Norm ist durch kXkLp = (E|X|p )1/p , X ∈ Lp , gegeben. Konvergenz im p-ten Mittel ist also gerade die Normkonvergenz im Raum Lp . Für die Anwendungen ist die Konvergenz im quadratischen Mittel besonders wichtig. Es gilt f.s. → P ⇒ → ⇒ → und Lp → P Ferner erzwingt Lp -Konvergenz auch die Konvergenz bzgl. niederer Mittel, d.h. Lp → Lq ⇒ →, falls p ≥ q 1.1. Konvergenz von Summen, Produkten,... 1.1.1. Summen: Aus der f.s., stochastischen oder Lp -Konvergenz von Summanden darf man auf die Konvergenz der Summen schließen: Satz 1.1. Seien X, Xn , Y, Yn Zufallsvariablen. Dann gilt Xn → X, Yn → Y ⇒ f.s. Xn + Yn → X + Y, Lp P wenn n → ∞, für die Konvergenzbegriffe →, → und →. 1.1.2. Produkte: Bei der Produktbildung folgt aus der L2 -Konvergenz der Faktoren lediglich die L1 -Konvergenz, da mit X und Y das Produkt nicht in L2 sein muss (jedoch auf jeden Fall in L1 ). Satz 1.2. Seien X, Xn , Y, Yn Zufallsvariablen. Dann gilt Xn → X, Yn → Y ⇒ f.s. Xn Yn → XY, P wenn n → ∞, für die Konvergenzbegriffe → und →. Ferner gilt L L Xn →2 X, Yn →2 Y ⇒ wenn n → ∞. 4 L Xn Yn →1 XY, 1.1.3. Stetige Abbildungen: Fast sichere und stochastische Konvergenz respektieren stetige Abbildungen. Satz 1.3. Sei g : R → R stetig. Dann gilt Xn → X ⇒ g(Xn ) → g(X), f.s. P wenn n → ∞, für die Konvergenzbegriffe → und →. 1.2. Satz von der dominierten Konvergenz. Die f.s. Konvergenz Xn → X zieht nicht automatisch die Konvergenz der Erwartungswerte nach sich. Für integrable Zufallsvariablen hat man den folgenden wichtigen Satz. Satz 1.4. (Satz v.d. dominierten Konvergenz) X, X1 , X2 , . . . seien integrabel. Es gelte für alle ω ∈ Ω Xn (ω) → X(ω), n → ∞. Ferner gebe es eine integrable Majorante Y ∈ L1 , d.h. |Xn | ≤ Y für alle n, sowie EY < ∞. Dann folgt Konvergenz der Erwartungswerte: lim E(Xn ) = E(X). n→∞ L Die L1 -Konvergenz Xn →1 X, n → ∞, zieht wegen |E(Xn ) − E(X)| ≤ E|Xn − X| die Konvergenz der Erwartungswerte nach sich: E(Xn ) → E(X), n → ∞. Somit konvergieren Lp die Erwartungswerte erst recht, wenn Xn → X. 2. Verteilungskonvergenz {Xn } sei eine Folge von R-wertigen Zufallsvariablen. Die zugehörigen Verteilungsfunktionen seien mit Fn (x) = P (Xn ≤ x), x ∈ R, bezeichnet. Die Folge {Xn } konvergiert in Verteilung gegen X, wenn lim Fn (x) = F (x), n→∞ 5 für alle x ∈ R, in denen F stetig ist. Man schreibt hierfür d Fn → F, d Xn → X, d Xn → F. oder Beispiel 1.1. Es sei Xn ∼ U (1/2 − 1/n, 1/2 + 1/n) und X = 1/2. Dann ist ( 0 t < 1/2 FX (t) := P (X ≤ t) = 1 t ≥ 1/2 Also ist FX stetig in [0, 1/2) sowie (1/2, 1], aber unstetig in 1/2. Es gilt Fn (x) → F (x) für x ∈ [0, 1/2) und x ∈ (1/2, 1], aber für alle n gilt: Fn (1/2) = 1/2 6→ F (1/2) = 1. Es ist wichtig festzuhalten, dass Konvergenz in Verteilung nichts über die Konvergenz der Zufallsvariablen Xn besagt, sondern über die Konvergenz der zugehörigen (nichtstochastischen) Verteilungsfunktionen. Die stochastische Konvergenz von Xn gegen eine Zufallsvariable X ist jedoch hinlänglich für die Verteilungskonvergenz: P d Proposition 1.1. Aus Xn → X, n → ∞, folgt Xn → X, n → ∞. 2.1. Konvergenz von Summen und Produkten. Im Allgemeinen ist der Schluss d d d Xn → X, Yn → Y ⇒ Xn + Yn → X + Y falsch. Er ist jedoch richtig, wenn einer der beteiligten Grenzwerte eine Konstante ist: Satz 1.5. (Slutzky) d d Gilt Xn → X und Yn → c ∈ R, so folgt d Xn + / − / · Yn → X + / − / · Y, wenn n → ∞. Eine Standardsituation, in der man den Satz von Slutzky anwendet ist die folgende: Xn = Yn + Rn , P mit Rn → 0, n → ∞ Kann man nun zeigen, dass Yn in Verteilung gegen Y konvergiert, so ist dies auch für Xn richtig: d Xn → Y 6 3. Einige Ungleichungen Satz 1.6. (Cauchy-Schwarz-Ungleichung). Für Zufallsvariablen X, Y ∈ L2 , d.h. E(X 2 ) < ∞ und E(Y 2 ) < ∞ gilt: p p E|XY | ≤ E(X 2 ) E(Y 2 ), d.h. kXY kL1 ≤ kXkL2 kY kL2 . Satz 1.7. (Jensen-Ungleichung). X sei eine integrable Zufallsvariable, d.h. E(X) ∈ R. g : R → R sei eine konvexe Funktion, so dass Eg(X) ∈ R. Dann gilt g(E(X)) ≤ E(g(X)) Ist g hingegen konkav, so gilt g(E(X)) ≥ E(g(X)) Satz 1.8. (Tschebyscheff-Ungleichung). X sei eine positive Zufallsvariable und g positiv und monoton wachsend auf R+ . Dann gilt für jedes a > 0 P (X > a) ≤ E(g(X)) . g(a) 4. Gesetz der großen Zahl Der Umgang mit arithmetischen Mitteln als Schätzung für den Erwartungswert gehört gewissermaßen zum Alltag des Ökonometrikers. Es stellt sich die Frage, unter welchen Bedingungen Konvergenz vorliegt. Seien X1 , . . . , Xn unabhängig und identisch verteilt mit existierendem Erwartungswert µ = E(X). Sei n Xn = 1X Xi . n i=1 Das schwache Gesetz besagt, dass X n gegen µ konvergiert, wenn n → ∞, im Sinne der stochastischen Konvergenz P X n → µ, n → ∞. 7 Gilt σ 2 = E(X12 ) < ∞, so folgt dies sofort aus der Tschebyscheff-Ungleichung (mit g(z) = z 2 ), da P (|X n − µ| > ε) ≤ E|X n − µ|2 ε2 mit E|X n − µ|2 = Var (X n ) = σ 2 /n. Das starke Gesetz liefert die f.s. Konvergenz. Wir formulieren das Ergebnis ohne Beweis. Satz 1.9. (Starkes Gesetz der großen Zahl) X1 , . . . , Xn seien unabhängig und identisch verteilt. Dann gilt n 1X f.s. Xn = Xi → µ = E(X1 ) n i=1 für n → ∞ genau dann, wenn E|X1 | < ∞. 5. Zentraler Grenzwertsatz Sind X1 , . . . , Xn unabhängig und identisch normalverteilt mit µ = E(X1 ) und 0 < σ 2 = Var (X1 ) < ∞, so ist das arithmetische Mittel ebenfalls normalverteilt: X n ∼ N (µ, σ 2 /n). Anders geschrieben: √ n(X n − µ) ∼ N (0, σ 2 ). Es stellt sich die Frage, ob solch ein Ergebnis zumindest näherungsweise für große n auch dann gilt, wenn die Xi nicht normalverteilt sind. Wir formulieren den zentralen Grenzwertsatz für unabhängige, aber nicht notwendigerweise identisch verteilte Zufallsvariablen, die von n abhängen dürfen. Es sei also {Xni : i = 1, . . . , n, n ≥ 1} ein Schema von zeilenweise unabhängigen Zufallsvariablen, d.h., für alle n sind Xn1 , . . . , Xnn unabhängig verteilt. Setze Sn = n X Xni i=1 und σn2 = Var (Sn ) = n X i=1 8 Var (Xni ) Satz 1.10. (ZGWS unter Lindeberg-Bedingung). Für jedes n seien Xn1 , . . . , Xnn seien unabhängig verteilt mit E(Xni ) = 0 und 2 E(Xni )<∞ für alle i = 1, . . . , n. Ist die Lindeberg-Bedingung n 1 X 2 ∀ε > 0 : lim 2 E(Xni 1(|Xni | > εσn )) = 0 n→∞ σn i=1 erfüllt, dann folgt Sn − E(Sn ) d p → N (0, 1), Var (Sn ) wenn n → ∞. Wir betrachten einige wichtige Spezialfälle: (1) Sind die Xi (f.s.) gleichmäßig beschränkt, d.h. P (|Xi | ≤ K) = 1, für alle i und gilt σn2 = n X Var (Xi ) → ∞, i=1 dann ist die Lindeberg-Bedingung erfüllt: Wähle n so groß, dass εσn > K. Dann P gilt {|Xi | > εσn } = ∅ für i = 1, . . . , n, so dass ni=1 E(Xi2 1(|Xi | > εσn )) = 0. (2) Sind X1 , . . . , Xn i.i.d. mit gemeinsamer Varianz σ 2 , so gilt σn2 = nVar (Xi ) = nσ 2 . Die Lindeberg-Bedingung hat dann die Gestalt n √ 1 X 1 E(|Xi |2 1(|Xi | > εσn )) = 2 E(|X1 |2 1(|X1 | > ε nσ)). 2 σn i=1 σ Man hat für alle ω ∈ Ω √ Xi (ω)2 1(|Xi (ω)| > ε nσ) → 0, n → ∞, √ also ω-punktweise Konvergenz gegen 0. Wegen Xi (ω)2 1(|Xi (ω)| > ε nσ) ≤ Xi (ω)2 ist Xi2 ist eine integrierbare Dominante. Nach dem Satz von der dominierten Konvergenz folgt daher: √ E(|Xi |2 1(|Xi | > εσ n)) → 0, 9 n → ∞. Wir notieren noch die folgende Varianten für Summenstatistiken mit nicht-stochastischen Gewichten. Satz 1.11. (ZGWS für gewichtete Summen) X1 , X2 , . . . seien i.i.d. mit E(Xi ) = 0 und 0 < Var (Xi ) < ∞. {ani : i = 1, . . . , n, n ≥ 1} seien nicht-stochastische Gewichte mit maxi=1,...,n |ani | pPn (1) → 0, 2 a i=1 ni n → ∞. Dann ist die gewichtete Summe Sn = n X ani Xi i=1 asymptotisch normalverteilt, d.h. S d p n → N (0, 1), Var (Sn ) P wobei Var (Sn ) = σ 2 ni=1 a2ni . n → ∞, Beweis. Wir überprüfen die Lindeberg-Bedingung für die Zufallsvariablen √ Zni = ani Xi / n, Dann ist E(Zni ) = 0 und n n X σ2 X 2 Var ( Zni ) = a . n i=1 ni i=1 Die Lindeberg-Bedingung nimmt die Form " # pP n 2 X a 1 i ni P E a2ni Xi2 1(|Xi | > εσ σ 2 ni=1 a2ni i=1 |ani | pP 2 an. Den Indikator können wir nach oben durch 1(|Xi | > εσ i ani / maxi |ani |) abschätzen. Da die Xi identisch verteilt sind, ist s X E a2ni Xi2 1(|Xi | > εσ a2ni / max |ani |) = a2ni E X12 1(|X1 | > εσ . i Somit ist i " # 2 a 1 i ni E X12 1(|X1 | > εσ →0 2 σ maxi |ani | pP nachzuweisen. Dies folgt wie in 2. durch den Satz von der dominierten Konvergenz, da pP 2 i ani / maxi |ani | → ∞, wenn n → ∞. 10 Korollar 1.1. Die Bedingung (1) ist insbesondere dann erfüllt, wenn Mn = max |ani | → 0, n → ∞, i=1,...,n und n X a2ni → τ > 0, n → ∞. i=1 Dann folgt für i.i.d.-Zufallsvariablen X1 , X2 , . . . mit E(Xi ) = 0 und 0 < σ 2 = Var (Xi ) < ∞ n X d ani Xi → N (0, σ 2 τ ), i=1 wenn n → ∞. Beispiel 1.2. Betrachte n 1 Xi Sn = √ Xi n i=1 n wobei X1 , X2 , . . . i.i.d. mit E(Xi ) = 0 und 0 < σ 2 = Var (Xi ) < ∞ seien. Dann ist P Sn = ni=1 ani Xi mit Gewichtsschema Für die Gewichte ani i ani = 3/2 . n √ √ = (i/n)/ n ≤ 1/ n gilt offensichtlich Mn = maxi |ani | → 0, wenn n → ∞, und n X i=1 a2ni n 1 1 X 2 n(n + 1)(2n + 1) i = → , = 3 3 n i=1 6n 3 n → ∞. Somit folgt n X i d Xi → N (0, σ 2 /3), n i=1 n → ∞. Der zentrale Grenzwertsatz liefert zunächst die punktweise Konvergenz von √ x ∈ R, Fn (x) = P ( n(X n − µ) ≤ x), gegen F (x) = Φ(x/σ), x ∈ R, wobei Φ(x) = (2π)−1 exp(−x2 /2) die Verteilungsfunktion der Standardnormalverteilung ist, da Φ(x) in allen Punkten x ∈ R stetig ist. Gilt diese Konvergenz auch gleichmäßig in x? Dies folgt aus einem allgemeinen Satz von Polya. 11 Satz 1.12. (Polya) {Fn } sei eine Folge von Verteilungsfunktionen. F sei eine stetige Verteilungsfunktion. Gelte Fn (x) → F (x), n → ∞, d für alle x ∈ R, d.h. Fn → F , für n → ∞. Dann folgt sup |Fn (x) − F (x)| → 0, n → ∞. x∈R Es folgt somit √ lim sup |P ( n(X n − µ)/σ ≤ x) − Φ(x)| = 0. n→∞ x Existiert das dritte absolute Moment, so kann man die Konvergenzrate angeben. Satz 1.13. (Berry-Esseen) X1 , X2 , . . . seien i.i.d. mit µ = E(Xi ) und σ 2 = Var (Xi ), i = 1, . . . , n. Ferner existiere ρ3 = E|Xi − µ|3 , 0 < ρ3 < ∞. Dann gilt für alle n ∈ N: √ cρ3 |P ( n(X n − µ)/σ ≤ x) − Φ(x)| ≤ 3 √ , σ n wobei c eine Konstante ist, die nicht von n abhängt. 6. Verteilungskonvergenz für Zufallsvektoren X = (X1 , . . . , Xp )0 , Xn = (Xn1 , . . . , Xnp )0 , n ∈ N, seien unabhängige Zufallsvektoren mit Werten in Rp für ein p ∈ N. Definiere Fn (x) = P (Xn ≤ x), x ∈ Rp , sowie F (x) = P (X ≤ x), x ∈ Rp . {Xn } konvergiert in Verteilung gegen X, wenn Fn (x) = F (x), n → ∞, für alle x, in denen F stetig ist. Das wichtigste Hilfsmittel, um die Verteilungskonvergenz von Folgen von Zufallsvektoren zu verifizieren, ist die Rückführung auf den univariaten Fall durch die sog. Cramer-WoldTechnik. 12 Satz 1.14. (Cramer-Wold) X, X1 , X2 , . . . seien Zufallsvektoren mit d Xn → X, n → ∞, genau dann, wenn für alle λ = (λ1 , . . . , λp )0 ∈ Rp − {0} die univariate Folge λ0 Xn in Verteilung gegen λ0 X konvergiert, d.h. p X d λk Xnk → k=1 p X λk Xk , k=1 für n → ∞. Satz 1.15. (Multivariater zentraler Grenzwertsatz) X1 , X2 , . . . seien i.i.d. Zuvallsvektoren mit Erwartungswert µ = E(X1 ) ∈ Rp und Kovarianzmatrix Σ = E(X1 − µ)(X1 − µ)0 . Dann gilt n 0 d √ 1 X √ (Xi − µ) = n X ·1 − µ1 , . . . , X ·p − µp → N (0, Σ), n i=1 für n → ∞. Mitunter würde man in Formeln auftretende stochastische Terme Xn gerne durch eine Konstante abschätzen. Sind die Xn nicht f.s. gleichmäßig beschränkt, so kommt man oft noch zum Ziel, wenn die Folge stochastisch beschränkt ist. Definition 1.1. Man nennt eine Folge {Xn } stochastisch beschränkt, i.Z. Xn = OP (1), wenn es zu jedem ε > 0 eine Konstante M = M (ε) > 0 und einen Index n0 ∈ N gibt, so dass P (kXn k > M ) ≤ ε, ∀n ≥ n0 . Hinreichend für stochastische Beschränktheit ist Verteilungskonvergenz. Lemma 1.1. Es gelte d Xn → X ∼ F, n → ∞, Dann folgt Xn = OP (1) 13 Beweis. Sei ε > 0 und H(z) = P (kXk ≤ z), x ∈ R. Man hat für n ≥ n0 P (kXn k > M ) ≤ |P (kXn k > M ) − (1 − H)(M )| + |(1 − H)(M )| ≤ ε, wenn M = F −1 (1 − ε/2) und n0 so groß gewählt wird, dass für n ≥ n0 der erste Term auf der rechten Seite höchstens ε/2 ist. 7. Stetigkeitssatz (CM-Theorem) Verteilungskonvergenz bleibt unter stetigen Funktionen erhalten. Dies besagt dass häufig angewandte CM-Theorem (continuous mapping theorem). Satz 1.16. (CM-Theorem) Es gelte d Xn → X, n → ∞. Ist ϕ eine stetige Funktion, so folgt d ϕ(Xn ) → ϕ(X), n→∞ Beispiel 1.3. X1 , . . . , Xn seien i.i.d. mit E(Xi ) = µ und 0 < σ 2 = Var (Xi ) < ∞. Dann gilt √ X −µ d → N (0, 1), n → ∞, n σ d d.h. Tn → U , wenn U ∼ N (0, 1). Sei ϕ(z) = z 2 , z ∈ R. Nach dem CM-Theorem folgt Tn = d Tn2 = ϕ(Tn ) → ϕ(U ) ∼ χ2 (1), n → ∞. Das folgende Beispiel formulieren wir lieber als Lemma, da wir es oft (ohne Hinweis) verwenden werden. Lemma 1.2. Ist Xn ein Folge von Zufallsvektoren, die in Verteilung gegen eine multivariate Normalverteilung konvergieren, d Xn → N (µ, Σ), n → ∞, und ist {An } eine Folge von Matrizien, die gegen eine deterministische Matrix A konvergiert, d.h. P An → A, n → ∞, so folgt d An Xn → N (Aµ, AΣA0 ), 14 für n → ∞. Beweis. Zunächst ist klar, dass d AN (µ, Σ) = N (Aµ, AΣA0 ) Die Abbildung ϕ(x) = Ax ist stetig, also folgt nach dem CM-Theorem d AXn = ϕ(Xn ) → ϕ(N (µ, Σ)) = N (Aµ, AΣA0 ), wenn n → ∞. Wir wollen eigentlich An Xn betrachten: An Xn = AXn + (An − A)Xn . Die Behauptung folgt, wenn wir P (An − A)Xn → 0, n→∞ zeigen. Da Xn = OP (1), gibt es zu jedem ε > 0 eine Konstante M > 0, so dass P (kXn k > M ) ≤ ε/2 für hinreichend großes n. Somit folgt für beliebiges η > 0 P (k(An − A)Xn k > η) ≤ P (kAn − AkkXn k > η) ≤ P (kAn − AkkXn k > η, kXn k ≤ M ) + P (kXn k > M ) ≤ P (kAn − Ak > η/M ) + ε/2. Nach Voraussetzung wird der 1. Term ≤ ε/2, wenn n hinreichend groß wird. 15