Statistische Grundlagen (I) • Eindimensionale (stetige) Zufallsvariable: N Definition: X : ✡ t ‘ (mit Ω als Ergebnismenge des zugrunde liegenden Zufallsexperiments) ∞ N Wahrscheinlichkeitsdichtefunktion: f(x) mit f(x) m 0 ≤x c ‘ und ¶ −∞ f(x)dx = 1 kumulierte Verteilungsfunktion: F(x) = ¶ −∞ f(t)dt = Pr(X [ x) x ⇒ 0 [ F(x) [ 1 ; F(−∞) = 0, F(∞) = 1 ; f(x) = dF(x)/dx ∞ n ✙ x = E(X) = ¶ −∞ xf(x)dx , xi Schätzung durch ✙ˆ x = x = 1n ✟ i=1 ∞ 1 ✤ 2x = Var(X) = ¶ −∞ (x − ✙ x ) 2 f(x)dx , Schätzung durch ✤ˆ 2x = n−1 ✟ ni=1 (x i − x) 2 N Erwartungswert: Varianz: Standardabweichung: ✤ x = Var(X) = E((X − ✙ x ) 2 ) • Literatur: N Gallant, A.R. (1997), An Introduction to Econometric Theory, Princeton: Princeton Univ. Press. N McCabe, B., Tremayne, A. (1993), Elements of Modern Asymptotic Theory with Statistical Applications, Manchester: Manchester University Press. N Mittelhammer, R.C. (1996), Mathematical Statistics for Economics and Business, NY: Springer. Statistische Grundlagen © Jens Krüger 2014 1 Statistische Grundlagen (II) • Zweidimensionale (stetige) Zufallsvariable: N Definition: (X, Y) : ✡ t ‘ 2 N Dichtefunktion: Randdichten: bedingte Dichten: ∞ ∞ f(x, y), wobei f(x, y) m 0 ≤x, y ; ¶ −∞ ¶ −∞ f(x, y)dxdy = 1 ∞ ∞ f x (x) = ¶ −∞ f(x, y)dy und f y (y) = ¶ −∞ f(x, y)dx f(x, y) f(x, y) und f(y x x) = f(x x y) = f x (x) f y (y) Verteilungsfunktion: F(x, y) = ¶ −∞ ¶ −∞ f(t, s)dtds = Pr(X [ x, Y [ y) y N Erwartungswerte: Varianzen: Kovarianz: Korrelation: x ∞ ∞ ✙ x = E(X) = ¶ −∞ xf x (x)dx und ✙ y = E(Y) = ¶ −∞ yf y (y)dy ∞ ∞ ✤ 2x = Var(X) = ¶ −∞ (x − ✙ x ) 2 f x (x)dx und ✤ 2y = Var(Y) = ¶ −∞ (y − ✙ y ) 2 f y (y)dy ∞ ∞ ✤ xy = Cov(X, Y) = ¶ −∞ ¶ −∞ (x − ✙ x )(y − ✙ y )f(x, y)dxdy = Cov(Y, X) = ✤ yx ✣ xy = Cor(X, Y) = ✤ xy /(✤ x ✤ y ) = Cor(Y, X) = ✣ yx c [−1, 1 ] N Erwartungsvektor , Kovarianzmatrix ✟ = Statistische Grundlagen © Jens Krüger 2014 ✤ 2x ✤ xy ✤ yx ✤ 2y , Korrelationsmatrix R = 1 ✣ xy ✣ yx 1 2 Statistische Grundlagen (III) • Zweidimensionale (stetige) Zufallsvariable: (Fortsetzung) N Unabhängigkeit von X und Y: F(x, y) = F(x) $ F(y) ⇔ f(x, y) = f x (x) $ f y (y) ⇒ E(X $ Y) = E(X) $ E(Y) ∞ ∞ ∞ ∞ da E(XY) = ¶ −∞ ¶ −∞ xy $ f(x, y)dxdy = ¶ −∞ ¶ −∞ xy $ f x (x)f y (y)dxdy ∞ ∞ = ¶ −∞ xf x (x)dx $ ¶ −∞ yf y (y)dy = E(X) $ E(Y) ⇒ Cov(X, Y) = 0 ⇔ Cor(X, Y) = 0 da Cov(X, Y) = E((X − ✙ x )(Y − ✙ y )) = E(XY − ✙ x Y − ✙ y X + ✙ x ✙ y ) = E(XY) − ✙ x E(Y) − ✙ y E(X) + ✙ x ✙ y = E(XY) − ✙ x ✙ y = E(XY) − E(X) E(Y) [Verschiebungssatz für die Varianz als Spezialfall: Var(X) = Cov(X, X) = E(X 2 ) − E(X) 2 ] ⇒ Unabhängigkeit impliziert Unkorreliertheit (aber nicht umgekehrt!) N Gesetz der iterierten Erwartungen (Law of Iterated Expectations, LIE): E(Y) = E X [E(Y x X) ] ∞ ∞ ∞ ∞ f(x,y) Beweis: E X [E(Y x X) ] = ¶ −∞ [¶ −∞ yf(y x x)dy ]f x (x)dx = ¶ −∞ ¶ −∞ y f x (x) dy f x (x)dx = ∞ ∞ ∞ ∞ ∞ = ¶ −∞ ¶ −∞ yf(x, y)dydx = ¶ −∞ y ¶ −∞ f(x, y)dxdy = ¶ −∞ yf y (y)dy = E(Y) Statistische Grundlagen © Jens Krüger 2014 3 Statistische Grundlagen (IV) • k-dimensionaler (stetiger) Zufallsvektor: N Definition: X = (X 1 , ..., X k ) : ✡ t ‘ k ∞ ∞ N Dichtefunktion: f(x) mit x = (x 1 , ..., x k ) ∏ ; f(x) m 0 ≤x ; ¶ −∞ £ ¶ −∞ f(x)dx 1 £dx k = 1 es existieren Randdichten für jedes x i und ein System bedingter Dichten Verteilungsfunktion: F(x) = ¶ −k∞ £ ¶ −1∞ f(t 1 , ..., t k )dt 1 £dt k = Pr(X [ x) x x N Erwartungsvektor: ✙ = E(X) ⇔ (✙ 1 , ..., ✙ k ) ∏ = (E(X 1 ), ..., E(X k )) ∏ (als k×1-Vektor) ✤ 21 ✤ 21 Kovarianzmatrix: ✟ = Var(X) = § ✤ k1 ✤ 12 ✤ 22 § ✤ k2 1 ✣ 21 Korrelationsmatrix: R = Cor(X) = § ✣ k1 Statistische Grundlagen © Jens Krüger 2014 £ £ • £ ✣ 12 1 § ✣ k2 ✤ 1k ✤ 2k § ✤ 2k £ £ • £ ✣ 1k ✣ 2k § 1 = E[(X − ✙)(X − ✙) ∏ ] = E(XX ∏ ) − ✙✙ ∏ (beide symmetrisch und positiv semidefinit) 4 Statistische Grundlagen (V) • Lineare Transformationen von Zufallsvektoren: N Notationswechsel: x ist ein Zufallsvektor mit Erwartungsvektor ✙ und Kovarianzmatrix ✟ N Erwartungswerte: E(a x) = E(a 1 x 1 + ... + a k x k ) = a 1 E(x 1 ) + ... + a k E(x k ) = a 1 ✙ 1 + ... + a k ✙ k = a ✙ = a E(x) ∏ ∏ a1 a1x a 1 E(x) a1✙ a1 § § x =E § = = § = § ✙ = A✙ (a i : i-te Zeile von A) amx a m E(x) am✙ am am ∏ E(Ax) = E ∏ ∏ ∏ ∏ ∏ ∏ ∏ ∏ ∏ ∏ ∏ E(Ax + b) = E(Ax) + E(b) = A✙ + b (der Erwartungswert ist ein linearer Operator) N Kovarianzmatrizen: k k a i a j ✤ ij Var(a x) = E[(a x − a ✙)(a x − a ✙) ] = E[a (x − ✙)(x − ✙) a ] = a ✟a = ✟ i=1 ✟ j=1 ∏ ∏ ∏ ∏ ∏ ∏ ∏ ∏ ∏ Var(Ax) = E[(Ax − A✙)(Ax − A✙) ] = E[A(x − ✙)(x − ✙) A ] = A✟A ∏ ∏ ∏ Var(Ax + b) = E[(Ax + b − A✙ − b)(Ax + b − A✙ − b) ] = A✟A ∏ ∏ ∏ N Spezialfall: für skalare Zufallsvariablen gilt E(aX + b) = a E(X) + b und Var(aX + b) = a 2 Var(X) Statistische Grundlagen © Jens Krüger 2014 5 Statistische Grundlagen (VI) • Einige Wahrscheinlichkeitsverteilungen: N univariate Normalverteilung: x i N(✙, ✤ 2 ) ⇒ f(x) = (2✜✤ 2 ) −1/2 exp(− 21 2 (x − ✙) 2 ) k x 2i i ✪ 2 (k) N ✪ 2 (k)-Verteilung: x 1 , ..., x k i NID(0, 1) ⇒ ✟ i=1 N t(k)-Verteilung: x i N(0, 1) unabhängig von y i ✪ 2 (k) ⇒ x i t(k) y/k N F(k, l)-Verteilung: x i ✪ 2 (k) unabhängig von y i ✪ 2 (l) ⇒ x/k i F(k, l) y/l N multivariate Normalverteilung: k – iid-Fall: x i i NID(✙, ✤ 2 ) ≤i = 1, ..., k mit Dichte f(x) = (2✜✤ 2 ) −k/2 exp(− 21 2 ✟ (x i − ✙) 2 ) i=1 – allgemein: x = (x 1 , ..., x k ) i N(✙, ✟) mit f(x) = (2✜) −k/2 det(✟) −1/2 exp(− 12 (x − ✙) ✟ −1 (x − ✙)) ∏ ∏ N wichtige Beziehungen: – Invarianz bzgl. linearer Transformationen: x i N(✙, ✟) ⇒ Ax + b i N(A✙ + b, A✟A ) ∏ – für k×1-Vektor x und Σ mit vollem Rang k: x i N(✙, ✟) ⇒ (x − ✙) ✟ −1 (x − ✙) i ✪ 2 (k) ∏ Statistische Grundlagen © Jens Krüger 2014 6 Statistische Grundlagen (VII) • Asymptotische Grundbegriffe: N Konvergenzmodi: Sequenz von Zufallsvektoren x 1 , ..., x n t x 0 für n d ∞ mit x 0 zufällig oder deterministisch p Pr(||x n − x 0 || > ✒) = 0 ≤✒ > 0 ⇔ x n t x 0 – Konvergenz in Wahrscheinlichkeit: lim nd∞ – fast sichere Konvergenz (wp1): ||x n − x 0 || = 0) = 1 Pr(lim nd∞ ⇔ xn t x0 – Konvergenz im r-ten Mittel: lim E(||x n − x 0 || r ) = 0 nd∞ ⇔ xn t x0 – Konvergenz in Verteilung: lim F (x) = F 0 (x) nd∞ n ⇔ xn t x0 as rm d k Bemerkung: ||z|| als Norm, wie die Euklidische Norm ✟ i=1 z 2i oder die sup-Norm sup i | z i | p as d p rm d Beziehungen: x n t x 0 u x n t x 0 u x n t x 0 ; x n t x 0 u x n t x 0 u x n t x 0 N Bemerkungen: – Konvergenz im r-ten Mittel erfordert die Existenz des Erwartungswertes – Konvergenz in Verteilung impliziert Konvergenz in Wahrscheinlichkeit nur bei Konvergenz zu einer degenerierten Zufallsvariablen mit Varianz = 0 N Cramér-Wold-Device: ✘ ∏ x n t ✘ ∏ x 0 ≤✘ ⇒ x n t x 0 d d Statistische Grundlagen © Jens Krüger 2014 7 Statistische Grundlagen (VIII) • Asymptotische Grundbegriffe: (Fortsetzung) N Gesetz der großen Zahlen (Law of Large Numbers, LLN): Gegeben bestimmte Regularitätsbedingungen hinsichtlich Abhängigkeit, Heterogenität und Existenz von Erwartungswerten (Momenten) für eine Sequenz von ZV x n gilt p as x n t ✙ (schwaches Gesetz der großen Zahlen) bzw. x n t ✙ (starkes Gesetz), wobei x n = 1 n n x i und ✙ = E(x n ) < ∞. ✟ i=1 Beispiele: Kolmogorov-LLN für iid-Zufallsvariablen und Markov-LLN für inid-ZV N Zentraler Grenzwertsatz (Central Limit Theorem, CLT): Gegeben bestimmte Regularitätsbedingungen hinsichtlich Abhängigkeit, Heterogenität und Existenz von Erwartungswerten (Momenten) für eine Sequenz von ZV x n gilt n (x n − ✙) t N(0, ✟), d wobei x n = 1 n n x i und ✙ = E(x n ) < ∞, ✟ = Var( n (x n − ✙)) < ∞. ✟ i=1 Beispiele: Lindeberg-Levy-CLT für iid-Zufallsvariablen und Liapounov-CLT für inid-ZV Statistische Grundlagen © Jens Krüger 2014 8 Statistische Grundlagen (IX) • Asymptotische Grundbegriffe: (Fortsetzung) N Slutzky-Theorem: p p für stetige Funktionen g($), die nicht selbst von n abhängen: x n t x 0 ⇒ g(x n ) t g(x 0 ) N Stetiges Mapping-Theorem (Continuous Mapping Theorem, CMT): d Wenn x n t x 0 für alle Punkte x an denen F(x) stetig ist, dann gilt g(x n ) t g(x 0 ) (wobei x 0 deterministisch oder stochastisch sein kann) d für alle stetigen Funktionen g($), die nicht selbst von n abhängen. N Anwendungen: p p p – x n (k×1) mit x n t c und y n (k×1) mit y n t d folgt, dass x n + y n t c + d p p p −1 – X n (k×k) mit X n t C und y n (k×1) mit y n t d folgt, dass X −1 n yn t C d p – x n (k×1) mit x n t x 0 und y n (k×1) mit (x n − y n ) t 0 folgt, dass y n t x 0 d p d – x n (k×1) mit x n t c und y n (k×1) mit y n t y 0 folgt, dass x n + y n t c + y 0 d d ∏ d ∏ und x n y n t c y 0 Statistische Grundlagen © Jens Krüger 2014 9 Statistische Grundlagen (X) • Multivariate Delta-Methode: N Theorem: Sei x n = (x 1n , ..., x kn ) (n = 1, 2, 3, ...) eine Folge von k-dimensionalen Zufallsvektoren, ∏ die asymptotisch multivariat normalverteilt ist, n (x n − ✙) t N(0, ✟). d Sei f(x) = (f 1 (x), ..., f m (x)) eine differenzierbare Abbildung des ‘ k in den ‘ m , deren partielle ∏ Ableitungen im Punkt ✙ = (✙ 1 , ..., ✙ k ) nicht sämtlich verschwinden. ∏ Dann gilt n (f(x n ) − f(✙)) t N(0, D✟D ) mit D = d ∏ Øf(x) Øx ∏ x= = J(✙). N Beispiel 1: n (x n − ✙) t N(0, ✟) ⇒ n (Ax n + b − A✙ − b) t N(0, A✟A ) d d ∏ [es gilt hier ebenfalls x i N(✙, ✟) ⇒ Ax + b i N(A✙ + b, A✟A )] ∏ N Beispiel 2: n ( x 1n − ✙ 1 0 ✤ 21 ✣✤ 1 ✤ 2 d ) t N( , ) 0 x 2n − ✙ 2 ✣✤ 1 ✤ 2 ✤ 22 ⇒ n( Statistische Grundlagen © Jens Krüger 2014 x 1n − x 2n − (✙ 1 − ✙ 2 ) d 0 ✤ 2 − 2✣✤ 1 ✤ 2 + ✤ 22 e 1 (✤ 21 − ✣✤ 1 ✤ 2 ) t N( , 1 1 2 ) exp(x 1n ) − exp(✙ 1 ) 0 e (✤ 1 − ✣✤ 1 ✤ 2 ) e 2 1 $ ✤ 21 10 Statistische Grundlagen (XI) • Verteilungstransformation: N Change-of-Variables: Sei x = (x 1 , ..., x k ) ein stetiger Zufallsvektor mit Dichte f x (x). ∏ Sei y ein transformierter Zufallsvektor y = (y 1 , ..., y k ) = (g 1 (x), ..., g k (x)) , wobei die Existenz der inversen Transformation x = (x 1 , ..., x k ) = (h 1 (y), ..., h k (y)) vorausgesetzt wird. ∏ ∏ ∏ ∏ Die Abbildungen g i , h i (i = 1, ..., k) sind stetig und die partiellen Ableitungen Øh i /Øy j (i, j = 1, ..., k) existieren und sind ebenfalls stetig. Sofern die Jacobi-Determinante der inversen Transformationen Øh 1 (y)/Øy 1 £ Øh 1 (y)/Øy k § • § det J(y) = det Øh k (y)/Øy 1 £ Øh k (y)/Øy k von Null verschieden ist, gilt für die Dichtefunktion des Zufallsvektors y: f y (y) = f x (h 1 (y), ..., h k (y)) $ det J(y) . Statistische Grundlagen © Jens Krüger 2014 11 Statistische Grundlagen (XII) • Verteilungstransformation: (Fortsetzung) N Intuition für den skalaren Fall: Funktion y = g(x) mit inverser Transformation x = h(y) F y (y) = F x (h(y)) ⇒ F y (y) = f y (y) = f x (h(y)) $ h (y) ∏ ∏ N Fallunterscheidung: – Fall h ($) m 0: F y (y) = Pr(Y [ y) = Pr(h(Y) [ h(y)) = Pr(X [ x) = F x (x) = F x (h(y)) ∏ ⇒ f y (y) = f x (h(y)) $ h (y) ∏ – Fall h ($) [ 0: F y (y) = Pr(Y [ y) = Pr(h(Y) m h(y)) = 1 − Pr(X [ x) = 1 − F x (x) = 1 − F x (h(y)) ∏ ⇒ f y (y) = − f x (h(y)) $ h (y) ∏ [0 zusammen ergibt sich: f y (y) = f x (h(y)) $ h (y) ∏ Statistische Grundlagen © Jens Krüger 2014 12 Statistische Grundlagen (XIII) • Verteilungstransformation: (Fortsetzung) N Beispiel 1 (univariate Zufallsvariable): x i N(✙, ✤ 2 ) mit f x (x) = (2✜✤ 2 ) −1/2 exp(− 12 ((x − ✙)/✤) 2 ) wird transformiert in y durch y = g(x) = (x − ✙)/✤ (die inverse Abbildung ist folglich x = h(y) = y✤ + ✙) y✤ + ✙ − ✙ 2 dh(y) ⇒ f y (y) = f x (h(y) ) $ = (2✜✤ 2 ) −1/2 exp − 12 $ |✤| = (2✜) −1/2 exp(− 12 y 2 ) ✤ dy ⇔ y i N(0, 1) N Beispiel 2 (multivariate Zufallsvariable): x i N(0, I) mit f x (x) = (2✜) −k/2 exp(− 12 x x) wird transformiert in y durch ∏ y = g(x) = A x + ✙ (die inverse Abbildung ist folglich x = h(y) = (A ) −1 (y − ✙)) ∏ ⇒ f y (y) = f x (h(y)) $ det ∏ h(y) y Ø Ø ∏ = (2✜) −k/2 exp(− 12 (y − ✙) A −1 (A ) −1 (y − ✙)) $ det(A −1 ) ∏ ∏ = (2✜) −k/2 det(✟) −1/2 exp(− 12 (y − ✙) ✟ −1 (y − ✙)) mit ✟ h A A und det(✟) = det(A) 2 ∏ ∏ ⇔ y i N(✙, ✟) Statistische Grundlagen © Jens Krüger 2014 13 Statistische Grundlagen (XIV) • Statistikbefehle in R: N Berechnungen: – Mittelwerte durch mean(), mit na.rm=T wenn fehlende Werte (NA) auftreten [Anwendung von mean() auf eine Matrix berechnet den Mittelwert aller Matrixelemente! Zeilen- und Spaltenmittelwerte können über den Befehl apply() erzeugt werden] – Kovarianzmatrizen durch var() – Standardabweichungen durch sd() [ergibt einen Vektor, wie bei sqrt(diag(var(A)))] – Korrelationsmatrizen durch cor() N Signifikanztest für Korrelation durch cor.test() [Varianten für Pearson, Spearman, Kendall] N Berechnung eines t-Tests durch t.test() oder des Wilcoxon-Tests durch wilcox.test() N Verteilungen: Dichtefunktion dnorm(), Verteilungsfunktion pnorm(), Quantile qnorm(), Ziehung von Zufallszahlen rnorm() [auch verfügbar für unif, t, f, chisq, lnorm, gamma, beta, ...] N Ziehung von Zufallsstichproben (mit oder ohne Zurücklegen) aus einem Vektor mit sample() N Histogramme mit hist() N Boxplots mit boxplot() Statistische Grundlagen © Jens Krüger 2014 14