Statistische Grundlagen (I) Statistische Grundlagen (II)

Werbung
Statistische Grundlagen (I)
• Eindimensionale (stetige) Zufallsvariable:
N Definition: X : ✡ t ‘ (mit Ω als Ergebnismenge des zugrunde liegenden Zufallsexperiments)
∞
N Wahrscheinlichkeitsdichtefunktion: f(x) mit f(x) m 0 ≤x c ‘ und ¶ −∞ f(x)dx = 1
kumulierte Verteilungsfunktion: F(x) = ¶ −∞ f(t)dt = Pr(X [ x)
x
⇒ 0 [ F(x) [ 1 ; F(−∞) = 0, F(∞) = 1 ; f(x) = dF(x)/dx
∞
n
✙ x = E(X) = ¶ −∞ xf(x)dx ,
xi
Schätzung durch ✙ˆ x = x = 1n ✟ i=1
∞
1
✤ 2x = Var(X) = ¶ −∞ (x − ✙ x ) 2 f(x)dx , Schätzung durch ✤ˆ 2x = n−1
✟ ni=1 (x i − x) 2
N Erwartungswert:
Varianz:
Standardabweichung: ✤ x = Var(X) = E((X − ✙ x ) 2 )
• Literatur:
N Gallant, A.R. (1997), An Introduction to Econometric Theory, Princeton: Princeton Univ. Press.
N McCabe, B., Tremayne, A. (1993), Elements of Modern Asymptotic Theory with Statistical
Applications, Manchester: Manchester University Press.
N Mittelhammer, R.C. (1996), Mathematical Statistics for Economics and Business, NY: Springer.
Statistische Grundlagen © Jens Krüger 2014
1
Statistische Grundlagen (II)
• Zweidimensionale (stetige) Zufallsvariable:
N Definition: (X, Y) : ✡ t ‘ 2
N Dichtefunktion:
Randdichten:
bedingte Dichten:
∞ ∞
f(x, y), wobei f(x, y) m 0 ≤x, y ; ¶ −∞ ¶ −∞ f(x, y)dxdy = 1
∞
∞
f x (x) = ¶ −∞ f(x, y)dy und f y (y) = ¶ −∞ f(x, y)dx
f(x, y)
f(x, y)
und f(y x x) =
f(x x y) =
f x (x)
f y (y)
Verteilungsfunktion: F(x, y) = ¶ −∞ ¶ −∞ f(t, s)dtds = Pr(X [ x, Y [ y)
y
N Erwartungswerte:
Varianzen:
Kovarianz:
Korrelation:
x
∞
∞
✙ x = E(X) = ¶ −∞ xf x (x)dx und ✙ y = E(Y) = ¶ −∞ yf y (y)dy
∞
∞
✤ 2x = Var(X) = ¶ −∞ (x − ✙ x ) 2 f x (x)dx und ✤ 2y = Var(Y) = ¶ −∞ (y − ✙ y ) 2 f y (y)dy
∞ ∞
✤ xy = Cov(X, Y) = ¶ −∞ ¶ −∞ (x − ✙ x )(y − ✙ y )f(x, y)dxdy = Cov(Y, X) = ✤ yx
✣ xy = Cor(X, Y) = ✤ xy /(✤ x ✤ y ) = Cor(Y, X) = ✣ yx c [−1, 1 ]
N Erwartungsvektor , Kovarianzmatrix ✟ =
Statistische Grundlagen © Jens Krüger 2014
✤ 2x ✤ xy
✤ yx ✤ 2y
, Korrelationsmatrix R =
1 ✣ xy
✣ yx 1
2
Statistische Grundlagen (III)
• Zweidimensionale (stetige) Zufallsvariable: (Fortsetzung)
N Unabhängigkeit von X und Y: F(x, y) = F(x) $ F(y) ⇔ f(x, y) = f x (x) $ f y (y)
⇒ E(X $ Y) = E(X) $ E(Y)
∞ ∞
∞ ∞
da E(XY) = ¶ −∞ ¶ −∞ xy $ f(x, y)dxdy = ¶ −∞ ¶ −∞ xy $ f x (x)f y (y)dxdy
∞
∞
= ¶ −∞ xf x (x)dx $ ¶ −∞ yf y (y)dy = E(X) $ E(Y)
⇒ Cov(X, Y) = 0 ⇔ Cor(X, Y) = 0
da Cov(X, Y) = E((X − ✙ x )(Y − ✙ y )) = E(XY − ✙ x Y − ✙ y X + ✙ x ✙ y )
= E(XY) − ✙ x E(Y) − ✙ y E(X) + ✙ x ✙ y = E(XY) − ✙ x ✙ y = E(XY) − E(X) E(Y)
[Verschiebungssatz für die Varianz als Spezialfall: Var(X) = Cov(X, X) = E(X 2 ) − E(X) 2 ]
⇒ Unabhängigkeit impliziert Unkorreliertheit (aber nicht umgekehrt!)
N Gesetz der iterierten Erwartungen (Law of Iterated Expectations, LIE): E(Y) = E X [E(Y x X) ]
∞ ∞
∞ ∞ f(x,y)
Beweis: E X [E(Y x X) ] = ¶ −∞ [¶ −∞ yf(y x x)dy ]f x (x)dx = ¶ −∞ ¶ −∞ y f x (x) dy f x (x)dx =
∞ ∞
∞
∞
∞
= ¶ −∞ ¶ −∞ yf(x, y)dydx = ¶ −∞ y ¶ −∞ f(x, y)dxdy = ¶ −∞ yf y (y)dy = E(Y) Statistische Grundlagen © Jens Krüger 2014
3
Statistische Grundlagen (IV)
• k-dimensionaler (stetiger) Zufallsvektor:
N Definition: X = (X 1 , ..., X k ) : ✡ t ‘ k
∞
∞
N Dichtefunktion: f(x) mit x = (x 1 , ..., x k ) ∏ ; f(x) m 0 ≤x ; ¶ −∞ £ ¶ −∞ f(x)dx 1 £dx k = 1
es existieren Randdichten für jedes x i und ein System bedingter Dichten
Verteilungsfunktion: F(x) = ¶ −k∞ £ ¶ −1∞ f(t 1 , ..., t k )dt 1 £dt k = Pr(X [ x)
x
x
N Erwartungsvektor: ✙ = E(X) ⇔ (✙ 1 , ..., ✙ k ) ∏ = (E(X 1 ), ..., E(X k )) ∏ (als k×1-Vektor)
✤ 21
✤ 21
Kovarianzmatrix: ✟ = Var(X) =
§
✤ k1
✤ 12
✤ 22
§
✤ k2
1
✣ 21
Korrelationsmatrix: R = Cor(X) =
§
✣ k1
Statistische Grundlagen © Jens Krüger 2014
£
£
•
£
✣ 12
1
§
✣ k2
✤ 1k
✤ 2k
§
✤ 2k
£
£
•
£
✣ 1k
✣ 2k
§
1
= E[(X − ✙)(X − ✙) ∏ ] = E(XX ∏ ) − ✙✙ ∏
(beide symmetrisch und positiv semidefinit)
4
Statistische Grundlagen (V)
• Lineare Transformationen von Zufallsvektoren:
N Notationswechsel: x ist ein Zufallsvektor mit Erwartungsvektor ✙ und Kovarianzmatrix ✟
N Erwartungswerte:
E(a x) = E(a 1 x 1 + ... + a k x k ) = a 1 E(x 1 ) + ... + a k E(x k ) = a 1 ✙ 1 + ... + a k ✙ k = a ✙ = a E(x)
∏
∏
a1
a1x
a 1 E(x)
a1✙
a1
§
§ x =E § =
= § = § ✙ = A✙ (a i : i-te Zeile von A)
amx
a m E(x)
am✙
am
am
∏
E(Ax) = E
∏
∏
∏
∏
∏
∏
∏
∏
∏
∏
∏
E(Ax + b) = E(Ax) + E(b) = A✙ + b (der Erwartungswert ist ein linearer Operator)
N Kovarianzmatrizen:
k
k
a i a j ✤ ij
Var(a x) = E[(a x − a ✙)(a x − a ✙) ] = E[a (x − ✙)(x − ✙) a ] = a ✟a = ✟ i=1
✟ j=1
∏
∏
∏
∏
∏
∏
∏
∏
∏
Var(Ax) = E[(Ax − A✙)(Ax − A✙) ] = E[A(x − ✙)(x − ✙) A ] = A✟A
∏
∏
∏
Var(Ax + b) = E[(Ax + b − A✙ − b)(Ax + b − A✙ − b) ] = A✟A
∏
∏
∏
N Spezialfall: für skalare Zufallsvariablen gilt E(aX + b) = a E(X) + b und Var(aX + b) = a 2 Var(X)
Statistische Grundlagen © Jens Krüger 2014
5
Statistische Grundlagen (VI)
• Einige Wahrscheinlichkeitsverteilungen:
N univariate Normalverteilung: x i N(✙, ✤ 2 ) ⇒ f(x) = (2✜✤ 2 ) −1/2 exp(− 21 2 (x − ✙) 2 )
k
x 2i i ✪ 2 (k)
N ✪ 2 (k)-Verteilung: x 1 , ..., x k i NID(0, 1) ⇒ ✟ i=1
N t(k)-Verteilung: x i N(0, 1) unabhängig von y i ✪ 2 (k) ⇒
x i t(k)
y/k
N F(k, l)-Verteilung: x i ✪ 2 (k) unabhängig von y i ✪ 2 (l) ⇒ x/k i F(k, l)
y/l
N multivariate Normalverteilung:
k
– iid-Fall: x i i NID(✙, ✤ 2 ) ≤i = 1, ..., k mit Dichte f(x) = (2✜✤ 2 ) −k/2 exp(− 21 2 ✟ (x i − ✙) 2 )
i=1
– allgemein: x = (x 1 , ..., x k ) i N(✙, ✟) mit f(x) = (2✜) −k/2 det(✟) −1/2 exp(− 12 (x − ✙) ✟ −1 (x − ✙))
∏
∏
N wichtige Beziehungen:
– Invarianz bzgl. linearer Transformationen: x i N(✙, ✟) ⇒ Ax + b i N(A✙ + b, A✟A )
∏
– für k×1-Vektor x und Σ mit vollem Rang k: x i N(✙, ✟) ⇒ (x − ✙) ✟ −1 (x − ✙) i ✪ 2 (k)
∏
Statistische Grundlagen © Jens Krüger 2014
6
Statistische Grundlagen (VII)
• Asymptotische Grundbegriffe:
N Konvergenzmodi:
Sequenz von Zufallsvektoren x 1 , ..., x n t x 0 für n d ∞ mit x 0 zufällig oder deterministisch
p
Pr(||x n − x 0 || > ✒) = 0 ≤✒ > 0 ⇔ x n t x 0
– Konvergenz in Wahrscheinlichkeit: lim
nd∞
– fast sichere Konvergenz (wp1):
||x n − x 0 || = 0) = 1
Pr(lim
nd∞
⇔ xn t x0
– Konvergenz im r-ten Mittel:
lim
E(||x n − x 0 || r ) = 0
nd∞
⇔ xn t x0
– Konvergenz in Verteilung:
lim
F (x) = F 0 (x)
nd∞ n
⇔ xn t x0
as
rm
d
k
Bemerkung: ||z|| als Norm, wie die Euklidische Norm ✟ i=1
z 2i oder die sup-Norm sup i | z i |
p
as
d
p
rm
d
Beziehungen: x n t x 0 u x n t x 0 u x n t x 0 ; x n t x 0 u x n t x 0 u x n t x 0
N Bemerkungen: – Konvergenz im r-ten Mittel erfordert die Existenz des Erwartungswertes
– Konvergenz in Verteilung impliziert Konvergenz in Wahrscheinlichkeit nur bei
Konvergenz zu einer degenerierten Zufallsvariablen mit Varianz = 0
N Cramér-Wold-Device: ✘ ∏ x n t ✘ ∏ x 0 ≤✘ ⇒ x n t x 0
d
d
Statistische Grundlagen © Jens Krüger 2014
7
Statistische Grundlagen (VIII)
• Asymptotische Grundbegriffe: (Fortsetzung)
N Gesetz der großen Zahlen (Law of Large Numbers, LLN):
Gegeben bestimmte Regularitätsbedingungen hinsichtlich Abhängigkeit, Heterogenität und
Existenz von Erwartungswerten (Momenten) für eine Sequenz von ZV x n gilt
p
as
x n t ✙ (schwaches Gesetz der großen Zahlen) bzw. x n t ✙ (starkes Gesetz),
wobei x n =
1
n
n
x i und ✙ = E(x n ) < ∞.
✟ i=1
Beispiele: Kolmogorov-LLN für iid-Zufallsvariablen und Markov-LLN für inid-ZV
N Zentraler Grenzwertsatz (Central Limit Theorem, CLT):
Gegeben bestimmte Regularitätsbedingungen hinsichtlich Abhängigkeit, Heterogenität und
Existenz von Erwartungswerten (Momenten) für eine Sequenz von ZV x n gilt
n (x n − ✙) t N(0, ✟),
d
wobei x n =
1
n
n
x i und ✙ = E(x n ) < ∞, ✟ = Var( n (x n − ✙)) < ∞.
✟ i=1
Beispiele: Lindeberg-Levy-CLT für iid-Zufallsvariablen und Liapounov-CLT für inid-ZV
Statistische Grundlagen © Jens Krüger 2014
8
Statistische Grundlagen (IX)
• Asymptotische Grundbegriffe: (Fortsetzung)
N Slutzky-Theorem:
p
p
für stetige Funktionen g($), die nicht selbst von n abhängen: x n t x 0 ⇒ g(x n ) t g(x 0 )
N Stetiges Mapping-Theorem (Continuous Mapping Theorem, CMT):
d
Wenn x n t x 0 für alle Punkte x an denen F(x) stetig ist, dann gilt
g(x n ) t g(x 0 ) (wobei x 0 deterministisch oder stochastisch sein kann)
d
für alle stetigen Funktionen g($), die nicht selbst von n abhängen.
N Anwendungen:
p
p
p
– x n (k×1) mit x n t c und y n (k×1) mit y n t d folgt, dass x n + y n t c + d
p
p
p
−1
– X n (k×k) mit X n t C und y n (k×1) mit y n t d folgt, dass X −1
n yn t C d
p
– x n (k×1) mit x n t x 0 und y n (k×1) mit (x n − y n ) t 0 folgt, dass y n t x 0
d
p
d
– x n (k×1) mit x n t c und y n (k×1) mit y n t y 0 folgt, dass x n + y n t c + y 0
d
d
∏
d
∏
und x n y n t c y 0
Statistische Grundlagen © Jens Krüger 2014
9
Statistische Grundlagen (X)
• Multivariate Delta-Methode:
N Theorem:
Sei x n = (x 1n , ..., x kn ) (n = 1, 2, 3, ...) eine Folge von k-dimensionalen Zufallsvektoren,
∏
die asymptotisch multivariat normalverteilt ist, n (x n − ✙) t N(0, ✟).
d
Sei f(x) = (f 1 (x), ..., f m (x)) eine differenzierbare Abbildung des ‘ k in den ‘ m , deren partielle
∏
Ableitungen im Punkt ✙ = (✙ 1 , ..., ✙ k ) nicht sämtlich verschwinden.
∏
Dann gilt
n (f(x n ) − f(✙)) t N(0, D✟D ) mit D =
d
∏
Øf(x)
Øx
∏
x=
= J(✙).
N Beispiel 1: n (x n − ✙) t N(0, ✟) ⇒ n (Ax n + b − A✙ − b) t N(0, A✟A )
d
d
∏
[es gilt hier ebenfalls x i N(✙, ✟) ⇒ Ax + b i N(A✙ + b, A✟A )]
∏
N Beispiel 2: n (
x 1n − ✙ 1
0
✤ 21 ✣✤ 1 ✤ 2
d
) t N(
,
)
0
x 2n − ✙ 2
✣✤ 1 ✤ 2 ✤ 22
⇒ n(
Statistische Grundlagen © Jens Krüger 2014
x 1n − x 2n − (✙ 1 − ✙ 2 ) d
0
✤ 2 − 2✣✤ 1 ✤ 2 + ✤ 22 e 1 (✤ 21 − ✣✤ 1 ✤ 2 )
t N(
, 1 1 2
)
exp(x 1n ) − exp(✙ 1 )
0
e (✤ 1 − ✣✤ 1 ✤ 2 )
e 2 1 $ ✤ 21
10
Statistische Grundlagen (XI)
• Verteilungstransformation:
N Change-of-Variables:
Sei x = (x 1 , ..., x k ) ein stetiger Zufallsvektor mit Dichte f x (x).
∏
Sei y ein transformierter Zufallsvektor y = (y 1 , ..., y k ) = (g 1 (x), ..., g k (x)) , wobei die Existenz
der inversen Transformation x = (x 1 , ..., x k ) = (h 1 (y), ..., h k (y)) vorausgesetzt wird.
∏
∏
∏
∏
Die Abbildungen g i , h i (i = 1, ..., k) sind stetig und die partiellen Ableitungen
Øh i /Øy j (i, j = 1, ..., k) existieren und sind ebenfalls stetig.
Sofern die Jacobi-Determinante der inversen Transformationen
Øh 1 (y)/Øy 1 £ Øh 1 (y)/Øy k
§
•
§
det J(y) = det
Øh k (y)/Øy 1 £ Øh k (y)/Øy k
von Null verschieden ist, gilt für die Dichtefunktion des Zufallsvektors y:
f y (y) = f x (h 1 (y), ..., h k (y)) $ det J(y) .
Statistische Grundlagen © Jens Krüger 2014
11
Statistische Grundlagen (XII)
• Verteilungstransformation: (Fortsetzung)
N Intuition für den skalaren Fall:
Funktion y = g(x) mit inverser Transformation x = h(y)
F y (y) = F x (h(y)) ⇒ F y (y) = f y (y) = f x (h(y)) $ h (y)
∏
∏
N Fallunterscheidung:
– Fall h ($) m 0: F y (y) = Pr(Y [ y) = Pr(h(Y) [ h(y)) = Pr(X [ x) = F x (x) = F x (h(y))
∏
⇒ f y (y) = f x (h(y)) $ h (y)
∏
– Fall h ($) [ 0: F y (y) = Pr(Y [ y) = Pr(h(Y) m h(y)) = 1 − Pr(X [ x) = 1 − F x (x) = 1 − F x (h(y))
∏
⇒ f y (y) = − f x (h(y)) $ h (y)
∏
[0
zusammen ergibt sich: f y (y) = f x (h(y)) $ h (y)
∏
Statistische Grundlagen © Jens Krüger 2014
12
Statistische Grundlagen (XIII)
• Verteilungstransformation: (Fortsetzung)
N Beispiel 1 (univariate Zufallsvariable):
x i N(✙, ✤ 2 ) mit f x (x) = (2✜✤ 2 ) −1/2 exp(− 12 ((x − ✙)/✤) 2 ) wird transformiert in y durch
y = g(x) = (x − ✙)/✤ (die inverse Abbildung ist folglich x = h(y) = y✤ + ✙)
y✤ + ✙ − ✙ 2
dh(y)
⇒ f y (y) = f x (h(y) ) $
= (2✜✤ 2 ) −1/2 exp − 12
$ |✤| = (2✜) −1/2 exp(− 12 y 2 )
✤
dy
⇔ y i N(0, 1)
N Beispiel 2 (multivariate Zufallsvariable):
x i N(0, I) mit f x (x) = (2✜) −k/2 exp(− 12 x x) wird transformiert in y durch
∏
y = g(x) = A x + ✙ (die inverse Abbildung ist folglich x = h(y) = (A ) −1 (y − ✙))
∏
⇒ f y (y) = f x (h(y)) $ det
∏
h(y)
y
Ø
Ø
∏
= (2✜) −k/2 exp(− 12 (y − ✙) A −1 (A ) −1 (y − ✙)) $ det(A −1 )
∏
∏
= (2✜) −k/2 det(✟) −1/2 exp(− 12 (y − ✙) ✟ −1 (y − ✙)) mit ✟ h A A und det(✟) = det(A) 2
∏
∏
⇔ y i N(✙, ✟)
Statistische Grundlagen © Jens Krüger 2014
13
Statistische Grundlagen (XIV)
• Statistikbefehle in R:
N Berechnungen:
– Mittelwerte durch mean(), mit na.rm=T wenn fehlende Werte (NA) auftreten
[Anwendung von mean() auf eine Matrix berechnet den Mittelwert aller Matrixelemente!
Zeilen- und Spaltenmittelwerte können über den Befehl apply() erzeugt werden]
– Kovarianzmatrizen durch var()
– Standardabweichungen durch sd() [ergibt einen Vektor, wie bei sqrt(diag(var(A)))]
– Korrelationsmatrizen durch cor()
N Signifikanztest für Korrelation durch cor.test() [Varianten für Pearson, Spearman, Kendall]
N Berechnung eines t-Tests durch t.test() oder des Wilcoxon-Tests durch wilcox.test()
N Verteilungen: Dichtefunktion dnorm(), Verteilungsfunktion pnorm(),
Quantile qnorm(), Ziehung von Zufallszahlen rnorm()
[auch verfügbar für unif, t, f, chisq, lnorm, gamma, beta, ...]
N Ziehung von Zufallsstichproben (mit oder ohne Zurücklegen) aus einem Vektor mit sample()
N Histogramme mit hist()
N Boxplots mit boxplot()
Statistische Grundlagen © Jens Krüger 2014
14
Herunterladen