Asymptotik und stetige Zufallsvariablen Verteilungsfunktionen

Werbung
Asymptotik und stetige Zufallsvariablen
Verteilungsfunktionen
Verteilung von Aktien-Returns
Tschebyscheff-Ungleichung
Quiz
Gesetz der großen Zahlen
Stirling-Formel
Zentraler Grenzwertsatz
Normalverteilung
χ2-Verteilung
t-Verteilung
Exponentialverteilung
Die Verteilungsfunktion1 F einer Zufallsvariablen X
ordnet jeder reellen Zahl x die Wahrscheinlichkeit
F ( x ) = P( X ≤ x )
Beispiel: X hat eine Bernoulli-Verteilung mit p=0.3
P ( X = 0) = 0.7, P ( X = 1) = 0.3
F ( −2) = P ( X ≤ −2) = 0, F ( −0.1) = P ( X ≤ −0.1) = 0 ,
zu.
F (0) = P ( X ≤ 0) = 0.7, F (0.9) = P ( X ≤ 0.9) = 0.7 ,
0.0
0.2
0.2
0.4
0.4
0.6
0.8
0.6
1.0
0.8
0 , falls x < 4
P ( X = 4) = 1 ⇒ F ( x ) = P ( X ≤ x ) = 
1, falls x ≥ 4
F (1) = P ( X ≤ 1) = 1, F (3) = P ( X ≤ 3) = 1
1.0
Beispiel: X hat eine Einpunktverteilung mit λ=4
4
8
12
0.0
0
1
distribution function (or cumulative distribution function)
-3
-2
-1
0
1
2
3
1
 5
P ( X = 2) =  0.32 (1 − 0.3)5− 2 = 10 ⋅ 0.320.73 = 0.3087
 2
x <- c(-10,0:n,10); F <- c(0,pbinom(0:n,n,p),1)
plot(x,F,type="s") # s: steps2
1.0
Beispiel: X hat eine Binomialverteilung mit n=5, p=0.3
0.4
F
0.6
0.8
n <- 5; p <- 0.3
dbinom(2,n,p) # P(X=2)
0.3087
dbinom(0:n,n,p) # P(X=0),P(X=1),P(X=2),…,P(X=n)
0.16807 0.36015 0.30870 0.13230 0.02835 0.00243
0.2
F ( 2.8) = P ( X ≤ 2.8) = P ( X = 0) + P ( X = 1) + P ( X = 2)
= 0.16807 + 0.36015 + 0.30870 = 0.83692
0.0
pbinom(0:n,n,p) # F(0),F(1),F(2),…,F(n)
0.16807 0.52822 0.83692 0.96922 0.99757 1.00000
-10
-5
0
5
10
x
2
Der Funktionswert an einer Sprungstelle ist immer so groß wie
die Funktionswerte nach dem Sprung, also z.B. F(0)=F(0.l).
Die senkrechten Linien an den Sprungstellen sollten nicht beachtet
werden, sie werden bei dieser Art von Plots automatisch gezeichnet.
2
Ist X eine diskrete Zufallsvariable, dann ist F(X) eine
Treppenfunktion.
Sind ω1 < ω2 < ω3 < ... die Elemente von X (Ω) , dann gilt:
Für die Berechnung der Momente einer diskreten Zufallsvariablen X ist also die Kenntnis der Verteilungsfunktion
von X ausreichend.
Beispielsweise ist der Erwartungswert gegeben durch
F (ω1 ) = P( X = ω1 )
E ( X ) = ∑ ω j P( X = ω j )
F (ω2 ) = P( X = ω1 ) + P( X = ω2 )
j ≥1
= ω1P ( X = ω1 ) + ∑ ω j P ( X = ω j )
F (ω3 ) = P ( X = ω1 ) + P ( X = ω2 ) + P ( X = ω3 )
j≥2
M
= ω1F (ω1 ) + ∑ ω j ( F (ω j ) − F (ω j −1 )) .
j ≥2
und umgekehrt
P( X = ω1 ) = F (ω1 )
P( X = ω2 ) = F (ω2 ) − F (ω1 )
P ( X = ω3 ) = F (ω3 ) − F (ω2 )
M
Diskrete Zufallsvariablen mit der gleichen Verteilungsfunktion haben daher auch die gleichen Momente.
Die Zufallsvariablen X 1 , X 2 , X 3 , ... heißen identisch
verteilt3, wenn sie die gleiche Verteilungsfunktion haben,
d.h.
P ( X 1 ≤ x ) = P ( X 2 ≤ x ) = P ( X 3 ≤ x ) = ... ∀x ∈ ℜ .
3
identically distributed
3
Sind X 1 , X 2 , X 3 , ... identisch verteilt mit
µ = E ( X 1 ) = E ( X 2 ) = E ( X 3 ) = ... ,
dann ist der Erwartungswert des arithmetischen Mittels4
X =
X 1 + ... + X n
n
für alle n gegeben durch
Die Zufallsvariablen X 1 , X 2 , X 3 , ... heißen unabhängig5,
wenn für alle n die Zufallsvariablen X 1 , ..., X n unabhängig
sind.
Die Zufallsvariablen X 1 , X 2 , X 3 , ... heißen i.i.d.6, wenn
sie unabhängig und identisch verteilt sind.
Sind X 1 , X 2 , X 3 , ... i.i.d. mit Erwartungswert µ und
Varianz σ 2, dann gilt für alle n
E ( X ) = E ( 1n ( X 1 + ... + X n ))
var( X ) = var( n1 ( X 1 + ... + X n ))
= n1 E ( X 1 + ... + X n )
=
= n1 ( E ( X 1 ) + ... + E ( X n ))
=
= n1 ( µ + ... + µ )
=
=µ.
1
n2
1
n2
1
n2
var( X 1 + ... + X n )
(var( X 1 ) + ... + var( X n ))
2
(σ 2 + ... + σ 2 ) = σn .
Die Varianz verschwindet für n→∞.
5
4
average (or sample mean)
6
independent
independent and identically distributed
4
Man sagt, dass die Folge von Zufallsvariablen Y1 ,Y2 , ...
im quadratischen Mittel7 gegen die Zufallsvariable Y
konvergiert, falls
E (Yn − Y )2 → 0 .
Sind X 1 , X 2 , ... i.i.d. mit Erwartungswert µ und Varianz
σ 2, dann konvergiert die Folge
Konvergiert die Folge Y1 ,Y2 , ... im quadratischen Mittel
gegen Y, dann konvergiert auch die Folge der Verteilungsfunktionen von Y1 ,Y2 , ... gegen die Verteilungsfunktion
von Y (Konvergenz in Verteilung9), d.h.
P (Yn ≤ y ) → F ( y ) = P (Y ≤ y )
an allen Stellen y∈ℜ, an denen F stetig ist.10
X1 X1 + X 2 X1 + X 2 + X 3
,
,
, ...
1
2
3
Es folgt also aus der Konvergenz im quadratischen Mittel
von X gegen µ, dass X auch in Verteilung gegen µ
der arithmetischen Mittel im quadratischen Mittel gegen
die konstante Zufallsvariable, die nur den Wert µ annimmt, konvergiert.
weil
Die Verteilungsfunktion von X nähert sich daher mit
2
2
2
σ
wachsendem n der Verteilungsfunktion einer EinpunktE ( X − µ ) = E ( X − E ( X )) = var( X ) = n → 0 .
verteilung mit Parameter µ an.
Allgemein werden Aussagen über die Konvergenz von X
9
Gesetze der großen Zahlen8 genannt.
convergence in distribution (or convergence in law)
10
7
converges in mean square
8
laws of large numbers (LLN)
Im Fall der Konvergenz gegen eine konstante Zufallsvariable ist die
Konvergenz in Verteilung äquivalent mit der Konvergenz in Wahrscheinlichkeit (welche erst später behandelt wird).
5
1
.
0
0
.
8
0
.
6
0
.
4
0
.
2
0
.
0
0.0
0.2
0.4
0.6
0.8
1.0
1
.
0
Verteilungsfunktion von X für n=100, p=0.3:
0
.
0
0.0
0.2
0.4
0.6
0.8
1.0
0
.
8
1
.
0
Verteilungsfunktion von X für n=500, p=0.3:
0
.
2
0
.
0
p <- 0.3; n <- 25 # or n <- 100 or n <- 500
x <- c(-0.1,(0:n)/n,1.1); F <- c(0,pbinom(0:n,n,p),1)
plot(x,F,type="s")
0
.
4
0
.
6
Beispiel: Die Verteilungsfunktion des arithmetischen
Mittels von n unabhängigen, Bernoulli-verteilten Zufallsvariablen mit Parameter p nähert sich mit wachsendem n
der Verteilungsfunktion einer einpunktverteilten Zufallsvariablen mit Parameter p an.
0
.
2
0
.
4
Ist diese Wahrscheinlichkeit positiv, dann hat die Verteilungsfunktion der Summe eine Sprungstelle an der Stelle
x und die Verteilungsfunktion von X an der Stelle x/n.
Die Sprunghöhen sind gleich.
0
.
8
x
 X + ... + X n x 

P ( X 1 + ... + X n = x ) = P  1
=  = P X = 
n
n
n


Verteilungsfunktion von X für n=25, p=0.3:
0
.
6
Die Summe von i.i.d. Zufallsvariablen X1,…,Xn nimmt
den Wert x mit der gleichen Wahrscheinlichkeit an
wie das arithmetische Mittel den Wert x/n:
0.0
0.2
0.4
0.6
0.8
1.0
6
Tschebyscheff-Ungleichung11:
E ( X ) = µ , var( X ) = σ 2 > 0 , k>0 ⇒ P( X − µ > kσ ) <
Beweis (für diskrete Zufallsvariablen):
σ =
2
∑ ( x − µ ) P( X = x )
2
x∈ X ( Ω )
≥
∑ ( x − µ )2 P( X = x ) +
x > µ + kσ
>
⇒
∑ ( kσ ) 2 P( X = x ) +
x > µ + kσ
1 >
∑ P( X
k2
x > µ + kσ
= x) +
∑ ( x − µ )2 P( X = x )
x < µ − kσ
∑ ( kσ ) 2 P( X = x )
x < µ − kσ
1
k2
Spezialfall:
k = 2 : P( X − µ > 2σ ) < 0.25 , P( X − µ ≤ 2σ ) > 0.75
Analog:
P ( X − µ ≥ kσ ) ≤
1
k2
, P ( X − µ < kσ ) ≥ 1 −
1
k2
Schwaches Gesetz der großen Zahlen12:
Sind X1,X2,X3,… i.i.d. mit E ( X 1 ) = µ und var( X 1 ) = σ 2 ,
dann konvergiert X in Verteilung gegen µ, da für alle k>0
P( X ≤ µ + k ) = P( X − µ ≤
∑ P( X = x )
≥ P( X − µ ≤
x < µ − kσ
k
var( X )
k
var( X )
var( X ))
var( X )) > 1 −
= P ( X > µ + kσ ) + P ( X < µ − kσ )
P ( X ≤ µ − k ) = P ( −( X − µ ) ≥
= P ( X − µ > kσ )
≤ P( X − µ ≥
Komplementär-Wahrscheinlichkeit:
P ( X − µ ≤ kσ ) = 1 − P ( X − µ > kσ ) > 1 −
11
Chebyshev's inequality
12
 k 
 var( X ) 


→1,
2
→ 0.
k
var( X ))
var( X )
k
var( X )
1
k2
2
1
var( X )) ≤
1
 k 
 var( X ) 


weak law of large numbers (LLN)
7
Der Erwartungswert der zentrierten13 Zufallsvariablen
X − EX
Sind X 1 , X 2 , X 3 , ... i.i.d. mit Erwartungswert µ und
Varianz σ 2, dann gilt für alle n
(
ist gegeben durch
E ( X − E ( X )) = E ( X ) − E ( E ( X )) = 0
1424
3
=E( X )
)
2
var n ( X − µ ) = n var( X − µ ) = n var( X ) = n σn = σ 2
und


 X −µ
 X −µ

X −µ


 = var
var n
= var
 = 1.
 σ 
σ 
σ2 


n


n 

und die Varianz der standardisierten14 Zufallsvariablen
X − E( X )
sd ( X )
Im Unterschied zu Gesetzen der großen Zahlen, die Aussagen machen über die Konvergenz von X gegen die
2
degenerierte Zufallsvariable µ, die Varianz 0 hat, machen
 X − E( X )   1 
var( X )
 var( X − E ( X )) =
 = 
var
=1.
1
4
4
2
4
4
3
zentrale Grenzwertsätze15 Aussagen über die Konvergenz
var( X )
 sd ( X )   sd ( X ) 
= var( X )
von nY = n ( X − µ ) bzw. n Z = n ( X − µ ) / σ gegen
eine nicht-degenerierte Zufallsvariable mit Erwartungswert
0 und Varianz σ 2 bzw. 1.
durch
13
14
centered
standardized
15
central limit theorems (CLT)
8
0
.6
0
.8
1
.0
n Z für n=50, p=0.3:
Die Summe S= X1+…+Xn ist binomialverteilt und ihre Verteilungsfunktion springt an den Stellen s=0,1,2,…,n genau
-3
n Z an den Stellen
-2
-1
0
1
2
3
n Z für n=1000, p=0.3:
Verteilungsfunktion von
1
.0
so wie die Verteilungsfunktion von
0
.0
0
.2
von n Z betrachten wir eine Folge von unabhängigen und
identisch Bernoulli-verteilten Zufallsvariablen X1,X2,X3,…
mit Erwartungswert µ=p und Varianz σ 2=p(1−p)>0.
Verteilungsfunktion von
0
.4
Beispiel: Zur Untersuchung des Grenzverhaltens für
n → ∞ (asymptotische Analyse16) der Verteilungsfunktion
1
n
( X1σ−µ + ... +
X n −µ
σ
) = s − nµ )
= P ( X 1 + ... + X n = s) .
p <- 0.3; n <- 50; s <- 0:n; F <- pbinom(0:n,n,p)
plot((s-n*p)/(sqrt(n*p(1-p)),F,type="s",xlim=c(-3,3))
# sqrt: square root, xlim: x coordinates range
16
asymptotic analysis
0
.4
= P(σ n
0
.2
s −nµ
)
nσ
0
.0
P( n Z =
0
.6
0
.8
( s − nµ ) / n σ , s=0,1,2…,n. Es gilt nämlich
-3
-2
-1
0
1
2
3
Mit wachsendem n werden die Sprünge immer kleiner,
die Verteilungsfunktion von n Z nähert sich einer
stetigen Funktion an.
9
Die Verteilungsfunktion einer diskreten Zufallsvariablen
X ist fast überall konstant und wächst nur durch Sprünge
an den Stellen x∈X(Ω). Die Sprunghöhe an der Stelle x
ist gegeben durch P(X=x). Die Summe aller Sprünge ist 1.
Im Gegensatz dazu gibt es bei einer stetigen Verteilungsfunktion keine Sprünge. Ein Anstieg von F(a) auf F(b) im
Intervall [a,b] lässt sich also nicht mit einer Summe von
Wahrscheinlichkeiten beschreiben. Jeder einzelne Wert
hat eine Wahrscheinlichkeit von 0.
Beispiel: Gleichverteilung auf Ω=(0,1], X(ω)=ω
x ∈ (0,1] : F ( x) = P ( X ≤ x) = P ( X ∈ (0, x]) = x
Eine Zufallsvariable X heißt stetig17, wenn eine Funktion
f: R→[0,∞) existiert, sodass für alle Borel-Mengen A gilt:
P ( X ∈ A) = ∫ f (t ) dt
A
Eine solche Funktion f heißt Dichtefunktion18 von X.
Die zugehörige Verteilungsfunktion ist gegeben durch
F ( x ) = P ( X ≤ x ) = P( X ∈ ( −∞, x ]) =
x
∫ f (t ) dt = ∫ f (t ) dt
( −∞, x ]
−∞
und ihre Ableitung F ′ durch f.
Beispiel: Gleichverteilung auf Ω=(0,1], X
x <- seq(-1,2,0.001); F <- dunif(x,0,1); plot(x,F,type="l")
0.2
0.4
0.6
0.8
1.0
x <- seq(-1,2,0.001); F <- punif(x,0,1) # uniform on 0,1
plot(x,F,type="l") # type="l": lines
0.0
17
18
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
continuous
density (or probability density function)
10
Beispiel: X1,X2,X3,… i.i.d. Bernoulli-verteilt
n=100, p=0.3: Binomialwahrscheinlichkeiten P ( nX = x )
Dichtefunktion f(x)
f ( x) =
 − ( x − µ )2 
1 1
,
exp
 2σ 2 
2π σ


wobei
0
.
0
0
ist für große n 19 gegeben durch
0
.
0
2
0
.
0
4
= nX
0
.
0
6
n!
P ( X 1 + ... + X n = x) =
p x (1 − p ) n− x
14243
x!(n − x)!
0
.
0
8
Eine Approximation der Binomialwahrscheinlichkeit
15
20
25
30
35
40
45
n=100, p=0.3: Verteilungsfunktion P( nX ≤ x )
x
µ = np , σ 2 = np(1 − p ) .
Verteilungsfunktion ∫ f (t ) dt
19
20
over 9000
normally distributed
0
.6
0
.0
0
.2
funktion einer Zufallsvariablen, dann heißt diese Zufallsvariable normalverteilt20 mit den Parametern µ und σ 2.
0
.
4
Ist diese Funktion f mit µ ∈ ℜ und σ 2 > 0 die Dichte-
0
.8
1
.0
−∞
15
20
25
30
35
40
45
11
Xj −µ
j =1
σ
= n
X −µ
σ
0
.
0
-2
-1
0
1
2
3
0
.
8
1
.
0
F <- pnorm(x,0,1); plot(x,F,type="l",xlim=c(-3,3))
x
Φ ( x ) = ∫ φ (t )dt .
−∞
Eine Zufallsvariable mit so einer Dichtefunktion heißt
standardnormalverteilt21.
standard normally distributed
0
.
4
und Verteilungsfunktion
21
-3
0
.
6
in Verteilung gegen eine stetige Zufallsvariable Z mit
Dichtefunktion
 − x2 
1

exp
φ ( x) =
 2 
2π


0
.
1
0
.
2
n
∑
0
.
2
1
n
0
.
0
n
x <- seq(-3,3,0.001); f <- dnorm(x,0,1) # my=0, sigma=1
plot(x,f,type="l",xlim=c(-3,3))
0
.
4
Sind X 1 , X 2 , X 3 , ... i.i.d. mit Erwartungswert µ und
Varianz σ 2, dann konvergiert
Eine standardnormalverteilte Zufallsvariable ist normalverteilt mit den Parametern µ=0 und σ 2=1.
0
.
3
Zentraler Grenzwertsatz:
-3
-2
-1
0
1
2
3
pnorm(c(-1,0,1,2)) # P(Z<2)=0.9772499
0.1586553 0.5000000 0.8413447 0.9772499
qnorm(c(0.025,0.5,0.975,0.995)) # P(Z<1.959964)=0.975
-1.959964 0.000000 1.959964 2.575829
12
log(n! ) = log(n ⋅ ( n − 1) ⋅ ... ⋅ 1)
Stirling-Formel23:
= log(n ) + log(n − 1) + ... + log(1)
n! ≈
= log(n ) + log(n − 1) + ... + log(2)
n + 0.5
1⋅log(2)+1⋅log(3)+…+1⋅log(10) (Fläche der Rechtecke)
≈ Integral von log(x) auf [1.5,10.5] (rot umrandete Fläche)
(siehe Abbildung)
1.5
= ( x log( x ) − x )
n + 0.5
1.5
= (n + 0.5) log(n + 0.5) − n − 0.5 − 1.5 log(1.5) + 1.5)
= (n + 0.5) log(n (1 + 0n.5 )) − n − 0.5 + 1.5(1 − log(1.5))
1442443
2.0
∫ log( x ) dx
1.5
≈
2π n ( ne ) n ≈ 2.506628 n ( ne )n
= n log(n ) + log((1 + 0n.5 ) n ) + 12 log(n ) + 12 log(1 + 0n.5 ) -n-0.5-C
144244
3
142
4 43
4
≈ n log(n ) − n + log( n ) + C
⇒ n! ≈ eC n e − n n n ≈ 2.439523 n ( ne ) n 22
0.5
≈0
0.0
≈ log( e0.5 ) = 0.5
1.0
=C
0
22
Die Approximation wird genauer, wenn man eC durch √2π ersetzt.
23
1
2
3
4
5
6
7
8
9
10
Stirling's formula
13
Für große n sind nur Wahrscheinlichkeiten für Werte x in
der Nähe von µ relevant. Für diese Werte gilt
x−µ
y −ν
≈ 0,
≈0.
Die Anwendung der Stirling-Formel
2π n ( ne ) n
n! ≈
µ
auf die Binomialwahrscheinlichkeit
n!
p x (1 − p )n − x
x!( n − x )!
P( X = x ) =
Mit Hilfe der Taylor-Approximation
log(1 + ε ) ≈ 0 + ε − 12 ε 2
ergibt mit y = n − x, q = 1 − p, µ = np, ν = nq, σ 2 = npq
1
2π
1
n nn e x e y x y
p q =
x
y
n
x y x y 12
2π
e3
n  np 
 
xy  x 
x
 nq 
 
 y 
=1
=
1
2π
1
µ
 
µ  x − µ  ν  y −ν   x 
n 1 +
 1 +

µ n
ν 
n
1 1µ
≈
 
2π σ  x 
x
y
ν 
  .
 y
ν
x
ν 
 
 y
y
und v − y = (1 − p )n − ( n − x ) = x − µ erhält man
y
x
x

x−µ
µ
log   = − x log   = − x log 1 +

µ 
x
µ

2
 x − µ ( x − µ )2 
 ≈ µ − x − (x − µ) ,
≈ ( − µ − ( x − µ )) 
−
 µ
2µ
2 µ 2 

x
y
ν 
( x − µ )2 (1 − p ) ( y − ν ) 2 p
µ
log   + log   = −
−
,
2np (1 − p )
2n (1 − p ) p
x
 y
P( X = x ) ≈
1 1µ
 
2π σ  x 
x
y
 − ( x − µ )2 
ν 
1 1
.
exp
  ≈
 2σ 2 
2π σ
 y


14
Der Erwartungswert einer stetigen Zufallsvariablen mit
Dichtefunktion f ist gegeben durch
∞
E ( X ) = ∫ x f ( x ) dx
∞
E ( X ) = ∫ x f ( x ) dx .
Beispiel: X ist gleichverteilt auf dem Intervall [a,b]
a
b
∞
x
dx + ∫ x ⋅ 0 dx
a b−a
b
a
=
b
1 x2 b
b2 − a 2
a+b
=
=
b−a 2 a
2( b − a )
2
∞
1 b 2
b3 − a 3
E ( X ) = ∫ x f ( x ) dx =
∫ x dx = 3(b − a )
b−a a
−∞
2
P( −∞ < X < ∞) = ∫ f ( x ) dx
b
a
2
∞
= ∫ f ( x ) dx + ∫ f ( x ) dx + ∫ f ( x ) dx
b
∞
1
dx + ∫ 0 dx = 1
a b−a
b
var( X ) = E ( X 2 ) − ( E ( X )) 2 =
b
= ∫ 0 dx + ∫
−∞
−∞
−∞
∞
a
∞
= ∫ x ⋅ 0 dx + ∫
falls x < a
 0,

 1
f ( x) = 
, falls a ≤ x ≤ b
b − a
 0 ,
falls x > b
−∞
b
= ∫ x f ( x ) dx + ∫ x f ( x ) dx + ∫ x f ( x ) dx
−∞
−∞
a
−∞
a
=
a 2 + ab + b2  a + b 
−

3
 2 
2
(b − a ) 2
12
15
Momente der Normalverteilung:
Ist X normalverteilt mit den Parametern µ und σ 2,
dann gilt:
E( X ) = µ ,
Sind Z1 , ..., Z k i.i.d. standardnormalverteilt, dann ist
X = Z 12 + ... + Z k2
χ2-verteilt mit k Freiheitsgraden24.
E ( X ) = E ( Z 12 ) + ... + E ( Z k2 ) = 1 + ... + 1 = k
var( X ) = E ( X − µ ) 2 = σ 2
var( X ) = 2k
E ( X − µ )4 = 3σ 4
Ist die standardnormalverteilte Zufallsvariable Z unabhängig von der mit k Freiheitsgraden χ2-verteilten Zufallsvariablen X, dann ist
Z
T=
E ( X − µ )3 = E ( X − µ )5 = ... = 0
3
0
 X −µ
Schiefe = E 
 = =0
σ
 σ 
4
3σ 4
 X −µ
Wölbung = E 
 = 4 =3
σ
 σ 
X
k
t-verteilt mit k Freiheitsgraden25.
k > 1 ⇒ E( X ) = 0
k > 2 ⇒ var( X ) =
24
25
k
k −2
chi-squared distributed with k degrees of freedom
t-distributed with k degrees of freedom
16
Zu diesem Plot der Dichtefunktion einer Standardnormalverteilung werden noch weitere Linien hinzugefügt,
nämlich die Dichtefunktionen von t-Verteilungen mit 3
bzw. 10 Freiheitsgraden.
konvergiert nach dem Gesetz der großen Zahlen als arithmetisches Mittel von k i.i.d. χ2(1) Zufallsvariablen gegen
den Erwartungswert einer χ2-Verteilung mit einem Freiheitsgrad, also gegen 1. Für große k wird T daher im
Wesentlichen nur von Z bestimmt.
f <- dt(x,3); lines(x,f,col="orange") # density of t(3)
f <- dt(x,10); lines(x,f,col="green") # density of t(10)
0.3
0.1
0
.2
0.0
0
.1
0
.0
f
0
.3
0
.4
f
x <- seq(-5,5,0.001); f <- dnorm(x,0,1) # density of N(0,1)
plot(x,f,type="l")
0.2
X
k
0.4
Die Zufallsvariable X/k in der Definition der t-verteilten
Zufallsvariablen
Z
T=
-4
-4
-2
0
2
4
-2
0
2
4
x
x
17
Die Dichtefunktion einer mit 2 Freiheitsgraden χ2-verteilten Abkürzungen:
Zufallsvariablen X ist für x≥0 gegeben durch
X ~ N ( µ ,σ 2 ) (X ist normalverteilt mit Parametern µ, σ2)
1
−x
exp
.
2
 2 
Allgemein heißt eine stetige Zufallsvariable X mit Dichtefunktion
1
−x
f ( x ) = exp

τ
 τ 
für x≥0 und f(x)=0 für x<0 exponentialverteilt26 mit dem
Parameter τ. Die Verteilungsfunktion von X ist gegeben
durch
f ( x) =
x
−t
−t
−x
F ( x ) = ∫ exp  dt = − exp  = 1 − exp

τ 
 τ 0
 τ 
0τ
x
1
für x≥0 und F(x)=0 für x<0. Weiters gilt:
X ~ χ 2 ( k ) (X ist χ2-verteilt mit k Freiheitsgraden)
X ~ t ( k ) (X ist t-verteilt mit k Freiheitsgraden)
X ~ Exp(τ ) (X ist exponentialverteilt mit Parameter τ)
d
X n → X (Xn konvergiert in Verteilung gegen X)
m. s.
X n → X (Xn konvergiert im quadratischen Mittel gegen X)
Es gilt:
X ~ N ( µ , σ 2 ) ⇒ a + b X ~ N ( a + b µ , b2σ 2 )
X ~ N ( µ , σ 2 ), Y ~ N (ν ,τ 2 ), X , Y unabhängig
⇒ X + Y ~ N ( µ + ν ,σ 2 + τ 2 )
X ~ χ 2 ( k ), Y ~ χ 2 ( m), X ,Y unabhängig
⇒ X + Y ~ χ 2 ( k + m)
E ( X ) = τ , var( X ) = τ 2
d
26
exponentially distributed
d
X n → X , g stetig ⇒ g ( X n ) → g ( X )
18
A <- cbind(1:3,c(1,1,1),5:3,c(0,1,1)); A
1 1 5 0
2 1 4 1
3 1 3 1
A[1:2,3] # erste zwei Komponenten der 3. Spalte von A
5 4
A[2,] # ganze zweite Zeile von A
2 1 4 1
Mit der Funktion data.frame kann man zu einer Matrix
von Zahlen, wie z.B. A, eine Spalte anderen Typs, z.B.
eine Datums-Spalte, hinzufügen:
z <- c("2014-12-31","2015-01-01","2015-01-02")
# z ist ein Text-Vektor.
d <- as.Date(z) # Umwandlung in Datums-Vektor
F <- data.frame(d,A); F
2014-12-31 1 1 5 0
2015-01-01 2 1 4 1
2015-01-02 3 1 3 1
Das neue Objekt F ist keine Matrix mehr, sondern ein
Data Frame, weil nicht alle seine Spalten vom gleichen
Typ sind.
19
Downloaden und Importieren von Aktienkursen:
• Auf der Website finance.yahoo.com gibt man den Namen
einer Firma, z.B. Home Depot, oder - falls bekannt - gleich
das Symbol, HD, im Feld Quote Lookup ein und wählt
durch Anklicken aus den vorgeschlagenen Alternativen.
• Zur Kontrolle lässt man sich Y anzeigen.
Y # HD-Kurse heruntergeladen am 8.11.2014
Date
Open High Low Close Volume Adj.Close
2014-11-07 97.17 97.75 96.69 97.65 3429500 97.65
M
1981-09-22 10.25 10.25 10.25 10.25 7435800 0.02
• Nach dem Anklicken von Historical Prices gelangt man
• Die erste Spalte des Data Frames Y wird in einen
zum Download-Menü, wo man den gewünschten Date
Datums-Vektor umgewandelt.
Range und die gewünschte Frequenz, z.B. Daily, wählt
und dann Get Prices und Download to Spreadsheet anklickt. Y[,1] <- as.Date(Y[,1])
• Das heruntergeladene File table.csv wird in ein zuvor
angelegtes Verzeichnis, z.B. C:\R Projects\HD, kopiert.
• Die zeitlich absteigende Reihenfolge der Zeilen von Y
wird umgedreht.
• R wird gestartet, das Working Directory C:\R Projects\HD n <- nrow(Y) # n = Anzahl der Zeilen von Y
Y[1:n,] <- Y[n:1,]; Y # Zeile n wird zu Zeile 1, …
wird gewählt, die Daten werden von table.csv eingelesen:
setwd("C:/R Projects/HD")
Y <- read.table("table.csv",sep=",",header=TRUE)
# values separated by comma, names of variables in 1st line
Date
Open High Low Close Volume Adj.Close
1981-09-22 10.25 10.25 10.25 10.25 7435800 0.02
M
2014-11-07 97.17 97.75 96.69 97.65 3429500
97.65
20
Plotten der 7. Spalte (bereinigte27 Schlusskurse) gegen
die 1. Spalte (Kalendertage):
0
20
40
60
80
100
d <- Y[,1]; y <- Y[,7]
plot(d,y,type="l") # type="l": Linienplot
Der Kursanstieg von 0.02 am 1981-09-22 auf 8.39 am
1992-12-24 (auf das ca. 420-fache!) wirkt unbedeutend
im Vergleich zum Anstieg von 5.84 am 1993-09-15 auf
52.07 am 1999-12-31 (auf das ca. 9-fache) und erst recht
zum Anstieg von 15.38 am 2009-03-06 auf 97.65 am
2014-11-07 (auf das ca. 6-fache).
1990
27
2000
2010
adjusted for dividends and splits
21
Eine graphische Darstellung des Kursverlaufs wäre
wünschenswert, bei der beispielsweise der Anstieg von 1
auf 2 (eine Verdoppelung) identisch ist mit dem von 10
auf 20 (ebenfalls eine Verdoppelung). Eine solche
Darstellung erhält man, wenn man die logarithmierten
Kurse anstelle der ursprünglichen Kurse plottet.
Die Tages-Rendite einer Aktie ist die relative Änderung
y − yt −1
Rt = t
yt −1
Es gilt nämlich:
log(2) − log(1) = log
Die Rendite29 Rt kann durch die logarithmierte Rendite30
( ) = log( ) = log(20) − log(10)
2
1
20
10
plot(d,log(y),type="l")
Log-Returns
des Schlusskurses yt an diesem Tag gegenüber dem
Schlusskurs yt-1 vom Vortag.28
rt = log( yt ) − log( yt −1 )
4
approximiert werden.
Die Approximation ist umso besser, je kleiner Rt ist:
-2
0
2
yt = 150, yt −1 = 100 ⇒ Rt = 0.50, rt ~ 0.4054651
yt = 105, yt −1 = 100 ⇒ Rt = 0.05, rt ~ 0.0487902
yt = 101, yt −1 = 100 ⇒ Rt = 0.01, rt ~ 0.0099503
28
Dividenden-Ausschüttungen werden hier ignoriert.
return
30
log return
-4
29
1990
2000
2010
22
Log-Returns können für die Tage 2,3,4,…,n berechnet
werden, nicht aber für den ersten Tag, weil es in diesem
Fall keinen Vorwert gibt.
Als Maß für die Volatilität kann man die Varianz bzw.
die Standardabweichung verwenden, die man durch die
Stichprobenvarianz32
0
.4
r <- log(y[2:n])-log(y[1:(n-1)]) # log(y[2])-log(y[1]),…
plot(d[2:n],r,type="l",xlab="",ylab="") # no axis labels
s2 =
1 n
∑ ( rj − r )2
n − 1 j =2
0
.2
bzw. die Stichprobenstandardabweichung33
0
.
0
s = s2
0
.4
0
.2
der n-1 Log-Returns r2,…,rn schätzen kann.
1990
2000
2010
Die Log-Returns sehen nicht so aus wie Zufallszahlen,
die alle mit der gleichen Wahrscheinlichkeitsverteilung
erzeugt wurden. Offenbar gibt es Perioden unterschiedlicher Volatiliät31. In manchen Perioden sind die Schwankungen viel größer als in anderen Perioden.
c(min(r),max(r),mean(r),sd(r),var(r))
-0.4054651081 0.4054651081 0.0010163232
0.0256705747 0.0006589784
32
33
31
sample variance (or empirical variance)
sample standard deviation (or empirical standard deviation)
volatility
23
Im Fall einer Zufallsstichprobe von einer stetigen WahrDass so viele Log-Returns in das Intervall (-0.0025,0.0025]
scheinlichkeitsverteilung könnte man die zugrundeliegende fallen, liegt daran, dass die bereinigten Schlusskurse sehr
Dichtefunktion mit einem Histogramm approximieren.
oft gleich bleiben. Anfangs sind sie nämlich sehr klein und
werden trotzdem nur mit 2 Nachkommastellen angegeben.
b <- seq(-0.4075,0.4075,0.005) # breakpoints of cells
Z.B.:
hist(r,breaks=b) # histogram of r
… 0.02 0.02 0.02 0.02 0.02 0.03 0.03 0.03 0.03 …
Histogram of r
Wir lassen daher die ersten 2500 Log-Returns weg.
Histogram of rr
2
0
0
4
0
0
F
re
q
u
e
n
c
y
6
0
0
1000
500
0
0
Frequency
8
0
0
1500
rr <- r[2501:(n-1)]
hist(rr,breaks=b,xlim=c(-0.1,0.1))
-0.4
-0.2
0.0
0.2
0.4
-0.10
-0.05
0.00
0.05
0.10
rr
r
24
Für einen Vergleich des Histogramms mit der Dichtefunktion einer Normalverteilung normieren wir das
Histogramm so, dass seine Fläche gleich 1 ist, und wählen
r und s 2 als Parameter für die Normalverteilung.
hist(rr,freq=FALSE,breaks=b,xlim=c(-0.1,0.1))
m <- mean(rr); s <- sd(rr) # R uses s as parameter, not s2
x <- seq(-0.5,0.5,0.001); f <- dnorm(x,m,s); lines(x,f,col="red")
20
25
Histogram of rr
Im Vergleich zu einer Normalverteilung gibt es bei den
Log-Returns sowohl mehr Werte im Zentrum als auch an
den Rändern.
Die Anpassung einer t-Verteilung an die Log-Returns ist
nicht sinnvoll, weil sie zu unflexibel ist. Ihr Erwartungswert ist immer 0, und ihre Varianz ist nahe bei 1.
Allerdings kann man einen beliebigen Erwartungswert und
eine beliebige Varianz durch eine lineare Transformation
erhalten. Ist die Dichte fX einer Zufallsvariablen X bekannt,
dann lässt sich auch die Dichte fY von Y=µ+σ X ermitteln:
15
10
5
0
Density
FY ( y ) = P(Y ≤ y ) = P ( µ + σX ≤ y )
-0.10
-0.05
0.00
rr
0.05
0.10
y−µ

 y−µ
= P X ≤
 = FX 

σ 

 σ 
 y−µ
 y−µ 1
⇒ fY ( y ) = FY' ( y ) = FX' 
 = fX 
 ,
 σ 
 σ σ
1
f X ( x ) = fY ( µ + σ x )
σ
25
Eine linear transformierte t-Verteilung mit k=4 Freiheitsgraden passt besser zu den Log Returns als eine Normalverteilung:
k <- 4; c <- s/sqrt(k/(k-2)); f <- dt(x,k)
lines(m+x*c,f/c,col="blue")
t-Verteilungen mit k=3 und 5 Freiheitsgraden implizieren
zu viele bzw. zu wenige Werte im Zentrum. Die Wölbung
ist hier kein geeignetes Maß zur Beschreibung dieses Verhaltens, weil diese nur für k≥5 existiert. Ebenso ist die
Schiefe nur bedingt geeignet zur Beschreibung der Symmetrie, weil sie nur für k≥4 existiert.
Histogram of rr
15
Density
15
10
10
5
5
0
0
Density
20
20
25
25
30
Histogram of rr
-0.10
-0.05
0.00
0.05
0.10
-0.10
-0.05
0.00
0.05
0.10
rr
rr
26
Quiz
Lösungen
P(X∈{1,2,3})=0.4, P(X=7})=0.3, P(X=9)=0.3, F(8.5)=?
F(8.5)=P(X≤8.5)=P(X∈{1,2,3})+P(X=7)=0.4+0.3=0.7
a,b∈[4,8], P(X∈[a,b])=(b-a)/4, F(5.6)=?
F(5.6)=P(X≤5.6)=P(X∈[4,5.6])=(5.6-4)/4=0.4
x∈[-2,2]), P(X≤x)=0.5+0.25x, P(X∈(1,3))=?
P(X∈(1,3))=P(X<3)−P(X≤1)=1−(0.5+0.25⋅1)=0.25
2
2
X~N(-2,3 ), E(X )=?
E(X2)=var(X)+(E(X))2=9+(-2)2=13
X~χ2(5), E(X2)=?
E(X2)=var(X)+(E(X))2=2⋅5+52=35
X~t(6), E(X2)=?
E(X2)=var(X)+(E(X))2=6/(6-2)+02=1.5
X,Y i.i.d. N(0,22), Z=X2+Y2, var(Z)=?
(X/2)2+(Y/2)2~χ2(2), Z=4((X/2)2+(Y/2)2), var(Z)=16⋅4=64
X~N(0,32), Y~N(-1,22), X,Y unabh. ⇒ 3−2(X+Y)~N(a,b), b=? X+Y~N(0-1,9+4) ⇒ 3−2(X+Y)~N(3+2,22⋅13) ⇒ b=52
Konvergenz in Verteilung: Xn →d 3, (2Xn−1)3 →d c, c=?
Xn →d 3, g(x)=(2x−1)3 stetig ⇒ g(Xn) →d g(3)=125=c
X1,X2,… i.i.d. t(9), Yn= 7n X →d Y, var(Y)=r, r=?
√n ( X − 0) / 9 /(9 − 2) = Yn /3 →d Z~N(0,1) ⇒ r=9
X1,X2,… i.i.d. χ2(1), Yn=n( X -1)2/2 →d Y, var(Y)=r, r=?
Zn=√n( X -1)/√2 →d Z~N(0,1) ⇒ Yn=(Zn)2 →d Z2~χ2(1), r=2
a <- pbinom(1,3,0.5)+pnorm(2,2,10) # R code # a=?
a=(0.53+3⋅0.53)+0.5=1
27
Herunterladen