Document

Werbung
Seminar Quantitatives Risikomanagement
Prof: Hanspeter. Schmidli
Betreuung: Julia Eisenberg
27.10.2009 Shen,Yi
Multivariate Modelle II
3.3 Sphärische und Elliptische Verteilung
3.3.1 Sphärische Verteilung
Definition 3.18: Ein Zufallsvektor X= ( X1 ,X 2 ,...,X d )¢ hat eine sphärische
Verteilung ,wenn für jede orthogonale Matrix U Î ¡ d ´d die Gleichung
D
UX = X gilt.
Satz 3.19: Die folgenden Aussagen sind äquivalent.
(1) Der Zufallsvektor X Î ¡ d hat eine sphärische Verteilung.
(2) Es existiert eine Funktion y ,sodass die charakteristische Funktion
von X folgendermaßen gegeben wird:
f X (t ) = E(eit ¢X ) = y (t ¢t ) = y (t12 + ... + td2 )
für alle t Î ¡ d
D
(3)Für jeden Vektor a Î ¡ d gilt a¢X = a X 1
,
(1)
(2)
2
wobei a = a¢a = a12 + ... + ad2 .
Bew: (1) Þ ( 2 ) Wenn X eine sphärische Verteilung hat, dann für jeder
orthogonale Marix U gilt:
f X ( t ) = fUX ( t ) = E ( eit ¢UX ) = f X (U ¢t ) Þ f X ( t ) = y ( t ¢t ) , t ¢t ³ 0
( 2 ) Þ ( 3 ) Zuerst beobachten wir, dass
wobei e1 die Einheitsvektoren in ¡ d .
Für jedes a Î ¡ d gilt:
1
f X1 ( t ) = E ( eitX1 ) = f X ( te1 ) = y ( t 2 ) ,
(
fa¢X ( t ) = f X ( ta ) = y ( t 2 a¢a ) = y t 2 a
2
)=f
X1
(t a ) = f
a X1
(t )
( 3) Þ (1) Für jede orthogonale Marix U gilt:
(
)
(
) (
)
fUX ( t ) = E ei(U t ) X = E ei U t X1 = E ei t X1 = E ( eit ¢X ) = f X ( t )
¢ ¢
¢
Notation einer sphärischen Verteilung: X : Sd (y )
Bsp 3.20 (Multivariate Normalverteilung)
Ein Zufallsvektor X mit standard unkorrelierte Normalverteilung
N d ( 0, I d ) hat sphärische Verteilung.
Die charakteristische Funktion ist
1
ì
ü
æ 1 ö
f X ( t ) = E ( exp ( it ¢X ) ) = exp íit ¢0 - t ¢I d t ý = exp ç - t ¢t ÷ , I d Einheitsmatrix
2
î
þ
è 2 ø
Nach Satz 3.19 (2) ist die charakteristische Funktion einer sphärischen
Verteilung durch eine Funktion y , wie oben , beschrieben. Deshalb
nennt man y charakteristische Generator der sphärischen Verteilung.
Bsp 3.21(Varianz-gemischte Normalverteilung)
Ein Zufallsvektor X mit standardisiert unkorrelierte Varianz-gemischte
Normalverteilung M d ( 0, I d , Hˆ ) hat sphärische Verteilung.
Die charakteristische Funktion ist
æ1
ö
æ1 ö
f X ( t ) = E ( exp ( it ¢X ) ) = exp ( it ¢0 ) Hˆ ç t ¢I d t ÷ = Hˆ ç t ¢t ÷
è2
ø
è2 ø
Nach Satz 3.19 (2) X : S d (y ) mit charakterischem Generator
æ1 ö
y ( t ) = Hˆ ç t ÷ .
è2 ø
æ
1 ö
Somit X : M d ( 0, I d , Hˆ (.) ) und X : S d ç Hˆ æç . ö÷ ÷ sind verschiedene
è
2
è 2 øø
Darstellungen einer gemischte Verteilung.
Satz 3.22:
D
X lässt sich als X = RS (3)
repräsentieren, wobei der
Zufallsvektor S Î ¡ d gleichverteilt auf der
Einheitskugel S d -1 , S d -1 = {s Î ¡ d : s¢s = 1} ist, und R ³ 0 eine von S
unabhängige ZV ist.
Bew:
1.) Beh: Wenn der Zufallsvektor S gleichmäßig verteilt auf der
Einheitskugel und R ³ 0 ist, dann hat RS eine sphärische Verteilung.
Bew:
Die charakteristische Funktion ist
( (
))
fRS ( t ) = E ( eiRt ¢S ) = E E eiRt ¢S R = E (fS ( Rt ) ) .
Da S selbst sphärisch verteilt ist, ist Wd der charakteristische
Generator.
Nach Satz 3.19 (2) erhalten wir,
(
)
fRS ( t ) = E W d ( R 2t ¢t ) = ò W d ( r 2t ¢t )dF ( r )
(4)
wobei F die Verteilungsfunktion von r ist.
Þ Es ex. eine Funktion von t ¢t , nach Satz3.19(2) hat RS sphärische
Verteilung.
2.) Beh:
Der Zufallsvektor X hat sphärische Verteilung, dann hat X die
Darstellung (3).
Bew: Für jedes s Î S d -1
muss den charakteristischen Generator y
von X gelten y ( t ¢t ) = f X ( t ) = f X ( t s ) .
Wir setzen den Zufallsvektor S ein.
3
Þ y ( t ¢t ) = ò
S d -1
f X ( t s )dFS ( s ) = ò
S d -1
(
E e
i t s ¢X
)dF ( s )
S
Vertauschen der Reihenfolge der Integration.
( (
Þ y ( t ¢t ) = E W d t
2
X
2
)) = ò W (t¢tr ) dF
2
d
X
(r)
(5)
Durch Vergleich mit (4) können wir sehen, dass (5) die
charakteristische Funktion von RS ist.
Þ Beh.
Korollar3.23:
æ
çç X ,
è
d
Angenommen X = RS : Sd+ (y ) , dann
X
X
öd
÷÷ = ( R, S )
ø
(6)
Bew: Sei f1 ( x ) = x und f 2 ( x ) = x x .
æ
çç X ,
è
X
X
Aus Satz 3.22 folgt
d
ö
÷÷ = ( f1 ( x ) , f 2 ( x ) ) = ( f1 ( RS ) , f 2 ( RS ) ) = ( R, S ) .
ø
Bsp3.24: X : N d ( 0, I d ) , Sei X ¢X : xd2 eine Chi-Quadrat-Verteilung mit
Freiheitsgrad d, dann folgt aus Kor.3.23 R 2 : xd2 .
Wir können die E ( S ) und C ov ( S ) dadurch berechnen.
0 = E( X ) = E(R)E(S ) Þ E(S ) = 0
I d = cov ( X ) = E ( R 2 ) cov ( S ) Þ cov ( S ) = I d d
(7)
da E ( R 2 ) = d wenn R 2 : xd2 .
Jetzt nehmen wir an, dass X eine sphärische Varianz-gemischte
Normalverteilung X : M d ( 0, I d , Hˆ ) hat. Wir möchten die Verteilung von
R 2 = X ¢X in diesem Fall ermitteln.
d
Sei X = W Y , wobei Y : N d ( 0, I d ) und W unabhängig von Y ist.
Es folgt R 2 =WR% 2 ,wobei R% 2 : xd2 und W unabhängig von R% ist.
d
4
Satz 3.25: Sei Y ¥ die Menge der Generator-Funktionen, die für bel.
d
d-dim. gilt. Dann gilt X : S d (y ) mit y Î Y ¥ Û X = W Z , wobei
Z : N d ( 0, I d ) unabhängig von W ³ 0 ist.
Wenn eine sphärische Verteilung die Dichte f hat, dann durch die
f ( x) =
Verwendung der Umkehrformel
1
( 2p )
d
¥
¥
-¥
-¥
- it ¢x
ò ... ò e fX ( t ) dt1...dtd ,
ist es leicht von Satz 3.19 abzuleiten, dass für jede orthogonale Matrix U
f ( x ) = f (Ux ) gilt, so dass die Dichte die Form
f ( x ) = g ( x¢x ) = g ( x12 + ... + xd2 )
(8)
hat.
Wobei g eine Funktion einer skalaren Variable, g wird als
Dichtegenerator bezeichnet.
Offensichtlich, die gemeinsame Dichte ist konstant auf der Hypersphäre
{x : x
2
1
+ ... + xd2 = c} in ¡ d
3.3.2 Elliptische Verteilungen
Definition 3.26: Ein Zufallsvektor X Î ¡ d hat eine elliptische Verteilung
D
wenn X = m + AY , wobei Y : S k (y ) , m Î ¡ d ein konstanter Vektor ist
und A Î ¡ d ´k eine konstante Matrix ist.
Die charakteristische Funktion ist:
(
)
(
)
¢
¢
f X ( t ) = E ( eit ¢X ) = E eit ( m + AY ) = eit ¢m E ei ( A t ) Y = eit ¢my ( t ¢St ) , wobei S = AA¢ .
¢
X : Ed ( m , S,y )
Notation: elliptische Verteilungen
5
μ heißt Positionsvektor, S heißt Dispersionsmatrix, y heißt
charakteristischer Generator der elliptischen Verteilung.
Bem3.27: X : Ed ( m , S,y ) ist nicht eindeutig bestimmt. m und S sind
bis auf eine pos. Konstante eindeutig bestimmt.
D
Proposition3.28: X : Ed ( m , S,y ) genau dann wenn X = m + RAS (9) ,
wobei
(i) S ist ein auf der Einheitskugel S k -1 = {s Î ¡ k : s¢s = 1}
gleichverteilter Zufallsvektor.
(ii) R ³ 0 ist eine von S unahängige nicht negative Zufallsvariable.
(iii) A Î ¡ d ´k mit S = AA¢ .
Falls S positiv definiert, dann gilt folgende Relation zwischen
elliptischen und sphärischen Verteilungen:
X : Ed ( m , S,y ) Û S-1 2 ( X - m ) : Sd (y )
(10)
In diesem Fall, wenn der sphärischen Vektor Y den Dichtegenerator g hat,
dann hat X = m + S1 2Y die Dichte
f ( x) =
1
S
12
g
(( x - m )¢ S
-1
)
(x - m) .
Die gemeinsame Dichte ist immer Konstant auf den Mengen der Form
{x : ( x - m )¢ S
-1
}
( x - m ) = c , welche die Ellipsoiden in
¡ d beschreiben.
Offensichtlich, ist die ganze Familie von multivariate Varianz-gemischte
Normalverteilungen mit Parametern m und S elliptisch. Aus (6) und
(10) folgt, dass für eine nicht singuläre elliptische Variate X : Ed ( m , S,y )
ohne P ( X > m ) = 0 ,gilt:
6
æ
ç
ç
ç
è
( x - m )¢ S-1 ( x - m ) ,
ö
÷d
÷ = ( R, S )
-1
¢
( x - m ) S ( x - m ) ÷ø
S -1 2 ( x - m )
(11)
wobei S gleichverteilt auf der Einheitskugel S d -1 ist und R
eine unabhängige skalare Zufallsvariable ist.
Proposition 3.29:
Sei X : Ed ( m , S,y ) , S positiv definit und C ov ( X )
(
)
endlich. Für alle c ³ 0 , sodass P ( X - m )¢ S -1 ( X - m ) ³ c > 0 erhalten wir
(
)
r X ( X - m )¢ S-1 ( X - m ) ³ c = r ( X )
(12)
Bew: Aus (11) folgt, dass
d
X ( X - m )¢ S-1 ( X - m ) ³ c = m + RS1 2 S R 2 ³ c ,
D
wobei R = ( X - m )¢ S -1 ( X - m ) und S unahängig von R und gleichverteilt
D
auf S d -1 . So erhalten wir X ( X - m )¢ S-1 ( X - m ) ³ c = m + R% S1 2 S , R% = R R 2 ³ c .
D
prop .3.28
Þ Beh.
3.3.3 Eigenschaften der elliptischen Verteilungen
Lineare Kombinationen:
b Î ¡ d ,dann gilt:
Sei X : Ed ( m , S,y ) , für B Î ¡ k ´d und
BX + b : Ek ( Bm + b, BSB¢,y )
(13)
Falls a Î ¡ d dann
a¢X : E1 ( a¢m , a¢Sa,y )
(14)
Randverteilungen:
æm ö
æS
S ö
Setze X = ( X 1 , X 2 )¢ und m = ç 1 ÷ sowie S = ç 11 12 ÷ . Es gilt dann
è m2 ø
è S 21 S 22 ø
X 1 : Ek ( m1 , S11 ,y ) und X 2 : Ed - k ( m2 , S 22 ,y ) .
7
Bedingte Verteilungen: Die bedingte Verteilung von X 2 gegeben X 1
ist elliptisch verteilt, obwohl die i.a einen anderen charakteristischen
Generator y% hat.
Nur für die spezial Fälle von der multivariaten Normalverteilung bleibt
der Generator unverändert.
Quadratische Formen: Wenn X : Ed ( m , S,y ) mit S regulär ist, dann
gilt:
D
Q := ( X - m )¢ S -1 ( X - m ) = R 2
(15)
wobei R die nicht negative Zufallsvariabe aus der stochastischen
Darstellung in (3).
Faltung: Seien X : Ed ( m , S,y ) und Y : Ed ( m% , S,y% ) zwei unabhängige
Zufallsvektoren. Es gilt dann X + Y : Ed ( m + m% , S,y )
(16)
wobei y ( u ) = y ( u )y% ( u ) .
S muss i.a dieselbe für X und Y sein.
Wenn aX ¹ Y ( a ist konstant und X,Y sind die Dispresionsmatrizen),
dann bleibt die Faltung nicht unbedingt elliptisch, obwohl die zwei
Generatoren identisch sind.
3.3.4 Schätzung der Dispersion und Korrelation
Nehmen wir an, dass die Risiko-Faktor Return Daten X 1 ,..., X n elliptisch
verteilt sind.
M-Schätzer: M-Schätzer ist eine relativ alte Idee. Der Vorteil dieser
Schätzer ist, dass sie sehr einfach zu implementieren sind. Seien m̂ und
Ŝ die Schätzer de Erwartungsvektors und der Dispersionsmatrix. Für
8
jede Beobachtun X i berechnen wir
Di2 = ( X i - mˆ )¢ Sˆ -1 ( X i - mˆ ) . Wenn man verbesserte Schätzer ermitteln
möchte, insbesondere für heavy-tailed Daten, reduziert den Einfluss der
Betrachtungen mit grossen Di durch Einsetzen von Gewichtsfunktion
w j : ¡ + ® ¡ + . Die Schätzung der Dispersionsmatrix ist i.a eine verzerrte
Schätzung von der echte Varianzmatrix.
Korrelationsschätzung via Kendall’s tau:
Eine
sehr
einfach
durchzuführende
Methode
für
die
Korrelationsschätzung basiert auf Kendall’s tau.
2
p
Sei ( X1 , X 2 ) : E 2 ( m , S,y ) , dann rt ( X 1 , X 2 ) = arcsin ( r ) .
wobei r = s 12 (s 11s 22 )
12
(17)
der pseudo-Korrelationskoeffizient von der
elliptische Verteilung. (siehe Kap.5)
Diese Methode schätzt die Korrelation durch Ausnutzung der Geometrie
einer elliptischen Verteilung, die Varianz- und Kovarianzschätzung
brauchen wir nicht.
Bsp3.30 (Effiziente Korrelationsschätzung für Heavy-tailed Daten)
Angenommen, wir berechnen die Korrelationen der Risiko-Faktor
Returns auf Basis von 90 Tagen; Es scheint, dass genug Daten haben, um
eine akkurate Schätzung der realen Korrelation zu ermitteln, unter der
Annahme der identisch verteilten Daten im Betrachtungszeitraum.
Die Abbildung 3.5 zeigt die Ergebnisse eines simulationsexperiments
Wir haben 3000 bivariate Stichproben von iid Daten aus t-Verteilung mit
9
3 Freiheitsgraden und Korrelation r = 0.5 generiert; Dies ist eine
heavy-tailed elliptische Verteilung.
Die Verteilung von den Werten der
Standard-Korrelationskoeffizient ist nicht besonders eng um den echten
Wert konzentriert und hat ein paar sehr schlechte Schätzer für einige
Stichproben. Auf der anderen Seite, die Schätzungen von dem Kendall’s
tau-Transform-Methode kommen viel näher an den echten Wert.
3.3.5 Testen für elliptische Symmetrie
Das Problem dieses Abschnitts ist zu prüfen, ob eine Stichprobe von den
identisch verteilten Datenvektoren X 1 ,..., X n bei einigen μ, S und
Generator ψ eine elliptische Verteilung hat. In der Realität können wir
generell nicht davon ausgehen, dass die Beobachtungen iid
Zufallsvektoren sind, aber wir können annehmen, dass sie zumindest die
gleiche Verteilung haben.
10
Auch wenn wir annehmen würden,dass X 1 ,..., X n unabh. sind, die
Tatsache, dass wird Abhängigkeiten indie unten beschriebene Methoden
einbringen.
Stabile Korrelationensschätzung : Eine explorative Methode.
Wir können versuchen, r ( X h ( X ) ³ c ) , h ( x ) = ( x - mˆ )¢ Sˆ -1 ( x - mˆ ) für
verschiedene Werte von c ³ 0 zuschätzen. Wir erwarten, dass für
elliptisch verteilte Daten die Schätzungen grob stabil über eine Reihe von
unterschiedlichen c bleiben.
In Abbildung 3.6 geben wir ein Beispiel, die beiden mit simulierten und
realen Daten. Dei beiden zeigen keine starke Abweichung von der
Annahme von stabilen Korrelationen. Die Methode ist explorativ, und
erlaubt uns nicht zu einem form. Ergebnis zu kommen.
11
QQplots: Wenn m und S bekannt waren, dann können wir die elliptische
Symmetrie testen, durch Testen der Daten {S-1 2 ( X i - m ) : i = 1,..., n} für
sphärische Symmetrie. Ersetzen dieser Parameter durch die Schätzer
{Y = Sˆ
-1 2
i
( X i - mˆ ) : i = 1,..., n} (18) , wir prüfen, ob die Daten konsistent mit
einer sphärischen Verteilung sind. Dabei ignorieren wir die Wirkung des
Schätzfehlers.
Lemma3.31: Sei T (Y ) eine Statistik, so dass
T ( aY ) = T (Y ) (19)
fast sicher "a > 0 .
Dann hat T (Y ) die gleiche Verteilung für jeder sphärischen Vektor
Y : S d+ (y ) .
D
Bew: Nach Satz 3.22 und (19) erhalten wir T (Y ) = T ( RS ) und
a .s.
T ( RS ) = T ( S ) . Da die Verteilung von T (Y ) nur von S abhängt.
Þ Beh.
Numerische Tests: Wenn wir den Fehler in der Schätzung von Position
und Dispersion ignorieren, reicht es die Daten {Yi = Sˆ -1 2 ( X i - mˆ ) : i = 1,..., n}
auf sphärische Symmetrie zu testen.
Für i = 1,..., n , seien Ri = Yi
und Si = Yi Yi , dann sollten die
Daten Si unter die Null-Hypothese gleichverteilt auf der Einheitskugel S d -1
sein, und die Daten ( Ri , Si ) sollten die Realisierungen von unabhängigen
Paaren bilden.
3.4 Dimensionreduzierungsmethoden
3.4.1 Faktormodelle
12
Die Grundidee von Faktormodellen ist, die zufälligkeit einer d-dim
Zufallsvariable durch eine Zufallsvariable von kleinerer Dimension zu
repräsentieren.
Definition 3.32 (Lineares Faktorenmodell)
Der Zufallsvektor X ist p-Faktormodell, wenn es gilt:
(20)
X = a + BF + e
wobei
(i) F = ( F1 ,..., Fp )¢ ist ein Zufallsvektor von Faktoren mit p < d
und die Kovarianzmartrix ist pos. definit.
(ii) e = (e1 ,..., e d )¢ ist ein Zufallsvektor von idosynkratischen
Fehlertermen, die unkorreliert sind mitund Erwartungswerten gleich null.
(iii) B Î ¡ d ´ p ist eine Matrix von konstanten Faktoren und
a Î ¡ d ist konstant.
(iv) cov ( F , e ) = E ( ( F - E ( F ) ) e ¢) = 0
Die Annahme der Unkorreliertheit ist ein wesentlicher (wichtiger) Teil
der Definition.
Wenn wir die Kovarianz-Matrix von F durch W und die der e durch die
Diagonalmatrix ¡ bezeichnen, dann gilt:
S = cov ( X ) = BWB¢ + ¡
(21)
Falls das Faktormodell gilt,dann können die gemeinsamen Faktoren
immer so transformiert werden, dass die Erwartungswerte gleich null und
orthogonal sind. Wir setzen F * = W -1 2 ( F - E ( F ) ) und B* = BW1 2 ,dann gilt
X = m + B* F * + e ,wobei E ( X ) = m und S = B* ( B* )¢ + ¡ .
13
Umgekehrt kann man zeigen, dass wenn der Zufallsvektor X eine
Kovarianzmatrix hat, die erfüllt S = BB¢ + ¡ ,
(22)
wobei B Î ¡ d ´ p mit Rang ( B ) = p < d und ¡ ist Diagonalmatrix, dann X
eine Faktormodell Repäsentation hat.
3.4.2 Statistische Kalibrierungsstrategie
In einem beobachtbaren Faktorenmodell nehmen wir an, dass die
geeigneten Faktoren für die fraglichen Return-Serien im Voraus erkannt
wurden, und die Daten über diese Faktoren gesammelt wurden.
In einem latenten Faktorenmodell, die geeigneten Faktoren sind selbst
von Daten X 1 ,..., X n geschätzt.
In der klassischen statistischen Faktorenanalyse, wird es
angenommen, dass die Daten identisch verteilt mit einer Verteilung, deren
Kovarianzmatrix die Faktorstruktur S = BB¢ + ¡ hat.
In Risikomanagement, das Hauptziel aller Ansätze zu den
Faktormodellen ist es, die Faktordaten Ft und die Ladungsmatrizen B zu
erhalten.
In Abhängigkeit davon, ob die gemeinsamen Faktoren wahrnehm bar sind
oder nicht,stehen numerische Methoden zur verfügung.
Ein Beispiel dafür ist das Ein-Faktor Modell,wobei X sich durch einen
einzigen Marktindex darstellen läßt.
Bsp 3.33
Angenommen, der Zufallsvektor X beschreibt in diesem Beispiel Returns
14
von d verschiedenen Unternehmen, so dass die Zufallsvariable
d
Z ( d ) = (1 d ) å X j
j =1
als Return des Portfolios für die gleiche Investition in jedem dieser
Unternehmen angesehen werden kann.
1
d
1
d
Wir berechnen, dass Z ( d ) = 1¢BF + 1¢e = r F +
1 d
åe j .
d j =1
Das Risiko im ersten Term wird nicht von der steigende Größe d des
Portfolios beeinträchtigt, wohingegen das Risiko im zweiten Term
reduziert werden kann.
Angenommen, wir messen das Risiko einfach durch Berechnung von
Varianzen; erhalten wir
( )
var Z ( d ) = r +
1- r
® r, d ®¥,
r
dh. Der systematische Faktor hat den Hauptbeitrag zum Risiko in einem
grossen Portfolio.
3.4.3 Regressionsanalyse des Faktormodells
Wir schreiben das Modell als
X = a + BFt + e t , t = 1,..., n
(23)
wobei X t und Ft die Vektoren von individuellen Returns und Faktoren
zum Zeitpunkt t, Parameter a und b sind geschätzt werden.
Univariate Regression
Wir betrachten das univariate Regressionsmodell
X t , j = a j + b j¢ Ft + e t , j , t = 1,..., n
15
X 1, j ,..., X n , j sind die Daten von j-ten Komponent über n Zeitpunkten.
Wir unterstellen, dass aˆ j und bˆ j durch Standard Ordinary
Least-Squares( OLS) Methode bekommen sind. Wir wiederholen den
Prozess für X 1 ,..., X n ,dann bekommen wir den ganzen Vektor a und b.
Multivariate Regression
Wir konstruieren einige grosse Matrizen:
æ X 1¢ ö
X = çç M ÷÷ ,
ç X¢ ÷
è{
nø
n´ d
æ1 F1¢ ö
F = çç M M ÷÷ ,
ç1 F ¢ ÷
nø
è1
424
3
n´( p +1)
æ a¢ ö
B2 = ç ÷
B¢ ø
è{
( p +1)´d
æ e1¢ ö
E = çç M ÷÷ .
çe ¢ ÷
è{
nø
n ´d
(24)
Þ X = FB2 + E
B2 ist die Matrix der Regressionsparametern und geschätzt werden sein.
B2 ist mit mulitivariate Ordinary Least-Squares( OLS) geschätzt,
nämlich B̂2 = ( F ¢F ) F ¢X .
-1
(25)
Jetzt testen wir e auf die Unkorrelation.
Eˆ = X - FBˆ 2 ist die Residumm-Matrix und die Schätzung von e .
Wenn Ê etwa diagonal ist, erfüllt X = FB2 + E die Eigenschaft von
Faktormodell. Aus (21) folgt Sˆ ( F ) = Bˆ Wˆ Bˆ ¢ + ¡ˆ , wobei
n
ˆ = 1
W
( Fi - F )( Fi - F )¢ .
å
n - 1 i =1
Bsp3.34(Einzel-Index Modell für die Dow Jones 30 Returns)
Die B̂ Zeile steht für B . Da E ( X j ) = a j + B j E ( F ) , bedeutet die höhen
Werte höhe erwartete Returns. Das bedeutet auch höhe Risiken. Hier
sehen wir, dass HP,Intel,Microsoft von großen Risiken sind. Es entspricht
16
auch der Realität.
Die r 2 Zeile ist der Relationsmaßstab zwischen einzeln-Aktie und der
Marktindex.
Die nächsten 10 Zeilen von der Tabelle gibt die Kovarianzmatrix der
gesammten Daten an. Man bekommt sie mit Standard-Methode.
Die mittleren 10 Zeilen ist die Kovarianzmatrix von de Faktormodell,
nämlich Sˆ ( F ) . Hier sehen wir, dass die ersten 10 Zeilen und die mittleren
10 Zeilen von ähnliche Struktur sind.
Die letzten 10 Zeilen ist die Fehlermatrix E . Nach Definition ist E
diagonal, aber in diesem Beispiel ist es keine vollkommende diagonale
Matrix. Es gibt enge Relationen unter Intel, Microsoft, IBM und HP. In
dem Faktorenmodell ist das System nicht vollkommend repräsentiert.
17
3.4.4 Hauptkomponenten Analysise (PCA)
Das Ziel von PCA ist Vorstellung von hoch korrelierte Daten durch
wenigere unkorrelierten lineare Kombination.
Sei B symmetrisch, dann gilt: A = GLG¢
(26)
wobei (i) L = diag ( l1 ,..., ld ) die Diagonalmatrix der Eigenwert von A ist
und l1 ³ l2 ³ ... ³ ld .
18
(ii) G die Orthogonalmatrix ist und die Spalten von G standardisiert
Eigenvektor von A sind.
Theoretische Hauptkomponenten
Sei X Zufallsvariable mit Erwartungsvektor m und Kovarianzmatrix
S , dann Y = G¢ ( X - m )
(27)
definiert als Hauptkomponent Transformation von X ist.
Die einfache Berechnung zeigt, dass
E (Y ) = 0 , cov (Y ) = G¢SG = G¢GLG¢G = L .
Y ist deswegen unkorreliert, die Varianz ist vom größten bis zum
kleinsten sortiert.
Es gibt var (g 1¢X ) = max {var ( a¢X ) : a¢a = 1} , wobei g j die Eigenvektor von
S zum j-te Eigenwert.
Betrachten wir, dass
d
d
å var (Y ) = å l
j =1
j
j =1
d
j
= spur ( S ) = å var ( X j ) .
j =1
d
Die spur ( S ) = å var ( X j ) ist ein maßstab für die gesammten Variation.
j =1
k
å lj
j =1
d
ål
j =1
j
bedeutet, wie stark X durch die ersten k Komponenten
repräsentiert ist.
Stichprobe der Hauptkomponenten
Der Unterschied zwischen Theoretische prinzipelle Komponent
und der Stichporbe Hauptkomponent ist nur die unbekannte
Kovarianzmatrix S durch Stichporbe Kovarianzmatirx
19
Sx =
1 n
å ( X i - X )( X i - X )¢ geschätzt wird.
n i =1
Hauptkomponenten als Faktoren
Angenommen, dass die ersten k Komponenten am wichtigsten für die
gesammten Variation sind. Wir zerlegen Y in (Y1¢, Y2¢)¢ ,wobei Y1 Î ¡ k
und Y2 Î ¡ d -k ist; analog zerlegen wir G , dann gibt die Darstellung
X = m + G1Y1 + G 2Y2 = m + G1Y1 + e .
(28)
G 2Y2 kann als Fehler gesehen werden.
Die Faktor sind nämlich Ft = (g 1¢X ,..., g k¢ X )¢ .
Bsp 3.35 (PCAbasiert es Faktorenmodell für Dow Jones 30 Returns )
In Abbildung 3.9 sehen wir, dass die ersten beiden Komponenten fast
50% der gesammten Variation ausmachen.
Die (a), (b) in Abbildung 3.10 stehen jeweilig für die ersten zwei
Ladungsvektoren.
In der Tabelle 3.7, B̂ ist die B im Faktorenmodell. In diesem Fall
haben wir zwei Faktoren in Betrachtung.
Die nächsten 10 Zeilen von der Tabelle sind die Korrelationsmatrix, die
aus dem obigen Modell herauskommt. Im Vergleich mit der Tabelle 3.6
scheint sie mehr Struktur aufgenommen zu haben. Die letzten 10 Zeilen
sind die Residuum-matirx, sie ist wenig korreliert als die originale Matrix.
In reale Welt ist es selten, dass man eine Diagonalmatrix bekommt.
20
21
22
Herunterladen