12 Multivariate Statistik

Werbung
12
Multivariate Statistik
Kapitel 3
Modelle
3.1
a
Vektorielle Zufallsvariable
Zufallsvektor
Vektoren werden in der Linearen Algebra als Spalten geschrieben. Beobachtung“
”
 (1) 
x
 x(2) 


x =  .  = [x(1) , x(2) , . . . , x(m) ]T = [x(j) ]j
 .. 
x(m)
Manchmal auch xj statt x(j) . Für die Schliessende Statistik brauchen wir Wahrscheinlichkeitsmodelle. Zufallsvektor X (gross, unterstrichen)
b Matrizen: Notation


B11 B12 . . . B1m

..
..
.. 
B = [Bij ]ij =  ...
.
.
. 
Bn1 Bn2 . . . Bnm
(j)
oder [Bi ]ij
Bald auch Matrizen von Zufallsvariablen.
c
Erwartungswert
Der Erwartungswert eines Zufallsvektors ist einfach festgelegt als
T
EhXi = EhX (1) i, EhX (2) i, . . . , EhX (m) i
und wird oft als µ = [µ(1) , µ(2) , . . . , µ(m) ]T abgekürzt.
c W. Stahel
Version Vorlesung WS 2000/01, 14
Multivariate Statistik
d Kovarianzmatrix
Die Varianzen könnte man ebenso zu einem Vektor zusammenfassen, aber dieser wäre für die Theorie kaum nützlich. Wichtige Resultate erhält man hingegen für die
Varianz-Kovarianz-Matrix“ oder einfach Kovarianz-Matrix“
”
”


(1)
(1)
varhX i
covhX , X (2) i . . . covhX (i) , X (m) i
 covhX (2) , X (1) i
varhX (2) i
. . . covhX (2) , X (m) i 


varhXi = 
 .
..
..
..
..


.
.
.
.
covhX (m) , X (1) i covhX (m) , X (2) i . . .
varhX (m) i
|
Diese Matrix wird oft auch mit Σ| oder ΣhXi
bezeichnet (ein grosses Sigma, das
durch den vertikalen Strich vom Summenzeichen unterscheidbar gemacht wird).
Da covhX (j) , X (k) i = covhX (k) , X (j) i gilt, ist Σ| symmetrisch, Σ| T = Σ| .
e Kovarianzmatrix als Erwartungswert Für einfache Zufallsvariable ist varhXi = E (X − µ)2 . Mehrdimensional:
D
T E
varhXi = E
X −µ X −µ
= EhXX T i − µµT .
(X − µ ist ein Spaltenvektor und deshalb (X − µ) (X − µ)T eine m × m-Matrix!)
f Lineare Transformation
Für einfache Zufallsvariable ist Eha + bXi = a + b EhXi, varha + bXi = b2 varhXi.
Mehrdimensional: Y = a + B X ,
EhY i = Eha + B Xi = a + B EhXi .
D
T E
varhY i = E
B(X − µ) B(X − µ)
= E B(X − µ)(X − µ)T B T
= B E (X − µ)(X − µ)T B T = B varhXiB T .
varha + B Xi = B · varhXi · B T .
g Linearkombinationen
Spezialfall: a = 0, B = bT
varhbT Xi = bT · varhXi · b .
Daraus folgt, dass bT ·varhXi·b ≥ 0 ist für alle b. Jede Kovarianzmatrix ist positiv
semidefinit.
Falls es eine Linearkombination gibt, für die varhbT Xi = 0 ist, dann liegen Beobachtungen mit Wahrscheinlichkeit 1 in einem linearen Unterraum des Rm .
Falls es keine solche Linearkombination gibt, dann ist die Kovarianzmatrix ist positiv
definit.
| + µT Aµ.
h Aufgabe. Beweisen Sie EhX T AXi = trhA Σi
3.1. VEKTORIELLE ZUFALLSVARIABLE
15
i Standardisierung
p
Für eine einfache Zufallsvariable X ist Z = (X − EhXi)/ varhXi die zugehörige (auf
Erwartungswert 0 und Standardabweichung 1) standardisierte Zufallsvariable.
eB
e T = Σ| (nicht
Für jede positiv semidefinite Matrix Σ| gibt es eine Zerlegung B
eindeutig!)
e invertierbar. Sei
Falls Σ| positiv definit (also invertierbar) ist, dann ist auch jedes B
−1
e
B =B
und
Z = B(X − µ) = −Bµ + BX
EhZi = B(EhXi − µ) = 0
e −1 B
eB
e T (B
e −1 )T = I .
| T =B
varhZi = B ΣB
Durch lineare Transformation haben wir erreicht, dass die Zufallsvariablen Z (j) unkorreliert sind.
j Zerlegungen
eB
e T = Σ| (nicht eindeutig!)
B
•
e untere (oder obere) Dreiecksmatrix, Z (j) hängt nur von X (1) , ..., X (j)
Cholesky: B
ab (vgl. Gram-Schmidtsche Orthogonalisierung einer Basis.)
•
e symmetrisch, “symmetrische Wurzel”.
B
e ist eindeutig bis auf orthog. Transformation.
B
Aufgabe. Zeigen Sie, wie man die symmetrische Zerlegung aus der Eigenwert-EigenvektorZerlegung von Σ| erhalten kann!
k Mahalanobis-Distanz
Quadratische Form
d2 = aT Σ| −1 a
Für a = x − µ erhält man
d2 = (x − µ)T Σ| −1 (x − µ) = z T z = kzk2
Norm des zugehörigen standardisierten Vektors.
“Metrik der Kovarianzmatrix”, Bedeutung folgt.
l Mehrdimensionale Verteilung
Dichte f hxi,
Verteilungsfunktion
F hxi = P hX (1) ≤ x(1) , ..., X (m) ≤ x(m) i
Z
=
f huidu(1) ...du(m)
u(1) ≤x(1) ,...,u(m) ≤x(m)
m
Transformationen
D
E
−1 f (X) hxi
Y = ghXi. f (Y ) hghxii = det ∂ghxi
∂x
lineare Transformation: Y = a + B X , B regulär.
Dichte f (Y ) ha + B xi = dethB i−1 f hxi
16
Multivariate Statistik
n Partitionierte Vektoren und Matrizen: Notation
Wir werden oft den Zufallsvektor vkX in zwei (oder mehr) Teile aufspalten,
X [1]
X=
X [2]
wobei X [k] die Dimension mk hat und
P
k
mk = m ist.
Dementsprechend zerfällt auch der Erwartungswert (und andere Vektoren) in zwei
(oder mehr) Teile, und die Kovarianzmatrix in 4 (oder mehr 2 ),
Σ| [11] Σ| [12]
Σ| =
Σ| [21] Σ| [22]
o Randverteilung und bedingte Verteilung
Randverteilung von X [1] gegeben durch

*
F[1] hx[1] i = F

x[1] +
 ∞ 


 ... 
∞
Bedingte Verteilung von X [2] , gegeben X [1] : Falls gemeinsame Verteilung eine stetige
Dichte hat, charakterisiert durch Dichte
x[1]
f[1|2] hx[1] |x[2] i = f
f[1] hx[1] i
x[2]
3.2
Normalverteilung
a Mehrdimensionale Standard-Normalverteilung
Z ist m-dimensional standand-normalverteilt, wenn die Komponenten Z (j) unabhängig und standand-normalverteilt sind.
Dichte:
f hzi =
m
Y
1
√ exphz (j)2 /2i = (2π)−m/2 exphkzk2 /2i = fehkzk2 i
2π
j=1
b Verteilung von Linearkombinationen
Jede Linearkombination von normalverteilten Zufallsvariablen ist normalverteilt. Also
X
bT Z ∼ N h0,
b2j i = N h0, kbk2 i
j
3.2. NORMALVERTEILUNG
c
17
Definition
Die Familie der m-dimensionalen Normalverteilungen ist die Familie der Verteilungen
aller Zufallsvektoren X = a + B Z , wobei Z m-dimensional standard-normalverteilt
ist und B quadratisch (und a ∈ Rm ).
Es gilt
EhXi = a =: µ ,
varhXi = B B T =: Σ|
Nachzuweisen: Die Verteilung von X 1 und X 2 ist gleich, wenn Erwartungswert µ1 =
µ2 und Kovarianzmatrix Σ| 1 = Σ| 2 gleich ist – auch wenn B 1 6= B 2 .
|
Geeigneten Parameter sind deshalb [µ, Σ].
Jede positiv semidefinte Matrix ist Kovarianzmatrix (Parameter) einer multivariaten
Normalverteilung (wegen 3.1.j: Für jede positiv semidefinite Matrix Σ| gibt es (mind.)
eB
e T = Σ| ).
eine Zerlegung B
d Dichte
Falls Σ| regulär, hat die Normalverteilung die Dichte
f hxi = c exph(x − µ)T Σ| −1 (x − µ)/2i
| 1/2 . Sonst keine Dichte, konzentriert
mit der Normierungskonstanten c = (2π)m/2 | Σ|
auf Unterraum.
Veranschaulichung: Dichte ist konstant auf Ellipsen, die sich nur durch Streckung vom
Zentrum = Erwartungswert aus unterscheiden.
e
Lineare Transformation
| und Y = a + B X , dann
Wenn X ∼ N m hµ, Σi
Y ∼ N m ha + µ, B Σ| B T i
Familie abgeschlossen bezüglich linearen Transformationen (auch singulären).
Jede Linearkombination ist normalverteilt.
Alle Randverteilungen (auch mehrdimensionale) sind normal.
f Charakterisierung
Die letzte Eigenschaft charakterisiert die multivariate Normalverteilung:
Wenn jede Linearkombination bT X , b ∈ Rm , normalverteilt ist (oder allenfalls degeneriert), dann ist X multivariat normalverteilt.
g
Unkorreliert heisst unabhängig
Sei X 1 ∼ N m hµ1 , Σ| 1 i und X 2 ∼ N m hµ2 , Σ| 2 i.
(j)
(k)
Die beiden seien unkorreliert, covhX1 , X2 i = 0 für alle j, k .
Dann sind X 1 und X 2 stochastisch unabhängig, wenn sie gemeinsam multivariat
normalverteilt sind.
Dass der letzte Zusatz notwendig ist, zeigt zB. Flury (1997, Th.3.2.8):
Sei X1 ∼ N h0, 1i und X2 = X1 mit Wahrscheinlichkeit 0.5, X2 = −X1 sonst. Dann
ist covhX1 , X2 i = 0, aber die gemeinsame Verteilung liegt auf den beiden Diagonalen,
also sind X1 und X2 nicht unabhängig.
18
Multivariate Statistik
h Bedingte Verteilungen
Partitionierter Vektor, siehe 3.1.n. Die bedingte Verteilung von X [2] , gegeben X [1] , ist
eine Normalverteilung,
D
E
−1 |
|
|
|
X [2] | X [1] = x[1] ∼ N m2 µ + Σ| [21] Σ| −1
−
µ
(x
),
Σ
−
Σ
Σ
Σ
[22]
[21] [11] [12]
[11] [1]
[2]
[1]
Allgemein: Regressionsfunktion“ EhX[2] | X [1] = x[1] i.
”
Sie ist für die multivariate Normalverteilung linear,
= µ[2] + Σ| [21] Σ| −1
[11] (x[1] − µ[1] ).
Aufgabe. Herleitung via
X [1]
X [2]
= BZ
mit B untere Dreiecksmatrix.
i Chiquadrat-Verteilung
P
2
Die χ2 -Verteilung mit m Freiheitsgraden ist definiert als Verteilung von U = m
j=1 Zj ,
Zj ∼ N h0, 1i unabhängig.
Die Mahalanobis-Distanz 3.1.k vom Erwartungswert hat eine Chiquadrat-Verteilung
mit m Freiheitsgraden,
D2 = (X − µ)T Σ| −1 (X − µ) ∼ χ2m
(siehe 3.1.k).
j Der hochdimensionale Raum
Aufgabe. Sei Z standard-normalverteilt. Man beantworte die folgenden Fragen für
m = 2, 10, gross“.
”
Wo ist die Dichte der Normalverteilung am höchsten?
Wie gross ist der Erwartungswert des (quadrierten) Abstandes einer Beobachtung zum
Nullpunkt?
Wie gross ist die Wahrscheinlichkeit, dass eine Beobachtung innerhalb der Einheitskugel liegt?
k Bedeutung der multivariaten Normalverteilung
Siehe 1.1.m.
Aufgabe. Leiten Sie die Verteilung der Kleinste-Quadrate-Schätzung
b = (X T X )−1 X T Y
β
in der multiplen Regression Y = X β + E , Ei ∼ N 1 h0, σ 2 i, unabhängig, her. (Tipp:
Y ∼ N h...i.)
3.3. ALTERNATIVE MODELLE
3.3
a
19
Alternative Modelle
Sphärische Modelle
f hzi = fehkzk2 i
Elliptische Modelle X = µ + B Z , Z ∼ sphärisch, Dichte fe0 hkzki. Es folgt, dass
| =
wie bei der Normalverteilung nur Σ| = B B T identifizierbar ist, und f hx | µ, Σi
−1
T
e
f0 h(x − µ) Σ| (x − µ)i.
b Anwendung
Weshalb unplausibel als Modell für Beobachtungen? Es gibt keine unabhängigen Variablen!
Die elliptischen Verteilungen haben eine formale Bedeutung für robuste Schätzungen
(siehe 5.3.d) und die Multivariate t-Verteilung (sphärisch) als Verteilung einer Statistik.
c
Lokations-Skalen-Familien
X = µ + B Z , Z ∼ F0 wie oben.
•
F0 = N m h0, I i −→ Normalverteilung,
•
F0 sphärisch −→ elliptische Verteilungen,
•
F0 : X (j) unabhängig −→ allenfalls sinnvolle Modelle. Für nicht-normale F0
wird B identifizierbar; Σ| = varhXi genügt nicht mehr als Parameter.
Das wird bei independent component analysis (ICA) ausgenützt.
(j)
d Fazit
Es gibt kaum plausible Modelle für multivariate Daten ausser der multivariaten Normalverteilung.
Praxis: Transformation der Randverteilungen, so dass X (j) ≈∼ N , dann hoffen auf
multivariate Normalverteilung.
3.4
a
Klassische Schätzung der Parameter
Stichprobe
n unabhängige Zufallsvektoren X i werden zu einer Matrix zusammengefasst. LEIDER
werden die Spaltenvektoren X i dabei zu Zeilen der Matrix X .
(j)
X = [Xi ]ij
Das entspricht einer sinnvollen Tabelle von Daten. Die Spaltenvektoren entsprechen
einer langen Tradition der Mathematik. Für die Statistik wären Zeilenvektoren geeigneter. (Widerstand ist aber sinnlos.)
X ist eine Zufallsmatrix.
b Empirische Verteilung
(j)
Fbhxi = #{i | Xi ≤ x(j) , j = 1, ..., m} / n.
Wenn man mit δh. | x∗ i die Punktmasse“
in x∗ bezeichnet (P hX = x∗ i = 1), dann
P
”
b
kann man schreiben F h.i = (1/n) i δh. | X i i.
20
Multivariate Statistik
c Mittelwert
Der Erwartungswert µ wird geschätzt durch das arithmetische Mittel
n
h
i
1X
1
(1)
(2)
(m) T
µ
b = X = X ,X ,...,X
=
Xi = X T 1 .
n
n
i=1
> apply(t.d,2,mean)
d Empirische Kovarianzmatrix
Zusammenfassung der empirischen Varianzen und Kovarianzen ergibt die empirische
Kovarianzmatrix
c
Σ| = S =
n
X
T
1
1
XT X .
Xi − X Xi − X =
n−1
n−1
i=1
> t.var <− var(t.d)
e Geschätzte Standardisierung
b −1 (X i − µ
bB
bT = c
Plug-in: Z i = B
b), B
Σ| (Cholesky oder symmetrisch).
> t.b <− solve(chol(t.var)); t.xc <− scale(t.x,scale=F)
te abziehen
t.z <− t.xc%*%t.b Von der Numerik her daneben!
# Mittelwer-
Numerisch richtig:“ Q-R-Zerlegung von X c := X − 1X =:
”
X c = Q R,
Q T Q = I pseudo-orthogonal“,
”
R right-triangular
b −T
Q = Z, R = B
> t.qr <− qr(t.xc); t.z <− qr.Q(t.qr)
Geschätzte Mahalanobis-Norm
b 2 = (X − µ
D
b)T c
Σ|
−1
(X − µ
b) ≈∼ χ2m
Sollte ungefähr unabhängig chiquadrat-verteilt sein mit m FG. Überprüfung durch
QQ-plot.
> apply(t.z^2,1,sum)
> qqplot(qchisq(ppoints(length(t.d2)),ncol(t.z)),t.d2,
xlab="Quantiles of the Chisq. Distr.", ylab="Ordered Mahalanobis Dist.",
main="QQ-plot for Mahalanobis Distances")
f Streubereiche, grafisch
Höhenkurven“ der Dichte der geschätzten Verteilung sind Ellipsoide, gegeben durch
”b 2
D = const.
Aufgabe. Zeichnen Sie mit S Höhenlinien in ein Streudiagramm.
3.5. FEHLENDE DATEN
3.5
a
21
Fehlende Daten
(j)
Einzelne Daten Xi sind nicht vorhanden. Falls das Fehlen unabhängig ist von den
Werten selbst, kann man trotzdem Parameter schätzen. Andernfalls braucht man ein
spezifisches Modell für das Auftreten der Lücken, um noch etwas retten zu können.
(Ein einfaches Modell: Zensierte Daten (censored data), Nachweisgrenze einer Messmethode.)
b Missing at Random
Verschiedene Definitionen ...
c
Listwise Deletion
(j)
Wenn Xi fehlt, wird die Beobachtung X i weggelassen. (Wenn einzelne Variable viele
Lücken haben, lässt man besser diese Variablen weg.)
> t.x[rbind(c(1,2),c(2,3),c(3,3))] <− NA
> var(t.x,na.rm=T) ergibt das Gleiche wie > var(na.omit(t.x))
d Schätzung der einzelnen Parameter
Man schätzt die einzelnen µ(j) als Mittelwerte über die jeweils vorhandenen Werte.
Für Σ| jk : vorhandene Paare. Problem c
Σ| nicht unbedingt positiv (semi-) definit.
e
Imputation
Allgemein: Fehlende Daten schätzen“. Auf Grund von Regressionen.
”
EM-Algorithmus.
> library(norm) ; t.impi <- prelim.norm(t.x) ; t.impe <- em.norm(t.impi)
; t.impo <- getparam.norm(t.impi,t.impe)
Multiple Imputation: Man setzt nicht den bedingten Erwartungswert ein, sondern eine
Zufallszahl entsprechend der bedingten Verteilung.
> rngseed(27463) ; imp.norm (setzt nur einmal ein)
f Maximum likelihood
Aufgabe. herleiten, programmieren mit Hilfe einer allgemeinen Optimierungsfunktion
für m = 2.
g
Literatur: Rencher (1998), Sec. 1.9: Überblick für multivariate Statistik, kontinuierliche Daten,
Schafer (1997), Little and Rubin (1987) ganze Bücher.
S> library(norm) enthält Prozeduren, die in Schafer (1997) beschrieben sind.
R> library(norm): ähnlich.
22
3.6
Multivariate Statistik
Verteilungen der Schätzungen, Wishart-Verteilung
a Verteilung des arithmetischen Mittels
|
Satz (a) EhXi = µ, varhXi = Σ/n
| unabhängig, dann X ∼ N m hµ, Σ/ni
|
(b) Falls X i ∼ N m hµ, Σi
(c) Bester linearer, erwartungstreuer Schätzer (strikt kleinste Kovarianzmatrix)
für “alle” Verteilungen (mit endlicher Varianz). strikt kleinste Kovarianzmatrix“
”
heisst: varhT i−varhXi positiv semidefinit für alle T , oder varhaT T i ≥ varhaT Xi
für alle a, für alle T .
b Verteilung der empirischen Kovarianzmatrix: Wishart-Verteilung
Satz EhS i = Σ|
| unabhängig.
Annahme X i ∼ N m hµ, Σi,
Dann existiert B , so dass X i = B Z i + µ und Z i ∼ N m h0, I i.
P
S = B S Z B T ist eine lineare Funktion von S Z = (1/(n − 1) i Z i Z Ti .
Also genügt es, die Verteilung von S für N m h0, I i zu kennen. Die Verteilung von
(n − 1)S heisst Standard-Wishart-Verteilung.
Die Verteilung für allgemeine µ und Σ| hängt nicht von µ ab und heisst WishartVerteilung.
| unabhängig.
Definition. Seien X 1 , ..., X n ∼ N m h0, Σi,
P
|
Die Wishart-Verteilung Wh Σ, ni ist die Verteilung von i X i X Ti .
Dichte (unwichtig!)
1
f hW i = c dethW i(n−m−1)/2 exphtrh− Σ| −1 W ii ,
2
| m/2
1/c = 2nm/2 Γm hn/2i deth Σi
falls n ≥ m und Σ| regulär.
c Satz
| unabhängig, dann (n − 1)S ∼ Wh Σ,
| n − 1i
Falls X i ∼ N m hµ, Σi,
d Satz
| unabhängig, dann sind X und S unabhängig.
Falls X i ∼ N m hµ, Σi,
Allgemein gilt: X und S sind unkorreliert. (Beweis siehe 3.8.d)
Literatur: Fahrmeir, Hamerle and Tutz (1996, Satz 1.1), Bilodeau and Brenner (1999,
Ch.7), Mardia, Kent and Bibby (1979, Ch.3.4).
e Umgang mit Zufallsmatrizen
Die Verteilung einer Schätzung von Σ| hat selber einen Erwartungswert und eine Kovarianzmatrix. Der Erwartungswert ist“ eine Matrix (kann als solche definiert werden),
”
aber die Kovarianzmatrix enthält die Kovarianzen zwischen allen Paaren von Elementen c
Σ| ij , c
Σ| k` . Könnte man also als 4-dimensionalen Array aufziehen. Um so etwas zu
umgehen, wurden die Notationen vec und Kronecker-Produkt eingeführt:
vechAi: alle Spalten untereinanderschreiben:

a(1)


vechAi =  ... 
a(m)

A = [a(1) , ..., a(m) ]
Kronecker-Produkt A ⊗ B : Matrix B mit jedem Element von A multiplizieren und
3.7. TESTS UND VERTRAUENSREGIONEN
23
wie Matrix A anordnen:

(1)
(m)
A1 B · · · A1 B


(j)
..
..
..
A ⊗ B = [Ai B ]ij = 

.
.
.
(1)
(m)
An B · · · An B

Es ergibt sich ein eigenes Kalkül, zB. vechA X B i = (B T ⊗ A)vechX i.
|
Verteilungen lassen sich bestimmen: X ∼ N mn hvech1µT i, I n ⊗ Σi
Literatur: Bilodeau and Brenner (1999, Ch.6)
3.7
a
Tests und Vertrauensregionen
Lokation einer Stichprobe
| Von Interesse: H0 : µ = 0 (resp. = µ )
X i ∼ N m hµ, Σi.
0
b Sei Σ| bekannt. Likelihood-Ratio-Test (LRT):
T
Teststatistik nX Σ| −1 X ∼ χ2m unter H0 (exakt).
Aufgabe. : Beweis.
c
Union-Intersection
Man spricht von einem Union-Intersection-Test, falls
•
die Nullhypothese H0 als Durchschnitt von Hypothesen H0a und
•
der kritische Bereich C als Vereinigung der kritischen Bereiche C0a von Tests
für H0a dargestellt werden kann.
Bsp: Als Durchschnitt geschrieben: H0a : aT µ = 0, H0 = ∩a:kak=1 H0a .
|
Test von H0a : Teststatistik Ta = n(aT X)2 /(aT Σa),
Ca = {Ta > c}
C = ∪a:kak=1 = {maxa:kak=1 Ta > c}.
T
Es gilt maxa:kak=1 Ta = nX Σ| −1 X , also erhält man die Teststatistik des LRT.
d
e
Σ| unbekannt
−1
T
Teststatistik ist Hotellings T 2 = X c
Σ| X ,
n−m
2
(n−1)m T
∼ F hm, n − mi
Vertrauensregionen
|
für µ: ein Ellipsoid, bestimmt durch µ
b und c
Σ/n.
f Tests über Σ|
Tests für Unkorreliertheit von einer Variablen mit einer oder mehreren anderen −→
Regression, t- resp. F-Test. Siehe nächstes Kapitel.
g
Bootstrap
siehe...
Literatur: Bilodeau and Brenner (1999, Ch.14)
24
3.8
Multivariate Statistik
Geometrie im Raum der Stichproben oder der Zufallsvariablen
a Der IRn
Betrachte die Spalten von X als Vektoren im IRn .
Leider reicht unsere Anschauung nur bis IR3 , also eine Stichprobe vom Umfang n = 3.
Vektorraum im mathematischen
Sinn. Addition, Vielfaches,
P
Skalarprodukt xT y = i xi yi , wenn zentriert, x = 0, y = 0, proportional zur empiriyi = xT y/(kxkkyk) gleich der empirischen Korrelation.
schen Kovarianz;
P coshx,
2
2
Norm kxk = i xi proportional zum empirischen 2. Moment. Wenn zentriert, proportional zur empirischen Varianz.
b Linearkombinationen
{λ1 x(1) + ... + λk x(p) } linearer Unterraum.
c
Multiple Regression als Projektion
Zielgrösse Y , projiziert auf Unterraum, der durch die erklärenden Grössen x(1) , ..., x(p)
aufgespannt ist.
P
Angepasste Werte (fit) Yb := j βbj X (j) , Residuen R := Y − Yb .
Projektionsmatrix H = X (X T X )−1 X T macht aus Y den (Least Squares) fit
Yb = H Y .
d Unabhängigkeit von X und S
√
Sei Q eine orthogonale Matrix mit erster Zeile 1T / n. Bilde U = Q X .
√
Es ist U1 = nX . X i unkorreliert =⇒ U i unkorreliert.
Orthogonale Transformation ( Rotation“) lässt Skalarprodukt invariant:
”
T
T
X T X = (X − 1X )T (X − 1X ) + nXX
Xn
= UT U =
U U T + U 1 U T1
i=2 i i
T
Letzte Terme
P gleich, also auch zweitletzte. X ist Funktion von U 1 ; S ist Vielfaches der
Summe ni=2 U i U Ti , also Funktion von U 2 , ..., U n . Also sind X und S unkorreliert.
e
Zufallsvariable im Hilbertraum
Zufallsvariable X (j) mit endlicher Varianz bilden Vektorraum (über reellen oder komplexen Zahlen). Addition, Vielfaches,
Skalarprodukt EhX · Y i, daraus Norm −→ unitärer Raum.
Wenn ausserdem vollständig, dann Hilbertraum
Alles vorher Erwähnte lässt sich übertragen.
f Hilbertraum auch sehr nützlich für Zeitreihen und zufällige Funktionen.
Herunterladen