12 Multivariate Statistik

12
Multivariate Statistik
Kapitel 3
Modelle
3.1
a
Vektorielle Zufallsvariable
Zufallsvektor
Vektoren werden in der Linearen Algebra als Spalten geschrieben. Beobachtung“
”
 (1) 
x
 x(2) 


x =  .  = [x(1) , x(2) , . . . , x(m) ]T = [x(j) ]j
 .. 
x(m)
Manchmal auch xj statt x(j) . Für die Schliessende Statistik brauchen wir Wahrscheinlichkeitsmodelle. Zufallsvektor X (gross, unterstrichen)
b Matrizen: Notation


B11 B12 . . . B1m

..
..
.. 
B = [Bij ]ij =  ...
.
.
. 
Bn1 Bn2 . . . Bnm
(j)
oder [Bi ]ij
Bald auch Matrizen von Zufallsvariablen.
c
Erwartungswert
Der Erwartungswert eines Zufallsvektors ist einfach festgelegt als
T
EhXi = EhX (1) i, EhX (2) i, . . . , EhX (m) i
und wird oft als µ = [µ(1) , µ(2) , . . . , µ(m) ]T abgekürzt.
c W. Stahel
Version Vorlesung WS 2000/01, 14
Multivariate Statistik
d Kovarianzmatrix
Die Varianzen könnte man ebenso zu einem Vektor zusammenfassen, aber dieser wäre für die Theorie kaum nützlich. Wichtige Resultate erhält man hingegen für die
Varianz-Kovarianz-Matrix“ oder einfach Kovarianz-Matrix“
”
”


(1)
(1)
varhX i
covhX , X (2) i . . . covhX (i) , X (m) i
 covhX (2) , X (1) i
varhX (2) i
. . . covhX (2) , X (m) i 


varhXi = 
 .
..
..
..
..


.
.
.
.
covhX (m) , X (1) i covhX (m) , X (2) i . . .
varhX (m) i
|
Diese Matrix wird oft auch mit Σ| oder ΣhXi
bezeichnet (ein grosses Sigma, das
durch den vertikalen Strich vom Summenzeichen unterscheidbar gemacht wird).
Da covhX (j) , X (k) i = covhX (k) , X (j) i gilt, ist Σ| symmetrisch, Σ| T = Σ| .
e Kovarianzmatrix als Erwartungswert Für einfache Zufallsvariable ist varhXi = E (X − µ)2 . Mehrdimensional:
D
T E
varhXi = E
X −µ X −µ
= EhXX T i − µµT .
(X − µ ist ein Spaltenvektor und deshalb (X − µ) (X − µ)T eine m × m-Matrix!)
f Lineare Transformation
Für einfache Zufallsvariable ist Eha + bXi = a + b EhXi, varha + bXi = b2 varhXi.
Mehrdimensional: Y = a + B X ,
EhY i = Eha + B Xi = a + B EhXi .
D
T E
varhY i = E
B(X − µ) B(X − µ)
= E B(X − µ)(X − µ)T B T
= B E (X − µ)(X − µ)T B T = B varhXiB T .
varha + B Xi = B · varhXi · B T .
g Linearkombinationen
Spezialfall: a = 0, B = bT
varhbT Xi = bT · varhXi · b .
Daraus folgt, dass bT ·varhXi·b ≥ 0 ist für alle b. Jede Kovarianzmatrix ist positiv
semidefinit.
Falls es eine Linearkombination gibt, für die varhbT Xi = 0 ist, dann liegen Beobachtungen mit Wahrscheinlichkeit 1 in einem linearen Unterraum des Rm .
Falls es keine solche Linearkombination gibt, dann ist die Kovarianzmatrix ist positiv
definit.
| + µT Aµ.
h Aufgabe. Beweisen Sie EhX T AXi = trhA Σi
3.1. VEKTORIELLE ZUFALLSVARIABLE
15
i Standardisierung
p
Für eine einfache Zufallsvariable X ist Z = (X − EhXi)/ varhXi die zugehörige (auf
Erwartungswert 0 und Standardabweichung 1) standardisierte Zufallsvariable.
eB
e T = Σ| (nicht
Für jede positiv semidefinite Matrix Σ| gibt es eine Zerlegung B
eindeutig!)
e invertierbar. Sei
Falls Σ| positiv definit (also invertierbar) ist, dann ist auch jedes B
−1
e
B =B
und
Z = B(X − µ) = −Bµ + BX
EhZi = B(EhXi − µ) = 0
e −1 B
eB
e T (B
e −1 )T = I .
| T =B
varhZi = B ΣB
Durch lineare Transformation haben wir erreicht, dass die Zufallsvariablen Z (j) unkorreliert sind.
j Zerlegungen
eB
e T = Σ| (nicht eindeutig!)
B
•
e untere (oder obere) Dreiecksmatrix, Z (j) hängt nur von X (1) , ..., X (j)
Cholesky: B
ab (vgl. Gram-Schmidtsche Orthogonalisierung einer Basis.)
•
e symmetrisch, “symmetrische Wurzel”.
B
e ist eindeutig bis auf orthog. Transformation.
B
Aufgabe. Zeigen Sie, wie man die symmetrische Zerlegung aus der Eigenwert-EigenvektorZerlegung von Σ| erhalten kann!
k Mahalanobis-Distanz
Quadratische Form
d2 = aT Σ| −1 a
Für a = x − µ erhält man
d2 = (x − µ)T Σ| −1 (x − µ) = z T z = kzk2
Norm des zugehörigen standardisierten Vektors.
“Metrik der Kovarianzmatrix”, Bedeutung folgt.
l Mehrdimensionale Verteilung
Dichte f hxi,
Verteilungsfunktion
F hxi = P hX (1) ≤ x(1) , ..., X (m) ≤ x(m) i
Z
=
f huidu(1) ...du(m)
u(1) ≤x(1) ,...,u(m) ≤x(m)
m
Transformationen
D
E
−1 f (X) hxi
Y = ghXi. f (Y ) hghxii = det ∂ghxi
∂x
lineare Transformation: Y = a + B X , B regulär.
Dichte f (Y ) ha + B xi = dethB i−1 f hxi
16
Multivariate Statistik
n Partitionierte Vektoren und Matrizen: Notation
Wir werden oft den Zufallsvektor vkX in zwei (oder mehr) Teile aufspalten,
X [1]
X=
X [2]
wobei X [k] die Dimension mk hat und
P
k
mk = m ist.
Dementsprechend zerfällt auch der Erwartungswert (und andere Vektoren) in zwei
(oder mehr) Teile, und die Kovarianzmatrix in 4 (oder mehr 2 ),
Σ| [11] Σ| [12]
Σ| =
Σ| [21] Σ| [22]
o Randverteilung und bedingte Verteilung
Randverteilung von X [1] gegeben durch

*
F[1] hx[1] i = F

x[1] +
 ∞ 


 ... 
∞
Bedingte Verteilung von X [2] , gegeben X [1] : Falls gemeinsame Verteilung eine stetige
Dichte hat, charakterisiert durch Dichte
x[1]
f[1|2] hx[1] |x[2] i = f
f[1] hx[1] i
x[2]
3.2
Normalverteilung
a Mehrdimensionale Standard-Normalverteilung
Z ist m-dimensional standand-normalverteilt, wenn die Komponenten Z (j) unabhängig und standand-normalverteilt sind.
Dichte:
f hzi =
m
Y
1
√ exphz (j)2 /2i = (2π)−m/2 exphkzk2 /2i = fehkzk2 i
2π
j=1
b Verteilung von Linearkombinationen
Jede Linearkombination von normalverteilten Zufallsvariablen ist normalverteilt. Also
X
bT Z ∼ N h0,
b2j i = N h0, kbk2 i
j
3.2. NORMALVERTEILUNG
c
17
Definition
Die Familie der m-dimensionalen Normalverteilungen ist die Familie der Verteilungen
aller Zufallsvektoren X = a + B Z , wobei Z m-dimensional standard-normalverteilt
ist und B quadratisch (und a ∈ Rm ).
Es gilt
EhXi = a =: µ ,
varhXi = B B T =: Σ|
Nachzuweisen: Die Verteilung von X 1 und X 2 ist gleich, wenn Erwartungswert µ1 =
µ2 und Kovarianzmatrix Σ| 1 = Σ| 2 gleich ist – auch wenn B 1 6= B 2 .
|
Geeigneten Parameter sind deshalb [µ, Σ].
Jede positiv semidefinte Matrix ist Kovarianzmatrix (Parameter) einer multivariaten
Normalverteilung (wegen 3.1.j: Für jede positiv semidefinite Matrix Σ| gibt es (mind.)
eB
e T = Σ| ).
eine Zerlegung B
d Dichte
Falls Σ| regulär, hat die Normalverteilung die Dichte
f hxi = c exph(x − µ)T Σ| −1 (x − µ)/2i
| 1/2 . Sonst keine Dichte, konzentriert
mit der Normierungskonstanten c = (2π)m/2 | Σ|
auf Unterraum.
Veranschaulichung: Dichte ist konstant auf Ellipsen, die sich nur durch Streckung vom
Zentrum = Erwartungswert aus unterscheiden.
e
Lineare Transformation
| und Y = a + B X , dann
Wenn X ∼ N m hµ, Σi
Y ∼ N m ha + µ, B Σ| B T i
Familie abgeschlossen bezüglich linearen Transformationen (auch singulären).
Jede Linearkombination ist normalverteilt.
Alle Randverteilungen (auch mehrdimensionale) sind normal.
f Charakterisierung
Die letzte Eigenschaft charakterisiert die multivariate Normalverteilung:
Wenn jede Linearkombination bT X , b ∈ Rm , normalverteilt ist (oder allenfalls degeneriert), dann ist X multivariat normalverteilt.
g
Unkorreliert heisst unabhängig
Sei X 1 ∼ N m hµ1 , Σ| 1 i und X 2 ∼ N m hµ2 , Σ| 2 i.
(j)
(k)
Die beiden seien unkorreliert, covhX1 , X2 i = 0 für alle j, k .
Dann sind X 1 und X 2 stochastisch unabhängig, wenn sie gemeinsam multivariat
normalverteilt sind.
Dass der letzte Zusatz notwendig ist, zeigt zB. Flury (1997, Th.3.2.8):
Sei X1 ∼ N h0, 1i und X2 = X1 mit Wahrscheinlichkeit 0.5, X2 = −X1 sonst. Dann
ist covhX1 , X2 i = 0, aber die gemeinsame Verteilung liegt auf den beiden Diagonalen,
also sind X1 und X2 nicht unabhängig.
18
Multivariate Statistik
h Bedingte Verteilungen
Partitionierter Vektor, siehe 3.1.n. Die bedingte Verteilung von X [2] , gegeben X [1] , ist
eine Normalverteilung,
D
E
−1 |
|
|
|
X [2] | X [1] = x[1] ∼ N m2 µ + Σ| [21] Σ| −1
−
µ
(x
),
Σ
−
Σ
Σ
Σ
[22]
[21] [11] [12]
[11] [1]
[2]
[1]
Allgemein: Regressionsfunktion“ EhX[2] | X [1] = x[1] i.
”
Sie ist für die multivariate Normalverteilung linear,
= µ[2] + Σ| [21] Σ| −1
[11] (x[1] − µ[1] ).
Aufgabe. Herleitung via
X [1]
X [2]
= BZ
mit B untere Dreiecksmatrix.
i Chiquadrat-Verteilung
P
2
Die χ2 -Verteilung mit m Freiheitsgraden ist definiert als Verteilung von U = m
j=1 Zj ,
Zj ∼ N h0, 1i unabhängig.
Die Mahalanobis-Distanz 3.1.k vom Erwartungswert hat eine Chiquadrat-Verteilung
mit m Freiheitsgraden,
D2 = (X − µ)T Σ| −1 (X − µ) ∼ χ2m
(siehe 3.1.k).
j Der hochdimensionale Raum
Aufgabe. Sei Z standard-normalverteilt. Man beantworte die folgenden Fragen für
m = 2, 10, gross“.
”
Wo ist die Dichte der Normalverteilung am höchsten?
Wie gross ist der Erwartungswert des (quadrierten) Abstandes einer Beobachtung zum
Nullpunkt?
Wie gross ist die Wahrscheinlichkeit, dass eine Beobachtung innerhalb der Einheitskugel liegt?
k Bedeutung der multivariaten Normalverteilung
Siehe 1.1.m.
Aufgabe. Leiten Sie die Verteilung der Kleinste-Quadrate-Schätzung
b = (X T X )−1 X T Y
β
in der multiplen Regression Y = X β + E , Ei ∼ N 1 h0, σ 2 i, unabhängig, her. (Tipp:
Y ∼ N h...i.)
3.3. ALTERNATIVE MODELLE
3.3
a
19
Alternative Modelle
Sphärische Modelle
f hzi = fehkzk2 i
Elliptische Modelle X = µ + B Z , Z ∼ sphärisch, Dichte fe0 hkzki. Es folgt, dass
| =
wie bei der Normalverteilung nur Σ| = B B T identifizierbar ist, und f hx | µ, Σi
−1
T
e
f0 h(x − µ) Σ| (x − µ)i.
b Anwendung
Weshalb unplausibel als Modell für Beobachtungen? Es gibt keine unabhängigen Variablen!
Die elliptischen Verteilungen haben eine formale Bedeutung für robuste Schätzungen
(siehe 5.3.d) und die Multivariate t-Verteilung (sphärisch) als Verteilung einer Statistik.
c
Lokations-Skalen-Familien
X = µ + B Z , Z ∼ F0 wie oben.
•
F0 = N m h0, I i −→ Normalverteilung,
•
F0 sphärisch −→ elliptische Verteilungen,
•
F0 : X (j) unabhängig −→ allenfalls sinnvolle Modelle. Für nicht-normale F0
wird B identifizierbar; Σ| = varhXi genügt nicht mehr als Parameter.
Das wird bei independent component analysis (ICA) ausgenützt.
(j)
d Fazit
Es gibt kaum plausible Modelle für multivariate Daten ausser der multivariaten Normalverteilung.
Praxis: Transformation der Randverteilungen, so dass X (j) ≈∼ N , dann hoffen auf
multivariate Normalverteilung.
3.4
a
Klassische Schätzung der Parameter
Stichprobe
n unabhängige Zufallsvektoren X i werden zu einer Matrix zusammengefasst. LEIDER
werden die Spaltenvektoren X i dabei zu Zeilen der Matrix X .
(j)
X = [Xi ]ij
Das entspricht einer sinnvollen Tabelle von Daten. Die Spaltenvektoren entsprechen
einer langen Tradition der Mathematik. Für die Statistik wären Zeilenvektoren geeigneter. (Widerstand ist aber sinnlos.)
X ist eine Zufallsmatrix.
b Empirische Verteilung
(j)
Fbhxi = #{i | Xi ≤ x(j) , j = 1, ..., m} / n.
Wenn man mit δh. | x∗ i die Punktmasse“
in x∗ bezeichnet (P hX = x∗ i = 1), dann
P
”
b
kann man schreiben F h.i = (1/n) i δh. | X i i.
20
Multivariate Statistik
c Mittelwert
Der Erwartungswert µ wird geschätzt durch das arithmetische Mittel
n
h
i
1X
1
(1)
(2)
(m) T
µ
b = X = X ,X ,...,X
=
Xi = X T 1 .
n
n
i=1
> apply(t.d,2,mean)
d Empirische Kovarianzmatrix
Zusammenfassung der empirischen Varianzen und Kovarianzen ergibt die empirische
Kovarianzmatrix
c
Σ| = S =
n
X
T
1
1
XT X .
Xi − X Xi − X =
n−1
n−1
i=1
> t.var <− var(t.d)
e Geschätzte Standardisierung
b −1 (X i − µ
bB
bT = c
Plug-in: Z i = B
b), B
Σ| (Cholesky oder symmetrisch).
> t.b <− solve(chol(t.var)); t.xc <− scale(t.x,scale=F)
te abziehen
t.z <− t.xc%*%t.b Von der Numerik her daneben!
# Mittelwer-
Numerisch richtig:“ Q-R-Zerlegung von X c := X − 1X =:
”
X c = Q R,
Q T Q = I pseudo-orthogonal“,
”
R right-triangular
b −T
Q = Z, R = B
> t.qr <− qr(t.xc); t.z <− qr.Q(t.qr)
Geschätzte Mahalanobis-Norm
b 2 = (X − µ
D
b)T c
Σ|
−1
(X − µ
b) ≈∼ χ2m
Sollte ungefähr unabhängig chiquadrat-verteilt sein mit m FG. Überprüfung durch
QQ-plot.
> apply(t.z^2,1,sum)
> qqplot(qchisq(ppoints(length(t.d2)),ncol(t.z)),t.d2,
xlab="Quantiles of the Chisq. Distr.", ylab="Ordered Mahalanobis Dist.",
main="QQ-plot for Mahalanobis Distances")
f Streubereiche, grafisch
Höhenkurven“ der Dichte der geschätzten Verteilung sind Ellipsoide, gegeben durch
”b 2
D = const.
Aufgabe. Zeichnen Sie mit S Höhenlinien in ein Streudiagramm.
3.5. FEHLENDE DATEN
3.5
a
21
Fehlende Daten
(j)
Einzelne Daten Xi sind nicht vorhanden. Falls das Fehlen unabhängig ist von den
Werten selbst, kann man trotzdem Parameter schätzen. Andernfalls braucht man ein
spezifisches Modell für das Auftreten der Lücken, um noch etwas retten zu können.
(Ein einfaches Modell: Zensierte Daten (censored data), Nachweisgrenze einer Messmethode.)
b Missing at Random
Verschiedene Definitionen ...
c
Listwise Deletion
(j)
Wenn Xi fehlt, wird die Beobachtung X i weggelassen. (Wenn einzelne Variable viele
Lücken haben, lässt man besser diese Variablen weg.)
> t.x[rbind(c(1,2),c(2,3),c(3,3))] <− NA
> var(t.x,na.rm=T) ergibt das Gleiche wie > var(na.omit(t.x))
d Schätzung der einzelnen Parameter
Man schätzt die einzelnen µ(j) als Mittelwerte über die jeweils vorhandenen Werte.
Für Σ| jk : vorhandene Paare. Problem c
Σ| nicht unbedingt positiv (semi-) definit.
e
Imputation
Allgemein: Fehlende Daten schätzen“. Auf Grund von Regressionen.
”
EM-Algorithmus.
> library(norm) ; t.impi <- prelim.norm(t.x) ; t.impe <- em.norm(t.impi)
; t.impo <- getparam.norm(t.impi,t.impe)
Multiple Imputation: Man setzt nicht den bedingten Erwartungswert ein, sondern eine
Zufallszahl entsprechend der bedingten Verteilung.
> rngseed(27463) ; imp.norm (setzt nur einmal ein)
f Maximum likelihood
Aufgabe. herleiten, programmieren mit Hilfe einer allgemeinen Optimierungsfunktion
für m = 2.
g
Literatur: Rencher (1998), Sec. 1.9: Überblick für multivariate Statistik, kontinuierliche Daten,
Schafer (1997), Little and Rubin (1987) ganze Bücher.
S> library(norm) enthält Prozeduren, die in Schafer (1997) beschrieben sind.
R> library(norm): ähnlich.
22
3.6
Multivariate Statistik
Verteilungen der Schätzungen, Wishart-Verteilung
a Verteilung des arithmetischen Mittels
|
Satz (a) EhXi = µ, varhXi = Σ/n
| unabhängig, dann X ∼ N m hµ, Σ/ni
|
(b) Falls X i ∼ N m hµ, Σi
(c) Bester linearer, erwartungstreuer Schätzer (strikt kleinste Kovarianzmatrix)
für “alle” Verteilungen (mit endlicher Varianz). strikt kleinste Kovarianzmatrix“
”
heisst: varhT i−varhXi positiv semidefinit für alle T , oder varhaT T i ≥ varhaT Xi
für alle a, für alle T .
b Verteilung der empirischen Kovarianzmatrix: Wishart-Verteilung
Satz EhS i = Σ|
| unabhängig.
Annahme X i ∼ N m hµ, Σi,
Dann existiert B , so dass X i = B Z i + µ und Z i ∼ N m h0, I i.
P
S = B S Z B T ist eine lineare Funktion von S Z = (1/(n − 1) i Z i Z Ti .
Also genügt es, die Verteilung von S für N m h0, I i zu kennen. Die Verteilung von
(n − 1)S heisst Standard-Wishart-Verteilung.
Die Verteilung für allgemeine µ und Σ| hängt nicht von µ ab und heisst WishartVerteilung.
| unabhängig.
Definition. Seien X 1 , ..., X n ∼ N m h0, Σi,
P
|
Die Wishart-Verteilung Wh Σ, ni ist die Verteilung von i X i X Ti .
Dichte (unwichtig!)
1
f hW i = c dethW i(n−m−1)/2 exphtrh− Σ| −1 W ii ,
2
| m/2
1/c = 2nm/2 Γm hn/2i deth Σi
falls n ≥ m und Σ| regulär.
c Satz
| unabhängig, dann (n − 1)S ∼ Wh Σ,
| n − 1i
Falls X i ∼ N m hµ, Σi,
d Satz
| unabhängig, dann sind X und S unabhängig.
Falls X i ∼ N m hµ, Σi,
Allgemein gilt: X und S sind unkorreliert. (Beweis siehe 3.8.d)
Literatur: Fahrmeir, Hamerle and Tutz (1996, Satz 1.1), Bilodeau and Brenner (1999,
Ch.7), Mardia, Kent and Bibby (1979, Ch.3.4).
e Umgang mit Zufallsmatrizen
Die Verteilung einer Schätzung von Σ| hat selber einen Erwartungswert und eine Kovarianzmatrix. Der Erwartungswert ist“ eine Matrix (kann als solche definiert werden),
”
aber die Kovarianzmatrix enthält die Kovarianzen zwischen allen Paaren von Elementen c
Σ| ij , c
Σ| k` . Könnte man also als 4-dimensionalen Array aufziehen. Um so etwas zu
umgehen, wurden die Notationen vec und Kronecker-Produkt eingeführt:
vechAi: alle Spalten untereinanderschreiben:

a(1)


vechAi =  ... 
a(m)

A = [a(1) , ..., a(m) ]
Kronecker-Produkt A ⊗ B : Matrix B mit jedem Element von A multiplizieren und
3.7. TESTS UND VERTRAUENSREGIONEN
23
wie Matrix A anordnen:

(1)
(m)
A1 B · · · A1 B


(j)
..
..
..
A ⊗ B = [Ai B ]ij = 

.
.
.
(1)
(m)
An B · · · An B

Es ergibt sich ein eigenes Kalkül, zB. vechA X B i = (B T ⊗ A)vechX i.
|
Verteilungen lassen sich bestimmen: X ∼ N mn hvech1µT i, I n ⊗ Σi
Literatur: Bilodeau and Brenner (1999, Ch.6)
3.7
a
Tests und Vertrauensregionen
Lokation einer Stichprobe
| Von Interesse: H0 : µ = 0 (resp. = µ )
X i ∼ N m hµ, Σi.
0
b Sei Σ| bekannt. Likelihood-Ratio-Test (LRT):
T
Teststatistik nX Σ| −1 X ∼ χ2m unter H0 (exakt).
Aufgabe. : Beweis.
c
Union-Intersection
Man spricht von einem Union-Intersection-Test, falls
•
die Nullhypothese H0 als Durchschnitt von Hypothesen H0a und
•
der kritische Bereich C als Vereinigung der kritischen Bereiche C0a von Tests
für H0a dargestellt werden kann.
Bsp: Als Durchschnitt geschrieben: H0a : aT µ = 0, H0 = ∩a:kak=1 H0a .
|
Test von H0a : Teststatistik Ta = n(aT X)2 /(aT Σa),
Ca = {Ta > c}
C = ∪a:kak=1 = {maxa:kak=1 Ta > c}.
T
Es gilt maxa:kak=1 Ta = nX Σ| −1 X , also erhält man die Teststatistik des LRT.
d
e
Σ| unbekannt
−1
T
Teststatistik ist Hotellings T 2 = X c
Σ| X ,
n−m
2
(n−1)m T
∼ F hm, n − mi
Vertrauensregionen
|
für µ: ein Ellipsoid, bestimmt durch µ
b und c
Σ/n.
f Tests über Σ|
Tests für Unkorreliertheit von einer Variablen mit einer oder mehreren anderen −→
Regression, t- resp. F-Test. Siehe nächstes Kapitel.
g
Bootstrap
siehe...
Literatur: Bilodeau and Brenner (1999, Ch.14)
24
3.8
Multivariate Statistik
Geometrie im Raum der Stichproben oder der Zufallsvariablen
a Der IRn
Betrachte die Spalten von X als Vektoren im IRn .
Leider reicht unsere Anschauung nur bis IR3 , also eine Stichprobe vom Umfang n = 3.
Vektorraum im mathematischen
Sinn. Addition, Vielfaches,
P
Skalarprodukt xT y = i xi yi , wenn zentriert, x = 0, y = 0, proportional zur empiriyi = xT y/(kxkkyk) gleich der empirischen Korrelation.
schen Kovarianz;
P coshx,
2
2
Norm kxk = i xi proportional zum empirischen 2. Moment. Wenn zentriert, proportional zur empirischen Varianz.
b Linearkombinationen
{λ1 x(1) + ... + λk x(p) } linearer Unterraum.
c
Multiple Regression als Projektion
Zielgrösse Y , projiziert auf Unterraum, der durch die erklärenden Grössen x(1) , ..., x(p)
aufgespannt ist.
P
Angepasste Werte (fit) Yb := j βbj X (j) , Residuen R := Y − Yb .
Projektionsmatrix H = X (X T X )−1 X T macht aus Y den (Least Squares) fit
Yb = H Y .
d Unabhängigkeit von X und S
√
Sei Q eine orthogonale Matrix mit erster Zeile 1T / n. Bilde U = Q X .
√
Es ist U1 = nX . X i unkorreliert =⇒ U i unkorreliert.
Orthogonale Transformation ( Rotation“) lässt Skalarprodukt invariant:
”
T
T
X T X = (X − 1X )T (X − 1X ) + nXX
Xn
= UT U =
U U T + U 1 U T1
i=2 i i
T
Letzte Terme
P gleich, also auch zweitletzte. X ist Funktion von U 1 ; S ist Vielfaches der
Summe ni=2 U i U Ti , also Funktion von U 2 , ..., U n . Also sind X und S unkorreliert.
e
Zufallsvariable im Hilbertraum
Zufallsvariable X (j) mit endlicher Varianz bilden Vektorraum (über reellen oder komplexen Zahlen). Addition, Vielfaches,
Skalarprodukt EhX · Y i, daraus Norm −→ unitärer Raum.
Wenn ausserdem vollständig, dann Hilbertraum
Alles vorher Erwähnte lässt sich übertragen.
f Hilbertraum auch sehr nützlich für Zeitreihen und zufällige Funktionen.