Multivariate Analyse: FS 2012 Ergänzungen zur Mitschrift der

Werbung
Multivariate Analyse: FS 2012
Ergänzungen zur Mitschrift der Vorlesung über Multivariate
Datenanalyse von Prof. A. Barbour
by PD Dr. Daniel Mandallaz
Chair of Land Use Engineering
Department of Environmental Sciences, ETH Zurich
Übungen: Mathias Weyland
Vorwort
Diese bündigen Unterlagen sind Ergänzungen und zum Teil Erweiterungen zur Mitschrift der Vorlesung ’Multivariate Datenanalyse’ von Prof. em. Andrew D. Barbour, welche von Mathias Weyland verfasst wurde. Der Titel der Vorlesung ist ein
bisschen irreführend, weil andere Themen ebenfalls behandelt werden (u. A. nichtparametrische Verfahren sowie Resampling-Methoden). Es ist bekanntlich schwierig, vielleicht sogar unmöglich, multivariate statistische Verfahren ganz ohne lineare
Algebra zu erklären. Aus diesem Grund werden die für die Vorlesung wichtigsten
Begriffe der linearen Algebra ebenfalls behandelt (eine kurze Einführung ist ebenfalls in der Mitschrift gegeben). Studierende, welche die multivariaten Verfahren
gründlich beherrschen wollen, sollten idealerweise die Vorlesung ’Lineare Algebra’
belegt haben, auch wenn a posteriori. Ferner sei darauf hingewiesen, dass statistische
Grundkenntnisse (z.B. Tests von Hypothesen, Vertrauensintervalle, parametrische
und nicht-parametrische Varianzanalyse) vorausgesetzt werden, welche im Skript
der Vorlesung ’Biologische Datenanalyse’ von D. Mandallaz behandelt werden.
Kapitel 1
Nicht-parametrische und
Permutationstests
1.1
Der Vorzeichen-Test
Wir betrachten n unabhängige binäre Zufallvariablen Xi mit P(Xi = 1) = p und
P(Xi = 0) = 1 − p und die Teststatistik
T =
N
X
Xi
(1.1)
i=1
Die Nullhypothese sei H0 : p = p0 und die einseitige Alternative HA : p > p0 .
Wir verwerfen die Nullhypothese H0 sobald T ≥ b und wählen b sodass
n X
n x
P(T ≥ b | H0 ) =
p (1 − p0 )n−x ≤ α
(1.2)
x 0
x=b
Diese Entscheidungsregel hat somit Niveau (Level) α. Die beobachtete Realisierung
von T sei nun t = T obs . Die beobachtete Signifikanzschranke (observed significance
level, p-value) ist definiert als
n
X
n x
obs
p+ =
p0 (1 − p0 )n−x
(1.3)
x
obs
x=T
Für die andere einseitige Alternative HA : p < p0 definieren wir analog
pobs
−
obs
T
X
n x
=
p0 (1 − p0 )n−x
x
x=0
(1.4)
Die beobachte Signifikanzschranke bezüglich der zweiseitigen Alternative HA : p 6=
obs
po ist 2 min(pobs
+ , p− ). Für grosse n kann man die z Statistik
T obs − np0
z obs = p
np0 (1 − p0 )
verwenden, welche nach dem Zentralgrenzwertsatz unter H0 genähert standard
norq
p̂(1−p̂)
mal verteilt ist, sodass ein (1− α)-Vertrauensintervall mittels p̂ ± z1− α2
konn
Pn
x
i
struiert werden kann, wobei p̂ = i=1
die relative Frequenz der xi = 1 ist (zur
n
α
Erinnerung: z1− 2 = 1.96 ≈ 2 für (1 − α) = 0.95. Für kleine n können exakte pobs
und Vertrauensintervalle berechnet werden, allerdings nur in diskreten Stufen. Der
Vorzeichentest kommt in vielen Anwendungen vor, wie zum Beispiel:
1
1. Median:
Yi unabhängig gleichverteilt, mit stetiger Verteilungsfunktion F (x) = P(Yi ≤
x). Die Nullhypothese H0 besagt, dass der Median von F gleich θ0 ist ( d.h.
F ist symmetrisch um θ0 ), die einseitige Alternative ist P(Yi >Pθ0 ) > 12 . Man
n
definiert Xi = 1 falls Yi > θ0 und Xi = 0 sonst, und T = i=1 Xi . Man
wendet den Vorzeichentest für T an, mit H0 : p = P(Yi > θ0 ) = 12 = p0 und
HA : p > 12 = p0 , analog für HA : p < 21 und den zweiseitigen Test.
2. Paar-Vergleich:
Wir haben in diesem Fall m unabhängige Paare (Xi , Yi ), von numerischen
oder qualitativen Variable und möchten testen, ob Xi > Yi (Xi ’besser’ als Yi ),
bzw. Xi < Yi (bzw. Xi ’schlechter’ als Yi ). Wir definieren p+ = P(Xi > Yi ),
p− = P(Xi < Yi ). Dann gilt offensichtlich P(Xi = Yi ) = 1 − (p+ + p− ) (Xi
und Yi equivalent). Die ensprechend beobachteten Frequenzen sind
m+
m−
m0
=
=
=
n
X
i=1
n
X
i=1
n
X
I{xi >yi }
I{xi <yi }
I{xi =yi }
i=1
Man will die Nullhypothese H0 : p+ = p− gegeben m0 testen. In diesem Falle
ist m+ binomial verteilt mit p = 21 und m − mo Beobachtungen. Man wendet
also den Vorzeichentest mit T = m+ , p0 = 21 und n = m − m0 an.
3. Vergleich von Poisson-Verteilungen:
X1 und X2 seien Poisson-verteilt mit Parametern λ1 und λ2 . Die Nullhypothese ist H0 : λ1 = λ2 . Sei ferner S = X1 + X2 , bekanntlich auch Poisson-verteilt
mit Parameter λ1 + λ2 . Wir haben
P(X2 = x2 | S = n)
=
P(X2 = x2 und X1 = n − x2 )
P(S = n)
=
λ2 2 −λ1 λ1 1
x2 ! e
x1 !
n
2)
e−(λ1 +λ2 ) (λ1 +λ
n!
=
λ
x2 λ
n−x2
n!
2
1
x2 !(n − x2 )! λ1 + λ2
λ1 + λ2
e−λ2
x
x
also binomial verteilt mit Parametern n = x1 + x2 und p =
ist p = 12 .
λ2
λ1 +λ2 .
Unter H0
Beispiel: in 1989 gab es 21 Verkehrstote in der Stadt Zürich, in 1990 nur 19. Ist
diese Abnahme signifikant? Solche Daten werden oft erfolgreich mit Poisson
Verteilungen modelliert (seltene Ereignisse). Mit n = 40 und x2 = 19 bekommt man als exaktes 95%-Vertrauensintervall [0.315, 0.639] welches p = 0.5
enthält. Die Abnahme ist somit nicht signifikant. Die Approximation
mitq
1 19
19
tels der Normalverteilung liefert das Intervall 19
40 ± 1.96
40 40 (1 − 40 ) =
[0.32, 0.63]. Eine knapp signifikante Abnahme hätte man mit nur 9 Verkehrstote in 1990.
2
1.2
Kruskal-Wallis und Wilcoxon Tests
Der Kruskal-Wallis Test ist eine nicht parametrische Version der klassische EinwegVarianzanalyse mit k Gruppen, der Test von Wilcoxon bezieht sich auf den Spezialfall k = 2. Wir betrachten k unabängige Stichproben mit jeweils ni , i = 1, 2 . . . k
Beobachtungen. Die zugörigen Zufallsvariable haben stetige Verteilungsfunktionen
F (x − θ1 ), F (x − θ2 ), . . . F (x − θk ), (P(Xi ≤ x) = F (x − θi )), wobei θi ein Lokationsparameter der i-ten Population (z.B. Erwartungswert oder Median). Wir wollen
die Nullhypothese
H0 : θ1 = θ2 = . . . θk
gegen die Alternative testen, dass mindestens zwei Populationen ungleich sind, also
θi 6= θj für i 6= j. Die Beobachtungen sind Realisierungen der Zufallsvariablen
X11 , . . . X1n1 . . . Xk1 . . . Xknk
Wir betrachten die gesamte Stichprobe der n = n1 + n2 + . . . nk Beobachtungen,
aufsteigend geordnet: Rij ist der Rang (also eine ganze Zahl zwischen 1 und n, unter
der Annahme alle Xij voneinander verschieden sind (keine Bindungen). Unter H0
haben alle n Beobachtungen dieselbe Verteilung F (x − θ), sodass der Vektor der
Ränge R = (R11 , . . . R1n1 , . . . Rk1 . . . Rknk ) eine Permutation der Zahlen 1, 2, . . . n
ist. Unter H0 sind alle Permutationen gleich wahrscheinlich, mit Wahrscheinlichkeit
Pn
n(n+1)
1
, mit Mittelwert R̄.. = n+1
i=1 i =
n! . Die Summe aller Ränge ist R.. =
2
2 .
Der mittlere Rang in der i-ten Population ist
ni
1 X
Ri.
R̄i. =
Rij =
ni j=1
ni
Unter H0 ist der Erwartungswert der Ränge in allen Populationen gleich. Wir haben
somit
EH0 (R̄i. ) =
n+1
2
2
Grosse Werte von (R̄i. − n+1
2 ) weisen daher auf Abweichung von der Nullhypothese
hin. Kruskal and Wallis (1952) haben folgende Teststatistik vorgeschlagen:
k
k
X X R2
n + 1 2
12
12
i.
ni R̄i. −
=
− 3(n + 1)
K :=
n(n + 1) i=1
2
n(n + 1) i=1 ni
(1.5)
Es ist grundsätzlich durch Abzählung möglich, die exakte diskrete Verteilung von K
unter H0 zu bestimmen. Für grosse ni kann diese Verteilung mit einer Chi-Quadrat
Verteilung mit (k − 1) Freiheitsgraden approximiert werden. Wenn Bindungen vorhanden sind, kann man die Ränge der Beobachtungen mit den gleichen Werten
durch den zueordneten mittleren Rang ersetzen. Die exakte Verteilung wird jedoch
komplizierter. Software Pakete liefern exakte Tests für nicht allzu grosse n, auch
mit Bindungen.
Im Falle von nur zwei Populationen (k = 2) kann man den statistisch äquivalenten Wilcoxon Test (1945) anwenden. Sei W1 die Summe der Ränge der ersten Stichprobe und W2 die Summe der Ränge der zweiten Stichprobe, wobei die
Ränge in der zusammengesetzten Stichprobe von allen n = n1 + n2 Beobachtungen ermittelt werden. Man hat W1 + W2 = n(n+1)
und der mittlere Rang unter
2
n1 +n2 +1
H0 ist wie vorhin
. Der Erwartungswert von W1 unter H0 ist demnach
2
2 +1)
EH0 (W1 ) = n1 (n1 +n
.
Die
Varianzen unter H0 von W1 and W2 sind beide gleich
2
3
n1 n2 (n1 +n2 +1)
.
12
Für grosse n1 and n2 ist die Teststatistik
W1 −
z= q
n1 (n1 +n2 +1)
2
(1.6)
n1 n2 (n1 +n2 +1)
12
approximativ standard normalverteilt. In kleinen Stichproben kann die exakte diskrete Verteilung bestimmt werden. Man kann auch Bindungen wie bei KruskalWallis berücksichtigen.
Im Gegensatz zur klassischen Varianzanalyse mit F -Tests wird die Normalverteilung nicht vorausgesetzt. Dies kostet allerdings etwas, nämlich ein Verlust der
Macht (Power). Dieser Verlust ist jedoch in grossen Stichproben klein, zum Beispiel
ca 5% im Vergleich zum Student t-Test im Falle von zwei Stichproben.
1.3
Wilcoxon Vorzeichen-Test
Der Vorzeichentest kann, wie wir gesehen haben, beim Paar-Vergleich angewandt
werden, wie auch der Student t-Test für gepaarte Stichproben, wenn die Differenzen normal verteilt sind (zumindest approximativ). Der Vorzeichen-Test ist selbstverständlich mit einem Informationsverlust verbunden, weil die Grösse der Differenzen nicht berücksichtigt wird. Das sogenannte Wilcoxon Vorzeichen-Test (Wilcoxon
signed-rank test) ist ein Kompromiss zwischen den beiden Tests.
Wir betrachten n unabhängige Zufallsvariablen Zi , mit stetiger Verteilung F ,
symmetrisch um θ0 . Ohne Beschränkung der Allgemeinheit setzen wir θ0 = 0 voraus
(ansonsten betrachtet man die Zi − θ0 ). Wir definieren die Funktion ψ(x) gemäss
ψ(x) = 1 falls x ≥ 0 sonst ψ(x) = 0. Sei ψi = ψ(Xi ). Nach Voraussetzung ist
P(ψi = 1) = P(ψi = 0) = 21 . Man kann zeigen, dass wegen der Symmetrie von F
die Zufallvariablen | Zi | und ψi stochastisch unabhängig sind. Ri+ sei der Rang von
| Zi | unter | Z1 |, | Z2 |, . . . | Zn |. Der ’signed rank’ (Rang mit Vorzeichen) ist nach
Definition ψi Ri+ . Es gelten für ganze Zahlen r und s zwischen 1 und n
P(Ri+ = r)
=
P(Ri+ = r, Rj+ = s)
=
E(Ri+ )
=
V(Ri+ )
=
COV(Ri+ , Rj+ )
=
1
n
1
n(n − 1)
n+1
2
(n + 1)(n − 1)
12
(n + 1)
−
12
Das Wilcoxon Vorzeichen-Test ist
W
+
=
n
X
ψi Ri+
(1.7)
i=1
Man zeigt folgende Resultate
EH0 (W + )
=
VH0 (W + )
=
n(n + 1)
4
n(n + 1)(2n + 1)
24
4
(1.8)
Für grosse n kann man die Normalverteilung als Approximation unter H0 verwenden, d.h. die Zufallvariable
W + − EH0 W +
Z= p
VH0 (W + )
(1.9)
ist unter der Nullhypothese genähert standard normal verteilt. Für kleine n kann
man die exakte diskrete Verteilung von W + berechnen. Man muss dazu alle 2n
Möglichkeiten der Vorzeichen {+, −} untersuchen. Im Falle von n = 3 bekommt
man 23 = 8 Teilmengen von {1, 2, 3} = {R1 , R2 , R3 } mit positiven Vorzeichen.
Tabelle 1.1 fasst die Resultate zusammen.
Tabelle 1.1: Wilcoxon Vorzeichen-Test W +
Teilmenge von {1, 2, 3}
Wert von W +
∅
{1}
{2}
{3}
{1, 2}
{1, 3}
{2, 3}
{1, 2, 3}
0
1
2
3
3
4
5
6
Man erhält somit folgen Verteilung unter H0
P(W + = 0) = P(W + = 1) = P(W + = 2) =
1
8
P(W + = 4) = P(W + = 5) = P(W + = 6) =
1
8
1
4
Man verifiziert leicht die Formeln in (1.8) für Erwartungswert und Varianz. Die
exakte Behandlung von Bindungen ist mühsam. Man kann wie üblich die mittleren
Ränge verwenden oder einen kleinen zufälligen Fehler addieren; die obigen Formeln
gelten dann nur approximativ. In kleinen Stichproben liefern die Sofware Pakete die
exakten Tests.
P(W + = 3) =
1.4
Der Test von Friedman
Dieser Test ist die nicht-parametrische Version der Zweiweg-Varianzanalyse ohne
Wiederholungen. Wir betrachen k Behandlungen, welche in n ’homogene’ Blöcke
angewandt werden; zum Beispiel k Düngemittel jeweils in n Versuchsflächen, welche
alle in k gleichgrosse Teilflächen unterteilt sind. Die Zielvariable könnte zum Beispiel
3
der Ertrag von Weizen in 10hakg sein. Die Beobachtungen der Zielvariable seien die
Realisierungen der unabängigen Zufallvariablen Yij , i = 1, 2 . . . k mit j = 1, 2 . . . n.
Die stetige Verteilung von Yij sei F (x − τi − βj ). Die Nullhypothese besagt, dass
kein Behandlungseffekt vorliegt, d.h. H0 : τ1 = τ2 = . . . τk = τ . Unter H0 ist
somit Yij , i = 1, 2 . . . k gemäss F (x − τ − βj ), j = 1, 2 . . . n, verteilt. Die Alternative
Hypothese ist HA : τi 6= τj für mindestens ein Paar i 6= j.
5
Für festes j ∈ {1, 2, . . . n} sei nun Rij der Rang von Yij unter der Y1j , . . . Ykj ;
Rij ist somit der Rang der Yij unter den k Beobachtungen im selben j-ten Block.
Der Rangvektor R = (Rij , . . . Rkj ) ist somit unter H0 eine Permutation der ganzen
Zahlen1, . . . k.
Seien
n
1
1X
Rij = Ri.
R̄i. =
n j=1
n
der mittlere Rang (innerhalb der Blöcke) der i-ten Behandlungen. Unter H0 haben
wir
n
n
1X
1 X 1 k(k + 1)
(k + 1)
EH0 (R̄i. ) =
EH0 (Rij ) =
=
n j=1
n j=1 k
2
2
2
Grosse Werte von (R̄i. − (k+1)
2 ) weisen auf Abweichung von der Nullhypothese von
keinem Behandlungseffekt hin. Dies führt zur sogenannten Friedman Test-Statistik
(1937)
k
Q=
k
X
12
(k + 1) 2
12n X R̄i. −
=
R2 − 3n(k + 1)
k(k + 1) i=1
2
nk(k + 1) i=1 i.
Für kleine n kann wiederum die exakte Verteilung von Q unter der Nullhypothese
H0 berechnet werden. Für grosse n (k bleibt in der Regel klein) kann man zeigen,
dass die Verteilung von Q unter H0 approximativ Chi-Quadrat mit (k − 1)
Freiheitsgraden is. Die Approximation funktioniert für kn ≥ 30 sehr gut. Bei
Bindungen innerhalb der Blöcke kann man die üblichen Anpassungen machen. Für
kleine k und n liefern die Software Pakete exakte Tests, auch mit Bindungen.
Eine ausgezeichnete Referenz für nicht parametrische Statistik ist und bleibt:
E.L. Lehmann (1975). Nonparametrics: statistical methods based on ranks,
Holden-Day, Inc. (McGraw-Hill International Book Company).
1.5
Permutationstests
Die nicht-parametrischen Tests (wir haben nur eine kleine Anzahl der wichtigsten
gesehen) befreien uns teilweise von der einschränkenden Annahme der Normalverteilung. Eine grundlegende Idee der Statistik ist die Randomisierung (Fisher), welche
uns von allen Verteilungsannahmen befreit, falls die Zuordnung der statistischen
Einheiten zu den Behandlungen zufällig erfolgt. Wir betrachten zum Beispiel n
Patienten, identifiziert durch die Indizes i = 1, 2 . . . n, mit Werten yi der Zielvariable. Wir erzeugen eine zufällige Permutation der ganzen Zahlen 1, 2, 3, . . . n. Die
ersten n1 Patienten bekommen Behandlung ’A’ und die übrigen n2 (n1 + n2 = n)
bekommen Behandlung ’B’. Idealerweise erfolgt eine solche Studie ’double blind’,
d.h. weder der Arzt noch der Patient weiss, welche Behandlung verabreicht wurde
(wohl aber der Statistiker!). Wenn die Nullhypothese stimmt, sind die Werte der
Beobachtungen von den Behandlungen ’unabängig’, sodass die meisten Permutationen auf keine Differenzen zwischen Behandlungen hinweisen. Es ist jedoch möglich,
dass eine Permutation die Daten so umordnet, dass ausgerechnet alle n1 kleinsten
Beobachtungen gerade die n1 ersten Beobachtungen sind.
Wir betrachten folgendes Beispiel. Die erste Gruppe mit 15 Beobachtungen wurden mit Yi = 10+χ2(3) simuliert und die zweite Gruppe von ebenfalls 15 Beobachtungen gemäss Xi = 12 + χ2(2) . Die Nullhypothese setzt gleiche Erwartungswerte, was
hier falsch ist. Die Daten sind offensichtlich nicht normal verteilt, wie QQ-Plots und
6
Shapiro-Wilks Test bestätigen. Als Teststatistik nehmen wir die absolute Differenz
| Ȳ − X̄ |, welche gleich 1.033 ist (die wahre absolute Differenz beträgt −1). Wir
2 )!
0
0
haben in diesem Fall (nn11+n
!n2 ! = 155 117 520 mögliche Permutationen. Von dieser
riesigen Anzahl werden 5000 zufällig ausgewählt und für jede permutierte Stichprobe wird | Ȳ − X̄ |= ∆k , k = 1, 2 . . . 5000 berechnet. Der P -Wert des klassischen
F -Tests ist in diesem Fall 0.077, was ziemlich genau dem empirischen 92.5% Quantil
der empirischen Verteilung der ∆k entspricht, siehe Abbildung 1.1.
Die Berechnungen wurden mit folgendem R Programm durchgeführt:
mc.group1<-c(rep(1,15));mc.group2<-c(rep(-1,15));
mc.group=c(mc.group1,mc.group2)
mc.group
set.seed(100)
data1<-round(10+c(rchisq(15,3)),digits=2)
data2<-round(12+c(rchisq(15,2)),digits=2)
data1
data2
hist(data1);
hist(data2)
mean(data1);mean(data2)
deltamean=mean(data1)-mean(data2);deltamean
absdeltamean=abs(deltamean);absdeltamean
sd(data1)/sqrt(15);sd(data2)/sqrt(15)
mc.data<-c(data1,data2)
mc.data
absdeltameancheck<-abs(sum(mc.group*mc.data)/15)
absdeltameancheck
aux.group<-factor(mc.group);
anova(lm(mc.data~mc.group))
diff<-matrix(0:0,nrow=5000, ncol=1)
for(i in 1:5000)
{
per<-c(sample(mc.group,30));
aux=per*mc.data
diff[i,1]=abs(sum(aux)/15)
}
hist(diff, xlab="Absolute Differenz der Mittelwerte",main=" ")
abline(v=absdeltamean)
quantile(diff,c(0.925,0.95,0.975,0.99))
Man merke sich, dass der Befehl
per<-c(sample(mc.group,30))
die zufälligen Permutationen der ursprünglichen 30 Werte erzeugt, allerdings sind
diese 5000 Permutationen der Start-Sequenz (mit 15 0 10 am Anfang gefolgt von
15 0 − 10 ) nicht alle verschieden sind (man zieht aus der Menge der Menge aller
n! Permutationen mit Zurücklegung), was jedoch für die empirische Bestimmung
der Quantile irrelevant ist. Oft wird direkt der P -Wert der klassischen Auswertung
als Test-Statistik genommen. Die Mitschrift zeigt, wie man die allgemeine EinwegVarianzanalyse mit k > 2 Gruppen mittels Permutationstests auswerten kann. Man
kann auch komplexere randomisierte Designs (wie Lateinische Quadrate) analog
auswerten. R bietet hierfür spezielle Pakete.
7
Abbildung 1.1: Histogramm von 5000 ∆k
empirischer 92.5% Quantil: 1.029, empirischer 95%-Quantil= 1.111
Die Permutationstests sind sogenannte bedingte Tests (d.h. gegeben die Daten)
und immer gültig falls das Randomisierung-Prinzip verwendet wurde. Streng genommen sind diese Tests allerdings nur für den untersuchten Datensatz gütig. Es
gibt theoretische und empirische Evidenz dafür, dass die P -Werte der klassischen
ANOVA-Tests den P Werten der Permutationstests ähnlich sind. In diesem Sinne ist die Einhaltung der Randomisierung vor der Auswertung wichtig, auch wenn
diese mit klassischen Verfahren erfolgt. Die Randomisierung ist auch unter einem
anderen Gesichtspunkt wichtig, nämlich um den potentiellen gefährlichen Einfluss
von Variablen zu ’dämpfen’, welche im Modell nicht berücksichtigt wurden.
8
Kapitel 2
Resampling und Robuste
Verfahren
2.1
Die empirische Verteilungsfunktion
Die Verteilungsfunktion F (x) einer Zufallsvariable X ist definiert als
F (x) = P(X ≤ x)
Dies ist eine monoton wachsende Funktion von x. Für eine diskrete Zufallsvariable mit möglichen Werten wk (k = 1, 2, 3 . . .) ist F (x) eine stückweise konstante
Treppenfunktion mit Sprungstellen in den wk . Wir betrachten nun n unabhängige
gleichtverteilte Zufallsvariablen Xi mit Verteilungsfunktion F (x). xi ist die Realisierung von Xi . Die empirische Verteilungsfunktion F̂n (x) ist definiert als
n
F̂n (x) =
1X
I{xi ≤x} (x)
n i=1
(2.1)
wobei IA (x) = 1 falls x ∈ A sonst IA (x) = 0. In Worten: F̂n (x) ist die relative
Frequenz der n Beobachtungen xi , welche kleiner oder gleich x sind. Dies ist eine
stückweise konstante Treppenfunktion mit Sprüngen in den Beobachtungen xi . Mit
der Zuordnung xi → Xi können wir F̂n (x) auch als eine Zufallsvariable betrachten,
mit Erwartungswert und Varianz
E(F̂n (x)) = F (x) , V(F̂n (x)) =
F (x)(1 − F (x))
n
Nach
dem Gesetz der grossen Zahlen und dem Zentralen Grenzwertsatz ist somit
√
n(F̂n (x) − F (x)) asymptotisch, d.h. für grosse n, normalverteilt mit Erwartungswert 0 und Varianz F (x)(1 − F (x)). Die empirische Verteilungsfunktion ist somit eine konsistente Schätzung der wahren unbekannten kumulativen Verteilungsfunktion
F (x). Sie fasst die ganze verfügbare Information zusammen, welche die Beobachtungen xi enthalten. Es ist daher intuitiv, dass die Nullhypothese H0 : F (x) = F0 (x)
(d.h. die Beobachtungen sind unabhängig gemäss der Verteilung F0 (x) verteilt) mittels der empirischen Verteilungsfunktion F̂n (x) geprüft werden kann, zum Beispiel
9
mit den Statistiken
Dn
Wn
sup | F̂n (x) − F0 (x) |
x
Z ∞
2
= n
F̂n (x) − F0 (x) f0 (x)dx
=
−∞
Z
An
∞
= n
−∞
2
F̂n (x) − F0 (x)
f0 (x)dx
F0 (x)(1 − F0 (x))
(2.2)
d
wobei f0 (x) = dx
F0 (x) die Wahrscheinlichkeitsdichte ist. supx steht für ’Supremum’, also die kleinste obere Schranke ( Es ist auf abgeschossene Intervalle der
grösste Wert). Dn ist die Kolmogorov -Smirnov Statistik, Wn die Cramèr-von-Mieses
Statistik und An die Anderson-Darling Statistik, welche die Abweichungen zwischen
F̂n (x) und F0 (x) über alle x subsummieren. Alle drei Tests haben die bemerkenswerte Eigenschaft, dass die Verteilung unter H0 : F (x) = F0 (x) unabhängig von F0
ist. Für Dn zum Beispiel gilt asymptotisch (d.h. für gross n)
∞
X
√
2 2
(−1)j−1 e−2j z
P( nDn ≤ z) = 1 − 2
j=1
Diese Tests sind universell gültig und in speziellen Fällen daher nicht optimal. Wenn
wir zum Beispiel für F0 die Normalverteilung wählen, ist der sogenannte ShapiroWilks Test besser. In den Anwendungen sind graphische Verfahren einfacher und
deswegen sehr beliebt, zum Beispiel die sogenannten Quantile-Quantile (Q-Q)
Plots, welche im nächsten Abschnitt kurz erläutert werden.
2.2
Q-Q Plots
Wir betrachten die Verteilungsfunktion F0 (x) und möchten prüfen, ob die unabhängige Beobachtungen xi , i = 1, 2 . . . n mit F0 bis auf Lokation und Streuung verträglich sind. Wir setzen somit voraus, dass P(Xi ≤ x) = F0 ( x−µ
σ ), oder
equivalent dazu, dass die nicht beobachtbaren Zufallsvariablen Yi = Xiσ−µ die Verteilungsfunktion P(Yi ≤ y) = F0 (y) haben. Seien nun Y(1) < Y(2) < . . . Y(n) die
geordneteten Werte der Yi und entsprechend die X(1) < X(2) < . . . X(n) . Wegen Xi = µ + σYi gilt auch X(i) = µ + σY(i) . Bekanntlich ist die Zufallvariable
Ui = F0 (Yi ) uniform auf dem Interval [0, 1] verteilt. Intuitiv ist es klar (und kann
i
und daher E(Y(i) ) = E(F0−1 (U(i) ) ≈
auch bewiesen werden), dass E(U(i) ) ≈ n+1
i
F0−1 (E(U(i) )) ≈ F0−1 n+1
. Ferner gilt E(X(i) ) = µ + σY(i) . Unter H0 sollten im
i
Mittel die Punkte (F0−1 ( n+1
), x(i) ) = (E(Y(i) ), x(i) ) auf einer Gerade liegen.
Man interpretiert die E(Y(i) ) als die F0 -theoretischen und die x(i) als die beobachteten Quantile, deshalb der Name Quantile-Quantile Plot (Q-Q Plot). Wenn die
Punkte stark von einer Gerade abweichen, ist es ein Hinweis gegen H0 . Man kann
bei Bedarf die Parameter µ und σ mittels linearer Regression oder Maximum Likelihood schätzen.
2.3
Bootstrap
Wir nehmen an, dass die Beobachtungen xi Realisierungen von n unabängigen
gleichverteilten Zufallsvariablen Xi mit Verteilungsfunktion F sind. Wir wollen
einen Parameter h(F ) = θ der unbekannten Verteilung F , zum Beispiel median (h(F ) = F −1 (0.5)), Erwartungswert (h(F ) = E(Xi )), bestimmte Quantile
10
(qα = h(F ) = F −1 (α)), Varianz (h(F ) = V(Xi )) usw. schätzen, und auch entsprechende Vertrauensintervalle angeben. Auch wenn F bis auf einzelne Parameter
(z.B. Normalverteilung mit Erwartungswert µ und Varianz σ 2 ) bekannt ist, kann die
Verteilung der Schätzung θ̂ sehr kompliziert sein (wie zum Beispiel für das Median
oder die Testgrössen in 2.2, wobei h(F ) =| supx (F (x) − F0 (x)) | und analog für
W und A). Oft braucht man auch weiter Eigenschaften der Schätzung θ̂n , wie zum
Beispiel
√
λn (F ) = PF n(θ̂n − h(F )) ≤ a
= θ̂n − θ Verzerrung , Bias
√
λn (F ) = V( nθ̂n )
√
n(θ̂n − h(F ))
≤ a mit Streuungsfaktor τ (F )
λn (F ) = PF
τ (F )
λn (F )
(2.3)
Wir betrachten Schätzer der Form θ̂n = h(F̂n ) oder λ̂n (F̂n ), also die nur von der empirischen Verteilungsfunktion abhängen (plug-in estimators). Würde man die wahre
Verteilungsfunktion F kennen, könnte man die Verteilungen der Schätzung durch
umfangreiche Simulationen unter F beliebig genau bestimmen. Die geniale und einfache Idee des Resampling Boostrap Verfahrens besteht darin, diese Simulationen
mit F̂n statt mit F durchzuführen (Effron, 1979, 1982). Man zieht also eine sehr
grosse Anzahl B Stichproben der Grösse n mittels der Verteilung F̂n . Eine solche
Bootstrap Stichprobe wird mit (X1∗ , X2∗ , . . . Xn∗ ) bezeichnet, wobei die Xi∗ aus den
Xi gleichwahrscheinlich (d.h. mit Wahrscheinlichkeit n1 ) mit Zurücklegung
gezogen werden. P∗ und E∗ bezeichnen Wahrscheinlichkeit und Erwartungswert
bezüglich dieses Verfahrens, kurz bezüglich der Verteilung F̂n . Der Satz der totalen
Wahrscheinlichkeit rechtfertigt das Verfahren, weil
n
X
n
X
1
= F̂n (x)
n
i=1
i=1
(2.4)
Die Xi∗ haben somit die Verteilungsfunktion F̂n , welche für grosse n gegen F konvergiert. Es ist somit intuitiv plausibel, dass die B Bootstrap Stichproben das Verhalten
von B Stichproben unter F nachahmen, und folglich rein empirisch die Verteilung
der θ̂n und λn (F̂n ) approximieren. Zur Illustration setzen wir θ = h(F ) gleich dem
Median und λn (F ) sei der Bias des Stichprobenmedians θ̂n im hypothetischen Fall
einer Stichprobe mit n = 3. Die Verteilung F sei zudem stetig, sodass Bindungen
Wahrscheinlichkeit null haben.
Die Daten sind (x(1) , x(2) , x(3) ) = (b, c, d) mit b < c < d. Die Stichproben
(X1∗ , X2∗ , X3∗ ) können die 33 = 27 Werte (b, b, b), (b, b, c), (b, c, b), . . . (d, d, d) belegen.
Zum Beispiel hat man
P∗ [Xi∗ ≤ xi ] =
P∗ [Xi∗ ≤ x | Xi∗ = xi ]P∗ (x∗i = xi ) =
∗
∗
∗
P∗ (X(1)
= b, X(2)
= b, X(3)
= c) =
I{xi ≤x}
3
27
gleich der Summe der Wahrscheinlichkeiten der elementaren Ereignisse
(b, b, c), (b, c, b), (c, b, b)
für (X1∗ , X2∗ , X3∗ ). Insgesamt bekommt man die Tabelle
Der wahre Median sei θ = F −1 (0.5) mit Stichprobenschätzwert θ̂n . Der Bias
ist nach Definition
λn (F ) = E(θ̂n ) − θ
11
∗
∗
∗
Tabelle 2.1: Wahrscheinlichkeitsraum für (X(1)
, X(2)
, X(3)
)
Ereignis
P∗
(b, b, b)
(b, b, c)
(b, b, d)
(b, c, c)
(b, c, d)
(b, d, d)
(c, c, c)
(c, c, d)
(c, d, d)
(d, d, d)
1
27
3
27
3
27
3
27
6
27
3
27
1
27
3
27
3
27
1
27
θn∗ sei der Median der hypothetischen Stichprobe X1∗ , X2∗ , X3∗ , . . . Xn∗ von F̂n . Wir
haben nach Definition
λn (F̂n ) = E∗ (θn∗ ) − θ̂n
Man kann zeigen, dass unter gewissen Regularitätsbedingungen und für grosse n,
λn (F̂n ) konsistent λn (F ) schätzt. Wir betrachten hier F̂n als Zufallvariable.
∗
Im Falle n = 3 bekommt man für den Median X(2)
von (X1∗ , X2∗ , X3∗ ) folgende
Beziehung
∗
P∗ (X(2)
= b) =
13
7
7
∗
∗
, P∗ (X(2)
= c) =
, P∗ (X(2)
= d) =
27
27
27
Infolgedessen ist der Schätzer λ3 (F̂3 ) des Bias von θ̂3 = X(2) gemäss der obigen
berechtigten Vermutung
7
13
7
14 X(1) + X(3)
∗
E∗ (X(2)
) − X(2) =
X(1) + X(2) + X(3) − X(2) =
− X(2)
27
27
27
27
2
2n−1
Man kann zeigen, dass es unter P∗ genau n verschiedene Kombinationen gibt,
z.B. 10 für n = 3 und 920 378 für n = 10, exponentiell schnell wachsend mit n.
λn (F̂n ) ist somit theoretisch berechenbar, leider aber in den meisten Anwendungen
trotz leistungsfähiger Computer praktisch nicht. Das Bootstrap-Verfahren liefert
hier eine einfache Lösung: Man simuliert B Stichproben gemäss P∗ . Die i-te simulierte Stichprobe liefert die Schätzung θi∗ und der Erwartungswert E∗ (θn∗ ) wird mit
PB
dem empirischen Mittelwert B1 i=1 θi∗ geschätzt.
Wir betrachten ein Beispiel. Zunächst simulieren wir 100 Beobachtungen, welche Chi-Quadrat mit 4 FG verteilt sind. Der wahre Erwartungswert ist 4 und der
wahre Median 3.357. Abbildungen 2.1 und 2.2 stellen Histogramm und Q-Q Plot
der Rohdaten dar.
Der Shapiro-Wilks Test bestätigt, dass die Daten signifikant von einer Normalverteilung abweichen, wie auch direkt vom Histogramm ersichtlich.
Wir simulieren nun B = 1000 Bootstrap Stichproben (jeweils bestehend aus
100 Ziehungen mit Zurücklegung aus den 100 Rohdatenwerten). Für jede Bootstrap
Stichprobe berechnen wir den Medianwert θ̂i∗ , Abbildung 2.3 zeigt das entsprechende
Histogramm.
Die Bestimmung von Vertrauensintervalle beruht auf der Idee, dass die Verteilung der θ̂i∗ − θ̂ die Verteilung von θ̂ − θ nachahmt. Für ein 1 − α Vertrauensintervall
können wir aus diesem Grund schreiben
1 − α = P(L ≤ θ̂ − θ ≤ U ) ≈ P∗ (L ≤ θ̂i∗ − θ̂ ≤ U )
wobei L die untere und U die obere Grenzen sind. Das Vertrauensintervall für θ
ist [θ̂ − U, θ̂ − L], wobei L + θ̂ und U + θ̂ die α2 und 1 − α2 Quantile der empirischen Boostrap-Verteilung sind, welche wir mit k α2 und k1− α2 bezeichnen. Dies
ist gerechtfertigt, weil die exakt Wahrscheinlichkeit unter P∗ mit der entsprechenden relativen Frequenz der B = 1000 Bootstrap Stichproben geschätzt wird. Wir
bekommen letzten Endes folgendes 1 − α Vertrauensintervall für θ
[θ̂ − U, θ̂ − L] = [θ̂ − (k1− α2 − θ̂), θ̂ − (k α2 − θ̂)] = [2θ̂ − k1− α2 , 2θ̂ − k α2 ]
12
(2.5)
Abbildung 2.1: Histogramm von 100 Chi-Quadrat xi mit 4 FG
empirischer Mittelwert= 4.514, empirischer Median= 3.699
Abbildung 2.2: Q-Q Plot der 100 xi
In obigen Beispiel bekommt man [3.187, 4.018] als 95% Vertrauensintervall, was sich
vom naiven [2.5%, 97.5%] Quantil-Range des Histogramms der Bootstrap Medianwerte θ̂i∗ ( siehe Abbildung 2.3) unterscheidet.
Die Berechnungen wurden mit folgenden einfachen R Programm durchgeführt:
set.seed(200)
chi<-rchisq(100,4)
hist(chi,nclass=12, main=" ")
qqnorm(chi);qqline(chi)
mean(chi);median(chi);sd(chi);sd(chi)/sqrt(100)
m<-1000;bootres1<-numeric(m)
for (j in 1:m)
bootres1[j]<-median(sample(chi,replace=T))
mean(bootres1);sd(bootres1);sd(bootres1)/sqrt(1000)
hist(bootres1,main=" ")
qqnorm(bootres1);qqline(bootres1)
quantile(bootres1,probs=c(0.025,0.975))
13
Abbildung 2.3: Histogramm der Bootstrap Medianwerte θ̂i∗
Mittelwert= 3.756, 2.5%-Quantil = 3.380, 97.5%-Quantile = 4.211
untere95<-2*median(chi)-quantile(bootres1,probs=c(0.975))
obere95<-2*median(chi)-quantile(bootres1,probs=c(0.025))
In gewissen Fällen (z.B. für Mittelwerte) kennt man die geschätzten Varianzen
θ̂ ∗ −θ̂
σ̂ , bzw. σ̂i∗2 . Es ist dann besser mit der Pivot-Statistik √i ∗2 zu arbeiten, welche
2
σ̂i
die empirischen Quantile q α2 und q1− α2 liefert. Man bekommt dann das (1 − α)Vertrauensintervall
[2θ̂ − q1− α2 σ̂, 2θ̂ − q α2 σ̂]
Die Mitschrift gibt noch weitere Beispiele. Mit Bootstrap-Verfahren kann man
grundsätzlich komplexe Tests durchführen, wie in der parametrischen oder nicht
parametrischen Varianzanalyse. Es ist dabei zu achten, dass eine Verifikation
der P-Werten der Klassischen Analyse mit dem Bootstrap unter der
Nullhypothese erfolgen muss. Das heisst im Falle der Einweg-Varianzanalyse
zum Beispiel, dass man die Gruppen-Mittelwerte (oder Gruppen-Medianwerte) in
jeder Gruppe von den Rohdaten subtrahieren muss, und erst dann das Bootstrap
durchführt. Die Mitschrift behandelt solche Beispiele.
2.4
Robuste Verfahren
Die parametrischen Verfahren setzen in der Regel erstens ein explikatives Modell
(z.B. multiple lineare Regression oder Varianzanalyse), welches von unbekannten
Parameter abhängt und zweitens eine bis auf Parameter bekannte Verteilungsfunktion (z.B. Normalverteilung für die Residuen) voraus. Die Parameter werden meistens mit Maximum Likelihood oder Least Squares (LS) geschätzt. Sie erlauben
komplexe Modellierungen und Inferenz, welche leider auf Abweichungen vom postulierten Modell, auf Ausreisser (outliers) oder sogenannte ’Hebelpunkte’ (leverage
points) so empfindlich reagieren können , dass die Auswertung fragwürdig sein kann.
Die Nicht-parametrischen Verfahren (wir haben nur die üblichsten und einfachsten
behandelt) sind weitgehend frei von Annahmen über die Verteilung der zugrunde
liegenden Beobachtungen, erlauben in der Regel jedoch nicht so komplexe Analysen
wie die parametrischen Verfahren. Die robuste Statistik versucht ein Kompromiss
zwischen beiden Philosophien zu machen, indem die klassischen parametrischen Modelle in einer vollen Umgebung der Grundverteilung (zum Beispiel der Normalverteilung) ihre Gültigkeit behalten (sie sind bis zu einem gewissen Grad Ausreisser- und
14
Hebelpunkt resistent). Die emeritierten ETH Professoren Peter Huber und Frank
Hampel waren massgeblich an der Entwicklung der robusten Statistik beteiligt. Der
Nachteil der robusten Methoden liegt vor allem in der mathematischen und numerischen Komplexität (letztere ist heute mit der Verfügbarkeit von Software, wie z.B.
R, kein grosses Hinderniss mehr).
Zur Illustrierung betrachten wir die einfache lineare Regression: Yi = θ1 + θ2 ξi +
ei , wobei θ1 der Achsenabschnitt ist, und θ2 die Steigung. Die explikative Variable ξi
ist fest (keine Zufallsvariable) und fehlerfrei. Die theoretischen Residuen εi werden in
der klassischen Theorie als normal verteilt N (0, σ 2 ) vorausgesetzt, in der robusten
Statistik wird oft eine ’kontaminierte’ Normalverteilung betrachtet, mit z.B. der
Rx
u2
x
), wobei Φ(x) = √12π −∞ e− 2
Verteilungsfunktion F (x) = (1 − α)Φ( σx ) + αΦ( 3σ
die kumulative Verteilungsfunktion der standard Normalverteilung ist; 0 < α <
0.5 ist der Anteil der ’schlechten’ Beobachtungen (Ausreisser), welche eine dreimal
grössere Standardabweichung haben. Wir haben n Beobachtungen (ξi , yi ). Die LS
Pn 2
Schätzungen (θ̂1 , θ̂2 ) minimieren
i=1 ri , wobei ri = yi − ŷi die Residuen und
ŷi = θ1 + θ2 ξi die Prognosen sind. Eine Verallgemeinerung wäre
n
X
ρ(ri )
i=1
zu minimieren, wobei ρ(x) eine symmetrische Funktion (ρ(−x) = ρ(x)) mit einem
eindeutigen Minimum in x = 0 ist. Die Wahl ρ(x) = x2 liefert die klassischen Kleinste Quadrat Schätzungen. Ableiten nach θ1 und θ2 liefert das 2×2 Gleichungssystem
n
X
ψ(ri )xi = (0, 0)
i=1
d
ρ(x) und xi = (1, ξi ). Die LS Schätzungen sind nicht Ausreisser
wobei ψ(x) = dx
resistent, weil eine einzige schlechte Beobachtung die Quadratsumme ’explodieren’
lässt, die Funktionen ρ(x) und ψ(x) sind nicht beschränkt. Huber’s Vorschlag (1964)
ist
c
ψ(x) = min(c, max(x, −c)) = x min(1,
)
|x|
c ist eine ’tuning’ Konstante. Im eindimensionalen Lokationsproblem (θ2 = 0)sind
der Median und der gestutzte Mittelwert (α-trimmed mean, die α% grösten und
kleinsten Beobachtung werden weggelassen) einfache robuste Alternative zum Ausreisser empfindlichen Mittelwert.
In der einfachen oder multiplen Regression sind nicht nur Aussreisser in der
Zielvariable ein Problem, sondern auch Ausreisser in den explikativen Variablen,
die sogenannten Hebelpunkte (leverage points). Die Mitschrift gibt diesbezüglich
spektakuläre Beispiele. Eine gute Alternative zur LS-Methode ist der Least Median
of Squares (LMS) Schätzer, welcher den Medianwert der ri2 über θ minimiert. Die
Software R bietet u.A. die robuste Prozedur lqs.
Eine graphische Darstellung der Daten ist auf jeden Fall empfehlenswert, was
im zweideimensionalen Fall recht einfach ist. Ausreisser und Hebelpunkte können
Fehler (Tipp oder Messfehler), richtige aber ungewöhliche Beobachtungen sein oder
sogar potentielle bahnbrechende Entdeckungen. Sie müssen wann immer möglich
identifiziert und entsprechend behandelt werden.
15
Kapitel 3
Grundzüge der linearen
Algebra
3.1
Notation und Grundbegriffe
In diesem Kapitel werden die für die multivariate Statistik wichtigsten Begriffe
und Sätze zusammengestellt. Die lineare Algebra ist auch in der Modellierung der
Populationsdynamik wichtig. Es wird fast gänzlich auf Beweise verzichtet. Wir betrachten den n-dimensionalen Raum Rn . Vektoren werden mit kleinen lateinischen
Buchstaben bezeichnet und Skalare (hier reelle Zahlen) mit griechischen Buchstaben. Ein Vektor x ∈ Rn ist somit ein ’n-Tupel’ von Zahlen x = (ξ1 , ξ2 , . . . , ξn )t .
Grundsätzlich werden hier Vektoren als Spaltenvektoren aufgefasst, werden jedoch
zur Vereinfachung des Schreibens als transponierte Zeilenvektoren (mit dem Superskript t ) geschrieben. Vektoren kann man komponentenweise addieren und komponentenweise mit einem Skalaren multiplizieren, gemäss
x+y
=
(ξ1 + η1 , ξ2 + η2 , . . . ξn + ηn )t
λx
=
(λξ1 , λξ2 , . . . , λξn )t
(3.1)
Das Skalarprodukt von zwei Vektoren ist definiert mittels
x · y =< x, y >=
n
X
ξi ηi ∈ R
i=1
Zwei Vektoren x und y heissen p
orthogonal
falls x · y = 0. Die Norm oder Länge von
Pn
√
2 definiert. Eine Menge von p Vektoren
x wird mit | x |= < x, x > =
ξ
i=1 i
{x1 , x2 , . . . xp } ⊂ Rn
heisst linear unabhängig falls eine lineare Kombination, welche den Nullvektor
ergibt, d.h.
p
X
λi xi = 0
i=1
notwendigerweise die triviale lineare Kombination ist, d.h. λi = 0 für alle i. Man
merke sich, dass der Vektor 0 den Nullvektor bezeichnet, dessen Komponente alle
gleich der Zahl Null (0) sind. Ein Hauptsatz besagt, dass in Rn höchstens n Vektoren
linear unbhängig sein können, welche dann eine Basis ei , i = 1, 2 . . . n bilden. Jeder
Vektor kann eineindeutig als lineare Kombination von Basisvektoren geschrieben
werden, d.h.
n
X
x=
ξi ei
i=1
16
Die ξi heissen Koordinaten von x bezüglich der Basis ei . Wir werden fast ausschliesslich mit der kanonischen Basis arbeiten, in welcher die Komponenten von
ei alle gleich Null sind, bis auf die i-te, welche 1 ist. Alle Vektoren dieser Basis
sind zueinander orthogonal und alle haben die Länge 1, eine solche Basis heisst
orthonormiert. In R3 kann man aus der kanonischen Basis durch Rotationen beliebig viele andere orthonormierten gleichorientierte Basen (rechte oder linke Hand
Orientierung) erzeugen.
3.2
Lineare Abbildungen und ihre Matrizen
Wir betrachten eine Abbildung von Rm nach Rn
f : x ∈ Rm → y = f (x) ∈ Rn
Die Abbildung heisst linear falls
f (λ1 x1 + λ2 x2 ) = λ1 f (x1 ) + λ2 f (x2 )
für alle x1 , x2 , λ1 , λ2 . Inbesondere gilt f (0) = 0 (Achtung! der erste 0 ist in Rm
und der zweite in Rn ). Wir haben die Basis {e1 , e2 , . . . em } in Rm und die Basis
{f1 , f2 . . . fn } in Rn . Wir haben wegen der Linearität der Abbildung f folgende
Zerlegungen nach den Basisvektoren:
x
y
f (ej )
f (x)
=
=
=
m
X
j=1
n
X
ξj ej
ηi fi
i=1
n
X
αij fi
i=1
m
X
ξj ej ) =
= f(
=
=
n
X
j=1
i=1
n
X
ξj f (ej )
j=1
j=1
m
X
ξj
m
X
αij fi
ηi fi
(3.2)
i=1
Wegen der Eindeutigkeit der Zerlegung nach den Basisvektoren haben wir
ηi =
m
X
αij ξj
(3.3)
j=1
Die Koeffizienten αij sind die Koordinaten in der Basis {fi , i = 1, 2 . . . n} des Bildes
unter der Abbildung f des j-ten Basisvektors ej . Diese αij sind von der Wahl der
zwei Basen abhängig. Diese nm Koeffizienten werden in einer Matrix A mit n
Zeilen und m Spalten zusammengefasst, was oft mit der Notation A n×m bezeichnet
wird. Man merke sich die umgekehrte Reihenfolge der Indizes, die Abbildung geht
von m nach n dimensionalen Räumen, während die Matrix vom Typ n × m ist.
Matrizen werden mit grossen fett gedruckten lateinischen Buchstaben bezeichnet.
17

A nm
α11 α12
 α21 α22

=
...
...
αn1 αn2
...
...
...
...

α1m
α2m 

... 
αnm
Die Gleichung (3.3) lässt sich als Skalarprodukt der i-ten Zeile der Matrix A mit
dem Spaltenvektor x = (ξ1 , ξ2 , . . . ξm )t darstellen. Gelegentlich wird die Notation
A n×m = (αij ) verwendet. Wenn man y als Spaltenvektor (η1 , η2 , . . . ηn )t betrachtet,
kann man schreiben
y = Ax
Dieselbe Abbildung f kann, je nach Wahl der Basen, mit verschiedenen ’ähnlichen’
Matrizen dargestellt werden. Die Kunst wird oft darin bestehen, die Basen so zu
wählen, dass die Matrix möglichst einfach wird. Die geometrische Natur der Abbildung (zum Beispiel Projektion, Spiegelung, Drehung usw.) ist intrinsisch, während
Basen und Koordinaten nur zum eigentlichen Rechnen verwendet werden. Für eine
Abbildung f von Rn nach Rn ist die zugehörige Matrix quadratisch, d.h. m = n.
In einem solchen Fall wird meistens dieselbe Basis im Definitionsbereich wie auch
im Bildbereich zugrunde gelegt. Ein wichtiger Spezialfall ist die identische Abbildung id : x ∈ Rn → id(x) = x ∈ Rn . Die zugehörige Matrix wird mit I n bezeichnet
(oft wird der Index n nicht angegeben, wenn die Dimension aus dem Kontext klar
ist). Diese sogenannte Einheitsmatrix hat 1 in der Diagonale und 0 ausserhalb,
d.h.


1 0 ... 0
 0 1 ... 0 

In = 
 .. .. ... ... 
0 0 ... 1
Zwei Matrizen vom selben Typ A n×m = (αij ) und B n×m = (βij ) können komponentenweise addiert werden, um eine neue Matrix C n×m zu erhalten, und zwar
gemäss:
C n×m = (γij ) = (αij + βij )
Die Multiplikation einer Matrix mit einem Skalar wird ebenfalls komponentenweise
definiert, d.h.
An×m = (λαij )
λA
Wir betrachten nun die Verkettung g ◦ f von zwei linearen Abbildungen f und g,
mit zugehörigen Matrizen A n×m und B p×n bezüglich der Basen
{e1 , . . . em }, {f1 . . . fn }, {g1 . . . gp }
f
g
x ∈ Rm → y ∈ Rn → g(y) = g(f (x)) = (g ◦ f )(x) ∈ Rp
Wie man leicht sieht, ist die Abbildung h = g ◦ f ebenfalls eine lineare Abbildung
von Rm nach Rp , also g ◦ f : Rm → Rp , mit Matrix Cp×m = (γij ). Zweimalige
Anwendung der obigen Überlegungen führt zur wichtigen Relation
γij =
n
X
βik αkj i = 1, 2 . . . p, j = 1, 2, . . . m
k=1
Das ij-te Element von C p×m ist somit das Skalarprodukt der i-ten Zeile von B p×n
mit der j-ten Spalte von A n×m . Man schreibt das als Matrixprodukt
C p×m = B p×nA n×m
18
Man merke sich, dass die Multiplikation von Matrizen nicht immer möglich ist:
wenn m 6= n 6= p ist AB nicht einmal definiert. Ferner, auch wenn m = n = p ist
i.A
B A 6= AB
Die Matrixmultiplikation ist somit in der Regel nicht kommutativ. Zum
Beispiel in der Ebene: Drehen und dann Spiegeln führt nicht zum selben Resultat
wie zuerst Spiegeln und dann drehen. Wenn aus dem Kontext die Dimensionen
ersichtlich sind, wird der Typ der Matrix mit dem Subskript n×m nicht angegeben.
3.3
Inverse einer Matrix
Wir betrachten eine bijektive lineare Abbildung f : Rn → Rn , d.h. zu jedem y
gibt es ein x mit y = f (x) (surjektiv) und wenn f (x1 ) = f (x2 ) so ist zwangsläufig
x1 = x2 (injektiv). Die Abbildung f hat somit eine Umkehrabbildung f −1 . Nach
Definition ist f ◦ f −1 = f −1 ◦ f die identische Abbildung id. Man verifiziert leicht,
dass f −1 ebenfalls linear ist. Die zugehörigen quadratischen Matrizen seien A und
A −1 . Die Matrix A heisst invertierbar oder regulär mit Inverse A −1 . Dann gilt
AA −1 = A −1A = I
Das lineare Gleichungssystem
Ax = y
hat die Lösung
y = A −1 x
Die Bestimmung der Inverse einer Matrix ist somit äquivalent zum Lösen eines
Gleichungssytems. Dies wird numerisch mit dem Gauss’schen Algorithmus gemacht
und wird als Prozedur in R angeboten. Für zwei reguläre Matrizen A und B vom
selben Typ n × n ist das Produkt wieder regulär und es gilt
BA )−1 = A −1B −1
(B
Dieser Sachverhalt ist auf Grund der Interpretation mit den zugehörigen linearen
Abbildungen trivial.
Zwei Matrizen A n×m und à n×m heissen ähnlich, wenn es zwei reguläre Matrizen
T n×n und S m×m mit
à n×m = T −1
n×nA n×mS m× m
gibt. Zwei ähnliche Matrizen stellen dieselbe Abbildung f : Rm → Rn bezüglich
verschiedener Basen in Definitions-und Wertebereichen dar.
Der Rang einer Matrix ist die maximale Anzahl linear unabhängiger Spaltenvektoren. Dies ist auch die Dimension des Bildraumes. Man kann zeigen, dass der
Spaltenrang gleich dem Zeilenrang ist. Eine quadratische n × n Matrix A ist reA) = n. Jeder quadratischen
gulär genau dann wenn sie vollen Rang hat, d.h. Rang(A
A),
n × n Matrix A kann eine Zahl zugeordnet werden, die Determinante von A , det(A
welche Null (0) ist, genau dann wenn die Matrix nicht regulär ist (singulär). Die
Determinante der Einheitsmatrix ist 1. Die Beziehung
AB ) = det(A
A) det(B
B)
det(A
ist wichtig und gilt für eine beliebige Anzahl Produkt-Terme. Daraus folgt, dass
1
A−1 ) = det(A
det(A
A) und dass, die Determinanten von zwei ähnlichen Matrizen gleich
sind. Ferner ist die Determinante einer oberen oder unteren Dreiecksmatrix gleich
dem Produkt der Diagonalelementen. Der berühmte und einfache Algorithmus von
19
Gauss transformiert iterativ jede quadratische Matrix auf eine ähnliche obere Dreiecksmatrix.
Für eine 2 × 2 Matrix A
α11 α12
A=
α21 α22
gilt
A) = α11 α22 − α12 α21
det(A
und
A −1 =
1
A)
det(A
α22
−α21
−α12
α11
Man kann auch Formeln für den n-dimensionalen Fall angeben, welche aber i.A.
numerisch unbrauchbar sind und man verwendet stattdessen den Gausschen AlgoA) und A −1 .
rithmus, wie zum Beispiel in R für die Berechnung von det(A
3.4
Die Transponierte einer Matrix
Wir betrachten die durch die Matrix A definierte lineare Abbildung (bezüglich der
kanonischen Basen)
A n×m : xm×1 ∈ Rm → y = A n×m xm×1 ∈ Rn
Durch vertauschen von Spalten und Zeilen von A n×m erhalten wir eine m×n Matrix,
die Transponierte von A , welche mit A tm×n , oder kurz A t , bezeichnet wird. Es gilt
t
(αji
) = (αij ) und wir können die transponierte lineare Abbildung definieren:
Rm 3 x = A t y ← Rn 3 y
Wir haben ein Skalarprodukt in Rm und ein zweites Skalarprodukt in Rn , welche
mit I und II identifiziert werden. Nach Definition des Skalarproduktes und der
Transponierten bezüglich der kanonischen Basen haben wir für beliebige x1 ∈ Rm
und y1 ∈ Rn sofort die Beziehung
< A x1 , y1 >II =< x1 , A t y1 >I
Ferner haben wir mit zwei multiplizierbaren Matrizen B p×n , A n×m , drei Räumen
Rm , Rn , Rp und drei Skarprodukten I,II,III und beliebige x1 ∈ Rn , z1 ∈ Rp die
Relationen
< BA
BAx1 , z1 >III =< A x1 , B t z1 >II =< x1 , A tB t z1 >I
Mit anderen Worten gilt die wichtige Relation
BA
(BA
BA)t = A tB t
Eine quadratische Matrix A heisst symmetrisch genau dann wenn A t = A . Alle
Diagonalmatrizen und insbesondere die Einheitsmatrix sind symmetrisch wie die in
der multivariaten Statistik wichtigen Kovarianzmatrizen.
Durch Transponieren der Identität
AA −1 = I
erhalten wir wegen I t = I
A−1 )tA t = I
(A
20
was äquivalent ist zu
At )−1 = (A
A−1 )t
(A
At ) = det(A
A).
Falls A symmetrisch ist, so auch A −1 . Zudem gilt det(A
Eine quadratische Matrix A heisst orthogonal genau dann wenn
A t A = AA t = I
oder wenn
A−1 = At
Für orthogonale Matrizen ist die Berechnung der Inverse eine triviale Operation. Orthogonalen Matrizen sind deshalb wichtig, weil sie Skalarprodukt und damit Länge
invariant lassen, nämlich
< Ax1 , Ax2 >=< x1 , AtAx2 >=< x1 , x2 >
Rotationen werden somit mit orthogonalen Matrizen dargestellt. In der Ebene R2
und bezüglich der Basis {e1 = (0, 1)t , e2 = (0, 1)t } wird die Drehung um den Winkel
φ mit der 2 × 2 orthogonalen Matrix
cos(φ) − sin(φ)
R (φ) =
sin(φ)
cos(φ)
dargestellt.
3.5
Eigenwerte und Eigenvektoren
Wir betrachten eine quadratische n×n Matrix A. Der Vektor x heisst Eigenvektor
von A zum Eigenwert λ genau dann wenn
A − λII )x = 0
A x = λx oder (A
Der Nullvektor x = 0 ist offensichtlich Eigenvektor für jedes λ. Die Definition ist
somit nur für x 6= 0 interessant, das heisst entweder ist λ = 0 Eigenwert und es gibt
x 6= 0 mit A x = 0 (x ist im sogenannten Kern von A ), oder λ 6= 0 ist Eigenwert und
A − λII )x = 0 .
A − λII muss singulär sein, damit wir ein x 6= 0 finden können, mit (A
Wir brauchen somit die Bedingung
A − λII ) = 0
det(A
Diese Bedingung liefert ein Polynom n-ten Grades mit λ als Nullstelle, i.A eine
komplexe Zahl. Wie man leicht sieht sind die Eigenwerte von zwei ähnlichen quadratischen Matrizen gleich. Die Eigenwerte sind somit unabhängig von der Wahl
der Basis. Die Charakterisierung von Eigenwerten und Eigenvektoren ist besonders
elegant, falls die Matrix A symmetrisch ist, was in der multivariaten Statistik eher
die Re gel ist. In diesem Fall sind alle Eigenwerte reell (nicht unbedingt alle verschieden) und es gibt stets n orthonormierte Eigenvektoren ui mit
Aui = λi ui . Indem man diese orthonormierten Eigenvektoren als Spaltenvektoren
einer orthogonalen Matrix U auffasst, gelangt man zum berühmten Spektralsatz
für symmetrische Matrizen
A
Λ
= U ΛU −1 = U ΛU t
= U t AU
(3.4)
wobei Λ eine Diagonalmatrix mit den Eigenwerten von A in der Diagonale ist. Die
obige Spektralzerlegung kann auch als Summe der n × n Matrizen ui uti , welche alle
den Rang 1 haben,
n
X
A=
λi ui uti
(3.5)
i=1
dargestellt werden.
21
3.6
Quadratische Formen
Sei A eine symmetrische n × n Matrix und x ∈ Rn . Die Abbildung
x ∈ Rn → Q(x) = xtA x ∈ R
heisst quadratische Form in x. In der Statistik spielen die positiv-definiten Formen die Hauptrolle, für diese gilt Q(x) ≥ 0 und Q(x) = 0 nur für x = 0 . Dank
dem Spektralsatz (3.4) können wir eine orthogonale Koordinaten-Transformation
x = U y durchführen und wir erhalten
xt A x = y t U t A U y = y t Λ y =
n
X
λi yi2
i=1
Falls A positiv-definit ist, müssen daher alle Eigenwerte positiv sein. Ohne Beschränkung der Allgemeinheit werden wir λ1 ≥ λ2 . . . ≥ λn > 0 annehmen. In
vielen Anwendungen muss man die Extremalwerte von quadratischen Formen unter
Nebenbedingungen bestimmen, zum Beispiel:
1. Maximiere xtA x unter der Bedingung | x |= 1. Nach dem obigen ist es klar,
dass der Eigenvektor x1 zum grössten Eigenwert λ1 die Lösung ist.
2. Maximiere xtAx unter den Bedingungen | x |= 1 und x ist orthogonal zu x1 .
Wiederum ist es klar, dass der Eigenvektor x2 zum zweitgrössten Eigenwert
λ2 die Lösung ist.
3. Maximiere xtA x unter den Bedingungen | x |= 1 und x ist orthogonal zu x1
und x2 . Die Lösung ist x = x3 , Eigenvektor zum Eigenwert λ3 , usw.
3.7
Orthogonale Projektion
Wir betrachten den Rn und einen Teilraum E ⊂ Rn davon, der von p linear unabhängigen Vektoren {x1 , x2 , . . . xp } ⊂ Rn aufgespanntPwird. Jeder Vektor e ∈ E
p
i st somit eine lineare Kombination der xi , also e = i=1 αi xi . Wir wollen Abbildungen beschreiben, welche der orthogonalen Projektion auf den Teilraum E
entsprechen, zum Beispiel im 3- dimensionalen Raum die orthogonale Projektion
auf eine Ebene (die den Nullpunkt enthält). Wir betrachten die zugehörige Matrix
P
P : x ∈ Rn → P x ∈ E ⊂ Rn
Ein Vektor x, der in E ist, bleibt unter der Projektion stehend, also P x = x,
P x) = P 2 x = P x, und wir haben die wichtige
falls x ∈ E. Weil P x ∈ E gilt P (P
P
Eigenschaft, dass idempotent ist, d.h.
P2 =P
Ferner kann jeder Vektor x in eine Komponente x1 ∈ E und eine Komponente
x2 ∈ E⊥ orthogonal zu E zerlegt werden, analog für y. Dann gilt
< P x, y >
=
=
=
=
=
< P (x1 + x2 ), y1 + y2 >=< P x1 + P x2 , y1 + y2 >
< P x1 + 0 , y1 > + < P x1 , y2 >
< P x1 , y1 > + < P x1 , y2 >
< x1 , y1 > + < x1 , P y1 >
< x1 + x2 , P y1 + P y2 >=< x, P y >
22
Somit gilt < P x, y >=< x, P t y >=< x, P y > und P ist symmetrisch,
Pt =P
Eine Matrix P stellt eine orthogonale Projektion auf den Teilraum E = P (Rn )
P 2 = P ) und symmetrisch
(Bildraum von P ) dar, genau dann wenn sie idempotent (P
t
P = P ) ist.
(P
3.8
Lineare Modelle und Least Squares
In diesem Unterabschnitt weichen wir von unserer Notation ein bisschen ab, damit
sie zu der am meisten verwendeten Notation in der Statistik passt. Wir betrachten n Beobachtungen yi (i = 1, 2 . . . n) einer Zielvariablen und die zugehörigen n
Beobachtungen von p-dimensionalen Vektoren xi = (xi1 , xi2 , . . . xip )t , i = 1, 2 . . . n,
welche p explikative Variablen darstellen. Wir postulieren einen linearen Zusammenhang zwischen yi und xi , d.h.
yi =
p
X
xik βk + εi = xti b + εi
k=1
b = (β1 , β2 , . . . βp )t ∈ Rp ist der Vektor der p unbekannten Parameter βk und εi sind
die zufälligen Abweichungen vom Modell, welche oft als normal verteilt mit Erwartungswert 0 und konstanter Varianz σ 2 vorausgesetzt werden. Wir definieren den
Beobachtungsvektor der Zielvariable Yn×1 = (y1 , y2 , . . . yn )t und die n × p Design
Matrix X n×p , deren i-te Zeile aus den explikativen Variablen der i-ten Beobachtung besteht und somit gleich xti = (xi1 , xi2 , . . . xip ) ist. In der Matrix-Schreibweise
kann das lineare Modell als
Yn×1 = X n×p bp×1 + rn×1
geschrieben werden, wobei der Vektor r aus den n theoretischen Residuen εi besteht
(die nicht beobachtbar sind). Für jede Wahl von b bekommen wir eine Prognose
Ŷ (b) = X b und einen empirischen Residuen-Vektor r(b) = Y − Ŷ (b). Alle Prognosen liegen im p dimensionalen Teilraum E von Rn , welcher von den Spalten von
X aufgespannt wird. Ohne Beschränkung der Allgemeinheit setzen wir voraus, dass
die Spalten von X linear unabhängig sind (ansonsten könnte eine explikative Variable als lineare Kombination der übrigen geschrieben werden). Die Methode der
kleinsten Quadrate besteht darin, b so zu bestimmen, dass | r(b) |2 minimal wird.
Diese Schätzung b̂ von b ist auf Grund der geometrischen Interpretation so, dass die
entsprechende Prognose Ŷ (b̂) die orthogonale Projektion P von Y auf den Teilraum
E ist. Nun gilt
X tX )−1X t
P = X (X
(3.6)
In der Tat verifiziert man leicht die Beziehungen P t = P , P 2 = P und P X = X .
X tX ist symmetrisch und invertierbar, weil X nach Voraussetzung vollen Rang hat.
In den meisten Anwendungen besteht die erste Spalte aus dem Vektor 1 (alle
n Komponenten sind 1 ). β1 heisst Achsenabschnitt (intercept term). Nach Konstruktion ist der Residuen Vektor r = Y − Ŷ orthogonal zu allen Spalten von X ,
insbesondere zur ersten, was impliziert, dass die Summe der Residuen null ist (i.A.
falsch!). Ferner haben wir
X tX )−1X t Y
Ŷ = X b̂ = P Y = X (X
Multiplikation von links mit X t ergibt
X tX b̂ = X t Y
23
(3.7)
und somit die kleinste Quadrat Schätzung
X tX )−1X t Y
b̂ = (X
(3.8)
Falls der Residuen Vektor multivariat normalverteilt mit Erwartungswert 0 und
Varianz-Kovarianz Matrix σ 2I n (siehe nächstes Kapitel) ist, kann man zeigen, dass
man eine verzerrungsfreie Schätzung der residuellen Varianz mit
Pn 2
r
σ̂ 2 = i=1 i
n−p
erhält und dass die Varianz-Kovarianz Matrix Σ b̂ von b̂ mit
X tX )−1
Σ b̂ = σ̂ 2 (X
geschätzt werden kann.
24
Kapitel 4
Singulärwertzerlegung: SVD
4.1
Hauptsatz
SVD steht für ’Singular Value Decomposition’. Dieses Verfahren verallgmeinert die
Spektralzerlegung auf nicht quadratische Matrizen X n×p . In vielen Anwendungen
entsprechen die n Zeilen von X oft n Beobachtungen von p Variablen (daher n ≥ p
i.A.). Dieses Verfahren wurde u.A. von H. H. Golub (1970) entwickelt und spielt
heute in der numerischen Mathematik, in der multivariaten Statistik und in der
Bildverarbeitung (Datenkompression) eine sehr wichtige Rolle.
X ) = r ≤ p. Die p × p Matrix X tX
Sei X eine n × p Matrix mit Rang(X
hat ebenfalls Rang r. Sie ist offensichtlich symmetrisch und positiv-definit (weil
y tX tX y = ut u ≥ 0 mit u = X y). Sie hat somit r strikt positive Eigenwerte und die
Zahl 0 als (p − r)-facher Eigenwert, was wir mit
2
σ12 ≥ σ22 ≥ . . . σr2 > σr+1
= . . . σp2 = 0
festlegen. Sei V p×p die orthogonale Matrix, deren Spalten die orthonormierten Eigenvektoren von X tX sind. Wir zerlegen diese Matrix V in ihre ersten r Spalten
und ihre letzten (p − r) Spalten, was wir als
V r | V p−r ]
V p×p = [V
schreiben. V r ist eine p × r Matrix und V p−r eine p × (p − r) Matrix. Dank dem
Spektralsatz und Einsicht in die Struktur von V erhält man
X tX )V
V r = Σ 2r
V tr (X
wobei Σ 2r eine r × r Diagonalmatrix mit den Eigenwerten σ12 , σ22 . . . σr2 in der Diagonale. Wir definieren die n × r Matrix
U r := X V rΣ −1
r
(4.1)
U r hat orthogonale Spalten, weil
t t
−1
U trU r = Σ −1
r V rX X V rΣ r = I r
Wir können die r n-dimensionalen Spaltenvektoren von U r zu einer orthonormierten
Basis von Rn mit der n × (n − r) Matrix U n−r erweitern
U r | U n−r ]
U = [U
Die Spaltenvektoren von V und U erfüllen als Eigenvektoren die folgenden Beziehungen
X tX vl = σl2 vl , vl ∈ Rp , | vl |= 1 , l = 1, 2 . . . p
(4.2)
25
X X t ul = σl2 ul , ul ∈ Rn , | ul |= 1 , l = 1, 2 . . . n
(4.3)
Pre-Multiplikation mit X in (4.2) und mit X t in (4.3) liefert wegen der Eindeutigkeit der normierten Eigenvektoren die dualen Beziehungen
1
X vl
σl
1 t
vl =
X ul
(4.4)
σl
Pp
Pp
Wir haben somit
vl = σl ul und X l=1 vl vlt = l=1 σl ul vlt . Weil die vl orthonorPX
p
miert sind, gilt l=1 vl vlt = I p . Wir bekommen schliesslich die SVD
ul
=
X n×p =
r
X
σl ul vlt
(4.5)
l=1
Es kommt also nur auf die ersten r Singulärwerte σl > 0 und die entsprechenden
Eigenvektoren an. Man merke sich, dass ul vlt ein Produkt von einer n × 1 Matrix
mit einer 1 × p Matrix ist. Die resultierende n × p Matrix ul vlt hat Rang 1. Somit
ist die SVD wirklich eine Verallgemeinerung der Spektralzerlegung (3.5). Wegen
möglichen Zweideutigkeiten bei der Zuordung von Eigenwerten zu Eigenvektoren,
ist es besser, die Formel (4.1) für die Berechnung der ul zu verwenden, als die
Definition als Eigenvektoren von X X t . Man kann die SVD (4.5) auch matriziell
schreiben:
X n×p = U n×nΣ n×pV tp×p
(4.6)
Die orthogonale p × p Matrix V hat die Eigenvektoren vl von X tX als Spalten, und
die orthogonale n × n Matrix U hat die Eigenvektoren ul von X X t als Spalten. Die
’pseudo-diagonal’ n × p Matrix Σ n×p ist


σ1
0 0
0 ... 0
 0 σ2 0
0 ... 0 


Σn×p = 
...
...
...
...
... 0 


 0 ... 0 σr ... 0 
0
0 0
0 ... 0
Die numerische Berechnung der Spektralzerlegung und der SVD (wie in R) beruht auf raffinierte Algorithmen, welche von der hier gewählten rein mathematischen
Darstellung ziemlich weit entfernt sind.
4.2
Least Squares Approximation von Matrizen
Die Frobenius-Norm oder Euklidische Norm einer Matrix A n×p = (αij ) ist
definiert als
sX
2
αij
|| A ||=
i,j
B −A
A) || definiert. Eine
Der Abstand von zwei n × p Matrizen A und B wird mit || (B
bemerkenswerte Eigenschaft der SVD ist, dass die ersten q singulären Werte σl
X
und singuläre Vektoren ul , vl die sogenannte beste Rang q Approximation X̂
von X
X=
X̂
q
X
σk uk vkt
k=1
26
im Sinne der kleinsten Quadrate liefert (Householder und Young, 1938). Die
Güte der Approximation kann mit dem Koeffizienten
Pq
X ||2
σi2
|| X̂
ρ = Pi=1
=
r
2
|| X ||2
i=1 σi
charakterisiert werden. Der relative Fehler der Rang q-Approximation ist
Pr
2
X ||2
|| X − X̂
k=q+1 σk
P
=
r
2 =1−ρ
|| X ||2
k=1 σk
4.3
Beispiele
Zur Illustration betrachten wir ein kleines Beispiel (alle Zahlen auf 3 Dezimalstellen
gerundet)


3
7
2
 4 −6 −2 

X =
 5
5
4 
6
4 −3
Dann

86
X tX =  46
0

46 0
126 34 
34 33
Mit den Eigenwerten (σ12 , σ22 , σ32 )t = (162.561, 64.467, 17.972). Wir bekommen


12.750
0
0
0 8.029
0 
Σ3 = 
0
0 4.239
Die Matrix V 3 hat als Spalten die Eigenvektoren vi von X tX


−0.503
0.823
0.264
V 3 =  −0.836 −0.385 −0.389 
−0.220 −0.417
0.882
Die orthonormierten Spaltenvektoren von V 3 sind nur bis auf das Vorzeichen eindeutig bestimmt und können somit von der verwendeten Software abhängen. Die
führt zur Matrix U 3 mit den orthonormierten Spaltenvektoren ui , welche auch Eigenvektoren von X X t sind.


−0.612 −0.132 −0.040
 0.270 −0.802
0.383 


U 3 = X V 3Σ −1
3 =  −0.594
0.065
0.685 
−0.447
0.579 −0.618
Die Rang 3 SVD ist

3.003
6.997

3.998
−5.996
U 3Σ 3V t3 = 
 5.002
5.001
6.001
3.990

2.006
−2.005 

4.005 
−2.997
Bis auf Rundungsfehler ist dies, wie erwartet, die Rang 3 Eingangsmatrix X .
X 2 = σ1 u1 v1t + σ2 u2 v2t .
Die Rang 2 Approximation ist X̂
27


3.045
6.932
2.154
 3.570 −5.365 −3.439 

X2 = 
X̂
 4.235
6.130
1.444 
6.691
2.976 −0.685
Die Güte dieser Rang 2 Approximation ist
ρ=
σ12 + σ22
= 0.923
σ12 + σ12 + σ32
Zum Abschluss dieses trockenen Kapitels und zur Ehre von H.G. Golub soll eine
Anwendung der SVD auf die Bildverarbeitung kurz erwähnt werden. Das Originalbild hat 3 × 897 × 598 Pixel (Überlagerung von 3 Schichten: für je rot, grün, blau)
und Rang 598 (Bildbreite). Das Bild ist von Auge nicht von der Rang 120 abgebildeten Approximation zu unterscheiden, die hier als Referenzbild gilt. Man stellt
fest, dass man die Datenmenge um einen Faktor 5 bis 10 fast ohne Qualitätsverlust
reduzieren kann, mit einer Reduktion um den Faktor 50 ist die Mustererkennung
noch gut gewährleistet.
Abbildung 4.1:
Rang 12, 50, 120-Approximationen vom einem Rang 598-Bild
4.4
Biplots
Wir werden später die SVD für die Darstellung multivariater Daten mit sogenannten Biplots verwenden. Die dazu notwendige Theorie sei hier kurz dargestellt. Wir
interpretieren die n×p Matrix X als p-dimensionale Beobachtungen auf n Individuen (eine Zeile von X stellt also eine solche Beobachtung dar). Ohne Beschränkung
der Allgemeinheit setzen wir vollen Rang r = p voraus, meistens ist auch n viel
grösser als p. Wir verwenden die SVD
X =
p
X
σl ul vlt = (ξij ), i = 1, 2 . . . n, j = 1, 2 . . . p
l=1
28
Wir schreiben
ul = (µ1l , µ2l , . . . µnl )t ∈ Rn
und
vl = (η1l , η2l , . . . ηpl )t ∈ Rp
und erinnere sich daran, dass die ul ∈ Rn und vl ∈ Rp orthonormiert sind. Ein
Individuum wird als Punkt xr = (ξr1 , ξr2 , . . . ξrp )t in Rp (r = 1, 2, . . . n) interpretiert
und eine beobachtete Variable yj = (ξ1j , ξ2j , . . . ξnj )t als Punkt in Rn (j = 1, 2 . . . p).
Die Metrik im Individuen-Raum wird mit dem Skalarprodukt
< xr , xs >Rp =
p
X
ξrk ξsk
k=1
definiert. Insbesondere ist der Euklidische Abstand zwischen zwei Individuen r und
√
s gleich < xr − xs , xr − xs >Rp . Analog für zwei Variablen yi und yj definiert
man
n
X
ξti ξtj
< yi , yj >Rn =
t=1
Wir erhalten wegen der SVD-Darstellung der ξij
< xr , xs >
Rp
=
=
=
p
X
ξrk ξsk
k=1
p X
p
X
k=1 l=1
p X
p
X
k=1
σl µrl ηkl
p
X
σm µsm ηkm
m=1
2
σl2 µrl µsl ηkl
+
l=1
X
σl σm µrl µsm ηkl ηkm
l6=m
Vertauschung der Summationsreihenfolge unter Verwendung der orthonormierten
Eigenschaften
p
p
X
X
ηkl = 1 ∀k
ηkl ηkm = 0 ∀n 6= m
k=1
k=1
führt zur wichtigen Relation
< xr , xs >Rp =
p
X
σl2 µrl µsl =< gr , gs >Rp
(4.7)
l=1
wobei gr = (σ1 µr1 , σ2 µr2 , . . . σp µrp ). Dies ist im Einklang mit der dualen Beziehung
(4.4) X vl = σl ul : das Skalarprodukt der i-ten Zeile von X mit vl liefert die l-te
Koordinate des i-ten Individuums in der Basis {v1 , v2 , . . . vp }. Wenn man in (4.7)
nur die zwei grössten singulären Werte berücksichtigt, kann man jedes Individuum
xr durch einen Punkt
gr(1) = (σ1 µr1 , σ2 µr2 )t ∈ R2 r = 1, 2, . . . n
darstellen. Diese Darstellung approximiert am besten den Abstand zwischen zwei
Individuen in Rp . Die j-te Variable wird mit dem Punkt
(1)
hj
= (ηj1 , ηj2 )t j = 1, 2, . . . p
dargestellt. Diese Darstellung der Variablen liefert i.A. keine gute Approximation
der Abstände zwischen Variablen. Man erhält die Rang 2 Approximation der j-ten
Variable beim r-ten Individuen mit
(1)
ξˆrj =< gr(1) , hj >= σ1 µr1 ηj1 + σ2 µr2 ηj2
29
Die Individuen-und Variablen Plots werden in einem Biplot zusammengefügt. Man
kann auch die duale Darstellung verwenden, indem jede Variable durch einen Punkt
(2)
hj ∈ R2 gemäss
(2)
hj
= (σ1 η1j , σ2 η2,j )t ∈ R2
dargestellt wird. Diese Darstellung liefert die beste Approximation für den Abstand
(2)
zwischen Variablen. Der r-te Individuum wird mit dem Punkt gr = (µr1 , µr2 )t ∈
2
R dargestellt. Wiederum gilt
(2)
ξˆrj =< gr(2) , hj >= σ1 µr1 ηj1 + σ2 µr2 ηj2
(1)
(2)
Man kann auch die Punkte gr und hj in einem Biplot zusammenfügen. Die
Variablen-Punkte werden immer mit Pfeilen versehen. Man merke sich, dass wir mit
zwei Arten von Vektoren zu tun haben, welche in verschieden Räumen definiert sind:
es ist also bei der Interpretation des Abstandes zwischen andersartigen Vektoren
grosse Vorsicht geboten.
Gelegentlich ist es sinnvoll sogenannte illustrative Individuen oder Variablen
in Biplots darzustellen. Diese Daten werden bei der eigentlichen Berechnung der ul
und vl von der SVD nicht verwendet. Sei X + die t × p Matrix, welche die üblichen
p- Variablen der t neuen illustrativen Individuen darstellt. Mit der dualen BeziehunX + )vl . Analog sei X + die n × s
gen (4.4) haben die Individuen die Koordinaten (X
Matrix der neuen s illustrativen Variablen auf die ursprüglichen n Individuen. Die
X + )t ul gegeben.
Koordinaten der neuen illustrativen Variablen sind dann durch (X
30
Kapitel 5
Multivariate Zufallsvariablen
5.1
Einführung
Eine multivariate p-dimensionale Zufallsvariable Y ∈ Rp ist ein Vektor, dessen
Komponenten reelle eindimensionale Zufallsvariablen sind, d.h. Y = (Y1 , Y2 , . . . Yp )t .
Die Realisierungen werden wie üblich mit den entsprechenden kleinen Buchstaben
bezeichnet, d.h. y = (y1 , y2 , . . . yn ). Wir weichen von der in den Kapiteln über
lineare Algebra verwendeten Notation ab, um mit der in der statistischen Literatur
am meisten verwendeten Notation im Einklang zu sein. Vektoren und Matrizen
werden fett gedruckt. Die Zufallsvariablen Yk können diskrete oder kontinuierliche
Ausprägungen haben. Zum Einstieg betrachten wir diskrete Zufallsvariablen. Die
gemeinsame Wahrscheinlichkeitsfunktion ist
Y = y)
P(y1 , y2 , . . . yp ) = P(Y1 = y1 , Y2 = y2 , . . . Yp = yp ) = P(Y
Sie erfüllt
X
P(yy ) ≥
0
P(yy )
1
=
y
Die Summe erstreckt sich über alle möglichen Realisierungen y . Eine k-dimensionale
Marginale Verteilung wird mittels
X
PM (yi1 , yi2 , . . . yik ) =
P(yy )
y
ỹ
definiert, wobei sich die Summe über alle Realisierungen ỹy erstreckt, deren k Komponenten mit Indizes i1, i2, . . . ik fest sind. Die bedingte Verteilung wird mittels
P(yi1 , yi2 . . . yik | yj , j ∈
/ {i1, i2, . . . ik}) =
P(yy )
PM (yi1 , yi2 , . . . yik )
definiert. Zur Illustration betrachten wir das Münzenwerfenspiel mit n = 4 Würfen.
Sei Y1 die Anzahl ’Kopf’ in den ersten zwei Würfen, und Y2 die Anzahl ’Kopf’ in
den letzten drei Würfen. Man bekommt Tabelle 5.1. Für die bedingte Verteilung
erhält man z.B.
P(Y1 = 0 | Y2 = 2)
=
P(Y1 = 1 | Y2 = 2)
=
P(Y1 = 2 | Y2 = 2)
=
31
1
16
3
8
1
2
1
3
=
1
6
Tabelle 5.1: Gemeinsame und Marginale Verteilungen
Y2
Y1
0
2
1
16
1
8
1
16
3
0
Marginal von Y1
1
4
0
1
Marginal von Y2
1
2
1
16
3
16
3
16
1
16
1
2
0
1
8
3
8
3
8
1
8
1
16
1
8
1
16
1
4
Merke, dass die Summe dieser bedingten Wahrscheinlichkeiten gleich eins ist. Für
kontinuierliche vektorwertige Zufallsvariablen definiert man die Wahrscheinlichkeitsdichte fY (y1 , y2 , . . . yp ) mittels der Eigenschaft
Z
Z
Y ∈ A ⊂ Rp ) =
P(Y
fy (y1 , y2 , . . . yp )dy1 dy2 . . . dyp =:
fY (yy )dyy
A
A
für eine beliebige Teilmenge A von Rp . Die marginalen Verteilungen werden mit
Z
Y
fM (yi1 , yi2 , . . . yik ) =
fY (y1 , y2 , . . . yp )
dyl
R(p−k)
l∈{i1,i2,...ik}
/
definiert. Die bedingten Verteilungen analog durch
f (yi1 , yi2 . . . yik | yj , j ∈
/ {i1, i2, . . . ik}) =
fY (y)
fM (yi1 , yi2 , . . . yik )
Die Komponenten Yi von Y sind stochastisch unabhängig, wenn die gemeinsame
Verteilung gleich dem Produkt der p eindimensionalen marginalen Verteilungen ist,
also genau dann wenn
p
Y
fY (y1 , y2 , . . . yp ) =
fYi (yi )
l=1
und analog für den diskreten Fall. Betrachten wir zur Illustration foldendes zweidimensionales Beispiel. Die bivariate Wahrscheinlichkeitsdichte sei
fY (y1 , y2 ) = 2I{(y1 ,y2 )|0<y1 <y2 <1} (y1 , y2 )
Die Indikatorvariable IA einer Menge A ist wie folgt definiert: IA (yy ) ist 1 falls
y ∈ A und 0 sonst. Die Dichte ist somit null ausserhalb des Dreiecks A mit Ecken
R(0, 0), (1, 1), (0, 1), innerhalb des Dreiecks ist sie konstant gleich 2. Offensichtlich ist
f (y1 , y2 )dy1 dy2 = 1. Nach Definition hat man
A Y
Z 1
fY1 (y1 ) =
2dy2 = 2(1 − y1 ) falls 0 < y1 < 1 sonst 0
y1
Analog bekommt man
Z
fY2 (y2 ) =
y2
2dy1 = 2y2
falls
0 < y2 < 1
sonst
0
0
Y1 und Y2 sind nicht unabhängig, weil fY (y1 , y2 ) 6= fY1 (y1 )fY2 (y2 ). Für die bedingte
Verteilung erhält man z.B.
1
f (y1 | y2 ) = I{(y1 ,y2 )|0<y1 <y2 <1} (y1 , y2 )
y2
32
5.2
Erwartungswerte, Varianz- Kovarianz-Matrix,
Korrelation-Matrix
Wir betrachten den zufälligen Vektor Y = (Y1 , Y2 , . . . Yp ) ∈ Rp . Die Komponenten
von Y haben die Erwartungswerte
Z ∞
µi = E(Yi ) =
xfYi (x)dx
−∞
beziehungsweise
µi = E(Yi ) =
X
xP(Yi = x)
x
im diskreten Fall. Der Erwartungswertvektor ist
Y ) = (µ1 , µ2 , . . . µp )t = µ
E(Y
Die Varianz der einzelnen Komponenten ist bekanntlich
V(Yi ) = E(Yi − µi )2 = E(Yi2 ) − µ2i
Die Kovarianz zwischen den Komponenten i und j ist
COV(Yi , Yj ) = E (Yi − µi )(Yj − µj ) = E(Yi Yj ) − µi µj = σij
√
Nach Definition haben wir σii = V(Yi ). Die Standardabweichung ist σi = σii .
Die Varianz-Kovarianz Matrix ΣY ist definiert als die p×p symmetrische Matrix
mit Koeffizienten Σ ij = σij = σji , d.h.


σ11 σ12 ... σ1p
 σ21 σ22 ... σ2p 

ΣY = 
 ...
... ...
... 
σp1 σp2 ... σpp
Man verifiziert leicht folgende equivalente matrizielle Definition der VarianzKovarianz-Matrix
Y − µ )(Y
Y − µ )t = E(Y
Y Y t ) − µµ t
ΣY = E(Y
(5.1)
Die Korrelation zwischen den Komponenten Yi und Yj ist
σij
COV(Yi , Yj )
=
COR(Yi , Yj ) = ρij = p
σ
V(Yi )V(Yj )
i σj
bekanntlich gilt −1 ≤ ρij ≤ 1. Die maximalen Korrelationen von −1 und +1 werden
nur bei einem exakten linearen Zusammenhang zwischen Yi und Yj erreicht. Sei nun
D die p×p Diagonalmatrix mit D ii = σi . Dann kann man die Korrelation-Matrix
P Y mit Koeffizienten P ij = ρij als
P Y = D −1ΣY D −1
(5.2)
schreiben. Wir werden annehmen, dass die Varianz-Kovarianzen Matrizen ΣY vollen
Rang haben und somit invertierbar sind.
33
5.3
Varianz von linearen Kombinationen
Wir betrachen den zufälligen Vektor Y ∈ Rp und einen festen Vektor a ∈ Rp .
Die lineare Kombination Z = a tY ∈ R ist eine eindimensionale Zufallvariable mit
Erwartungswert
atY ) = a t E(Y
Y ) = a tµ
E(Z) = E(a
(5.3)
und Varianz
at (Y
Y − µ ))2 = E(a
at (Y
Y − µ )(Y
Y − µ )ta ) = a tΣY a
V(Z) = E (a
(5.4)
a tΣ Y a
Weil V(Z) ≥ 0 für jeden Vektor a gilt auch
≥ 0. Eine Varianz-Kovarianz
Matrix ist somit positiv-definit und hat nur strikt positive Eigenwerte.
Als Anwendung betrachten wir das lineare Modell
Y = Xb + r
und setzen voraus, dass die Komponenten ri des residuellen Vektors r ∈ Rn
unabhängig sind. Zudem sei der Erwartungwert 0, d.h. E(rr ) = 0 und folglich
Y ) = X b . Die Varianz der Komponenten ri sei ferner konstant gleich σ 2 . Die
E(Y
Varianz-Kovarianz Matrix von r ist dann
Σ r = σ 2I p = Σ Y
Die Least Squares Schätzung des Parameters b ist bekanntlich
X tX )−1X tY
b̂b = (X
mit Erwartungswert
X tX )−1X t E(Y
Y ) = (X
X tX )−1X tX b = b
E(b̂b) = (X
Die Schätzung b̂b ist somit biasfrei (verzerrungsfrei). Die Varianz-Kovarianz-Matrix
X tX )−1
von b̂b ist wegen der Symmetrie von X tX und (X
Σb̂b
t
= E(b̂bb̂b )
X tX )−1X tΣY X (X
X tX )−1
(X
X tX )−1X tI pX (X
X tX )−1
= σ 2 (X
2
t
−1
X X)
= σ (X
=
Sei
Y = Y − X b̂b = Y − X (X
X tX )−1X tY
r̂r = Y − Ŷ
der empirische residuelle Vektor. Man kann zeigen, dass
E(r̂r tr̂r ) = (n − p)σ 2
Die residuelle Varianz kann mit
σ̂ 2 =
r̂r tr̂r
n−p
biasfrei geschätzt werden. Der Fall einer nicht diagonalen Varianz-Kovarianz Matrix (die Beobachtungen sind korrelliert, wie z.B. in Zeitreihen oder räumlichen
Prozessen) kann im Prinzip mit der Transformation
−1
Y = ΣY 2 Y = X̃
X b + r̃r
Ỹ
−1
−1
X = ΣY 2 X und r̃r = ΣY 2 r , auf den obigen Fall zurückgeführt werden, weil
wobei X̃
Σ
dann r̃r = I p . Die Hauptschwierigkeit liegt in der Modellierung und Schätzung von
Σr . Die Quadratwurzel einer symmetrischen positiv-definiten Matrix kann mit dem
1
1
Spektralsatz definiert werden. Es gilt nämlich Σ− 2 = U Λ− 2 U t , mit U orthogonal,
1
1
Λ diagonal mit Diagonalelementen Λii und (Λ
Λ− 2 )ii = √Λ
.
ii
34
5.4
5.4.1
Die multivariate Normalverteilung
Definition
Wir betrachten den zufälligen Vektor U = (U1 , U2 , . . . Up )t , dessen Komponenten
Ui unabhängig standard normal verteilt sind (Erwartungswert 0 und Varianz 1).
Die Varianz-Kovarianz Matrix von U ist nach Definition
U U t) = I p
E(U
Der Vektor U ist per Definition standard multivariat normal verteilt. Wir
möchten zufällige Vektoren konstruieren, deren Komponenten normal verteilt sind
und zudem eine vorgebene reguläre positiv definite Varianz-Kovarianz Matrix Σ
haben. Man kann eine p × p Matrix B finden mit Σ = B B t . B ist nicht eindeutig
bestimmt. Wegen des Spektralsatzes gilt Σ = V ΛV t , mit V p×p orthogonal und Λ p×p
diagonal mit den Eigenwerten λi von Σ in der Diagonale. Man kann zum Beispiel
1
B = V Λ 2 wählen, weil B B t = V ΛV t = Σ . Wir definieren den zufälligen Vektor Y
mittels
Y p×1 = µ p×1 + B p×pU p×1
wobei µ ∈ Rp und U standard multivariat normal verteilt ist. Nach Konstruktion
Y ) = µ und
gilt E(Y
ΣY = E (BU
BU )(BU
BU )t ) = B E(U
U U t )B
B t = B I pB t = Σ
Ferner sind die Komponenten von Y als lineare Kombinationen von normal verteilten Zufallvariablen ebenfalls normal verteilt. Y hat somit den vorgegebenen Erwartungswert µ, die vorgegebene Kovarianz Matrix Σ und seine Komponenten sind
normal verteilt. Man schreibt
µ, Σ )
Y ∼ N(µ
Man kann zeigen, dass die Wahrscheinlichkeitsdichte von Y durch
fY (yy ) =
1
p
1
Σ))− 2
(2π)− 2 (det(Σ
1
Y − µ )tΣ −1 (Y
Y − µ )}
exp{− (Y
2
(5.5)
gegeben ist. Abbildung 5.1 zeigt das 3D-Bild der Dichtefunktion fY (y1 , y2 ) einer
bivariaten Normalverteilung. Wie man sieht, ist es eine Verallgemeinerung der
berühmten Glockenkurve von Gauss. Wegen der gewählten Korrelation ρ = 0.5
ist die Fläche nicht Rotation-symmetrisch.
Abbildung 5.1:
Bivariate Normalverteilung mit ρ = 2
35
Für spätere Zwecke merken wir uns folgendes Resultat
Y − µY )tΣY−1 (Y
Y − µY ) ∼ χ2(p)
(Y
(5.6)
In der Tat haben wir Y − µY = BU , ΣY = B B t und daher
Y − µY )Σ
ΣY−1 (Y
Y − µY ) = U tB t (B
BB t )−1B U = U tI pU =
(Y
p
X
Ui2
i=1
und das Resultat bei der Definition der Chi-Quadrat Verteilung mit p Freiheitsgraden.
5.4.2
Bedingte Erwartungswerte und Kovarianzen
Wir betrachten den normalverteilten Vektor Z ∈ Rp+q , den wir in zwei KompoX , Y )t , mit X ∈ Rp und Y ∈ Rq zerlegen. Ohne Beschränkung
nenten Z = (X
der Allgemeinheit bilden die ersten p Komponenten von Z den Vektor X und die
letzten q Komponenten den Vektor Y , was man durch Umnumerierung immer erreichen kann. Man kann zeigen, dass diese zwei mehrdimensionalen Komponenten
multivariat normal verteilt sind. Wir haben somit:
µZ , ΣZ )
Z ∼ N(µ
µX , ΣX )
X ∼ N(µ
µY , ΣY )
Y ∼ N(µ
t
µX , µY ) . Die entsprechende Zerlegung der (p + q) × (p + q) Kovarianzwobei µZ = (µ
Matrix von Z lautet:
ΣX ΣX ,YY
ΣZ =
(5.7)
t
ΣX
ΣY
Y
,Y
ΣX ist die p × p Kovarianz-Matrix von X , ΣY ist die q × q Kovarianz-Matrix von Y
und ΣX ,YY ist die p × q Matrix der Kovarianzen zwischen den p Komponenten von
X mit den q Komponenten von Y , d.h.
X − µX )(Y
Y − µY )t ]
ΣX ,YY = E[(X
Es gilt folgender wichtiger Satz:
Die bedingte Verteilung von Y gegeben X ist multivariat normal verteilt,
mit Erwartungswert
−1
t
Y ) = µY + ΣX
X − µX )
EY |X
X (Y
Y ΣX (X
,Y
(5.8)
−1
t
ΣY |X
Y
X = ΣY − ΣX ,Y
Y ΣX ΣX ,Y
(5.9)
und Kovarianz-Matrix
Die bedingte Kovarianz-Matrix hängt nicht von der speziellen Realisierung X = x
Y ) eine lineare Funktion
ab. Man stellt fest, dass der bedingte Erwartungswert EY |X
X (Y
von X , eine bemerkenswerte Eigenschaft, welche für die multivariate Normalverteilung charakteristisch ist.
Wir betrachten zur Illustrierung den speziellen Fall p = q = 1 mit Z = (X1 , Y1 )t ,
X = X1 , Y = Y1 . Wir verwenden folgende Notation:
Z ) = (µ1 , µ2 )t ,
E(Z
ΣX = σ12 = V(X1 ),
36
ΣY = σ22 = V(Y1 ),
ΣX ,YY = ρσ1 σ2
wobei ρ die Korrelation zwischen X1 und Y1 ist. Man bekommt
σ12 ρσ1 σ2
ΣZ =
ρσ1 σ2
σ22
1
σ22 −ρσ1 σ2
−1
ΣZ
= 2 2
−ρσ1 σ2
σ12
σ1 σ2 (1 − ρ2 )
p
−1
ΣZ 2 ) = σ1 σ2 1 − ρ2 . Die bivariate Dichte (5.5) ist dann
und det(Σ
fZ (x1 , y1 )
1
p
=
2πσ1 σ2 1 − ρ2
1
x1 − µ1 2
y1 − µ2 2 x1 − µ1 y1 − µ2
exp −
(
)
)(
)
+
(
)
−
2ρ(
2(1 − ρ2 )
σ1
σ1
σ2
σ2
·
Die bedingte Verteilung von Y1 gegeben X1 = x1 ist eine normale Verteilung mit
Erwartungswert
ρσ1
(x1 − µ1 )
E(Y1 | X1 = x1 ) = µ2 +
σ2
und Varianz
V(Y1 | X1 = x1 ) = σ22 − ρ2 σ12
wie man mit (5.8) und (5.9) leicht nachrechnet.
Es gibt selbstverständlich andere multivariate Verteilungen als die multivariat normal Verteilung, welche in der Regel viel komplizierter sind und eher selten zur
Anwendung kommen.
5.5
Schätzung von µY und ΣY
Wir nehmen an, dass wir n stochastisch unabhängige p-dimensionale Zufallsvariablen Y i ∈ Rp haben, mit den entsprechenden Realisierungen y i . Wir definieren die
Datenmatrix Y durch
Y = [yy 1 | y 2 | . . . y n ]t
(5.10)
Y is somit eine n × p Matrix, deren i-ten Zeile der Beobachtungsvektor y i ∈ Rp
ist, d.h. auch Yij = yij , die Beobachtung der j-ten Variable beim i-ten Individuum.
Wir schätzen den unbekannten Erwartungswert µY , indem wir komponentenweise
die empirischen Stichprobenmittelwerte berechnen, d.h.
µY = (ȳ.1 , ȳ.2 , . . . ȳ.p )t
µ̂
mit ȳ.k =
1
n
Pn
i
yik . Wir können auch schreiben
n
µY = (µ̂1 , µˆ2 , . . . µ̂p )t =
µ̂
1X
y i = ȳy
n i=1
oder, mit dem speziellen n-dimensionalen Eins-Vektor 1 = (1, 1, . . . 1)t ∈ Rn ,
µYt =
µ̂
1 t
1Y
n
Y arbeiten,
In vielen Anwendungen muss man mit der zentrierten Datenmatrix Ỹ
welche aus Y entsteht, indem in jeder der p Spalten den entsprechen Stichprobenmittelwert subtrahiert wird, d.h.


y11 − ȳ.1 y12 − ȳ.2 ... y1p − ȳ.p
 y21 − ȳ.1 y22 − ȳ.2 ... y2p − ȳ.p 

Y=
Ỹ
(5.11)


...
...
...
...
yn1 − ȳ.1 yn2 − ȳ.2 ... ynp − ȳ.p
37
Mit der n × n Matrix M := I n − n1 11 t gilt auch
Y = MY
Ỹ
(5.12)
Die Varianz-Kovarianz Matrix wird komponentenweise mit der bekannten Formel
n
Σkl =
Σ̂
1 X
(yik − ȳ.k )(yil − ȳ.l )
n − 1 i=1
oder
(5.13)
n
Σ=
Σ̂
1 X
µY )(yy i − µ̂
µY )t
(yy i − µ̂
n − 1 i=1
(5.14)
biasfrei geschätzt. Man kann die geschätzte Kovarianz auch wie folgt schreiben:
Σ=
Σ̂
t
1
Y Ỹ
Y
Ỹ
n−1
(5.15)
Σ sind die geschätzten Varianzen σ̂j2 = Σ̂
Σjj der p VaDie Diagonal-Elemente von Σ̂
riablen. Man schreibt oft σ̂j = sj . In vielen Anwendungen wird mit den standardiy −ȳ
sierten Daten gearbeitet, d.h. yij wird mit ijsj .j ersetzt, die resultierende Matrix
∗
Y bezeichnet:
wird mit Ỹ


∗

Y =
Ỹ

y11 −ȳ.1
s1
y21 −ȳ.1
s1
y12 −ȳ.2
s2
y22 −ȳ.2
s2
...
...
yn1 −ȳ.1
s1
yn2 −ȳ.2
s2
...
...
...
...
y1p −ȳ.p
sp
y2p −ȳ.p
sp
...
ynp −ȳ.p
sp





(5.16)
Die Standardisierung wird vor allem dann eingesetzt, wenn die Variablen verschieD die p × p Diagonal-Matrix mit si
dene Einheiten und Skalierungen haben. Sei D̂
−1
D
als Diagonal-Elementen, die Inverse D̂ ist ebenfalls diagonal mit s1i als DiagonalElementen. Man verifiziert leicht, dass
∗
Y = Ỹ
YD −1
Ỹ
(5.17)
P Y mit Elementen ρ̂ij ist wegen (5.2)
Die geschätzte Korrelation-Matrix P̂
P Y = D̂
D
P̂
5.5.1
−1
ΣD̂
D
Σ̂
−1
(5.18)
Test auf multivariate Normalität
Gemäss (5.6) ist
Y − µY )tΣY−1 (Y
Y − µy )
(Y
Chi-Quadrat verteilt mit p Freiheitsgraden. Intuitiv kann man erwarten, dass die n
Werte
−1
µY )tΣ̂
ΣY (yy i − µ̂
µY )
ri2 = (yy i − µ̂
genähert χ2 (p) verteilt sind, was man mit einem Q-Q Plot leicht verifizieren kann.
38
5.5.2
Wishart’s Verteilung und Hotelling T 2
Es seien X r ∈ Rp ,
r = 1, 2, . . . f unabhängig multivariat normal verteilt
µ r , ΣX )
X r ∼ N(µ
Wir definiere die zufällige Matrix
W =
f
X
X rX tr
r=1
Wenn µ r = 0 für alle r gilt, dann hat die p × p Matrix W die sogenannte zentrale
Wishart Verteilung mit f Freiheitsgraden, man schreibt:
W ∼ Wp (f, Σ )
(5.19)
Wir verzichten hier auf die sehr komplizierte Formel der gemeinsamen Dichte der
Matrix-Koeffizienten W ij (Wishart, 1928).
Die Wishart-Verteilung verallgemeinert die Chi-Quadrat Verteilung insofern als für
jedes c ∈ Rp folgende Eigenschaft gilt
c tW c ∼ σ 2 χ2(f ) ,
mit
σ 2 = c tc
(5.20)
Folgendes Resultat ist wichtig:
µY , ΣY ) für i = 1, 2 . . . n dann gilt
Falls Y i ∼ N(µ
ΣY ∼ Wp (n − 1, ΣY )
(n − 1)Σ̂
(5.21)
P
Y n und Σ̂
ΣY stochastisch unabhängig. Wir haben wie
µ = n1 ni=1 Y i = Ȳ
Ferner sind µ̂
im univariaten Fall
1
Y n ∼ N(µ
µY , ΣY )
Ȳ
n
Die T 2 Statistik von Hotelling ist definiert als
−1
Y − µ0)
Y − µ 0 )tΣ̂
ΣY (Ȳ
T 2 = n(Ȳ
(5.22)
T 2 ist eine multivariate Verallgemeinerung des klassischen t-Tests von Student. Man
kann zeigen, dass unter der Nullhypothese H0 : µY = µ0 die Test-Statistik T 2 eine
F -Verteilung hat, nähmlich
n−p 2
T ∼ F (p, n − p)
p(n − 1)
39
(5.23)
Kapitel 6
Multivariate Verfahren
6.1
Einweg multivariate Varianz-Analyse
Man kann die univariaten Verfahren der Varianzanalye, ANOVA (Analysis of Variance), in der Regel ohne grosse allzu Schwierigkeiten auf den multivariaten Fall
verallgemeinern, MANOVA (Multivariate Analysis of Variance). Wir werden hier
nur die Einweg-Varianzanalyse behandeln (One-way MANOVA).
Wir betrachten q Gruppen mit jeweils nk Beobachtungen y ik ∈ Rp (i =
1, 2 . . . nk , k = 1, 2, . . . q), die als Realisierungen von multivariaten p-dimensionalen
normalverteilten zufälligen Vektoren
Y ik , i = 1, 2, . . . nk , k = 1, 2 . . . q
aufgefasst werden, mit Erwartungswerten µ k ∈ Rp und nach Voraussetzung gleichen
Kovarianzenmatrizen
Σ1 = Σ2 = . . . = Σq = Σ
Die Erwartungswerte µ k werden in jeder Gruppe mit den empirischen Mittelwerten
geschäzt, d.h. gemäss
nk
1 X
µ̂k = ȳ .k =
y ik
nk i=1
Die p × p Kovarianzmatrizen werden in jeder Gruppe geschätzt, und zwar mittels
n
Σ̂ k =
k
1 X
(yy ik − ȳ .k )(yy ik − ȳ .k )t
nk − 1 i=1
Die gemeinsame Kovarianzmatrix Σ kann mit der gepoolten Kovarianzmatrix
Σ̂ =
q
1 X
(nk − 1)Σ̂ k
n−q
k=1
Pq
geschätzt werden, wobei n = k=1 nk die gesamte Anzahl Beobachtungen ist.
Wir wollen die Nullhypothese der Gleichheit der Erwartungswerte überprüfen:
H0 : µ 1 = µ 2 = . . . µ q = µ
Unter H0 kann der gemeinsame Erwartungswert mittels
q
1X
µ̂ =
nkȳ .k = ȳ ..
n
k=1
40
geschätzt werden.
Die p × p Inner-Gruppen Streumatrix (Within group) ist definiert als
W = (n − q)Σ̂ =
q X
nk
X
(yy ik − ȳ .k )(yy ik − ȳ .k )t
k=1 i=1
Die p × p Zwischen-Gruppen Streumatrix (Between group) ist definiert als
B=
q
X
nk (ȳȳ .k − ȳ .. )(ȳȳ .k − ȳ .. )t
k=1
Die p × p Gesamte Streumatrix (Total) ist definiert als
T =
q X
nk
X
(yy ik − ȳ .. )(yy ik − ȳ .. )t
k=1 i=1
Wie in der univariaten Einweg-Varianzanalyse verifiziert man leicht die algebraische
Identität
T = B +W
Der extreme Fall tritt auf, wenn alle Gruppenmittelwerte gleich sind, d.h. ȳ .k ≡
ȳ .. und B = 0 (Nullmatrix). Intuitiv würde man die Nullhypothese verwerfen, wenn
B stark von der Nullmatrix abweicht. Es stellt sich heraus, dass der Likelihood Ratio
Test für die Nullhypothese zur folgenden Test-Statistik (‘Wilks Lambda‘) führt
=
W)
1
det(W
=
W + B)
det(W
det(II + B W −1 )
(6.1)
W ))−1 multipliziert
Die zweite Gleichung folgt, indem man oben und unten mit (det(W
AB
A) det(B
B ) verwendet.
und det(AB
AB) = det(A
Sinnvolle Tests können mit den Eigenwerten λ1 ≥ λ2 . . . λp der p × p Matrix B W −1
B − λW
W ) = 0.
konstruiert werden. Die λi sind auch Lösungen der Gleichung det(B
Man kann zeigen, dass λi ≥ 0. Man hat u.A. folgende Tests zur Verfügung:
1. Wilks
Λ=
p
Y
l=1
1
1 + λl
Die Null-Hypothese wird verworfen, fall Λ zu klein ist (grosse λl ).
2. Lawley-Hotelling
p
X
λl
l=1
Die Null-Hypothese wird für zu grosse Werte verworfen.
3. S.N. Roy
λ1
d.h. der grösste Eigenwert, die Null-Hypothese wird für zu grosses λ1 verworfen.
4. K.C.S Pillai
p
X
l=1
λl
1 + λl
Die Null-Hypothese wird für wird für zu grosse Werte verworfen.
41
Die Verteilungen unter H0 sind äusserst kompliziert, die entsprechenden P -Werte
sind aber von den meisten Software-Paketen erhältlich.
Der Spezialfall von q = 2 Gruppen liefert den sogenannten Hotelling-Test für
zwei Stichproben:
T2 =
n1 n2
(ȳȳ .2 − ȳ .1 )tΣ̂ −1 (ȳȳ .2 − ȳ .1 )
n1 + n2
(6.2)
Unter der Nullhypothese H0 : µ 1 = µ 2 gilt
n1 + n2 − p + 1 2
T ∼ Fp,n1 +n2 −p−1
p(n1 + n2 − 2)
(6.3)
Bemerkungen:
• Man sollte auf jeden Fall graphische Dastellungen der einzelnen p Variablen
anfertigen und eine univariate Varianzanalyse der p Variablen durchführen.
• Scatter Plots (bivariate Streu-Diagramme) und Berechnung der Korrelationen
sind aufschlussreich.
• In der Regel führen signifikante Unterschiede der univariaten Auswertungen
ebenfalls zu signifikanten Resultaten der multivariaten Analyse.
• Die multivariate Auswertung kann signifikante Unterschiede zwischen den
Gruppen entdecken, obwohl alle einzelnen univariaten Auswertungen keine
signifikanten Differenzen zeigen. Im bivariaten Fall kann man z.B. zwei klar
getrennte Punktwolken betrachten, deren Projektionen auf die KoordinatenAchsen sich weitgehend überlappen.
6.2
Multivariate Lineare Modelle
Man kann die multivariate Einweg-Varianzanalyse auf allgemeine lineare Modelle
erweitern. Im Abschnitt (3.8) haben wir für eine beliebige Zielvariable Y j ∈ Rn
lineare Modelle der Form
Y j = X b j + R j , j = 1, 2 . . . p
(6.4)
betrachtet. Y j ist der Spaltenvektor mit den n Beobachtungen der j-ten Zielvariable.
Der Parametervektor b j für die j-te Zielvariable ist q dimensional, also b j ∈ Rq .
Wir nehmen an, dass die n × q Design-Matrix X für alle Zielvariablen
X ) = q. In der Einwegdieselbe ist. Wir setzen vollen Rang voraus, d.h. Rang(X
Varianzanalyse sind die q Spalten von X durch die q Indikator-Variablen (mit nur
0, 1 Ausprägungen) der q Gruppen definiert.
Wir definieren die q × p Parameter-Matrix
B = [bb1 | b2 , . . . bp ]
(6.5)
Die j-te Spalte von B besteht somit aus den p Komponenten des Parametervektors
b j der j-ten Zielvariable. Mit der Datenmatrix Y (5.10) und B können wir die p
verschiedene lineare Modelle (6.4) mit einem einzigen multivariaten Modell elegant
zusammenfassen, nähmlich
Y = XB + R
(6.6)
42
wobei die n × p Datenmatrix R der theoretischen Residuen analog zu Y definiert
wird. Die n × n Projektionsmatrix X auf den Spaltenraum von X ist nach (3.6)
X tX )−1X t
P = X (X
B der Parameter-Matrix B erhält man durch AnDie kleinste Quadrat-Schätzung B̂
wendung von (3.8) auf jede Komponente, d.h. :
B = (X
X tX )−1X tY
B̂
(6.7)
Prognosen und Residuen-Matrizen erhält man analog mit den Projektionen P und
I n − P (Projektion auf den Teilraum orthogonal zum Spaltenraum von X )
= PY
Y
= (II n − P )Y
Y
Ŷ
R
R̂
(6.8)
Wir definieren die p × p Error-Matrix E
t
Y = Y t (II n − P )2Y = R̂
R R̂
R
E = Y t (II n − P )Y
(6.9)
Man kann zeigen, dass E regulär ist und die zentrale Wishart’s Verteilung hat:
E ∼ Wp (n − q, Σ )
Die Maximum-Likelihood Schätzung der residuellen Kovarianzmatrix ΣR ist
Σ=
Σ̂
1
E
n
(6.10)
Wie im univariaten Fall ist diese Schätzung nur asymptotisch biasfrei, während
1
n−q E exakt biasfrei ist.
In vielen Anwendungen möchte man wissen, ob ein vereinfachtes Modell mit
den Daten verträglich ist. Zu diesem Zweck betrachtet man eine vereinfachte
X 0 ) = q0 < q, die folgende Bedingung erfüllen muss:
Design-Matrix X 0 mit Rang(X
Der Spaltenraum von X 0 soll im Spaltenraum von X enthalten
sein.
Dies ist sicher der Fall, wenn X 0 durch weglassen von einzelnen Spalten von
X entsteht. Im Falle der Einweg-Varianzanalyse besteht X 0 aus einer einzigen
Spalte, welche lauter 1 hat. Diese Spalte ist die Summe der Spalten von X , welches
in diesem Fall aus den Indikatorvariablen der Gruppen besteht.
Die Projektion des kleineren Modells ist die n × n Matrix
X t0X 0 )−1X t0
P 0 = X 0 (X
Die entsprechende p × p Error-Matrix ist:
t
R0 = Y t (II n − P 0 )Y
Y
R0R̂
E 0 = R̂
(6.11)
Wie im univariaten Fall betrachtet man die Differenz der Residuen, die sogenannte
Hypothesis-Matrix H :
P − P 0 )Y
Y
H = E 0 − E = Y t (P
(6.12)
Unter der Null-Hypothese, dass das kleinere Modell genügt, kann man zeigen, dass
H die Wishart’s Verteilung Wp (q − q0 , Σ ) hat und unabhängig von E ist. Wegen
43
Y = E 0 . Die Maximum
I n − P 0 = I n − P + P − P 0 hat man E + H = Y t (II n − P 0 )Y
Likelihood Schätzung der residuellen Kovarianzmatrix unter dem kleineren Model
ist demnach
1
E0
n
Der Maximum Likelihood Ratio Test für X 0 versus X ist
Σ0 =
Σ̂
R(X
X 0 |X
X) =
det(Σ̂
Σ0 ) − n2
det(Σ̂1 )
=
E ) n2
det(E
E + H)
det(E
(6.13)
(6.14)
Die Null-Hypothese wird verworfen, wenn RX 0 |X
X zu klein wird: die maximale Likelihood under dem reduzierten Modell ist kleiner als die maximale Likelihood unter
dem grossen Modell, oder gleichbedeutend, dass die Residuen unter dem reduzierten
n
Modell grösser als unter dem grossen Modell sind. Weil x 2 monoton ist, wird der
folgende equivalente Test (Log-likelihhod Ratio Λ-Test von Wilks) verwendet:
Λ=
E)
1
det(E
=
E + H)
det(E
det(II n + H E −1 )
(6.15)
welche mit E = W und H = B zu (6.1) in der Einweg Varianz-Analyse völlig analog
ist.
A) bezeichnet, sie ist gleich
Die Spur einer p×p quadratischen Matrix A wird mitPtr(A
p
A) =
der Summe der Diagonalelementen, d.h. tr(A
i=1 A ii . Wie in der EinwegVarianzanalyse hat man u.A. foldgende Tests zur Auswahl:
• Wilks
Λ=
E)
det(E
E + H)
det(E
• Lawley-Hotelling Spur
H E −1 )
T 2 = (n − q)tr(H
• Pillai’s Spur
H (E
E + H )−1 )
V = tr(H
Wie vorhin sind die Verteilungen sehr kompliziert aber in Software-Paketen wie
R verfügbar. Asymptotisch (d.h. n gross) hat man folgende Approximationen der
Verteilungen:
−nΛ
∼
χ2(pd)
T2
∼
χ2(pd)
(n − q)V
∼
χ2(pd)
wobei d = q − q0 . Diese Resultate sind im univariaten Fall p = 1 gut bekannt.
Streng genommen sind diese Tests nur unter der multivariaten Normalverteilung
gültig, die P-werte bleiben jedoch auch unter Abweichung von dieser Annahme
aufschlussreich. Ferner sind Λ, T 2 und V asymptotisch equivalent und unterscheiden
sich wenig bezüglich der Macht (power) in kleinen Stichproben.
Der gewählte Ansatz hat den Nachteil, dass eine explikative Variable (Spalte
von X ) für alle oder keine Zielvariable eine Rolle spielt, was man auf jeden Fall mit
p univariaten Auswertungen untersucht haben muss. Aus diesem Grunde werden
oft allgemeinere Null-Hypothesen der Form H0 : L tB = 0 ∈ Rs untersucht. Dies
ist nur möglich falls L t die Form L t = GX hat. Die Sache wird allerdings etwas
komplizierter, siehe zum Beispiel R. Christensen.
44
6.3
Hauptkomponentenanalyse
Die Haupkomponentenanalyse, principal component analysis (pca), ist vorwiegend eine deskriptive Technik, um die Dimension eines Datensatzes auf wenige
Variablen, die Hauptkomponenten, zu reduzieren, idealerweise auf 2 oder 3 Komponenten, die man graphisch darstellen kann. Wir beginnen mit dem theoretischen
Ansatz.
Wir betrachen eine Zufallsvariable Y ∈ Rp mit Erwartungswert µ und Kovarianzmatrix Σ . Wir suchen eine lineare Kombination Z = a tY P
∈ R, a ∈ Rp welche
p
2
die grösste Varianz unter der natürlichen Bedingung | a | = i=1 a2i = 1 besitzt.
Gemäss (5.4) soll die Varianz V(Z) = a tΣa unter | a |= 1 maximiert werden. Nach
dem Abschnitt 3.6 wissen wir, dass die Lösung a1 der normierte Eigenvektor von
Σ zum grössten Eigenwert λ1 ist. Die zweite Hauptkomponente Z2 = at2Y sollte
unkorreliert zur ersten Hauptkomponente Z1 sein und maximale Varianz unter der
Nebenbedingung | a2 |= 1 haben. Die Korrelation ist null, wenn die Kovarianz null
ist, also wenn
Y − µ )(a
at2 (Y
Y − µ )) = E a t1 (Y
Y − µ )(Y
Y − µ )t a 2
COV(Z1 , Z2 ) = E a t1 (Y
= a t1Σa 2 = λ1a t1a 2 = 0
Mit anderen Worten ist Unkorrelierheit mit Orthogonalität equivalent. Nach Abschnitt 3.6 wissen wir, dass a 2 der normierte Eigenvektor von Σ zum zweitgrössten Eigenwert λ2 ≤ λ1 ist. Wir können das Verfahren fortsetzen und stellen fest, dass die p unkorrelierten Hauptkomponenten von den normierten und zueinander orthogonalen Eigenvektoren a i , i = 1, 2 . . . p von Σ zu den Eigenwerten
λ1 ≥ λ2 ≥ . . . ≥ λp > 0 bestimmt werden, d.h. Zi = a tiY . Ferner gilt V(Zi ) = λi .
Wir wollen annehmen, dass λp strikt grösser null ist, ansonsten die Kovarianzmatrix
singulär ist, was impliziert, dass die Komponenten von Y linear abhängig sind. Man
kann
Pp auch zeigen,
Pp dass die Summe der Varianzen der ursprünglichen Variablen, d.h.
V(Y
)
=
i
i=1
Pp i=1 σii , gleich
Pp der Summe der Varianz der Hauptkomponenten ist,
also gleich i=1 V(Zi ) = i=1 λi . Das Verfahren ersetzt in einem gewissen Sinne
ohne Informationsverlust die originalen Komponenten Yi von Y durch unkorrellierte
Komponenten Zi mit maximaler Varianz. Wir definieren die p × p Matrix
a1 | a 2 | . . . a p ]
A = [a
Die i-te Spalte von A ist somit der Eigenvektor a i . Der Vektor der Hauptkomponenten ist Z = A tY .
In den Anwendungen stehen nur die Matrizen der Rohdaten Y (5.10), der zen∗
Y (5.11) oder der standardisierten Daten Ỹ
Y (5.17) zur Verfügung.
trierten Daten Ỹ
∗
Y und Ỹ
Y . Idealerweise sollten die Variablen Yi alle quanMan arbeitet meistens mit Ỹ
titativ sein und homogene Einheiten besitzen (z.B. Längen in [cm], Gewichte in [kg],
dimensionlose %) und einigermassen vergleichbare Grössen haben. Man verwendet
Σ (5.14) und erhält die geschätzten Eigenwerte λ̂i ,
die geschätzte Kovarianz Matrix Σ̂
ai und analog die Matrix Â
A. Sei Λ̂
Λ die p×p Diagonaldie geschätzten Eigenvektoren â
t
Σ = Â
AΛ̂
ΛÂ
A.
matrix mit den λ̂i als Diagonalelementen. Nach dem Spektralsatz gilt Σ̂
Man definiert die n × p Datenmatrix der empirischen Hauptkomponenten gemäss:
Z = Ỹ
YÂ
A
Z̃
(6.16)
Die Spalten dieser Matrix enthalten die Hauptkomponenten für die n BeobachtunA hat
gen, welche auch Scores genannt werden. Wegen der Orthogonalität von Â
t
Y
Z
A
man die Umkehrformel
Ỹ = Z̃Â . Eine graphische Darstellung (sogenannter screeP
k
plot) von Ik =
i=1
Pp
i=1
λi
λi
gegen k kann bei der Wahl der wichtigsten Hauptkomponen
45
hilfreich sei. Wenn die ersten grössten Eigenwerte einen bedeutenden Anteil der Varianz ’erklären’ (z.B. I1 ≈ 0.5, I2 ≈ 0.8) , so ist es aufschlussreich, bivariate oder 3-D
Streudiagramme dieser Hauptkomponenten zu machen. Im Falle einer multivariaten
Varianzanalyse kann die Gruppezugehörigkeit als Plotsymbol benutzt werden und
die Gültigkeit der MANOVA Tests mit einer nicht parametrischen Auswertung der
Hauptkomponenten überprüft werden.
Wenn die Varianzen der originalen Variable Yi stark verschieden sind, werden die
Hauptkomponenten vorwiegend von den Variablen mit den grössten Varianzen bestimmt, was nicht unbedingt sinnvoll ist, auch wenn die Einheiten homogen sind.
Aus diesem Grund
werden die Daten oft standardisiert: man arbeitet dann mit der
∗
Y und mit der Korrelationsmatrix P̂
P.
Datenmatrix Ỹ
Für die Tabellierung und Interpretation
der
Hauptkomponenten
werden oft die
p
∗
a
a
Eigenvektoren gemäss â i = â i λ̂i skaliert, man verwendet somit die Matrix
∗
1
∗
A = Â
AΛ̂
Λ 2 . Man hat | â
a∗i |2 = λi . Die Koeffizienten von Â
A , welche zu den wichtigen
Â
Hauptkomponenten gehören (grosse λ̂i ) sind tendenziell auch grösser, was intuitiv
zweckmässig ist.
Die normierte n × p Hauptkomponenten-Matrix ist definiert als
− 12
∗
Z = Z̃
ZΛ̂
Λ
Z̃
− 12
YÂ
AΛ̂
Λ
= Ỹ
Die geschätzte Kovarianz-Matrix dieser normierten Hauptkomponenten ist
∗
∗
1
Z )tZ̃
Z
(Z̃
n−1
−1 t t
−1
1
Λ 2 Â
A Ỹ
Y Ỹ
YÂ
AΛ̂
Λ 2
Λ̂
n−1
−1 t
−1
1
Λ 2 Â
A (n − 1)Σ̂
ΣÂ
AΛ̂
Λ 2
Λ̂
n−1
=
=
−1
ΛΛ̂
Λ
Λ 2 Λ̂
= Λ̂
= Ip
− 12
Diese normierten Hauptkomponenten sind somit unkorreliert und haben empirische
Varianzen gleich 1, was ihre Bezeichnung rechtfertigt.
∗
∗
Y
Ỹ
∗
Z
Z̃
Z (Â
A )t
= Z̃
YÂ
A
= Ỹ
(6.17)
∗
Man kann also die originalen Daten mit den standardisierten Hauptkomponenten
∗
A , welche aus den sogenannten component loadings besteht,
und der Matrix Â
rekonstruieren.
Falls man mit den standardisierten
Variablen und der Korrelations∗
∗
Y und Σ̂
Σ = P̂
P ), kann man die Matrix Â
A der skamatrix arbeitet(d.h. mit Ỹ
P auch als Korrelationsmatrix zwischen den
lierten Eigenvektoren von P̂
Hauptkomponenten und den originalen Variablen interpretieren. Die zugehörigen empirischen Kovarianzen sind durch
∗
1
Y )tZ̃
Z
(Ỹ
n−1
gegeben. Man rechnet nach
∗
∗
∗
1
1
Y )tZ̃
Z =
Y )tỸ
Y Â
A
(Ỹ
(Ỹ
n−1
n−1
P Â
A
= P̂
AΛ̂
Λ
= Â
46
Die empirische Varianz der Ỹi∗ ist nach Konstruktion 1 und die empirische Varianz
der Hauptkomponente Z̃j ist λ̂j . Nach
q der obigen Formel ist die Kovarianz âij λ̂j und
∗
âij λ̂j
A die gesuchte
die Korrelation daher √ = âij λˆj . Dies bedeutet aber, dass Â
1·
λ̂j
Matrix der Korrelationen ist (NB: dies ist keine Korrelationsmatrix zwischen den
Komponenten eines Zufallsvektors, sie ist nicht einmal symmetrisch!).
Es ist dem aufmerksamen Leser sicher nicht entgangen, dass die Hauptkomponentenanalyse der zentrierten Daten sehr viel Ähnlichkeit mit der SVD Zerleσi2
Y hat, u.A. gilt n−1
gung von Ỹ
= λi und die Eigenvektoren vl in der SVD sind
die a l . Ferner, wegen der dualen Beziehung (4.4) in der SVD und der Definition
Z = Ỹ
YÂ
A sieht man, dass Ỹ
Yâ
al = σl ul , wobei in der
der Hauptkomponenten mittels Z̃
t
YỸ
Y ist, welcher im Biplot verwendet wird. In der
SVD ul ∈ Rn Eigenvektor von Ỹ
Tat wird in R die Berechnung der Hauptkomponenten über eine SVD auf Grund
der numerischen Effizienz und Stabilität durchgeführt. Die SVD ist aber eine rein
geometrische Angelegenheit ohne Wahrscheinlichkeitstheoretischen Hintergrund wie
die Hauptkomponentenanalyse.
Die Hauptschwierigkeit bei der Hauptkomponenanalyse ist die fachgerechte Interpretation der Hauptkomponenten, was aber kein statistisches Problem ist.
6.4
Diskriminanzanalyse
Wir nehmen an, wie in der Varianzanalyse, dass gewisse Gruppen bekannt sind (z.B.
Spezies, krank v. gesund, Prüfung bestanden ja v. nein). Im Gegensatz zur Varianzanalyse geht es hier darum eine neue Beobachtung auf Grund seiner Markmale
einer der Gruppen zuzuordnen, z.B. sollte ein Patient auf Grund von Laboruntersuchungen als krank oder gesund eingeteilt werden. Wir nehmen zunächts an, dass
wir nur zwei Gruppen haben, und dass die Beobachtung y als Realisierung einer
multivariaten Zufallsvariable Y ∈ Rp betrachtet werden kann, mit Dichten entweder f1 (yy ) oder f2 (yy ).
Seiπi die a-prior Wahrscheinlichkeit, dass ein Individuum zur Gruppe i gehört. Man
sollte idealerweise die Kosten einer falschen Klassifizierung definiere (z.B. falsch positiv oder falsch negativ bei einer Diagnose): c(i | j) sind die anfallenden Kosten,
wenn ein Individuum der Gruppe j fälschliserweise zur Gruppe i zugeordnet wird.
Wir definieren den Schwellenwert
π2 c(1 | 2)
k=
π1 c(2 | 1)
Die Entscheidungstheorie lehrt, dass folgende Regel für die Zuordnung einer neuen
Beobachtung y optimal ist:
f1 (yy )
f2 (yy )
f1 (yy )
f2 (yy )
>
k
dann ordne y
zur Gruppe
1
<
k
dann ordne y
zur Gruppe
2
(6.18)
Wenn k = 1, dies ist der Fall bei gleichen Kosten und a-priori Wahrscheinlichkeiten,
bekommt man das Maximum Likelihood Prinzip: die Beobachtung wird der Gruppe
zugeordnet, welche die Wahrscheinlichkeit ihres Auftretens maximiert, was intuitiv
sehr vernünftig ist.
Wir betrachten nun den Fall von zwei Normalverteilung mit gleicher Kovarianzµ1 , Σ ) oder Y ∼ N(µ
µ2 , Σ ). Durch logarithmieren der Dichten
matrix, also Y ∼ N(µ
bekommt man
f1 (yy )
1
µ1 − µ2 ) − (µ
µ1 − µ2 )tΣ−1 (µ
µ1 + µ2 )
ln
= y tΣ−1 (µ
f2 (yy )
2
47
µ1 − µ 2 ) ∈ Rp und k̃ = ln(k) kann man die Entscheidungsregel (6.18)
Mit L = Σ −1 (µ
wie folgt formulieren:
1
µ1 + µ 2 ) > k̃
L ty − L t (µ
2
1
µ1 + µ 2 ) < k̃
L ty − L t (µ
2
dann ordne y
zur Gruppe
1
dann ordne y
zur Gruppe
2
(6.19)
µ1 + µ 2 ) ist die lineare Diskriminanz Funktion In den
Der Term L ty − 21 L t (µ
Anwendungen hat man zwei Trainingdatensätze, d.h. Y 1 und Y 2 (mit n1 bzw.
n2 Beobachtungen), für welche die Gruppenzugörigkeit aller n1 + n2 Individuen als
gesichert gilt. Man hat ferner die geschätzten Erwartungswerte µ̂1 und µ̂2 und die
’gepoolte’ geschätzte Kovarianzmatrix
Σ=
Σ̂
1
Σ1 + (n2 − 1)Σ̂
Σ2
(n1 − 1)Σ̂
n1 + n2 − 2
Man definiert
L = Σ̂
Σ
L̂
−1
(µ̂1 − µ̂2 )
und verwendet die Entscheidungsregel
t
1 t
L y − L̂
L (µ̂
µ1 + µ̂
µ2 ) > k̃
L̂
2
t
1 t
L (µ̂
µ1 + µ̂
µ2 ) < k̃
L y − L̂
L̂
2
dann ordne y
zur Gruppe
1
dann ordne y
zur Gruppe
2
(6.20)
In vielen Anwendungen wählt man c(1 | 2) = c(2 | 1) (keine dramatischen Entscheii
de!) und πi = n1n+n
(vagues a-priori Wissen) und erzeugt eine Klassifikationsta2
belle mit den bekannten n = n1 + n2 Beobachtungen (wahre versus pronostizierte
Gruppenzugehörigkeit) und kann die Güte der Klassifizierung bewerten. Allerdings
wird die Güte dabei zu optimistisch bewertet. Falls möglich sollte die Diskriminanzfunktion mit einem Training-Datensatz konstruiert werden und mit einem anderen
Datensatz validiert werden.
Man kann zeigen, dass die obige Entscheidungsregel equivalent zum Fishers Ansatz
der Diskriminanzanalyse ist, welche ohne Annahmen über die multivariate Normalverteilungen und die Gleichheit der Kovarianzmatrizen gültig ist (siehe A. Handl).
Eine Verallgemeinerung auf k > 2 ist möglich. Wir nehmen an, dass die Beobµi , Σ i ), i = 1, 2 . . . k verteilt sind, und
achtungen in der i-ten Gruppe gemäss N(µ
ignorieren die Kosten. man definiert die Score Functionen durch
1
1
Σ−1
y − µ i ) + ln(πi )
Si (yy ) = − ln(det Σ i ) − (yy − µ i )Σ
i (y
2
2
Die neue Beobachtung y wird der Gruppe zugeordnet, welchen den grössten Wert
Σi .
von Si (yy ) hat. Die empirische Version erhält man durch Substitution der µ̂i und Σ̂
48
6.5
Multidimensional Scaling, MDS
Wir betrachten die n × p Datenmatrix Y . Der euklidischer Abstand zwischen der
r-ten Beobachtung y r und der s-ten Beobachtung y s ist
d2rs =
p
X
(yrk − ysk )2
(6.21)
k=1
Wir setzen selbstverständlich voraus, dass dieser Abstand für die spezifische Anwendung vernüftig ist. Es geht hier nur darum, die Grundprinzipien der multivariaten
Skalierung zu illustrieren. In der Praxis ist die Definition einer geeigneten Metrik oft
die Hauptschwierigkeit. Die n×n Distanzmatrix D wird mittels D rs = drs definiert.
Wir brauchen ferner die n × n Matrix
B = YY t
(6.22)
Man hat nach trivialer Rechnung d2rs = brr + bss − 2brs .
Ist B bekannt lässt sich D bestimmen. Man kann aber auch von D auf B schliessen,
und zwar wie folgt
1. Bilde die Matrix A mit A rs = − 21 d2rs = ars .
2. Bilde die Matrix B mit B rs = brs = ars − ār. − ā.s + ā..
Wir verzichten auf den langen aber elementaren Beweis.
Wir führen nun eine Spektralzerlegung durch
B = U ΛU t
(6.23)
In der Praxis ist nur die Matrix der Abstände D bekannt und wir leiten gemäss
obigen Verfahren die n × n Matrizen A und B ab. Wir führen nun folgende Spektralzerlegung durch
B = U ΛU t
(6.24)
Wir definieren nun die n × n Matrix Z mittels
1
Z = UΛ 2
(6.25)
Nach Konstruktion gilt ZZ t = B und die Matrix D kann als Distanzmatrix zwischen
n Individuen in Rn interpretiert werden. Wenn die ersten zwei Eigenwerte von B
die anderen klar dominieren (wie in der PCA), kann man die Individuen mit der
reduzierten Matrix Z 1 (gebildet mit den entsprechenden Spalten von U und Λ ) in
der Ebene darstellen. Tabelle 6.1 gibt die Flug-Distanzen zwischen europäischen
Städten wieder und Abbildung 6.1 das entsprechende Bild der multidimensionalen
Skalierung, welche der geographische Wirklichkeit recht ähnlich ist.
Abbildung 6.2 zeigt das Resultat einer multidimensionalen für eine genetische (nicht
euklidische) Distanz zwischen verschiedenen Völkern.
Man merke sich, dass in der obigen, “klassischen“, Skalierung, die 2DDarstellung nur bis auf Orientierung eindeutig ist. Ferner gibt es in diesem Fall
auch sehr enge Beziehungen zwischen MDS und PCA Auswertung (auf Grund der
dualen Beziehungen zwischen den Spektralzerlegungen 4.4 der Matrizen YY t und
Y tY , siehe Chatfield).
49
Tabelle 6.1: Distanzen zwischen Städten
Athen
Berlin
Dublin
London
Madrid
Paris
Rom
Warschau
Athen
Berlin
Dublin
London
Madrid
Paris
Rom
Warschau
0
1119
1777
1486
1475
1303
646
1013
1119
0
817
577
1159
545
736
327
1777
817
0
291
906
489
1182
1135
1486
577
291
0
783
213
897
904
1475
1159
906
783
0
652
856
1483
1303
545
489
213
652
0
694
859
646
736
1182
897
856
694
0
839
1013
327
1135
904
1483
859
839
0
Abbildung 6.1:
Karte auf Grund der Distanzen zwischen Städten
50
Abbildung 6.2:
Genetische Distanzen zwischen Völkern
51
Literaturverzeichnis
[1] C. Chatfiel, A.J. Collins (1980): Introduction to Multivariate Analysis, Chapman
and Hall.
[2] R. Christensen (1991): Linear Models for Multivariate, Times Series and Spatial
Data, Springer Verlag.
[3] R. Gnanadesikan (1977): Statistical Data Analysis of Multivariate Observations,
John Wiley Sons.
[4] P. Good (2005): Permutation, Parametric, and Bootstrap Tests of Hypotheses.
[5] A. Handle (2010): Multivariate Analysenmethoden, Springer Verlag (mit kleinem Anhang über Lineare Algebra).
52
Herunterladen