Multivariate Analyse: FS 2011 Ergänzungen zur Mitschrift der

Werbung
Multivariate Analyse: FS 2011
Ergänzungen zur Mitschrift der Vorlesung über Multivariate
Datenanalyse von Prof. A. Barbour
by PD Dr. Daniel Mandallaz
Chair of Land Use Engineering
Department of Environmental Sciences, ETH Zurich
Übungen: Mathias Weyland
Vorwort
Diese bündigen Unterlagen sind Ergänzungen und zum Teil Erweiterungen zur Mitschrift der Vorlesung ’Multivariate Datenanalyse’ von Prof. em. Andrew D. Barbour, welche von Mathias Weyland verfasst wurde. Der Titel der Vorlesung ist ein
bisschen irreführend, weil andere Themen ebenfalls behandelt werden (u. A. nichtparametrische Verfahren sowie Resampling-Methoden). Es ist bekanntlich schwierig, vielleicht sogar unmöglich, multivariate statistische Verfahren ganz ohne lineare
Algebra zu erklären. Aus diesem Grund werden die für die Vorlesung wichtigsten
Begriffe der linearen Algebra ebenfalls behandelt (eine kurze Einführung ist ebenfalls in der Mitschrift gegeben). Studierende, welche die multivariaten Verfahren
gründlich beherrschen wollen, sollten idealerweise die Vorlesung ’Lineare Algebra’
belegt haben, auch wenn a posteriori. Ferner sei darauf hingewiesen, dass statistische
Grundkenntnisse (z.B. Tests von Hypothesen, Vertrauensintervalle, parametrische
und nicht-parametrische Varianzanalyse) vorausgesetzt werden, welche im Skript
der Vorlesung ’Biologische Datenanalyse’ von D. Mandallaz behandelt werden.
Kapitel 1
Nicht-parametrische und
Permutationstests
1.1
Der Vorzeichen-Test
Wir betrachten n unabhängige binäre Zufallvariablen Xi mit P(Xi = 1) = p und
P(Xi = 0) = 1 − p und die Teststatistik
T =
N
X
Xi
(1.1)
i=1
Die Nullhypothese sei H0 : p = p0 und die einseitige Alternative HA : p > p0 .
Wir verwerfen die Nullhypothese H0 sobald T ≥ b und wählen b sodass
n X
n x
p (1 − p0 )n−x ≤ α
(1.2)
P(T ≥ b | H0 ) =
x 0
x=b
Diese Entscheidungsregel hat somit Niveau (Level) α. Die beobachtete Realisierung
von T sei nun t = T obs . Die beobachtete Signifikanzschranke (observed significance
level, p-value) ist definiert als
n
X
n x
obs
p0 (1 − p0 )n−x
(1.3)
p+ =
x
obs
x=T
Für die andere einseitige Alternative HA : p < p0 definieren wir analog
pobs
−
obs
T
X
n x
p0 (1 − p0 )n−x
=
x
x=0
(1.4)
Die beobachte Signifikanzschranke bezüglich der zweiseitigen Alternative HA : p 6=
obs
po ist 2 min(pobs
+ , p− ). Für grosse n kann man die z Statistik
T obs − np0
z obs = p
np0 (1 − p0 )
verwenden, welche nach dem Zentralgrenzwertsatz unter H0 genähert standard
norq
p̂(1−p̂)
mal verteilt ist, sodass ein (1− α)-Vertrauensintervall mittels p̂ ± z1− α2
konn
Pn
x
i
die relative Frequenz der xi = 1 ist (zur
struiert werden kann, wobei p̂ = i=1
n
α
Erinnerung: z1− 2 = 1.96 ≈ 2 für (1 − α) = 0.95. Für kleine n können exakte pobs
und Vertrauensintervalle berechnet werden, allerdings nur in diskreten Stufen. Der
Vorzeichentest kommt in vielen Anwendungen vor, wie zum Beispiel:
1
1. Median:
Yi unabhängig gleichverteilt, mit stetiger Verteilungsfunktion F (x) = P(Yi ≤
x). Die Nullhypothese H0 besagt, dass der Median von F gleich θ0 ist ( d.h.
F ist symmetrisch um θ0 ), die einseitige Alternative ist P(Yi >Pθ0 ) > 12 . Man
n
definiert Xi = 1 falls Yi > θ0 und Xi = 0 sonst, und T =
i=1 Xi . Man
wendet den Vorzeichentest für T an, mit H0 : p = P(Yi > θ0 ) = 12 = p0 und
HA : p > 12 = p0 , analog für HA : p < 21 und den zweiseitigen Test.
2. Paar-Vergleich:
Wir haben in diesem Fall m unabhängige Paare (Xi , Yi ), von numerischen
oder qualitativen Variable und möchten testen, ob Xi > Yi (Xi ’besser’ als Yi ),
bzw. Xi < Yi (bzw. Xi ’schlechter’ als Yi ). Wir definieren p+ = P(Xi > Yi ),
p− = P(Xi < Yi ). Dann gilt offensichtlich P(Xi = Yi ) = 1 − (p+ + p− ) (Xi
und Yi equivalent). Die ensprechend beobachteten Frequenzen sind
m+
=
m−
=
m0
=
n
X
i=1
n
X
i=1
n
X
i=1
I{xi >yi }
I{xi <yi }
I{xi =yi }
Man will die Nullhypothese H0 : p+ = p− gegeben m0 testen. In diesem Falle
ist m+ binomial verteilt mit p = 12 und m − mo Beobachtungen. Man wendet
also den Vorzeichentest mit T = m+ , p0 = 21 und n = m − m0 an.
3. Vergleich von Poisson-Verteilungen:
X1 und X2 seien Poisson-verteilt mit Parametern λ1 und λ2 . Die Nullhypothese ist H0 : λ1 = λ2 . Sei ferner S = X1 + X2 , bekanntlich auch Poisson-verteilt
mit Parameter λ1 + λ2 . Wir haben
P(X2 = x2 | S = n)
=
P(X2 = x2 und X1 = n − x2 )
P(S = n)
=
λ2 2 −λ1 λ1 1
x2 ! e
x1 !
n
2)
e−(λ1 +λ2 ) (λ1 +λ
n!
x
=
x
e−λ2
λ
x 2 λ
n−x2
n!
2
1
x2 !(n − x2 )! λ1 + λ2
λ1 + λ2
also binomial verteilt mit Parametern n = x1 + x2 und p =
ist p = 12 .
λ2
λ1 +λ2 .
Unter H0
Beispiel: in 1989 gab es 21 Verkehrstote in der Stadt Zürich, in 1990 nur 19. Ist
diese Abnahme signifikant? Solche Daten werden oft erfolgreich mit Poisson
Verteilungen modelliert (seltene Ereignisse). Mit n = 40 und x2 = 19 bekommt man als exaktes 95%-Vertrauensintervall [0.315, 0.639] welches p = 0.5
enthält. Die Abnahme ist somit nicht signifikant. Die Approximation
mitq
19
1 19
19
± 1.96 40
tels der Normalverteilung liefert das Intervall 40
40 (1 − 40 ) =
[0.32, 0.63]. Eine knapp signifikante Abnahme hätte man mit nur 9 Verkehrstote in 1990.
2
1.2
Kruskal-Wallis und Wilcoxon Tests
Der Kruskal-Wallis Test ist eine nicht parametrische Version der klassische EinwegVarianzanalyse mit k Gruppen, der Test von Wilcoxon bezieht sich auf den Spezialfall k = 2. Wir betrachten k unabängige Stichproben mit jeweils ni , i = 1, 2 . . . k
Beobachtungen. Die zugörigen Zufallsvariable haben stetige Verteilungsfunktionen
F (x − θ1 ), F (x − θ2 ), . . . F (x − θk ), (P(Xi ≤ x) = F (x − θi )), wobei θi ein Lokationsparameter der i-ten Population (z.B. Erwartungswert oder Median). Wir wollen
die Nullhypothese
H0 : θ 1 = θ 2 = . . . θ k
gegen die Alternative testen, dass mindestens zwei Populationen ungleich sind, also
θi 6= θj für i 6= j. Die Beobachtungen sind Realisierungen der Zufallsvariablen
X11 , . . . X1n1 . . . Xk1 . . . Xknk
Wir betrachten die gesamte Stichprobe der n = n1 + n2 + . . . nk Beobachtungen,
aufsteigend geordnet: Rij ist der Rang (also eine ganze Zahl zwischen 1 und n, unter
der Annahme alle Xij voneinander verschieden sind (keine Bindungen). Unter H0
haben alle n Beobachtungen dieselbe Verteilung F (x − θ), sodass der Vektor der
Ränge R = (R11 , . . . R1n1 , . . . Rk1 . . . Rknk ) eine Permutation der Zahlen 1, 2, . . . n
ist. Unter H0 sind alle Permutationen gleich wahrscheinlich, mit Wahrscheinlichkeit
Pn
n(n+1)
1
, mit Mittelwert R̄.. = n+1
i=1 i =
n! . Die Summe aller Ränge ist R.. =
2
2 .
Der mittlere Rang in der i-ten Population ist
ni
Ri.
1 X
Rij =
R̄i. =
ni j=1
ni
Unter H0 ist der Erwartungswert der Ränge in allen Populationen gleich. Wir haben
somit
EH0 (R̄i. ) =
n+1
2
2
Grosse Werte von (R̄i. − n+1
2 ) weisen daher auf Abweichung von der Nullhypothese
hin. Kruskal and Wallis (1952) haben folgende Teststatistik vorgeschlagen:
k
k
X X R2
12
n + 1 2
12
i.
=
− 3(n + 1)
ni R̄i. −
K :=
n(n + 1) i=1
2
n(n + 1) i=1 ni
(1.5)
Es ist grundsätzlich durch Abzählung möglich, die exakte diskrete Verteilung von K
unter H0 zu bestimmen. Für grosse ni kann diese Verteilung mit einer Chi-Quadrat
Verteilung mit (k − 1) Freiheitsgraden approximiert werden. Wenn Bindungen vorhanden sind, kann man die Ränge der Beobachtungen mit den gleichen Werten
durch den zueordneten mittleren Rang ersetzen. Die exakte Verteilung wird jedoch
komplizierter. Software Pakete liefern exakte Tests für nicht allzu grosse n, auch
mit Bindungen.
Im Falle von nur zwei Populationen (k = 2) kann man den statistisch äquivalenten Wilcoxon Test (1945) anwenden. Sei W1 die Summe der Ränge der ersten Stichprobe und W2 die Summe der Ränge der zweiten Stichprobe, wobei die
Ränge in der zusammengesetzten Stichprobe von allen n = n1 + n2 Beobachtunund der mittlere Rang unter
gen ermittelt werden. Man hat W1 + W2 = n(n+1)
2
n1 +n2 +1
. Der Erwartungswert von W1 unter H0 ist demnach
H0 ist wie vorhin
2
2 +1)
EH0 (W1 ) = n1 (n1 +n
.
Die
Varianzen unter H0 von W1 and W2 sind beide gleich
2
3
n1 n2 (n1 +n2 +1)
.
12
Für grosse n1 and n2 ist die Teststatistik
W1 −
z= q
n1 (n1 +n2 +1)
2
n1 n2 (n1 +n2 +1)
12
(1.6)
approximativ standard normalverteilt. In kleinen Stichproben kann die exakte diskrete Verteilung bestimmt werden. Man kann auch Bindungen wie bei KruskalWallis berücksichtigen.
Im Gegensatz zur klassischen Varianzanalyse mit F -Tests wird die Normalverteilung nicht vorausgesetzt. Dies kostet allerdings etwas, nämlich ein Verlust der
Macht (Power). Dieser Verlust ist jedoch in grossen Stichproben klein, zum Beispiel
ca 5% im Vergleich zum Student t-Test im Falle von zwei Stichproben.
1.3
Wilcoxon Vorzeichen-Test
Der Vorzeichentest kann, wie wir gesehen haben, beim Paar-Vergleich angewandt
werden, wie auch der Student t-Test für gepaarte Stichproben, wenn die Differenzen normal verteilt sind (zumindest approximativ). Der Vorzeichen-Test ist selbstverständlich mit einem Informationsverlust verbunden, weil die Grösse der Differenzen nicht berücksichtigt wird. Das sogenannte Wilcoxon Vorzeichen-Test (Wilcoxon
signed-rank test) ist ein Kompromiss zwischen den beiden Tests.
Wir betrachten n unabhängige Zufallsvariablen Zi , mit stetiger Verteilung F ,
symmetrisch um θ0 . Ohne Beschränkung der Allgemeinheit setzen wir θ0 = 0 voraus
(ansonsten betrachtet man die Zi − θ0 ). Wir definieren die Funktion ψ(x) gemäss
ψ(x)i = 1 falls x ≥ 0 sonst ψ(x) = 0. Sei ψi = ψ(Xi ). Nach Voraussetzung ist
P(ψ = 1) = P(ψi = 0) = 12 . Man kann zeigen, dass wegen der Symmetrie von F die
Zufallvariablen | Zi | und ψi stochastisch unabhängig sind. Ri+ sei der Rang von
| Zi | unter | Z1 |, | Z2 |, . . . | Zn |. Der ’signed rank’ (Rang mit Vorzeichen) ist nach
Definition ψi Ri+ . Es gelten für ganze Zahlen r und s zwischen 1 und n
P(Ri+ = r)
=
P(Ri+ = r, Rj+ = s)
=
E(Ri+ )
=
V(Ri+ )
=
COV(Ri+ , Rj+ )
=
1
n
1
n(n − 1)
n+1
2
(n + 1)(n − 1)
12
(n + 1)
−
12
Das Wilcoxon Vorzeichen-Test ist
W
+
=
n
X
ψi Ri+
(1.7)
i=1
Man zeigt folgende Resultate
EH0 (W + )
=
VH0 (W + )
=
n(n + 1)
4
n(n + 1)(2n + 1)
24
4
(1.8)
Für grosse n kann man die Normalverteilung als Approximation unter H0 verwenden, d.h. die Zufallvariable
W + − E H0 W +
Z= p
VH0 (W + )
(1.9)
ist unter der Nullhypothese genähert standard normal verteilt. Für kleine n kann
man die exakte diskrete Verteilung von W + berechnen. Man muss dazu alle 2n
Möglichkeiten der Vorzeichen {+, −} untersuchen. Im Falle von n = 3 bekommt
man 23 = 8 Teilmengen von {1, 2, 3} = {R1 , R2 , R3 } mit positiven Vorzeichen.
Tabelle 1.1 fasst die Resultate zusammen.
Tabelle 1.1: Wilcoxon Vorzeichen-Test W +
Teilmenge von {1, 2, 3}
Wert von W +
∅
{1}
{2}
{3}
{1, 2}
{1, 3}
{2, 3}
{1, 2, 3}
0
1
2
3
3
4
5
6
Man erhält somit folgen Verteilung unter H0
P(W + = 0) = P(W + = 1) = P(W + = 2) =
1
8
P(W + = 4) = P(W + = 5) = P(W + = 6) =
1
8
1
4
Man verifiziert leicht die Formeln in (1.8) für Erwartungswert und Varianz. Die
exakte Behandlung von Bindungen ist mühsam. Man kann wie üblich die mittleren
Ränge verwenden oder einen kleinen zufälligen Fehler addieren; die obigen Formeln
gelten dann nur approximativ. In kleinen Stichproben liefern die Sofware Pakete die
exakten Tests.
P(W + = 3) =
1.4
Der Test von Friedman
Dieser Test ist die nicht-parametrische Version der Zweiweg-Varianzanalyse ohne
Wiederholungen. Wir betrachen k Behandlungen, welche in n ’homogene’ Blöcke
angewandt werden; zum Beispiel k Düngemittel jeweils in n Versuchsflächen, welche
alle in k gleichgrosse Teilflächen unterteilt sind. Die Zielvariable könnte zum Beispiel
3
der Ertrag von Weizen in 10hakg sein. Die Beobachtungen der Zielvariable seien die
Realisierungen der unabängigen Zufallvariablen Yij , i = 1, 2 . . . k mit j = 1, 2 . . . n.
Die stetige Verteilung von Yij sei F (x − τi − βj ). Die Nullhypothese besagt, dass
kein Behandlungseffekt vorliegt, d.h. H0 : τ1 = τ2 = . . . τk = τ . Unter H0 ist
somit Yij , i = 1, 2 . . . k gemäss F (x − τ − βj ), j = 1, 2 . . . n, verteilt. Die Alternative
Hypothese ist HA : τi 6= τj für mindestens ein Paar i 6= j.
5
Für festes j ∈ {1, 2, . . . n} sei nun Rij der Rang von Yij unter der Y1j , . . . Ykj ;
Rij ist somit der Rang der Yij unter den k Beobachtungen im selben j-ten Block.
Der Rangvektor R = (Rij , . . . Rkj ) ist somit unter H0 eine Permutation der ganzen
Zahlen1, . . . k.
Seien
n
1
1X
Rij = Ri.
R̄i. =
n j=1
n
der mittlere Rang (innerhalb der Blöcke) der i-ten Behandlungen. Unter H0 haben
wir
n
n
1X
(k + 1)
1 X 1 k(k + 1)
EH0 (R̄i. ) =
=
EH0 (Rij ) =
n j=1
n j=1 k
2
2
2
Grosse Werte von (R̄i. − (k+1)
2 ) weisen auf Abweichung von der Nullhypothese von
keinem Behandlungseffekt hin. Dies führt zur sogenannten Friedman Test-Statistik
(1937)
k
Q=
k
X
12
(k + 1) 2
12n X =
R2 − 3n(k + 1)
R̄i. −
k(k + 1) i=1
2
nk(k + 1) i=1 i.
Für kleine n kann wiederum die exakte Verteilung von Q unter der Nullhypothese
H0 berechnet werden. Für grosse n (k bleibt in der Regel klein) kann man zeigen,
dass die Verteilung von Q unter H0 approximativ Chi-Quadrat mit (k − 1) Freiheitsgraden is. Die Approximation funktioniert für kn ≥ 30 sehr gut. Bei Bindungen
innerhalb der Blöcke kann man die üblichen Anpassungen machen. Für kleine k und
n liefern die Software Pakete exakte Tests, auch mit Bindungen.
Eine ausgezeichnete Referenz für nicht parametrische Statistik ist und bleibt:
E.L. Lehmann (1975). Nonparametrics: statistical methods based on ranks, HoldenDay, Inc. (McGraw-Hill International Book Company).
1.5
Permutationstests
Die nicht-parametrischen Tests (wir haben nur eine kleine Anzahl der wichtigsten
gesehen) befreien uns teilweise von der einschränkenden Annahme der Normalverteilung. Eine grundlegende Idee der Statistik ist die Randomisierung (Fisher), welche
uns von allen Verteilungsannahmen befreit, falls die Zuordnung der statistischen
Einheiten zu den Behandlungen zufällig erfolgt. Wir betrachten zum Beispiel n
Patienten, identifiziert durch die Indizes i = 1, 2 . . . n, mit Werten yi der Zielvariable. Wir erzeugen eine zufällige Permutation der ganzen Zahlen 1, 2, 3, . . . n. Die
ersten n1 Patienten bekommen Behandlung ’A’ und die übrigen n2 (n1 + n2 = n)
bekommen Behandlung ’B’. Idealerweise erfolgt eine solche Studie ’double blind’,
d.h. weder der Arzt noch der Patient weiss, welche Behandlung verabreicht wurde
(wohl aber der Statistiker!). Wenn die Nullhypothese stimmt, sind die Werte der
Beobachtungen von den Behandlungen ’unabängig’, sodass die meisten Permutationen auf keine Differenzen zwischen Behandlungen hinweisen. Es ist jedoch möglich,
dass eine Permutation die Daten so umordnet, dass ausgerechnet alle n1 kleinsten
Beobachtungen gerade die n1 ersten Beobachtungen sind.
Wir betrachten folgendes Beispiel. Die erste Gruppe mit 15 Beobachtungen wurden mit Yi = 10+χ2(3) simuliert und die zweite Gruppe von ebenfalls 15 Beobachtungen gemäss Xi = 12 + χ2(2) . Die Nullhypothese setzt gleiche Erwartungswerte, was
hier falsch ist. Die Daten sind offensichtlich nicht normal verteilt, wie QQ-Plots und
6
Shapiro-Wilks Test bestätigen. Als Teststatistik nehmen wir die absolute Differenz
| Ȳ − X̄ |, welche gleich 1.033 ist (die wahre absolute Differenz beträgt −1). Wir
2 )!
′
′
haben in diesem Fall (nn11+n
!n2 ! = 155 117 520 mögliche Permutationen. Von dieser
riesigen Anzahl werden 5000 zufällig ausgewählt und für jede permutierte Stichprobe wird | Ȳ − X̄ |= ∆k , k = 1, 2 . . . 5000 berechnet. Der P -Wert des klassischen
F -Tests ist in diesem Fall 0.077, was ziemlich genau dem empirischen 92.5% Quantil
der empirischen Verteilung der ∆k entspricht, siehe Abbildung 1.1.
Die Berechnungen wurden mit folgendem R Programm durchgeführt:
mc.group1<-c(rep(1,15));mc.group2<-c(rep(-1,15));
mc.group=c(mc.group1,mc.group2)
mc.group
set.seed(100)
data1<-round(10+c(rchisq(15,3)),digits=2)
data2<-round(12+c(rchisq(15,2)),digits=2)
data1
data2
hist(data1);
hist(data2)
mean(data1);mean(data2)
deltamean=mean(data1)-mean(data2);deltamean
absdeltamean=abs(deltamean);absdeltamean
sd(data1)/sqrt(15);sd(data2)/sqrt(15)
mc.data<-c(data1,data2)
mc.data
absdeltameancheck<-abs(sum(mc.group*mc.data)/15)
absdeltameancheck
aux.group<-factor(mc.group);
anova(lm(mc.data~mc.group))
diff<-matrix(0:0,nrow=5000, ncol=1)
for(i in 1:5000)
{
per<-c(sample(mc.group,30));
aux=per*mc.data
diff[i,1]=abs(sum(aux)/15)
}
hist(diff, xlab="Absolute Differenz der Mittelwerte",main=" ")
abline(v=absdeltamean)
quantile(diff,c(0.925,0.95,0.975,0.99))
Man merke sich, dass der Befehl
per<-c(sample(mc.group,30))
die zufälligen Permutationen der ursprünglichen 30 Werte erzeugt, allerdings sind
diese 5000 Permutationen der Start-Sequenz (mit 15 ′ 1′ am Anfang gefolgt von
15 ′ − 1′ ) nicht alle verschieden sind (man zieht aus der Menge der Menge aller
n! Permutationen mit Zurücklegung), was jedoch für die empirische Bestimmung
der Quantile irrelevant ist. Oft wird direkt der P -Wert der klassischen Auswertung
als Test-Statistik genommen. Die Mitschrift zeigt, wie man die allgemeine EinwegVarianzanalyse mit k > 2 Gruppen mittels Permutationstests auswerten kann. Man
kann auch komplexere randomisierte Designs (wie Lateinische Quadrate) analog
auswerten. R bietet hierfür spezielle Pakete.
7
400
300
0
100
200
Frequency
500
600
700
Abbildung 1.1: Histogramm von 5000 ∆k
empirischer 92.5% Quantil: 1.029, empirischer 95%-Quantil= 1.111
0.0
0.5
1.0
1.5
2.0
Absolute Differenz der Mittelwerte
Die Permutationstests sind sogenannte bedingte Tests (d.h. gegeben die Daten)
und immer gültig falls das Randomisierung-Prinzip verwendet wurde. Streng genommen sind diese Tests allerdings nur für den untersuchten Datensatz gütig. Es
gibt theoretische und empirische Evidenz dafür, dass die P -Werte der klassischen
ANOVA-Tests den P Werten der Permutationstests ähnlich sind. In diesem Sinne ist die Einhaltung der Randomisierung vor der Auswertung wichtig, auch wenn
diese mit klassischen Verfahren erfolgt. Die Randomisierung ist auch unter einem
anderen Gesichtspunkt wichtig, nämlich um den potentiellen gefährlichen Einfluss
von Variablen zu ’dämpfen’, welche im Modell nicht berücksichtigt wurden.
8
Kapitel 2
Resampling und Robuste
Verfahren
2.1
Die empirische Verteilungsfunktion
Die Verteilungsfunktion F (x) einer Zufallsvariable X ist definiert als
F (x) = P(X ≤ x)
Dies ist eine monoton wachsende Funktion von x. Für eine diskrete Zufallsvariable mit möglichen Werten wk (k = 1, 2, 3 . . .) ist F (x) eine stückweise konstante
Treppenfunktion mit Sprungstellen in den wk . Wir betrachten nun n unabhängige
gleichtverteilte Zufallsvariablen Xi mit Verteilungsfunktion F (x). xi ist die Realisierung von Xi . Die empirische Verteilungsfunktion F̂n (x) ist definiert als
n
F̂n (x) =
1X
I{xi ≤x} (x)
n i=1
(2.1)
wobei IA (x) = 1 falls x ∈ A sonst IA (x) = 0. In Worten: F̂n (x) ist die relative
Frequenz der n Beobachtungen xi , welche kleiner oder gleich x sind. Dies ist eine
stückweise konstante Treppenfunktion mit Sprüngen in den Beobachtungen xi . Mit
der Zuordnung xi → Xi können wir F̂n (x) auch als eine Zufallsvariable betrachten,
mit Erwartungswert und Varianz
E(F̂n (x)) = F (x) , V(F̂n (x)) =
F (x)(1 − F (x))
n
Nach
dem Gesetz der grossen Zahlen und dem Zentralen Grenzwertsatz ist somit
√
n(F̂n (x) − F (x)) asymptotisch, d.h. für grosse n, normalverteilt mit Erwartungswert 0 und Varianz F (x)(1 − F (x)). Die empirische Verteilungsfunktion ist somit eine konsistente Schätzung der wahren unbekannten kumulativen Verteilungsfunktion
F (x). Sie fasst die ganze verfügbare Information zusammen, welche die Beobachtungen xi enthalten. Es ist daher intuitiv, dass die Nullhypothese H0 : F (x) = F0 (x)
(d.h. die Beobachtungen sind unabhängig gemäss der Verteilung F0 (x) verteilt) mittels der empirischen Verteilungsfunktion F̂n (x) geprüft werden kann, zum Beispiel
9
mit den Statistiken
Dn
=
Wn
=
sup | F̂n (x) − F0 (x) |
x
Z ∞
2
F̂n (x) − F0 (x) f0 (x)dx
n
−∞
An
=
n
Z
−∞
∞
2
F̂n (x) − F0 (x)
f0 (x)dx
F0 (x)(1 − F0 (x))
(2.3)
d
F0 (x) die Wahrscheinlichkeitsdichte ist. supx steht für ’Suprewobei f0 (x) = dx
mum’, also die kleinste obere Schranke ( Es ist auf abgeschossene Intervalle der
grösste Wert). Dn ist die Kolmogorov -Smirnov Statistik, Wn die Cramer-von-Mieses
Statistik und An die Anderson-Darling Statistik, welche die Abweichungen zwischen
F̂n (x) und F0 (x) über alle x subsummieren. Alle drei Tests haben die bemerkenswerte Eigenschaft, dass die Verteilung unter H0 : F (x) = F0 (x) unabhängig von F0
ist. Für Dn zum Beispiel gilt asymptotisch (d.h. für gross n)
∞
X
√
2 2
P( nDn ≤ z) = 1 − 2
(−1)j−1 e−2j z
j=1
Diese Tests sind universell gültig und in speziellen Fällen daher nicht optimal. Wenn
wir zum Beispiel für F0 die Normalverteilung wählen, ist der sogenannte ShapiroWilks Test besser. In den Anwendungen sind graphische Verfahren einfacher und
deswegen sehr beliebt, zum Beispiel die sogenannten Quantile-Quantile (Q-Q)
Plots, welche im nächsten Abschnitt kurz erläutert werden.
2.2
Q-Q Plots
Wir betrachten die Verteilungsfunktion F0 (x) und möchten prüfen, ob die unabhängige Beobachtungen xi , i = 1, 2 . . . n mit F0 bis auf Lokation und Streuung verträglich sind. Wir setzen somit voraus, dass P(Xi ≤ x) = F0 ( x−µ
σ ), oder
equivalent dazu, dass die nicht beobachtbaren Zufallsvariablen Yi = Xiσ−µ die Verteilungsfunktion P(Yi ≤ y) = F0 (y) haben. Seien nun Y(1) < Y(2) < . . . Y(n) die
geordneteten Werte der Yi und entsprechend die X(1) < X(2) < . . . X(n) . Wegen Xi = µ + σYi gilt auch X(i) = µ + σY(i) . Bekanntlich ist die Zufallvariable
Ui = F0 (Yi ) uniform auf dem Interval [0, 1] verteilt. Intuitiv ist es klar (und kann
i
und daher E(Y(i) ) = E(F0−1 (U(i) ) ≈
auch bewiesen werden), dass E(U(i) ) ≈ n+1
−1
−1
i
F0 (E(U(i) )) ≈ F0 n+1
. Ferner gilt E(X(i) ) = µ + σY(i) . Unter H0 sollten im
−1
i
Mittel die Punkte (F0 ( n+1
), x(i) ) = (E(Y(i) ), x(i) ) auf einer Gerade liegen.
Man interpretiert die E(Y(i) ) als die F0 -theoretischen und die x(i) als die beobachteten Quantile, deshalb der Name Quantile-Quantile Plot (Q-Q Plot). Wenn die
Punkte stark von einer Gerade abweichen, ist es ein Hinweis gegen H0 . Man kann
bei Bedarf die Parameter µ und σ mittels linearer Regression oder Maximum Likelihood schätzen.
2.3
Bootstrap
Wir nehmen an, dass die Beobachtungen xi Realisierungen von n unabängigen
gleichverteilten Zufallsvariablen Xi mit Verteilungsfunktion F sind. Wir wollen
10
einen Parameter h(F ) = θ der unbekannten Verteilung F , zum Beispiel median
(h(F ) = F −1 (0.5)), Erwartungswert (h(F ) = E(Xi )), bestimmte Quantile (qα =
h(F ) = F −1 (α)), Varianz (h(F ) = V(Xi )) usw. schätzen, und auch entsprechende Vertrauensintervalle angeben. Auch wenn F bis auf einzelne Parameter (z.B.
Normalverteilung mit Erwartungswert µ und Varianz σ 2 ) bekannt ist, kann die
Verteilung der Schätzung θ̂ sehr kompliziert sein (wie zum Beispiel für das Median
oder die Testgrössen in 2.2, wobei h(F ) =| supx (F (x) − F0 (x)) | und analog für
W und A). Oft braucht man auch weiter Eigenschaften der Schätzung θ̂n , wie zum
Beispiel
√
λn (F ) = PF n(θ̂n − h(F )) ≤ a
λn (F )
=
λn (F )
=
λn (F )
=
θ̂n − θ Verzerrung , Bias
√
V( nθ̂n )
√
n(θ̂n − h(F ))
≤ a mit Streuungsfaktor τ (F )
PF
τ (F )
(2.4)
Wir betrachten Schätzer der Form θ̂n = h(F̂n ) oder λ̂n (F̂n ), also die nur von der empirischen Verteilungsfunktion abhängen (plug-in estimators). Würde man die wahre
Verteilungsfunktion F kennen, könnte man die Verteilungen der Schätzung durch
umfangreiche Simulationen unter F beliebig genau bestimmen. Die geniale und einfache Idee des Resampling Boostrap Verfahrens besteht darin, diese Simulationen
mit F̂n statt mit F durchzuführen (Effron, 1979, 1982). Man zieht also eine sehr
grosse Anzahl B Stichproben der Grösse n mittels der Verteilung F̂n . Eine solche
Bootstrap Stichprobe wird mit (X1∗ , X2∗ , . . . Xn∗ ) bezeichnet, wobei die Xi∗ aus den
Xi gleichwahrscheinlich (d.h. mit Wahrscheinlichkeit n1 ) mit Zurücklegung
gezogen werden. P∗ und E∗ bezeichnen Wahrscheinlichkeit und Erwartungswert
bezüglich dieses Verfahrens, kurz bezüglich der Verteilung F̂n . Der Satz der totalen
Wahrscheinlichkeit rechtfertigt das Verfahren, weil
n
X
n
X
1
= F̂n (x)
n
i=1
i=1
(2.5)
Die Xi∗ haben somit die Verteilungsfunktion F̂n , welche für grosse n gegen F konvergiert. Es ist somit intuitiv plausibel, dass die B Bootstrap Stichproben das Verhalten
von B Stichproben unter F nachahmen, und folglich rein empirisch die Verteilung
der θ̂n und λn (F̂n ) approximieren. Zur Illustration setzen wir θ = h(F ) gleich dem
Median und λn (F ) sei der Bias des Stichprobenmedians θ̂n im hypothetischen Fall
einer Stichprobe mit n = 3. Die Verteilung F sei zudem stetig, sodass Bindungen
Wahrscheinlichkeit null haben.
Die Daten sind (x(1) , x(2) , x(3) ) = (b, c, d) mit b < c < d. Die Stichproben
(X1∗ , X2∗ , X3∗ ) können die 33 = 27 Werte (b, b, b), (b, b, c), (b, c, b), . . . (d, d, d) belegen.
Zum Beispiel hat man
P∗ [Xi∗ ≤ xi ] =
P∗ [Xi∗ ≤ x | Xi∗ = xi ]P∗ (x∗i = xi ) =
∗
∗
∗
P∗ (X(1)
= b, X(2)
= b, X(3)
= c) =
I{xi ≤x}
3
27
gleich der Summe der Wahrscheinlichkeiten der elementaren Ereignisse
(b, b, c), (b, c, b), (c, b, b)
für (X1∗ , X2∗ , X3∗ ). Insgesamt bekommt man die Tabelle
Der wahre Median sei θ = F −1 (0.5) mit Stichprobenschätzwert θ̂n . Der Bias ist
nach Definition
λn (F ) = E(θ̂n ) − θ
11
∗
∗
∗
Tabelle 2.1: Wahrscheinlichkeitsraum für (X(1)
, X(2)
, X(3)
)
Ereignis
P∗
(b, b, b)
(b, b, c)
(b, b, d)
(b, c, c)
(b, c, d)
(b, d, d)
(c, c, c)
(c, c, d)
(c, d, d)
(d, d, d)
1
27
3
27
3
27
3
27
6
27
3
27
1
27
3
27
3
27
1
27
θn∗ sei der Median der hypothetischen Stichprobe X1∗ , X2∗ , X3∗ , . . . Xn∗ von F̂n . Wir
haben nach Definition
λn (F̂n ) = E∗ (θn∗ ) − θ̂n
Man kann zeigen, dass unter gewissen Regularitätsbedingungen und für grosse n,
λn (F̂n ) konsistent λn (F ) schätzt. Wir betrachten hier F̂n als Zufallvariable.
∗
Im Falle n = 3 bekommt man für den Median X(2)
von (X1∗ , X2∗ , X3∗ ) folgende
Beziehung
∗
P∗ (X(2)
= b) =
13
7
7
∗
∗
, P∗ (X(2)
, P∗ (X(2)
= c) =
= d) =
27
27
27
Infolgedessen ist der Schätzer λ3 (F̂3 ) des Bias von θ̂3 = X(2) gemäss der obigen
berechtigten Vermutung
7
13
7
14 X(1) + X(3)
∗
E∗ (X(2)
) − X(2) =
X(1) + X(2) + X(3) − X(2) =
− X(2)
27
27
27
27
2
2n−1
Man kann zeigen, dass es unter P∗ genau n verschiedene Kombinationen gibt,
z.B. 10 für n = 3 und 92′ 378 für n = 10, exponentiell schnell wachsend mit n.
λn (F̂n ) ist somit theoretisch berechenbar, leider aber in den meisten Anwendungen
trotz leistungsfähiger Computer praktisch nicht. Das Bootstrap-Verfahren liefert
hier eine einfache Lösung: Man simuliert B Stichproben gemäss P∗ . Die i-te simulierte Stichprobe liefert die Schätzung θi∗ und der Erwartungswert E∗ (θn∗ ) wird mit
PB
dem empirischen Mittelwert B1 i=1 θi∗ geschätzt.
Wir betrachten ein Beispiel. Zunächst simulieren wir 100 Beobachtungen, welche Chi-Quadrat mit 4 FG verteilt sind. Der wahre Erwartungswert ist 4 und der
wahre Median 3.357. Abbildungen 2.1 und 2.2 stellen Histogramm und Q-Q Plot
der Rohdaten dar.
Der Shapiro-Wilks Test bestätigt, dass die Daten signifikant von einer Normalverteilung abweichen, wie auch direkt vom Histogramm ersichtlich.
Wir simulieren nun B = 1000 Bootstrap Stichproben (jeweils bestehend aus
100 Ziehungen mit Zurücklegung aus den 100 Rohdatenwerten). Für jede Bootstrap
Stichprobe berechnen wir den Medianwert θ̂i∗ , Abbildung 2.3 zeigt das entsprechende
Histogramm.
Die Bestimmung von Vertrauensintervalle beruht auf der Idee, dass die Verteilung der θ̂i∗ − θ̂ die Verteilung von θ̂ − θ nachahmt. Für ein 1 − α Vertrauensintervall
können wir aus diesem Grund schreiben
1 − α = P(L ≤ θ̂ − θ ≤ U ) ≈ P∗ (L ≤ θ̂i∗ − θ̂ ≤ U )
wobei L die untere und U die obere Grenzen sind. Das Vertrauensintervall für θ
ist [θ̂ − U, θ̂ − L], wobei L + θ̂ und U + θ̂ die α2 und 1 − α2 Quantile der empirischen Boostrap-Verteilung sind, welche wir mit k α2 und k1− α2 bezeichnen. Dies
ist gerechtfertigt, weil die exakt Wahrscheinlichkeit unter P∗ mit der entsprechenden relativen Frequenz der B = 1000 Bootstrap Stichproben geschätzt wird. Wir
bekommen letzten Endes folgendes 1 − α Vertrauensintervall für θ
[θ̂ − U, θ̂ − L] = [θ̂ − (k1− α2 − θ̂), θ̂ − (k α2 − θ̂)] = [2θ̂ − k1− α2 , 2θ̂ − k α2 ]
12
(2.6)
10
0
5
Frequency
15
20
Abbildung 2.1: Histogramm von 100 Chi-Quadrat xi mit 4 FG
empirischer Mittelwert= 4.514, empirischer Median= 3.699
0
5
10
15
chi
Abbildung 2.2: Q-Q Plot der 100 xi
10
0
5
Sample Quantiles
15
Normal Q−Q Plot
−2
−1
0
1
2
Theoretical Quantiles
In obigen Beispiel bekommt man [3.187, 4.018] als 95% Vertrauensintervall, was sich
vom naiven [2.5%, 97.5%] Quantil-Range des Histogramms der Bootstrap Medianwerte θ̂i∗ ( siehe Abbildung 2.3) unterscheidet.
Die Berechnungen wurden mit folgenden einfachen R Programm durchgeführt:
set.seed(200)
chi<-rchisq(100,4)
hist(chi,nclass=12, main=" ")
qqnorm(chi);qqline(chi)
mean(chi);median(chi);sd(chi);sd(chi)/sqrt(100)
m<-1000;bootres1<-numeric(m)
for (j in 1:m)
bootres1[j]<-median(sample(chi,replace=T))
mean(bootres1);sd(bootres1);sd(bootres1)/sqrt(1000)
hist(bootres1,main=" ")
qqnorm(bootres1);qqline(bootres1)
quantile(bootres1,probs=c(0.025,0.975))
13
150
0
50
100
Frequency
200
250
300
Abbildung 2.3: Histogramm der Bootstrap Medianwerte θ̂i∗
Mittelwert= 3.756, 2.5%-Quantil = 3.380, 97.5%-Quantile = 4.211
3.0
3.5
4.0
4.5
5.0
bootres1
untere95<-2*median(chi)-quantile(bootres1,probs=c(0.975))
obere95<-2*median(chi)-quantile(bootres1,probs=c(0.025))
In gewissen Fällen (z.B. für Mittelwerte) kennt man die geschätzten Varianzen
θ̂ ∗ −θ̂
σ̂ , bzw. σ̂i∗2 . Es ist dann besser mit der Pivot-Statistik √i ∗2 zu arbeiten, welche
2
σ̂i
die empirischen Quantile q α2 und q1− α2 liefert. Man bekommt dann das (1 − α)Vertrauensintervall
[2θ̂ − q1− α2 σ̂, 2θ̂ − q α2 σ̂]
Die Mitschrift gibt noch weitere Beispiele. Mit Bootstrap-Verfahren kann man
grundsätzlich komplexe Tests durchführen, wie in der parametrischen oder nicht
parametrischen Varianzanalyse. Es ist dabei zu achten, dass eine Verifikation
der P-Werten der Klassischen Analyse mit dem Bootstrap unter der
Nullhypothese erfolgen muss. Das heisst im Falle der Einweg-Varianzanalyse
zum Beispiel, dass man die Gruppen-Mittelwerte (oder Gruppen-Medianwerte) in
jeder Gruppe von den Rohdaten subtrahieren muss, und erst dann das Bootstrap
durchführt. Die Mitschrift behandelt solche Beispiele.
2.4
Robuste Verfahren
Die parametrischen Verfahren setzen in der Regel erstens ein explikatives Modell
(z.B. multiple lineare Regression oder Varianzanalyse), welches von unbekannten
Parameter abhängt und zweitens eine bis auf Parameter bekannte Verteilungsfunktion (z.B. Normalverteilung für die Residuen) voraus. Die Parameter werden meistens mit Maximum Likelihood oder Least Squares (LS) geschätzt. Sie erlauben
komplexe Modellierungen und Inferenz, welche leider auf Abweichungen vom postulierten Modell, auf Ausreisser (outliers) oder sogenannte ’Hebelpunkte’ (leverage
points) so empfindlich reagieren können , dass die Auswertung fragwürdig sein kann.
Die Nicht-parametrischen Verfahren (wir haben nur die üblichsten und einfachsten
behandelt) sind weitgehend frei von Annahmen über die Verteilung der zugrunde
liegenden Beobachtungen, erlauben in der Regel jedoch nicht so komplexe Analysen
wie die parametrischen Verfahren. Die robuste Statistik versucht ein Kompromiss
zwischen beiden Philosophien zu machen, indem die klassischen parametrischen Modelle in einer vollen Umgebung der Grundverteilung (zum Beispiel der Normalverteilung) ihre Gültigkeit behalten (sie sind bis zu einem gewissen Grad Ausreisser- und
14
Hebelpunkt resistent). Die emeritierten ETH Professoren Peter Huber und Frank
Hampel waren massgeblich an der Entwicklung der robusten Statistik beteiligt. Der
Nachteil der robusten Methoden liegt vor allem in der mathematischen und numerischen Komplexität (letztere ist heute mit der Verfügbarkeit von Software, wie z.B.
R, kein grosses Hinderniss mehr).
Zur Illustrierung betrachten wir die einfache lineare Regression: Yi = θ1 + θ2 ξi +
ei , wobei θ1 der Achsenabschnitt ist, und θ2 die Steigung. Die explikative Variable ξi
ist fest (keine Zufallsvariable) und fehlerfrei. Die theoretischen Residuen εi werden in
der klassischen Theorie als normal verteilt N (0, σ 2 ) vorausgesetzt, in der robusten
Statistik wird oft eine ’kontaminierte’ Normalverteilung betrachtet, mit z.B. der
Rx
u2
x
), wobei Φ(x) = √12π −∞ e− 2
Verteilungsfunktion F (x) = (1 − α)Φ( σx ) + αΦ( 3σ
die kumulative Verteilungsfunktion der standard Normalverteilung ist; 0 < α <
0.5 ist der Anteil der ’schlechten’ Beobachtungen (Ausreisser), welche eine dreimal
grössere Standardabweichung haben. Wir haben n Beobachtungen (ξi , yi ). Die LS
Pn 2
Schätzungen (θ̂1 , θ̂2 ) minimieren
i=1 ri , wobei ri = yi − ŷi die Residuen und
ŷi = θ1 + θ2 ξi die Prognosen sind. Eine Verallgemeinerung wäre
n
X
ρ(ri )
i=1
zu minimieren, wobei ρ(x) eine symmetrische Funktion (ρ(−x) = ρ(x)) mit einem
eindeutigen Minimum in x = 0 ist. Die Wahl ρ(x) = x2 liefert die klassischen Kleinste Quadrat Schätzungen. Ableiten nach θ1 und θ2 liefert das 2×2 Gleichungssystem
n
X
ψ(ri )xi = (0, 0)
i=1
d
ρ(x) und xi = (1, ξi ). Die LS Schätzungen sind nicht Ausreisser
wobei ψ(x) = dx
resistent, weil eine einzige schlechte Beobachtung die Quadratsumme ’explodieren’
lässt, die Funktionen ρ(x) und ψ(x) sind nicht beschränkt. Huber’s Vorschlag (1964)
ist
c
)
ψ(x) = min(c, max(x, −c)) = x min(1,
|x|
c ist eine ’tuning’ Konstante. Im eindimensionalen Lokationsproblem (θ2 = 0)sind
der Median und der gestutzte Mittelwert (α-trimmed mean, die α% grösten und
kleinsten Beobachtung werden weggelassen) einfache robuste Alternative zum Ausreisser empfindlichen Mittelwert.
In der einfachen oder multiplen Regression sind nicht nur Aussreisser in der
Zielvariable ein Problem, sondern auch Ausreisser in den explikativen Variablen,
die sogenannten Hebelpunkte (leverage points). Die Mitschrift gibt diesbezüglich
spektakuläre Beispiele. Eine gute Alternative zur LS-Methode ist der Least Median
of Squares (LMS) Schätzer, welcher den Medianwert der ri2 über θ minimiert. Die
Software R bietet u.A. die robuste Prozedur lqs.
Eine graphische Darstellung der Daten ist auf jeden Fall empfehlenswert, was
im zweideimensionalen Fall recht einfach ist. Ausreisser und Hebelpunkte können
Fehler (Tipp oder Messfehler), richtige aber ungewöhliche Beobachtungen sein oder
sogar potentielle bahnbrechende Entdeckungen. Sie müssen wann immer möglich
identifiziert und entsprechend behandelt werden.
15
Herunterladen