Multivariate Analyse: FS 2011 Ergänzungen zur Mitschrift der Vorlesung über Multivariate Datenanalyse von Prof. A. Barbour by PD Dr. Daniel Mandallaz Chair of Land Use Engineering Department of Environmental Sciences, ETH Zurich Übungen: Mathias Weyland Vorwort Diese bündigen Unterlagen sind Ergänzungen und zum Teil Erweiterungen zur Mitschrift der Vorlesung ’Multivariate Datenanalyse’ von Prof. em. Andrew D. Barbour, welche von Mathias Weyland verfasst wurde. Der Titel der Vorlesung ist ein bisschen irreführend, weil andere Themen ebenfalls behandelt werden (u. A. nichtparametrische Verfahren sowie Resampling-Methoden). Es ist bekanntlich schwierig, vielleicht sogar unmöglich, multivariate statistische Verfahren ganz ohne lineare Algebra zu erklären. Aus diesem Grund werden die für die Vorlesung wichtigsten Begriffe der linearen Algebra ebenfalls behandelt (eine kurze Einführung ist ebenfalls in der Mitschrift gegeben). Studierende, welche die multivariaten Verfahren gründlich beherrschen wollen, sollten idealerweise die Vorlesung ’Lineare Algebra’ belegt haben, auch wenn a posteriori. Ferner sei darauf hingewiesen, dass statistische Grundkenntnisse (z.B. Tests von Hypothesen, Vertrauensintervalle, parametrische und nicht-parametrische Varianzanalyse) vorausgesetzt werden, welche im Skript der Vorlesung ’Biologische Datenanalyse’ von D. Mandallaz behandelt werden. Kapitel 1 Nicht-parametrische und Permutationstests 1.1 Der Vorzeichen-Test Wir betrachten n unabhängige binäre Zufallvariablen Xi mit P(Xi = 1) = p und P(Xi = 0) = 1 − p und die Teststatistik T = N X Xi (1.1) i=1 Die Nullhypothese sei H0 : p = p0 und die einseitige Alternative HA : p > p0 . Wir verwerfen die Nullhypothese H0 sobald T ≥ b und wählen b sodass n X n x p (1 − p0 )n−x ≤ α (1.2) P(T ≥ b | H0 ) = x 0 x=b Diese Entscheidungsregel hat somit Niveau (Level) α. Die beobachtete Realisierung von T sei nun t = T obs . Die beobachtete Signifikanzschranke (observed significance level, p-value) ist definiert als n X n x obs p0 (1 − p0 )n−x (1.3) p+ = x obs x=T Für die andere einseitige Alternative HA : p < p0 definieren wir analog pobs − obs T X n x p0 (1 − p0 )n−x = x x=0 (1.4) Die beobachte Signifikanzschranke bezüglich der zweiseitigen Alternative HA : p 6= obs po ist 2 min(pobs + , p− ). Für grosse n kann man die z Statistik T obs − np0 z obs = p np0 (1 − p0 ) verwenden, welche nach dem Zentralgrenzwertsatz unter H0 genähert standard norq p̂(1−p̂) mal verteilt ist, sodass ein (1− α)-Vertrauensintervall mittels p̂ ± z1− α2 konn Pn x i die relative Frequenz der xi = 1 ist (zur struiert werden kann, wobei p̂ = i=1 n α Erinnerung: z1− 2 = 1.96 ≈ 2 für (1 − α) = 0.95. Für kleine n können exakte pobs und Vertrauensintervalle berechnet werden, allerdings nur in diskreten Stufen. Der Vorzeichentest kommt in vielen Anwendungen vor, wie zum Beispiel: 1 1. Median: Yi unabhängig gleichverteilt, mit stetiger Verteilungsfunktion F (x) = P(Yi ≤ x). Die Nullhypothese H0 besagt, dass der Median von F gleich θ0 ist ( d.h. F ist symmetrisch um θ0 ), die einseitige Alternative ist P(Yi >Pθ0 ) > 12 . Man n definiert Xi = 1 falls Yi > θ0 und Xi = 0 sonst, und T = i=1 Xi . Man wendet den Vorzeichentest für T an, mit H0 : p = P(Yi > θ0 ) = 12 = p0 und HA : p > 12 = p0 , analog für HA : p < 21 und den zweiseitigen Test. 2. Paar-Vergleich: Wir haben in diesem Fall m unabhängige Paare (Xi , Yi ), von numerischen oder qualitativen Variable und möchten testen, ob Xi > Yi (Xi ’besser’ als Yi ), bzw. Xi < Yi (bzw. Xi ’schlechter’ als Yi ). Wir definieren p+ = P(Xi > Yi ), p− = P(Xi < Yi ). Dann gilt offensichtlich P(Xi = Yi ) = 1 − (p+ + p− ) (Xi und Yi equivalent). Die ensprechend beobachteten Frequenzen sind m+ = m− = m0 = n X i=1 n X i=1 n X i=1 I{xi >yi } I{xi <yi } I{xi =yi } Man will die Nullhypothese H0 : p+ = p− gegeben m0 testen. In diesem Falle ist m+ binomial verteilt mit p = 12 und m − mo Beobachtungen. Man wendet also den Vorzeichentest mit T = m+ , p0 = 21 und n = m − m0 an. 3. Vergleich von Poisson-Verteilungen: X1 und X2 seien Poisson-verteilt mit Parametern λ1 und λ2 . Die Nullhypothese ist H0 : λ1 = λ2 . Sei ferner S = X1 + X2 , bekanntlich auch Poisson-verteilt mit Parameter λ1 + λ2 . Wir haben P(X2 = x2 | S = n) = P(X2 = x2 und X1 = n − x2 ) P(S = n) = λ2 2 −λ1 λ1 1 x2 ! e x1 ! n 2) e−(λ1 +λ2 ) (λ1 +λ n! x = x e−λ2 λ x 2 λ n−x2 n! 2 1 x2 !(n − x2 )! λ1 + λ2 λ1 + λ2 also binomial verteilt mit Parametern n = x1 + x2 und p = ist p = 12 . λ2 λ1 +λ2 . Unter H0 Beispiel: in 1989 gab es 21 Verkehrstote in der Stadt Zürich, in 1990 nur 19. Ist diese Abnahme signifikant? Solche Daten werden oft erfolgreich mit Poisson Verteilungen modelliert (seltene Ereignisse). Mit n = 40 und x2 = 19 bekommt man als exaktes 95%-Vertrauensintervall [0.315, 0.639] welches p = 0.5 enthält. Die Abnahme ist somit nicht signifikant. Die Approximation mitq 19 1 19 19 ± 1.96 40 tels der Normalverteilung liefert das Intervall 40 40 (1 − 40 ) = [0.32, 0.63]. Eine knapp signifikante Abnahme hätte man mit nur 9 Verkehrstote in 1990. 2 1.2 Kruskal-Wallis und Wilcoxon Tests Der Kruskal-Wallis Test ist eine nicht parametrische Version der klassische EinwegVarianzanalyse mit k Gruppen, der Test von Wilcoxon bezieht sich auf den Spezialfall k = 2. Wir betrachten k unabängige Stichproben mit jeweils ni , i = 1, 2 . . . k Beobachtungen. Die zugörigen Zufallsvariable haben stetige Verteilungsfunktionen F (x − θ1 ), F (x − θ2 ), . . . F (x − θk ), (P(Xi ≤ x) = F (x − θi )), wobei θi ein Lokationsparameter der i-ten Population (z.B. Erwartungswert oder Median). Wir wollen die Nullhypothese H0 : θ 1 = θ 2 = . . . θ k gegen die Alternative testen, dass mindestens zwei Populationen ungleich sind, also θi 6= θj für i 6= j. Die Beobachtungen sind Realisierungen der Zufallsvariablen X11 , . . . X1n1 . . . Xk1 . . . Xknk Wir betrachten die gesamte Stichprobe der n = n1 + n2 + . . . nk Beobachtungen, aufsteigend geordnet: Rij ist der Rang (also eine ganze Zahl zwischen 1 und n, unter der Annahme alle Xij voneinander verschieden sind (keine Bindungen). Unter H0 haben alle n Beobachtungen dieselbe Verteilung F (x − θ), sodass der Vektor der Ränge R = (R11 , . . . R1n1 , . . . Rk1 . . . Rknk ) eine Permutation der Zahlen 1, 2, . . . n ist. Unter H0 sind alle Permutationen gleich wahrscheinlich, mit Wahrscheinlichkeit Pn n(n+1) 1 , mit Mittelwert R̄.. = n+1 i=1 i = n! . Die Summe aller Ränge ist R.. = 2 2 . Der mittlere Rang in der i-ten Population ist ni Ri. 1 X Rij = R̄i. = ni j=1 ni Unter H0 ist der Erwartungswert der Ränge in allen Populationen gleich. Wir haben somit EH0 (R̄i. ) = n+1 2 2 Grosse Werte von (R̄i. − n+1 2 ) weisen daher auf Abweichung von der Nullhypothese hin. Kruskal and Wallis (1952) haben folgende Teststatistik vorgeschlagen: k k X X R2 12 n + 1 2 12 i. = − 3(n + 1) ni R̄i. − K := n(n + 1) i=1 2 n(n + 1) i=1 ni (1.5) Es ist grundsätzlich durch Abzählung möglich, die exakte diskrete Verteilung von K unter H0 zu bestimmen. Für grosse ni kann diese Verteilung mit einer Chi-Quadrat Verteilung mit (k − 1) Freiheitsgraden approximiert werden. Wenn Bindungen vorhanden sind, kann man die Ränge der Beobachtungen mit den gleichen Werten durch den zueordneten mittleren Rang ersetzen. Die exakte Verteilung wird jedoch komplizierter. Software Pakete liefern exakte Tests für nicht allzu grosse n, auch mit Bindungen. Im Falle von nur zwei Populationen (k = 2) kann man den statistisch äquivalenten Wilcoxon Test (1945) anwenden. Sei W1 die Summe der Ränge der ersten Stichprobe und W2 die Summe der Ränge der zweiten Stichprobe, wobei die Ränge in der zusammengesetzten Stichprobe von allen n = n1 + n2 Beobachtunund der mittlere Rang unter gen ermittelt werden. Man hat W1 + W2 = n(n+1) 2 n1 +n2 +1 . Der Erwartungswert von W1 unter H0 ist demnach H0 ist wie vorhin 2 2 +1) EH0 (W1 ) = n1 (n1 +n . Die Varianzen unter H0 von W1 and W2 sind beide gleich 2 3 n1 n2 (n1 +n2 +1) . 12 Für grosse n1 and n2 ist die Teststatistik W1 − z= q n1 (n1 +n2 +1) 2 n1 n2 (n1 +n2 +1) 12 (1.6) approximativ standard normalverteilt. In kleinen Stichproben kann die exakte diskrete Verteilung bestimmt werden. Man kann auch Bindungen wie bei KruskalWallis berücksichtigen. Im Gegensatz zur klassischen Varianzanalyse mit F -Tests wird die Normalverteilung nicht vorausgesetzt. Dies kostet allerdings etwas, nämlich ein Verlust der Macht (Power). Dieser Verlust ist jedoch in grossen Stichproben klein, zum Beispiel ca 5% im Vergleich zum Student t-Test im Falle von zwei Stichproben. 1.3 Wilcoxon Vorzeichen-Test Der Vorzeichentest kann, wie wir gesehen haben, beim Paar-Vergleich angewandt werden, wie auch der Student t-Test für gepaarte Stichproben, wenn die Differenzen normal verteilt sind (zumindest approximativ). Der Vorzeichen-Test ist selbstverständlich mit einem Informationsverlust verbunden, weil die Grösse der Differenzen nicht berücksichtigt wird. Das sogenannte Wilcoxon Vorzeichen-Test (Wilcoxon signed-rank test) ist ein Kompromiss zwischen den beiden Tests. Wir betrachten n unabhängige Zufallsvariablen Zi , mit stetiger Verteilung F , symmetrisch um θ0 . Ohne Beschränkung der Allgemeinheit setzen wir θ0 = 0 voraus (ansonsten betrachtet man die Zi − θ0 ). Wir definieren die Funktion ψ(x) gemäss ψ(x)i = 1 falls x ≥ 0 sonst ψ(x) = 0. Sei ψi = ψ(Xi ). Nach Voraussetzung ist P(ψ = 1) = P(ψi = 0) = 12 . Man kann zeigen, dass wegen der Symmetrie von F die Zufallvariablen | Zi | und ψi stochastisch unabhängig sind. Ri+ sei der Rang von | Zi | unter | Z1 |, | Z2 |, . . . | Zn |. Der ’signed rank’ (Rang mit Vorzeichen) ist nach Definition ψi Ri+ . Es gelten für ganze Zahlen r und s zwischen 1 und n P(Ri+ = r) = P(Ri+ = r, Rj+ = s) = E(Ri+ ) = V(Ri+ ) = COV(Ri+ , Rj+ ) = 1 n 1 n(n − 1) n+1 2 (n + 1)(n − 1) 12 (n + 1) − 12 Das Wilcoxon Vorzeichen-Test ist W + = n X ψi Ri+ (1.7) i=1 Man zeigt folgende Resultate EH0 (W + ) = VH0 (W + ) = n(n + 1) 4 n(n + 1)(2n + 1) 24 4 (1.8) Für grosse n kann man die Normalverteilung als Approximation unter H0 verwenden, d.h. die Zufallvariable W + − E H0 W + Z= p VH0 (W + ) (1.9) ist unter der Nullhypothese genähert standard normal verteilt. Für kleine n kann man die exakte diskrete Verteilung von W + berechnen. Man muss dazu alle 2n Möglichkeiten der Vorzeichen {+, −} untersuchen. Im Falle von n = 3 bekommt man 23 = 8 Teilmengen von {1, 2, 3} = {R1 , R2 , R3 } mit positiven Vorzeichen. Tabelle 1.1 fasst die Resultate zusammen. Tabelle 1.1: Wilcoxon Vorzeichen-Test W + Teilmenge von {1, 2, 3} Wert von W + ∅ {1} {2} {3} {1, 2} {1, 3} {2, 3} {1, 2, 3} 0 1 2 3 3 4 5 6 Man erhält somit folgen Verteilung unter H0 P(W + = 0) = P(W + = 1) = P(W + = 2) = 1 8 P(W + = 4) = P(W + = 5) = P(W + = 6) = 1 8 1 4 Man verifiziert leicht die Formeln in (1.8) für Erwartungswert und Varianz. Die exakte Behandlung von Bindungen ist mühsam. Man kann wie üblich die mittleren Ränge verwenden oder einen kleinen zufälligen Fehler addieren; die obigen Formeln gelten dann nur approximativ. In kleinen Stichproben liefern die Sofware Pakete die exakten Tests. P(W + = 3) = 1.4 Der Test von Friedman Dieser Test ist die nicht-parametrische Version der Zweiweg-Varianzanalyse ohne Wiederholungen. Wir betrachen k Behandlungen, welche in n ’homogene’ Blöcke angewandt werden; zum Beispiel k Düngemittel jeweils in n Versuchsflächen, welche alle in k gleichgrosse Teilflächen unterteilt sind. Die Zielvariable könnte zum Beispiel 3 der Ertrag von Weizen in 10hakg sein. Die Beobachtungen der Zielvariable seien die Realisierungen der unabängigen Zufallvariablen Yij , i = 1, 2 . . . k mit j = 1, 2 . . . n. Die stetige Verteilung von Yij sei F (x − τi − βj ). Die Nullhypothese besagt, dass kein Behandlungseffekt vorliegt, d.h. H0 : τ1 = τ2 = . . . τk = τ . Unter H0 ist somit Yij , i = 1, 2 . . . k gemäss F (x − τ − βj ), j = 1, 2 . . . n, verteilt. Die Alternative Hypothese ist HA : τi 6= τj für mindestens ein Paar i 6= j. 5 Für festes j ∈ {1, 2, . . . n} sei nun Rij der Rang von Yij unter der Y1j , . . . Ykj ; Rij ist somit der Rang der Yij unter den k Beobachtungen im selben j-ten Block. Der Rangvektor R = (Rij , . . . Rkj ) ist somit unter H0 eine Permutation der ganzen Zahlen1, . . . k. Seien n 1 1X Rij = Ri. R̄i. = n j=1 n der mittlere Rang (innerhalb der Blöcke) der i-ten Behandlungen. Unter H0 haben wir n n 1X (k + 1) 1 X 1 k(k + 1) EH0 (R̄i. ) = = EH0 (Rij ) = n j=1 n j=1 k 2 2 2 Grosse Werte von (R̄i. − (k+1) 2 ) weisen auf Abweichung von der Nullhypothese von keinem Behandlungseffekt hin. Dies führt zur sogenannten Friedman Test-Statistik (1937) k Q= k X 12 (k + 1) 2 12n X = R2 − 3n(k + 1) R̄i. − k(k + 1) i=1 2 nk(k + 1) i=1 i. Für kleine n kann wiederum die exakte Verteilung von Q unter der Nullhypothese H0 berechnet werden. Für grosse n (k bleibt in der Regel klein) kann man zeigen, dass die Verteilung von Q unter H0 approximativ Chi-Quadrat mit (k − 1) Freiheitsgraden is. Die Approximation funktioniert für kn ≥ 30 sehr gut. Bei Bindungen innerhalb der Blöcke kann man die üblichen Anpassungen machen. Für kleine k und n liefern die Software Pakete exakte Tests, auch mit Bindungen. Eine ausgezeichnete Referenz für nicht parametrische Statistik ist und bleibt: E.L. Lehmann (1975). Nonparametrics: statistical methods based on ranks, HoldenDay, Inc. (McGraw-Hill International Book Company). 1.5 Permutationstests Die nicht-parametrischen Tests (wir haben nur eine kleine Anzahl der wichtigsten gesehen) befreien uns teilweise von der einschränkenden Annahme der Normalverteilung. Eine grundlegende Idee der Statistik ist die Randomisierung (Fisher), welche uns von allen Verteilungsannahmen befreit, falls die Zuordnung der statistischen Einheiten zu den Behandlungen zufällig erfolgt. Wir betrachten zum Beispiel n Patienten, identifiziert durch die Indizes i = 1, 2 . . . n, mit Werten yi der Zielvariable. Wir erzeugen eine zufällige Permutation der ganzen Zahlen 1, 2, 3, . . . n. Die ersten n1 Patienten bekommen Behandlung ’A’ und die übrigen n2 (n1 + n2 = n) bekommen Behandlung ’B’. Idealerweise erfolgt eine solche Studie ’double blind’, d.h. weder der Arzt noch der Patient weiss, welche Behandlung verabreicht wurde (wohl aber der Statistiker!). Wenn die Nullhypothese stimmt, sind die Werte der Beobachtungen von den Behandlungen ’unabängig’, sodass die meisten Permutationen auf keine Differenzen zwischen Behandlungen hinweisen. Es ist jedoch möglich, dass eine Permutation die Daten so umordnet, dass ausgerechnet alle n1 kleinsten Beobachtungen gerade die n1 ersten Beobachtungen sind. Wir betrachten folgendes Beispiel. Die erste Gruppe mit 15 Beobachtungen wurden mit Yi = 10+χ2(3) simuliert und die zweite Gruppe von ebenfalls 15 Beobachtungen gemäss Xi = 12 + χ2(2) . Die Nullhypothese setzt gleiche Erwartungswerte, was hier falsch ist. Die Daten sind offensichtlich nicht normal verteilt, wie QQ-Plots und 6 Shapiro-Wilks Test bestätigen. Als Teststatistik nehmen wir die absolute Differenz | Ȳ − X̄ |, welche gleich 1.033 ist (die wahre absolute Differenz beträgt −1). Wir 2 )! ′ ′ haben in diesem Fall (nn11+n !n2 ! = 155 117 520 mögliche Permutationen. Von dieser riesigen Anzahl werden 5000 zufällig ausgewählt und für jede permutierte Stichprobe wird | Ȳ − X̄ |= ∆k , k = 1, 2 . . . 5000 berechnet. Der P -Wert des klassischen F -Tests ist in diesem Fall 0.077, was ziemlich genau dem empirischen 92.5% Quantil der empirischen Verteilung der ∆k entspricht, siehe Abbildung 1.1. Die Berechnungen wurden mit folgendem R Programm durchgeführt: mc.group1<-c(rep(1,15));mc.group2<-c(rep(-1,15)); mc.group=c(mc.group1,mc.group2) mc.group set.seed(100) data1<-round(10+c(rchisq(15,3)),digits=2) data2<-round(12+c(rchisq(15,2)),digits=2) data1 data2 hist(data1); hist(data2) mean(data1);mean(data2) deltamean=mean(data1)-mean(data2);deltamean absdeltamean=abs(deltamean);absdeltamean sd(data1)/sqrt(15);sd(data2)/sqrt(15) mc.data<-c(data1,data2) mc.data absdeltameancheck<-abs(sum(mc.group*mc.data)/15) absdeltameancheck aux.group<-factor(mc.group); anova(lm(mc.data~mc.group)) diff<-matrix(0:0,nrow=5000, ncol=1) for(i in 1:5000) { per<-c(sample(mc.group,30)); aux=per*mc.data diff[i,1]=abs(sum(aux)/15) } hist(diff, xlab="Absolute Differenz der Mittelwerte",main=" ") abline(v=absdeltamean) quantile(diff,c(0.925,0.95,0.975,0.99)) Man merke sich, dass der Befehl per<-c(sample(mc.group,30)) die zufälligen Permutationen der ursprünglichen 30 Werte erzeugt, allerdings sind diese 5000 Permutationen der Start-Sequenz (mit 15 ′ 1′ am Anfang gefolgt von 15 ′ − 1′ ) nicht alle verschieden sind (man zieht aus der Menge der Menge aller n! Permutationen mit Zurücklegung), was jedoch für die empirische Bestimmung der Quantile irrelevant ist. Oft wird direkt der P -Wert der klassischen Auswertung als Test-Statistik genommen. Die Mitschrift zeigt, wie man die allgemeine EinwegVarianzanalyse mit k > 2 Gruppen mittels Permutationstests auswerten kann. Man kann auch komplexere randomisierte Designs (wie Lateinische Quadrate) analog auswerten. R bietet hierfür spezielle Pakete. 7 400 300 0 100 200 Frequency 500 600 700 Abbildung 1.1: Histogramm von 5000 ∆k empirischer 92.5% Quantil: 1.029, empirischer 95%-Quantil= 1.111 0.0 0.5 1.0 1.5 2.0 Absolute Differenz der Mittelwerte Die Permutationstests sind sogenannte bedingte Tests (d.h. gegeben die Daten) und immer gültig falls das Randomisierung-Prinzip verwendet wurde. Streng genommen sind diese Tests allerdings nur für den untersuchten Datensatz gütig. Es gibt theoretische und empirische Evidenz dafür, dass die P -Werte der klassischen ANOVA-Tests den P Werten der Permutationstests ähnlich sind. In diesem Sinne ist die Einhaltung der Randomisierung vor der Auswertung wichtig, auch wenn diese mit klassischen Verfahren erfolgt. Die Randomisierung ist auch unter einem anderen Gesichtspunkt wichtig, nämlich um den potentiellen gefährlichen Einfluss von Variablen zu ’dämpfen’, welche im Modell nicht berücksichtigt wurden. 8 Kapitel 2 Resampling und Robuste Verfahren 2.1 Die empirische Verteilungsfunktion Die Verteilungsfunktion F (x) einer Zufallsvariable X ist definiert als F (x) = P(X ≤ x) Dies ist eine monoton wachsende Funktion von x. Für eine diskrete Zufallsvariable mit möglichen Werten wk (k = 1, 2, 3 . . .) ist F (x) eine stückweise konstante Treppenfunktion mit Sprungstellen in den wk . Wir betrachten nun n unabhängige gleichtverteilte Zufallsvariablen Xi mit Verteilungsfunktion F (x). xi ist die Realisierung von Xi . Die empirische Verteilungsfunktion F̂n (x) ist definiert als n F̂n (x) = 1X I{xi ≤x} (x) n i=1 (2.1) wobei IA (x) = 1 falls x ∈ A sonst IA (x) = 0. In Worten: F̂n (x) ist die relative Frequenz der n Beobachtungen xi , welche kleiner oder gleich x sind. Dies ist eine stückweise konstante Treppenfunktion mit Sprüngen in den Beobachtungen xi . Mit der Zuordnung xi → Xi können wir F̂n (x) auch als eine Zufallsvariable betrachten, mit Erwartungswert und Varianz E(F̂n (x)) = F (x) , V(F̂n (x)) = F (x)(1 − F (x)) n Nach dem Gesetz der grossen Zahlen und dem Zentralen Grenzwertsatz ist somit √ n(F̂n (x) − F (x)) asymptotisch, d.h. für grosse n, normalverteilt mit Erwartungswert 0 und Varianz F (x)(1 − F (x)). Die empirische Verteilungsfunktion ist somit eine konsistente Schätzung der wahren unbekannten kumulativen Verteilungsfunktion F (x). Sie fasst die ganze verfügbare Information zusammen, welche die Beobachtungen xi enthalten. Es ist daher intuitiv, dass die Nullhypothese H0 : F (x) = F0 (x) (d.h. die Beobachtungen sind unabhängig gemäss der Verteilung F0 (x) verteilt) mittels der empirischen Verteilungsfunktion F̂n (x) geprüft werden kann, zum Beispiel 9 mit den Statistiken Dn = Wn = sup | F̂n (x) − F0 (x) | x Z ∞ 2 F̂n (x) − F0 (x) f0 (x)dx n −∞ An = n Z −∞ ∞ 2 F̂n (x) − F0 (x) f0 (x)dx F0 (x)(1 − F0 (x)) (2.3) d F0 (x) die Wahrscheinlichkeitsdichte ist. supx steht für ’Suprewobei f0 (x) = dx mum’, also die kleinste obere Schranke ( Es ist auf abgeschossene Intervalle der grösste Wert). Dn ist die Kolmogorov -Smirnov Statistik, Wn die Cramer-von-Mieses Statistik und An die Anderson-Darling Statistik, welche die Abweichungen zwischen F̂n (x) und F0 (x) über alle x subsummieren. Alle drei Tests haben die bemerkenswerte Eigenschaft, dass die Verteilung unter H0 : F (x) = F0 (x) unabhängig von F0 ist. Für Dn zum Beispiel gilt asymptotisch (d.h. für gross n) ∞ X √ 2 2 P( nDn ≤ z) = 1 − 2 (−1)j−1 e−2j z j=1 Diese Tests sind universell gültig und in speziellen Fällen daher nicht optimal. Wenn wir zum Beispiel für F0 die Normalverteilung wählen, ist der sogenannte ShapiroWilks Test besser. In den Anwendungen sind graphische Verfahren einfacher und deswegen sehr beliebt, zum Beispiel die sogenannten Quantile-Quantile (Q-Q) Plots, welche im nächsten Abschnitt kurz erläutert werden. 2.2 Q-Q Plots Wir betrachten die Verteilungsfunktion F0 (x) und möchten prüfen, ob die unabhängige Beobachtungen xi , i = 1, 2 . . . n mit F0 bis auf Lokation und Streuung verträglich sind. Wir setzen somit voraus, dass P(Xi ≤ x) = F0 ( x−µ σ ), oder equivalent dazu, dass die nicht beobachtbaren Zufallsvariablen Yi = Xiσ−µ die Verteilungsfunktion P(Yi ≤ y) = F0 (y) haben. Seien nun Y(1) < Y(2) < . . . Y(n) die geordneteten Werte der Yi und entsprechend die X(1) < X(2) < . . . X(n) . Wegen Xi = µ + σYi gilt auch X(i) = µ + σY(i) . Bekanntlich ist die Zufallvariable Ui = F0 (Yi ) uniform auf dem Interval [0, 1] verteilt. Intuitiv ist es klar (und kann i und daher E(Y(i) ) = E(F0−1 (U(i) ) ≈ auch bewiesen werden), dass E(U(i) ) ≈ n+1 −1 −1 i F0 (E(U(i) )) ≈ F0 n+1 . Ferner gilt E(X(i) ) = µ + σY(i) . Unter H0 sollten im −1 i Mittel die Punkte (F0 ( n+1 ), x(i) ) = (E(Y(i) ), x(i) ) auf einer Gerade liegen. Man interpretiert die E(Y(i) ) als die F0 -theoretischen und die x(i) als die beobachteten Quantile, deshalb der Name Quantile-Quantile Plot (Q-Q Plot). Wenn die Punkte stark von einer Gerade abweichen, ist es ein Hinweis gegen H0 . Man kann bei Bedarf die Parameter µ und σ mittels linearer Regression oder Maximum Likelihood schätzen. 2.3 Bootstrap Wir nehmen an, dass die Beobachtungen xi Realisierungen von n unabängigen gleichverteilten Zufallsvariablen Xi mit Verteilungsfunktion F sind. Wir wollen 10 einen Parameter h(F ) = θ der unbekannten Verteilung F , zum Beispiel median (h(F ) = F −1 (0.5)), Erwartungswert (h(F ) = E(Xi )), bestimmte Quantile (qα = h(F ) = F −1 (α)), Varianz (h(F ) = V(Xi )) usw. schätzen, und auch entsprechende Vertrauensintervalle angeben. Auch wenn F bis auf einzelne Parameter (z.B. Normalverteilung mit Erwartungswert µ und Varianz σ 2 ) bekannt ist, kann die Verteilung der Schätzung θ̂ sehr kompliziert sein (wie zum Beispiel für das Median oder die Testgrössen in 2.2, wobei h(F ) =| supx (F (x) − F0 (x)) | und analog für W und A). Oft braucht man auch weiter Eigenschaften der Schätzung θ̂n , wie zum Beispiel √ λn (F ) = PF n(θ̂n − h(F )) ≤ a λn (F ) = λn (F ) = λn (F ) = θ̂n − θ Verzerrung , Bias √ V( nθ̂n ) √ n(θ̂n − h(F )) ≤ a mit Streuungsfaktor τ (F ) PF τ (F ) (2.4) Wir betrachten Schätzer der Form θ̂n = h(F̂n ) oder λ̂n (F̂n ), also die nur von der empirischen Verteilungsfunktion abhängen (plug-in estimators). Würde man die wahre Verteilungsfunktion F kennen, könnte man die Verteilungen der Schätzung durch umfangreiche Simulationen unter F beliebig genau bestimmen. Die geniale und einfache Idee des Resampling Boostrap Verfahrens besteht darin, diese Simulationen mit F̂n statt mit F durchzuführen (Effron, 1979, 1982). Man zieht also eine sehr grosse Anzahl B Stichproben der Grösse n mittels der Verteilung F̂n . Eine solche Bootstrap Stichprobe wird mit (X1∗ , X2∗ , . . . Xn∗ ) bezeichnet, wobei die Xi∗ aus den Xi gleichwahrscheinlich (d.h. mit Wahrscheinlichkeit n1 ) mit Zurücklegung gezogen werden. P∗ und E∗ bezeichnen Wahrscheinlichkeit und Erwartungswert bezüglich dieses Verfahrens, kurz bezüglich der Verteilung F̂n . Der Satz der totalen Wahrscheinlichkeit rechtfertigt das Verfahren, weil n X n X 1 = F̂n (x) n i=1 i=1 (2.5) Die Xi∗ haben somit die Verteilungsfunktion F̂n , welche für grosse n gegen F konvergiert. Es ist somit intuitiv plausibel, dass die B Bootstrap Stichproben das Verhalten von B Stichproben unter F nachahmen, und folglich rein empirisch die Verteilung der θ̂n und λn (F̂n ) approximieren. Zur Illustration setzen wir θ = h(F ) gleich dem Median und λn (F ) sei der Bias des Stichprobenmedians θ̂n im hypothetischen Fall einer Stichprobe mit n = 3. Die Verteilung F sei zudem stetig, sodass Bindungen Wahrscheinlichkeit null haben. Die Daten sind (x(1) , x(2) , x(3) ) = (b, c, d) mit b < c < d. Die Stichproben (X1∗ , X2∗ , X3∗ ) können die 33 = 27 Werte (b, b, b), (b, b, c), (b, c, b), . . . (d, d, d) belegen. Zum Beispiel hat man P∗ [Xi∗ ≤ xi ] = P∗ [Xi∗ ≤ x | Xi∗ = xi ]P∗ (x∗i = xi ) = ∗ ∗ ∗ P∗ (X(1) = b, X(2) = b, X(3) = c) = I{xi ≤x} 3 27 gleich der Summe der Wahrscheinlichkeiten der elementaren Ereignisse (b, b, c), (b, c, b), (c, b, b) für (X1∗ , X2∗ , X3∗ ). Insgesamt bekommt man die Tabelle Der wahre Median sei θ = F −1 (0.5) mit Stichprobenschätzwert θ̂n . Der Bias ist nach Definition λn (F ) = E(θ̂n ) − θ 11 ∗ ∗ ∗ Tabelle 2.1: Wahrscheinlichkeitsraum für (X(1) , X(2) , X(3) ) Ereignis P∗ (b, b, b) (b, b, c) (b, b, d) (b, c, c) (b, c, d) (b, d, d) (c, c, c) (c, c, d) (c, d, d) (d, d, d) 1 27 3 27 3 27 3 27 6 27 3 27 1 27 3 27 3 27 1 27 θn∗ sei der Median der hypothetischen Stichprobe X1∗ , X2∗ , X3∗ , . . . Xn∗ von F̂n . Wir haben nach Definition λn (F̂n ) = E∗ (θn∗ ) − θ̂n Man kann zeigen, dass unter gewissen Regularitätsbedingungen und für grosse n, λn (F̂n ) konsistent λn (F ) schätzt. Wir betrachten hier F̂n als Zufallvariable. ∗ Im Falle n = 3 bekommt man für den Median X(2) von (X1∗ , X2∗ , X3∗ ) folgende Beziehung ∗ P∗ (X(2) = b) = 13 7 7 ∗ ∗ , P∗ (X(2) , P∗ (X(2) = c) = = d) = 27 27 27 Infolgedessen ist der Schätzer λ3 (F̂3 ) des Bias von θ̂3 = X(2) gemäss der obigen berechtigten Vermutung 7 13 7 14 X(1) + X(3) ∗ E∗ (X(2) ) − X(2) = X(1) + X(2) + X(3) − X(2) = − X(2) 27 27 27 27 2 2n−1 Man kann zeigen, dass es unter P∗ genau n verschiedene Kombinationen gibt, z.B. 10 für n = 3 und 92′ 378 für n = 10, exponentiell schnell wachsend mit n. λn (F̂n ) ist somit theoretisch berechenbar, leider aber in den meisten Anwendungen trotz leistungsfähiger Computer praktisch nicht. Das Bootstrap-Verfahren liefert hier eine einfache Lösung: Man simuliert B Stichproben gemäss P∗ . Die i-te simulierte Stichprobe liefert die Schätzung θi∗ und der Erwartungswert E∗ (θn∗ ) wird mit PB dem empirischen Mittelwert B1 i=1 θi∗ geschätzt. Wir betrachten ein Beispiel. Zunächst simulieren wir 100 Beobachtungen, welche Chi-Quadrat mit 4 FG verteilt sind. Der wahre Erwartungswert ist 4 und der wahre Median 3.357. Abbildungen 2.1 und 2.2 stellen Histogramm und Q-Q Plot der Rohdaten dar. Der Shapiro-Wilks Test bestätigt, dass die Daten signifikant von einer Normalverteilung abweichen, wie auch direkt vom Histogramm ersichtlich. Wir simulieren nun B = 1000 Bootstrap Stichproben (jeweils bestehend aus 100 Ziehungen mit Zurücklegung aus den 100 Rohdatenwerten). Für jede Bootstrap Stichprobe berechnen wir den Medianwert θ̂i∗ , Abbildung 2.3 zeigt das entsprechende Histogramm. Die Bestimmung von Vertrauensintervalle beruht auf der Idee, dass die Verteilung der θ̂i∗ − θ̂ die Verteilung von θ̂ − θ nachahmt. Für ein 1 − α Vertrauensintervall können wir aus diesem Grund schreiben 1 − α = P(L ≤ θ̂ − θ ≤ U ) ≈ P∗ (L ≤ θ̂i∗ − θ̂ ≤ U ) wobei L die untere und U die obere Grenzen sind. Das Vertrauensintervall für θ ist [θ̂ − U, θ̂ − L], wobei L + θ̂ und U + θ̂ die α2 und 1 − α2 Quantile der empirischen Boostrap-Verteilung sind, welche wir mit k α2 und k1− α2 bezeichnen. Dies ist gerechtfertigt, weil die exakt Wahrscheinlichkeit unter P∗ mit der entsprechenden relativen Frequenz der B = 1000 Bootstrap Stichproben geschätzt wird. Wir bekommen letzten Endes folgendes 1 − α Vertrauensintervall für θ [θ̂ − U, θ̂ − L] = [θ̂ − (k1− α2 − θ̂), θ̂ − (k α2 − θ̂)] = [2θ̂ − k1− α2 , 2θ̂ − k α2 ] 12 (2.6) 10 0 5 Frequency 15 20 Abbildung 2.1: Histogramm von 100 Chi-Quadrat xi mit 4 FG empirischer Mittelwert= 4.514, empirischer Median= 3.699 0 5 10 15 chi Abbildung 2.2: Q-Q Plot der 100 xi 10 0 5 Sample Quantiles 15 Normal Q−Q Plot −2 −1 0 1 2 Theoretical Quantiles In obigen Beispiel bekommt man [3.187, 4.018] als 95% Vertrauensintervall, was sich vom naiven [2.5%, 97.5%] Quantil-Range des Histogramms der Bootstrap Medianwerte θ̂i∗ ( siehe Abbildung 2.3) unterscheidet. Die Berechnungen wurden mit folgenden einfachen R Programm durchgeführt: set.seed(200) chi<-rchisq(100,4) hist(chi,nclass=12, main=" ") qqnorm(chi);qqline(chi) mean(chi);median(chi);sd(chi);sd(chi)/sqrt(100) m<-1000;bootres1<-numeric(m) for (j in 1:m) bootres1[j]<-median(sample(chi,replace=T)) mean(bootres1);sd(bootres1);sd(bootres1)/sqrt(1000) hist(bootres1,main=" ") qqnorm(bootres1);qqline(bootres1) quantile(bootres1,probs=c(0.025,0.975)) 13 150 0 50 100 Frequency 200 250 300 Abbildung 2.3: Histogramm der Bootstrap Medianwerte θ̂i∗ Mittelwert= 3.756, 2.5%-Quantil = 3.380, 97.5%-Quantile = 4.211 3.0 3.5 4.0 4.5 5.0 bootres1 untere95<-2*median(chi)-quantile(bootres1,probs=c(0.975)) obere95<-2*median(chi)-quantile(bootres1,probs=c(0.025)) In gewissen Fällen (z.B. für Mittelwerte) kennt man die geschätzten Varianzen θ̂ ∗ −θ̂ σ̂ , bzw. σ̂i∗2 . Es ist dann besser mit der Pivot-Statistik √i ∗2 zu arbeiten, welche 2 σ̂i die empirischen Quantile q α2 und q1− α2 liefert. Man bekommt dann das (1 − α)Vertrauensintervall [2θ̂ − q1− α2 σ̂, 2θ̂ − q α2 σ̂] Die Mitschrift gibt noch weitere Beispiele. Mit Bootstrap-Verfahren kann man grundsätzlich komplexe Tests durchführen, wie in der parametrischen oder nicht parametrischen Varianzanalyse. Es ist dabei zu achten, dass eine Verifikation der P-Werten der Klassischen Analyse mit dem Bootstrap unter der Nullhypothese erfolgen muss. Das heisst im Falle der Einweg-Varianzanalyse zum Beispiel, dass man die Gruppen-Mittelwerte (oder Gruppen-Medianwerte) in jeder Gruppe von den Rohdaten subtrahieren muss, und erst dann das Bootstrap durchführt. Die Mitschrift behandelt solche Beispiele. 2.4 Robuste Verfahren Die parametrischen Verfahren setzen in der Regel erstens ein explikatives Modell (z.B. multiple lineare Regression oder Varianzanalyse), welches von unbekannten Parameter abhängt und zweitens eine bis auf Parameter bekannte Verteilungsfunktion (z.B. Normalverteilung für die Residuen) voraus. Die Parameter werden meistens mit Maximum Likelihood oder Least Squares (LS) geschätzt. Sie erlauben komplexe Modellierungen und Inferenz, welche leider auf Abweichungen vom postulierten Modell, auf Ausreisser (outliers) oder sogenannte ’Hebelpunkte’ (leverage points) so empfindlich reagieren können , dass die Auswertung fragwürdig sein kann. Die Nicht-parametrischen Verfahren (wir haben nur die üblichsten und einfachsten behandelt) sind weitgehend frei von Annahmen über die Verteilung der zugrunde liegenden Beobachtungen, erlauben in der Regel jedoch nicht so komplexe Analysen wie die parametrischen Verfahren. Die robuste Statistik versucht ein Kompromiss zwischen beiden Philosophien zu machen, indem die klassischen parametrischen Modelle in einer vollen Umgebung der Grundverteilung (zum Beispiel der Normalverteilung) ihre Gültigkeit behalten (sie sind bis zu einem gewissen Grad Ausreisser- und 14 Hebelpunkt resistent). Die emeritierten ETH Professoren Peter Huber und Frank Hampel waren massgeblich an der Entwicklung der robusten Statistik beteiligt. Der Nachteil der robusten Methoden liegt vor allem in der mathematischen und numerischen Komplexität (letztere ist heute mit der Verfügbarkeit von Software, wie z.B. R, kein grosses Hinderniss mehr). Zur Illustrierung betrachten wir die einfache lineare Regression: Yi = θ1 + θ2 ξi + ei , wobei θ1 der Achsenabschnitt ist, und θ2 die Steigung. Die explikative Variable ξi ist fest (keine Zufallsvariable) und fehlerfrei. Die theoretischen Residuen εi werden in der klassischen Theorie als normal verteilt N (0, σ 2 ) vorausgesetzt, in der robusten Statistik wird oft eine ’kontaminierte’ Normalverteilung betrachtet, mit z.B. der Rx u2 x ), wobei Φ(x) = √12π −∞ e− 2 Verteilungsfunktion F (x) = (1 − α)Φ( σx ) + αΦ( 3σ die kumulative Verteilungsfunktion der standard Normalverteilung ist; 0 < α < 0.5 ist der Anteil der ’schlechten’ Beobachtungen (Ausreisser), welche eine dreimal grössere Standardabweichung haben. Wir haben n Beobachtungen (ξi , yi ). Die LS Pn 2 Schätzungen (θ̂1 , θ̂2 ) minimieren i=1 ri , wobei ri = yi − ŷi die Residuen und ŷi = θ1 + θ2 ξi die Prognosen sind. Eine Verallgemeinerung wäre n X ρ(ri ) i=1 zu minimieren, wobei ρ(x) eine symmetrische Funktion (ρ(−x) = ρ(x)) mit einem eindeutigen Minimum in x = 0 ist. Die Wahl ρ(x) = x2 liefert die klassischen Kleinste Quadrat Schätzungen. Ableiten nach θ1 und θ2 liefert das 2×2 Gleichungssystem n X ψ(ri )xi = (0, 0) i=1 d ρ(x) und xi = (1, ξi ). Die LS Schätzungen sind nicht Ausreisser wobei ψ(x) = dx resistent, weil eine einzige schlechte Beobachtung die Quadratsumme ’explodieren’ lässt, die Funktionen ρ(x) und ψ(x) sind nicht beschränkt. Huber’s Vorschlag (1964) ist c ) ψ(x) = min(c, max(x, −c)) = x min(1, |x| c ist eine ’tuning’ Konstante. Im eindimensionalen Lokationsproblem (θ2 = 0)sind der Median und der gestutzte Mittelwert (α-trimmed mean, die α% grösten und kleinsten Beobachtung werden weggelassen) einfache robuste Alternative zum Ausreisser empfindlichen Mittelwert. In der einfachen oder multiplen Regression sind nicht nur Aussreisser in der Zielvariable ein Problem, sondern auch Ausreisser in den explikativen Variablen, die sogenannten Hebelpunkte (leverage points). Die Mitschrift gibt diesbezüglich spektakuläre Beispiele. Eine gute Alternative zur LS-Methode ist der Least Median of Squares (LMS) Schätzer, welcher den Medianwert der ri2 über θ minimiert. Die Software R bietet u.A. die robuste Prozedur lqs. Eine graphische Darstellung der Daten ist auf jeden Fall empfehlenswert, was im zweideimensionalen Fall recht einfach ist. Ausreisser und Hebelpunkte können Fehler (Tipp oder Messfehler), richtige aber ungewöhliche Beobachtungen sein oder sogar potentielle bahnbrechende Entdeckungen. Sie müssen wann immer möglich identifiziert und entsprechend behandelt werden. 15