Kapitel 7 Verfahren, die auf Normalverteilung basieren 7.1 Einleitung In diesem Kapitel betrachten wir eine Reihe von statistischen Verfahren, die auf der Theorie der multivariaten Normalverteilung und den aus ihr im vorigen Kapitel abgeleiteten Verteilungen beruhen. Diese Verfahren hängen ab von den Mittelwerten, Varianzen und Kovarianzen in der Stichprobe und sind daher auch an sich schon interessant ohne die Verteilungsannahmen. Man sollte jedoch in Erinnerung behalten, dass die Verfahren, z.B. Hypothesentests nur dann exakt sind, wenn die Verteilungsannahmen erfüllt sind. 7.2 Einstichprobenverfahren Nehmen wir an, dass die n × m-Datenmatrix X eine zufällige Stichprobe mit n unabhängigen Realisierungen eines Nm (µ, Σ)-verteilten zufälligen Vektors X enthält. Wir wollen die Nullhypothese überprüfen, dass µ = µ0 gilt. Im entsprechenden univariaten Fall wird der t-Test verwendet: x̄ − µ0 t= q s2 /n Im multivariaten Fall bilden wir zunächst eine Linearkombination, um die multivariaten Daten in univariate Daten umzuwandeln. Bezeichnen wir die Linearkombination mit Z = at X, wobei a ein Vektor von Konstanten ist, die noch in einer optimalen Weise zu bestimmen sind. Dann gilt Z ∼ N1 (at µ, at Σa) und Xa (beachten Sie, dass X die Datenmatrix ist) ist ein Vektor, der eine zufällige Stichprobe von n unabhängigen Realisierungen der Verteilung von Z ist. Der Stichprobenmittelwert und die Stichprobenvarianz sind gegeben durch: z̄ = at X̄ und s2z = at Sa Dabei sind X̄ und S die Schätzer der multivariaten Parameter (siehe S. 87). Unter der Nullhypothese µ = µ0 haben wir E(Z) = at µ0 und die t-Teststatistik für die z-Werte ist: |at (x̄ − µ0 )| q (7.1) at Sa/n Im zweiseitigen Test wird die Nullhypothese beim Siginifikanzniveau α verworfen, wenn die Prüfgröße größer als der kritische Wert tα/2 (n − 1) ist oder wenn n[at (x̄ − µ0 )]2 > t2α/2 (n − 1) t a Sa 93 (7.2) 94 KAPITEL 7. VERFAHREN, DIE AUF NORMALVERTEILUNG BASIEREN Das Verwerfen der Nullhypothese bedeutet, dass die Informationen in der Stichprobe nicht übereinstimmen mit der Voraussetzung E(Z) = at µ0 . Da a ein Vektor mit bekannten Konstanten ist, ist dies ein Widerspruch zur Hypothese µ = µ0 . Man beachte jedoch, dass die univariate Nullhypothese durchaus vom Vektor a abhängt. So lasssen sich Beispiele finden, bei denen die univariate Nullhypothese wahr ist, während die multivariate Nullhypothese falsch ist (z.B. µt = [1, 1, 4]; µ0t = [1, 1, 0] und at = [a1 , a2 , 0]). Dieses Beispiel zeigt, dass die Wahl von a entscheidende Bedeutung für das Testergebnis hat. Die Lösung ist, den Vektor a so zu wählen, dass die Nichtübereinstimmung zwischen Stichprobe und Hypothese, wie sie mit Gleichung 7.1 gemessen wird, am größten ist. Die entsprechende Statistik wird mit T 2 bezeichnet und es gilt T 2 = max a n[at (x̄ − µ0 )]2 at Sa (7.3) Der Wert der Prüfgröße ändert sich nicht, wenn man a durch ka ersetzt, wenn k eine skalare Konstante ist. Das Maximum wird erreicht, wenn a ∝ S −1 (x̄ − µ0 ). Man kann zeigen, dass dann T 2 = n(x̄ − µ0 )t S −1 (x̄ − µ0 ) (7.4) Wenn m = 1 reduziert sich Gleichung 7.4 zum Quadrat der univariaten t-Teststatistik. Um die Verteilung von T 2 zu bestimmen, bemerken wir, dass nach den Resultaten aus Kapitel 6.5 1 und (n − 1)S ∼ Wm (n − 1, Σ) (7.5) X̄ ∼ Nm µ, Σ n gilt und außerdem sind sie unabhängig. Daher ist, wenn n > m gilt, T 2 = n(X̄ − µ0 )t S −1 (X̄ − µ0 ) (7.6) wie in Gleichung 6.23 und ist somit verteilt wie Tm2 (n − 1; δ 2 ) mit δ 2 = n(µ − µ0 )t Σ−1 (µ − µ0 ) (7.7) Unter der Nullhypothese gilt µ = µ0 und damit δ 2 = 0, so dass T 2 ∼ Tm2 (n − 1) (7.8) und nach Gleichung 6.24 ist (hier ist f = n − 1) (n − m)T 2 ∼ F (m, n − m) m(n − 1) (7.9) Die Nullhypothese wird beim Signifikanzniveau α verworfen, wenn (n − m)T 2 > Fα (m, n − m) m(n − 1) (7.10) Der Test ist unter dem Namen Hotellings T 2 -Test bekannt. Beispiel: Wir betrachten die vier Variablen aus dem Datensatz zur Befragung in Statistik I, die Schätzaufgaben betrafen. Die Variablen waren UeGewicht, GroeBoe, Woerter, ZuZahl. Es sollte das Gewicht des Übungsbuches, meine Körpergröße, die Anzahl Wörter 7.2. EINSTICHPROBENVERFAHREN 95 auf einer Folie geschätzt werden bzw. eine zufällige Zahl zwischen 0 und 99 aufgeschrieben werden. Die korrekten Werte sind bekannt, bezeichnen wir den Vektor der korrekten Werte mit µ0 , so ist µt0 = [384, 183, 58, 49.5]. Wir wollen die Hypothese prüfen, dass die Daten in der Stichprobe diesen Erwartungswertvektor haben. Wir sollten uns bewusst sein, dass die Vorausetzung der multivariaten Normalverteilung nicht erfüllt sind für die Originaldaten, jedoch sind die Mittelwerte aufgrund des zentralen Grenzwertsatzes annähernd normalverteilt. Wir haben die Daten mit diesen vier Variablen in das Data.frame schaetz.frame geschrieben, jedoch nur für die Fälle, die für alle vier Variablen Werte enthielten. Wir berechnen die Mittelwerte, schreiben µ0 in munull, berechnen die Kovarianzmatrix S und die Inverse S −1 . xquer<-apply(schaetz.frame,2,mean) xquer UeGewicht GroeBoe Woerter ZuZahl 436.88532 180.44037 57.27982 37.22936 munull<-c(384,183,58,49.5) S<-var(schaetz.frame) round(S,digits=0) UeGewicht GroeBoe Woerter ZuZahl UeGewicht 85339 -190 1054 456 GroeBoe -190 66 58 -11 Woerter 1054 58 6266 -248 ZuZahl 456 -11 -248 772 Sinvers<-solve(S) Sinvers [,1] [,2] [,3] [,4] [1,] 1.186770e-05 3.529528e-05 -2.610255e-06 -7.323228e-06 [2,] 3.529528e-05 1.548963e-02 -1.423015e-04 1.608406e-04 [3,] -2.610255e-06 -1.423015e-04 1.633913e-04 5.186648e-05 [4,] -7.323228e-06 1.608406e-04 5.186648e-05 1.317865e-03 Jetzt berechnen wir T 2 : n<-nrow(schaetz.frame) T2<-n*t(xquer-munull)%*%Sinvers%*%(xquer-munull) T2 74.95566 Jetzt berechnen wir den Wert der F-verteilten Prüfgröße F = n−m T 2. m(n−1) (n-4)/(4*(n-1))*T2 18.47985 Wir erhalten also: F = 18.47985. Die Freiheitsgrade der F-Verteilung sind 4 und 218-4=214. Wir berechnen den kritischen Wert für α = 0.01: qf(0.01,4,n-4,lower.tail=F) 3.407999 Der Wert unserer Prüfgröße ist größer als F.01 (4, 214) = 3.4080. Die Hypothese ist also bei α = 0.01 zu verwerfen. Wir berechnen noch den P-Wert: 96 KAPITEL 7. VERFAHREN, DIE AUF NORMALVERTEILUNG BASIEREN pf((n-4)/(4*(n-1))*T2,4,n-4,lower.tail=F) 4.641774e-13 Der P-Wert ist sehr, sehr klein. Die Hypothese ist also zu verwerfen. Chatfield und Collins (1991, S. 115) empfehlen, zunächst a∗ = S −1 (x̄ − µ0 ) zu berechnen (weil diese Größe noch anderweitig benutzt werden kann) und dann T 2 = n(x̄ − µ0 )t a∗ . Es sei zur Erinnerung gesagt, dass a∗ der Vektor ist, der den maximalen Wert der univariaten t2 -Statistik liefert, der also am besten trennt zwischen Hypothese und Alternative. Er wird in der Diskriminanzanalyse nützlich sein. astern<-Sinvers%*%(xquer-munull) round(t(astern),digits=6) 0.000629 -0.039652 -0.000528 -0.017007 Wenn wir T 2 = n(X̄ − µ0 )t S −1 (X̄ − µ0 ) nach (x̄ − µ0 ) differenzieren, erhalten wir dT 2 = 2nS −1 (x̄ − µ0 ) = 2na∗ d(x̄ − µ0 ) Daraus folgt, dass a∗ angibt, wie empfindlich T 2 auf Änderungen in den entsprechenden Komponenten von (x̄ − µ0 ) um eine Einheit der jeweiligen Skala reagiert. In unserem Beispiel zeigt sich, dass die Änderung im Mittelwert der Variablen GroeBoe um 1cm gravierender ist als eine Änderung der Variablen UeGewicht um 1g. Beispiel: Wir betrachten wieder den Datensatz teil01.frame mit den Variablen Groesse, Schuh, Gewicht. Wir berechnen die Mittelwerte über alle Merkmalsträger in diesem Datensatz. munull<-apply(teil01.frame,2,mean) round(munull,digits=2) Groesse Schuh Gewicht 177.23 41.82 69.11 Unter den Merkmalsträgern sind Männer und Frauen. Wir wollen die Hypothese prüfen, dass die Erwartungswerte in den Teilmengen (nur Männer bzw. nur Frauen) mit munull übereinstimmen. Es ist offensichtlich, dass das nicht der Fall sein wird. Wir haben zwei neue Datensätze teil01w.frame und teil01m.frame definiert, die die Variablen für die weiblichen bzw. männlichen Studierenden enthalten. Dabei sind einige Daten verlorengegangen, da nicht alle ihr Geschlecht angegeben hatten. Wir berechnen die Prüfgrößen, die wir mit Fm und Fw bezeichnen. xquerw<-apply(teil01w.frame,2,mean) # Mittelwerte weiblich round(xquerw,digits=2) Groesse Schuh Gewicht 170.31 39.35 59.57 xquerm<-apply(teil01m.frame,2,mean) # Mittelwerte männlich round(xquerm,digits=2) Groesse Schuh Gewicht 182.67 43.77 76.54 nw<-nrow(teil01w.frame) # Anzahl weiblich nm<-nrow(teil01m.frame) # Anzahl männlich Sw<-var(teil01w.frame) # Kovarianzmatrix weiblich Sm<-var(teil01m.frame) # Kovarianzmatrix männlich 7.3. KONFIDENZINTERVALLE UND HYPOTHESENTESTS 97 Swinvers<-solve(Sw) # Inverse weiblich Sminvers<-solve(Sm) # Inverse männlich asternw<-Swinvers%*%(xquerw-munull) # a∗ weiblich asternm<-Sminvers%*%(xquerm-munull) # a∗ männlich T2w<-nw*t(xquerw-munull)%*%asternw # T 2 weiblich T2m<-nm*t(xquerm-munull)%*%asternm # T 2 männlich Fw<-(nw-3)*T2w/(3*(nw-1)) # F-Prüfgröße weiblich Fm<-(nm-3)*T2m/(3*(nm-1)) # F-Prüfgröße männlich Fw 49.35535 Fm 37.16884 qf(0.9999999999,3,95) # kritischer Wert bei α = 0.0000000001 21.53872 qf(0.9999999999,3,121) 20.30913 Beide Hypothesen sind also zu verwerfen. Selbst bei einer Irrtumswahrscheinlichkeit von α = 1/1010 sind die Testergebnisse noch signifikant. Das ist nicht überraschend. Wir wollen diese Ergebnisse benutzen, um im nächsten Abschnitt Konfidenzintervalle für den Mittelwertvektor auszurechnen. 7.3 Konfidenzintervalle und Hypothesentests Wenn wir in Gleichung 7.6 den hypothetischen Wert µ0 durch den wahren aber unbekannten Wert µ ersetzen, so hat T 2 = n(X̄ − µ)t S −1 (X̄ − µ) eine zentrale Verteilung, so dass wie in Gleichung 7.9 (n − m)T 2 ∼ F (m, n − m) m(n − 1) Dann gilt P und damit t P n(X̄ − µ) S ! (n − m)T 2 < Fα (m, n − m) = 1 − α m(n − 1) −1 ! m(n − 1) (X̄ − µ) < Fα (m, n − m) = 1 − α n−m (7.11) (7.12) Wenn wir x̄ und S beobachtet haben, so definiert der Ausdruck in den Klammern der Gleichung 7.12 m(n − 1) Fα (m, n − m) (7.13) n(x̄ − µ)t S −1 (x̄ − µ) < n−m einen 100(1 − α)% Konfidenzbereich für µ. Dieser Bereich ist ein Hyperellipsoid mit dem Zentrum im Punkt µ = x̄. Die inneren Punkte dieses Bereichs stellen diejenigen Werte für µ0 dar, für die die Hypothese µ = µ0 nicht verworfen werden kann. Falls m = 2 ist, lässt sich dieser Bereich grafisch darstellen. Deshalb beschränken wir uns in unserem Beispiel auf die Variablen Körpergröße und Gewicht für Männer. Wir erzeugen uns einen neuen Datensatz, der nur die Variablen Groesse, Gewicht für Männer enthält. 98 KAPITEL 7. VERFAHREN, DIE AUF NORMALVERTEILUNG BASIEREN ggm.frame<-teil01m.frame[,c(1,3)] Wir berechnen den Mittelwertvektor: ggmquer<-apply(ggm.frame,2,mean) ggmquer Groesse Gewicht 182.66935 76.54032 Wir berechnen die Inverse der Kovarianzmatrix. Sggm<-var(ggm.frame) Sggminvers<-solve(Sggm) Sggm Groesse Gewicht Groesse 60.30442 62.96873 Gewicht 62.96873 158.12031 Sggminvers 0.02838635 -0.01130438 -0.01130438 0.01082608 Die Gleichung für den Rand des Konfidenzbereichs ist: m(n − 1) Fα (m, n − m) n−m m(n − 1) (x̄ − µ)t S −1 (x̄ − µ) = Fα (m, n − m) n(n − m) 2 · 123 (x̄ − µ)t S −1 (x̄ − µ) = Fα (2, 122) 124 · 122 n(x̄ − µ)t S −1 (x̄ − µ) = Nun ist qf(0.95,2,122) 3.070512 (2*123/(124*122))*qf(0.95,2,122) 0.04993033 Damit erhalten wir für die Grenzen des Bereichs: 0.0284(µ1 − x̄1 )2 − 0.0226(µ1 − x̄1 )(µ2 − x̄2 ) + 0.0108(µ2 − x̄2 )2 = 0.0499 Mit x̄1 = 182.67 und x̄2 = 76.54 erhalten wir: 0.0284(µ1 − 182.67)2 − 0.0226(µ1 − 182.67)(µ2 − 76.54) + 0.0108(µ2 − 76.54)2 = 0.0499 Wir stellen diesen Konfidenzbereich mit den folgenden R-Befehlen grafisch dar (siehe Abbildung 7.1. confi.fun<-function(x,y) { fxy<-0.0284*(x-182.67)ˆ 2-0.0226*(x-182.67)*(y-76.54)+0.0108*(y-76.54)ˆ 2 fxy } x<-seq(180,186,length=100) y<-seq(72,80,length=100) 7.3. KONFIDENZINTERVALLE UND HYPOTHESENTESTS 99 78 80 z<-outer(x,y,confi.fun) contour(x,y,z,levels=0.0499,drawlabels=F,lwd=4) abline(h=seq(72,80),lty=2) abline(v=seq(180,186),lty=2) points(ggmquer[1],ggmquer[2],pch="*",cex=2) 72 74 76 * 180 181 182 183 184 185 186 Abbildung 7.1: Darstellung des Konfidenzbereichs für die Erwartungswerte der Variablen Groesse und Gewicht für Männer Wir kommen noch einmal darauf zurück, dass T 2 das Maximum aller univariaten t2 über alle Linearkombinationen von X ist. n[at (X̄ − µ]2 T = max a at Sa 2 ! Nach Gleichung 7.11 n[at (X̄ − µ)]2 P max a at Sa ! ! m(n − 1) < Fα (m, n − m) = 1 − α (n − m) Das bedeutet: m(n − 1) s2 P [at (X̄ − µ)]2 < Fα (m, n − m) a (n − m) n ! ∀a = 1 − α Dabei ist s2a = at Sa die geschätzte Varianz von Var(at X). Nun ist das Ereignis [at (X̄ − µ)]2 < m(n − 1) s2 Fα (m, n − m) a (n − m) n äquivalent zu dem Ereignis t |a (X̄ − µ)| < m(n − 1) Fα (m, n − m) (n − m) Setzen wir Kα/2 = m(n − 1) Fα (m, n − m) (n − m) !1/2 !1/2 s √a n 100 KAPITEL 7. VERFAHREN, DIE AUF NORMALVERTEILUNG BASIEREN so erhalten wir sa |at (X̄ − µ)| = |at µ − at X̄| < Kα/2 √ n (7.14) oder gleichbedeutend: sa sa −Kα/2 √ < at µ − at X̄ < Kα/2 √ n n und damit: Folglich ist sa sa at X̄ − Kα/2 √ < at µ < at X̄ + Kα/2 √ n n sa at x̄ ± Kα/2 √ n ∀a (7.15) eine Menge von simultanen Konfidenzintervallen für at µ zur Konfidenzwahrscheinlichkeit 1 − α. Dieses Resultat ist so zu interpretieren: Wenn Sie sehr viele Mengen solcher Konfidenzbereiche (simultan für alle a) bilden, dann werden 100(1 − α)% der Mengen keine einzige Falschaussage enthalten (d.h. für alle a wird der richtige Erwartungswertvektor in dem Bereich liegen), während in 100α% der Fälle mindestens ein a existiert, für das der angegebene Bereich den richtigen Erwartungswertvektor nicht enthält. Gleichung 7.15 kann umgeschrieben werden in eine Menge von Teststatistiken, um die Hypothesen H0 (a) : at µ = at µ0 für verschiedene Werte von a zu testen: at (x̄ − µ0 ) √ sa / n (7.16) Die Nullhypothese wird für diejenigen Werte von a verworfen, für die die Prüfgröße dem Betrage nach größer als Kα/2 ist. Diese Tests haben die Form des üblichen t-Tests. Jedoch wird anstelle tα/2 als kritischer Wert Kα/2 verwendet. Dies garantiert, dass der Gesamtfehler 1. Art α ist, unabhängig von der Anzahl der verschiedenen Werte von a, für die die Nullhypothese getestet wurde. Man beachte, dass Kα/2 ≥ tα/2 (n − 1) (das Gleichheitszeichen gilt für m=1). Beispiel: Wir berechnen für die Datensätze teil01w.frame und teil01m.frame Konfidenzintervalle für die Mittelwerte der drei Variablen zum Konfidenzniveau 1 − α = 0.95. Wir verwenden dann für a die folgenden Werte: at1 = (1, 0, 0) at2 = (0, 1, 0) at3 = (0, 0, 1) Dann ist ati x̄ = x̄i der Mittelwert der i-ten Variablen und s2ai = s2i die geschätzte Varianz der i-ten Variablen (i = 1, 2, 3). Für die Konfidenzintervalle gilt dann also µi ∈ x̄i ± K0.025 s s2i n i = 1, 2, 3 Wir berechnen die kritischen Werte K0.025 = m(n−1) F0.05 (m, n − m) n−m und n = 98 (weiblich) und n = 124 (männlich): 1/2 . Hier ist m = 3 7.3. KONFIDENZINTERVALLE UND HYPOTHESENTESTS 101 K025w<-sqrt(3*((nw-1)/(nw-3))*qf(0.95,3,nw-3)) round(K025w,digits=2) 2.88 K025m<-sqrt(3*((nm-1)/(nm-3))*qf(0.95,3,nm-3)) round(K025m,digits=2) 2.86 Die kritischen Werte sind also 2.88 (n=124) und 2.86 (n=98). Wir vergleichen diese Werte mit den entsprechenden Werten der t-Verteilung, d.h. mit t0.025 (n − 1) tw<-qt(0.975,nw-1) round(tw,digits=2) 1.98 tm<-qt(0.975,nm-1) round(tm,digits=2) 1.98 Wir berechnen die geschätzten Varianzen: s2w<-diag(var(teil01w.frame)) round(s2w,digits=2) Groesse Schuh Gewicht 50.69 4.15 87.46 s2m<-diag(var(teil01m.frame)) round(s2m,digits=2) Groesse Schuh Gewicht 60.30 4.19 158.12 Jetzt berechnen wir die halben Intervallbreiten K0.025 r s2i n i = 1, 2, 3 K025w*sqrt(s2w/nw) Groesse Schuh Gewicht 2.068438 0.591594 2.717070 K025m*sqrt(s2m/nm) Groesse Schuh Gewicht 1.9934894 0.5256248 3.2279975 Die Konfidenzintervalle sind also für die weiblichen Studierenden: µ1 ∈ 170.31 ± 2.07 µ2 ∈ 39.35 ± 0.59 µ3 ∈ 59.57 ± 2.72 Für die männlichen Studierenden: µ1 ∈ 182.67 ± 1.99 µ2 ∈ 43.77 ± 0.53 µ3 ∈ 76.54 ± 3.23 Man beachte, dass keines dieser Intervalle die Mittelwerte über alle Merkmalsträger zusammen enthält, die wir früher als µ0 bezeichnet hatten. µt0 = (177.23, 41.82, 69.11). Wir wollen jetzt zum Vergleich die Konfidenzintervalle mithilfe der t-Quantile berechnen. Dazu berechnen wir die halben Intervallbreiten: 102 KAPITEL 7. VERFAHREN, DIE AUF NORMALVERTEILUNG BASIEREN tw*sqrt(s2w/nw) Groesse Schuh Gewicht 1.4273913 0.4082482 1.8750004 tm*sqrt(s2m/nm) Groesse Schuh Gewicht 1.3804026 0.3639718 2.2352445 Die Konfidenzintervalle sind also für die weiblichen Studierenden: µ1 ∈ 170.31 ± 1.43 µ2 ∈ 39.35 ± 0.41 µ3 ∈ 59.57 ± 1.88 Für die männlichen Studierenden: µ1 ∈ 182.67 ± 1.38 µ2 ∈ 43.77 ± 0.36 µ3 ∈ 76.54 ± 2.24 Die mit den t-Quantilen gebildeten Konfidenzintervalle sind kleiner. Die Interpretation dieser Intervalle, d.h. genauer die Bedeutung der Konfidenzwahrscheinlichkeit ist eine andere. Bei den simultanen Konfidenzintervallen (mit Kα/2 gebildet) haben wir die Gewissheit, dass alle drei zufällig gebildeten Konfidenzintervalle gleichzeitig die drei Erwartungswerte mit Wahrscheinlichkeit 1 − α überdecken und würden wir für noch viele andere Konfidenzintervalle für andere Linearkombinationen der Erwartungswerte bilden, so hätten wir die Sicherheit, dass auch diese Intervalle die richtigen Werte mit Wahrscheinlichkeit 1 − α überdecken, und zwar alle gleichzeitig. Bei den Intervallen, die mit den Quantilen der t-Verteilung gebildet wurden, gilt die Aussage jeweils separat: Das Intervall für µ1 überdeckt den korrekten Erwartungswert mit Wahrscheinlichkeit 1 − α, die für µ2 und µ3 überdecken auch jeweils mit Wahrscheinlichkeit 1 − α den richtigen Erwartungswert. Aber über die Wahrscheinlichkeit, dass alle drei gleichzeitig die jeweiligen Erwartungswerte überdecken, kann man keine Aussage machen. Es sei zum Schluss noch angemerkt, dass wir für die Prüfgröße in Gleichung 7.16 den maximalen Wert tmax erhalten, wenn a = a∗ = S −1 (x̄ − µ0 ) gilt. In diesem Fall ist tmax = T . Wir berechnen tmax für unser Beispiel. Wir hatten bereits a∗ ausgerechnet: round(t(asternw),digits=4) -0.003 -0.4695 -0.0379 round(t(asternm),digits=4) 0.0073 0.4614 -0.0038 Wir berechnen die Standardabweichung sa∗ , d.h. die Standardabweichung von (a∗ )t X. sasternw<-sqrt(t(asternw)%*%Sw%*%asternw) sasternm<-sqrt(t(asternm)%*%Sm%*%asternm) sasternw 1.242049 sasternm 0.9560908 Wir berechnen jetzt die Prüfgrößen tmax . 7.4. TESTS ÜBER BEZIEHUNGEN ZWISCHEN DEN VARIABLEN 103 t(asternw)%*%(xquerw - munull)/(sasternw/sqrt(nw)) 12.29566 t(asternm)%*%(xquerm - munull)/(sasternm/sqrt(nm)) 10.64658 Man beachte, dass diese Werte gerade die Quadratwurzeln aus den früher von uns berechneten Prüfgrößen von Hotelling (T 2 ) sind, die wir früher mit T2w und T2m bezeichnet hatten. sqrt(T2w) 12.29566 sqrt(T2m) 10.64658 7.4 Tests über Beziehungen zwischen den Variablen In Abschnitt 7.3 haben wir Hypothesentests betrachtet, bei denen die Mittelwerte vollständig bestimmt waren. Jetzt wollen wir Beziehungen zwischen den Komponenten des Mittelwertvektors testen. Nehmen Sie z.B. an, dass während einer medizinischen Behandlung (z.B. einer Diät) das Gewicht der teilnehmenden Personen zu m Zeitpunkten kontrolliert wird. Eine Nullhypothese von Interesse könnte dann sein: H0 : µ j = µ j = 1, 2, . . . m Diese Hypothese könnte man auch so formulieren: H0 : µ 1 − µ j = 0 j = 2, . . . m Dies könnte in Matrizenform wiederum so geschrieben werden: H0 : C t µ = 0 Dabei ist C die m × (m − 1) Matrix mit C= 1 1 ... −1 0 ... 0 −1 . . . .. . 0 0 1 0 0 −1 (7.17) Wenn X ∼ N(µ, Σ), dann ist C t X ∼ Nm−1 (C t µ, C t ΣC) und die Nullhypothese kann mit Hotellings T 2 -Test getestet werden mit der Prüfgröße: t T 2 = nX̄ C(C t SC)−1 C t X̄ (7.18) 2 Dabei muss n > (m − 1) sein. Unter der Nullhypothese ist T 2 ∼ Tm−1 (n − 1), so dass F= n−m+1 T 2 ∼ F (m − 1, n − m + 1) (m − 1)(n − 1) 104 KAPITEL 7. VERFAHREN, DIE AUF NORMALVERTEILUNG BASIEREN Es sei angemerkt, dass die Matrix C nicht eindeutig bestimmt ist (siehe z.B. bei Chatfield und Collins, 1991, S. 122). Allgemein lässt sich die Hypothese H0 : C t µ = φ, wobei φ ein gegebener Vektor von Konstanten und C eine m × p-Matrix vom Rang p und p < n ist, folgendermaßen testen: T 2 = n(C t X̄ − φ)t (C t SC)−1 (C t X̄ − φ) (7.19) Unter der Nullhypothese ist T 2 verteilt wie Tp2 (n − 1) und damit: F= n−p T 2 ∼ F (p, n − p) p(n − 1) Beispiel: Wir betrachten den Datensatz teil01.frame mit den drei Variablen Groesse, Schuh, Gewicht. Für das Gewicht gibt es die Idealgewichtsvorstellung: Man reduziere die Körpergröße (in cm) um 100, nehme davon 90% und erhält das Idealgewicht in kg. Für die Schuhgröße gebe es die Faustregel, dass sie 1/4 der Körpergröße sei. Dann bestehen die folgenden Beziehungen zwischen den Erwartungswerten µ1 , µ2 , µ3 : µ2 = µ1 /4 µ3 = 0.9(µ1 − 100) Gleichbedeutend damit ist: µ1 − 4µ2 = 0 10 µ1 − µ3 = 100 9 Damit ist 1 1 0 C = −4 10 0 −9 und φt = (0, 100). Unter der Nullhpothese ist dann nach Gleichung 7.19 T 2 ∼ T22 (225) (unser Datensatz enthält 226 Beobachtungen). Dann ist F= 226 − 2 2 224 2 T = T ∼ F (2, 224) 2 · 225 450 Wir wollen die Prüfgröße jetzt berechnen. Ce<-matrix(c(1,1,-4,0,0,-10/9),byrow=T,ncol=2) phi<-c(0,100) xquer<-apply(teil01.frame,2,mean) S<-var(teil01.frame) n<-nrow(teil01.frame) T2<-n*t(t(Ce)%*%xquer-phi)%*%solve(t(Ce)%*%S%*%Ce)%*%(t(Ce)%*%xquer-phi) 7.5. ZWEISTICHPROBENVERFAHREN 105 T2 654.4368 Damit haben wir T 2 = 654.4368. Wir berechnen jetzt F . 224*T2/450 325.7641 Der kritische Wert der F-Verteilung mit 2 und 224 Freiheitsgraden für α = 0.01 ist: qf(0.99,2,224) 4.701158 Die Nullhypothese ist zu verwerfen. Es sei angemerkt (wir werden das als Übungsaufgabe behandeln), dass die Nullhypothese: Die Studierenden haben Idealgewicht nicht widerlegt werden kann. Wir schauen uns die einzelnen Teilergebnisse für die Berechnung der Prüfgröße an: t(Ce)%*%xquer-phi [1,] 9.9513274 [2,] 0.4410029 Dieses Zwischenergebnis zeigt schon, dass der erste Teil der Hypothese offensichtlich nicht korrekt ist und den größeren Teil zur Prüfgröße beiträgt. t(Ce)%*%S%*%Ce [,1] [,2] [1,] 40.00206 25.89860 [2,] 25.89860 102.50408 solve(t(Ce)%*%S%*%Ce) [,1] [,2] [1,] 0.02988773 -0.00755141 [2,] -0.00755141 0.01166364 Weitere strukturelle Beziehungen zwischen den Variablen können überprüft werden, indem man den Erwartungswertvektor durch ein lineares Modell in k < m Parametern ausdrückt. Sei z.B. A eine m × k-Matrix vom Rang k mit bekannten Konstanten und sei θ ein kdimensionaler Vektor von ebenfalls bekannten Konstanten. Dann ist die Teststatistik für den Test der Nullhypothese H0 : µ = Aθ gegeben durch: T 2 = n(X̄ − Aθ)t S −1 (X̄ − Aθ) (7.20) Unter der Nullhypothese ist T 2 verteilt wie Tm2 (n − 1). 7.5 Zweistichprobenverfahren Wir hatten in früheren Beispielen die Datensätze teil01m.frame undteil01w.frame mit den Variablen Groesse, Schuh, Gewicht für männliche und weibliche Studierende betrachtet. Wir können dies auffassen als Stichproben aus zwei Grundgesamtheiten. Nehmen Sie an, wir wollen die Mittelwerte in diesen beiden Grundgesamtheiten vergleichen. Nehmen Sie allgemein an, dass wir Stichproben der Größe n1 und n2 haben, die Datenmatrizen seien X1 und X2 . Das sind n1 × m- und n2 × m-Matrizen. Nehmen wir an, dass es sich jeweils um unabhängige Beobachtungen einer N(µi , Σ)-Verteilung handelt. Beachten Sie, 106 KAPITEL 7. VERFAHREN, DIE AUF NORMALVERTEILUNG BASIEREN dass wir die Gleichheit der Kovarianzmatrizen für die beiden Stichproben verlangen. Dann gilt nach den Gleichungen 6.9, 6.10 und 6.13 X̄ 1 − X̄ 2 ∼ Nm 1 1 µ1 − µ2 , + Σ n1 n2 Wenn S1 und S2 die geschätzten Kovarianzmatrizen in den beiden Teilpopulationen sind, so fügt man beide zusammen, um den Gesamtschätzer zu bilden: S= (n1 − 1)S1 + (n2 − 1)S2 n1 + n2 − 2 (7.21) Mit Gleichung 6.16 folgt, dass (n1 + n2 − 2)S ∼ Wm (n1 + n2 − 2, Σ) und damit nach 2 Gleichung 6.23 (beachten Sie, dass k1 = n11 + n12 = nn11+n ), falls n1 + n2 > m + 1, n2 T2= n1 n2 (X̄ 1 − X̄ 2 )t S −1 (X̄ 1 − X̄ 2 ) ∼ Tm2 (n1 + n2 − 2; δ 2) n1 + n2 (7.22) n1 n2 (µ1 − µ2 )t Σ−1 (µ1 − µ2 ) n1 + n2 (7.23) mit δ2 = Wenn µ1 = µ2 , so ist δ 2 = 0 und T 2 ∼ Tm2 (n1 + n2 − 2) und dann gilt n1 + n2 − m − 1 2 T ∼ F (m, n1 + n2 − m − 1) m(n1 + n2 − 2) (7.24) Wie im Einstichprobenfall kann man a∗ = S −1 (x̄1 − x̄2 ) definieren und dann T 2 nach der Formel n1 n2 (x̄1 − x̄2 )t a∗ (7.25) T2 = n1 + n2 berechnen. Wir verwenden jetzt T 2 zur Überprüfung der Nullhypothese H0 : µ1 = µ2 . Wir betrachten unser Beispiel mit den beiden Datenmatrizen teil01m.frame und teil01w.frame. Wir hatten bereits auf Seite 96 die Mittelwerte xquerm und xquerw berechnet, ferner die Kovarianzmatrizen Sm und Sw, die Stichprobenumfänge hatten wir mit nm und nw bezeichnet. Damit ist dann der Gesamtschätzer der Kovarianzmatrix in R-Notation: S<-((nm-1)*Sm + (nw-1)*Sw)/(nm + nw -2) round(S,digits =2) Groesse Schuh Gewicht Groesse 56.06 11.19 53.92 Schuh 11.19 4.17 14.89 Gewicht 53.92 14.89 126.97 Die Inverse S −1 erhalte ich mit 7.5. ZWEISTICHPROBENVERFAHREN 107 solve(S) round(solve(S),digits=4) [,1] [,2] [,3] [1,] 0.0427 -0.0858 -0.0081 [2,] -0.0858 0.5846 -0.0321 [3,] -0.0081 -0.0321 0.0151 Ferner ist xquerm-xquerw Groesse Schuh Gewicht 12.363232 4.427255 16.968894 Die Prüfgröße ist dann: T2<-(nm*nw/(nm+nw))*t(xquerm-xquerw)%*%solve(S)%*%(xquerm-xquerw) T2 258.3292 Wir berechnen jetzt F = n1 +n2 −m−1 2 T . m(n1 +n2 −2) (nm+nw-3-1)/(3*(nm+nw-2))*T2 85.32692 Die Prüfgröße F ist in diesem Fall F-verteilt mit 3 und nm+nw−3−1 = 124+98−4 = 218 Freiheitsgraden. Der kritische Wert ist in diesem Fall für α = 0.05 qf(0.95,3,218) 2.646014 Die Hypothese ist also abzulehnen. Die alternative Berechnungsmethode mit a∗ wäre in diesem Fall: astern<-solve(S)%*%(xquerm-xquerw) round(t(astern),digits=4) 0.0114 0.982 0.0136 (nm*nw/(nm+nw))*t(xquerm-xquerw)%*%astern 258.3292 Dies stimmt mit T2 überein. In Analogie zum Einstichprobenfall lässt sich hier auch ein Konfidenzbereich für ∆ = µ1 − µ2 herleiten. Analog zu Gleichung 7.13 erhalten wir jetzt n1 n2 (∆ − (x̄1 − x̄2 ))t S −1 (∆ − (x̄1 − x̄2 )) < n1 + n2 m(n1 + n2 − 2) Fα (m, n1 + n2 − m − 1) n1 + n2 − m − 1 (7.26) Die Grenzen dieses Bereichs sind ein Hyperellipsoid mit dem Zentrum in ∆ = x̄1 − x̄2 . Es ist ein 100(1 − α)%-Bereich für ∆. Um festzustellen, ob ein bestimmtes ∆∗ in diesem Bereich liegt, führt man im Prinzip einen T 2 -Test der Nullhypothese H0 : µ1 − µ2 = ∆∗ durch. 108 KAPITEL 7. VERFAHREN, DIE AUF NORMALVERTEILUNG BASIEREN Falls m = 2 ist, lässt sich dieser Bereich grafisch darstellen. Deshalb beschränken wir uns in unserem Beispiel auf die Variablen Körpergröße und Gewicht. Wir erzeugen uns neue Datensätze, die nur die Variablen Groesse, Gewicht enthalten, jeweils für Männer und Frauen. ggm.frame<-teil01m.frame[,c(1,3)] ggw.frame<-teil01w.frame[,c(1,3)] Wir berechnen die Mittelwertvektoren: ggmquer<-apply(ggm.frame,2,mean) ggwquer<-apply(ggw.frame,2,mean) Sei d̄ = x̄1 − x̄2 . Wir berechnen diesen Wert: dquer<-ggmquer-ggwquer dquer Groesse Gewicht 12.36323 16.96889 Wir berechnen die Inverse der Kovarianzmatrix. Sggm<-var(ggm.frame) Sggw<-var(ggw.frame) Spooled<-((nm-1)*Sggm+(nw-1)*Sggw)/(nm+nw-2) Spooled Groesse Gewicht Groesse 56.06482 53.91823 Gewicht 53.91823 126.96727 Sgginvers<-solve(Spooled) round(Sgginvers,digits=4) 0.0301 -0.0128 -0.0128 0.0133 Die Gleichung für den Rand des Konfidenzbereichs ist: t n1 n2 2(n1 + n2 − 2) ∆ − d̄ S −1 ∆ − d̄ = Fα (2, n1 + n2 − 3) n1 + n2 n1 + n2 − 3 t 124 · 98 2 · 220 ∆ − d̄ S −1 ∆ − d̄ = Fα (2, 219) 222 219 t 2 · 220 · 222 ∆ − d̄ S −1 ∆ − d̄ = Fα (2, 219) 219 · 124 · 98 t ∆ − d̄ S −1 ∆ − d̄ = 0.0367Fα(2, 219) Nun ist qf(0.95,2,219) 3.037088 Also F0.05 (2, 219) = 3.0371 und (2*220*222)/(219*124*98)* qf(0.95,2,219) 0.1114734 Damit erhalten wir für die Grenzen des Bereichs: 7.5. ZWEISTICHPROBENVERFAHREN 109 0.0301(∆1 − d¯1 )2 − 0.0256(∆1 − d¯1 )(∆2 − d¯2 ) + 0.0133(∆2 − d¯2 )2 = 0.1115 Mit d¯1 = 12.36 und d¯2 = 16.97 erhalten wir: 0.0301(∆1 − 12.36)2 − 0.0256(∆1 − 12.36)(∆2 − 16.97) + 0.0133(∆2 − 16.97)2 = 0.1115 Wir können die Höhenlinien dieser Funktion mit den folgenden Befehlen plotten: 20 25 confi.fun<-function(x,y) { fxy<-0.0301*(x-12.36)ˆ 2-0.0256*(x-12.36)*(y-16.97)+0.0133*(y-16.97)ˆ 2 fxy } y<-seq(10,25,length=100) x<-seq(5,20,length=100) z<-outer(x,y,confi.fun) contour(x,y,z,levels=0.1115,drawlabels=F,lwd=4) points(dquer[1],dquer[2],cex=2,pch="*") abline(h=c(10,15,20,25),lty=2) abline(v=c(5,10,15,20),lty=2) 10 15 * 5 10 15 20 Abbildung 7.2: Darstellung des Konfidenzbereichs für die Differenzen der Erwartungswerte der Variablen Groesse und Gewicht Eine Alternative ist die Bestimmung von simultanen Konfidenzintervallen. Analog zu Gleichung 7.15 erhalten wir jetzt t t a (µ1 − µ2 ) ∈ a (x̄1 − x̄2 ) ± Kα/2 sa 1 1 + n1 n2 1/2 (7.27) für alle a (gleichzeitig) mit Konfidenzwahrscheinlichkeit 100(1 − α)%. Dabei ist s2a = d t X) = at Sa mit n + n − 2 Freiheitsgraden und Var(a 1 2 Kα/2 = m(n1 + n2 − 2) Fα (m, n1 + n2 − m − 1) n1 + n2 − m − 1 !1/2 (7.28) 110 KAPITEL 7. VERFAHREN, DIE AUF NORMALVERTEILUNG BASIEREN Wir wollen simultane Konfidenzintervalle für die Differenzen der Erwartungswerte der Variablen Groesse, Gewicht für männliche und weibliche Studierende bilden. Mit den früheren Bezeichnungsweisen aus dem obigen Beispiel zur Bestimmung des Konfidenzbereichs ist Gleichung 7.27 äquivalent zu t t a ∆ ∈ a d̄ ± Kα/2 sa 1 1 + n1 n2 1/2 (7.29) Wir hatten d̄ bereits berechnet und mit dquer bezeichnet. Die Kovarianzmatrix S hatten wir auch bereits berechnet und mit Spooled bezeichnet. Wir verwenden für a die folgenden beiden Vektoren. at1 = (1, 0) at2 = (0, 1) Dann ist ati ∆ = ∆i die Differenz der Mittelwerte der i-ten Variablen und s2ai = s2i die geschätzte Varianz der i-ten Variablen (i = 1, 2), also s11 bzw. s22 , d.h. in R-Notation Spooled[1,1] bzw. Spooled[2,2]. Für die Konfidenzintervalle gilt dann also q ∆i ∈ d¯i ± K0.025 s2i 1 1 + n1 n2 Wir berechnen die kritischen Werte K0.025 = 1/2 440 F (2, 219) 219 0.05 1/2 i = 1, 2 2(124+98−2) F (2, 124 124+98−2−1 0.05 . Hier ist m = 2, n1 = 124, n2 = 98. + 98 − 2 − 1) 1/2 = K025<-sqrt(440/219* qf(0.95,2,219)) K025 2.470205 Wir berechnen die Standardabweichungen si s1<-sqrt(Spooled[1,1]) s2<-sqrt(Spooled[2,2]) s1 7.487644 s2 11.26798 und damit dann die halben Intervallbreiten: K025*s1*sqrt(1/nm + 1/nw) 2.499947 K025*s2*sqrt(1/nm + 1/nw) 3.762109 Die Konfidenzintervalle für die Differenzen der Erwartungswerte der Variablen Groesse und Gewicht bei männlichen und weiblichen Studierenden sind also: ∆1 ∈ 12.36 ± 2.50 ∆2 ∈ 16.97 ± 3.76 7.5. ZWEISTICHPROBENVERFAHREN 111 Die Bildung dieser simultanen Konfidenzintervalle ist wie im Einstichprobenfall äquivalent zum Hotelling T 2 -Test. Gleichung 7.29 kann auch so gedeutet werden: at ∆ liegt in dem dort angegebenen Intervall, wenn at ∆ − at d̄ 1/2 sa 1 + 1 n1 n2 ≤ Kα/2 In den Betragsstrichen steht die Prüfgröße für den t-Test. Die Hypothese wird nicht verworfen, wenn die obige Ungleichung gilt. Jedoch verwenden wir hier nicht die Quantile der t-Verteilung, sondern stattdesssen die K-Quantile. Das liegt daran, dass wir einen simultanen Test für alle a durchführen. Auch hier sollte man dasjenige a betrachten (und wir haben das bereits weiter oben getan), für das die univariate t2 -Statistik das Maximum, nämlich T 2 annimmt. Wie im Einstichprobenfall kann man zeigen, dass a∗ die Lösung des Gleichungssystems Sa∗ = (x̄1 − x̄2 ) (7.30) ist. In Kapitel 7.4 hatten wir strukturelle Beziehungen zwischen den Komponenten des Erwartungswertvektors getestet, d.h. Hypothesen der Gestalt: H0 : C t µ = φ. Diese Vorgehensweise kann auch für den Fall zweier unabhängiger Stichproben aus zwei Populationen ausgedehnt werden, wenn man annehmen kann, dass die Kovarianzmatrizen identisch sind, um Hypothesen der Gestalt H0 : C t (µ1 − µ2 ) = φ zu testen. Die Teststatistik ist: T2 = t n1 n2 t C (X̄ 1 − X̄ 2 ) − φ (C t SC)−1 C t (X̄ 1 − X̄ 2 ) − φ n1 + n2 (7.31) Dabei ist S der aus beiden Stichproben zusammengefügte Schätzer der Kovarianzmatrix und C ist eine gegebene Matrix der Ordnung m × p vom Rang p < m. Unter der Nullhypothese ist T 2 verteilt wie Tp2 (n1 + n2 − 2).