Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie die Datei hier downloaden. 1.1 Lesen Sie die Datei in SPSS ein. Berücksichtigen Sie, dass in der Exceltabelle keine Variablennamen enthalten sind! (3 P.) 1 Hinweise zum Erzeugen der Lösung: 2 1.2 Lassen Sie sich die Mittelwerte, Kovarianzen und Korrelationen ausgeben! (3 P.) Hinweise zum Erzeugen der Lösung: 3 1.3 Plotten Sie außerdem Histogramme der einzelnen Variablen mit Normalverteilungskurve. Sprechen die Grafiken für oder gegen eine univariate Normalverteilung der beiden Variablen? Begründen Sie Ihre Antwort. (4 P.) Die Grafiken sprechen bei beiden Variablen für eine Normalverteilung, da das Histogramm im Großen und Ganzen an der Normalverteilungskurve liegt. 4 Hinweise zum Erzeugen der Lösung: 1.4 Gehen Sie jetzt von einer univariaten Normalverteilung der Variablen aus. Welcher bivariaten Verteilung gehören die Daten an? Geben Sie die Maximum-Likelihood-Schätzer für die Verteilungsparameter an (gerundet auf zwei Nachkommastellen)! (6 P.) Da beide Randverteilungen normalverteilt sind, kann man annehmen, dass die Daten bivariat (oder multivariat) normalverteilt sind. Die Schätzer für die Parameter lassen sich aus den SPSS Outputs entnehmen: 0.87 1.23 −0.98 199 0.869 1.238 N −1 µ̂ = , Σ̂ = N S = 200 = 1.238 3.868 1.23 3.85 0.99 5 1.5 Bestimmen Sie zur Erzeugung weiterer Zufallszahlen die Cholesky-Wurzel der Kovarianzmatrix. Nehmen Sie an, dass z1 = 0.51 und z2 = −0.23 zwei Realisierungen von unabhängigen, standard-normalverteilten Zufallszahlen sind, und generieren sie daraus eine bivariate Zufallszahl mit der von Ihnen in Teilaufgabe 1.4 bestimmten Verteilung! (12 P.) ρ = 0.675, σ1 = 0.93, σ2 = 1.97 µ1 = −0.98 µ2 = 0.99 0.93 0 σ1 0 1 p 0 Γ= = 0 σ2 ρ 1.33 1.45 1 − ρ2 x1 = µ1 + Γ11 z1 + Γ12 z2 = −0.51 x2 = µ2 + Γ21 z1 + Γ22 z2 = 1.33 1.6 Nehmen Sie an, dass die Daten, die Sie in SPSS eingelesen haben, eine Realisation des Zufallsvektors x sind, und verwenden Sie Ihre Ergebnisse aus Teilaufgabe 1.4. Bestimmen Sie den Erwartungswert und die Kovarianz 3 1 6 matrix der Transformation y = Ax + c mit A = und c = . (8 P.) 0 2 3 −0.98 0.87 1.23 E[x] = , Var[x] = 0.99 1.23 3.85 4.05 E[y] = AE[x] + c = 4.98 19.06 15.08 0 Var[y] = AVar[x]A = 15.08 15.4 1.7 Ist die Korrelation zum 5%-Niveau signifikant von 0 verschieden? Begründen Sie Ihre Antwort. (2 P.) Ja, die Korrelation ist zum 5%-Niveau signifikant von 0 verschieden. Die Korrelation ist sogar zum 1%-Niveau signifikant, daher gilt es für größere α-Werte ebenso; entsprechend ist der p−Wert bei 0.000. 1.8 Wenn die Variable 1 einen hohen Wert annimmt, ist dann die Variable 2 eher groß oder eher klein? Begründen Sie Ihre Antwort. (2 P.) Tendenziell ist die Variable 2 dann ebenfalls groß, da die Korrelation mit ρ = 0.675 recht hoch ist. 6 Aufgabe 2 (26 Punkte) Betrachten Sie bitte den SPSS-Output in Abb. 1. 2.1 Wie lautet der Mittelwertsvektor x̄ und die Stichproben-Kovarianzmatrix der Variablen Selfreportedhealth und LifeSatisfaction (gerundet auf 3 Kommastellen)? (2 P.) Mittelwertsvektor x̄ = [6.447, 6, 347]0 , 6.397 4.635 Stichproben-Kovarianzmatrix S = 4.635 7.251 2.2 Prüfen Sie die Nullhypothese µ = [7, 7]0 für die beiden Variablen (α = 0.05). (12 P.) Die Hotelling T 2 -Statistik lautet: T 2 = N (x̄ − µ0 )0 S−1 (x̄ − µ0 ) ∼ T 2 (p, N − 1) 0.291 −0.186 Es gilt: S = , N = 34, p = 2, α = 0.05, −0.186 0.257 β 0 = [7, 7]0 , x̄ − β 0 = [−0.553, −0.653]0 . −1 Man findet T 2 = 2.184. Der Testwert T 2 muß mit einem Faktor multipliziert werden, damit die F -Verteilung benutzt werden kann. N −p · T 2 := T̃ 2 = 1.059 ∼ F (p, N − p) (N − 1)p F (1 − α, p, N − p) = 3.295 Damit wird H0 : µ = [7, 7]0 beibehalten. 7 Abbildung 1: SPSS-Output zu Aufgabe 2 8 2.3 Betrachten Sie nun alle 3 Variablen. Welche der Korrelationen unterscheiden sich signifikant von 0 unter Einhaltung eines simultanen Signifikanzniveaus von α∗ ≤ α = 0.01? Verwenden Sie ein adjustiertes Signifikanzniveau für die Einzeltests. (4 P.) Adjustiert man die Einzeltests, so legt man ein Signifikanzniveau α/3 = 0.01/3 = 0.003 für die Einzeltests zugrunde. Die p-Werte aus der Korrelationstabelle sind größer als dieser Wert, bis auf p(Selfreportedhealth, LifeSatisfaction) = 0.000 (die Korrelation ist 0.681). 2.4 Führen Sie einen Test der Hypothese P = I durch, der das Signifikanzniveau α∗ = α = 0.01 exakt einhält. Vergleichen Sie mit Teilaufgabe 2.3 und dem SPSS-Output. (8 P.) Die Teststatistik für den multivariaten Test H0 : P = I ist T = −N log det R die für große N χ2 -verteilt ist mit df = p(p+1)/2−p = p(p−1)/2 Freiheitsgraden. Es gilt N = 34, p = 3 und somit df = 3. Damit ergibt sich det R = 0.492 (siehe Output) und T = 24.185. Das χ(0.99, 3)-Quantil ist 11.345. Damit wird H0 : P = I abgelehnt. In Teilaufgabe 2.3 wurde mit Bonferroni-Adjustierung ebenfalls H0 abgelehnt. Da es sich hierbei um eine konservative Testprozedur handelt (also α∗ ≤ α), hätte es passieren können, daß in 2.4 (exakte Einhaltung des Signifikanzniveaus) die H0 abgelehnt wird, jedoch in 2.3 beibehalten wird. Der SPSS-Output ergibt einen etwas anderen Testwert (22.129). Offenbar wurde der korrigierte Wert N 0 = N − (2p + 11)/6 = 31.167 und somit T 0 = 22.169 berechnet (Rundungsfehler, da nur 3 Kommastellen). 9 Abbildung 2: SPSS-Output zu Aufgabe 3 Aufgabe 3 (34 Punkte) Prüfen Sie anhand eines linearen Prognosemodells, ob die Variablen Selfreportedhealth und Air pollution einen statistisch bedeutsamen Einfluß auf die Variable LifeSatisfaction ausüben. Hilfsgrößen: (X0 X)−1 0.5299 −0.0192 −0.0486 215.806 = −0.0192 0.0052 −0.0018 , X0 y = 1544.22 −0.0486 −0.0018 0.0078 1714.57 Weitere Hilfsgrößen entnehmen Sie bitte den Outputs (Abb. 2). 10 3.1 Schätzen Sie die Parameter β und σ 2 eines multiplen Regressionsmodells. (6 P.) Abbildung 3: SPSS-Output zu Afg. 3 Die Regressionsparameter sind β̂ = (X0 X)−1 X0 y 0.5299 −0.0192 −0.0486 215.807 0.0052 −0.0018 1544.22 = −0.0192 −0.0486 −0.0018 0.0078 1714.57 1.379 = 0.800 0.106 (die von SPSS berechnete Lösung (Abb. 3) ist etwas anders, da man (X0 X)−1 mit mehr als 4 Kommastellen angeben müßte). Die Schätzung von σ 2 entnimmt man dem SPSS-Output: σ̂ 2 = mean square residual = 4.134 (MQR im Skript). 3.2 Berechnen Sie die geschätzte Kovarianzmatrix von β̂ und die Korrelation der Schätzer von β0 , β1 , β2 . (8 P.) Die geschätzte Kovarianzmatrix von β̂ und die Korrelation der Schätzer von β0 , β1 , β2 lauten 2.191 −0.079 −0.201 d β̂) = σ̂ 2 (X0 X)−1 = −0.079 0.021 −0.007 , Var( −0.201 −0.007 0.032 1. −0.368 −0.759 d β̂) = −0.368 1. −0.27 . Corr( −0.759 −0.27 1. 11 3.3 Prüfen Sie, ob die Regressoren zur Erklärung der abhängigen Variable beitragen (α = 0.05). (4 P.) Dem SPSS-Output entnimmt man die F -Statistik 13.439 = MQE/MQR. Der p-Wert ist 0.000, sodaß auf einem Niveau von α = 0.05 die H0 : β1 = β2 = 0 abgelehnt wird (p < α). 3.4 Prüfen Sie die einzelnen Regressions-Parameter auf Signifikanz (α = 0.05). Warum müssen dabei die einzelnen Signifikanz-Niveaus auf α/3 adjustiert werden? Was hat dies für das simultane Signifikanz-Niveau zur Folge? (8 P.) d β̂) entnimmt man die quadrierten StanDer Diagonale von Var( dardfehler der Parameterschätzungen, d.h. s2j = {2.191, 0.021, 0.032}, si = {1.480, 0.145, 0.179}. Daraus ergeben sich die t-Werte ti = β̂i /si = {0.932, 5.519, 0.591} (auch hier wirken sich die wenigen Stellen in (X0 X)−1 stark aus; vgl. Abb. 2). Die quadrierten Standardfehler sind χ2 (N − q − 1)-verteilt (N = 34, q = 2, N − q − 1 = 31), somit ergibt sich eine t(N − q − 1)Verteilung von β̂i /si . Deren Quantile sind t(1 − α/2, N − q − 1) = 2.04, adjustierte Werte t(1 − α/(2 ∗ 3), N − q − 1) = 2.531. Damit wird H01 : β1 = 0 abgelehnt. Dies entspricht dem SPSS-Output (p = 0.000). Auch nach einer Bonferroni-Adjustierung wird H01 abgelehnt. Das simultane Signifikanz-Niveau von 5% wird also auch für den Test H0 = H00 ∩ H01 ∩ H02 : β0 = β1 = β2 = 0 eingehalten. 3.5 Berechnen Sie den Determinationskoeffizienten und interpretieren Sie den Wert. (2 P.) Der Determinationskoeffizient ist R2 = 0.464.Daher wird 46.4% der Varianz von LifeSatisfaction durch Selfreportedhealth und Air pollution erklärt. 12 3.6 Ein Land hat auf den unabhängigen Variablen die Werte Selfreportedhealth = 6.1 und Air pollution = 7.0. Prognostizieren Sie die Variable LifeSatisfaction und berechnen Sie ein 95%-Prognoseintervall. (6 P.) Die individuelle Prognose der Variable LifeSatisfaction ist 1.379 ŷ0 = x00 β̂ = [1, 6.1, 7] 0.8 = 7.001. 0.106 Die Prognosefehler lauten p t · σ̂ 1 + x00 (X0 X)−1 x0 = 4.224 mit √ N = 34, q = 2, α = 0.05, t = t(1−α/2, N −q −1) = 2.04, σ̂ = 4.134 = 2.033. Das 95%-Prognoseintervall ist also 7.001±4.224. 13