Multivariate Verfahren

Werbung
Selbstkontrollarbeit 1
Multivariate Verfahren
Musterlösung
Aufgabe 1
(40 Punkte)
Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie die Datei hier
downloaden.
1.1
Lesen Sie die Datei in SPSS ein. Berücksichtigen Sie, dass in der Exceltabelle
keine Variablennamen enthalten sind!
(3 P.)
1
Hinweise zum Erzeugen der Lösung:
2
1.2
Lassen Sie sich die Mittelwerte, Kovarianzen und Korrelationen ausgeben!
(3 P.)
Hinweise zum Erzeugen der Lösung:
3
1.3
Plotten Sie außerdem Histogramme der einzelnen Variablen mit Normalverteilungskurve. Sprechen die Grafiken für oder gegen eine univariate
Normalverteilung der beiden Variablen? Begründen Sie Ihre Antwort. (4 P.)
Die Grafiken sprechen bei beiden Variablen für eine Normalverteilung, da das Histogramm im Großen und Ganzen an der Normalverteilungskurve liegt.
4
Hinweise zum Erzeugen der Lösung:
1.4
Gehen Sie jetzt von einer univariaten Normalverteilung der Variablen
aus. Welcher bivariaten Verteilung gehören die Daten an? Geben Sie die
Maximum-Likelihood-Schätzer für die Verteilungsparameter an (gerundet
auf zwei Nachkommastellen)!
(6 P.)
Da beide Randverteilungen normalverteilt sind, kann man annehmen, dass die Daten bivariat (oder multivariat) normalverteilt
sind. Die Schätzer für die Parameter lassen sich aus den SPSS
Outputs entnehmen:
0.87 1.23
−0.98
199 0.869 1.238
N −1
µ̂ =
, Σ̂ = N S = 200
=
1.238 3.868
1.23 3.85
0.99
5
1.5
Bestimmen Sie zur Erzeugung weiterer Zufallszahlen die Cholesky-Wurzel
der Kovarianzmatrix. Nehmen Sie an, dass z1 = 0.51 und z2 = −0.23 zwei
Realisierungen von unabhängigen, standard-normalverteilten Zufallszahlen
sind, und generieren sie daraus eine bivariate Zufallszahl mit der von Ihnen
in Teilaufgabe 1.4 bestimmten Verteilung!
(12 P.)
ρ = 0.675, σ1 = 0.93, σ2 = 1.97 µ1 = −0.98 µ2 = 0.99
0.93 0
σ1 0 1 p 0
Γ=
=
0 σ2 ρ
1.33 1.45
1 − ρ2
x1 = µ1 + Γ11 z1 + Γ12 z2 = −0.51
x2 = µ2 + Γ21 z1 + Γ22 z2 = 1.33
1.6
Nehmen Sie an, dass die Daten, die Sie in SPSS eingelesen haben, eine
Realisation des Zufallsvektors x sind, und verwenden Sie Ihre Ergebnisse
aus Teilaufgabe 1.4. Bestimmen Sie den Erwartungswert
und die Kovarianz 3 1
6
matrix der Transformation y = Ax + c mit A =
und c =
. (8 P.)
0 2
3
−0.98
0.87 1.23
E[x] =
, Var[x] =
0.99
1.23 3.85
4.05
E[y] = AE[x] + c =
4.98
19.06 15.08
0
Var[y] = AVar[x]A =
15.08 15.4
1.7
Ist die Korrelation zum 5%-Niveau signifikant von 0 verschieden? Begründen
Sie Ihre Antwort.
(2 P.)
Ja, die Korrelation ist zum 5%-Niveau signifikant von 0 verschieden. Die Korrelation ist sogar zum 1%-Niveau signifikant, daher
gilt es für größere α-Werte ebenso; entsprechend ist der p−Wert
bei 0.000.
1.8
Wenn die Variable 1 einen hohen Wert annimmt, ist dann die Variable 2 eher
groß oder eher klein? Begründen Sie Ihre Antwort.
(2 P.)
Tendenziell ist die Variable 2 dann ebenfalls groß, da die Korrelation mit ρ = 0.675 recht hoch ist.
6
Aufgabe 2
(26 Punkte)
Betrachten Sie bitte den SPSS-Output in Abb. 1.
2.1
Wie lautet der Mittelwertsvektor x̄ und die Stichproben-Kovarianzmatrix
der Variablen Selfreportedhealth und LifeSatisfaction (gerundet auf
3 Kommastellen)?
(2 P.)
Mittelwertsvektor x̄ = [6.447, 6, 347]0 ,
6.397 4.635
Stichproben-Kovarianzmatrix S =
4.635 7.251
2.2
Prüfen Sie die Nullhypothese µ = [7, 7]0 für die beiden Variablen (α = 0.05).
(12 P.)
Die Hotelling T 2 -Statistik lautet:
T 2 = N (x̄ − µ0 )0 S−1 (x̄ − µ0 ) ∼ T 2 (p, N − 1)
0.291 −0.186
Es gilt: S =
, N = 34, p = 2, α = 0.05,
−0.186 0.257
β 0 = [7, 7]0 , x̄ − β 0 = [−0.553, −0.653]0 .
−1
Man findet T 2 = 2.184. Der Testwert T 2 muß mit einem Faktor multipliziert werden, damit die F -Verteilung benutzt werden
kann.
N −p
· T 2 := T̃ 2 = 1.059 ∼ F (p, N − p)
(N − 1)p
F (1 − α, p, N − p) = 3.295
Damit wird H0 : µ = [7, 7]0 beibehalten.
7
Abbildung 1: SPSS-Output zu Aufgabe 2
8
2.3
Betrachten Sie nun alle 3 Variablen. Welche der Korrelationen unterscheiden
sich signifikant von 0 unter Einhaltung eines simultanen Signifikanzniveaus
von α∗ ≤ α = 0.01? Verwenden Sie ein adjustiertes Signifikanzniveau für die
Einzeltests.
(4 P.)
Adjustiert man die Einzeltests, so legt man ein Signifikanzniveau
α/3 = 0.01/3 = 0.003 für die Einzeltests zugrunde. Die p-Werte
aus der Korrelationstabelle sind größer als dieser Wert, bis auf
p(Selfreportedhealth, LifeSatisfaction) = 0.000 (die Korrelation ist 0.681).
2.4
Führen Sie einen Test der Hypothese P = I durch, der das Signifikanzniveau
α∗ = α = 0.01 exakt einhält. Vergleichen Sie mit Teilaufgabe 2.3 und dem
SPSS-Output.
(8 P.)
Die Teststatistik für den multivariaten Test H0 : P = I ist
T = −N log det R
die für große N χ2 -verteilt ist mit df = p(p+1)/2−p = p(p−1)/2
Freiheitsgraden. Es gilt N = 34, p = 3 und somit df = 3. Damit
ergibt sich det R = 0.492 (siehe Output) und T = 24.185. Das
χ(0.99, 3)-Quantil ist 11.345. Damit wird H0 : P = I abgelehnt.
In Teilaufgabe 2.3 wurde mit Bonferroni-Adjustierung ebenfalls
H0 abgelehnt. Da es sich hierbei um eine konservative Testprozedur handelt (also α∗ ≤ α), hätte es passieren können, daß in
2.4 (exakte Einhaltung des Signifikanzniveaus) die H0 abgelehnt
wird, jedoch in 2.3 beibehalten wird.
Der SPSS-Output ergibt einen etwas anderen Testwert (22.129).
Offenbar wurde der korrigierte Wert N 0 = N − (2p + 11)/6 =
31.167 und somit T 0 = 22.169 berechnet (Rundungsfehler, da nur
3 Kommastellen).
9
Abbildung 2: SPSS-Output zu Aufgabe 3
Aufgabe 3
(34 Punkte)
Prüfen Sie anhand eines linearen Prognosemodells, ob die Variablen Selfreportedhealth und Air pollution einen statistisch bedeutsamen Einfluß
auf die Variable LifeSatisfaction ausüben.
Hilfsgrößen:

(X0 X)−1



0.5299 −0.0192 −0.0486
215.806
= −0.0192 0.0052 −0.0018 , X0 y = 1544.22
−0.0486 −0.0018 0.0078
1714.57
Weitere Hilfsgrößen entnehmen Sie bitte den Outputs (Abb. 2).
10
3.1
Schätzen Sie die Parameter β und σ 2 eines multiplen Regressionsmodells.
(6 P.)
Abbildung 3: SPSS-Output zu Afg. 3
Die Regressionsparameter sind
β̂ = (X0 X)−1 X0 y



0.5299 −0.0192 −0.0486
215.807
0.0052 −0.0018   1544.22 
=  −0.0192
−0.0486 −0.0018
0.0078
1714.57


1.379
=  0.800 
0.106
(die von SPSS berechnete Lösung (Abb. 3) ist etwas anders, da
man (X0 X)−1 mit mehr als 4 Kommastellen angeben müßte).
Die Schätzung von σ 2 entnimmt man dem SPSS-Output: σ̂ 2 =
mean square residual = 4.134 (MQR im Skript).
3.2
Berechnen Sie die geschätzte Kovarianzmatrix von β̂ und die Korrelation der
Schätzer von β0 , β1 , β2 .
(8 P.)
Die geschätzte Kovarianzmatrix von β̂ und die Korrelation der
Schätzer von β0 , β1 , β2 lauten


2.191 −0.079 −0.201
d β̂) = σ̂ 2 (X0 X)−1 =  −0.079
0.021 −0.007  ,
Var(
−0.201 −0.007
0.032


1. −0.368 −0.759
d β̂) =  −0.368
1. −0.27  .
Corr(
−0.759 −0.27
1.
11
3.3
Prüfen Sie, ob die Regressoren zur Erklärung der abhängigen Variable beitragen (α = 0.05).
(4 P.)
Dem SPSS-Output entnimmt man die F -Statistik 13.439 =
MQE/MQR. Der p-Wert ist 0.000, sodaß auf einem Niveau von
α = 0.05 die H0 : β1 = β2 = 0 abgelehnt wird (p < α).
3.4
Prüfen Sie die einzelnen Regressions-Parameter auf Signifikanz (α = 0.05).
Warum müssen dabei die einzelnen Signifikanz-Niveaus auf α/3 adjustiert
werden? Was hat dies für das simultane Signifikanz-Niveau zur Folge? (8 P.)
d β̂) entnimmt man die quadrierten StanDer Diagonale von Var(
dardfehler der Parameterschätzungen, d.h.
s2j = {2.191, 0.021, 0.032}, si = {1.480, 0.145, 0.179}.
Daraus ergeben sich die t-Werte ti = β̂i /si = {0.932, 5.519, 0.591}
(auch hier wirken sich die wenigen Stellen in (X0 X)−1 stark aus;
vgl. Abb. 2).
Die quadrierten Standardfehler sind χ2 (N − q − 1)-verteilt (N =
34, q = 2, N − q − 1 = 31), somit ergibt sich eine t(N − q − 1)Verteilung von β̂i /si . Deren Quantile sind t(1 − α/2, N − q − 1) =
2.04, adjustierte Werte t(1 − α/(2 ∗ 3), N − q − 1) = 2.531. Damit
wird H01 : β1 = 0 abgelehnt. Dies entspricht dem SPSS-Output
(p = 0.000).
Auch nach einer Bonferroni-Adjustierung wird H01 abgelehnt.
Das simultane Signifikanz-Niveau von 5% wird also auch für den
Test H0 = H00 ∩ H01 ∩ H02 : β0 = β1 = β2 = 0 eingehalten.
3.5
Berechnen Sie den Determinationskoeffizienten und interpretieren Sie den
Wert.
(2 P.)
Der Determinationskoeffizient ist R2 = 0.464.Daher wird 46.4%
der Varianz von LifeSatisfaction durch Selfreportedhealth
und Air pollution erklärt.
12
3.6
Ein Land hat auf den unabhängigen Variablen die Werte Selfreportedhealth = 6.1 und Air pollution = 7.0. Prognostizieren Sie die
Variable LifeSatisfaction und berechnen Sie ein 95%-Prognoseintervall.
(6 P.)
Die individuelle Prognose der Variable LifeSatisfaction ist


1.379
ŷ0 = x00 β̂ = [1, 6.1, 7]  0.8  = 7.001.
0.106
Die Prognosefehler lauten
p
t · σ̂ 1 + x00 (X0 X)−1 x0 = 4.224
mit
√ N = 34, q = 2, α = 0.05, t = t(1−α/2, N −q −1) = 2.04, σ̂ =
4.134 = 2.033. Das 95%-Prognoseintervall ist also 7.001±4.224.
13
Herunterladen