Aufgabenblatt 1

Werbung
EDV III – Regressionsanalyse
(Kurs 1/2003)
Ziel:
Untersuchung von Kausalbeziehungen (Je-Desto-Beziehungen) (Ursachenanalysen,
Wirkungsprognosen, Zeitreihenanalysen);
Bezeichnungen:
Y: Regressand, abhängige Variable, endogene Variable, erklärte Variable,
Prognosevariable
X1…Xn: Regressoren, unabhängige Variable(n), exogene Variable(n), erklärende
Variable(n), Prädikatorvariable(n)
Monokausale Beziehung Y = f(X) (Je höher das Nettoeinkommen, desto höher ist
die Nachfrage nach Bioprodukten)
Multikausale Beziehung Y = f(X1, X2, …, Xn) (Die Nachfrage nach Bioprodukten
hängt ab vom Nettoeinkommen, Alter, Bildungsstand, …)
Problem: Nicht immer ist jedoch die funktionale Abhängigkeit eindeutig („was ist X
und was ist Y?): Je bekannter eine Marke, desto mehr wird sie i.d.R. auch gekauft.
Aber: Je mehr eine Marke gekauft wird, desto höher ist auch ihr Bekanntheitsgrad.
Abfolge der Regressionsanalyse:
(1) Modellformulierung
(2) Schätzung der Regressionsfunktion
(3) Prüfung der Regressionsfunktion
(4) Prüfung der Regressionskoeffizienten
(5) Prüfung der Modellprämissen
Beispiel:
Nr.
1
2
3
4
5
6
7
8
9
10
MENGE
(Menge
verkaufter
Kartons pro
Periode)
2585
1819
1647
1496
921
2278
1810
1987
1612
1913
PREIS
(Preis pro
Karton)
12,50
10,00
9,95
11,50
12,00
10,00
8,00
9,00
9,50
12,50
-1-
AUSGABEN
BESUCHE (Zahl
(Ausgaben für
der
Verkaufsförderung) Vertreterbesuche)
2000
550
1000
800
0
1500
800
1200
1100
1300
109
107
99
70
81
102
110
92
87
79
Menge Kartons
Aufgabe 1:
Erfassen Sie die Werte des Beispiels in SPSS. Vergeben Sie für die Variablen
aussagekräftige Namen und erfassen Sie die Variablenlabels
(1) Arbeiten zum Schritt „Modellformulierung“
Aufgabe 2:
Erstellen Sie ein Streudiagramm (Menüfolge: Grafiken -> Streudiagramm; Optionen:
Einfach -> Definieren). Es soll die Absatzmenge der Kartons in Abhängigkeit von der
Zahl der Vertreterbesuche dargestellt werden. Übernehmen Sie die geeigneten
Variablen in die Felder X- und Y-Achse.
Welcher Zusammenhang zwischen beiden Variablen ist zu vermuten?
Diagramm
Streudiagram m Absatzmenge - Vertreterbesuche
3000
2000
1000
0
60
70
80
90
100
110
120
V ertreterbes uc he
(2) Arbeiten zum Schritt „Schätzung der
Regressionsfunktion“
Aufgabe 3:
Ermitteln Sie die Regressionsfunktion
(Menüfolge: Analysieren -> Regression -> Linear; Optionen: Einfach -> Definieren).
Es soll die Absatzmenge der Kartons in Abhängigkeit von der Zahl der
Vertreterbesuche dargestellt werden. Übernehmen Sie die geeigneten Variablen in
die Felder „abhängige“ bzw. „unabhängige“ Variable.
-2-
Menge Kartons
3000
2000
1000
Beobachtet
0
Linear
60
70
80
90
100
110
120
Vertreterbesuche
(3) Arbeiten zum Schritt „Prüfung der
Regressionsfunktion“
a) Globale Prüfung der Regressionsfunktion
Bestimmtheitsmaß R2
F-Statistik
Standardfehler
b) Prüfung der Regressionskoeffizienten
t-Wert
Vertrauensintervall
Bestimmtheitsmaß:
Mißt die Güte der Anpassung der Regressionsfunktion an die empirischen Daten.
Das Bestimmtheitsmaß in dem Beispiel beträgt 0,346, d.h., dass 34,6% der
gesamten Abweichungen der beobachteten y-Werte (Verkaufte Kartons) von den
geschätzten Werten der Regressionsgleichung erklärt werden können. (erklärt
werden kann die Differenz jedes geschätzten ŷi zum Mittelwert). 65,4 % bleiben
unerklärt. Die Schwankungen der Absatzmenge Y sind zu einem wesentlichen Teil
durch andere Einflüsse als die Vertreterbesuche bedingt.
-3-
F-Test:
Soll die Frage beantworten, ob die Regression nicht nur deskriptiv für die Daten der
Stichprobe gilt, sondern ob die Regressionsfunktion als geschätztes Modell auch
Gültigkeit für die Grundgesamtheit hat.
Wenn zwischen der abhängigen Variablen Y und der/den unabhängigen Variable(n)
ein kausaler Zusammenhang besteht, so müssen die wahren
Regressionskoeffizienten βj ungleich Null sein.
Zur Prüfung des Modells wird die Gegenhypothese H0 („Nullhypothese“) aufgestellt.
Sie lautet: Es besteht kein Zusammenhang und somit haben die
Regressionskoeffizienten in der Grundgesamtheit alle den Wert Null.
(Anmerkung: Je weniger Beobachtungswerte, umso besser wird i.d.R. das
Bestimmtheitsmaß. Mit wenigen Beobachtungen kann man jedoch tendenziell nur
ein schlechteres Modell für die Grundgesamtheit erzielen)
Standardfehler der Schätzung:
Welcher mittlere Fehler wird bei Verwendung der Regressionsfunktion zur
Schätzung der abhängigen Variablen Y gemacht?
(4) Arbeiten zum Schritt „Prüfung der
Regressionskoeffizienten“


t-Test
Wenn der F-Test ergeben hat, dass nicht alle Regressionskoeffizienten βj
gleich Null sind, sind die Regressionskoeffizienten einzeln zu prüfen – mit der
Nullhypothese
H0: βj = 0
Ermittlung des Konfidenzintervalls der (wahren) Regressionskoeffizienten
(5) Arbeiten zum Schritt „Prüfung der Modellprämissen“





Linearität – Nichtlinearität ? (Streudiagramm)
Heteroskedastizität der Residuen? Im Dialogfeld „Diagramme“ der
Regressionsanalyse: für Y die Variable *ZRESID aufnehmen und als XVariable *ZPRED aufnehmen. Streudiagramm zeigt, keine
Heteroskedastizität
Autokorrelation
Durbin/Watson-Koeffizient d (= Indexwert für die Prüfung der Autokorrelation):
Der Durbin/Watson-Test prüft die Nullhypothese, dass die
Beobachtungswerte nicht autokorreliert sind. Hierzu wird ein empirischer Wert
d ermittelt, der die Differenz zwischen den Residuen von
aufeinanderfolgenden Beobachtungswerten aggregiert.
Wenn die Residuen zweier folgender Beobachtungswerte nahezu gleich sind
(d.h. sie unterliegen einem Trend – positive Autokorrelation), dann ist auch
der Wert von d klein.
Starke Sprünge in den Residuen führen zu hohen Werten von d. Dies deutet
auf eine negative Autokorrelation hin
Multikollinearität (bei mehreren Regressoren): Die Regressoren dürfen nicht
(exakt) linear voneinander abhängig sein.
Zur Aufdeckung von Multikollinearität kann eine Regression jeder
unabhängigen Variablen auf die übrigen unabhängigen Variablen
-4-
durchgeführt werden. Ein Wert Rj2 = 1 besagt dann, dass sich die Variable Xj
durch Linearkombination der anderen unabhängigen Variablen erzeugen
lässt und somit überflüssig ist (in abgeschwächter Form gilt dies für Rj2 nahe
1).
Verwandtes Maß: Toleranz Tj der Variablen Xj
Tj = 1-Rj2
kehrwert der Toleranz ist der Variance Inflation Factor VIF.
Aufgabe 4:
Führen Sie nun eine multivariate Regressionsanalyse [Blockweise Regression
(=Methode „Einschluß“)] mit den Beispielsdaten durch.
-5-
Herunterladen