Lineare Regressionsanalyse mit SPSS von Susanne Konrath Inhaltsverzeichnis Bestehenden Datensatz importieren Neue Daten eingeben Start der linearen Regression Dialogbox lineare Regression Festlegen der Regressionsgleichung Festlegen von Blöcken und der Variablenselektionsmethode Zu der Variablebselektionsmethoden Mögliche Bedingungen Gewichtete Regression Statistiken Diagramme Speichern Optionen Anpassungslinien in Streudiagramm zeichnen Anhang: Mehr zur Regression 1 Bestehenden Datensatz importieren Nach dem Start von SPSS öffnet sich automatisch der Daten-Editor Es können hier bestehende Daten mit Hilfe der Menüwahl Datei>Öffnen>Daten geladen werden. Es können verschiedene Dateitypen geladen werden. Der Import wird durch eine Dialogbox gesteuert. 2 Neue Daten eingeben Neue Variablen können mit der Registerkarte „Variablenansicht“ am unteren Rand des Spreadsheets definiert werden. Die neuen Daten können dann in der „Datenansicht“ eingegeben werden. Variablendefinition Dateneingabe 3 Start der linearen Regression Auswahl des Menüpunktes „Linear...“ unter Analysieren Regression Linear... 4 Dialogbox lineare Regression Es öffnet sich die Dialogbox „Lineare Regression“ Alle zur Verfügung stehenden Variablen befinden sich im linken Feld Zur Variablenselektion ist die Methode Einschlußverfahren voreingestellt 5 Festlegen der Regressionsgleichung Die abhängige Variable (hier: y) und die unabhängigen Variablen (hier: x1, x2) werden durch ziehen mit der Maus in die dafür vorgesehenen Felder eingefügt Der Intercept (hier: x0) muß nicht extra mit in die Modellgleichung aufgenommen werden 6 Festlegen von Blöcken und der Variablenselektionsmethode Bestimmung von Variablenblöcken Einstellung des Verfahrens zur Variablenselektion pro Block Durch die Auswahl der Methode kann festgelegt werden, wie unabhängige Variablen in die Analyse eingeschlossenen werden. Die verfügbaren Methoden sind: Einschluß Auschluß Vorwärts Rückwärts Schrittweise Es besteht die Möglichkeit die unabhängigen Variablen in Blöcke zusammenzufassen. Es können dann verschiedene Methoden für unterschiedliche Untergruppen von Variablen angegeben werden. Beispielsweise kann man einen Block von Variablen durch schrittweises Auswählen und einen zweiten Block durch Vorwärtsselektion in das Regressionsmodell einschließen. 7 Zu den Variablenselektionsmethoden Einschluß Alle unabhängigen Variablen des Blockes werden auf einmal in die Analyse einbezogen. Auschluß Um die Variablen in einem einzigen Schritt aus dem Block zu entfernen Schrittweise Methoden Vorwärts Es werden nacheinander die Variablen des Blockes mit dem höchsten partiellen Korrelationskoeffizienten mit der abhängigen Variablen in die Gleichung aufgenommen Rückwärts Zunächst werden alle unabhängige Variablen des Blockes in einem einzigen Schritt in die Gleichung eingeschlossen und anschließend diejenigen Variablen mit dem kleinsten partiellen Korrelationskoeffizienten mit der abhängigen Variablen nacheinander entfernt soweit der zugehörige Regressionskoeffizient nicht signifikant ist (Signifikanzniveau: 0,1) Schrittweise Funktioniert ähnlich wie die Vorwärtsmethode. Allerdings werden nach jedem Schritt die jeweils aufgenommenen Variablen nach der Rückwärtsmethode untersucht. 8 Mögliche Bedingungen (optional) Es kann eine Auswahlvariable zum Begrenzen der Analyse auf eine Untergruppe von Fällen mit einem bestimmten Wert oder bestimmten Werten für diese Variable angegeben werden. Es können Variablen zur Fallunterscheidung unter Fallbeschriftungen ausgewählt werden, um Punkte in Diagrammen zu identifizieren. 9 Gewichtete Regression (optional) Gewichtete kleinste Quadrate (WLS) geben Beobachtungen verschiedene Gewichtungen, zum Beispiel zum Ausgleich unterschiedlicher Meßgenauigkeit. Als Gewicht kann nur eine numerische Variable verwendet werden Die effektive Stichprobengröße wird nicht geändert. 10 Statistiken Regressionskoeffizienten Mit Schätzer werden die Regressionskoeffizienten B = Betadach, die Standardfehler von B, das Beta des standardisierten Koeffizienten?, die t-Werte für B und das zweiseitige Signifikanzniveau von t angezeigt. ->Viewer: Koeffizienten Mit Konfidenzintervalle werden die individuellen 95%Konfidenzintervalle für jeden Regressionskoeffizienten angezeigt. ->Viewer: Koeffizienten Mit Kovarianzmatrix wird eine Varianz-Kovarianz-Matrix und die Korrelationsmatrix der Regressionskoeffizienten angezeigt ->Viewer: Korrelation der Koeffizienten 11 Statistiken Anpassungsgüte des Modells Die aufgenommenen und entfernten Variablen aus dem Modell werden aufgelistet ->Viewer: Aufgenommene/Entfernte Variable Die folgenden Statistiken der Anpassungsgüte werden angezeigt: multiples R, R-Quadrat und korrigiertes R-Quadrat, Standardfehler des Schätzers ->Viewer: Modellzusammenfassung Und die Tabelle zur Varianzanalyse. ->Viewer: ANOVA Änderung in R-Quadrat Hier werden Änderung in R-Quadrat, Änderung in F und die Signifikanz der Änderung in F angezeigt. (siehe z.B. Toutenburg, LINEARE MODELLE, 2. Auflage, 2003, S147f.) ->Viewer: Modellzusammenfassung, Änderungsstatistiken Deskriptive Statistik Liefert die Anzahl gültiger Fälle, Mittelwert und Standardabweichung für jede Variable in der Analyse. ->Viewer: Deskriptive Statistiken Außerdem wird eine Korrelationsmatrix der Variablen nach Pearson mit einem einseitigen Signifikanzniveau und die Anzahl der Fälle für jede Korrelation angezeigt. ->Viewer: Korrelationen 12 Statistiken Teil- und partielle Korrelationen Hiermit werden Korrelationen nullter Ordnung, Teil- und partielle Korrelationen ? angezeigt. ->Viewer: Koeffizienten, Korrelationen Kollinearitätsdiagnose Eigenwerte der skalierten und unzentrierten Kreuzproduktmatrix, Konditionsindex, Proportionen der Varianzzerlegung ->Viewer: Kollinearitätsdiagnose Varianzfaktoren (VIF), Toleranzen für einzelne Variablen ->Viewer: Koeffizienten Residuen Durbin-Watson-Test für Reihenkorrelationen der Residuen ->Viewer: Modellzusammenfassung Fallweise Diagnose für die Fälle, die das Auswahlkriterium (Ausreißer über n Standardabweichungen) erfüllen werden standardisierte, nichtstandardisierte Residuen, nichtstandardisierter Vorhersagewert ausgegeben. ->Viewer: Fallweise Diagnose 13 Diagramme Streudiagramme Es können je zwei der folgenden Elemente aufgetragen werden: DEPENDENT *ZPRED *ZRESID *DRESID *ADJPRED *SRESID *SDRESID die abhängige Variable Y standardisierte vorhergesagte Werte für Y standardisierte Residuen ausgeschlossene Residuen korrigierte vorhergesagte Werte studentisierte Residuen studentisierte ausgeschlossene Residuen Es können mehrere Streudiagramme im Feld „Streudiagramm 1 von 1“ über die Schaltfläche Weiter erzeugt werden. 14 Diagramme Alle partiellen Diagramme erzeugen. Erzeugt Streudiagramme der Residuen aller unabhängigen Variablen und der Residuen der abhängigen Variablen, wenn für den Rest der unabhängigen Variablen beide Variablen einer getrennten Regression unterzogen werden. Zum Erzeugen eines partiellen Diagramms müssen mindestens zwei unabhängige Variablen in der Gleichung enthalten sein. Diagramme der standardisierten Residuen. Histogramme standardisierter Residuen Normalverteilungsdiagramme, welche die Verteilung standardisierter Residuen mit einer Normalverteilung vergleichen. Bemerkung: Beim Anfordern von Diagrammen werden Auswertungsstatistiken für standardisierte vorhergesagte Werte und standardisierte Residuen (*ZPRED und *ZRESID) angezeigt. 15 Speichern Mit jedem Auswahlvorgang werden der Datendatei die ausgewählten Größen als neue Variablen hinzugefügt. Vorhergesagte Werte. Dies sind die nach dem Regressionsmodell für die abhängige Variable vorhersagten Werte. Nicht standardisiert (pre*) Standardisiert (zpr*) Korrigiert (adj*) Standardfehler des Mittelwerts (sep*) ->Viewer: Residuenstatistik 16 Speichern Distanzen Dies sind Maße zum Auffinden von Fällen mit ungewöhnlichen Wertekombinationen bei der unabhängigen Variablen und von Fällen, die einen großen Einfluß auf das Modell haben könnten. Mahalanobis (mah*) Nach Cook (coo*) Hebelwerte (lev*) ->Viewer: Residuenstatistik Vorhersageintervalle Die oberen und unteren Grenzen sowohl für Mittelwert als auch für einzelne Vorhersageintervalle. Mittelwert (lmci*,umci*) Individuell (lici*,uici*) Konfidenzintervall 17 Speichern Residuen Der tatsächliche Wert der abhängigen Variablen minus dem vorhergesagten Wert aus der Regressionsgleichung. Nicht standardisiert (res*) Standardisiert (zre*) Studentisiert (sre*) Ausgeschlossen (dre*) Studentisiert, ausgeschlossen (sdr*) ->Viewer: Residuenstatistik Einflußstatistiken Die Änderung in den Regressionskoeffizienten und vorhergesagten Werten, die sich aus dem Ausschluß eines bestimmten Falls ergibt. DfBeta: (dfb0*,dfb1*, ...) Regressionskoeffizienten Standardisierte(s) DfBeta: (sdb0*,sdb1*, ...) DfFit: (dff*) vorhergesagten Werten Standardisiertes DfFit (sdf*) Kovarianzverhältnis: (cov*) Dies ist das Verhältnis der Determinante der Kovarianzmatrix für einen bestimmten ausgeschlossenen Fall zur Determinante der Kovarianzmatrix für alle Fälle. 18 Speichern In neuer Datei speichern Hiermit werden Regressionskoeffizienten in einer anzugebenen Datei gespeichert. Modellinformation in XML-Datei exportieren Hiermit werden Modellinformationen in die angegebene Datei exportiert. Diese Datei kann von SPSSZusatzprodukten wie SmartScore und zukünftigen Versionen von WhatIf? verwendet werden. 19 Optionen Kriterien für schrittweise Methode. Diese Optionen eignen sich für den Fall, daß die Vorwärts, Rückwärts- oder schrittweise Methode der Variablenauswahl angegeben wurde. Variablen im Modell werden eingeschlossen/entfernt in Abhängigkeit von F-Wahrscheinlichkeit, d.h. der Signifikanz (Wahrscheinlichkeit) des F-Werts F-Wert 20 Optionen Konstante in Gleichung einschließen Als Voreinstellung enthält das Regressionsmodell einen konstanten Term (intercept). Wenn diese Option deaktiviert ist, wird die Regression durch den Ursprung gezwungen. Achtung: Manche Resultate einer durch den Ursprung verlaufenden Regression lassen sich nicht mit denen einer Regression vergleichen, die eine Konstante aufweist. Beispielsweise kann R-Quadrat nicht in der üblichen Weise interpretiert werden. Tip: Option deaktivieren und Intercept eigenhändig als Variable einfügen. Dies führt zur vollständigen Ausgabe der Kovarianzmatrix und der Korrelationsmatrix Fehlende Werte Listenweiser Fallausschluß. Nur Fälle mit gültigen Werten für alle Variablen werden in die Analyse einbezogen. Paarweiser Fallausschluß. Fälle mit vollständigen Daten für das korrelierte Variablenpaar werden zum Berechnen des Korrelationskoeffizienten verwendet, auf dem die Regressionsanalyse basiert. Durch Mittelwert ersetzen. Alle Fälle werden für Berechnungen verwendet, wobei der Mittelwert der Variablen die fehlenden Beobachtungen ersetzt. 21 Anpassungslinien in Streudiagramm zeichnen Doppelklick auf das Streudiagramm, dann Diagramme Optionen... 22 Anhang: Mehr zur Regression Folgende Menüpunkte stehen zur Verfügung unter Analysieren Regression Linear... Abhängige Variable: Unabhängige Variablen: intervallskaliert / ordinalskaliert. beliebiges Skalenniveau 23 Anhang: Mehr zur Regression Kurvenanpassung... Mit der Prozedur "Kurvenanpassung" werden Regressionsstatistiken zur Kurvenanpassung und zugehörige Diagramme für 11 verschiedene Regressionsmodelle zur Kurvenanpassung erstellt. Binär logistisch... Binär logistisch... Abhängige Variable: Unabhängige Variablen: Multinomial logistisch... Abhängige Variable: Unabhängige Variablen: dichotom, d.h. 2 Kategorien beliebiges Skalenniveau mehr als 2 Kategorien, nominal nominal / ordinal Ordinal... (ab V.10.0) Abhängige Variable: mehr als 2 Kategorien, ordinal Unabhängige Variablen: nominal / ordinal Probit... Dosis-Wirkungskurven-Analyse. Diese Prozedur mißt die Beziehung zwischen der Stärke eines Stimulus und dem Anteil der Fälle, die eine bestimmte Response auf den Stimulus zeigen. 24 Anhang: Mehr zur Regression Nichtlinear... Mit der nichtlinearen Regression können Modelle mit willkürlichen Beziehungen zwischen den abhängigen und unabhängigen Variablen geschätzt werden. Dies wird durch den Einsatz eines iterativen Schätzungsalgorithmus erreicht. Gewichtungsschätzung... Bei Verletzung der Varianzhomogenität liefert die lineare Regression unter Verwendung der gewöhnlichen kleinsten Quadrate keine optimalen Modellschätzungen. Wenn die Differenzen in der Variabilität von einer anderen Variablen vorhergesagt werden können, dann können die Koeffizienten eines linearen Regressionsmodells mit der Prozedur "Gewichtungsschätzung" unter Verwendung von gewichteten kleinsten Quadraten (WLS) berechnet werden. Dabei wird den genaueren Beobachtungen (jene mit kleinerer Variabilität) ein größeres Gewicht beim Bestimmen der Regressionskoeffizienten zugewiesen. Mit der Prozedur "Gewichtungsschätzung" werden eine Reihe von Gewichtungstransformationen getestet, und es wird angezeigt, welche die beste Anpassung an die Daten ergibt. Zweistufige kleinste Quadrate... Standardmodelle für die lineare Regression gehen davon aus, daß Fehler in der abhängigen Variablen nicht mit den unabhängigen Variablen korrelieren. Ist dies nicht der Fall (zum Beispiel, wenn zwischen den Variablen eine Wechselwirkung besteht), dann liefert die lineare Regression unter Verwendung von gewöhnlichen kleinsten Quadraten keine optimalen Modellschätzungen mehr. Man verwendet die zweistufige Regressionsmethode der kleinsten Quadrate. 25 Anhang: Mehr zur Regression Optimale Skalierung... Durch die kategoriale Regression werden kategoriale Daten quantifiziert, indem den Kategorien numerische Werte zugewiesen werden. Dadurch ergibt sich für die transformierten Variablen eine optimale lineare Regressionsgleichung. Das Standardverfahren der linearen Regressionsanalyse beinhaltet die Minimierung der Summe von quadrierten Differenzen zwischen einer Antwortvariablen (abhängig) und einer gewichteten Kombination von Einflußvariablen (unabhängig). Variablen sind in der Regel quantitativ, wobei (nominale) kategoriale Daten in Binär- oder Kontrastvariablen umkodiert werden. Infolgedessen dienen kategoriale Variablen einer Aufteilung in verschiedene Gruppen von Fällen, so daß jeweils separate Parametersätze für jede Gruppe geschätzt werden. Die geschätzten Koeffizienten geben die Auswirkung einer Änderung in den Einflußvariablen auf die Antwortvariable wider. Die Antwort kann für jede beliebige Kombination von Einflußwerten vorhergesagt werden. Eine andere Methode besteht darin, daß die Antwort auf die kategorialen Einflußwerte selbst einer Regression unterzogen wird. Folglich wird für jede Variable ein Koeffizient geschätzt. Bei kategorialen Variablen sind die Kategoriewerte jedoch willkürlich. Durch verschiedene Kodierungsarten der Kategorien ergeben sich jeweils unterschiedliche Koeffizienten, wodurch ein analysenübergreifender Vergleich gleicher Variablen erschwert wird. CATREG erweitert die Standardmethode durch eine gleichzeitige Skalierung nominaler, ordinaler und numerischer Variablen. Die Prozedur quantifiziert kategoriale Variablen, so daß in den Quantifikationen die Merkmale der ursprünglichen Kategorien zum Ausdruck kommen. Dadurch werden quantifizierte kategoriale Variablen auf dieselbe Weise wie numerische Variablen behandelt. Durch die Verwendung nichtlinearer Transformationen können Variablen auf einer Vielzahl von Ebenen analysiert und somit das jeweils geeignetste Modell gefunden werden. 26