Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen bearbeitet: – Es werden Punktschätzungen für die Koeffizienten a (Absolutglied) und b (Anstieg) gesucht (→ Literatur). 1 – Als Schätzung für die Varianz σ 2 der Messfehler (pure error) verwendet man die gemittelte Residuenquadratsumme SQR n−2 Diese Schätzung ist nur erwartungstreu, wenn in der Grundgesamtheit der Zusammenhang zwischen der abhängigen Größe Y und der Einflussgröße X tatsächlich durch eine lineare Funktion gegeben ist (no lack of fit error). 2 – Auf der Basis der t–Verteilung lassen sich sowohl Konfidenzintervalle für die Koeffizienten angeben als auch Tests durchführen, bei denen die Nullhypothese geprüft wird, dass der jeweilige Koeffizient verschwindet. Beispielsweise kann die Nullhypothese b = 0 – die in diesem Fall nur einer Einflussgröße der Globalhypothese entspricht – nicht verworfen werden, wenn das entsprechende Konfidenzintervall die Null enthält. 3 – Neben dem Koeffizienten b wird ein standardisierter Beta–Koeffizient ausgewiesen. Dieser Koeffizient entspricht dem Anstieg in einem Regressionsmodell mit standardisierten Größen. Der Maßstab von X ist also die Standardabweichung. Beta–Koeffizienten erlauben speziell in linearen Regressionsmodellen mit mehreren unabhängigen Variablen auf der Basis ihrer Größe den Vergleich der Stärke des Einflusses auf die abhängige Variable. 4 – Generell ist die lineare Regressionsanalyse relativ robust gegenüber Abweichungen von den Modellvoraussetzungen. • Die Verteilungsvoraussetzungen bezüglich der Messfehler werden häufig an den Residuen yi − (a∗ + b∗ xi ) überprüft. Die Normalverteilung der Residuen kann mit Hilfe diagnostischer Plots (z.B. P-P–Plot) und mit Hilfe von Anpassungstests überprüft werden. 5 • Die Konstanz der Varianze der Messfehler (Homoskedastizität) kann man explorativ unter Verwendung von Streudiagrammen überprüfen. Beispielsweise plottet man die gemessenen oder vorhergesagten Werte der abhängigen Variablen gegen die zugehörigen Residuen. Ist die Varianz z.B. proportional zu den gemessenen Werten der abhängigen Variablen, kann man die Daten evtl. transformieren oder gewichtete Varianten der Methode der kleinsten Quadrate einsetzen. 6 • Die Unabhängigkeit der Messfehler ist z.B. bei Zeitreihendaten evtl. verletzt. Mit Hilfe der Durbin–Watson–Statistik kann die Unabhängigkeit überprüft werden. Bei hinreichend großem Stichprobenumfang deuten Werte der Teststatistik unter 1.5 oder über 2.5 darauf hin, dass Autokorrelationen vorliegen. 7 – Ausreißer in den Daten haben evtl. einen unerwünscht hohen Einfluss auf die geschätzte Regressionsgerade. Sie sind evtl. schon im Streudiagramm der Daten, an der Größe der Residuen oder mit Hilfe der Cook–Distanz oder des Hebelwertes erkennbar. Sie sollten überprüft und ggf. von der Analyse ausgeschlossen werden. – Vorhersagen y ∗ (x) = f ∗ (x) = a∗ + b∗ x von Werten der abhängigen Variablen für vorgegebene Werte x der Einflussgröße sollten nur für Werte x aus dem Bereich erfolgen, aus dem Werte xi in den Daten vorliegen. Neben Punktschätzungen für die Mittelwerte bzw. Prognosen für die Einzelwerte lassen sich Konfidenzintervalle angeben. 8 Verallgemeinerungen der linearen Einfachregression Das Modell der linearen Einfachregression lässt sich in verschiedener Hinsicht verallgemeinern. Werden mehrere metrische Einflussgrößen berücksichtigt, kommen Modelle der multiplen linearen Regressionsanalyse zum Einsatz. Die zentrale, neu hinzutretende Fragestellung ist die nach der Bewertung des Einflusses der verschiedenen Einflussgrößen auf die Zielgröße falls die Einflussgrößen untereinander nicht unkorreliert sind (Wechselwirkung). Korrelationen zwischen den Einflussgrößen verkomplizieren die Auswahl eines zu schätzendes Modells und erschweren seine Interpretation. 9 Einige Aspekte der multiplen linearen Regressionsanalyse Betrachtet man die Wirkung mehrerer (metrischer) Einflussgrößen auf eine metrische Zielgröße und will man den Zusammenhang mit Hilfe eines multiplen linearen Regressionsmodells beschreiben, so stellt sich die Frage nach den tatsächlich relevanten Einflussgrößen, die dann auch im Regressionsansatz Verwendung finden sollten, und ihrer spezifischen Bedeutung für die Vorhersage der abhängigen Variablen. 10 Relativ einfach zu beantworten ist diese Frage, wenn die potentiellen Einflussgrößen untereinander unkorreliert sind (orthogonales Design, evtl. durch Versuchsplanung erzeugt). In diesem Fall überlagern sich die Einflüsse verschiedener Einflussgrößen nur additiv (keine Wechselwirkung) und die Beta–Koeffizienten spiegeln die relative Bedeutung der berücksichtigten Variablen direkt wieder. Entfernt man in diesem Fall eine Einflussgröße aus dem Ansatz, so ändern sich diese Bewertungen für die im Ansatz verbleibenden Größen nicht; der neue Ansatz muss nicht neu geschätzt werden. 11 Gänzlich anders ist die Situation, wenn lineare Abhängigkeiten zwischen den Einflussgrößen vorliegen, die sich im Ansatz befinden. Diese Situation ist für nicht experimentelle Designs – z.B. Umfragedaten – typisch. Liegen ausgeprägte Abhängigkeiten zwischen den Einflussgrößen vor, so ist die Schätzung der Koeffizienten des Modells ungenau, die Interpretation der Bedeutung von Einflussgrößen schwierig und die Auswahl geeigneter Größen für den Ansatz kompliziert (Redundanz bzw. Supressionseffekte). Einige derartige Probleme werden an dem folgenden Beispiel erläutert. 12 Beispiel: Abhängigkeit des Wortschatzes von Kindern von der Körpergröße und dem Alter Es liegen Daten von 8 Kindern vor, bei denen jeweils der Wortschatz (score), die Körpergröße (in cm) und das Alter (in Jahren) erfasst wurden. Wortschatz 41 31 17 23 46 37 31 30 Größe 130 110 100 98 145 135 117 127 Alter 12 7 6 7 14 11 9 10 13 Offensichtlich verfügen größere Kinder über einen größeren Wortschatz. Die Kopplung ist stark. Der Korrelationskoeffizient zwischen Wortschatz und Größe liegt bei 0.915. Die Anpassung eines einfachen lineare Regressionsmodells zur Vorhersage des Wortschatzes mit Hilfe der Körpergröße führt zu hoch signifikanten Ergebnissen. Ein kausaler Zusammenhang besteht zwischen den in diesem Regressionsmodell befindlichen Merkmalen wohl aber nicht. Eine Erklärung dieses Sachverhaltes kann man finden, wenn die Drittvariable Alter in die Analyse einbezogen wird. Sowohl Wortschatz als auch Größe korrelieren stark mit dem Alter. Die beiden Korrelationskoeffizienten haben die Werte 0.934 und 0.961. 14 Ein Regressionsmodell mit Alter als Einfluss- und Wortschatz als abhängige Größe liefert ausgezeichnete Ergebnisse und lässt sich kausal interpretieren. Werden beide Einflussgrößen gemeinsam in ein multiples lineares Regressionsmodell einbezogen, so ist das Modell insgesamt hoch signifikant. Die Nullhypothese des Globaltest (die Koeffizienten von Alter und Größe sind beide Null) wird z.B. bei einem Signifikanzniveau von α = 0.01 abgelehnt. Allerdings ist keiner der Koeffizienten (Anstieg des Wortschatzes bezüglich Alter bzw. Größe) einzeln signifikant von Null verschieden. 15 Dies ist ein Resultat der starken linearen Abhängigkeit zwischen Alter und Größe. Es liegen redundante Einflussgrößen vor, und die Schätzungen der Koeffizienten des Modells sind deshalb ungenau. Es gibt verschiedene Techniken, derartige Probleme in multiplen linearen Regressionsmodellen zu erkennen. Eine dieser Möglichkeiten bieten Partialkorrelationen. Die Idee besteht darin, den linearen Einfluss einer Drittvariablen – hier Alter – aus dem linearen Zusammenhang zweier Variabler – hier Wortschatz und Größe – herauszurechnen (herauszupartialisieren). 16 Um dies zu realisieren, werden zwei einfache lineare Regressionsmodelle geschätzt, die beide die Drittvariable – hier Alter – als Einflussgröße benutzen und jeweils eine der beiden anderen Variablen – hier Wortschatz und Größe – als abhängige Variable verwenden. Anschließend werden in beiden Regressionsmodellen die Residuen berechnet. In den Residuen stecken also die Veränderungen der jeweils abhängigen Variablen, die sich nicht mit Hilfe des entsprechenden Regressionsmodells aus der Drittvariablen erklären lassen. Der partielle Korrelationskoeffizient ist dann der Korrelationskoeffizient dieser Residuen. Er beschreibt die lineare Abhängigkeit zwischen zwei Variablen, die sich nicht aus dem linearen Einfluss einer Drittvariablen erklären lässt. 17 In unserem Beispiel reduziert sich die Korrelation von 0.915 zwischen Wortschatz und Größe bei Berücksichtigung der Drittvariable Alter auf eine Partialkorrelation von 0.185. Der lineare Zusammenhang zwischen Wortschatz und Größe ist also sehr gering, wenn man den linearen Einfluss des Alters herausrechnet. Der Regressionsansatz ist redundant und sollte durch Elimination der Variablen Größe reduziert werden. 18 Die Partialkorrelation lässt sich mit Hilfe bivariater Korrelationskoeffizienten berechnen. Sind drei Variablen X, Y, Z gegeben, so bezeichnen wir mit rxy , rxz , ryz die bivariaten Korrelationskoeffizienten und mit rxy·z den partiellen Korrelationskoeffizienten von X und Y , wenn der Einfluss von Z herauspartialisiert wird. Es gilt rxy·z = q rxy − rxz ryz 2 1 − rxz 19 q 2 1 − ryz Neben der Partialkorrelation existieren noch andere Verfahren, um Probleme im Zusammenhang mit Abhängigkeiten zwischen den Einflussgrößen in einem multiplen linearen Regressionsansatz zu erkennen und angemessen darauf zu reagieren. 20 Bemerkungen – Kategoriale Einflussgrößen lassen sich in Regressionsmodellen mit Hilfe von Dummy–Variablen behandeln: Hat die kategoriale Einflussgröße k Merkmalsausprägungen, so wird sie durch k − 1 Dummy–Variablen (Indikatorvariablen) koodiert. Dabei ist die i–te DummyVariable 1, wenn die i–te Merkmalsausprägung vorliegt, anderenfalls 0. Falls die k–te Merkmalsausprägung (Referenzkategorie) auftritt, sind alle Dummy–Variablen 0. Der zu schätzende Koeffizient im Regressionsmodell, der vor dieser Dummy–Variablen steht, erfasst also die Auswirkung des Vorliegens dieser Ausprägung der kategorialen Einflussgröße. Damit lassen sich Modelle der ANOVA als Regressionsmodelle behandeln. 21 – Regressionsmodelle mit metrischen und kategorialen Einflussgrößen werden auch als Modelle der Kovarianzanalyse bezeichnet. Sie können als verallgemeinerte lineare Modelle behandelt werden. 22 – Gehen zu schätzende Parameter nichtlinear in das vorgegebene Modell ein, so liegt ein nichtlineares Regressionsproblem vor. Da i.a. keine geschlossenen Lösungen (Formeln) für die Bestimmung der Koeffizienten des Ansatzes existieren, kommen iterative Verfahren zur Bestimmung der Koeffizienten zum Einsatz. Diese erfordern i.a. die Vorgabe von Startwerten und Vorgaben zur Steuerung des iterativen Bestimmungsprozesses (z.B. seines Abbruchs). Da in multiplen nichtlinearen Regressionsmodellen die Wirkung einer Einflussgröße auf die Zielgröße von den Werten aller anderen Einflussgrößen abhängen kann, ist eine Bewertung einer Abhängigkeitsstruktur deutlich komplizierter als in linearen Regressionsmodellen (evtl. komplexe Wechselwirkungen). 23 – Auch Modelle mit nichtmetrischen Zielgrößen (z.B. kategorialen Z.) lassen sich als verallgemeinerte i.a. nichtlineare Regressionsmodelle behandeln. Spezielle Bedeutung besitzen z.B. binär– oder multinomial– logistische Regressionsmodelle, die zur Vorhersage von Wahrscheinlichkeiten des Auftretens einzelner Kategorien der abhängigen Größe verwendet werden. 24 – Sind die (Verteilungs-)Voraussetzungen für den Einsatz parametrischer Regressionsmodelle nicht gegeben, können Verfahren der nichtparametrischen Regression zum Einsatz kommen. – Liegen mehrere (metrische) Zielgrößen vor, so werden Verfahren der multivariaten Regressionsanalyse benötigt. 25