Weitere Fragestellungen im Zusammenhang mit einer linearen

Weitere Fragestellungen im Zusammenhang mit
einer linearen Einfachregression
Speziell im Zusammenhang mit der Ablehnung der
Globalhypothese werden bei einer linearen Einfachregression
weitere Fragestellungen bearbeitet:
– Es werden Punktschätzungen für die Koeffizienten
a (Absolutglied) und b (Anstieg) gesucht (→ Literatur).
Diese werden z.B. von SPSS mit ausgegeben.
1
– Als Schätzung für die Varianz σ 2 der Messfehler (pure
error) verwendet man die gemittelte Residuenquadratsumme
SQR
n−2
Diese Schätzung ist nur erwartungstreu, wenn in der
Grundgesamtheit der Zusammenhang zwischen der
abhängigen Größe Y und der Einflussgröße X tatsächlich
durch eine lineare Funktion gegeben ist (no lack of fit
error).
2
– Auf der Basis der t–Verteilung lassen sich sowohl
Konfidenzintervalle für die Koeffizienten angeben als auch
Tests durchführen, bei denen die Nullhypothese geprüft
wird, dass der jeweilige Koeffizient verschwindet.
Beispielsweise kann die Nullhypothese b = 0 – die im Fall
nur einer Einflussgröße der Globalhypothese entspricht –
nicht verworfen werden, wenn das entsprechende
Konfidenzintervall die Null enthält.
3
– Neben dem Koeffizienten b wird ein standardisierter
Beta–Koeffizient ausgewiesen. Dieser Koeffizient entspricht
dem Anstieg in einem Regressionsmodell mit
standardisierten Größen. Der Maßstab von X ist also die
Standardabweichung. Beta–Koeffizienten erlauben speziell
in linearen Regressionsmodellen mit mehreren
unabhängigen Variablen auf der Basis ihrer Größe den
Vergleich der Stärke des Einflusses auf die abhängige
Variable.
4
– Generell ist die lineare Regressionsanalyse relativ robust
gegenüber Abweichungen von den Modellvoraussetzungen.
• Die Verteilungsvoraussetzungen bezüglich der Messfehler
werden häufig an den Residuen
yi − (a∗ + b∗ xi )
überprüft.
Die Normalverteilung der Residuen kann mit Hilfe
diagnostischer Plots (z.B. P-P–Plot) und mit Hilfe von
Anpassungstests überprüft werden.
5
• Die Konstanz der Varianz der Messfehler
(Homoskedastizität) kann man explorativ unter
Verwendung von Streudiagrammen überprüfen.
Beispielsweise plottet man die gemessenen oder
vorhergesagten Werte der abhängigen Variablen gegen die
zugehörigen Residuen.
Ist die Varianz z.B. proportional zu den gemessenen
Werten der abhängigen Variablen, kann man die Daten
evtl. transformieren oder gewichtete Varianten der
Methode der kleinsten Quadrate einsetzen.
6
• Die Unabhängigkeit der Messfehler ist z.B. bei
Zeitreihendaten evtl. verletzt. Mit Hilfe der
Durbin–Watson–Statistik kann die Unabhängigkeit
überprüft werden. Bei hinreichend großem
Stichprobenumfang deuten Werte der Teststatistik unter
1.5 oder über 2.5 darauf hin, dass Autokorrelationen – also
Abhängigkeiten – vorliegen.
7
– Ausreißer in den Daten haben evtl. einen unerwünscht
hohen Einfluss auf die geschätzte Regressionsgerade. Sie
sind evtl. schon im Streudiagramm der Daten, an der
Größe der Residuen oder mit Hilfe der Cook–Distanz oder
des Hebelwertes erkennbar. Sie sollten überprüft und ggf.
von der Analyse ausgeschlossen werden.
– Vorhersagen y ∗ (x) = f ∗ (x) = a∗ + b∗ x von Werten der
abhängigen Variablen für vorgegebene Werte x der
Einflussgröße sollten nur für Werte x aus dem Bereich
erfolgen, aus dem Werte xi in den Daten vorliegen. Neben
Punktschätzungen für die Mittelwerte bzw. Prognosen für
die Einzelwerte lassen sich Konfidenzintervalle angeben.
8
Verallgemeinerungen der linearen
Einfachregression
Das Modell der linearen Einfachregression lässt sich in
verschiedener Hinsicht verallgemeinern.
Werden mehrere metrische Einflussgrößen berücksichtigt,
kommen Modelle der multiplen linearen Regressionsanalyse
zum Einsatz.
Die zentrale, neu hinzutretende Fragestellung ist die nach der
Bewertung des Einflusses der verschiedenen Einflussgrößen
auf die Zielgröße falls die Einflussgrößen untereinander nicht
unkorreliert sind (Wechselwirkung). Korrelationen zwischen
den Einflussgrößen verkomplizieren die Auswahl eines zu
schätzendes Modells und erschweren seine Interpretation.
9
Einige Aspekte der multiplen linearen
Regressionsanalyse
Betrachtet man die Wirkung mehrerer (metrischer)
Einflussgrößen auf eine metrische Zielgröße und will man den
Zusammenhang mit Hilfe eines multiplen linearen
Regressionsmodells beschreiben, so stellt sich die Frage nach
den tatsächlich relevanten Einflussgrößen, die dann auch im
Regressionsansatz Verwendung finden sollten, und ihrer
spezifischen Bedeutung für die Vorhersage der abhängigen
Variablen.
10
Relativ einfach zu beantworten ist diese Frage, wenn die
potentiellen Einflussgrößen untereinander unkorreliert sind
(orthogonales Design, evtl. durch Versuchsplanung erzeugt).
In diesem Fall überlagern sich die Einflüsse verschiedener
Einflussgrößen nur additiv (keine Wechselwirkung) und die
Beta–Koeffizienten spiegeln die relative Bedeutung der
berücksichtigten Variablen direkt wieder.
Entfernt man in diesem Fall eine Einflussgröße aus dem
Ansatz, so ändern sich die Parameter (Anstiege) und damit
die Bewertungen für die im Ansatz verbleibenden Größen
nicht; der neue Ansatz muss nicht neu geschätzt werden.
11
Gänzlich anders ist die Situation, wenn lineare
Abhängigkeiten zwischen den Einflussgrößen vorliegen, die
sich im Ansatz befinden. Diese Situation ist für nicht
experimentelle Designs – z.B. Umfragedaten – typisch.
Liegen ausgeprägte Abhängigkeiten zwischen den
Einflussgrößen vor, so ist die Schätzung der Koeffizienten des
Modells ungenau, die Interpretation der Bedeutung von
Einflussgrößen schwierig und die Auswahl geeigneter Größen
für den Ansatz kompliziert (Redundanz bzw.
Supressionseffekte).
Einige derartige Probleme werden an dem folgenden Beispiel
erläutert.
12
Beispiel: Abhängigkeit des Wortschatzes von Kindern von
der Körpergröße und dem Alter
Es liegen Daten von 8 Kindern vor, bei denen jeweils der
Wortschatz (score), die Körpergröße (in cm) und das Alter
(in Jahren) erfasst wurden.
Wortschatz
41
31
17
23
46
37
31
30
Größe
130
110
100
98
145
135
117
127
Alter
12
7
6
7
14
11
9
10
13
Offensichtlich verfügen größere Kinder über einen größeren
Wortschatz. Die Kopplung ist stark. Der Korrelationskoeffizient zwischen Wortschatz und Größe liegt bei 0.915.
Die Anpassung eines einfachen lineare Regressionsmodells zur
Vorhersage des Wortschatzes mit Hilfe der Körpergröße führt
zu hoch signifikanten Ergebnissen. Ein kausaler Zusammenhang besteht zwischen den in diesem Regressionsmodell
befindlichen Merkmalen wohl aber nicht.
Eine Erklärung dieses Sachverhaltes kann man finden, wenn
die Drittvariable Alter in die Analyse einbezogen wird.
Sowohl Wortschatz als auch Größe korrelieren stark mit dem
Alter. Die beiden Korrelationskoeffizienten haben die Werte
0.934 und 0.961.
14
Ein Regressionsmodell mit Alter als Einfluss- und Wortschatz
als abhängige Größe liefert ausgezeichnete Ergebnisse und
lässt sich kausal interpretieren.
Werden beide Einflussgrößen gemeinsam in ein multiples
lineares Regressionsmodell einbezogen, so ist das Modell
insgesamt hoch signifikant.
Die Nullhypothese des Globaltest (die Koeffizienten/Anstiege
von Alter und Größe sind beide Null) wird z.B. bei einem
Signifikanzniveau von α = 0.01 abgelehnt.
Allerdings ist keiner der Koeffizienten (Anstieg des
Wortschatzes bezüglich des Alters bzw. bez. der Größe)
einzeln signifikant von Null verschieden.
15
Denken ist wie Googeln – nur krasser.
Dies ist ein Resultat der starken linearen Abhängigkeit
zwischen Alter und Größe. Es liegen redundante
Einflussgrößen vor, und die Schätzungen der Koeffizienten des
Modells sind deshalb ungenau.
Es gibt verschiedene Techniken, derartige Probleme in
multiplen linearen Regressionsmodellen zu erkennen. Eine
dieser Möglichkeiten bieten Partialkorrelationen.
Die Idee besteht darin, den linearen Einfluss einer
Drittvariablen – hier Alter – aus dem linearen
Zusammenhang zweier Variabler – hier Wortschatz und
Größe – herauszurechnen (”herauszupartialisieren”).
16
Um dies zu realisieren, werden zwei einfache lineare
Regressionsmodelle geschätzt, die beide die Drittvariable –
hier Alter – als Einflussgröße benutzen und jeweils eine der
beiden anderen Variablen – hier Wortschatz und Größe – als
abhängige Variable verwenden.
Anschließend werden in beiden Regressionsmodellen die
Residuen berechnet. In den Residuen stecken also die
Veränderungen der jeweils abhängigen Variablen, die sich
nicht mit Hilfe des entsprechenden Regressionsmodells aus
der Drittvariablen erklären lassen.
Der partielle Korrelationskoeffizient ist dann der
Korrelationskoeffizient dieser Residuen. Er beschreibt die
lineare Abhängigkeit zwischen zwei Variablen, die sich nicht
aus dem linearen Einfluss einer Drittvariablen erklären lässt.
17
In unserem Beispiel reduziert sich die Korrelation von 0.915
zwischen Wortschatz und Größe bei Berücksichtigung der
Drittvariable Alter auf eine Partialkorrelation von 0.185.
Der lineare Zusammenhang zwischen Wortschatz und Größe
ist also sehr gering, wenn man den linearen Einfluss des
Alters herausrechnet. Der Regressionsansatz ist redundant
und sollte durch Elimination der Variablen Größe reduziert
werden.
18
Die Partialkorrelation lässt sich mit Hilfe bivariater
Korrelationskoeffizienten berechnen. Sind drei Variablen
X, Y, Z gegeben, so bezeichnen wir mit
rxy , rxz , ryz
die bivariaten Korrelationskoeffizienten und mit
rxy·z
den partiellen Korrelationskoeffizienten von X und Y ,
wenn der Einfluss von Z herauspartialisiert wird. Es gilt
rxy·z = q
rxy − rxz ryz
2
1 − rxz
19
q
2
1 − ryz
Neben der Partialkorrelation existieren noch andere
Verfahren, um Probleme im Zusammenhang mit
Abhängigkeiten zwischen den Einflussgrößen in einem
multiplen linearen Regressionsansatz zu erkennen und
angemessen darauf zu reagieren.
20
Hinweis: In der Modellzusammenfassung taucht als
wichtiges Gütekriterium für die Leistungsfähigkeit des
geschätzten Modells die Kenngröße R-Quadrat also R2 auf,
die sich aus der Streuungszerlegung ergibt.
Es handelt sich um das sogenannte multiple
Bestimmtheitsmaß für das geschätzte lineare Modell (hier der
multiplen Regressionsanalyse).
R2 gibt den Anteil der Variabilität der abhängigen Größe an,
der mit Hilfe des geschätzten linearen Modells vorhergesagt
werden kann (vgl. Streuungszerlegung, η 2 , r2 , PRE-Maße,
Varianzanalysemodelle). R ist dabei der multiple
Korrelationskoeffizient; die Korrelation der gemessenen Werte
der abhängigen Variablen und der durch das (multiple)
Modell vorhergesagten Werte.
21
Bemerkungen
– Kategoriale Einflussgrößen lassen sich in Regressionsmodellen mit Hilfe von Dummy–Variablen behandeln:
Hat die kategoriale Einflussgröße k Merkmalsausprägungen, so wird sie durch k − 1 Dummy–Variablen
(Indikatorvariablen) koodiert. Dabei ist die i–te DummyVariable 1, wenn die i–te Merkmalsausprägung vorliegt,
anderenfalls 0. Falls die k–te Merkmalsausprägung
(Referenzkategorie) auftritt, sind alle Dummy–Variablen 0.
Der zu schätzende Koeffizient im Regressionsmodell, der
vor dieser Dummy–Variablen steht, erfasst also die
Auswirkung des Vorliegens dieser Ausprägung der
kategorialen Einflussgröße. Damit lassen sich z.B. Modelle
der ANOVA als Regressionsmodelle behandeln.
22
– Regressionsmodelle mit metrischen und kategorialen
Einflussgrößen werden auch als Modelle der
Kovarianzanalyse bezeichnet. Sie können als
verallgemeinerte lineare Modelle behandelt werden.
23
– Gehen zu schätzende Parameter nichtlinear in das
vorgegebene Modell ein, so liegt ein nichtlineares
Regressionsproblem vor. Da i.a. keine geschlossenen
Lösungen (Formeln) für die Bestimmung der Koeffizienten
des Ansatzes existieren, kommen iterative Verfahren zur
Bestimmung der Koeffizienten zum Einsatz. Diese
erfordern i.a. die Vorgabe von Startwerten und Vorgaben
zur Steuerung des iterativen Bestimmungsprozesses (z.B.
seines Abbruchs). Da in multiplen nichtlinearen
Regressionsmodellen die Wirkung einer Einflussgröße auf
die Zielgröße von den Werten aller anderen Einflussgrößen
abhängen kann, ist eine Bewertung einer Abhängigkeitsstruktur deutlich komplizierter als in linearen
Regressionsmodellen (evtl. komplexe Wechselwirkungen).
24
– Auch Modelle mit nichtmetrischen Zielgrößen (z.B.
kategorialen Z.) lassen sich als verallgemeinerte i.a.
nichtlineare Regressionsmodelle behandeln. Spezielle
Bedeutung besitzen z.B. binär– oder multinomial–
logistische Regressionsmodelle, die zur Vorhersage von
Wahrscheinlichkeiten des Auftretens einzelner Kategorien
der abhängigen Größe verwendet werden.
25
– Sind die (Verteilungs-)Voraussetzungen für den Einsatz
parametrischer Regressionsmodelle nicht gegeben, können
Verfahren der nichtparametrischen Regression zum
Einsatz kommen.
– Liegen mehrere (metrische) Zielgrößen vor, so werden
Verfahren der multivariaten Regressionsanalyse
benötigt.
26