Weitere Fragestellungen im Zusammenhang mit einer linearen

Werbung
Weitere Fragestellungen im Zusammenhang mit
einer linearen Einfachregression
Speziell im Zusammenhang mit der Ablehnung der
Globalhypothese werden bei einer linearen Einfachregression
weitere Fragestellungen bearbeitet:
– Es werden Punktschätzungen für die Koeffizienten
a (Absolutglied) und b (Anstieg) gesucht (→ Literatur).
1
– Als Schätzung für die Varianz σ 2 der Messfehler (pure
error) verwendet man die gemittelte Residuenquadratsumme
SQR
n−2
Diese Schätzung ist nur erwartungstreu, wenn in der
Grundgesamtheit der Zusammenhang zwischen der
abhängigen Größe Y und der Einflussgröße X tatsächlich
durch eine lineare Funktion gegeben ist (no lack of fit
error).
2
– Auf der Basis der t–Verteilung lassen sich sowohl
Konfidenzintervalle für die Koeffizienten angeben als auch
Tests durchführen, bei denen die Nullhypothese geprüft
wird, dass der jeweilige Koeffizient verschwindet.
Beispielsweise kann die Nullhypothese b = 0 – die in
diesem Fall nur einer Einflussgröße der Globalhypothese
entspricht – nicht verworfen werden, wenn das
entsprechende Konfidenzintervall die Null enthält.
3
– Neben dem Koeffizienten b wird ein standardisierter
Beta–Koeffizient ausgewiesen. Dieser Koeffizient entspricht
dem Anstieg in einem Regressionsmodell mit
standardisierten Größen. Der Maßstab von X ist also die
Standardabweichung. Beta–Koeffizienten erlauben speziell
in linearen Regressionsmodellen mit mehreren
unabhängigen Variablen auf der Basis ihrer Größe den
Vergleich der Stärke des Einflusses auf die abhängige
Variable.
4
– Generell ist die lineare Regressionsanalyse relativ robust
gegenüber Abweichungen von den Modellvoraussetzungen.
• Die Verteilungsvoraussetzungen bezüglich der Messfehler
werden häufig an den Residuen
yi − (a∗ + b∗ xi )
überprüft.
Die Normalverteilung der Residuen kann mit Hilfe
diagnostischer Plots (z.B. P-P–Plot) und mit Hilfe von
Anpassungstests überprüft werden.
5
• Die Konstanz der Varianze der Messfehler
(Homoskedastizität) kann man explorativ unter
Verwendung von Streudiagrammen überprüfen.
Beispielsweise plottet man die gemessenen oder
vorhergesagten Werte der abhängigen Variablen gegen die
zugehörigen Residuen.
Ist die Varianz z.B. proportional zu den gemessenen
Werten der abhängigen Variablen, kann man die Daten
evtl. transformieren oder gewichtete Varianten der
Methode der kleinsten Quadrate einsetzen.
6
• Die Unabhängigkeit der Messfehler ist z.B. bei
Zeitreihendaten evtl. verletzt. Mit Hilfe der
Durbin–Watson–Statistik kann die Unabhängigkeit
überprüft werden. Bei hinreichend großem
Stichprobenumfang deuten Werte der Teststatistik unter
1.5 oder über 2.5 darauf hin, dass Autokorrelationen
vorliegen.
7
– Ausreißer in den Daten haben evtl. einen unerwünscht
hohen Einfluss auf die geschätzte Regressionsgerade. Sie
sind evtl. schon im Streudiagramm der Daten, an der
Größe der Residuen oder mit Hilfe der Cook–Distanz oder
des Hebelwertes erkennbar. Sie sollten überprüft und ggf.
von der Analyse ausgeschlossen werden.
– Vorhersagen y ∗ (x) = f ∗ (x) = a∗ + b∗ x von Werten der
abhängigen Variablen für vorgegebene Werte x der
Einflussgröße sollten nur für Werte x aus dem Bereich
erfolgen, aus dem Werte xi in den Daten vorliegen. Neben
Punktschätzungen für die Mittelwerte bzw. Prognosen für
die Einzelwerte lassen sich Konfidenzintervalle angeben.
8
Verallgemeinerungen der linearen
Einfachregression
Das Modell der linearen Einfachregression lässt sich in
verschiedener Hinsicht verallgemeinern.
Werden mehrere metrische Einflussgrößen berücksichtigt,
kommen Modelle der multiplen linearen Regressionsanalyse
zum Einsatz.
Die zentrale, neu hinzutretende Fragestellung ist die nach der
Bewertung des Einflusses der verschiedenen Einflussgrößen
auf die Zielgröße falls die Einflussgrößen untereinander nicht
unkorreliert sind (Wechselwirkung). Korrelationen zwischen
den Einflussgrößen verkomplizieren die Auswahl eines zu
schätzendes Modells und erschweren seine Interpretation.
9
Einige Aspekte der multiplen linearen
Regressionsanalyse
Betrachtet man die Wirkung mehrerer (metrischer)
Einflussgrößen auf eine metrische Zielgröße und will man den
Zusammenhang mit Hilfe eines multiplen linearen
Regressionsmodells beschreiben, so stellt sich die Frage nach
den tatsächlich relevanten Einflussgrößen, die dann auch im
Regressionsansatz Verwendung finden sollten, und ihrer
spezifischen Bedeutung für die Vorhersage der abhängigen
Variablen.
10
Relativ einfach zu beantworten ist diese Frage, wenn die
potentiellen Einflussgrößen untereinander unkorreliert sind
(orthogonales Design, evtl. durch Versuchsplanung erzeugt).
In diesem Fall überlagern sich die Einflüsse verschiedener
Einflussgrößen nur additiv (keine Wechselwirkung) und die
Beta–Koeffizienten spiegeln die relative Bedeutung der
berücksichtigten Variablen direkt wieder.
Entfernt man in diesem Fall eine Einflussgröße aus dem
Ansatz, so ändern sich diese Bewertungen für die im Ansatz
verbleibenden Größen nicht; der neue Ansatz muss nicht neu
geschätzt werden.
11
Gänzlich anders ist die Situation, wenn lineare
Abhängigkeiten zwischen den Einflussgrößen vorliegen, die
sich im Ansatz befinden. Diese Situation ist für nicht
experimentelle Designs – z.B. Umfragedaten – typisch.
Liegen ausgeprägte Abhängigkeiten zwischen den
Einflussgrößen vor, so ist die Schätzung der Koeffizienten des
Modells ungenau, die Interpretation der Bedeutung von
Einflussgrößen schwierig und die Auswahl geeigneter Größen
für den Ansatz kompliziert (Redundanz bzw.
Supressionseffekte).
Einige derartige Probleme werden an dem folgenden Beispiel
erläutert.
12
Beispiel: Abhängigkeit des Wortschatzes von Kindern von
der Körpergröße und dem Alter
Es liegen Daten von 8 Kindern vor, bei denen jeweils der
Wortschatz (score), die Körpergröße (in cm) und das Alter
(in Jahren) erfasst wurden.
Wortschatz
41
31
17
23
46
37
31
30
Größe
130
110
100
98
145
135
117
127
Alter
12
7
6
7
14
11
9
10
13
Offensichtlich verfügen größere Kinder über einen größeren
Wortschatz. Die Kopplung ist stark. Der Korrelationskoeffizient zwischen Wortschatz und Größe liegt bei 0.915.
Die Anpassung eines einfachen lineare Regressionsmodells zur
Vorhersage des Wortschatzes mit Hilfe der Körpergröße führt
zu hoch signifikanten Ergebnissen. Ein kausaler Zusammenhang besteht zwischen den in diesem Regressionsmodell
befindlichen Merkmalen wohl aber nicht.
Eine Erklärung dieses Sachverhaltes kann man finden, wenn
die Drittvariable Alter in die Analyse einbezogen wird.
Sowohl Wortschatz als auch Größe korrelieren stark mit dem
Alter. Die beiden Korrelationskoeffizienten haben die Werte
0.934 und 0.961.
14
Ein Regressionsmodell mit Alter als Einfluss- und Wortschatz
als abhängige Größe liefert ausgezeichnete Ergebnisse und
lässt sich kausal interpretieren.
Werden beide Einflussgrößen gemeinsam in ein multiples
lineares Regressionsmodell einbezogen, so ist das Modell
insgesamt hoch signifikant.
Die Nullhypothese des Globaltest (die Koeffizienten von Alter
und Größe sind beide Null) wird z.B. bei einem
Signifikanzniveau von α = 0.01 abgelehnt.
Allerdings ist keiner der Koeffizienten (Anstieg des
Wortschatzes bezüglich Alter bzw. Größe) einzeln signifikant
von Null verschieden.
15
Dies ist ein Resultat der starken linearen Abhängigkeit
zwischen Alter und Größe. Es liegen redundante
Einflussgrößen vor, und die Schätzungen der Koeffizienten des
Modells sind deshalb ungenau.
Es gibt verschiedene Techniken, derartige Probleme in
multiplen linearen Regressionsmodellen zu erkennen. Eine
dieser Möglichkeiten bieten Partialkorrelationen.
Die Idee besteht darin, den linearen Einfluss einer
Drittvariablen – hier Alter – aus dem linearen
Zusammenhang zweier Variabler – hier Wortschatz und
Größe – herauszurechnen (herauszupartialisieren).
16
Um dies zu realisieren, werden zwei einfache lineare
Regressionsmodelle geschätzt, die beide die Drittvariable –
hier Alter – als Einflussgröße benutzen und jeweils eine der
beiden anderen Variablen – hier Wortschatz und Größe – als
abhängige Variable verwenden.
Anschließend werden in beiden Regressionsmodellen die
Residuen berechnet. In den Residuen stecken also die
Veränderungen der jeweils abhängigen Variablen, die sich
nicht mit Hilfe des entsprechenden Regressionsmodells aus
der Drittvariablen erklären lassen.
Der partielle Korrelationskoeffizient ist dann der
Korrelationskoeffizient dieser Residuen. Er beschreibt die
lineare Abhängigkeit zwischen zwei Variablen, die sich nicht
aus dem linearen Einfluss einer Drittvariablen erklären lässt.
17
In unserem Beispiel reduziert sich die Korrelation von 0.915
zwischen Wortschatz und Größe bei Berücksichtigung der
Drittvariable Alter auf eine Partialkorrelation von 0.185.
Der lineare Zusammenhang zwischen Wortschatz und Größe
ist also sehr gering, wenn man den linearen Einfluss des
Alters herausrechnet. Der Regressionsansatz ist redundant
und sollte durch Elimination der Variablen Größe reduziert
werden.
18
Die Partialkorrelation lässt sich mit Hilfe bivariater
Korrelationskoeffizienten berechnen. Sind drei Variablen
X, Y, Z gegeben, so bezeichnen wir mit
rxy , rxz , ryz
die bivariaten Korrelationskoeffizienten und mit
rxy·z
den partiellen Korrelationskoeffizienten von X und Y ,
wenn der Einfluss von Z herauspartialisiert wird. Es gilt
rxy·z = q
rxy − rxz ryz
2
1 − rxz
19
q
2
1 − ryz
Neben der Partialkorrelation existieren noch andere
Verfahren, um Probleme im Zusammenhang mit
Abhängigkeiten zwischen den Einflussgrößen in einem
multiplen linearen Regressionsansatz zu erkennen und
angemessen darauf zu reagieren.
20
Bemerkungen
– Kategoriale Einflussgrößen lassen sich in Regressionsmodellen mit Hilfe von Dummy–Variablen behandeln:
Hat die kategoriale Einflussgröße k Merkmalsausprägungen, so wird sie durch k − 1 Dummy–Variablen
(Indikatorvariablen) koodiert. Dabei ist die i–te DummyVariable 1, wenn die i–te Merkmalsausprägung vorliegt,
anderenfalls 0. Falls die k–te Merkmalsausprägung
(Referenzkategorie) auftritt, sind alle Dummy–Variablen 0.
Der zu schätzende Koeffizient im Regressionsmodell, der
vor dieser Dummy–Variablen steht, erfasst also die
Auswirkung des Vorliegens dieser Ausprägung der
kategorialen Einflussgröße. Damit lassen sich Modelle der
ANOVA als Regressionsmodelle behandeln.
21
– Regressionsmodelle mit metrischen und kategorialen
Einflussgrößen werden auch als Modelle der
Kovarianzanalyse bezeichnet. Sie können als
verallgemeinerte lineare Modelle behandelt werden.
22
– Gehen zu schätzende Parameter nichtlinear in das
vorgegebene Modell ein, so liegt ein nichtlineares
Regressionsproblem vor. Da i.a. keine geschlossenen
Lösungen (Formeln) für die Bestimmung der Koeffizienten
des Ansatzes existieren, kommen iterative Verfahren zur
Bestimmung der Koeffizienten zum Einsatz. Diese
erfordern i.a. die Vorgabe von Startwerten und Vorgaben
zur Steuerung des iterativen Bestimmungsprozesses (z.B.
seines Abbruchs). Da in multiplen nichtlinearen
Regressionsmodellen die Wirkung einer Einflussgröße auf
die Zielgröße von den Werten aller anderen Einflussgrößen
abhängen kann, ist eine Bewertung einer Abhängigkeitsstruktur deutlich komplizierter als in linearen
Regressionsmodellen (evtl. komplexe Wechselwirkungen).
23
– Auch Modelle mit nichtmetrischen Zielgrößen (z.B.
kategorialen Z.) lassen sich als verallgemeinerte i.a.
nichtlineare Regressionsmodelle behandeln. Spezielle
Bedeutung besitzen z.B. binär– oder multinomial–
logistische Regressionsmodelle, die zur Vorhersage von
Wahrscheinlichkeiten des Auftretens einzelner Kategorien
der abhängigen Größe verwendet werden.
24
– Sind die (Verteilungs-)Voraussetzungen für den Einsatz
parametrischer Regressionsmodelle nicht gegeben, können
Verfahren der nichtparametrischen Regression zum
Einsatz kommen.
– Liegen mehrere (metrische) Zielgrößen vor, so werden
Verfahren der multivariaten Regressionsanalyse
benötigt.
25
Herunterladen