Lineares Regressionsmodell: Varianzerklärung

Werbung
Lineares Regressionsmodell:
Varianzerklärung
Determinationskoeffizient
Standardisierte Koeffizienten
PEΣO
26. November 2001
Varianzerklärung
• Die Varianzerklärung macht Aussagen über
die Güte der Erklärung einer abhängigen
Variablen mittels des Regressionsmodells.
Dies geschieht mittels der Zerlegung der
Varianz in vorhergesagte Varianz und Residualvarianz, sowie die Anwendung der
PRE-Logik auf das Regressionsmodell.
Zunächst müssen jedoch npch einige Konzepte eingeführt werden.
1
Stichprobeneigenschaften der Vorhersagewerte
• Mittelwert der Vorhersagewerte:
ŷ = a + b ∗ x̄
• Varianz der Vorhersagewerte:
s2
Ŷ
=
SSŷ
n
=
2
1 ( SPXY
n SSX
)
2
Stichprobeneigenschaften der Residuen
• Mittelwert der Residuen:
1 Pn (y − ŷ ) = 0
ē = n
i
1 i
• Residualvarianz:
SSE
1
s2
=
=
E
n
n
Pn
2
(y
−
ŷ
)
i
i
1
3
Varianzzerlegung
• Aufgrund der Definition der Werte der
abhängigen Variablen als Linearkombination von Vorhersagewerten und Fehlern
läßt sich auch die Varianz der abhängigen Variable in Erklärte Varianz und Residualvarianz zerlegen:
2
2
2
2
2
s2
y = b ∗ sX + sE = sŶ + sE
• Ebenfalls kann anstelle der Varianz die
Variation betrachtet werden:
SSY = SSŷ + SSE
Pn
Pn
Pn
2
2
2
1 (yi − ȳ) = 1 (ŷi − ȳ) = 1 (yi − ŷ)
• Der Anteil der Erklärten Varianz (Variation) an der Gesamtvarianz (Variation)
gibt hier die Erklärungsgüte des Modells
an.
4
PRE-Logik in der linearen Regression:
Determinationskoeffizient
• Aufbauend auf der schon für den
λ-Koeffizienten eingeführten Methode der
proportionalen Fehlerreduktion kann man
ein leicht interpretierbares Maß für den
Anteil der erklärten Varianz herleiten: den
Determinationskoeffizienten R2
• Der Fehler ohne Kenntnis der unabhängigen Variable X wird hier über die Variation SSY der abhängigen Variable Y definiert:
E0 = SSY =
Pn
2
1 (yi − ȳ)
5
• Der Fehler bei Kenntnis der unabhänigen
Variablen ist im Falle der linearen Regressionsmodells die Residualvariation SSE :
Pn 2
Pn
E1 = SSE = 1 ei = 1 (yi − ŷi)2
• Das auf diesen Fehlerdefinitionen basierende PRE-Maß R2 gibt nun den Anteil
der durch das Modell erklärten Varianz
an:
E1
=1−
R2 = 1 − E
0
SSE
SSY
Pn
(yi −ŷi )2
1
P
= 1 − n(y −ȳ)2
1 i
• Der Determinationskoeffizient R2 kann alternativ auch als Quadrat des Korrelationskoeffizienten rxy :
s
2 = ( xy )2
R2 = rxy
sx ∗sy
Standardisierter Regressionskoeffizient β
• Der Regressionskoeffizient b ist nur als
Maß für den Effekt der unabhängigen auf
die abhängige Variable zu interpretieren,
wenn deren Skalen vergleichbar sind. Um
dieses Problem zu umgehen, kann man
den Effekt in Standardabweichungseinheiten ausdrücken, die Koeffizienten also standardisieren. Dies geschieht durch die Anwendung der Z-Transformation auf die
Daten. Es ist anzumerken, daß der standardisierte Regressionskoeffizient im Fall
der bivariaten Regression dem Korrelationskoeffizienten entspricht.
β=
sZ Z
X Y
s2
Z
= rY X
X
6
Herunterladen