Lineares Regressionsmodell: Varianzerklärung Determinationskoeffizient Standardisierte Koeffizienten PEΣO 26. November 2001 Varianzerklärung • Die Varianzerklärung macht Aussagen über die Güte der Erklärung einer abhängigen Variablen mittels des Regressionsmodells. Dies geschieht mittels der Zerlegung der Varianz in vorhergesagte Varianz und Residualvarianz, sowie die Anwendung der PRE-Logik auf das Regressionsmodell. Zunächst müssen jedoch npch einige Konzepte eingeführt werden. 1 Stichprobeneigenschaften der Vorhersagewerte • Mittelwert der Vorhersagewerte: ŷ = a + b ∗ x̄ • Varianz der Vorhersagewerte: s2 Ŷ = SSŷ n = 2 1 ( SPXY n SSX ) 2 Stichprobeneigenschaften der Residuen • Mittelwert der Residuen: 1 Pn (y − ŷ ) = 0 ē = n i 1 i • Residualvarianz: SSE 1 s2 = = E n n Pn 2 (y − ŷ ) i i 1 3 Varianzzerlegung • Aufgrund der Definition der Werte der abhängigen Variablen als Linearkombination von Vorhersagewerten und Fehlern läßt sich auch die Varianz der abhängigen Variable in Erklärte Varianz und Residualvarianz zerlegen: 2 2 2 2 2 s2 y = b ∗ sX + sE = sŶ + sE • Ebenfalls kann anstelle der Varianz die Variation betrachtet werden: SSY = SSŷ + SSE Pn Pn Pn 2 2 2 1 (yi − ȳ) = 1 (ŷi − ȳ) = 1 (yi − ŷ) • Der Anteil der Erklärten Varianz (Variation) an der Gesamtvarianz (Variation) gibt hier die Erklärungsgüte des Modells an. 4 PRE-Logik in der linearen Regression: Determinationskoeffizient • Aufbauend auf der schon für den λ-Koeffizienten eingeführten Methode der proportionalen Fehlerreduktion kann man ein leicht interpretierbares Maß für den Anteil der erklärten Varianz herleiten: den Determinationskoeffizienten R2 • Der Fehler ohne Kenntnis der unabhängigen Variable X wird hier über die Variation SSY der abhängigen Variable Y definiert: E0 = SSY = Pn 2 1 (yi − ȳ) 5 • Der Fehler bei Kenntnis der unabhänigen Variablen ist im Falle der linearen Regressionsmodells die Residualvariation SSE : Pn 2 Pn E1 = SSE = 1 ei = 1 (yi − ŷi)2 • Das auf diesen Fehlerdefinitionen basierende PRE-Maß R2 gibt nun den Anteil der durch das Modell erklärten Varianz an: E1 =1− R2 = 1 − E 0 SSE SSY Pn (yi −ŷi )2 1 P = 1 − n(y −ȳ)2 1 i • Der Determinationskoeffizient R2 kann alternativ auch als Quadrat des Korrelationskoeffizienten rxy : s 2 = ( xy )2 R2 = rxy sx ∗sy Standardisierter Regressionskoeffizient β • Der Regressionskoeffizient b ist nur als Maß für den Effekt der unabhängigen auf die abhängige Variable zu interpretieren, wenn deren Skalen vergleichbar sind. Um dieses Problem zu umgehen, kann man den Effekt in Standardabweichungseinheiten ausdrücken, die Koeffizienten also standardisieren. Dies geschieht durch die Anwendung der Z-Transformation auf die Daten. Es ist anzumerken, daß der standardisierte Regressionskoeffizient im Fall der bivariaten Regression dem Korrelationskoeffizienten entspricht. β= sZ Z X Y s2 Z = rY X X 6