WLS-Regression

Werbung
Induktive Statistik:
Regressionsanalyse
Regression -> Output

analysieren/Regression/Linear; abhängige & unabhängige Variable
einfügen/ OK
Koeffizientena, b
Aufgenommene/Entfernte Variablenb, c
Modell
1
Aufgenomme
ne Variablen
SEXa
Entfernte
Variablen
.
Methode
Eingeben
Modell
1
a. Alle gewüns chten Variablen wurden aufgenommen.
b. Abhängige Variable: breit/ba&rös ing
R
R-Quadrat
.758 a
.575
. 

Standardf
ehler des
Schätzers
4.8602


a. Einflußvariablen : (Kons tante), SEX

ANOVAb,c
Modell
1
Quadrats
umme
Regress ion 119995.1
Res iduen
88719.162
Ges amt
208714.3
df
1
3756
3757
Mittel der
Quadrate
119995.12
23.622
F
5079.878
.758
T
1807.508
71.273
Signifikanz
.000
.000
b. Regress ion der gewichteten kleinsten Quadrate, gewichtet durch SQRTIND
Modellzusammenfassung
Modell
1
Beta
a. Abhängige Variable: breit/ba&rösing
c. Regress ion der gewichteten kleins ten Quadrate,
gewichtet durch SQRTIND
Korrigiertes
R-Quadrat
.575
(Kons tante)
SEX
Nicht standardis ierte
Koeffizienten
Standardf
B
ehler
162.073
.090
7.695
.108
Standardi
s ierte
Koeffizien
ten
Signifikanz
.000 a
a. Einflußvariablen : (Kons tante), SEX
b. Abhängige Variable: breit/ba&rös ing
c. Regress ion der gewichteten kleins ten Quadrate, gewichtet durch SQRTIND



zu erklärende Variable
erklärende Variablen
Regressionskoeffizient b
t-Werte
p-Wert
R²
F-Wert
Anzahl der Beobachtungen N:
df: Freiheitsgrade
OrdinaryLeastSquare-Regression



statistische Zusammenhänge zwischen zwei oder mehreren
Variablen
univariate OLS-Regression: nur eine erklärende Variable in der
Schätzgleichung
Schätzgleichung: y = a+bx+e
y: zu erklärende Variable
a: Schnittpunkt mit y-Achse bzw. vertikaler Achsenabschnitt:
„Konstante“, d.h. der Wert der abhängigen Variable, bei dem alle
unabhängigen Variablen = 0
b: Steigung der Regressionsgerade (Regressionskoeffizient):
 Wert besagt, um wie viel sich die AV verändert (+/-), wenn die UV
um 1 Einheit steigt
 positive/ negative Steigung entspricht einem positiven/ negativen
Zusammenhang
x: erklärende Variable
OLS-Regression




e: Fehlerterm = Residuen = unerklärte Abweichungen von
einer möglichen Regressionsgeraden
 diese werden quadriert, so daß größere Abweichungen
stärker gewichtet werden
OLS: Lage der Regressionsgerade derart, daß die Summe
der Quadrate aller Abweichungen der Punkte von der
Geraden minimiert werden
=> Minimierung des Fehlerterms e² (d.h. der Summe der
quadrierten Fehler): macht z.B. SPSS
je niedriger die Summe von e² relativ zur Gesamtvarianz der
zu erklärenden Variable, desto besser das Modell
positive oder negative Korrelation: wachsenden x-Werten
entsprechen steigende y-Werte oder umgekehrt
mögliches Problem: Scheinkorrelation: nicht meßbare
Variablen beeinflussen erklärende und zu erklärende
Variablen
OLS-Regression: Annahmen
1. e ist normalverteilt (sonst Fehlspezifikation)
 Überprüfung: Analysieren/ Regression/ Linear; Abhängige
& unabhängige Variable einfügen & zusätzlich unter
Speichern: Residuen Nicht standardisiert ankreuzen/
Weiter/ OK
 im Dateneditor erscheinen nun die Residuen als neue
Variable res_1 (bei weiteren Regressionen mit fortlaufender
Nummer)
 mit dem Kolmogorov-Smirnov-Test die Residuen auf
Normalverteilung überprüfen: Analysieren/
Nichtparametrische Tests/ K-S bei einer Stichprobe/
Testvariablen/ res_1
2. E(e)=0
(kein systematischer Einfluß des Störterms auf y)
OLS-Regression: Annahmen II
3. var(e)=constant
4. cov(eiet)=0
5. cov(xiet)=0


(Homoskedastie der Residuen )
(Residuen korrelieren nicht miteinander)
(Residuen korrelieren nicht mit exogenen
Variablen)
bei Verletzung der Annahmen führt die OLS-Methode zu
Schätzfehlern
aber: Überprüfung der Variablen auf Schiefe und
Umformung schließt viele Fehler aus
Präzision einzelner Regressionskoeffizienten
und t-Wert


da die Residuen einer zufällig gezogenen Störvariable entsprechen,
würden wir bei einer erneuten Ziehung andere Werte für die
abhängige Variable erhalten, damit könnte sich auch der berechnete
Regressionskoeffizient ändern
Wie verläßlich ist dieser also?
Erste Ziehung
Zweite Ziehung
b<b




Überprüfung der Signifikanz der Regressionskoeffizienten anhand
sog. t-Werte
zeigt an, ob eine einzelne Variable einflußreich
wenn > 2 => signifikanter Unterschied: d.h. es gibt Zusammenhang
+/-: positiver/ negativer Zusammenhang
OLS-Regression: Güte des Modells
Bestimmtheitsmaß R²







Güte einer Schätzung läßt sich mit Hilfe des
Bestimmtheitsmaßes R² bestimmen
Interpretation: Anteil der durch das Schätzmodell erklärten
Varianz an der Gesamtvarianz der abhängigen Variablen
0< R²<1  je näher an 1, desto besser das Modell; die
Angabe von R² in der Regressionstabelle ist notwendig
das R² * 100 wird im Text als Prozent interpretiert (R²=0,65:
„mit dem Modell können 65% der Varianz erklärt werden“
Vorteil von R2: Werte verschiedener Grundgesamtheiten
können direkt miteinander verglichen werden
Angabe von R² ist immer notwendig!
adjustiertes R² bei Modellen mit mehreren Variablen
(s. multiple Regression)
OLS-Regression: Signifikanz


zur Angabe der Signifikanz
 entweder Verwendung des „p-Werts der Signifikanz“
 oder anhand der t-Statistik (Daumenregel: ist t-Wert
betragsmäßig größer als 2, dürfte der p-Wert kleiner als 0,05
sein)
p-Wert: Maßzahl für Signifikanz:
 ermöglicht Beurteilung, wie „systematisch“ (Unterschiede)
eine(r) UV eine AV beeinflußt
 bzw.: Wie wahrscheinlich ist es, daß ein Zusammenhang
besteht zwischen exogenen und endogener Variablen?
 eigentlich: Test, ob bzw. wie hoch die
Fehlerwahrscheinlichkeit, daß der Koeffizient oder die
Konstante ungleich Null sind, und daher allgemeinere
Schlüsse aus dieser Stichprobe gezogen werden dürfen
OLS-Regression: Signifikanz II

Signifikanzniveau/ Sicherheitsniveau:
wenn p-Wert < 0,01 oder 0,05 oder 0,1 => signifikanter
Einfluß der UV: auf 1%, 5% oder 10%-Level
 „besser“, desto näher an Null
 aber: Wahl des Signifikanzniveaus kann von der
Meßqualität der Daten abhängig gemacht werden
 Z.B.: 1%-Niveau: Wahrscheinlichkeit von 99%, daß
signifikanter Koeffizient einflußreich ist,
Irrtumswahrscheinlichkeit: 1%
OLS-Regression: Streudiagramm



nur für univariate Regression
 rechtwinkliges Koordinatensystem: Streudiagramm –
linearer, nichtlinearer oder kein Zusammenhang
 abhängige (=zu erklärende, endogene) Variable: wird auf
der y- Achse abgetragen (z. B.: Körpergröße)
erklärende (=exogene, unabhängige) Variable: wird auf der
x-Achse abgetragen (z. B.: Zeit)
 Graphiken/ Streudiagramm/ Einfach Definieren/ erklärende
Variable in x-Achse & zu erklärende Variable in y-Achse/
(Fallbeschriftung) / OK
Einfügen der Regressionsgeraden
 2X auf Streudiagramm klicken, führt zum Grafikeditor; darin
auf Diagramme/ Optionen/ Kreuz bei Anpassungslinie
gesamt/ OK
Veranschaulichung der Zusammenhänge zwischen UV & AV
OLS-Regression:
Einflußreiche Ausreißer
Verteilung der Beobachtungen: Berücksichtigung möglicher
Ausreißer
=> verschiedene Streudiagramme identifizieren einflußreiche
Ausreißer
 Def.: Beobachtungen, die von den mittleren 50% der Werte
mehr als drei mal dieser Distanz entfernt liegen (Daumenregel)
 Regressionsgerade reagiert möglicherweise sehr sensitiv auf
Ausreißer
 Lösung: Regression mit und eine ohne Ausreißer durchführen
und Veränderung der Regressionskoeffizienten betrachten
 Ergebnisse, die auf Ausreißern basieren, sind unglaubwürdig


Ausreißer raus!
Multiple Regression




mehrere erklärende Variable im Schätzmodell
große Stärke der Regressionsanalyse: es können Einflüsse
von mehreren erklärenden Variablen geschätzt werden
graphisch kaum vorstellbar
wichtig: statistische Kennzahlen und Tests, die Hinweise auf
ein korrektes Schätzmodell geben, richtig auszuwerten (z.B.
die bereits erwähnten p-Werte)
Multiple Regression und
korrigiertes R2





das „adjustierte R²“ ist hier ein besseres Maß für den
Erklärungsanteil des Modells
es ist so konstruiert, daß es sinkt, wenn viele nicht
erklärungskräftige Variablen mitberücksichtigt werden
bei Modellen mit mehreren Variablen, nimmt der
Erklärungsanteil mit der Anzahl der erklärenden Variablen zu
Extremfall: für jede Beobachtung gibt es eine erklärende
Variable
 R²=1
 normales Bestimmtheitsmaß ist nicht mehr aussagekräftig
 Anpassung um die Anzahl der erklärenden Variablen v
 Modelle mit höherem R²adj sind vorzuziehen, auch wenn R²
kleiner ist
wenn R²adj nach Variablenausschluß stark reduziert
 Kolliniarität übersehen
Multiple Regressionen:
Sensitivitätsanalyse



wie robust sind die Ergebnisse bei geringfügigen
Änderungen in der Modellspezifikation?
Ergebnisse sind unglaubwürdig, falls sich Vorzeichen und
Signifikanz der Koeffizienten durch geringfügige
Änderungen stark ändern
Aufnahme und Ausschluß von zweifelhaften Variablen und
Betrachtung der Auswirkung auf die Schlüsselvariablen
Multiple Regressionen:
Teststrategie




Vorgehensweise nach dem Grundsatz „general to specific
modelling“, um Verzerrung der Regressions-koeffizienten
durch unberücksichtigte Variablen zu vermeiden
zuerst umfassendes Modell mit allen Variablen schätzen,
die auch rivalisierende Erklärungen einschließen
dann: insignifikante Variablen aus dem Modell
ausschließen: allmählich zum „wahren“ Modell vorarbeiten
(hier Multikollinearität möglich)
notwendig: Überprüfung, ob die Annahmen der OLSSchätzmethode erfüllt sind
Multikollinearität

Def.: Vorhandensein von Kollinearitäten (Abhängigkeiten)
zwischen den erklärenden Variablen

in multiplen Regressionsmodellen treten aber fast immer (schwache)
Abhängigkeiten zwischen den UV auf
OLS-Schätzungen bleiben unverzerrt


bei starker Multikollinearität kann Variabilität der Koeffizientenschätzung zunehmen: d.h. schon mit einer geringfügig
anderen Modellspezifikation ganz andere Schätzergebnisse
möglich
Multikollinearität II





„täuschende“ Insignifikanz bei einer oder mehreren UV
möglich => Einfluß einer UV wird übersehen (bei geringen tWerten)
Auslassen von Variablen mit niedrigen t-Werten kann zu einer
Verzerrung der anderen Schätzer führen
Interpretation der Regressionskoeffizienten gestaltet sich
schwieriger
aber: R² nicht betroffen
Überprüfung der Kollinearitäten hilfreich, um die Ergebnisse
richtig einschätzen zu können
Bestimmung von Multikollinearität



oft als erste Approximation: Überprüfung der
Korrelationskoeffizienten
=> Schwankungen nach Ausschluß von Variablen die in
engem Zusammenhang mit Schlüsselvariable
Bestimmung von Multikollinearität: z.B. mit Variance Inflation
Factor (VIF):
Werte > 10 deuten auf Multikollinearität (z.B. in SPSS im
Regressionsfenster unter „Statistiken“ die Option
„Multikollinearitätsdiagnose“ aktivieren)
Daumenregel: kein Problem, wenn R2 > R2 irgendeiner UV
auf die anderen UV, oder wenn alles signifikant
Dummy-Variablen



auch Indikator-/ und Kategorienvariablen
qualitative Variablen, die keine Ordnung im mathematischen
Sinne angeben
Dummies bei 2 Kategorien:
nehmen nur Werte 0 oder 1 an, z.B.
x=1, falls Mann & x=0, falls Frau oder
x=1, falls zum Römischen Reich gehörig & x=0, falls sonstige
Dummy-Variablen können auch zwischen unterschiedlichen
Zeitspannen trennen: z.B. 1500-1550=0, 1551-1600=1
Interaktionsterme




um den Einfluß einer Interaktion zwischen zwei
Dummyvariablen zu schätzen, werden diese miteinander
multipliziert
ergibt eine neue Dummyvariable: mit
 Wert=1 falls Zugehörigkeit zu beiden Ausgangskategorien
 Wert=0, falls Zugehörigkeit zu einer oder keiner der beiden
Ausgangskategorien
in SPSS: transformieren -> berechnen...
zugehöriger Regressionskoeffizient besagt ob eine
Kombination der Charakteristika signifikant unterschiedlich ist
von einer bloßen Addition der Koeffizienten der
Ausgangsdummies
Dummy-Variablen II



Dummies bei mehr als 2 Kategorien: insbes. bei mehreren
Möglichkeiten qualitativer Charakteristika: z.B.
 Ständegesellschaft:1.Stand/ 2.Stand/ 3.Stand
 Region: Nordosteuropa/ Zentraleuropa/Südeuropa usw.
mehr Dummies:
z.B. Ständegesellschaft:
stand1=1, falls 1.Stand/sonstige Kategorien stand1=0
stand2=1, falls 2. Stand/sonst stand2=0
stand3=1, falls 3. Stand/sonst stand3=0
Vorteil: Kategorien lassen sich unterscheiden, ohne daß
Anzahl der Beobachtungen in separaten Regressionen
reduziert wird => Präzision der Regressionskoeffizienten
bleibt erhalten
Homoskedastie

Varianz der Residuen var(e)=konstant
Heteroskedastie

keine konstante Varianz der Residuen
(graphische Überprüfung: Trichterform!)
y

a

x1

x2
x3
x
Regressionskoeffizienten
werden weiterhin unverzerrt
geschätzt
auf diesen basierende
Konfidenzintervalle sind ungültig: t-Werte falsch geschätzt
x
OLS-Schätzmethode nicht länger effizient
Heteroskedastie II
Überprüfung durch ‚Modifizierten White-Test‘
 vereinfacht: Residuen werden quadriert, um festzustellen,
ob ‚Trichterform‘ signifikant
e² =c+d1ŷ+d2ŷ²+Fehlerterm
ŷ = erwartete, geschätzte Werte der abhängigen Variable
c = Konstante
d = Regressionskoeffizienten
 in SPSS:
1. Regression durchführen; dabei unstandardisierte Residuen
und unstandardisierte vorhergesagte Werte speichern (im
Regressionsfenster unter Speichern/ Residuen (nicht
standardisiert) und vorhergesagte Werte (nicht standardisiert)
ankreuzen)

Heteroskedastie III
2.Quadrate der vorhergesagten Werte und Residuen bilden
(Transformieren/ Berechnen)
3. Regression durchführen, mit AV: quadrierte Residuen; UV:
vorhergesagte Werte und quadrierte vorhergesagte Werte
=> Unterscheiden sich die Regressoren gemeinsam signifikant
von 0 = wenn F-Wertes signifikant = Heteroskedastie

verschiedene Möglichkeiten Heteroskedastie zu beheben
 meist hilfreich: Transformation der Variablen (insbes.
Logarithmierung)
 Aufnahme von weiteren exogenen Variablen
Herunterladen