teil 13: die lineare regression - an der Universität Duisburg

Werbung
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
TEIL 13: DIE LINEARE REGRESSION
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
GLIEDERUNG
Lineare Regression – Grundlagen
Prognosen / Schätzungen
Verbindung zwischen Prognose und Zusammenhang zwischen zwei Variablen
Die Regressionsgerade
Bestimmung der Güte der Anpassung durch eine Regressionsgerade der Determinationskoeffizient
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Lineare Regression – Grundlagen
Die lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen
Sie hat einen Sonderstatus, da sie nicht bloß eine einfache Maßzahl darstellt, sondern ein
komplexeres Verfahren bzw. die Realisierung eines Modells ist:
Es wird eine Verbindung zwischen den Phänomenen „Zusammenhang zwischen zwei Variablen“ und „Prognose / Schätzung der Werte einer Variablen“ hergestellt
Es werden gerichtete Beziehungen betrachtet; so stellt X die unabhängige Variable (angenommene Ursache) und Y die abhängige Variable (angenommene Wirkung) dar
Somit lassen sich gerichtete Hypothesen der Art X Y testen
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Prognosen / Schätzungen
Eine Schätzung / Prognose in der Statistik beschäftigt sich allgemein mit der Frage, welche
Merkmalsausprägung einer bestimmten Variablen einem (zufällig gewählten) Objekt zugeordnet werden soll
o Beispiel: Es soll das Einkommen einer Person geschätzt werden, die man zufällig in der
Stadt trifft
Liegen keine weiteren Informationen über die Person vor, so muss sich die Prognose auf das
beschränken, was über die eigentliche Variable (hier im Beispiel: das Einkommen) gewusst
wird: Prognosen anhand univariater Verteilungen
Der beste Wert der Verteilung einer Variablen, der zur Prognose hinzugezogen werden
kann, ist der Mittelwert (hier im Beispiel: das Durchschnittseinkommen; wir würden also
behaupten, dass das Einkommen der zufällig getroffenen Person dem Durchschnittseinkommen entspricht)
Je größer aber die Streuung einer Variablen, umso schlechter eignet sich der Mittelwert zur
Vorhersage bzw. umso größer ist die Gefahr, dass man sich stark verschätzt
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Visualisierung des Beispiels „Einkommen einer Person“:
Prognosen können verbessert werden, wenn Informationen über ein weiteres Merkmal X
hinzugezogen werden (wissen wir z.B., welchen Beruf die Person ausübt, dann können wir
u.U. eine bessere Schätzung des Einkommens abgeben)
Es wird hierbei unterstellt, dass zwischen X und Y ein linearer Zusammenhang besteht
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Verbindung zwischen Prognose und Zusammenhang zwischen zwei Variablen
Je stärker X und Y miteinander linear zusammenhängen, umso besser ist X geeignet, um die
Werte von Y vorauszusagen
Die Vorhersagewerte sind hierbei die Y-Werte der sog. Regressionsgeraden: ŷ (y-Dach)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Die Regressionsgerade
Die Gerade, welche sich einer bivariaten Punktewolke am besten anpasst
Je stärker der Zusammenhang zwischen X und Y umso weniger weichen im Schnitt die tatsächlichen Y-Werte von der Regressionsgeraden (bzw. von den y-Dach-Werten) ab
Bestimmung der Parameter der Regressionsgeraden:
Es lassen sich nach Augenmaß viele „passende“ Geraden durch eine Punktewolke legen
Doch es gibt nur eine Gerade, welche mathematisch gesehen die beste Anpassung an die
Punktewolke liefert Die Regressionsgerade
Allgemein: Eine Gerade ist eindeutig bestimmt, wenn die Steigung („b“) und der yAchsenabschnitt („a“) bekannt ist
„a“ lässt sich wiederum berechnen, wenn Steigung und ein Punkt der Geraden bekannt sind
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Geraden-Formel:
Kriterium zur Bestimmung der besten Anpassung einer Geraden an eine Punktewolke:
Die Summe1 der Abweichungen zwischen den echten und den vorhergesagten Y-Werten
Y
soll minimal sein (damit alle Abweichungen positiv sind, werden sie quadriert)
Wird im nächsten Schritt ŷy mit dem Ausdruck der Geradengleichung ersetzt, ergibt sich:
Dieser Ausdruck lässt sich nun nach b ableiten und somit kann rechnerisch eine eindeutige
Größe bestimmt werden,, welche das Kriterium zur besten Anpassung einer Geraden an eie
ne Punktewolke erfüllt:
1
Die Summe bezieht sich hierbei auf die Objekte; so entspricht die Zahl der Summanden der Zahl der Objekte
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
„b“ steht für die Steigung der Geraden
Geraden, besagt somit, wie sich der Schätzwert von Y ändert,
wenn X um eine Einheit steigt
„b“ ist unstandardisiert und somit nicht geeignet zur Beurteilung der Vorhersagekraft
Vorhersage
der
Regressionsgeraden
Bestimmung von „a“:
Ferner soll eine Regressionsgerade durch den Schwerpunkt der Verteilung gehen
Der Schwerpunkt setzt sich aus den beiden Mittelwerten zusammen,
zusammen ist also der Punkt:
(
P X|Y
)
bekannt;; werden die Koordinaten in die GeradengleiGeradengle
Damit ist auch ein Punkt der Geraden bekannt
chung eingesetzt, lässt sich
h „a“ bestimmen:
„a“ steht für den y-Achsenabschnitt
Achsenabschnitt und besagt somit, welchen geschätzten Wert Y ana
nimmt, wenn X gleich 0 ist
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Allgemeine Anmerkungen:
Es lässt sich durch jede Punktewolke eine Regressionsgerade legen; diese Gerade ist immer
die beste Gerade, die sich an diese Punktewolke anpassen lässt
Wenn aber keine oder nur eine schwache Beziehung zwischen X und Y besteht, dann vermag auch die Regressionsgerade die Schätzung der Y-Werte kaum zu verbessern:
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Bestimmung der Güte der Anpassung durch eine Regressionsgerade der Determinationskoeffizient
In der Regressionsanalyse werden gerichtete Zusammenhänge zwischen X und Y angenommen; dies lässt sich unterschiedlich ausdrücken:
o X beeinflusst Y, also ist X die Ursache für Y
o Mit Hilfe von X lassen sich die Y-Werte besser vorhersagen
o X kann einen gewissen Anteil an der Varianz von Y erklären
Der letzte Satz setzt die Idee um, dass es Gründe geben muss, warum die Werte von Variablen mehr oder weniger streuen
Diese Gründe werden in der Regressionsanalyse durch unabhängige X-Variablen formalisiert, von denen man annimmt, dass sie z.T. für die Streuung einer Variablen Y verantwortlich sind
o Beispiel: Unterschiedliche Schulnoten (Y) lassen sich z.T. durch die unterschiedliche
Lernmotivation der Schulkinder (X) erklären
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Weitere Beispiele für Fragestellungen, welche sich auf die Varianz interessanter abhängiger Variablen beziehen:
Warum gibt es unterschiedliche Einkommen?
Warum gibt es derartige Leistungsunterschiede zwischen Schulkindern?
Warum gibt es Unterschiede in dem Ausmaß der Integration von Migranten?
Warum erkranken manche Leute an einer bestimmten Krankheit und die anderen wiederum
nicht?
Funktionsweise des Determinationskoeffizienten:
Das Ausmaß, mit dem X die Streuung von Y erklären kann, lässt sich mathematisch quantifizieren mit Hilfe des Determinationskoeffizienten
Der Determinationskoeffizient wird definiert als der Anteil der erklärten Varianz an der Gesamtvarianz von Y
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Die Gesamtvarianz von Y:
Die „Erklärte Varianz“ von Y
Die „Nicht-Erklärte Varianz“ von Y:
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Visualisierung der Aufsplittung der Gesamtvarianz von Y an nur einer Person:
(y i − ŷ i )
(ŷ i − yi )
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Formel des Determinationskoeffizienten:
Diese Maßzahl setzt die erklärte Varianz in Relation zur Gesamtvarianz
Sie drückt aus, wie groß der Anteil der erklärten Varianz an der Gesamtvarianz ist
Sie bewegt sich immer zwischen 0 und 1
1,, da die „Erklärte Varianz“ nur ein Bestandteil der GeG
samtvarianz ist
b
Wird das Ergebnis mit 100 multipliziert, so lässt sich der neue Wert prozentual deuten; so besagt bspw. ein Wert von 0,74, dass 74% der Varianz von Y durch das Hinzuziehen von X erklärt
werden kann
Ist der Wert 1,, dann entspricht die „Erklä
„Erklärte
rte Varianz“ der Gesamtvarianz; es bleibt kein Rest,
alle Punkte liegen exakt auf der Regressionsgeraden und es besteht ein perfekter linearer Zusammenhang zwischen X und Y
Y; X kann die gesamte Streuung von Y „aufklären“
Der Determinationskoeffizient lässt sich leicht aus dem Korrelationskoeffizienten berechnen,
berechnen
indem dieser quadriert wird
Herunterladen