die einfache lineare regression - Universität Duisburg

Werbung
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
TEIL 13: DIE EINFACHE LINEARE REGRESSION
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Die einfache lineare Regression – Grundlagen
• Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen1
• Sie hat einen Sonderstatus, da sie nicht bloß eine einfache
Maßzahl darstellt, sondern ein komplexeres Verfahren bzw. die
Realisierung eines Modells darstellt
• Es werden gerichtete Beziehungen betrachtet:
o ‫ ݔ‬stellt die unabhängige Variable (angenommene Ursache)
und ‫ ݕ‬die abhängige Variable (angenommene Wirkung) dar
o Somit lassen sich gerichtete Hypothesen der Art „‫ ݔ‬hat einen Einfluss auf ‫ “ݕ‬überprüfen
1
„einfach“ bezieht sich hier darauf, dass nur zwei Variablen betrachtet werden (bivariat); bei mehr als zwei Variablen stellt die lineare Regression ein multivariates Verfahren dar und wird nicht mehr als „einfache“ sondern als „multiple“ Regression bezeichnet.
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Es wird eine Verbindung zwischen drei gedanklichen Ansätzen
realisiert:
o Untersuchung des Zusammenhangs zwischen ‫ ݔ‬und ‫ݕ‬
o Prognose / Schätzung der Werte von ‫ ݕ‬unter Berücksichtigung der Informationen von ‫ݔ‬
o Erklärung der Streuung von ‫ ݕ‬mithilfe der Informationen
von ‫ݔ‬
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Prognosen / Schätzungen
• Fragestellung: Welche Merkmalsausprägung einer Variablen ࢟
kann einem zufällig gewählten Objekt zugeordnet werden?
o Beispiel: Es soll das Einkommen einer Person geschätzt werden, die man zufällig in der Stadt trifft
• Liegen keine weiteren Informationen über die Person vor, so
muss sich die Prognose auf das beschränken, was über ࢟ (hier
im Beispiel: das Einkommen) gewusst wird2
• Der für die Prognose geeignetste Wert der eigenen Verteilung
ഥ
von ‫ ݕ‬ist das arithmetische Mittel3 ࢟
2
3
Dies entspricht einer Prognosen anhand der eigenen univariaten Verteilung von ‫ݕ‬
Hier im Beispiel: das Durchschnittseinkommen; man würde also vermuten, dass das Einkommen der zufällig getroffenen Person dem Durchschnittseinkommen entspricht
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• ABER: Je größer aber die Streuung einer Variablen, umso
schlechter eignet sich der Mittelwert zur Vorhersage bzw. umso größer ist die Gefahr, dass man sich stark verschätzt
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Visualisierung des Beispiels „Einkommen einer Person“:
• Prognosen können verbessert werden, wenn Informationen
über ein weiteres Merkmal ࢞ hinzugezogen werden
• Wissen
issen wir z.B., welchen Beruf die Person ausübt, dann könnkön
ten
en wir u.U. eine bessere SSchätzung
chätzung des Einkommens abgeben
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Verbindung zwischen Prognose von ࢟ und Zusammenhang zwizw
schen ࢞ und ࢟
• Je stärker ‫ ݔ‬und ‫ ݕ‬miteinander linear zusammenhängen, umso
besser ist ࢞ geeignet
geeignet, um die Werte von ࢟ vorauszusagen
• Die Vorhersagewerte sind hierbei die ࢟-Werte
Werte der sog. RegresRegre
sionsgeraden: ‫ݕ‬ො (y--Dach)
y
Regressionsgerade
Mittelwert
von y
x
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Die Regressionsgerade
• Die Gerade, welche sich einer bivariaten Punktewolke am besten anpasst
• Je stärker der Zusammenhang zwischen ‫ ݔ‬und ‫ݕ‬, umso weniger
weichen im Schnitt die tatsächlichen ࢟-Werte von der Regressionsgeraden (also von ‫ݕ‬ො) ab
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Bestimmung der Parameter der Regressionsgeraden:
• Es lassen sich nach Augenmaß viele „passende“ Geraden durch
eine Punktewolke legen
• Doch es gibt nur eine Gerade, welche mathematisch gesehen
die beste Anpassung an die Punktewolke liefert Die Regressionsgerade
• Allgemein: Eine Gerade ist eindeutig bestimmt, wenn die Steigung („ܾ“) und der y-Achsenabschnitt („ܽ“) bekannt ist
• „ܽ“ lässt sich wiederum berechnen, wenn die Steigung und ein
Punkt der Geraden bekannt sind
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Geraden-Formel:4
‫ݕ‬ො௜ = ܽ + ܾ‫ݔ‬௜
Kriterium zur Bestimmung der besten Anpassung einer Geraden
an eine Punktewolke:
• Die Summe der Abweichungen zwischen den echten und den
vorhergesagten ࢟-Werten soll minimal sein (damit alle Abweichungen positiv sind, werden sie quadriert)
௡
෍(‫ݕ‬௜ − ‫ݕ‬ො௜ )ଶ → min
௜ୀଵ
4
݅ = Laufindex für die einzelnen untersuchten Fälle; ݊ stellt den letzten Fall dar und entspricht somit der Anzahl der untersuchten Fälle. Dies gilt für alle folgenden Laufindizes.
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Wird im nächsten Schritt ‫ݕ‬ො mit dem Ausdruck der GeradenGleichung ersetzt, ergibt sich:
௡
෍(‫ݕ‬௜ − (ܽ + ܾ‫ݔ‬௜ ))ଶ → min
௜ୀଵ
• Dieser Ausdruck lässt sich nun nach ࢈ ableiten
• Somit kann rechnerisch eine eindeutige Größe bestimmt werden, welche das Kriterium zur besten Anpassung einer Geraden
an eine Punktewolke erfüllt:5
5
‫ݒ‬௫ steht hierbei für die Varianz von ‫ݔ‬
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
ܾ=
Cov௫௬
‫ݒ‬௫
• ܾ steht für die Steigung der Geraden, besagt somit, wie sich der
‫ݕ‬-Schätzwert ‫ݕ‬ො ändert, wenn ࢞ um eine Einheit steigt
• ܾ ist unstandardisiert und somit nicht geeignet zur Beurteilung
der Vorhersagekraft der Regressionsgeraden
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Bestimmung von „ࢇ“:
• Ferner soll eine Regressionsgerade durch den Schwerpunkt der
Verteilung gehen
• Der Schwerpunkt setzt sich aus den beiden Mittelwerten von ࢞
und ࢟ zusammen, ist also der Punkt: ܲ(‫ݔ‬ҧ |‫ݕ‬ത)
• Damit ist auch ein Punkt der Geraden bekannt; werden die
Koordinaten in die Geraden-Gleichung eingesetzt, lässt sich „ܽ“
bestimmen:
ܽ = ‫ ݕ‬− ܾ‫ݔ‬
• ܽ steht für den ࢟-Achsenabschnitt und besagt somit, welchen
geschätzten Wert ‫ ݕ‬annimmt, wenn ࢞ gleich 0 ist
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Allgemeine Anmerkungen:
• Es lässt sich für jede Punktewolke eine Regressionsgerade mathematisch bestimmen:
o Diese Gerade ist immer die beste Gerade, die sich an diese
Punktewolke anpassen lässt!
• Wenn aber keine oder nur eine schwache lineare Beziehung
zwischen ‫ ݔ‬und ‫ ݕ‬besteht, dann vermag auch die Regressionsgerade die Schätzung der ࢟-Werte kaum zu verbessern:
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Bestimmung der Güte der Anpassung durch eine Regressionsgerade der Determinationskoeffizient
• Nun soll das Konzept der Prognose von ‫ ݕ‬mit der Erklärung der
Streuung von ‫ ݕ‬verbunden werden
• Denn es muss Gründe geben, warum die Werte von Variablen
࢟ mehr oder weniger streuen (und nicht für alle Merkmalsträger gleich sind)
• Diese Gründe werden in der Regressionsanalyse durch unabhängige ࢞-Variablen formalisiert, von denen man annimmt,
dass sie z.T. für die Streuung einer Variablen ࢟ verantwortlich
sind
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Beispiele für Fragestellungen, welche sich auf die Varianz interessanter abhängiger Variablen beziehen:
• Warum gibt es derartige Leistungsunterschiede zwischen Schulkindern?6
• Warum gibt es unterschiedliche Einkommen?
• Warum gibt es Unterschiede in dem Ausmaß der Integration
von Migranten?
• Warum erkranken manche Leute an einer bestimmten Krankheit und die anderen wiederum nicht?
6
Die Leistungsunterschiede (‫ )ݕ‬könnten beispielsweise z.T. durch die unterschiedliche Lernmotivation der Schulkinder (‫ )ݔ‬erklärt werden. Analog dazu ließen sich unabhängige Variablen für die anderen hier aufgeführten
Beispiele finden.
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Funktionsweise des Determinationskoeffizienten:
• Das Ausmaß, mit dem ‫ ݔ‬die Streuung von ‫ ݕ‬erklären kann, lässt
sich mathematisch quantifizieren mit Hilfe des Determinationskoeffizienten
• Der Determinationskoeffizient wird definiert als der Anteil der
erklärten Varianz an der Gesamtvarianz von ࢟
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Die Gesamtvarianz von ࢟:
೙
෌೔సభ(௬೔ ି௬)మ
Diese Größe stellt nichts anderes dar als die Varianz von ࢟
௡
Die „Erklärte Varianz“ von ࢟
೙
෌೔సభ(௬ො೔ ି௬)మ
௡
Die quadrierte Abweichung zwischen Vorhersagewert und
Mittelwert von ࢟; um diese Differenz lässt sich die Vorhersage gegenüber dem Mittelwert verbessern
Die „Nicht-Erklärte Varianz“ von ࢟:
೙
෌೔సభ(௬೔ ି௬ො೔ )మ
௡
Die quadrierte Abweichung zwischen Vorhersagewert und
dem beobachteten Wert von ࢟; diese Differenz ist sozusagen der Rest, welcher auch durch die Regressionsgerade
nicht erklärt werden kann
Allgemein gilt: Erklärte Varianz + Nicht Erklärte Varianz = Gesamtvarianz
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Visualisierung der Aufteilung der Gesamtvarianz von ࢟ an nur einer Person:
(y i − ŷ i )
(ŷ i − y i )
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Formel des Determinationskoeffizienten:
Erklärte Varianz
ଶ
‫= ݎ‬
=
Gesamtvarianz
௡
෌௜ୀଵ(‫ݕ‬ො௜
௡
෌௜ୀଵ(‫ݕ‬௜
− ‫)ݕ‬ଶ
− ‫)ݕ‬ଶ
• Diese Maßzahl setzt die erklärte Varianz in Relation zur Gesamtvarianz
• Sie drückt aus, wie groß der Anteil der erklärten Varianz an der
Gesamtvarianz ist
• Sie bewegt sich immer zwischen 0 und 1, da die „Erklärte Varianz“ nur ein Bestandteil der Gesamtvarianz ist
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Wird das Ergebnis mit 100 multipliziert, so lässt sich der neue
Wert prozentual deuten
o So besagt bspw. ein Wert von 0,74, dass 74% der Varianz von
‫ ݕ‬durch das Hinzuziehen der Informationen von ‫ ݔ‬erklärt
werden kann
• Ist der Wert 1, dann entspricht die „Erklärte Varianz“ der Gesamtvarianz:
o Es bleibt kein Rest, alle Punkte liegen exakt auf der Regressionsgeraden und es besteht ein perfekter linearer Zusammenhang zwischen ࢞ und ࢟
o ‫ ݔ‬kann die gesamte Streuung von ࢟ „aufklären“
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Der Determinationskoeffizient lässt sich leicht aus dem Korrelationskoeffizienten berechnen, indem letzterer quadriert wird
Herunterladen