Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 TEIL 13: DIE EINFACHE LINEARE REGRESSION Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Die einfache lineare Regression – Grundlagen • Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen1 • Sie hat einen Sonderstatus, da sie nicht bloß eine einfache Maßzahl darstellt, sondern ein komplexeres Verfahren bzw. die Realisierung eines Modells darstellt • Es werden gerichtete Beziehungen betrachtet: o ݔstellt die unabhängige Variable (angenommene Ursache) und ݕdie abhängige Variable (angenommene Wirkung) dar o Somit lassen sich gerichtete Hypothesen der Art „ ݔhat einen Einfluss auf “ݕüberprüfen 1 „einfach“ bezieht sich hier darauf, dass nur zwei Variablen betrachtet werden (bivariat); bei mehr als zwei Variablen stellt die lineare Regression ein multivariates Verfahren dar und wird nicht mehr als „einfache“ sondern als „multiple“ Regression bezeichnet. Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 • Es wird eine Verbindung zwischen drei gedanklichen Ansätzen realisiert: o Untersuchung des Zusammenhangs zwischen ݔund ݕ o Prognose / Schätzung der Werte von ݕunter Berücksichtigung der Informationen von ݔ o Erklärung der Streuung von ݕmithilfe der Informationen von ݔ Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Prognosen / Schätzungen • Fragestellung: Welche Merkmalsausprägung einer Variablen ࢟ kann einem zufällig gewählten Objekt zugeordnet werden? o Beispiel: Es soll das Einkommen einer Person geschätzt werden, die man zufällig in der Stadt trifft • Liegen keine weiteren Informationen über die Person vor, so muss sich die Prognose auf das beschränken, was über ࢟ (hier im Beispiel: das Einkommen) gewusst wird2 • Der für die Prognose geeignetste Wert der eigenen Verteilung ഥ von ݕist das arithmetische Mittel3 ࢟ 2 3 Dies entspricht einer Prognosen anhand der eigenen univariaten Verteilung von ݕ Hier im Beispiel: das Durchschnittseinkommen; man würde also vermuten, dass das Einkommen der zufällig getroffenen Person dem Durchschnittseinkommen entspricht Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 • ABER: Je größer aber die Streuung einer Variablen, umso schlechter eignet sich der Mittelwert zur Vorhersage bzw. umso größer ist die Gefahr, dass man sich stark verschätzt Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Visualisierung des Beispiels „Einkommen einer Person“: • Prognosen können verbessert werden, wenn Informationen über ein weiteres Merkmal ࢞ hinzugezogen werden • Wissen issen wir z.B., welchen Beruf die Person ausübt, dann könnkön ten en wir u.U. eine bessere SSchätzung chätzung des Einkommens abgeben Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Verbindung zwischen Prognose von ࢟ und Zusammenhang zwizw schen ࢞ und ࢟ • Je stärker ݔund ݕmiteinander linear zusammenhängen, umso besser ist ࢞ geeignet geeignet, um die Werte von ࢟ vorauszusagen • Die Vorhersagewerte sind hierbei die ࢟-Werte Werte der sog. RegresRegre sionsgeraden: ݕො (y--Dach) y Regressionsgerade Mittelwert von y x Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Die Regressionsgerade • Die Gerade, welche sich einer bivariaten Punktewolke am besten anpasst • Je stärker der Zusammenhang zwischen ݔund ݕ, umso weniger weichen im Schnitt die tatsächlichen ࢟-Werte von der Regressionsgeraden (also von ݕො) ab Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Bestimmung der Parameter der Regressionsgeraden: • Es lassen sich nach Augenmaß viele „passende“ Geraden durch eine Punktewolke legen • Doch es gibt nur eine Gerade, welche mathematisch gesehen die beste Anpassung an die Punktewolke liefert Die Regressionsgerade • Allgemein: Eine Gerade ist eindeutig bestimmt, wenn die Steigung („ܾ“) und der y-Achsenabschnitt („ܽ“) bekannt ist • „ܽ“ lässt sich wiederum berechnen, wenn die Steigung und ein Punkt der Geraden bekannt sind Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Geraden-Formel:4 ݕො = ܽ + ܾݔ Kriterium zur Bestimmung der besten Anpassung einer Geraden an eine Punktewolke: • Die Summe der Abweichungen zwischen den echten und den vorhergesagten ࢟-Werten soll minimal sein (damit alle Abweichungen positiv sind, werden sie quadriert) (ݕ − ݕො )ଶ → min ୀଵ 4 ݅ = Laufindex für die einzelnen untersuchten Fälle; ݊ stellt den letzten Fall dar und entspricht somit der Anzahl der untersuchten Fälle. Dies gilt für alle folgenden Laufindizes. Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 • Wird im nächsten Schritt ݕො mit dem Ausdruck der GeradenGleichung ersetzt, ergibt sich: (ݕ − (ܽ + ܾݔ ))ଶ → min ୀଵ • Dieser Ausdruck lässt sich nun nach ࢈ ableiten • Somit kann rechnerisch eine eindeutige Größe bestimmt werden, welche das Kriterium zur besten Anpassung einer Geraden an eine Punktewolke erfüllt:5 5 ݒ௫ steht hierbei für die Varianz von ݔ Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 ܾ= Cov௫௬ ݒ௫ • ܾ steht für die Steigung der Geraden, besagt somit, wie sich der ݕ-Schätzwert ݕො ändert, wenn ࢞ um eine Einheit steigt • ܾ ist unstandardisiert und somit nicht geeignet zur Beurteilung der Vorhersagekraft der Regressionsgeraden Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Bestimmung von „ࢇ“: • Ferner soll eine Regressionsgerade durch den Schwerpunkt der Verteilung gehen • Der Schwerpunkt setzt sich aus den beiden Mittelwerten von ࢞ und ࢟ zusammen, ist also der Punkt: ܲ(ݔҧ |ݕത) • Damit ist auch ein Punkt der Geraden bekannt; werden die Koordinaten in die Geraden-Gleichung eingesetzt, lässt sich „ܽ“ bestimmen: ܽ = ݕ− ܾݔ • ܽ steht für den ࢟-Achsenabschnitt und besagt somit, welchen geschätzten Wert ݕannimmt, wenn ࢞ gleich 0 ist Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Allgemeine Anmerkungen: • Es lässt sich für jede Punktewolke eine Regressionsgerade mathematisch bestimmen: o Diese Gerade ist immer die beste Gerade, die sich an diese Punktewolke anpassen lässt! • Wenn aber keine oder nur eine schwache lineare Beziehung zwischen ݔund ݕbesteht, dann vermag auch die Regressionsgerade die Schätzung der ࢟-Werte kaum zu verbessern: Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Bestimmung der Güte der Anpassung durch eine Regressionsgerade der Determinationskoeffizient • Nun soll das Konzept der Prognose von ݕmit der Erklärung der Streuung von ݕverbunden werden • Denn es muss Gründe geben, warum die Werte von Variablen ࢟ mehr oder weniger streuen (und nicht für alle Merkmalsträger gleich sind) • Diese Gründe werden in der Regressionsanalyse durch unabhängige ࢞-Variablen formalisiert, von denen man annimmt, dass sie z.T. für die Streuung einer Variablen ࢟ verantwortlich sind Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Beispiele für Fragestellungen, welche sich auf die Varianz interessanter abhängiger Variablen beziehen: • Warum gibt es derartige Leistungsunterschiede zwischen Schulkindern?6 • Warum gibt es unterschiedliche Einkommen? • Warum gibt es Unterschiede in dem Ausmaß der Integration von Migranten? • Warum erkranken manche Leute an einer bestimmten Krankheit und die anderen wiederum nicht? 6 Die Leistungsunterschiede ( )ݕkönnten beispielsweise z.T. durch die unterschiedliche Lernmotivation der Schulkinder ( )ݔerklärt werden. Analog dazu ließen sich unabhängige Variablen für die anderen hier aufgeführten Beispiele finden. Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Funktionsweise des Determinationskoeffizienten: • Das Ausmaß, mit dem ݔdie Streuung von ݕerklären kann, lässt sich mathematisch quantifizieren mit Hilfe des Determinationskoeffizienten • Der Determinationskoeffizient wird definiert als der Anteil der erklärten Varianz an der Gesamtvarianz von ࢟ Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Die Gesamtvarianz von ࢟: సభ(௬ ି௬)మ Diese Größe stellt nichts anderes dar als die Varianz von ࢟ Die „Erklärte Varianz“ von ࢟ సభ(௬ො ି௬)మ Die quadrierte Abweichung zwischen Vorhersagewert und Mittelwert von ࢟; um diese Differenz lässt sich die Vorhersage gegenüber dem Mittelwert verbessern Die „Nicht-Erklärte Varianz“ von ࢟: సభ(௬ ି௬ො )మ Die quadrierte Abweichung zwischen Vorhersagewert und dem beobachteten Wert von ࢟; diese Differenz ist sozusagen der Rest, welcher auch durch die Regressionsgerade nicht erklärt werden kann Allgemein gilt: Erklärte Varianz + Nicht Erklärte Varianz = Gesamtvarianz Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Visualisierung der Aufteilung der Gesamtvarianz von ࢟ an nur einer Person: (y i − ŷ i ) (ŷ i − y i ) Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Formel des Determinationskoeffizienten: Erklärte Varianz ଶ = ݎ = Gesamtvarianz ୀଵ(ݕො ୀଵ(ݕ − )ݕଶ − )ݕଶ • Diese Maßzahl setzt die erklärte Varianz in Relation zur Gesamtvarianz • Sie drückt aus, wie groß der Anteil der erklärten Varianz an der Gesamtvarianz ist • Sie bewegt sich immer zwischen 0 und 1, da die „Erklärte Varianz“ nur ein Bestandteil der Gesamtvarianz ist Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 • Wird das Ergebnis mit 100 multipliziert, so lässt sich der neue Wert prozentual deuten o So besagt bspw. ein Wert von 0,74, dass 74% der Varianz von ݕdurch das Hinzuziehen der Informationen von ݔerklärt werden kann • Ist der Wert 1, dann entspricht die „Erklärte Varianz“ der Gesamtvarianz: o Es bleibt kein Rest, alle Punkte liegen exakt auf der Regressionsgeraden und es besteht ein perfekter linearer Zusammenhang zwischen ࢞ und ࢟ o ݔkann die gesamte Streuung von ࢟ „aufklären“ Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 • Der Determinationskoeffizient lässt sich leicht aus dem Korrelationskoeffizienten berechnen, indem letzterer quadriert wird