Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 TEIL 12: BIVARIATE ANALYSE FÜR METRISCH SKALIERTE VARIABLEN Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 GLIEDERUNG Bivariate Analyse für metrisch skalierte Variablen – Grundlagen Streudiagramme und Visualisierungen von Zusammenhängen Positive lineare Zusammenhänge Negative lineare Zusammenhänge Kein Zusammenhang (statistische Unabhängigkeit) Andere nicht-lineare Zusammenhänge Die Kovarianz Der Korrelationskoeffizient r Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Bivariate Analyse für metrisch skalierte Variablen – Grundlagen Verfahren für metrische Daten nutzen den vollen „mathematischen“ Informationsgehalt von Daten aus – denn metrische Daten lassen sich addieren, multiplizieren etc. o Beispiel: Das Nettoeinkommen von mehreren Personen kann addiert (z.B. zum Haushaltseinkommen zusammengerechnet werden, wenn die Personen dem selben Haushalt angehören) oder multipliziert werden (z.B. mit einem Faktor, um in eine andere Währungseinheit umzurechnen) Während sich die bivariate Verteilung zweier nominal- oder ordinalskalierter Variablen gut in einer Kreuztabelle veranschaulichen lässt, könnte dies bei metrischen Variablen ungünstig sein, wenn diese Variablen viele Werte aufweisen Darstellung mit Hilfe eines Streudiagramms (zweidimensionales Koordinatensystem) Hier werden nur Zusammenhänge linearer Art behandelt, also „je / desto“-Beziehungen, die proportional beschaffen sind o Ein perfekter linearer Zusammenhang würde bedeuten, dass man die Werte einer Variablen (x) mit einem konstanten Faktor multiplizieren müsste, um auf die Werte der zweiten Variablen (y) zu kommen Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Streudiagramme und Visualisierungen von Zusammenhängen Die zwei betrachteten Variablen x und y ergeben für jeden Person ein Wertepaar (z.B. hat eine Person ein Einkommen von 1600 Eur (x = 1600) und eine Wohnfläche von 75 qm (y = 75) Ein solches Wertepaar wird als Punkt P (x|y) in dem Koordinatensystem abgetragen Für alle Personen einer Stichprobe ergibt dies eine Punktewolke bzw. das Streudiagramm: Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Positive lineare Zusammenhänge: Beziehung: je mehr (weniger) x, desto mehr (weniger) y Positive Zusammenhänge werden mit einem positiven Vorzeichen versehen Das Streudiagramm ähnelt bei immer intensiveren Zusammenhängen immer mehr einer Geraden mit einer positiven Steigung Beispiel: Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Negative lineare Zusammenhänge: Beziehung: je mehr (weniger) x, desto weniger (mehr) y Negative Zusammenhänge werden mit einem negativen Vorzeichen versehen Das Streudiagramm ähnelt bei immer intensiveren Zusammenhängen immer mehr einer Geraden mit einer negativen Steigung Beispiel: Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Kein Zusammenhang (statistische Unabhängigkeit): Zwischen x und y besteht keine Beziehung, ihre Werte streuen unabhängig voneinander Dies wird numerisch mit einer 0 bzw. einer Zahl nahe 0 zum Ausdruck gebracht Das Streudiagramm enthält einer „chaotische“ Punktewolke, durch die schon nach Augenmaß keine sinnvolle Gerade gelegt werden kann Beispiel: Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Andere nicht-lineare Zusammenhänge: Es sind diverse anders geartete Zusammenhänge denkbar Beispiele: Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Die Kovarianz Funktioniert ähnlich der Idee der Varianz, nur hier wird die Variation zweier (!!!) Variablen x und y gleichzeitig betrachtet daher „Kovarianz“ So wird ermittelt, inwieweit die Werte beider Variablen vom Mittelwert nach oben oder nach unten abweichen Auch die Information über die Größe der Abweichung von den Mittelwerten wird genutzt Wesentlich ist das Vorzeichen der Streuung,, welches sich für jedes Wertepaar ergibt Formel: Für jede Person wird das Produkt der beiden Abweichungen berechnet; berechnet dieses Produkt wird über alle Personen aufsummiert und durch die Anzahl der Personen geteilt Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Erläuterung der Grafik: Weichen beide Werte einer Person nach oben von den Mittelwerten ab, so befindet sich der Punkt dieser Person im „positiven Feld“ rechts oben; das Produkt der beiden Abweichungen ergibt eine positive Zahl Weichen beide Werte einer Person nach unten von den Mittelwerten ab, so befindet sich der Punkt dieser Person im „positiven Feld“ links unten; das Produkt der beiden Abweichungen ergibt ebenfalls eine positive Zahl Weicht der x-Wert nach oben und der y-Wert nach unten ab, dann befindet sich die Person im „nagativen Feld“ rechts unten; das Produkt der beiden Abweichungen ergibt eine negative Zahl Weicht der x-Wert nach unten und der y-Wert nach oben ab, dann befindet sich die Person im „nagativen Feld“ links oben; das Produkt der beiden Abweichungen ergibt ebenfalls eine negative Zahl Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Deutung der Kovarianz: Überwiegt, zusammengerechnet, das positive Vorzeichen – die Kovarianz wäre dann positiv – dann deutet dies auf einen positiven Zusammenhang hin (die Personen in den „positiven Feldern“ dominieren den Datensatz); analog dazu verhält es sich beim negativen Vorzeichen Gleichen sich beide Vorzeichen ungefähr zu 0 aus, dann deutet dies auf keinen Zusammenhang hin (die Punkte verteilen sich annähernd gleichmäßig auf alle vier Felder) Die Kovarianz ist eine unstandardisierte Maßzahl, da sie sich verändern würde, wenn die selben Variablen in anderen Maßeinheiten gemessen werden würden somit dient nur das Vorzeichen als Hinweis für die Richtung des Zusammenhangs; eine Aussage über die Stärke des Zusammenhangs lässt sich nicht treffen Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Der Korrelationskoeffizient r Standardisiert die Kovarianz Kovarianz,, normiert sie somit auf einen festen Wertebereich, welcher sich – unabhängig von der Maßeinheit der Variablen – immer zwischen -1 und +1 bewegt: Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Die Standardisierung erfolgt, indem die Kovarianz durch das Produkt der StandardabweiStandardabwe chungen beider Variablen geteilt wird (da die Standardabweichungen ebenfalls die MaßMa einheiten der beiden Variablen beinhalten – so kürzt man soz. die Maßeinheit raus): Da bei der Ermittlung der Kovarianz durch n geteilt wird (Zähler der Formel des KorrelatiKorrelat onskoeffizienten) und bei den Standardabweichungen jeweils durch die Wurzel aus n (was miteinander multipliziert wiederum n im Nenner ergibt) lässt sich n rauskürzen und die Formel schreiben als: Möchte man ferner auf das Rechnen mit Mittelwerten verzichten,, so lässt sich die alternaaltern tive Formel nutzen: Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Alle drei Formeln führen logischerweise zum selben Ergebnis Anmerkung:: Korrelationskoeffizient (sowie die Kovarianz) ist eine symmetrische Maßzahl (die Variablen x und y sind vertauschbar) Deutung der Zahlenwerte innerhalb des Wertebereichs: Es herrscht keine eindeutige, mathematisch gerechtfertigte Vorgabe Vorgabe,, ab welchem Wert von einem „starken“ Zusammenhang gesprochen werden kann, es gibt nur einen ungefähren Konsens unter Wissenschaftlern Wissenschaftlern; eine ine Version sieht wie folgt aus (Zahlenwerte beziehen sich sowohl auf den positiven als auch auf den negativen Wertebereich):