teil 12: bivariate analyse für metrisch skalierte variablen

Werbung
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
TEIL 12: BIVARIATE ANALYSE FÜR METRISCH
SKALIERTE VARIABLEN
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
GLIEDERUNG
Bivariate Analyse für metrisch skalierte Variablen – Grundlagen
Streudiagramme und Visualisierungen von Zusammenhängen
Positive lineare Zusammenhänge
Negative lineare Zusammenhänge
Kein Zusammenhang (statistische Unabhängigkeit)
Andere nicht-lineare Zusammenhänge
Die Kovarianz
Der Korrelationskoeffizient r
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Bivariate Analyse für metrisch skalierte Variablen – Grundlagen
Verfahren für metrische Daten nutzen den vollen „mathematischen“ Informationsgehalt
von Daten aus – denn metrische Daten lassen sich addieren, multiplizieren etc.
o Beispiel: Das Nettoeinkommen von mehreren Personen kann addiert (z.B. zum Haushaltseinkommen zusammengerechnet werden, wenn die Personen dem selben Haushalt angehören) oder multipliziert werden (z.B. mit einem Faktor, um in eine andere
Währungseinheit umzurechnen)
Während sich die bivariate Verteilung zweier nominal- oder ordinalskalierter Variablen gut
in einer Kreuztabelle veranschaulichen lässt, könnte dies bei metrischen Variablen ungünstig sein, wenn diese Variablen viele Werte aufweisen
Darstellung mit Hilfe eines Streudiagramms (zweidimensionales Koordinatensystem)
Hier werden nur Zusammenhänge linearer Art behandelt, also „je / desto“-Beziehungen, die
proportional beschaffen sind
o Ein perfekter linearer Zusammenhang würde bedeuten, dass man die Werte einer Variablen (x) mit einem konstanten Faktor multiplizieren müsste, um auf die Werte der
zweiten Variablen (y) zu kommen
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Streudiagramme und Visualisierungen von Zusammenhängen
Die zwei betrachteten Variablen x und y ergeben für jeden Person ein Wertepaar (z.B. hat
eine Person ein Einkommen von 1600 Eur (x = 1600) und eine Wohnfläche von 75 qm (y =
75)
Ein solches Wertepaar wird als Punkt P (x|y) in dem Koordinatensystem abgetragen
Für alle Personen einer Stichprobe ergibt dies eine Punktewolke bzw. das Streudiagramm:
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Positive lineare Zusammenhänge:
Beziehung: je mehr (weniger) x, desto mehr (weniger) y
Positive Zusammenhänge werden mit einem positiven Vorzeichen versehen
Das Streudiagramm ähnelt bei immer intensiveren Zusammenhängen immer mehr einer Geraden mit einer positiven Steigung
Beispiel:
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Negative lineare Zusammenhänge:
Beziehung: je mehr (weniger) x, desto weniger (mehr) y
Negative Zusammenhänge werden mit einem negativen Vorzeichen versehen
Das Streudiagramm ähnelt bei immer intensiveren Zusammenhängen immer mehr einer Geraden mit einer negativen Steigung
Beispiel:
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Kein Zusammenhang (statistische Unabhängigkeit):
Zwischen x und y besteht keine Beziehung, ihre Werte streuen unabhängig voneinander
Dies wird numerisch mit einer 0 bzw. einer Zahl nahe 0 zum Ausdruck gebracht
Das Streudiagramm enthält einer „chaotische“ Punktewolke, durch die schon nach Augenmaß keine sinnvolle Gerade gelegt werden kann
Beispiel:
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Andere nicht-lineare Zusammenhänge:
Es sind diverse anders geartete Zusammenhänge denkbar
Beispiele:
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Die Kovarianz
Funktioniert ähnlich der Idee der Varianz, nur hier wird die Variation zweier (!!!) Variablen x
und y gleichzeitig betrachtet daher „Kovarianz“
So wird ermittelt, inwieweit die Werte beider Variablen vom Mittelwert nach oben oder
nach unten abweichen
Auch die Information über die Größe der Abweichung von den Mittelwerten wird genutzt
Wesentlich ist das Vorzeichen der Streuung,, welches sich für jedes Wertepaar ergibt
Formel:
Für jede Person wird das Produkt der beiden Abweichungen berechnet;
berechnet dieses Produkt wird
über alle Personen aufsummiert und durch die Anzahl der Personen geteilt
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Erläuterung der Grafik:
Weichen beide Werte einer Person nach oben von den Mittelwerten ab, so befindet sich
der Punkt dieser Person im „positiven Feld“ rechts oben; das Produkt der beiden Abweichungen ergibt eine positive Zahl
Weichen beide Werte einer Person nach unten von den Mittelwerten ab, so befindet sich
der Punkt dieser Person im „positiven Feld“ links unten; das Produkt der beiden Abweichungen ergibt ebenfalls eine positive Zahl
Weicht der x-Wert nach oben und der y-Wert nach unten ab, dann befindet sich die Person
im „nagativen Feld“ rechts unten; das Produkt der beiden Abweichungen ergibt eine negative Zahl
Weicht der x-Wert nach unten und der y-Wert nach oben ab, dann befindet sich die Person
im „nagativen Feld“ links oben; das Produkt der beiden Abweichungen ergibt ebenfalls eine
negative Zahl
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Deutung der Kovarianz:
Überwiegt, zusammengerechnet, das positive Vorzeichen – die Kovarianz wäre dann positiv – dann deutet dies auf einen positiven Zusammenhang hin (die Personen in den „positiven Feldern“ dominieren den Datensatz); analog dazu verhält es sich beim negativen Vorzeichen
Gleichen sich beide Vorzeichen ungefähr zu 0 aus, dann deutet dies auf keinen Zusammenhang hin (die Punkte verteilen sich annähernd gleichmäßig auf alle vier Felder)
Die Kovarianz ist eine unstandardisierte Maßzahl, da sie sich verändern würde, wenn die
selben Variablen in anderen Maßeinheiten gemessen werden würden somit dient nur
das Vorzeichen als Hinweis für die Richtung des Zusammenhangs; eine Aussage über die
Stärke des Zusammenhangs lässt sich nicht treffen
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Der Korrelationskoeffizient r
Standardisiert die Kovarianz
Kovarianz,, normiert sie somit auf einen festen Wertebereich, welcher
sich – unabhängig von der Maßeinheit der Variablen – immer zwischen -1 und +1 bewegt:
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Die Standardisierung erfolgt, indem die Kovarianz durch das Produkt der StandardabweiStandardabwe
chungen beider Variablen geteilt wird (da die Standardabweichungen ebenfalls die MaßMa
einheiten der beiden Variablen beinhalten – so kürzt man soz. die Maßeinheit raus):
Da bei der Ermittlung der Kovarianz durch n geteilt wird (Zähler der Formel des KorrelatiKorrelat
onskoeffizienten) und bei den Standardabweichungen jeweils durch die Wurzel aus n (was
miteinander multipliziert wiederum n im Nenner ergibt) lässt sich n rauskürzen und die
Formel schreiben als:
Möchte man ferner auf das Rechnen mit Mittelwerten verzichten,, so lässt sich die alternaaltern
tive Formel nutzen:
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Alle drei Formeln führen logischerweise zum selben Ergebnis
Anmerkung:: Korrelationskoeffizient (sowie die Kovarianz) ist eine symmetrische Maßzahl
(die Variablen x und y sind vertauschbar)
Deutung der Zahlenwerte innerhalb des Wertebereichs:
Es herrscht keine eindeutige, mathematisch gerechtfertigte Vorgabe
Vorgabe,, ab welchem Wert von
einem „starken“ Zusammenhang gesprochen werden kann, es gibt nur einen ungefähren
Konsens unter Wissenschaftlern
Wissenschaftlern; eine
ine Version sieht wie folgt aus (Zahlenwerte beziehen
sich sowohl auf den positiven als auch auf den negativen Wertebereich):
Herunterladen