Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 TEIL 10: BIVARIATE ANALYSE FÜR NOMINALSKALIERTE VARIABLEN Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Einführung bivariate Analyse • Die Beschaffenheit „der Welt“ ist zwar sehr komplex, unterliegt aber auch Regelmäßigkeiten • Regelmäßigkeiten sind wiederum Ausdruck von Merkmalen, die sich einseitig oder gegenseitig bedingen: also Ausdruck von Zusammenhängen zwischen Variablen • Die bivariate Analyse widmet sich der Frage nach dem Zusammenhang zwischen zwei Variablen Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 • Es wird versucht, auf statistisch-mathematischem Wege die Stärke und die Vorzeichen-Richtung solcher Zusammenhänge mithilfe von Zusammenhangsmaßen wissenschaftlich zu formalisieren1 • Zusammenhangsmaße weisen meist einen standardisierten Wertebereich auf, welcher mit der Stärke des Zusammenhangs einhergeht 1 Bei nominalskalierten Variablen stellt sich die Frage nach der Richtung eines Zusammenhangs nicht! Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 • Man unterscheidet zwischen symmetrischen und asymmetrischen Zusammenhangsmaßen: o Asymmetrische Maße verlangen, dass vorher a priori festlegt wird, welche der beiden Variablen den Einfluss auf die jeweils andere hat o Bei symmetrischen Maßen wird die vermutete Kausalrichtung offen gelassen (symmetrische Maße erbringen somit das gleiche Ergebnis, egal, welche der beiden Variablen als „ “ݔund welche als „ “ݕausgelegt wird) Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Bivariate Analyse für nominalskalierte Variablen • Alle hier behandelten Zusammenhangsmaße für das Nominalniveau basieren auf der Analyse von Kreuztabellen • Gegenstand der Analyse sind somit absolute und relative Häufigkeiten der Ausprägungen solcher Variablen • Die einfachste solcher Kreuztabellen ist die 2X2-Tabelle (beide Variablen sind dichotom) Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Grundstruktur 2X2-Tabelle: a b a+b c d c+d a+c b+d n Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Kreuztabelle mit absoluten Häufigkeiten: Kind: Ja Kind: Nein Arbeit: Ja 10 40 Σ=50 Arbeit: Nein 30 15 Σ=45 Σ=40 Σ=55 n=95 Kreuztabelle mit Spaltenprozenten: Arbeit: Ja Arbeit: Nein Kind: Ja 25% 75% 100% Kind: Nein 73% 27% 100% Σ=50 Σ=45 n=95 Kreuztabelle mit Zeilenprozenten: Kind: Ja Kind: Nein Arbeit: Ja 20% 80% 100% Arbeit: Nein 67% 33% 100% Σ=40 Σ=55 n=95 Kreuztabelle mit Zellenprozenten: Arbeit: Ja Arbeit: Nein Kind: Ja 10,53% 31,6% Σ=40 Kind: Nein 42,11% Σ=50 15,8% Σ=45 Σ=55 n=100% Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Die Prozentsatzdifferenz d% • Einfaches und intuitiv zugängliches Maß • Ist nur anwendbar auf 2X2-Tabellen • Ist ein asymmetrisches Maß (Unabhängige Variable x spaltenweise; abhängige Variable y zeilenweise) • Wertebereich zwischen 0 (vollständige Unabhängigkeit beider Merkmale) und ±100% (vollständige Abhängigkeit beider Merkmale) Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 • Formel: ܽ ܾ ݀% = 100( − ) ܽ+ܿ ܾ+݀ Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Erläuterung anhand des oberen Beispiels: • Fragestellung der Prozentsatzdifferenz – Unterscheidet sich der Anteil der Personen, die eine Arbeit haben, in der Gruppe der Kinderbesitzenden von demselben Anteil in der Gruppe der kinderlosen Personen? (konditionale relative Häufigkeiten) Kinderbesitzende, Kinderbesitzende, die eine Arbeit haben NichtNicht-Kinderbesitzende, Kinderbesitzende, die eine Arbeit haben ࢊ% = ( − ) alle Kinderbesitzende alle NichtNicht-Kinderbesitzende • Werden die Werte eingesetzt, ergibt sich: 10 40 21 ݀% = 100 ൬ − ൰ = 100 ൬− ൰ ≈ −47,73% 40 55 44 Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 • Schlussfolgerung: Der Anteil der Arbeitenden in der Gruppe der Kinderlosen ist um 47,73% höher (!!!), als in der Gruppe der Personen mit Kind(ern) Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Extremfälle der Prozentsatzdifferenz entlang des Beispiels: • Würde ein Bruch 1 und der andere 0 betragen, dann wäre d% = 100, d.h.: alle, die Kinder hätten, hätten keine Arbeit und alle, die keine Kinder hätten, hätten Arbeit (bzw. umgekehrt) perfekte Abhängigkeit • Wären beide Brüche gleich, dann wäre d% = 0, d.h. das Vorhandensein einer Arbeit würde sich gleichmäßig auf Personen mit Kind und auf Personen ohne Kind verteilen perfekte Unabhängigkeit Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Verschiede Grade des Zusammenhangs bei 2x2-Tabellen mit gleichmäßig verteilten Randsummen: a) keine Beziehung 25 25 50 25 25 50 50 50 100 b) schwache Beziehung 28 22 50 22 28 50 50 50 100 c) starke Beziehung 40 10 50 10 40 50 50 50 100 d) perfekte Beziehung 50 50 50 50 50 50 100 Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 • Anmerkung: Unterscheiden sich die Randsummen stark voneinander, dann ist die Stärke des Zusammenhangs u.U. nicht mehr leicht visuell erkennbar: 18 18 36 62 2 64 80 20 100 Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Chi-Quadrat ࣑ und Chi-Quadrat-basierte Maßzahlen • Kontingenztabelle – Die übliche Kreuztabelle mit den beobachteten absoluten Häufigkeiten • Indifferenztabelle – Konstruierte Tabelle mit Werten, welche die Verteilung annehmen müsste, wenn beide Merkmale statistisch vollkommen unabhängig wären (erwartete Häufigkeiten) Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Grundidee: • Vergleich zwischen der Kontingenz- und der Indifferenztabelle • Je mehr die Kontingenz- von der Indifferenztabelle abweicht, umso stärker hängen beide Merkmale zusammen • Anmerkung: Chi-Quadrat und Chi-Quadrat-basierte Maße sind symmetrisch Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Bildung der Indifferenztabelle: • Ausschlaggebend sind die Randsummen in den Zeilen und Spalten und die Gesamtzahl n • Daher wird zuerst der Grundbau einer Tabelle betrachtet – hier beispielhaft für eine 2x3-Tabelle: Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Abitur↓ / Schicht → Unterschicht Mittelschicht Oberschicht Zeilensumme: 45 Zeilensumme: 81 Ja Nein Spaltensumme: 42 Spaltensumme: 40 Spaltensumme: 44 Allgemeine Berechnung der erwarteten Häufigkeit einer Zelle (Merkmalskombination) ݅: ܍ܕܕܝܛܖ܍ܜܔ܉ܘ܁ ∗ ܍ܕܕܝܛܖ܍ܔܑ܍܈ ࢋ = Gesamt: 126 Berechnung von ݁ beispielhaft für die Zelle der Merkmalskombination „Unterschicht / Abitur“ (݅ = 1): ࢋ = ∙ = Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Gegenüberstellung Kontingent- und Indifferenztabelle: Kontingenztabelle (mit beispielhaften Häufigkeiten) Abitur↓ / Schicht → Ja Nein Unterschicht 10 32 Mittelschicht Oberschicht 15 25 20 24 Oberschicht 15,71 Zeilensumme: 45 28,29 Zeilensumme: 81 Zeilensumme: 45 Zeilensumme: 81 Gesamt: 126 Spaltensumme: 42 Spaltensumme: 40 Spaltensumme: 44 Indifferenztabelle Abitur↓ / Schicht → Unterschicht Ja 15 Mittelschicht 14,29 Nein 27 25,71 Spaltensumme: 42 Spaltensumme: 40 Spaltensumme: 44 Gesamt: 126 Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Formel für Chi-Quadrat: ଶ (ܾ − ݁ ) ߯ଶ = ݁ ୀଵ mit: ݅ = Laufindex für die einzelnen Merkmalskombinationen (Zellen der Kreuztabelle) der beiden betrachteten Variablen; ܿ steht für die letzte Merkmalskombination ܾ = beobachtete Häufigkeit der Merkmalskombination ݅ ݁ = erwartete Häufigkeit der Merkmalskombination ݅ Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Somit müssen in dem oberen Beispiel die Ergebnisse von sechs Brüchen addiert werden: (10 − 15)ଶ (15 − 14,29)ଶ (20 − 15,17)ଶ (32 − 27)ଶ (25 − 25,71)ଶ (24 − 28,29)ଶ ߯ = + + + + + = , ૢ 15 14,29 15,17 27 25,71 28,29 ଶ Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Anmerkungen zu Chi-Quadrat: • Chi-Quadrat ist kein standardisiertes Maß, da es mit steigendem n wachsen kann • Es bewegt sich bei 2x2-Tabellen im Intervall 0 ≤ ߯ ଶ ≤ ݊, bei größeren Tabellen sogar darüber hinaus • Deshalb bedarf es einer Standardisierung, also Maßzahlen mit einem festen Wertebereich • Dieser Wertebereich bewegt sich im Idealfall zwischen 0 und 1; je größer der Wert, umso größer der Zusammenhang Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Chi-Quadrat-basierte Maßzahlen Phi-Koeffizient ߮: ߯ଶ ߮=ඨ ݊ • Der Phi-Koeffizient weist den Vorteil auf, dass es eine sehr einfache und intuitiv zugängliche Maßzahl ist • Nachteil: Er ist nur auf 2x2-Tabellen anwendbar, da sich bei größeren Tabellen der Wertebereich von 0 bis 1 über 1 hinaus verbreitet Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Kontingenzkoeffizient C: ߯ଶ =ܥඨ ଶ ߯ +݊ • Der Kontingenzkoeffizient beseitigt den Nachteil von Phi, so dass auch für größere Tabellen der Wertebereich die Grenze Eins nicht überschreitet • Nachteil: Dafür kann der Extremwert Eins nur annähernd erreicht werden (bei steigender Anzahl von Merkmalskombinationen konvergiert die Grenze gegen Eins) Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 Cramers V: ߯ଶ ܸ=ඨ ݊ ∙ ݉݅݊ (( – ݎ1); (ܿ – 1)) • Cramers V ist so konstruiert, dass diese Maßzahl den Maximalwert 1 immer, also unabhängig von der Anzahl der Zellen und von der Stichprobengröße, erreichen kann • Cramers V ist somit als die beste der drei Maßzahlen anzusehen Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161 • Ausdruck „݉݅݊ (( – ݎ1); (ܿ – 1))“ bedeutet: o Die um eins erniedrigte Anzahl der Merkmalsausprägungen der Variablen, welche weniger Ausprägungen hat o = ݎAnzahl der Zeilen (rows), ܿ = Anzahl der Spalten (columns), „min“ steht für das Minimum der beiden durch „;“ getrennten Ausdrücke • Ist unter den beiden betrachteten Variablen mindestens eine dichotome Variable, dann vereinfacht sich die Formel von Cramers V zu der Formel von Phi, da „݉݅݊ (( – ݎ1); (ܿ – 1)) = 1“