teil 10: bivariate analyse für nominalska

Werbung
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
TEIL 10: BIVARIATE ANALYSE FÜR NOMINALSKALIERTE VARIABLEN
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Einführung bivariate Analyse
• Die Beschaffenheit „der Welt“ ist zwar sehr komplex, unterliegt
aber auch Regelmäßigkeiten
• Regelmäßigkeiten sind wiederum Ausdruck von Merkmalen, die
sich einseitig oder gegenseitig bedingen: also Ausdruck von Zusammenhängen zwischen Variablen
• Die bivariate Analyse widmet sich der Frage nach dem Zusammenhang zwischen zwei Variablen
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Es wird versucht, auf statistisch-mathematischem Wege die
Stärke und die Vorzeichen-Richtung solcher Zusammenhänge
mithilfe von Zusammenhangsmaßen wissenschaftlich zu formalisieren1
• Zusammenhangsmaße weisen meist einen standardisierten
Wertebereich auf, welcher mit der Stärke des Zusammenhangs
einhergeht
1
Bei nominalskalierten Variablen stellt sich die Frage nach der Richtung eines Zusammenhangs nicht!
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Man unterscheidet zwischen symmetrischen und asymmetrischen Zusammenhangsmaßen:
o Asymmetrische Maße verlangen, dass vorher a priori festlegt wird, welche der beiden Variablen den Einfluss auf die
jeweils andere hat
o Bei symmetrischen Maßen wird die vermutete Kausalrichtung offen gelassen (symmetrische Maße erbringen somit
das gleiche Ergebnis, egal, welche der beiden Variablen als
„‫ “ݔ‬und welche als „‫ “ݕ‬ausgelegt wird)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Bivariate Analyse für nominalskalierte Variablen
• Alle hier behandelten Zusammenhangsmaße für das Nominalniveau basieren auf der Analyse von Kreuztabellen
• Gegenstand der Analyse sind somit absolute und relative Häufigkeiten der Ausprägungen solcher Variablen
• Die einfachste solcher Kreuztabellen ist die 2X2-Tabelle (beide
Variablen sind dichotom)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Grundstruktur 2X2-Tabelle:
a
b
a+b
c
d
c+d
a+c
b+d
n
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Kreuztabelle mit absoluten Häufigkeiten:
Kind: Ja
Kind: Nein
Arbeit: Ja
10
40
Σ=50
Arbeit: Nein
30
15
Σ=45
Σ=40
Σ=55
n=95
Kreuztabelle mit Spaltenprozenten:
Arbeit: Ja
Arbeit: Nein
Kind: Ja
25%
75%
100%
Kind: Nein
73%
27%
100%
Σ=50
Σ=45
n=95
Kreuztabelle mit Zeilenprozenten:
Kind: Ja
Kind: Nein
Arbeit: Ja
20%
80%
100%
Arbeit: Nein
67%
33%
100%
Σ=40
Σ=55
n=95
Kreuztabelle mit Zellenprozenten:
Arbeit: Ja
Arbeit: Nein
Kind: Ja
10,53%
31,6%
Σ=40
Kind: Nein
42,11%
Σ=50
15,8%
Σ=45
Σ=55
n=100%
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Die Prozentsatzdifferenz d%
• Einfaches und intuitiv zugängliches Maß
• Ist nur anwendbar auf 2X2-Tabellen
• Ist ein asymmetrisches Maß (Unabhängige Variable x spaltenweise; abhängige Variable y zeilenweise)
• Wertebereich zwischen 0 (vollständige Unabhängigkeit beider
Merkmale) und ±100% (vollständige Abhängigkeit beider
Merkmale)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Formel:
ܽ
ܾ
݀% = 100(
−
)
ܽ+ܿ ܾ+݀
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Erläuterung anhand des oberen Beispiels:
• Fragestellung der Prozentsatzdifferenz – Unterscheidet sich
der Anteil der Personen, die eine Arbeit haben, in der Gruppe
der Kinderbesitzenden von demselben Anteil in der Gruppe der
kinderlosen Personen? (konditionale relative Häufigkeiten)
Kinderbesitzende,
Kinderbesitzende, die eine Arbeit haben NichtNicht-Kinderbesitzende,
Kinderbesitzende, die eine Arbeit haben
ࢊ% = ૚૙૙ (
−
)
alle Kinderbesitzende
alle NichtNicht-Kinderbesitzende
• Werden die Werte eingesetzt, ergibt sich:
10 40
21
݀% = 100 ൬ − ൰ = 100 ൬− ൰ ≈ −47,73%
40 55
44
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Schlussfolgerung: Der Anteil der Arbeitenden in der Gruppe der
Kinderlosen ist um 47,73% höher (!!!), als in der Gruppe der
Personen mit Kind(ern)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Extremfälle der Prozentsatzdifferenz entlang des Beispiels:
• Würde ein Bruch 1 und der andere 0 betragen, dann wäre d% =
100, d.h.: alle, die Kinder hätten, hätten keine Arbeit und alle,
die keine Kinder hätten, hätten Arbeit (bzw. umgekehrt) perfekte Abhängigkeit
• Wären beide Brüche gleich, dann wäre d% = 0, d.h. das Vorhandensein einer Arbeit würde sich gleichmäßig auf Personen
mit Kind und auf Personen ohne Kind verteilen perfekte
Unabhängigkeit
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Verschiede Grade des Zusammenhangs bei 2x2-Tabellen mit
gleichmäßig verteilten Randsummen:
a) keine Beziehung
25
25
50
25
25
50
50
50
100
b) schwache Beziehung
28
22
50
22
28
50
50
50
100
c) starke Beziehung
40
10
50
10
40
50
50
50
100
d) perfekte Beziehung
50
50
50
50
50
50
100
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Anmerkung: Unterscheiden sich die Randsummen stark voneinander, dann ist die Stärke des Zusammenhangs u.U. nicht
mehr leicht visuell erkennbar:
18
18
36
62
2
64
80
20
100
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Chi-Quadrat ࣑૛ und Chi-Quadrat-basierte Maßzahlen
• Kontingenztabelle – Die übliche Kreuztabelle mit den beobachteten absoluten Häufigkeiten
• Indifferenztabelle – Konstruierte Tabelle mit Werten, welche
die Verteilung annehmen müsste, wenn beide Merkmale statistisch vollkommen unabhängig wären (erwartete Häufigkeiten)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Grundidee:
• Vergleich zwischen der Kontingenz- und der Indifferenztabelle
• Je mehr die Kontingenz- von der Indifferenztabelle abweicht,
umso stärker hängen beide Merkmale zusammen
• Anmerkung: Chi-Quadrat und Chi-Quadrat-basierte Maße sind
symmetrisch
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Bildung der Indifferenztabelle:
• Ausschlaggebend sind die Randsummen in den Zeilen und
Spalten und die Gesamtzahl n
• Daher wird zuerst der Grundbau einer Tabelle betrachtet – hier
beispielhaft für eine 2x3-Tabelle:
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Abitur↓ / Schicht →
Unterschicht
Mittelschicht
Oberschicht
Zeilensumme: 45
Zeilensumme: 81
Ja
Nein
Spaltensumme: 42 Spaltensumme: 40 Spaltensumme: 44
Allgemeine Berechnung der erwarteten
Häufigkeit einer Zelle (Merkmalskombination) ݅:
‫܍ܕܕܝܛܖ܍ܜܔ܉ܘ܁ ∗ ܍ܕܕܝܛܖ܍ܔܑ܍܈‬
ࢋ࢏ =
࢔
Gesamt: 126
Berechnung von ݁௜ beispielhaft für die
Zelle der Merkmalskombination „Unterschicht / Abitur“ (݅ = 1):
ࢋ૚ =
૝૞∙૝૛
૚૛૟
= ૚૞
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Gegenüberstellung Kontingent- und Indifferenztabelle:
Kontingenztabelle (mit beispielhaften Häufigkeiten)
Abitur↓ / Schicht →
Ja
Nein
Unterschicht
10
32
Mittelschicht
Oberschicht
15
25
20
24
Oberschicht
15,71
Zeilensumme: 45
28,29
Zeilensumme: 81
Zeilensumme: 45
Zeilensumme: 81
Gesamt: 126
Spaltensumme: 42 Spaltensumme: 40 Spaltensumme: 44
Indifferenztabelle
Abitur↓ / Schicht →
Unterschicht
Ja
15
Mittelschicht
14,29
Nein
27
25,71
Spaltensumme: 42 Spaltensumme: 40 Spaltensumme: 44
Gesamt: 126
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Formel für Chi-Quadrat:
௖
ଶ
(ܾ
−
݁
)
௜
௜
߯ଶ = ෍
݁௜
௜ୀଵ
mit:
݅ = Laufindex für die einzelnen Merkmalskombinationen (Zellen der Kreuztabelle) der beiden betrachteten Variablen; ܿ steht für die letzte Merkmalskombination
ܾ௜ = beobachtete Häufigkeit der Merkmalskombination ݅
݁௜ = erwartete Häufigkeit der Merkmalskombination ݅
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Somit müssen in dem oberen Beispiel die Ergebnisse von sechs Brüchen addiert werden:
(10 − 15)ଶ (15 − 14,29)ଶ (20 − 15,17)ଶ (32 − 27)ଶ (25 − 25,71)ଶ (24 − 28,29)ଶ
߯ =
+
+
+
+
+
= ૝, ૝૟ૢ૞
15
14,29
15,17
27
25,71
28,29
ଶ
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Anmerkungen zu Chi-Quadrat:
• Chi-Quadrat ist kein standardisiertes Maß, da es mit steigendem
n wachsen kann
• Es bewegt sich bei 2x2-Tabellen im Intervall 0 ≤ ߯ ଶ ≤ ݊, bei größeren Tabellen sogar darüber hinaus
• Deshalb bedarf es einer Standardisierung, also Maßzahlen mit
einem festen Wertebereich
• Dieser Wertebereich bewegt sich im Idealfall zwischen 0 und 1; je
größer der Wert, umso größer der Zusammenhang
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Chi-Quadrat-basierte Maßzahlen
Phi-Koeffizient ߮:
߯ଶ
߮=ඨ
݊
• Der Phi-Koeffizient weist den Vorteil auf, dass es eine sehr einfache und intuitiv zugängliche Maßzahl ist
• Nachteil: Er ist nur auf 2x2-Tabellen anwendbar, da sich bei größeren Tabellen der Wertebereich von 0 bis 1 über 1 hinaus verbreitet
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Kontingenzkoeffizient C:
߯ଶ
‫=ܥ‬ඨ ଶ
߯ +݊
• Der Kontingenzkoeffizient beseitigt den Nachteil von Phi, so dass
auch für größere Tabellen der Wertebereich die Grenze Eins
nicht überschreitet
• Nachteil: Dafür kann der Extremwert Eins nur annähernd erreicht werden (bei steigender Anzahl von Merkmalskombinationen konvergiert die Grenze gegen Eins)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Cramers V:
߯ଶ
ܸ=ඨ
݊ ∙ ݉݅݊ ((‫ – ݎ‬1); (ܿ – 1))
• Cramers V ist so konstruiert, dass diese Maßzahl den Maximalwert 1 immer, also unabhängig von der Anzahl der Zellen und
von der Stichprobengröße, erreichen kann
• Cramers V ist somit als die beste der drei Maßzahlen anzusehen
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Ausdruck „݉݅݊ ((‫ – ݎ‬1); (ܿ – 1))“ bedeutet:
o Die um eins erniedrigte Anzahl der Merkmalsausprägungen
der Variablen, welche weniger Ausprägungen hat
o ‫ = ݎ‬Anzahl der Zeilen (rows), ܿ = Anzahl der Spalten (columns), „min“ steht für das Minimum der beiden durch „;“ getrennten Ausdrücke
• Ist unter den beiden betrachteten Variablen mindestens eine dichotome Variable, dann vereinfacht sich die Formel von Cramers
V zu der Formel von Phi, da „݉݅݊ ((‫ – ݎ‬1); (ܿ – 1)) = 1“
Herunterladen