PowerPoint-Präsentation - Uni

Zusammenhänge von Variablen ab Nominalskalenniveau
• Benninghaus S. 168-204
• Zusammenhänge, Kontingenzen,
Assoziationen, Korrelationen
• Es wird überprüft, ob Variablen gemeinsam
auftreten bzw. gemeinsam variieren
• Zusammenhangsmaße haben einen Grad
(Höhe) und eine Richtung (positiv, negativ),
reichen meist von -1 bis +1, wobei das
Vorzeichen nur ab Ordinalskalenniveau
interpretierbar ist
• Ziel: Man will die Varianz einer abhängigen
Variablen durch die unabhängige vorhersagen bzw.
erklären (bei asymmetrischen Hypothesen) oder das
gemeinsame Auftreten zweier Variablen prüfen (bei
symmetrischen)
• Statistischer Zusammenhang bedeutet nicht kausaler
Einfluss!
• Vorher werden eine Null-Hypothese und eine
Alternativhypothese aufgestellt, z.B. „Frauen und
Männer unterscheiden sich nicht in der
Sprachkompetenz“; „Frauen sind besser in der
Sprachkompetenz als Männer“ (keine
deterministischen, sondern probabilistischen Hyp.)
3 prinzipielle Verfahrensweisen
• 1. Eine statistische Assoziation besteht, wenn die
bedingten Verteilungen verschieden sind (Vergleich
der Spaltenprozente; Prozentrangdifferenz, Odds
Ratio)
• 2. Man schaut sich an, wie die Tabelle bei
Unabhängigkeit der Variablen aussehen müsste,
vergleicht dies mit den echten Daten (Chi-Quadrat
und darauf aufbauende Maße: Phi-Koeffizient,
Cramers V, Kontingenzkoeffizient C)
• 3. PRE-Maße (proportional reduction of error): Man
schaut sich an, wie viele Fehler man bei der
Vorhersage der AV ohne / mit Kenntnis der UV macht
und vergleicht das Verhältnis beider Fehler; Lambda
(nominal), Gamma (ordinal), r², Eta² (Intervall)
Praktisches Vorgehen: Erstellung einer bivariaten Tabelle
• bivariate Tabelle,
Kontingenztabelle,
Kreuztabelle:
• Xj Werte der UV
• Yi Werte der AV
• fij Zellenhäufigkeiten
• nij Randhäufigkeiten
• immer die UV in die
Spalten setzen!!!!
X1
X2
Y1
f11
f12
n1.
Y2
f21
f22
n2.
n.1
n.2
n..
Praktisches Vorgehen: Vergleich der Spaltenprozente
• Man setzt f11 und f21
mit n.1 in Beziehung
(Spaltenprozente) sowie
f12 und f22 mit n.2.
Y1
• Dann werden
zeilenweise die relativen
Y2
Häufigkeiten
verglichen.
• Dies ist noch keine
statistische Maßzahl,
nur ein Überblick
X1
X2
f11
f12
n1.
f21
f22
n2.
n.1
n.2
n..
Bivariate Häufigkeitsverteilung (1)
Berufliche Stellung des Vaters und höchster allgemeinbildender
Schulabschluß des Befragten (Rohdaten bzw. Urliste)
Als Beispiel dienen die Angaben über die berufliche Stellung des Vaters
und den höchsten allgemeinbildenden Schulabschluß des Befragten in der
Befragung von Benninghaus (1987) . Da es sich um viele Fälle (n=60),
aber nur zwei Variablen handelt, werden die Rohdaten der Einfachheit
halber nicht in Form einer Matrix, sondern in Form einer Liste der
einzelnen Variablenausprägungen angegeben.
V172 Berufliche Stellung des Vaters: 2, 1, 2, 1, 4, 1, 1, 3, 1, 5, 4, 2, 5, 1, 2, 1, 3, 1,
3, 1, 3, 5, 4, 5, 4, 2, 1, 2, 3, 1, 1, 2, 2, 2, 2, 1, 3, 4, 2, 1, 2, 2, 1, 1, 1, 3, 1, 3, 3, 2, 1,
1, 1, 2, 1, 2, 3, 3, 3, 3.
V169 Höchster allgemeinbildender Schulabschluß: 1, 1, 1, 3, 4, 2, 1, 3, 1, 1, 1, 2,
2, 3, 3, 1, 2, 1, 4, 1, 4, 3, 1, 2, 4, 1, 3, 4, 2, 4, 4, 1, 1, 3, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 4, 2, 2, 1, 1, 2, 1, 1, 2, 1, 1, 1, 2.
Bivariate Häufigkeitsverteilung (2)
Ergebnisse der SPSS-Auswertung der Datei MABT60
Die Kreuztabelle sollte so aufgebaut werden, dass die unabhängige
Variable die Spalten und die abhängige Variable die Zeilen der
Tabelle definiert. Durch zeilenweises Lesen der Tabelle kann man
dann erkennen, wie sich die Anteile einzelner Ausprägungen der
abhängigen Variablen für die verschiedene Werte der unabhängigen
Variablen unterscheiden.
Bivariate Häufigkeitsverteilung (3)
Bivariate Häufigkeitsverteilung (4)
Statistische Graphik: gestapeltes Säulendiagramm
Die einzelnen (durch einen Zwischenraum getrennten) Säulen
repräsentieren die (diskreten) Ausprägungen der unabhängigen
Variablen. Die einzelnen Segmente jeder Säule zeigen den
prozentualen Anteil der jeweiligen Ausprägung der abhängigen
Variablen (bezogen auf die Zahl der Befragten mit der jeweiligen
Ausprägung der unabhängigen Variablen).
Gestapeltes Säulendiagramm
Unterschiedlich starke Zusammenhänge
Organisatorisches
•
•
•
•
Weihnachtspause 24. 12. – 4. 1.
Literatur: Benninghaus S. 204-232
Restprogramm der Zusammenhangsmaße:
Chi², Phi, Cramers V, Pearsons C, Lambda,
Korrelation und Regression, Varianzanalyse
Zusammenhangsmaße:
3 prinzipielle Verfahrensweisen
• 1. Eine statistische Assoziation besteht, wenn die
bedingten Verteilungen verschieden sind (Vergleich
der Spaltenprozente; Prozentrangdifferenz, Odds
Ratio)
• 2. Man schaut sich an, wie die Tabelle bei
Unabhängigkeit der Variablen aussehen müsste,
vergleicht dies mit den echten Daten (Chi-Quadrat
und darauf aufbauende Maße: Phi-Koeffizient,
Cramers V, Kontingenzkoeffizient C)
• 3. PRE-Maße (proportional reduction of error): Man
schaut sich an, wie viele Fehler man bei der
Vorhersage der AV ohne / mit Kenntnis der UV macht
und vergleicht das Verhältnis beider Fehler; Lambda
(nominal), Gamma (ordinal), r², Eta² (Intervall)
Prozentrangdifferenz
• gibt an, um wie viel Prozentpunkte eine
bestimmte Ausprägung von y bei x1 höher ist
als bei x2
• z.B. um wie viele Prozentpunkte der Anteil der
Personen, die keiner Religionsgemeinschaft
angehören, bei Männern größer ist als bei
Frauen.
Prozentsatzdifferenz
a
b
d% =100* ( ---- - ---- )
a+c
b+d
Wertebereich -100 bis 100
a
b
c
d
Vorgesetztenfunktionen (dichotom) nach Berufserfahrung (dichotomisiert)
Interpretation Prozentsatzdifferenz
30% aller Beschäftigten mit eher kurzer Berufstätigkeit (bis 25 Jahre) haben
Vorgesetztenfunktionen.
50% aller Beschäftigten mit eher längerer Berufstätigkeit (über 25 Jahre) haben
Vorgesetztenfunktionen.
Die Prozentsatzdifferenz beträgt 100*(15/30 - 9/30) = 20. Sie gibt an, um wieviel
Prozentpunkte der Anteil der Vorgesetzten bei den länger Berufstätigen höher ist
als der entsprechende Anteil der kürzer Berufstätigen. Man muss sich die
Prozentsatzdifferenz selber ausrechnen, sie wird im Computerausdruck nicht
ausgegeben.
Interpretation: Der Anteil der Personen mit Vorgesetztenfunktionen ist bei den
Beschäftigten mit eher längerer Berufstätigkeit um 20 Prozentpunkte höher als der
entsprechende Anteil bei den Beschäftigten mit eher kurzer Berufstätigkeit.
• Hat die UV 3 Stufen, gibt es schon 3
Prozentrangdifferenzen (2 voneinander
unabhängige), auch bei mehreren
Ausprägungen der AV wird die Lage
unübersichtlich. Man kann zwar mehrstufige
Variablen durch Zusammenfassen in 2*2Tabellen umformen, sollte dies aber nicht
willkürlich tun, da die Ergebnisse vom
Schnittpunkt abhängen. Für größere Tabellen
gibt es andere Maßzahlen, s.u.
Odds
• Odds sind Größenverhältnisse zweier
Ausprägungen einer Variablen. Die
Ausprägung wird hier nicht zu den
Randhäufigkeiten in Beziehung gesetzt,
sondern zu einer anderen Ausprägung.
• Beispiel: Sind in einer Stichprobe 120 Frauen
und 80 Männer, ist das Verhältnis zwischen
Frauen und Männern 120 / 80 = 1.5. In der
Stichprobe sind 1.5 mal so viele Frauen wie
Männer.
Odds Ratio; Kreuzproduktverhältnis
a
-c
-----b
-d
Der Wertebereich ist 0 bis
unendlich, bei
Unabhängigkeit beider
Variablen ist der Wert 1.
Vorgesetztenfunktionen (dichotom) nach Berufserfahrung (dichotomisiert)
Interpretation Odds, Kreuzproduktverhältnis
Die Odds (Chancen), eher Vorgesetzter als kein Vorgesetzter zu sein, betragen für
die Beschäftigten mit eher kurzer Berufstätigkeit (bis 25 Jahre) 9 zu 21 (oder 3 zu
7 oder 1 zu 2,333). In Zahlen: Odds = 9/21 = 3/7 = 1/2,3333 = 0,4286.
Die Odds (Chancen), eher Vorgesetzter als kein Vorgesetzter zu sein, betragen für
die Beschäftigten mit eher längerer Berufstätigkeit (über 25 Jahre) 15 zu 15 (oder
1 zu 1). In Zahlen: Odds = 15/15 = 1.
Das Kreuzproduktverhältnis beträgt: (15/15) / (9/21) = 1 / 0,4286= 2,3333. Es gibt
also an, um welchen Faktor die Odds der länger Berufstätigen größer sind als die
Odds der kürzer Berufstätigen. Es wird im SPSS-Ausdruck in der Zeile "case
control" unter der Überschrift "Relative Risk Estimate" ausgedruckt.
Interpretation: Die Odds (Chancen), eher Vorgesetzter als kein Vorgesetzter zu
sein, sind für die Beschäftigten mit eher längerer Berufstätigkeit 2,3 mal größer
als die entsprechenden Odds für die Beschäftigten mit eher kurzer Berufstätigkeit.
Problem bei Prozentrangdifferenz und Odds Ratio
• werden unübersichtlich bei größeren Tabellen,
da dann mehrere d% und OR berechnet
werden müssen, daher andere Verfahren:
Chi-Quadrat
• Prinzip: Man vergleicht die Kreuztabelle mit
einer fiktiven Tabelle, die bei Unabhängigkeit
beider Variablen aus den Randverteilungen
resultieren würde. Weichen beide Tabellen
stark voneinander ab, gibt es einen
Zusammenhang.
Chi-Quadrat
Χ2 =

( fb  f e )
fe
2
fb = Zellenhäufigkeiten in der tatsächlichen Tabelle
fe = bei Unabhängigkeit erwartete Häufigkeiten,
die berechnet man wie folgt:
erwartete Häufigkeit in jeder Zelle
feij =
ni . n. j
n
Beispiel: beobachtete und erwartete Häufigkeiten
Schulbildung
niedrig
9
nein 14.3
Berufs24
wechsel ja
18.7
33
hoch
17
11.7
10
15.3
26
27
60
34
Zelle oben links: erwartete Häufigkeit=26 * 33 / 60=14.3
Arbeitstabelle
i
j
fb
fe
fb-fe
(fb-fe)² (fb-fe)² / fe
1
1
9
14.3
-5.3
28.09
1.96
1
2
17
11.7
5.3
~
2.40
2
1
24
18.7
-5.3
~
1.50
2
2
10
15.3
5.3
~
1.84
Summe
=7.70
einfachere Formel für Chi² nur für 2*2-Tabellen
N (ad  bc)
Χ2 = (a  b)(c  d )( a  c)(b  d )
2
Problem des Chi²-Koeffizienten
• Chi² ist von seiner Größe her nicht zu
interpretieren, da er nicht von 0 bis 1 reicht,
sondern von 0 bis N. Er variiert mit der Anzahl
der Untersuchungseinheiten (bei mehr
Personen wird der Wert größer). Daher
verschiedene Versuche, den Wert an der
Anzahl der Untersuchungseinheiten zu
standardisieren:
Phi-Koeffizient

 
N
2
2


N
2
(im Beispiel Phi = .36)
Interpretation: ein Zusammenhang von über .30 ist
schon durchaus deutlich, ein Zusammenhang von
über .50 ist hoch und einer über .80 erstaunlich,
unter .10 spricht man gar nicht von einem
Zusammenhang; hier gibt es aber keine festen
Grenzwerte.
einfachere Berechnung Phi für 2*2-Tabellen
ad  bc

(a  b)(c  d )( a  c)(b  d )
im Beispiel Phi = -36
nach dieser Formel hat Phi also ein
Vorzeichen und reicht von -1 bis +1
Problem bei Phi
Der Wert reicht zwar von 0 bis 1 bzw. nach der
zweiten Formel von -1 bis 1, jedoch nur bei 2*2Tabellen, sonst kann Phi größer als 1 werden,
daher besser:
Cramer´s V

N  min( r  1, c  1)
2
2
V =

N  min( r  1, c  1)
2
V=
min (r-1, c-1): Anzahl der Zeilen oder Spalten, je
nachdem, was weniger sind, minus 1
bei 2*2-Tabellen ist V mit Phi identisch
Pearsons Kontingenzkoeffizient C
c
cmax

2
 N
2
Der obere Grenzwert
ist kleiner als 1.
Daher berechnet man
den maximal
möglichen Wert
K 1

K
(k = min r,c)
c
ckorrigiert=
cmax
und teilt C durch
diesen. Damit erhält
man C korrigiert.
Wertebereich 0 bis 1
Fazit
• Gebräuchlich sind alle Koeffizienten, also
sollte man sie kennen. Besonders
empfehlenswert ist Cramers V, weil er immer
von 0 bis 1 reicht. V ist ein vorzeichenloses
Zusammenhangsmaß für Variablen mit
beliebigem Skalenniveau (ab nominal).
Drittes Prinzip für Zusammenhangsmaße
• PRE-Maße (proportional reduction of error):
Man schaut sich an, wie viele Fehler man bei der
Vorhersage der AV ohne Kenntnis der UV macht und
wie viele Fehler mit Kenntnis der UV. Dazu braucht
man eine Fehlerdefinition (Anzahl falsche
Zuordnungen in der Häufigkeitstabelle). Man
vergleicht das Verhältnis beider Fehler. Pre-Maße gibt
es für alle Skalenniveaus, wir behandeln das Maß für
Nominalskalenniveau: Lambda. Dieses gibt es für
symmetrische und asymmetrische Hypothesen. Wir
beginnen mit dem asymmetrischen Maß und einem
Beispiel:
Hypothese: Nach langer Lernzeit im Beruf steigt das Einkommen
Lernzeit
kurz
Summe
Einkommen
8
mittel
9
lang
1
18
niedrig
mittel
6
9
4
19
hoch
2
8
11
21
Summe
16
26
16
58
Vorgehen
• Wie viele Fehler machen wir bei der Vorhersage der AV nur
anhand der Randverteilung? Wir sagen für jede Person
sinnvollerweise den häufigsten Wert vorher (Modalwert), das
ist ‘hohes Einkommen‘, kommt 21 mal vor also machen wir
58-21= 37 Fehler.
• Wie viele Fehler bei Kenntnis der UV? Wir sagen für jede
Person den Modalwert in ihrer Spalte (in Abhängigkeit von der
UV) vorher, für Spalten 1 und 2 „niedrig“ und für die dritte
„hoch“. Damit machen wir 8+9+11=28 Vorhersagen richtig
und 58-28 = 30 falsch.
• Die proportionale Fehlerreduktion beträgt
(E1-E2) / E1 = (37-30) / 37 = .19
• Interpretation: Durch Kenntnis der Lernzeit reduzieren wir die
Anzahl der Fehler bei der Vorhersage des Einkommens um 19
Prozent.
Formel für Lambda, wenn in der Zeile die AV steht
(row, üblicher Fall)
r
max nj  max ni.


N  max ni.
((8 + 9 + 11) – 21) / 58 – 21 = .19
Wertebereich 0 bis 1
Formel für Lambda, wenn in der Spalte die AV steht (column)
c
max ni  max n. j


N  max n. j
((9 + 9 + 11) – 26) / 58 – 26 = .09
Kombination beider: symmetrisches Lambda
s
max nj   max ni  max ni.  max n. j


2 N  max ni.  max n. j
((8 + 9 + 11) + (9 + 9 + 11) – 21 – 26 ) / 2 * 58 – 21 – 26 = .14
nicht identisch mit dem Mittelwert beider asymmetrischer Maße