1 und 1

Werbung
Dr. habil. Rüdiger Jacob
Methoden und Techniken der empirischen Sozialforschung
Vorlesung mit Diskussion
9. Datenaufbereitung und Datenanalyse
Datenaufbereitung und Codierung, Datenmatrix, Datenfehler und
Datenbereinigung, Korrelation und Kausalität, Individualdaten und
Aggregatdaten univariate und bivariate Datenanalyse, Signifikanz und
Assoziation, Drittfaktorkontrolle
Jacob, Datenanalyse
1
Datenaufbereitung und
Datenanalyse
Individual- oder Mikrodaten:
Daten von einzelnen Merkmalsträgern.
Aggregat- oder Makrodaten:
Daten von Kollektiven. Alle Arten von Raten oder Anteilswerten:
• Eheschließungs- und Scheidungsraten
• Arbeitslosenquote
• Lungenkrebsmorbiditätsraten in einer Stadt
• Anteil der Raucher in einer Stadt
• Jahres-Pro-Kopf-Menge des Verbrauchs von Butter und anderen
tierischen
Fetten
• Mortalitätsraten Herzinfarkt
Bei Aggregatdaten: Ökologischer Fehlschluss bei Korrelationen
Ökologische Korrelationen: Hinweise auf mögliche Zusammenhänge
ÎZur Formulierung von Hypothesen gut geeignet, nicht zu deren Überprüfung!
Jacob, Datenanalyse
2
Individualdaten und Aggregatdaten:
Ernährung und Herzinfarkt. Vergleich zwischen Deutschland und Japan
(1988/OECD-health-Data)
Deutsch
-land
Japan
Rel.Rate Japan
(D =100%)
Herzinfarktmortalität Frauen
105,0
29,0
27,6
Herzinfarktmortalität Männer
531,0
109,0
20,5
Täglicher Kalorienkonsum
3537
2647
74,8
Täglicher Verbrauch von
Getreideprotein in gr
33
45
136,4
Jährlicher Verbrauch von Butter in Kg
8,4
0,7
8,3
Jacob, Datenanalyse
3
Variable:
Merkmale, die verschiedene Ausprägungen
haben können.
Dichotome Variable: 2 Ausprägungen
Trichotome Variable: 3 Ausprägungen
Polytome Variable: mehr als 2 Ausprägungen
Konstante: Merkmale mit nur einer Ausprägung.
Ob Merkmale Konstante oder Variable darstellen,
hängt wesentlich von der Forschungsfrage und
der Struktur der untersuchten Population ab
Jacob, Datenanalyse
4
Phasen der Datenauswertung
Kodierung und Dateneingabe
Fehlerkontrolle,
Fehlerbereinigung,
Ausschluss fehlerhafter
und fehlender Angaben
("missing values")
Umformung von Variablen
(Rekodierung),
Neubildung von Variablen,
Indizes und Skalen
(Variablentransformation)
Statistische Analyse von
Verteilungen und
Zusammenhängen
- univariat
- bivariat
- multivariat
Jacob, Datenanalyse
5
Datenmatrix
Variable
Fälle
Variable: Kopfseite Î Spalten
Merkmalsträger, Fälle: Stirnseite Î Zeilen
Jacob, Datenanalyse
6
ID
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
1
0
1
0
1
1
3
1
9
9
9
2
0
1
0
1
0
2
1
3
1
5
3
0
0
0
0
1
9
9
3
2
2
4
1
1
0
1
0
1
3
2
2
1
:
:
:
:
:
:
:
:
:
:
:
247
1
1
0
1
0
1
9
2
2
1
Jacob, Datenanalyse
7
Wichtig:
Eine Datenmatrix ist nicht mit einer Tabelle zu
verwechseln.
Tabellen zeigen die Verteilung eines Merkmals
(Häufigkeitstabelle) oder die gemeinsame Verteilung von
zwei Merkmalen (Kreuztabelle). Eine Datenmatrix enthält
dagegen alle erhobenen Merkmale einer Untersuchung.
Erstellung einer Datenmatrix:
Variablennamen
Kodierung
Platzhalter für Filter und fehlende Werte
Fallnummern
Jacob, Datenanalyse
8
7.
A
B
C
D
E
8.
Wie zufrieden sind Sie mit Ihrer Gesundheit?
Sehr zufrieden
Zufrieden
Weniger zufrieden
Unzufrieden
Weiß nicht (Interviewer: nicht vorlesen)
V7
Frage (hier = Variable)
26,8
53,5
13,6
6,1
/
k.A. /
relative
Häufigkeiten
n=507
1
2
3
4
8
9
Und wie zufrieden sind Sie insgesamt mit der medizinischen Betreuung durch Ihre Ärzte?
Variablenname
V8
n=507
A
B
C
D
E
9.
Sehr zufrieden
Zufrieden
Weniger zufrieden
Unzufrieden
Weiß nicht (Interviewer: nicht vorlesen)
29,6
53,1
13,2
3,2
1,0
k. A.
/
An wen wenden Sie sich zunächst, wenn Sie eine leichtere Erkrankung feststellen?
1
2
3
4
8
9
Codezahlen
Frage
Ja
Nein
58,6
41,4
1, 0
V9.A
32,3
67,7
1, 0
V9.B
A
an Partner oder Ehepartner (n=507)
B
an Eltern / Verwandte (n=507)
C
an Freunde (n=507)
29,2
70,8
1, 0
V9.C
D
an Ärzte (n=507)
60,7
39,3
1, 0
V9.D
E
an Nachbarn (n=506)
7,3
92,7
1, 0
V9.E
F
an Arbeitskollegen (n=506)
15,2
84,8
1, 0
V9.F
G
an Krankenhaus (n=507)
10,3
89,7
1, 0
V9.G
Variable
Jacob, Datenanalyse
Fallzahl
Variablen
-namen
9
Univariate Analyse: Verteilung eines Merkmals
Deskriptive Maßzahlen:
1. Maße der zentralen Tendenz
• Mean: arithmetisches Mittel
• Median: Zentralwert
• Mode, Modus, Modalwert: am häufigsten vorkommender Wert
•2. Streuungsmaße
• Range, Spannweite: Differenz zwischen dem kleinsten und dem größten Wert
• Varianz: quadrierte, summierte Abweichungen der individuellen
Merkmalsausprägungen vom Mittelwert, dividiert durch die Gesamtzahl der Fälle
(dimensionsloser Wert)
• Standardabweichung: Wurzel aus der Varianz (gleiche Dimension wie die
Ausgangsdaten)
Jacob, Datenanalyse
10
Jacob, Datenanalyse
11
Rechtsschiefe/linkssteile Verteilung
Jacob, Datenanalyse
12
Bei Normalverteilungen sind Modus, Median und arithmetisches Mittel
identisch.
Für normalverteilte Merkmale gilt:
rund 2/3 aller Fälle (genau 68,26%) liegen in dem Intervall mit den Grenzen
arith. Mittel + Standardabweichung und arith. Mittel - Standardabweichung.
95,44% aller Fälle liegen in dem Intervall mit den Grenzen
arith. Mittel + 2 Standardabweichungen und arith. Mittel - 2
Standardabweichungen
99,74% aller Fälle liegen in dem Intervall mit den Grenzen
arith. Mittel + 3 Standardabweichungen und arith. Mittel - 3
Standardabweichungen
Bei schiefen Verteilungen gilt:
Rechtsschiefe/linkssteile Verteilungen: Modus<Median<arith. Mittel
Linksschiefe/rechtssteile Verteilungen: Modus>Median>arith. Mittel
Jacob, Datenanalyse
13
Jacob, Datenanalyse
14
40
30
20
10
Std.abw. = 14,29
Mittel = 79,8
N = 195,00
0
40,0
50,0
45,0
60,0
55,0
70,0
65,0
80,0
75,0
90,0
85,0
100,0
110,0
120,0
95,0
105,0
115,0
125,0
Gewicht
Jacob, Datenanalyse
15
30
20
10
Std.abw. = 8,76
Mittel = 169,3
N = 193,00
0
150,0
155,0
160,0
165,0
170,0
175,0
180,0
185,0
190,0
152,5
157,5
162,5
167,5
172,5
177,5
182,5
187,5
Größe
Jacob, Datenanalyse
16
Übergewicht: Body-Mass-Index (BMI).
Körpergewicht in KG geteilt durch das Quadrat der Körpergröße in m
Gewicht(Kg)
BMI = ----------------------Körpergröße(m)2
75Kg
BMI = --------------- = 25,9
1,70m2
Wertebereiche:
unter 18: deutliches Untergewicht
18-20: Untergewicht
20-25: Normalgewicht
25-30: Übergewicht
über 30: Adipositas
Jacob, Datenanalyse
17
BMI
Value Label
deutl. Unterg.
Normalg.
Überg.
Adipositas
Value
Frequency
Percent
Valid
Percent
1
3
4
5
,
2
48
69
55
22
------196
1,0
24,5
35,2
28,1
11,2
------100,0
1,1
27,6
39,7
31,6
Missing
------100,0
Total
Valid cases
174
Mean 27,797 Std dev
Median 27,641 Variance
Mode 24,221 Minimum
Maximum
Range
Missing cases
Cum
Percent
1,1
28,7
68,4
100,0
22
4,214
17,761
14,005
41,016
27,011
Jacob, Datenanalyse
18
BMI-Werte in der allgemeinen Bevölkerung
12-18
0,9
18,1-20
5,6
20,1-25
50,2
25,1-30
36,9
30,1 oder mehr
6,4
N
2459
Quelle: Sozialwissenschaften-BUS 1996
Jacob, Datenanalyse
19
Dichotomisierung der Variablen:
bis 25: kein Übergewicht
über 25: Übergewicht
Übergewicht (Angaben in Prozent)
kein Übergewicht
56,7
Übergewicht
43,3
N
2459
Quelle: Sozialwissenschaften-BUS 1996
Jacob, Datenanalyse
20
Punkt- oder Intervallschätzung
Wie viel Prozent der Bevölkerung sind übergewichtig?
Wie genau schätzt der Anteilswert der Stichprobe den
wahren Wert der Population?
Voraussetzung zur Beantwortung der Frage:
Zufallsstichprobe
Kennwerte (Mittelwerte, Streuung, Anteilswerte) von
Zufallsstichproben sind (approximativ) normalverteilt, der
(unbekannte) Populationsparameter ist der
Erwartungswert.
Stichprobenergebnisse sind Intervallschätzer!
Jacob, Datenanalyse
21
Konfidenzintervall
95,44% der Stichprobenkennwerte liegen in einem Bereich
„Populationsparameter (z.B. µ) +/- 2 Standardabweichungen”.
Populationsparameter, die mit einer Wahrscheinlichkeit von 95,44% einen
spezifischen Stichprobenkennwert hervorbringen, liegen in dem Intervall
“Stichprobenkennwert +/- 2 Standardabweichungen”.
Die Wahrscheinlichkeit, dass dieser Kennwert zu einer Population gehört, deren
Parameter ausserhalb dieses Intervalls liegt, beträgt höchstens 4,56%.
Das Konfidenzintervall kennzeichnet den Bereich eines Merkmals, in dem sich
ein bestimmter Prozentsatz aller möglichen Populationsparameter befindet, die
den empirisch ermittelten Stichprobenkennwert erzeugt haben können
Für solche Konfindenzintervalle übliche Bereiche:
95%
99%
Jacob, Datenanalyse
22
Mittelwert=0
68,26%
95,44%
95%
-1,96
Jacob, Datenanalyse
1,96
2,58
23
Konfidenzintervall
Das 95%-Konfidenzintervall für den Anteilswert berechnet
sich nach der Formel:
p − 1,96.
p.(1 − p )
p.(1 − p )
≤ θ ≤ p + 1,96.
n
n
0,43-1,96*0,0099799=0,43-0,01956=0,410
ÎUntergrenze: 41%
0,43+1,96*0,0099799=0,43+0,01956=0,449
ÎObergrenze:44,9%
Die Stichprobe entstammt mit 95% Wahrscheinlichkeit
einer Population mit einem Anteil übergewichtiger
Personen, der zwischen 41% und rund 45% liegt.
Jacob, Datenanalyse
24
Bivariate Analyse:
gemeinsame Analyse von zwei Merkmalen
Standardanwendung:
Kreuztabellen/Korrelationsanalyse
Ziel: Prüfung kausaler Hypothesen
Beispiel:
Geschlecht und Berufstätigkeit
Jacob, Datenanalyse
25
Kreuztabellen/Kontingenztabellen
1.
Ist ein Zusammenhang zwischen zwei Merkmalen erkennbar?
2.
Ist ein solcher Zusammenhang nur zufällig aufgetreten oder
bestehen signifikante Unterschiede zwischen Merkmalsgruppen,
lässt sich das Ergebnis verallgemeinern?
ÎSicherheit von Zusammenhängen, Signifikanz,
Generalisierbarkeit
3.
Lässt sich die Stärke des Zusammenhangs quantifizieren
ÎKorrelation, Assoziation
4.
Gibt es weitere Variablen, durch die das Ergebnis einer
zweidimensionalen Tabelle bestätigt oder geändert wird?
ÎDrittfaktorenkontrolleJacob, Datenanalyse
26
Jacob, Datenanalyse
27
ungeordnete Population
Jacob, Datenanalyse
28
Gruppierung nach Geschlecht
und Berufstätigkeit
Jacob, Datenanalyse
29
Männer
berufstätige Männer
nicht
berufstätige
Männer
Frauen
berufstätige
Frauen
nicht berufstätige Frauen
Jacob, Datenanalyse
30
Tabelle mit
Fallzahlen
Tabelle mit
Reihenprozentwerten
Tabelle mit
Spaltenprozentwerten
Jacob, Datenanalyse
31
Tabellenanalyse:
Gruppenvergleiche.
Die Zahl der Gruppen wird durch die Menge der Merkmalsausprägungen des
unabhängigen Merkmals definiert.
einfachster Fall:
Vierfeldertabelle
Zwei allgemeine Konventionen zur Gestaltung von
Tabellen:
1. Unabhängige Variablen stehen im Kopf der Tabellen,
abhängige an der Stirnseite.
2. Prozentuiert wird spaltenweise, interpretiert wird
zeilenweise.
Interpretation: Vergleich der Anteilswerte
Jacob, Datenanalyse
32
K
O
P
F:
x
S
zeilenweise interpretieren
T
I
R
N
spaltenweise prozentuieren
y
Anzugeben sind:
• Titel
• Prozentuierungsbasen (= die absoluten Häufigkeiten
bzw. Fallzahlen in den jeweiligen Kategorien des
unabhängigen Merkmals)
• statistische Maßzahlen
• gegebenenfalls eine Quelle
Jacob, Datenanalyse
33
unabhängiges
Merkmal X
Titel (über der Tabelle)
Impfung gegen Grippe nach Altersklassen (Angaben in Prozent)
Grippeimpfung
ja
18- u. 30
30- u. 40
40 – u. 50
50 – u. 60
60 oder älter
12,5
9,0
18,4
19,0
39,8
nein
81,3
84,4
75,7
66,7
50,0
weiss nicht
6,3
6,6
Spaltenprozent
5,8
14,3
10,2
N
96
103
63
118
122
N = 502. Sig. = .000, Cramer´s V = .224
Quelle: Regionaler Gesundheitssurvey Trier, 2000
abhängiges Merkmal Y
Interpretation: Nur knapp 13% der
Stichprobengröße,
jüngsten, aber rund 40% der
statistische
ältesten Befragten haben sich
Maßzahlen
Jacob, Datenanalyse
gegen Grippe impfen lassen
Fallzahlen der
Merkmalsausprägungen
von X
34
Welche Prozentwerte werden
hier verglichen?
Jacob, Datenanalyse
35
Unfalltod (y)
Ja
Nein
RV x
Geschlecht (x)
Männer Frauen
26%
74%
?
?
?
?
RV y
8758
?
?
Relevant ist die Frage nach den
geschlechtsspezifischen bedingten
Unfallrisiken abhängig von den
jeweiligen Expositionen
(=Teilnahme am Straßenverkehr).
Diese Frage kann mit den
vorhandenen Daten nicht
beantwortet werden.
Indikatoren für die Exposition?
Jacob, Datenanalyse
36
Signifikanz: Ist das Gewicht abhängig von Geschlecht
oder regionaler Herkunft?
Gewicht nach Geschlecht
Männer
Frauen
N
46,5%
65,9%
1393
Übergewicht 53,5%
34,1%
1065
N
1168
1290
2458
West
Ost
N
56,8%
56,3%
1394
Übergewicht 43,2%
43,7%
1064
N
494
2458
Kein
Übergewicht
Kein
Gewicht nach
regionaler Herkunft
Übergewicht
1964
Jacob, Datenanalyse
37
Geprüft wird, ob zwei Merkmale statistisch
voneinander unabhängig sind (H0, Nullhypothese). In diesem Fall sind bei gegebenen
Randverteilungen in den Zellen einer Zeile
gleiche relative Häufigkeiten zu erwarten.
Empirische Verteilungen werden verglichen mit
einer Indifferenztabelle
ÎTabelle mit Zellenbesetzungen, die sich bei
gegebenen Randverteilungen ergeben, wenn die
beiden
Merkmale
tatsächlich
statistisch
voneinander unabhängig sind.
Jacob, Datenanalyse
38
Diese Erwartungswerte werden nach der Formel
„Zeilensumme
x
Spaltensumme
durch
Gesamtsumme“ berechnet.
Für die erste Zelle der Tabelle ergibt sich damit:
fe = 1168*1393/2458 = 661,9
Für die letzte Zelle erhalten wir:
fe = 1260*1065/2458 = 558,9
Jacob, Datenanalyse
39
Gewicht nach Geschlecht, 1. Wert: N,
2. Wert: Erwartungswert
Kein
Männer
Frauen
N
543
850
1393
Übergewicht 661,9
731,1
Übergewicht 625
440
N
506,1
558,9
1168
1290
Zeilensummen
1065
2458
Gesamtsumme
Chi-Square: 93,97133, Sig. = .00000
Spaltensummen
Gewicht nach regionaler Herkunft, 1. Wert: N, 2. Wert:
Erwartungswert
Kein
West
Ost
N
1116
278
1394
Übergewicht 1113,8
280,2
Übergewicht 848
216
N
850,2
213,8
1964
494
1064
2458
Chi-Square: 0,04820, Sig. = .82623
Jacob, Datenanalyse
40
Die relativen Häufigkeiten sind bei diesen Erwartungswerten in den
Zellen einer Zeile alle gleich:
661,9 = 56,67% von 1168
731,1 = 56,67% von 1290
506,1 = 43,33% von 1168
558,9 = 43,33% von 1290
Bei statistischer Unabhängigkeit:
Erwartete und beobachtete Werte weichen nicht oder kaum voneinander
ab.
Prüfgröße
ÎChi-Quadrat-Wert
( fbk − fek )2
χ2 = ∑
fek
k =1
n
k: Zahl der Zellen
fbk: Beobachtungswerte
fek: Erwartungswerte
Jacob, Datenanalyse
41
Kein
Männer
Frauen
N
543 (fb)
850
1393
Übergewicht 661,9 (fe )
731,1
Übergewicht 625
440
1065
506,1
558,9
N
1168
1290
Zelle
fb-fe
(fb-fe)2
(fb-fe)2/fe
1,1
543-661,9=-118,9
14137,21
21,35
1,2
850-731,1= 118,9
14137,21
19,33
2,1
625-506,1= 118,9
14137,21
27,93
2,2
440-558,9=-118,9
14137,21
25,29
2458
Summe
93,9
Jacob, Datenanalyse
42
Geprüft wird die Wahrscheinlichkeit, dass die
Nullhypothese zutrifft.
Ausgewiesen wird diese Wahrscheinlichkeit.
p/α=.05Îsignifikantes Ergebnis (die Wahrscheinlichkeit
für die H0 beträgt nur 5%)
p/α=.01Îhochsignifikantes Ergebnis (die
Wahrscheinlichkeit für die H0 beträgt nur 1%)
.00000 bedeutet nicht, dass die Wahrscheinlichkeit für
die Nullhypothese exakt Null ist. Dieses Ergebnis ist mit
statistischen Prüfverfahren nicht zu erreichen, vielmehr
kommt irgendwann eine von Null verschiedene Zahl.
Jacob, Datenanalyse
43
Basis für Signifikanztests: Chi-Quadrat-Verteilung(en)
Frage:
Mit welcher Wahrscheinlichkeit ist ein errechneter Chi-Quadrat-Wert
bei einer theoretischen Chi-Quadrat-Verteilung zu erwarten.
Wie wahrscheinlich ist ein bestimmter Wert bei statistischer
Unabhängigkeit von zwei Merkmalen?
Chi-Quadrat-Verteilungen bestehen aus der Summe quadrierter
Merkmalsausprägungen voneinander unabhängiger normalverteilter
z-transformierter Zufallsvariablen.
Zufallsvariable: Merkmal, dessen Ausprägungen (=Elementarereignisse genannt werden), ausschließlich vom Zufall abhängen.
Bsp.:
Ein Würfelwurf ist eine Zufallsvariable mit 6 möglichen Elementarereignissen, die alle die Wahrscheinlichkeit 1/6 haben.
Jacob, Datenanalyse
44
Eine neue Zufallsvariable auf der Basis dieser
Variablen ist die Kombination der Augenzahlen
von je zwei Würfelwürfen.
Elementarereignisse sind dann nicht mehr die
Augenzahlen 1 bis 6, sondern Kombinationen
dieser beiden Wertereihen, also (1 1)(1 2)(2 1)
usw.
Die neue Zufallsvariable ist das Ergebnis der
Kombination (additiv oder multiplikativ) der
Elementarereignisse zweier voneinander unabhängiger Zufallsvariablen
Jacob, Datenanalyse
45
46
Diskrete Zufallsvariablen: Elementarereignisse können abgezählt
werden.
Stetige Zufallsvariablen: Elementarereignisse können innerhalb
eines bestimmten Intervalls jede beliebige Größe annehmen.
Bestimmend
für
die
Form
Wahrscheinlichkeitsfunktion.
der
Verteilung
ist
die
Bei diskreten Zufallsvariablen gibt diese Funktion an, mit welcher
Wahrscheinlichkeit ein bestimmtes Elementarereignis zu erwarten
ist, wenn das Zufallsexperiment (als z. B. der Wurf eines Würfels)
unendlich oft wiederholt wird (in der Praxis bedeutet dies: sehr
häufige WiederholungÎuntere Grenze: 100).
Bei stetigen Zufallsvariablen wird die Wahrscheinlichkeitsdichte für
das Auftreten von Elementarereignisse bestimmt, die innerhalb eines
definierten Intervalls liegen.
Jacob, Datenanalyse
47
Die Wahrscheinlichkeitsdichtefunktion hat stets Kurvenform. Die
Gesamtwahrscheinlichkeit für eine stetige Zufallsvariable wird gleich Eins
gesetzt und entspricht der Gesamtfläche unter der Kurve.
Die Wahrscheinlichkeitsdichte für ein bestimmtes Intervall mit den Grenzen a
und b entspricht der durch diese Punkte markierten und begrenzten Fläche
der darüber liegenden Kurve.
Je enger der Abstand von a und b ist und/oder je geringer der Abstand
zwischen Kurve und X-Achse ist, umso kleiner wird die markierte Fläche und
damit auch die Wahrscheinlichkeit des Auftretens von Elementarereignissen
innerhalb der entsprechenden Intervallgrenzen.
Chi2-Verteilungen können aus einer, zwei drei, vier oder 10 oder allgemein n
Zufallsvariablen gebildet werden.
ÎFreiheitsgrade der Verteilung (DF= Degrees of Freedom).
Jacob, Datenanalyse
48
Werte >= 4 haben bei den drei
Verteilungen unterschiedliche
Wahrscheinlichkeiten
Jacob, Datenanalyse
49
Freiheitsgrade
Restriktion empirischer Verteilungen auch bei statistischer Unabhängigkeit der Merkmale: Fallzahlen und Merkmalsausprägungen der
Merkmale
Gewicht nach regionaler Herkunft, 1. Wert: N, 2. Wert: Erwartungswert
Ost
N
West
Kein
Übergewicht
1116
1113,8
278
280,2
1394
Übergewicht
848
850,2
216
213,8
1064
N
1964
494
2458
Bei gegebenen Randverteilungen sind die
Erwartungswerte Dezimalzahlen. Empirische Werte sind
dagegen immer ganzzahlig.
Jacob, Datenanalyse
50
Freiheitsgrade
Frage: Wie viele Zellenbesetzungen können bei
gegebenen Randverteilungen frei besetzt werden, bevor
alle weiteren dadurch Zellbesetzungen festgelegt sind.
DF: (Reihen minus 1) x (Spalten minus 1)
Bei je zwei Reihen und Spalten beträgt
DF = (2-1) x (2-1)=1.
Jacob, Datenanalyse
51
Gewicht nach Geschlecht; Freiheitsgrade
Männer
Frauen
N
160
1233
1393
Übergewicht 1008
57
1065
N
1290
2458
Kein
Übergewicht
1168
Jacob, Datenanalyse
52
Zu beachten ist:
Berechnet werden Abweichungen der beobachteten von
den erwarteten Häufigkeiten. ÎChi² ist fallzahlabhängig.
Mit wachsender Stichprobengröße wächst die Wahrscheinlichkeit, dass Zusammenhänge als signifikant ausgewiesen werden.
Die Stichprobengröße bedingt die Zellbesetzungen. Um
Abweichungen empirischer von theoretischen Werten
berechnen zu können, müssen Spielräume, Variationsbreiten vorliegen - also Mindestzellenbesetzungen - möglich sein, wobei hier eine Mindestbesetzung von fünf
gefordert wird.
Jacob, Datenanalyse
53
BMI nach Geschlecht
Männer
Frauen
N
12-18
0,7
0,9
20
18,1-20
2,0
9,0
139
20,1-25
43,9
56,0
1234
25,1-30
46,7
28,1
907
6,0
157
1290
2457
30,1
oder 6,8
mehr
N
1167
Chi-Square: 129,85758, Sig. = .00000
Tabellen mit
gleichen
Proportionen, aber
unterschiedlichen
Signifikanzniveaus
BMI nach Geschlecht
Männer
Frauen
N
12-18
2,2
5,7
4
18,1-20
4,3
11,3
8
20,1-25
45,7
47,2
46
25,1-30
41,3
26,4
33
oder 6,5
9,4
8
46
53
99
30,1
mehr
N
Chi-Square: 4,13111, Sig. = .38855
54
Korrelation und Kausalität
Korrelation: gemeinsames Auftreten und Variieren
zweier Variablen
Kausalität: Ursache-Wirkungs-Beziehung:
x verursacht y!
Eine statistisch nachweisbare Korrelation von x
und y kann bedeuten:
1. x verursacht y
2. y verursacht x
3. x und y werden von einer dritten Variable
verursacht
1. x und y beeinflussen sich wechselseitig
Jacob, Datenanalyse
55
Beispiel:
x:
Umweltbewusstsein, Indikator: Skala mit
entsprechenden Items
y:
Umweltfreundliches Verhalten, Indikatoren:
kein Auto, keine Flugreisen, Benutzung
von Bus und Rad
hohe Korrelation: Fast alle Personen im Sample,
die sich durch ausgeprägtes Umweltbewusstsein
auszeichnen, haben kein Auto, fliegen nicht und
benutzen den Bus.
Interpretation? Typ 1, 2, 3 oder 4?
Jacob, Datenanalyse
56
Kausalität ist statistisch nicht nachweisbar.
Messbar ist nur eine Korrelation von zwei Variablen.
Kausalzusammenhänge: hypothetische Konstrukte!
Voraussetzungen für den Schluss auf eine kausale
Beziehung:
• X und Y korrelieren
• X geht Y zeitlich voran
• X und Y wurden exakt gemessen
Korrelation ist notwendige, aber nicht hinreichende
Voraussetzung für Kausalität, Kausalität lässt sich
korrelationsstatistisch nur widerlegen, aber nicht
beweisen.
Jacob, Datenanalyse
57
Korrelation
Korrelationskoeffizienten sind Maßzahlen für mindestens bivariate Verteilungen
und informieren über die Stärke und (ab ordinalem Messniveau) die Richtung
eines Zusammenhangs.
Anforderungen
1.
Koeffizienten werden standardisiert auf den Wertebereich zwischen 0 und
dabei zeigt der Wert 1 eine perfekte, der Wert 0 eine Nichtbeziehung an.
1,
Ab Ordinalskalenniveau lassen sich auch Koeffizienten mit Vorzeichen
berechnen, wobei ein Wert von -1 eine perfekte negative (inverse) Beziehung
darstellt (hohe X-Werte korrelieren mit niedrigen Y-Werten und umgekehrt).
2.
Die Koeffizienten sollen invariant sein gegenüber unterschiedlichen absoluten
Häufigkeiten der Tabelle und nur Unterschiede in den relativen Häufigkeiten zur
Vergleichsgrundlage verwenden.
Jacob, Datenanalyse
58
Gewicht in Abhängigkeit von Körpergröße
160
140
120
100
Gewicht in kg
80
60
40
20
130
140
150
160
170
180
190
200
210
Größe in cm
Niedrigen x-Werten entsprechen niedrige y-Werte, hohen x-Werten
hohe y-Werte: Kleinere Personen sind leichter als größere.
Frage: Was ist ein niedriger x- oder y-Wert?
Jacob, Datenanalyse
59
Pearson´s r:
Maß für eine lineare Beziehung zwischen zwei mindestens
intervallskalierten Variablen.
Mittelwertbasierter Koeffizient:
Mittelwert als Referenzwert für die Einstufung von X- bzw.
Y-Werten als hoch oder niedrig
Die Merkmalsausprägungen der einzelnen Merkmale
werden in Beziehung gesetzt zu ihren jeweiligen
Mittelwerten, man berechnet die Abweichungen, indem der
Mittelwert von der jeweiligen Merkmalsausprägung
subtrahiert wird. Handelt es sich um eine relativ hohe
Position, ist diese Differenz positiv, ansonsten negativ.
Jacob, Datenanalyse
60
Zur Berechnung eines Zusammenhangs werden nun
diese Differenzen für X und für Y für jede UE berechnet,
multipliziert und diese Produkte addiert. Man nennt das
auch die Summe der Abweichungsprodukte (SAP) oder
die Summe der Kreuzprodukte.
Dividiert durch N erhält man die Kovarianz
Standardisierung auf Werte zwischen –1 und 1:
Kovarianz wird dividiert durch das Produkt der Standardabweichungen von X und Y Î r
Jacob, Datenanalyse
61
Pearson´s r
Jacob, Datenanalyse
62
Katholikenanteil
Stimmanteil der CDU
63
Y
X
Jacob, Datenanalyse
64
Jacob, Datenanalyse
65
54,99
91,40/52,68
43,96
34,89/37,68
Jacob, Datenanalyse
66
Jacob, Datenanalyse
67
Jacob, Datenanalyse
68
Jacob, Datenanalyse
69
Jacob, Datenanalyse
70
Kurvilineare Beziehung
Jacob, Datenanalyse
71
Durchschnittlicher Alkoholkonsum pro Woche (Wein,
Sekt, Bier, Viez) in Liter nach Schulbildung (Schulzeit
in Jahren)
2,5
2,3
2
2,3
1,8
1,5
1
0,5
0
bis 9 Jahre
r = .04
10 Jahre
Jacob, Datenanalyse
12-13 Jahre
72
Ordinales Messniveau:
Maßzahlen auf der Basis des Paarvergleichs
Bei ordinalen Daten kann kein Mittelwert berechnet werden. Allerdings lassen sich ordinale Daten
in eine Rangfolge bringen. Bei ordinalen Koeffizienten werden Wertepaare von verschiedenen
Untersuchungseinheiten geordnet.
Zusammenhänge werden z. B. daraufhin untersucht, ob Personen, die bei Variable X einen
höheren Wert aufweisen, dies auch bei Y tun oder
nicht.
Jacob, Datenanalyse
73
Alter (X):
Code:
1
2
3
4
5
Label:
18 bis unter 30
30 bis unter 40
40 bis unter 50
50 bis unter 60
Über 60
AIDS-Kranke brauchen Solidarität und Hilfe. (Y1)
Schuld an AIDS sind die Hauptrisikogruppen. (Y2)
Code:
1
2
3
4
5
Label:
stimme sehr zu
stimme eher zu
teils-teils
stimme eher nicht zu
stimme überhaupt nicht zu
Jacob, Datenanalyse
74
Konkordanter Zusammenhang (c)
Merkmale:
X= Alter mit 5 Altersklassen
Codezahlen: 1= 18 b. u. 30, 5= 60 u. älter
Y1 = Solidarität mit Aids-Kranken, fünfpolige Likert-Skala
Codezahlen: 1= stimme sehr zu, 5= lehne sehr ab
Person A
Person B
Alter
X
18
(1)
60
(5)
X und Y-Wert von A sind kleiner
als von B
Solidarität
Y1
s.s.z. (1)
Jacob, Datenanalyse
l.s.a. (5)
75
Diskordanter Zusammenhang (d)
Merkmale:
X= Alter mit 5 Altersklassen
Codezahlen: 1= 18 b. u. 30, 5= 60 u. älter
Y2= Schuldattributionen, fünfpolige Likert-Skala
Codezahlen: 1= stimme sehr zu, 5= lehne sehr ab
Alter
X
Person A
Person B
18
(1)
60
(5)
HRG sind
Schuld an AIDS
Y2
l.s.a. (5)
s.s.z. (1)
Der X-Wert von A ist kleiner, der Y-Wert größer
Jacob, Datenanalyse
als von B
76
Person X
Alter
A
B
C
D
E
1
2
3
4
5
Y1
Y2
Solidarität Schuld
1
2
3
4
5
5
4
3
2
1
N ( N − 1)
Npaare =
2
Nc − Nd
TauA =
Npaare
X/Y1: 10-0/10 = 1
X/Y2: 0-10/10 = -1
Jacob, Datenanalyse
77
Alter
Wichtigkeit von
Recht und Ordnung
sehr wichtig
1
wichtig
2
wenig. wicht. 3
unwichtig
4
Σ
N = 40
18- u. 30
1
1
5
5
11
30- u. 40
2
1
2
5
4
12
Jacob, Datenanalyse
40- u. 50
3
2
3
2
1
8
ü. 50
4
4
5
9
78
Insgesamt möglich Paare:
Konkordante Paare (Nc):
Alle Zellhäufigkeiten, die rechts und unterhalb einer
bestimmten Zelle liegen, summiert und multipliziert mit
dieser Zelle, ergeben die Anzahl konkordanter Paare.
Nc:
1(3+2+1+5)=11
2(5)=10
1(5+4+2+1)=12
2(2+1)=6
5(4+1)=25
5(1)=5
Nc =69
Alter
Wichtigkeit von
Recht und Ordnung
sehr wichtig
1
wichtig
2
wenig. wicht. 3
unwichtig
4
18- u. 30
1
1
5
5
Jacob, Datenanalyse
30- u. 40
2
1
2
5
4
40- u. 50
3
2
3
2
1
ü. 50
4
4
5
-
79
Diskordante Paare (Nd):
Alle Zellhäufigkeiten, die links und unterhalb einer bestimmten Zelle
liegen, summiert und multipliziert mit dieser Zelle, ergeben die Anzahl
diskordanter Paare
Nd:
4(3+2+1+2+5+4+1+5+5)=112
2(2+5+4+1+5+5)=44
1(1+5+5)=11
5(2+1+5+4+5+5)=110 Wichtigkeit von
Recht und Ordnung
3(5+4+5+5)=57
sehr wichtig
1
2(5+5)=20
wichtig
2
2(4)=8
wenig. wicht. 3
unwichtig
4
2(5)=10
5(5)=25
Nd=397
Alter
18- u. 30
1
1
5
5
Jacob, Datenanalyse
30- u. 40
2
1
2
5
4
40- u. 50
3
2
3
2
1
ü. 50
4
4
5
-
80
Tied on x (Tx):
Alle Zellhäufigkeiten, die
unterhalb einer bestimmten Zelle
liegen, summiert und multipliziert
mit dieser Zelle, ergeben die
Anzahl der auf x verknüpften
Paare.
Tx:
1(5+5)=10
5(5)=25
1(2+5+4)=11
2(5+4)=18
Wichtigkeit von
5(4)=20
Recht und Ordnung
2(3+2+1)=12
sehr wichtig
1
3(2+1)=9
wichtig
2
wenig. wicht. 3
2(1)=2
unwichtig
4
4(5)=20
Tx=127
Alter
18- u. 30
1
1
5
5
Jacob, Datenanalyse
30- u. 40
2
1
2
5
4
40- u. 50
3
2
3
2
1
ü. 50
4
4
5
-
81
Tied on y (Ty):
Alle Zellhäufigkeiten, die neben
einer bestimmten Zelle liegen,
summiert und multipliziert mit
dieser Zelle, ergeben die Anzahl
der auf y verknüpften Paare.
Ty:
1(2+4)=6
2(4)=8
1(2+3+5)=8
Wichtigkeit von
2(3+5)=16
Recht und Ordnung
3(5)=15
sehr wichtig
1
5(5+2)=35
wichtig
2
wenig. wicht. 3
5(2)=10
unwichtig
4
5(4+1)=25
4(1)=4
Ty=127
Alter
18- u. 30
1
1
5
5
Jacob, Datenanalyse
30- u. 40
2
1
2
5
4
40- u. 50
3
2
3
2
1
ü. 50
4
4
5
-
82
Tied on x and y (Txy):
Alle Untersuchungseinheiten in
gleichen Zellen.
n(n-1)/2
Txy:
2(2-1)/2=1
4(4-1)/2=6
2(2-1)/2=1
3(3-1)/2=3
5(5-1)/2=10 Wichtigkeit von
Recht und Ordnung
5(5-1)/2=10 sehr wichtig 1
2
5(5-1)/2=10 wichtig
wenig. wicht. 3
2(2-1)/2=1
unwichtig
4
5(5-1)/2=10
4(4-1)/2=6
Txy=60
Alter
18- u. 30
1
1
5
5
30- u. 40
2
1
2
5
4
Jacob, Datenanalyse
40- u. 50
3
2
3
2
1
ü. 50
4
4
5
-
83
Npaare = Nc+Nd+Tx+Ty+Txy
780=69+397+127+127+60
Gamma =
TauA =
Nc − Nd − 328
=
= −.703
Nc + Nd
466
Nc − Nd − 328
=
= −.420
Npaare
780
TauB =
TauC =
Nc − Nd
− 328
=
= −.553
593
( Nc + Nd + Tx) ( Nc + Nd + Ty
2 R ( Nc − Nd )
− 2624
=
= −.546
4800
n ²( R − 1)
mit: R = Minimum der Zeilen- bzw. Spaltenzahl
n = Anzahl der Meßwerte
84
Abwechslung 18- u. 30
und Spaß
1
sehr wichtig 3
1
wichtig
2
wenig. wicht.
3
unwichtig
4
30- u. 40
2
40- u. 50
3
3
ü. 50
4
symmetrische Tabelle
3
3
N =12, Npaare = 66, Nc = 54, Nd = 0, Tx = 0, Ty = 0, Txy = 12
Npaare = Nc+Nd+Tx+Ty+Txy
66 = 54+0+0+0+12
Gamma =
54
= 1.00
54
TauA =
54
= .818
66
TauB =
54
= 1.00
54
TauC =
432
= 1.00
432
Jacob, Datenanalyse
85
Abwechs.
18 – u. 30
30 –u. 40
40 – u. 50
50 – u. 60
ü. 60
und Spaß
3
sehr
asymmetrische Tabelle
wichtig
3
wichtig
3
wen. wicht.
3
unwichtig
3
N = 15, Npaare = 105, Nc = 81, Nd = 0, Tx = 0, Ty = 3(3)=9, Txy = 15
Npaare = Nc+Nd+Tx+Ty+Txy
105 = 81+0+0+9+15
Gamma =
81
= 1.00
81
TauA =
81
= .771
105
TauB =
81
= .948
85,381
TauC =
648
= .960
675
Jacob, Datenanalyse
86
Person X
Alter
A
B
C
D
E
1
2
3
4
5
Y1
Y2
Solidarität Schuld
1
2
3
4
5
5
4
3
2
1
Rangkorrelation (Spearmann)
6 * ( D1² + D 2² + ...Dx ²)
rs = 1 −
N * ( N ² − 1)
D1 bis Dx: Differenzen der Rangplätze (=Codezahlen)
für jeden der n Merkmalsträger
Jacob, Datenanalyse
87
Person
Rang X
Rang Y1
D
D²
A
1
1
0
0
B
2
2
0
0
C
3
3
0
0
D
4
4
0
0
E
5
5
0
0
6 * ( 0)
rs = 1 −
=1
5 * (25 − 1)
Jacob, Datenanalyse
88
Person
Rang X
Rang Y2
D
D²
A
1
5
-4
16
B
2
4
-2
4
C
3
3
0
0
D
4
2
2
4
E
5
1
4
16
6 * (16 + 4 + 0 + 4 + 16)
rs = 1 −
= 1 − 2 = −1
5 * (25 − 1)
Jacob, Datenanalyse
89
Nominales Messniveau: Chi-Quadrat basierte Maßzahlen
Grundgedanke: Eine Beziehung zwischen zwei Merkmalen
ist umso stärker, je größer die Abweichung von der
statistischen Unabhängigkeit ist.
φ
=
χ²
N
V =
χ²
N min( r − 1 / c − 1)
Wichtig:
Bei Merkmalen unterschiedlichen Messniveaus bestimmt
das jeweils niedrigste Skalenniveau die Wahl des
Koeffizienten.
Jacob, Datenanalyse
90
Gewicht
nach
Geschlecht,
1.
Wert:
N,
2.
Wert:
Erwartungswert
Kein
Männer
Frauen
N
-
50
50
Übergewicht 25
25
Übergewicht 50
-
N
25
25
50
50
50
100
Chi-Square: 100
φ
φ
=
χ²
N
100
=
=1
100
Jacob, Datenanalyse
91
Gewicht nach Altersklassen, 1. Wert: N, 2. Wert:
Erwartungswert
kein Überg.
leichtes Ü.
Adipositas
N
bis u. 30
bis u. 50
ü. 50
N
100
-
-
100
33,3
33,3
33,3
-
100
-
33,3
33,3
33,3
-
-
100
33,3
33,3
33,3
100
100
100
100
100
300
Chi-Square: 600
φ
V=
V=
600
=
= 1,4142135
300
χ²
N min( r − 1 / c − 1)
600
=1
300 * 2
92
Schuld an AIDS sind die Hauptrisikogruppen
stimme sehr zu
stimme eher zu
teils-teils
lehne eher ab
lehne sehr ab
N
30,3%
29,3%
23,3%
10,1%
7,0%
2106
59,6%
17,1%
Quelle: ZUMA-Sozialwissenschaften-BUS 2/1990
Jacob, Datenanalyse
93
V10_7
Risikogruppen sind Schuld
by
ALTK
Altersklassen
ALTK
Count |
Exp Val |
Row Pct |18-30
30-40
40-50
50-60
ü. 60
Col Pct |
Row
Tot Pct |
1,00|
2,00|
3,00|
4,00|
5,00| Total
V10_7
--------+--------+--------+--------+--------+--------+
1 |
96 |
95 |
109 |
127 |
208 |
635
stimme sehr zu
| 159,7 | 129,0 | 104,1 | 97,1 | 145,1 | 30,4%
| 15,1% | 15,0% | 17,2% | 20,0% | 32,8% |
| 18,3% | 22,4% | 31,8% | 39,7% | 43,5% |
| 4,6% | 4,5% | 5,2% | 6,1% | 9,9% |
+--------+--------+--------+--------+--------+
2 |
125 |
118 |
97 |
108 |
166 |
614
stimme eher zu
| 154,4 | 124,7 | 100,7 | 93,9 | 140,3 | 29,3%
| 20,4% | 19,2% | 15,8% | 17,6% | 27,0% |
| 23,8% | 27,8% | 28,3% | 33,8% | 34,7% |
| 6,0% | 5,6% | 4,6% | 5,2% | 7,9% |
+--------+--------+--------+--------+--------+
3 |
152 |
123 |
86 |
55 |
71 |
487
teils/teils
| 122,4 | 98,9 | 79,8 | 74,5 | 111,3 | 23,3%
| 31,2% | 25,3% | 17,7% | 11,3% | 14,6% |
| 28,9% | 28,9% | 25,1% | 17,2% | 14,9% |
| 7,3% | 5,9% | 4,1% | 2,6% | 3,4% |
+--------+--------+--------+--------+--------+
4 |
91 |
46 |
35 |
24 |
16 |
212
lehne eher ab
| 53,3 | 43,1 | 34,8 | 32,4 | 48,4 | 10,1%
| 42,9% | 21,7% | 16,5% | 11,3% | 7,5% |
| 17,3% | 10,8% | 10,2% | 7,5% | 3,3% |
| 4,3% | 2,2% | 1,7% | 1,1% |
,8% |
+--------+--------+--------+--------+--------+
5 |
62 |
43 |
16 |
6 |
17 |
144
lehne sehr ab
| 36,2 | 29,3 | 23,6 | 22,0 | 32,9 | 6,9%
| 43,1% | 29,9% | 11,1% | 4,2% | 11,8% |
| 11,8% | 10,1% | 4,7% | 1,9% | 3,6% |
| 3,0% | 2,1% |
,8% |
,3% |
,8% |
+--------+--------+--------+--------+--------+
Column
526
425
343
320
478
2092
Total
25,1%
20,3%
16,4%
15,3%
22,8%
100,0%
94
Chi-Square
--------------------
Value
-----------
DF
----
Significance
------------
Pearson
214,49197
16
,00000
Minimum Expected Frequency -
22,027
Statistic
-------------------Phi
Cramer's V
Value
---------
ASE1
--------
Val/ASE0
--------
,32020
,16010
Approximate
Significance
-----------,00000
,00000
Kendall's Tau-b
Kendall's Tau-c
Gamma
-,24786
-,23934
-,31890
,01659
,01608
,02103
-14,8882
-14,8882
-14,8882
,00000
,00000
,00000
Pearson's R
Spearman Correlation
-,30172
-,30245
,01981
,02007
-14,4680
-14,5062
,00000
,00000
Jacob, Datenanalyse
95
v10_7
Risikogruppen sind Schuld
by
ALTK
Altersklassen
ALTK
Col Pct |
|18-30
30-40
40-50
50-60
ü. 60
|
Row
|
1,00|
2,00|
3,00|
4,00|
5,00| Total
V10_7
--------+--------+--------+--------+--------+--------+
1 | 18,3 | 22,4 | 31,8 | 39,7 | 43,5 |
635
stimme sehr zu
|
|
|
|
|
| 30,4
+--------+--------+--------+--------+--------+
2 | 23,8 | 27,8 | 28,3 | 33,8 | 34,7 |
614
stimme eher zu
|
|
|
|
|
| 29,3
+--------+--------+--------+--------+--------+
3 | 28,9 | 28,9 | 25,1 | 17,2 | 14,9 |
487
teils/teils
|
|
|
|
|
| 23,3
+--------+--------+--------+--------+--------+
4 | 17,3 | 10,8 | 10,2 |
7,5 |
3,3 |
212
lehne eher ab
|
|
|
|
|
| 10,1
+--------+--------+--------+--------+--------+
5 | 11,8 | 10,1 |
4,7 |
1,9 |
3,6 |
144
lehne sehr ab
|
|
|
|
|
|
6,9
+--------+--------+--------+--------+--------+
Column
526
425
343
320
478
2092
Total
25,1
20,3
16,4
15,3
22,8
100,0
Statistic
-------------------Phi
Cramer's V
Value
---------
ASE1
--------
Val/ASE0
--------
,32020
,16010
Approximate
Significance
-----------,00000
,00000
Kendall's Tau-b
Kendall's Tau-c
Gamma
-,24786
-,23934
-,31890
,01659
,01608
,02103
-14,8882
-14,8882
-14,8882
,00000
,00000
,00000
Pearson's R
Spearman Correlation
-,30172
-,30245
,01981
,02007
-14,4680
-14,5062
,00000
,00000
96
V10_7
Risikogruppen sind Schuld
by
ALTK
Altersklassen
ALTK
Col Pct |
|18-30
30-40
40-50
50-60
ü. 60
|
Row
|
1,00|
2,00|
3,00|
4,00|
5,00| Total
V10_7
--------+--------+--------+--------+--------+--------+
1 | 42,0 | 50,1 | 60,1 | 73,4 | 78,2 | 1249
stimme sehr zu
|
|
|
|
|
| 59,7
+--------+--------+--------+--------+--------+
2 | 28,9 | 28,9 | 25,1 | 17,2 | 14,9 |
487
stimme eher zu
|
|
|
|
|
| 23,3
+--------+--------+--------+--------+--------+
3 | 29,1 | 20,9 | 14,9 |
9,4 |
6,9 |
356
teils/teils
|
|
|
|
|
| 17,0
+--------+--------+--------+--------+--------+
Column
526
425
343
320
478
2092
Total
25,1
20,3
16,4
15,3
22,8
100,0
Statistic
-------------------Phi
Cramer's V
Value
---------
ASE1
--------
Val/ASE0
--------
,30484
,21555
Approximate
Significance
-----------,00000
,00000
Kendall's Tau-b
Kendall's Tau-c
Gamma
-,25803
-,25802
-,38250
,01741
,01764
,02506
-14,6245
-14,6245
-14,6245
,00000
,00000
,00000
Pearson's R
Spearman Correlation
-,29590
-,29926
,01976
,02010
-14,1617
-14,3381
,00000
,00000
Jacob, Datenanalyse
97
Drittfaktorenkontrolle:
Ist die
Konfessionszugehörigkeit
die entscheidende
erklärende Variable?
98
Drittfaktorenkontrolle
Bivariate Korrelation, signifikanter Zusammenhang
Einführung eines Drittfaktors t:
(=potentielle weitere verursachende Variable), Berechnung von Teiltabellen, die den ursprünglichen bivariaten
Zusammenhang für jeweils eine Merkmalsausprägung
des Drittfaktors ausweisen.
Jacob, Datenanalyse
99
Formen:
Scheinkorrelation: ursprüngliche Beziehung besteht nur
scheinbar und ist ein statistisches Artefakt
Intervention: Kausalkette
Multikausalität: Drittfaktor ist eine weitere unabhängige
Variable
Bestätigung: Drittfaktor hat keinen nachweisbaren
Effekt und bestätigt damit die ursprüngliche Beziehung
Jacob, Datenanalyse
100
Jacob, Datenanalyse
101
Jacob, Datenanalyse
102
Statistischer Nachweis
Scheinkorrelation und Intervention:
Nach Einführung der Drittvariablen sind die bedingten
Korrelationen gleich oder nahe Null und der Zusammenhang
nicht mehr signifikant.
Unterscheidung aufgrund theoretischer Überlegungen.
Multikausalität:
Die beiden unabhängigen Variablen sind statistisch
unabhängig.
Zumindest eine der bedingten Korrelationen ist größer als die
ursprüngliche Korrelationen.
Bestätigung:
Alle bedingten Korrelationen sind größer als Null, keine ist
größer als die ursprüngliche Korrelation bzw. alle bedingten
Korrelationen sind gleich groß.
Jacob, Datenanalyse
103
AIDS ist die Geißel der Menschheit und die Strafe für ein
unmoralisches, zügelloses Leben
stimme sehr zu
stimme eher zu
teils-teils
lehne eher ab
lehne sehr ab
N
10,6%
18,0%
22,6%
21,9%
26,9%
2113
28,6%
48,8%
Quelle: ZUMA-Sozialwissenschaften-BUS 2/1990
Jacob, Datenanalyse
104
V10_2
AIDS Geißel der Menschheit
by
FROMM
Verbundenheit mit Kirche
FROMM
Col Pct |
|stark
weniger gar nich
|
stark
t
Row
|
1,00|
2,00|
3,00| Total
V10_2
--------+--------+--------+--------+
2 | 37,0 | 27,4 | 23,1 |
572
stimme zu
|
|
|
| 29,9
+--------+--------+--------+
3 | 25,7 | 23,0 | 19,9 |
447
teils-teils
|
|
|
| 23,4
+--------+--------+--------+
4 | 37,2 | 49,6 | 57,0 |
891
lehne ab
|
|
|
| 46,6
+--------+--------+--------+
Column
637
966
307
1910
Total
33,4
50,6
16,1
100,0
Chi-Square
Value
DF
--------------------------------Pearson
41,75838
4
Gamma
,20966
Jacob, Datenanalyse
Significance
-----------,00000
105
FROMM
Verbundenheit mit Kirche
by
ALTK
Altersklassen
ALTK
Col Pct |
|18-30
30-40
40-50
50-60
ü. 60
|
Row
|
1,00|
2,00|
3,00|
4,00|
5,00| Total
FROMM
--------+--------+--------+--------+--------+--------+
1,00 | 14,8 | 21,4 | 32,2 | 38,4 | 57,0 |
628
stark
|
|
|
|
|
| 33,0
+--------+--------+--------+--------+--------+
2,00 | 53,9 | 58,4 | 53,2 | 54,4 | 38,0 |
968
weniger stark
|
|
|
|
|
| 50,9
+--------+--------+--------+--------+--------+
3,00 | 31,3 | 20,1 | 14,6 |
7,2 |
5,0 |
306
gar nicht
|
|
|
|
|
| 16,1
+--------+--------+--------+--------+--------+
Column
447
373
314
305
463
1902
Total
23,5
19,6
16,5
16,0
24,3
100,0
Chi-Square
-------------------Pearson
Gamma
Value
-----------
DF
----
Significance
------------
283,99247
-,45725
8
,00000
Jacob, Datenanalyse
106
Drittfaktor Alter: Scheinkorrelation oder
Intervention?
V10_2 AIDS Geißel der Menschheit
Controlling for..
ALTK Altersklassen Value = 1,00
by
FROMM
Verbundenheit mit Kirche
18-30
FROMM
Col Pct |
|stark
weniger gar nich
|
stark
t
Row
|
1,00|
2,00|
3,00| Total
V10_2
--------+--------+--------+--------+
2 | 18,2 | 15,8 | 17,1 |
74
stimme zu
|
|
|
| 16,6
+--------+--------+--------+
3 | 22,7 | 17,8 | 15,7 |
80
teils-teils
|
|
|
| 17,9
+--------+--------+--------+
4 | 59,1 | 66,4 | 67,1 |
293
lehne ab
|
|
|
| 65,5
+--------+--------+--------+
Column
66
241
140
447
Total
14,8
53,9
31,3
100,0
Chi-Square
Value
DF
--------------------------------Pearson
1,95869
4
Gamma
,05971
Jacob, Datenanalyse
Significance
-----------,74336
107
V10_2 AIDS Geißel der Menschheit
Controlling for..
ALTK Altersklassen Value = 2,00
by
FROMM
Verbundenheit mit Kirche
30-40
FROMM
Col Pct |
|stark
weniger gar nich
|
stark
t
Row
|
1,00|
2,00|
3,00| Total
V10_2
--------+--------+--------+--------+
2 | 26,3 | 21,2 | 21,3 |
83
stimme zu
|
|
|
| 22,3
+--------+--------+--------+
3 | 25,0 | 19,8 | 22,7 |
80
teils-teils
|
|
|
| 21,5
+--------+--------+--------+
4 | 48,8 | 59,0 | 56,0 |
209
lehne ab
|
|
|
| 56,2
+--------+--------+--------+
Column
80
217
75
372
Total
21,5
58,3
20,2
100,0
Chi-Square
Value
DF
--------------------------------Pearson
2,58898
4
Gamma
,07777
Jacob, Datenanalyse
Significance
-----------,62878
108
V10_2 AIDS Geißel der Menschheit
Controlling for..
ALTK Altersklassen Value = 3,00
by
FROMM
Verbundenheit mit Kirche
40-50
FROMM
Col Pct |
|stark
weniger gar nich
|
stark
t
Row
|
1,00|
2,00|
3,00| Total
V10_2
--------+--------+--------+--------+
2 | 26,7 | 28,1 | 34,8 |
90
stimme zu
|
|
|
| 28,7
+--------+--------+--------+
3 | 25,7 | 26,9 | 17,4 |
79
teils-teils
|
|
|
| 25,2
+--------+--------+--------+
4 | 47,5 | 44,9 | 47,8 |
145
lehne ab
|
|
|
| 46,2
+--------+--------+--------+
Column
101
167
46
314
Total
32,2
53,2
14,6
100,0
Chi-Square
Value
DF
--------------------------------Pearson
2,20173
4
Gamma
-,04033
Jacob, Datenanalyse
Significance
-----------,69871
109
V10_2 AIDS Geißel der Menschheit
Controlling for..
ALTK Altersklassen Value = 4,00
by
FROMM
Verbundenheit mit Kirche
50-60
FROMM
Col Pct |
|stark
weniger gar nich
|
stark
t
Row
|
1,00|
2,00|
3,00| Total
V10_2
--------+--------+--------+--------+
2 | 43,6 | 36,0 | 27,3 |
116
stimme zu
|
|
|
| 38,3
+--------+--------+--------+
3 | 23,1 | 30,5 | 27,3 |
83
teils-teils
|
|
|
| 27,4
+--------+--------+--------+
4 | 33,3 | 33,5 | 45,5 |
104
lehne ab
|
|
|
| 34,3
+--------+--------+--------+
Column
117
164
22
303
Total
38,6
54,1
7,3
100,0
Chi-Square
-------------------Pearson
Gamma
Value
----------4,01172
,11521
Jacob, Datenanalyse
DF
---4
Significance
-----------,40442
110
V10_2 AIDS Geißel der Menschheit
Controlling for..
ALTK Altersklassen Value = 5,00
by
FROMM
Verbundenheit mit Kirche
ü. 60
FROMM
Col Pct |
|stark
weniger gar nich
|
stark
t
Row
|
1,00|
2,00|
3,00| Total
V10_2
--------+--------+--------+--------+
2 | 46,6 | 42,0 | 39,1 |
206
stimme zu
|
|
|
| 44,5
+--------+--------+--------+
3 | 26,9 | 23,3 | 30,4 |
119
teils-teils
|
|
|
| 25,7
+--------+--------+--------+
4 | 26,5 | 34,7 | 30,4 |
138
lehne ab
|
|
|
| 29,8
+--------+--------+--------+
Column
264
176
23
463
Total
57,0
38,0
5,0
100,0
Chi-Square
Value
DF
--------------------------------Pearson
3,74277
4
Gamma
,10891
Jacob, Datenanalyse
Significance
-----------,44194
111
Drittfaktor Geschlecht: Bestätigung
V10_2 AIDS Geißel der Menschheit
Controlling for..
S1 Geschlecht Value = 0 Männer
by
FROMM
Verbundenheit mit Kirche
FROMM
Col Pct |
|stark
weniger gar nich
|
stark
t
Row
|
1,00|
2,00|
3,00| Total
V10_2
--------+--------+--------+--------+
2 | 34,5 | 28,7 | 21,8 |
250
stimme zu
|
|
|
| 28,8
+--------+--------+--------+
3 | 25,2 | 21,2 | 21,8 |
194
teils-teils
|
|
|
| 22,4
+--------+--------+--------+
4 | 40,3 | 50,1 | 56,5 |
423
lehne ab
|
|
|
| 48,8
+--------+--------+--------+
Column
226
471
170
867
Total
26,1
54,3
19,6
100,0
Chi-Square
-------------------Pearson
Gamma
Value
----------12,18972
,16866
DF
---4
Jacob, Datenanalyse
Significance
-----------,01599
112
V10_2 AIDS Geißel der Menschheit
Controlling for..
S1 Geschlecht Value = 1 Frauen
by
FROMM
Verbundenheit mit Kirche
FROMM
Col Pct |
|stark
weniger gar nich
|
stark
t
Row
|
1,00|
2,00|
3,00| Total
V10_2
--------+--------+--------+--------+
2 | 38,4 | 26,3 | 24,8 |
322
stimme zu
|
|
|
| 30,9
+--------+--------+--------+
3 | 26,0 | 24,6 | 17,5 |
253
teils-teils
|
|
|
| 24,3
+--------+--------+--------+
4 | 35,5 | 49,1 | 57,7 |
468
lehne ab
|
|
|
| 44,9
+--------+--------+--------+
Column
411
495
137
1043
Total
39,4
47,5
13,1
100,0
Chi-Square
-------------------Pearson
Gamma
Value
----------30,76019
,23709
DF
---4
Jacob, Datenanalyse
Significance
-----------,00000
113
V10_2
AIDS Geißel der Menschheit
by
S1
Geschlecht
S1
Col Pct |
|Männer
Frauen
|
Row
|
0 |
1 | Total
V10_2
--------+--------+--------+
2 | 27,2 | 29,8 |
604
stimme zu
|
|
| 28,6
+--------+--------+
3 | 21,6 | 23,5 |
478
teils-teils
|
|
| 22,6
+--------+--------+
4 | 51,2 | 46,7 | 1031
lehne ab
|
|
| 48,8
+--------+--------+
Column
991
1122
2113
Total
46,9
53,1
100,0
Chi-Square
-------------------Pearson
Gamma
Value
----------4,18636
-,07114
DF
---2
Jacob, Datenanalyse
Significance
-----------,12329
114
Multikausalität
V10_7
Risikogruppen sind Schuld by K3 Pol. Gemeindegröße
K3
Page 1 of 1
Col Pct |
|
- u 5 5T - u 2 20T - u 50T - u 100T - ü
|
0T
50T
100T
500T
Row
|
2 |
3 |
4 |
5 |
6 | Total
V10_7
--------+--------+--------+--------+--------+--------+
2 | 74,1 | 68,2 | 64,2 | 62,7 | 46,6 | 1256
stimme zu
|
|
|
|
|
| 59,6
+--------+--------+--------+--------+--------+
3 | 14,7 | 20,2 | 22,3 | 20,1 | 29,5 |
491
teils/teils
|
|
|
|
|
| 23,3
+--------+--------+--------+--------+--------+
4 | 11,2 | 11,5 | 13,5 | 17,2 | 23,9 |
359
lehne ab
|
|
|
|
|
| 17,0
+--------+--------+--------+--------+--------+
Column
286
485
327
209
799
2106
Total
13,6
23,0
15,5
9,9
37,9
100,0
Chi-Square
-------------------Pearson
Gamma
Value
-----------
DF
----
Significance
------------
104,85719
,28868
8
,00000
Jacob, Datenanalyse
115
V10_7 Risikogruppen sind Schuld by K3
Controlling for..
ALTK Altersklassen Value = 1,00 18-30
Pol. Gemeindegröße
K3
Page 1 of 1
Col Pct |
|2T - u 5 5T - u 2 20T - u 50T - u 100T - u
|T
0T
50T
100T
500T
Row
|
2 |
3 |
4 |
5 |
6 | Total
V10_7
--------+--------+--------+--------+--------+--------+
2 | 66,1 | 58,2 | 40,5 | 44,6 | 28,3 |
221
stimme zu
|
|
|
|
|
| 42,0
+--------+--------+--------+--------+--------+
3 | 23,2 | 20,0 | 33,8 | 23,2 | 34,3 |
152
teils/teils
|
|
|
|
|
| 28,9
+--------+--------+--------+--------+--------+
4 | 10,7 | 21,8 | 25,7 | 32,1 | 37,4 |
153
lehne ab
|
|
|
|
|
| 29,1
+--------+--------+--------+--------+--------+
Column
56
110
74
56
230
526
Total
10,6
20,9
14,1
10,6
43,7
100,0
Chi-Square
-------------------Pearson
Gamma
Value
----------46,70910
,34015
Jacob, Datenanalyse
DF
---8
Significance
-----------,00000
116
V10_7 Risikogruppen sind Schuld by K3
Controlling for..
ALTK Altersklassen Value = 2,00 30-40
Pol. Gemeindegröße
K3
Page 1 of 1
Col Pct |
|2T - u 5 5T - u 2 20T - u 50T - u 100T - u
|T
0T
50T
100T
500T
Row
|
2 |
3 |
4 |
5 |
6 | Total
V10_7
--------+--------+--------+--------+--------+--------+
2 | 64,4 | 54,7 | 54,4 | 62,5 | 37,4 |
213
stimme zu
|
|
|
|
|
| 50,1
+--------+--------+--------+--------+--------+
3 | 18,6 | 31,6 | 27,9 | 17,5 | 34,4 |
123
teils/teils
|
|
|
|
|
| 28,9
+--------+--------+--------+--------+--------+
4 | 16,9 | 13,7 | 17,6 | 20,0 | 28,2 |
89
lehne ab
|
|
|
|
|
| 20,9
+--------+--------+--------+--------+--------+
Column
59
95
68
40
163
425
Total
13,9
22,4
16,0
9,4
38,4
100,0
Chi-Square
-------------------Pearson
Gamma
Value
-----------
DF
----
Significance
------------
22,72916
,24056
8
,00373
Jacob, Datenanalyse
117
V10_7 Risikogruppen sind Schuld by K3
Controlling for..
ALTK Altersklassen Value = 3,00 40-50
Pol. Gemeindegröße
K3
Page 1 of 1
Col Pct |
|2T - u 5 5T - u 2 20T - u 50T - u 100T - u
|T
0T
50T
100T
500T
Row
|
2 |
3 |
4 |
5 |
6 | Total
V10_7
--------+--------+--------+--------+--------+--------+
2 | 66,0 | 64,5 | 73,3 | 58,3 | 50,0 |
206
stimme zu
|
|
|
|
|
| 60,1
+--------+--------+--------+--------+--------+
3 | 17,0 | 24,7 | 20,0 | 27,8 | 29,5 |
86
teils/teils
|
|
|
|
|
| 25,1
+--------+--------+--------+--------+--------+
4 | 17,0 | 10,8 |
6,7 | 13,9 | 20,5 |
51
lehne ab
|
|
|
|
|
| 14,9
+--------+--------+--------+--------+--------+
Column
47
93
45
36
122
343
Total
13,7
27,1
13,1
10,5
35,6
100,0
Chi-Square
-------------------Pearson
Minimum Expected Frequency Gamma
Value
-----------
DF
----
Significance
------------
12,57686
5,353
8
,12726
,18245
Jacob, Datenanalyse
118
V10_7 Risikogruppen sind Schuld by K3
Controlling for..
ALTK Altersklassen Value = 4,00 50-60
Pol. Gemeindegröße
K3
Page 1 of 1
Col Pct |
|2T - u 5 5T - u 2 20T - u 50T - u 100T - u
|T
0T
50T
100T
500T
Row
|
2 |
3 |
4 |
5 |
6 | Total
V10_7
--------+--------+--------+--------+--------+--------+
2 | 82,7 | 83,3 | 73,2 | 66,7 | 63,4 |
235
stimme zu
|
|
|
|
|
| 73,4
+--------+--------+--------+--------+--------+
3 |
5,8 |
9,7 | 18,3 | 25,0 | 25,7 |
55
teils/teils
|
|
|
|
|
| 17,2
+--------+--------+--------+--------+--------+
4 | 11,5 |
6,9 |
8,5 |
8,3 | 10,9 |
30
lehne ab
|
|
|
|
|
|
9,4
+--------+--------+--------+--------+--------+
Column
52
72
71
24
101
320
Total
16,3
22,5
22,2
7,5
31,6
100,0
Chi-Square
--------------------
Value
-----------
Pearson
15,64945
Minimum Expected Frequency 2,250
Cells with Expected Frequency < 5 3 of
Gamma
DF
----
Significance
------------
8
,04768
15 ( 20,0%)
,26227
Jacob, Datenanalyse
119
V10_7 Risikogruppen sind Schuld by K3
Controlling for..
ALTK Altersklassen Value = 5,00 ü. 60
Pol. Gemeindegröße
K3
Page 1 of 1
Col Pct |
|2T - u 5 5T - u 2 20T - u 50T - u 100T - u
|T
0T
50T
100T
500T
Row
|
2 |
3 |
4 |
5 |
6 | Total
V10_7
--------+--------+--------+--------+--------+--------+
2 | 87,1 | 83,2 | 83,6 | 82,7 | 68,2 |
374
stimme zu
|
|
|
|
|
| 78,2
+--------+--------+--------+--------+--------+
3 | 10,0 | 13,3 | 10,4 | 11,5 | 20,5 |
71
teils/teils
|
|
|
|
|
| 14,9
+--------+--------+--------+--------+--------+
4 |
2,9 |
3,5 |
6,0 |
5,8 | 11,4 |
33
lehne ab
|
|
|
|
|
|
6,9
+--------+--------+--------+--------+--------+
Column
70
113
67
52
176
478
Total
14,6
23,6
14,0
10,9
36,8
100,0
Chi-Square
-------------------Pearson
Value
-----------
DF
----
Significance
------------
18,75636
8
,01622
Minimum Expected Frequency 3,590
Cells with Expected Frequency < 5 Gamma
3 of
15 ( 20,0%)
,31110
Jacob, Datenanalyse
120
Herunterladen