Dr. habil. Rüdiger Jacob Methoden und Techniken der empirischen Sozialforschung Vorlesung mit Diskussion 9. Datenaufbereitung und Datenanalyse Datenaufbereitung und Codierung, Datenmatrix, Datenfehler und Datenbereinigung, Korrelation und Kausalität, Individualdaten und Aggregatdaten univariate und bivariate Datenanalyse, Signifikanz und Assoziation, Drittfaktorkontrolle Jacob, Datenanalyse 1 Datenaufbereitung und Datenanalyse Individual- oder Mikrodaten: Daten von einzelnen Merkmalsträgern. Aggregat- oder Makrodaten: Daten von Kollektiven. Alle Arten von Raten oder Anteilswerten: • Eheschließungs- und Scheidungsraten • Arbeitslosenquote • Lungenkrebsmorbiditätsraten in einer Stadt • Anteil der Raucher in einer Stadt • Jahres-Pro-Kopf-Menge des Verbrauchs von Butter und anderen tierischen Fetten • Mortalitätsraten Herzinfarkt Bei Aggregatdaten: Ökologischer Fehlschluss bei Korrelationen Ökologische Korrelationen: Hinweise auf mögliche Zusammenhänge ÎZur Formulierung von Hypothesen gut geeignet, nicht zu deren Überprüfung! Jacob, Datenanalyse 2 Individualdaten und Aggregatdaten: Ernährung und Herzinfarkt. Vergleich zwischen Deutschland und Japan (1988/OECD-health-Data) Deutsch -land Japan Rel.Rate Japan (D =100%) Herzinfarktmortalität Frauen 105,0 29,0 27,6 Herzinfarktmortalität Männer 531,0 109,0 20,5 Täglicher Kalorienkonsum 3537 2647 74,8 Täglicher Verbrauch von Getreideprotein in gr 33 45 136,4 Jährlicher Verbrauch von Butter in Kg 8,4 0,7 8,3 Jacob, Datenanalyse 3 Variable: Merkmale, die verschiedene Ausprägungen haben können. Dichotome Variable: 2 Ausprägungen Trichotome Variable: 3 Ausprägungen Polytome Variable: mehr als 2 Ausprägungen Konstante: Merkmale mit nur einer Ausprägung. Ob Merkmale Konstante oder Variable darstellen, hängt wesentlich von der Forschungsfrage und der Struktur der untersuchten Population ab Jacob, Datenanalyse 4 Phasen der Datenauswertung Kodierung und Dateneingabe Fehlerkontrolle, Fehlerbereinigung, Ausschluss fehlerhafter und fehlender Angaben ("missing values") Umformung von Variablen (Rekodierung), Neubildung von Variablen, Indizes und Skalen (Variablentransformation) Statistische Analyse von Verteilungen und Zusammenhängen - univariat - bivariat - multivariat Jacob, Datenanalyse 5 Datenmatrix Variable Fälle Variable: Kopfseite Î Spalten Merkmalsträger, Fälle: Stirnseite Î Zeilen Jacob, Datenanalyse 6 ID V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 1 0 1 0 1 1 3 1 9 9 9 2 0 1 0 1 0 2 1 3 1 5 3 0 0 0 0 1 9 9 3 2 2 4 1 1 0 1 0 1 3 2 2 1 : : : : : : : : : : : 247 1 1 0 1 0 1 9 2 2 1 Jacob, Datenanalyse 7 Wichtig: Eine Datenmatrix ist nicht mit einer Tabelle zu verwechseln. Tabellen zeigen die Verteilung eines Merkmals (Häufigkeitstabelle) oder die gemeinsame Verteilung von zwei Merkmalen (Kreuztabelle). Eine Datenmatrix enthält dagegen alle erhobenen Merkmale einer Untersuchung. Erstellung einer Datenmatrix: Variablennamen Kodierung Platzhalter für Filter und fehlende Werte Fallnummern Jacob, Datenanalyse 8 7. A B C D E 8. Wie zufrieden sind Sie mit Ihrer Gesundheit? Sehr zufrieden Zufrieden Weniger zufrieden Unzufrieden Weiß nicht (Interviewer: nicht vorlesen) V7 Frage (hier = Variable) 26,8 53,5 13,6 6,1 / k.A. / relative Häufigkeiten n=507 1 2 3 4 8 9 Und wie zufrieden sind Sie insgesamt mit der medizinischen Betreuung durch Ihre Ärzte? Variablenname V8 n=507 A B C D E 9. Sehr zufrieden Zufrieden Weniger zufrieden Unzufrieden Weiß nicht (Interviewer: nicht vorlesen) 29,6 53,1 13,2 3,2 1,0 k. A. / An wen wenden Sie sich zunächst, wenn Sie eine leichtere Erkrankung feststellen? 1 2 3 4 8 9 Codezahlen Frage Ja Nein 58,6 41,4 1, 0 V9.A 32,3 67,7 1, 0 V9.B A an Partner oder Ehepartner (n=507) B an Eltern / Verwandte (n=507) C an Freunde (n=507) 29,2 70,8 1, 0 V9.C D an Ärzte (n=507) 60,7 39,3 1, 0 V9.D E an Nachbarn (n=506) 7,3 92,7 1, 0 V9.E F an Arbeitskollegen (n=506) 15,2 84,8 1, 0 V9.F G an Krankenhaus (n=507) 10,3 89,7 1, 0 V9.G Variable Jacob, Datenanalyse Fallzahl Variablen -namen 9 Univariate Analyse: Verteilung eines Merkmals Deskriptive Maßzahlen: 1. Maße der zentralen Tendenz • Mean: arithmetisches Mittel • Median: Zentralwert • Mode, Modus, Modalwert: am häufigsten vorkommender Wert •2. Streuungsmaße • Range, Spannweite: Differenz zwischen dem kleinsten und dem größten Wert • Varianz: quadrierte, summierte Abweichungen der individuellen Merkmalsausprägungen vom Mittelwert, dividiert durch die Gesamtzahl der Fälle (dimensionsloser Wert) • Standardabweichung: Wurzel aus der Varianz (gleiche Dimension wie die Ausgangsdaten) Jacob, Datenanalyse 10 Jacob, Datenanalyse 11 Rechtsschiefe/linkssteile Verteilung Jacob, Datenanalyse 12 Bei Normalverteilungen sind Modus, Median und arithmetisches Mittel identisch. Für normalverteilte Merkmale gilt: rund 2/3 aller Fälle (genau 68,26%) liegen in dem Intervall mit den Grenzen arith. Mittel + Standardabweichung und arith. Mittel - Standardabweichung. 95,44% aller Fälle liegen in dem Intervall mit den Grenzen arith. Mittel + 2 Standardabweichungen und arith. Mittel - 2 Standardabweichungen 99,74% aller Fälle liegen in dem Intervall mit den Grenzen arith. Mittel + 3 Standardabweichungen und arith. Mittel - 3 Standardabweichungen Bei schiefen Verteilungen gilt: Rechtsschiefe/linkssteile Verteilungen: Modus<Median<arith. Mittel Linksschiefe/rechtssteile Verteilungen: Modus>Median>arith. Mittel Jacob, Datenanalyse 13 Jacob, Datenanalyse 14 40 30 20 10 Std.abw. = 14,29 Mittel = 79,8 N = 195,00 0 40,0 50,0 45,0 60,0 55,0 70,0 65,0 80,0 75,0 90,0 85,0 100,0 110,0 120,0 95,0 105,0 115,0 125,0 Gewicht Jacob, Datenanalyse 15 30 20 10 Std.abw. = 8,76 Mittel = 169,3 N = 193,00 0 150,0 155,0 160,0 165,0 170,0 175,0 180,0 185,0 190,0 152,5 157,5 162,5 167,5 172,5 177,5 182,5 187,5 Größe Jacob, Datenanalyse 16 Übergewicht: Body-Mass-Index (BMI). Körpergewicht in KG geteilt durch das Quadrat der Körpergröße in m Gewicht(Kg) BMI = ----------------------Körpergröße(m)2 75Kg BMI = --------------- = 25,9 1,70m2 Wertebereiche: unter 18: deutliches Untergewicht 18-20: Untergewicht 20-25: Normalgewicht 25-30: Übergewicht über 30: Adipositas Jacob, Datenanalyse 17 BMI Value Label deutl. Unterg. Normalg. Überg. Adipositas Value Frequency Percent Valid Percent 1 3 4 5 , 2 48 69 55 22 ------196 1,0 24,5 35,2 28,1 11,2 ------100,0 1,1 27,6 39,7 31,6 Missing ------100,0 Total Valid cases 174 Mean 27,797 Std dev Median 27,641 Variance Mode 24,221 Minimum Maximum Range Missing cases Cum Percent 1,1 28,7 68,4 100,0 22 4,214 17,761 14,005 41,016 27,011 Jacob, Datenanalyse 18 BMI-Werte in der allgemeinen Bevölkerung 12-18 0,9 18,1-20 5,6 20,1-25 50,2 25,1-30 36,9 30,1 oder mehr 6,4 N 2459 Quelle: Sozialwissenschaften-BUS 1996 Jacob, Datenanalyse 19 Dichotomisierung der Variablen: bis 25: kein Übergewicht über 25: Übergewicht Übergewicht (Angaben in Prozent) kein Übergewicht 56,7 Übergewicht 43,3 N 2459 Quelle: Sozialwissenschaften-BUS 1996 Jacob, Datenanalyse 20 Punkt- oder Intervallschätzung Wie viel Prozent der Bevölkerung sind übergewichtig? Wie genau schätzt der Anteilswert der Stichprobe den wahren Wert der Population? Voraussetzung zur Beantwortung der Frage: Zufallsstichprobe Kennwerte (Mittelwerte, Streuung, Anteilswerte) von Zufallsstichproben sind (approximativ) normalverteilt, der (unbekannte) Populationsparameter ist der Erwartungswert. Stichprobenergebnisse sind Intervallschätzer! Jacob, Datenanalyse 21 Konfidenzintervall 95,44% der Stichprobenkennwerte liegen in einem Bereich „Populationsparameter (z.B. µ) +/- 2 Standardabweichungen”. Populationsparameter, die mit einer Wahrscheinlichkeit von 95,44% einen spezifischen Stichprobenkennwert hervorbringen, liegen in dem Intervall “Stichprobenkennwert +/- 2 Standardabweichungen”. Die Wahrscheinlichkeit, dass dieser Kennwert zu einer Population gehört, deren Parameter ausserhalb dieses Intervalls liegt, beträgt höchstens 4,56%. Das Konfidenzintervall kennzeichnet den Bereich eines Merkmals, in dem sich ein bestimmter Prozentsatz aller möglichen Populationsparameter befindet, die den empirisch ermittelten Stichprobenkennwert erzeugt haben können Für solche Konfindenzintervalle übliche Bereiche: 95% 99% Jacob, Datenanalyse 22 Mittelwert=0 68,26% 95,44% 95% -1,96 Jacob, Datenanalyse 1,96 2,58 23 Konfidenzintervall Das 95%-Konfidenzintervall für den Anteilswert berechnet sich nach der Formel: p − 1,96. p.(1 − p ) p.(1 − p ) ≤ θ ≤ p + 1,96. n n 0,43-1,96*0,0099799=0,43-0,01956=0,410 ÎUntergrenze: 41% 0,43+1,96*0,0099799=0,43+0,01956=0,449 ÎObergrenze:44,9% Die Stichprobe entstammt mit 95% Wahrscheinlichkeit einer Population mit einem Anteil übergewichtiger Personen, der zwischen 41% und rund 45% liegt. Jacob, Datenanalyse 24 Bivariate Analyse: gemeinsame Analyse von zwei Merkmalen Standardanwendung: Kreuztabellen/Korrelationsanalyse Ziel: Prüfung kausaler Hypothesen Beispiel: Geschlecht und Berufstätigkeit Jacob, Datenanalyse 25 Kreuztabellen/Kontingenztabellen 1. Ist ein Zusammenhang zwischen zwei Merkmalen erkennbar? 2. Ist ein solcher Zusammenhang nur zufällig aufgetreten oder bestehen signifikante Unterschiede zwischen Merkmalsgruppen, lässt sich das Ergebnis verallgemeinern? ÎSicherheit von Zusammenhängen, Signifikanz, Generalisierbarkeit 3. Lässt sich die Stärke des Zusammenhangs quantifizieren ÎKorrelation, Assoziation 4. Gibt es weitere Variablen, durch die das Ergebnis einer zweidimensionalen Tabelle bestätigt oder geändert wird? ÎDrittfaktorenkontrolleJacob, Datenanalyse 26 Jacob, Datenanalyse 27 ungeordnete Population Jacob, Datenanalyse 28 Gruppierung nach Geschlecht und Berufstätigkeit Jacob, Datenanalyse 29 Männer berufstätige Männer nicht berufstätige Männer Frauen berufstätige Frauen nicht berufstätige Frauen Jacob, Datenanalyse 30 Tabelle mit Fallzahlen Tabelle mit Reihenprozentwerten Tabelle mit Spaltenprozentwerten Jacob, Datenanalyse 31 Tabellenanalyse: Gruppenvergleiche. Die Zahl der Gruppen wird durch die Menge der Merkmalsausprägungen des unabhängigen Merkmals definiert. einfachster Fall: Vierfeldertabelle Zwei allgemeine Konventionen zur Gestaltung von Tabellen: 1. Unabhängige Variablen stehen im Kopf der Tabellen, abhängige an der Stirnseite. 2. Prozentuiert wird spaltenweise, interpretiert wird zeilenweise. Interpretation: Vergleich der Anteilswerte Jacob, Datenanalyse 32 K O P F: x S zeilenweise interpretieren T I R N spaltenweise prozentuieren y Anzugeben sind: • Titel • Prozentuierungsbasen (= die absoluten Häufigkeiten bzw. Fallzahlen in den jeweiligen Kategorien des unabhängigen Merkmals) • statistische Maßzahlen • gegebenenfalls eine Quelle Jacob, Datenanalyse 33 unabhängiges Merkmal X Titel (über der Tabelle) Impfung gegen Grippe nach Altersklassen (Angaben in Prozent) Grippeimpfung ja 18- u. 30 30- u. 40 40 – u. 50 50 – u. 60 60 oder älter 12,5 9,0 18,4 19,0 39,8 nein 81,3 84,4 75,7 66,7 50,0 weiss nicht 6,3 6,6 Spaltenprozent 5,8 14,3 10,2 N 96 103 63 118 122 N = 502. Sig. = .000, Cramer´s V = .224 Quelle: Regionaler Gesundheitssurvey Trier, 2000 abhängiges Merkmal Y Interpretation: Nur knapp 13% der Stichprobengröße, jüngsten, aber rund 40% der statistische ältesten Befragten haben sich Maßzahlen Jacob, Datenanalyse gegen Grippe impfen lassen Fallzahlen der Merkmalsausprägungen von X 34 Welche Prozentwerte werden hier verglichen? Jacob, Datenanalyse 35 Unfalltod (y) Ja Nein RV x Geschlecht (x) Männer Frauen 26% 74% ? ? ? ? RV y 8758 ? ? Relevant ist die Frage nach den geschlechtsspezifischen bedingten Unfallrisiken abhängig von den jeweiligen Expositionen (=Teilnahme am Straßenverkehr). Diese Frage kann mit den vorhandenen Daten nicht beantwortet werden. Indikatoren für die Exposition? Jacob, Datenanalyse 36 Signifikanz: Ist das Gewicht abhängig von Geschlecht oder regionaler Herkunft? Gewicht nach Geschlecht Männer Frauen N 46,5% 65,9% 1393 Übergewicht 53,5% 34,1% 1065 N 1168 1290 2458 West Ost N 56,8% 56,3% 1394 Übergewicht 43,2% 43,7% 1064 N 494 2458 Kein Übergewicht Kein Gewicht nach regionaler Herkunft Übergewicht 1964 Jacob, Datenanalyse 37 Geprüft wird, ob zwei Merkmale statistisch voneinander unabhängig sind (H0, Nullhypothese). In diesem Fall sind bei gegebenen Randverteilungen in den Zellen einer Zeile gleiche relative Häufigkeiten zu erwarten. Empirische Verteilungen werden verglichen mit einer Indifferenztabelle ÎTabelle mit Zellenbesetzungen, die sich bei gegebenen Randverteilungen ergeben, wenn die beiden Merkmale tatsächlich statistisch voneinander unabhängig sind. Jacob, Datenanalyse 38 Diese Erwartungswerte werden nach der Formel „Zeilensumme x Spaltensumme durch Gesamtsumme“ berechnet. Für die erste Zelle der Tabelle ergibt sich damit: fe = 1168*1393/2458 = 661,9 Für die letzte Zelle erhalten wir: fe = 1260*1065/2458 = 558,9 Jacob, Datenanalyse 39 Gewicht nach Geschlecht, 1. Wert: N, 2. Wert: Erwartungswert Kein Männer Frauen N 543 850 1393 Übergewicht 661,9 731,1 Übergewicht 625 440 N 506,1 558,9 1168 1290 Zeilensummen 1065 2458 Gesamtsumme Chi-Square: 93,97133, Sig. = .00000 Spaltensummen Gewicht nach regionaler Herkunft, 1. Wert: N, 2. Wert: Erwartungswert Kein West Ost N 1116 278 1394 Übergewicht 1113,8 280,2 Übergewicht 848 216 N 850,2 213,8 1964 494 1064 2458 Chi-Square: 0,04820, Sig. = .82623 Jacob, Datenanalyse 40 Die relativen Häufigkeiten sind bei diesen Erwartungswerten in den Zellen einer Zeile alle gleich: 661,9 = 56,67% von 1168 731,1 = 56,67% von 1290 506,1 = 43,33% von 1168 558,9 = 43,33% von 1290 Bei statistischer Unabhängigkeit: Erwartete und beobachtete Werte weichen nicht oder kaum voneinander ab. Prüfgröße ÎChi-Quadrat-Wert ( fbk − fek )2 χ2 = ∑ fek k =1 n k: Zahl der Zellen fbk: Beobachtungswerte fek: Erwartungswerte Jacob, Datenanalyse 41 Kein Männer Frauen N 543 (fb) 850 1393 Übergewicht 661,9 (fe ) 731,1 Übergewicht 625 440 1065 506,1 558,9 N 1168 1290 Zelle fb-fe (fb-fe)2 (fb-fe)2/fe 1,1 543-661,9=-118,9 14137,21 21,35 1,2 850-731,1= 118,9 14137,21 19,33 2,1 625-506,1= 118,9 14137,21 27,93 2,2 440-558,9=-118,9 14137,21 25,29 2458 Summe 93,9 Jacob, Datenanalyse 42 Geprüft wird die Wahrscheinlichkeit, dass die Nullhypothese zutrifft. Ausgewiesen wird diese Wahrscheinlichkeit. p/α=.05Îsignifikantes Ergebnis (die Wahrscheinlichkeit für die H0 beträgt nur 5%) p/α=.01Îhochsignifikantes Ergebnis (die Wahrscheinlichkeit für die H0 beträgt nur 1%) .00000 bedeutet nicht, dass die Wahrscheinlichkeit für die Nullhypothese exakt Null ist. Dieses Ergebnis ist mit statistischen Prüfverfahren nicht zu erreichen, vielmehr kommt irgendwann eine von Null verschiedene Zahl. Jacob, Datenanalyse 43 Basis für Signifikanztests: Chi-Quadrat-Verteilung(en) Frage: Mit welcher Wahrscheinlichkeit ist ein errechneter Chi-Quadrat-Wert bei einer theoretischen Chi-Quadrat-Verteilung zu erwarten. Wie wahrscheinlich ist ein bestimmter Wert bei statistischer Unabhängigkeit von zwei Merkmalen? Chi-Quadrat-Verteilungen bestehen aus der Summe quadrierter Merkmalsausprägungen voneinander unabhängiger normalverteilter z-transformierter Zufallsvariablen. Zufallsvariable: Merkmal, dessen Ausprägungen (=Elementarereignisse genannt werden), ausschließlich vom Zufall abhängen. Bsp.: Ein Würfelwurf ist eine Zufallsvariable mit 6 möglichen Elementarereignissen, die alle die Wahrscheinlichkeit 1/6 haben. Jacob, Datenanalyse 44 Eine neue Zufallsvariable auf der Basis dieser Variablen ist die Kombination der Augenzahlen von je zwei Würfelwürfen. Elementarereignisse sind dann nicht mehr die Augenzahlen 1 bis 6, sondern Kombinationen dieser beiden Wertereihen, also (1 1)(1 2)(2 1) usw. Die neue Zufallsvariable ist das Ergebnis der Kombination (additiv oder multiplikativ) der Elementarereignisse zweier voneinander unabhängiger Zufallsvariablen Jacob, Datenanalyse 45 46 Diskrete Zufallsvariablen: Elementarereignisse können abgezählt werden. Stetige Zufallsvariablen: Elementarereignisse können innerhalb eines bestimmten Intervalls jede beliebige Größe annehmen. Bestimmend für die Form Wahrscheinlichkeitsfunktion. der Verteilung ist die Bei diskreten Zufallsvariablen gibt diese Funktion an, mit welcher Wahrscheinlichkeit ein bestimmtes Elementarereignis zu erwarten ist, wenn das Zufallsexperiment (als z. B. der Wurf eines Würfels) unendlich oft wiederholt wird (in der Praxis bedeutet dies: sehr häufige WiederholungÎuntere Grenze: 100). Bei stetigen Zufallsvariablen wird die Wahrscheinlichkeitsdichte für das Auftreten von Elementarereignisse bestimmt, die innerhalb eines definierten Intervalls liegen. Jacob, Datenanalyse 47 Die Wahrscheinlichkeitsdichtefunktion hat stets Kurvenform. Die Gesamtwahrscheinlichkeit für eine stetige Zufallsvariable wird gleich Eins gesetzt und entspricht der Gesamtfläche unter der Kurve. Die Wahrscheinlichkeitsdichte für ein bestimmtes Intervall mit den Grenzen a und b entspricht der durch diese Punkte markierten und begrenzten Fläche der darüber liegenden Kurve. Je enger der Abstand von a und b ist und/oder je geringer der Abstand zwischen Kurve und X-Achse ist, umso kleiner wird die markierte Fläche und damit auch die Wahrscheinlichkeit des Auftretens von Elementarereignissen innerhalb der entsprechenden Intervallgrenzen. Chi2-Verteilungen können aus einer, zwei drei, vier oder 10 oder allgemein n Zufallsvariablen gebildet werden. ÎFreiheitsgrade der Verteilung (DF= Degrees of Freedom). Jacob, Datenanalyse 48 Werte >= 4 haben bei den drei Verteilungen unterschiedliche Wahrscheinlichkeiten Jacob, Datenanalyse 49 Freiheitsgrade Restriktion empirischer Verteilungen auch bei statistischer Unabhängigkeit der Merkmale: Fallzahlen und Merkmalsausprägungen der Merkmale Gewicht nach regionaler Herkunft, 1. Wert: N, 2. Wert: Erwartungswert Ost N West Kein Übergewicht 1116 1113,8 278 280,2 1394 Übergewicht 848 850,2 216 213,8 1064 N 1964 494 2458 Bei gegebenen Randverteilungen sind die Erwartungswerte Dezimalzahlen. Empirische Werte sind dagegen immer ganzzahlig. Jacob, Datenanalyse 50 Freiheitsgrade Frage: Wie viele Zellenbesetzungen können bei gegebenen Randverteilungen frei besetzt werden, bevor alle weiteren dadurch Zellbesetzungen festgelegt sind. DF: (Reihen minus 1) x (Spalten minus 1) Bei je zwei Reihen und Spalten beträgt DF = (2-1) x (2-1)=1. Jacob, Datenanalyse 51 Gewicht nach Geschlecht; Freiheitsgrade Männer Frauen N 160 1233 1393 Übergewicht 1008 57 1065 N 1290 2458 Kein Übergewicht 1168 Jacob, Datenanalyse 52 Zu beachten ist: Berechnet werden Abweichungen der beobachteten von den erwarteten Häufigkeiten. ÎChi² ist fallzahlabhängig. Mit wachsender Stichprobengröße wächst die Wahrscheinlichkeit, dass Zusammenhänge als signifikant ausgewiesen werden. Die Stichprobengröße bedingt die Zellbesetzungen. Um Abweichungen empirischer von theoretischen Werten berechnen zu können, müssen Spielräume, Variationsbreiten vorliegen - also Mindestzellenbesetzungen - möglich sein, wobei hier eine Mindestbesetzung von fünf gefordert wird. Jacob, Datenanalyse 53 BMI nach Geschlecht Männer Frauen N 12-18 0,7 0,9 20 18,1-20 2,0 9,0 139 20,1-25 43,9 56,0 1234 25,1-30 46,7 28,1 907 6,0 157 1290 2457 30,1 oder 6,8 mehr N 1167 Chi-Square: 129,85758, Sig. = .00000 Tabellen mit gleichen Proportionen, aber unterschiedlichen Signifikanzniveaus BMI nach Geschlecht Männer Frauen N 12-18 2,2 5,7 4 18,1-20 4,3 11,3 8 20,1-25 45,7 47,2 46 25,1-30 41,3 26,4 33 oder 6,5 9,4 8 46 53 99 30,1 mehr N Chi-Square: 4,13111, Sig. = .38855 54 Korrelation und Kausalität Korrelation: gemeinsames Auftreten und Variieren zweier Variablen Kausalität: Ursache-Wirkungs-Beziehung: x verursacht y! Eine statistisch nachweisbare Korrelation von x und y kann bedeuten: 1. x verursacht y 2. y verursacht x 3. x und y werden von einer dritten Variable verursacht 1. x und y beeinflussen sich wechselseitig Jacob, Datenanalyse 55 Beispiel: x: Umweltbewusstsein, Indikator: Skala mit entsprechenden Items y: Umweltfreundliches Verhalten, Indikatoren: kein Auto, keine Flugreisen, Benutzung von Bus und Rad hohe Korrelation: Fast alle Personen im Sample, die sich durch ausgeprägtes Umweltbewusstsein auszeichnen, haben kein Auto, fliegen nicht und benutzen den Bus. Interpretation? Typ 1, 2, 3 oder 4? Jacob, Datenanalyse 56 Kausalität ist statistisch nicht nachweisbar. Messbar ist nur eine Korrelation von zwei Variablen. Kausalzusammenhänge: hypothetische Konstrukte! Voraussetzungen für den Schluss auf eine kausale Beziehung: • X und Y korrelieren • X geht Y zeitlich voran • X und Y wurden exakt gemessen Korrelation ist notwendige, aber nicht hinreichende Voraussetzung für Kausalität, Kausalität lässt sich korrelationsstatistisch nur widerlegen, aber nicht beweisen. Jacob, Datenanalyse 57 Korrelation Korrelationskoeffizienten sind Maßzahlen für mindestens bivariate Verteilungen und informieren über die Stärke und (ab ordinalem Messniveau) die Richtung eines Zusammenhangs. Anforderungen 1. Koeffizienten werden standardisiert auf den Wertebereich zwischen 0 und dabei zeigt der Wert 1 eine perfekte, der Wert 0 eine Nichtbeziehung an. 1, Ab Ordinalskalenniveau lassen sich auch Koeffizienten mit Vorzeichen berechnen, wobei ein Wert von -1 eine perfekte negative (inverse) Beziehung darstellt (hohe X-Werte korrelieren mit niedrigen Y-Werten und umgekehrt). 2. Die Koeffizienten sollen invariant sein gegenüber unterschiedlichen absoluten Häufigkeiten der Tabelle und nur Unterschiede in den relativen Häufigkeiten zur Vergleichsgrundlage verwenden. Jacob, Datenanalyse 58 Gewicht in Abhängigkeit von Körpergröße 160 140 120 100 Gewicht in kg 80 60 40 20 130 140 150 160 170 180 190 200 210 Größe in cm Niedrigen x-Werten entsprechen niedrige y-Werte, hohen x-Werten hohe y-Werte: Kleinere Personen sind leichter als größere. Frage: Was ist ein niedriger x- oder y-Wert? Jacob, Datenanalyse 59 Pearson´s r: Maß für eine lineare Beziehung zwischen zwei mindestens intervallskalierten Variablen. Mittelwertbasierter Koeffizient: Mittelwert als Referenzwert für die Einstufung von X- bzw. Y-Werten als hoch oder niedrig Die Merkmalsausprägungen der einzelnen Merkmale werden in Beziehung gesetzt zu ihren jeweiligen Mittelwerten, man berechnet die Abweichungen, indem der Mittelwert von der jeweiligen Merkmalsausprägung subtrahiert wird. Handelt es sich um eine relativ hohe Position, ist diese Differenz positiv, ansonsten negativ. Jacob, Datenanalyse 60 Zur Berechnung eines Zusammenhangs werden nun diese Differenzen für X und für Y für jede UE berechnet, multipliziert und diese Produkte addiert. Man nennt das auch die Summe der Abweichungsprodukte (SAP) oder die Summe der Kreuzprodukte. Dividiert durch N erhält man die Kovarianz Standardisierung auf Werte zwischen –1 und 1: Kovarianz wird dividiert durch das Produkt der Standardabweichungen von X und Y Î r Jacob, Datenanalyse 61 Pearson´s r Jacob, Datenanalyse 62 Katholikenanteil Stimmanteil der CDU 63 Y X Jacob, Datenanalyse 64 Jacob, Datenanalyse 65 54,99 91,40/52,68 43,96 34,89/37,68 Jacob, Datenanalyse 66 Jacob, Datenanalyse 67 Jacob, Datenanalyse 68 Jacob, Datenanalyse 69 Jacob, Datenanalyse 70 Kurvilineare Beziehung Jacob, Datenanalyse 71 Durchschnittlicher Alkoholkonsum pro Woche (Wein, Sekt, Bier, Viez) in Liter nach Schulbildung (Schulzeit in Jahren) 2,5 2,3 2 2,3 1,8 1,5 1 0,5 0 bis 9 Jahre r = .04 10 Jahre Jacob, Datenanalyse 12-13 Jahre 72 Ordinales Messniveau: Maßzahlen auf der Basis des Paarvergleichs Bei ordinalen Daten kann kein Mittelwert berechnet werden. Allerdings lassen sich ordinale Daten in eine Rangfolge bringen. Bei ordinalen Koeffizienten werden Wertepaare von verschiedenen Untersuchungseinheiten geordnet. Zusammenhänge werden z. B. daraufhin untersucht, ob Personen, die bei Variable X einen höheren Wert aufweisen, dies auch bei Y tun oder nicht. Jacob, Datenanalyse 73 Alter (X): Code: 1 2 3 4 5 Label: 18 bis unter 30 30 bis unter 40 40 bis unter 50 50 bis unter 60 Über 60 AIDS-Kranke brauchen Solidarität und Hilfe. (Y1) Schuld an AIDS sind die Hauptrisikogruppen. (Y2) Code: 1 2 3 4 5 Label: stimme sehr zu stimme eher zu teils-teils stimme eher nicht zu stimme überhaupt nicht zu Jacob, Datenanalyse 74 Konkordanter Zusammenhang (c) Merkmale: X= Alter mit 5 Altersklassen Codezahlen: 1= 18 b. u. 30, 5= 60 u. älter Y1 = Solidarität mit Aids-Kranken, fünfpolige Likert-Skala Codezahlen: 1= stimme sehr zu, 5= lehne sehr ab Person A Person B Alter X 18 (1) 60 (5) X und Y-Wert von A sind kleiner als von B Solidarität Y1 s.s.z. (1) Jacob, Datenanalyse l.s.a. (5) 75 Diskordanter Zusammenhang (d) Merkmale: X= Alter mit 5 Altersklassen Codezahlen: 1= 18 b. u. 30, 5= 60 u. älter Y2= Schuldattributionen, fünfpolige Likert-Skala Codezahlen: 1= stimme sehr zu, 5= lehne sehr ab Alter X Person A Person B 18 (1) 60 (5) HRG sind Schuld an AIDS Y2 l.s.a. (5) s.s.z. (1) Der X-Wert von A ist kleiner, der Y-Wert größer Jacob, Datenanalyse als von B 76 Person X Alter A B C D E 1 2 3 4 5 Y1 Y2 Solidarität Schuld 1 2 3 4 5 5 4 3 2 1 N ( N − 1) Npaare = 2 Nc − Nd TauA = Npaare X/Y1: 10-0/10 = 1 X/Y2: 0-10/10 = -1 Jacob, Datenanalyse 77 Alter Wichtigkeit von Recht und Ordnung sehr wichtig 1 wichtig 2 wenig. wicht. 3 unwichtig 4 Σ N = 40 18- u. 30 1 1 5 5 11 30- u. 40 2 1 2 5 4 12 Jacob, Datenanalyse 40- u. 50 3 2 3 2 1 8 ü. 50 4 4 5 9 78 Insgesamt möglich Paare: Konkordante Paare (Nc): Alle Zellhäufigkeiten, die rechts und unterhalb einer bestimmten Zelle liegen, summiert und multipliziert mit dieser Zelle, ergeben die Anzahl konkordanter Paare. Nc: 1(3+2+1+5)=11 2(5)=10 1(5+4+2+1)=12 2(2+1)=6 5(4+1)=25 5(1)=5 Nc =69 Alter Wichtigkeit von Recht und Ordnung sehr wichtig 1 wichtig 2 wenig. wicht. 3 unwichtig 4 18- u. 30 1 1 5 5 Jacob, Datenanalyse 30- u. 40 2 1 2 5 4 40- u. 50 3 2 3 2 1 ü. 50 4 4 5 - 79 Diskordante Paare (Nd): Alle Zellhäufigkeiten, die links und unterhalb einer bestimmten Zelle liegen, summiert und multipliziert mit dieser Zelle, ergeben die Anzahl diskordanter Paare Nd: 4(3+2+1+2+5+4+1+5+5)=112 2(2+5+4+1+5+5)=44 1(1+5+5)=11 5(2+1+5+4+5+5)=110 Wichtigkeit von Recht und Ordnung 3(5+4+5+5)=57 sehr wichtig 1 2(5+5)=20 wichtig 2 2(4)=8 wenig. wicht. 3 unwichtig 4 2(5)=10 5(5)=25 Nd=397 Alter 18- u. 30 1 1 5 5 Jacob, Datenanalyse 30- u. 40 2 1 2 5 4 40- u. 50 3 2 3 2 1 ü. 50 4 4 5 - 80 Tied on x (Tx): Alle Zellhäufigkeiten, die unterhalb einer bestimmten Zelle liegen, summiert und multipliziert mit dieser Zelle, ergeben die Anzahl der auf x verknüpften Paare. Tx: 1(5+5)=10 5(5)=25 1(2+5+4)=11 2(5+4)=18 Wichtigkeit von 5(4)=20 Recht und Ordnung 2(3+2+1)=12 sehr wichtig 1 3(2+1)=9 wichtig 2 wenig. wicht. 3 2(1)=2 unwichtig 4 4(5)=20 Tx=127 Alter 18- u. 30 1 1 5 5 Jacob, Datenanalyse 30- u. 40 2 1 2 5 4 40- u. 50 3 2 3 2 1 ü. 50 4 4 5 - 81 Tied on y (Ty): Alle Zellhäufigkeiten, die neben einer bestimmten Zelle liegen, summiert und multipliziert mit dieser Zelle, ergeben die Anzahl der auf y verknüpften Paare. Ty: 1(2+4)=6 2(4)=8 1(2+3+5)=8 Wichtigkeit von 2(3+5)=16 Recht und Ordnung 3(5)=15 sehr wichtig 1 5(5+2)=35 wichtig 2 wenig. wicht. 3 5(2)=10 unwichtig 4 5(4+1)=25 4(1)=4 Ty=127 Alter 18- u. 30 1 1 5 5 Jacob, Datenanalyse 30- u. 40 2 1 2 5 4 40- u. 50 3 2 3 2 1 ü. 50 4 4 5 - 82 Tied on x and y (Txy): Alle Untersuchungseinheiten in gleichen Zellen. n(n-1)/2 Txy: 2(2-1)/2=1 4(4-1)/2=6 2(2-1)/2=1 3(3-1)/2=3 5(5-1)/2=10 Wichtigkeit von Recht und Ordnung 5(5-1)/2=10 sehr wichtig 1 2 5(5-1)/2=10 wichtig wenig. wicht. 3 2(2-1)/2=1 unwichtig 4 5(5-1)/2=10 4(4-1)/2=6 Txy=60 Alter 18- u. 30 1 1 5 5 30- u. 40 2 1 2 5 4 Jacob, Datenanalyse 40- u. 50 3 2 3 2 1 ü. 50 4 4 5 - 83 Npaare = Nc+Nd+Tx+Ty+Txy 780=69+397+127+127+60 Gamma = TauA = Nc − Nd − 328 = = −.703 Nc + Nd 466 Nc − Nd − 328 = = −.420 Npaare 780 TauB = TauC = Nc − Nd − 328 = = −.553 593 ( Nc + Nd + Tx) ( Nc + Nd + Ty 2 R ( Nc − Nd ) − 2624 = = −.546 4800 n ²( R − 1) mit: R = Minimum der Zeilen- bzw. Spaltenzahl n = Anzahl der Meßwerte 84 Abwechslung 18- u. 30 und Spaß 1 sehr wichtig 3 1 wichtig 2 wenig. wicht. 3 unwichtig 4 30- u. 40 2 40- u. 50 3 3 ü. 50 4 symmetrische Tabelle 3 3 N =12, Npaare = 66, Nc = 54, Nd = 0, Tx = 0, Ty = 0, Txy = 12 Npaare = Nc+Nd+Tx+Ty+Txy 66 = 54+0+0+0+12 Gamma = 54 = 1.00 54 TauA = 54 = .818 66 TauB = 54 = 1.00 54 TauC = 432 = 1.00 432 Jacob, Datenanalyse 85 Abwechs. 18 – u. 30 30 –u. 40 40 – u. 50 50 – u. 60 ü. 60 und Spaß 3 sehr asymmetrische Tabelle wichtig 3 wichtig 3 wen. wicht. 3 unwichtig 3 N = 15, Npaare = 105, Nc = 81, Nd = 0, Tx = 0, Ty = 3(3)=9, Txy = 15 Npaare = Nc+Nd+Tx+Ty+Txy 105 = 81+0+0+9+15 Gamma = 81 = 1.00 81 TauA = 81 = .771 105 TauB = 81 = .948 85,381 TauC = 648 = .960 675 Jacob, Datenanalyse 86 Person X Alter A B C D E 1 2 3 4 5 Y1 Y2 Solidarität Schuld 1 2 3 4 5 5 4 3 2 1 Rangkorrelation (Spearmann) 6 * ( D1² + D 2² + ...Dx ²) rs = 1 − N * ( N ² − 1) D1 bis Dx: Differenzen der Rangplätze (=Codezahlen) für jeden der n Merkmalsträger Jacob, Datenanalyse 87 Person Rang X Rang Y1 D D² A 1 1 0 0 B 2 2 0 0 C 3 3 0 0 D 4 4 0 0 E 5 5 0 0 6 * ( 0) rs = 1 − =1 5 * (25 − 1) Jacob, Datenanalyse 88 Person Rang X Rang Y2 D D² A 1 5 -4 16 B 2 4 -2 4 C 3 3 0 0 D 4 2 2 4 E 5 1 4 16 6 * (16 + 4 + 0 + 4 + 16) rs = 1 − = 1 − 2 = −1 5 * (25 − 1) Jacob, Datenanalyse 89 Nominales Messniveau: Chi-Quadrat basierte Maßzahlen Grundgedanke: Eine Beziehung zwischen zwei Merkmalen ist umso stärker, je größer die Abweichung von der statistischen Unabhängigkeit ist. φ = χ² N V = χ² N min( r − 1 / c − 1) Wichtig: Bei Merkmalen unterschiedlichen Messniveaus bestimmt das jeweils niedrigste Skalenniveau die Wahl des Koeffizienten. Jacob, Datenanalyse 90 Gewicht nach Geschlecht, 1. Wert: N, 2. Wert: Erwartungswert Kein Männer Frauen N - 50 50 Übergewicht 25 25 Übergewicht 50 - N 25 25 50 50 50 100 Chi-Square: 100 φ φ = χ² N 100 = =1 100 Jacob, Datenanalyse 91 Gewicht nach Altersklassen, 1. Wert: N, 2. Wert: Erwartungswert kein Überg. leichtes Ü. Adipositas N bis u. 30 bis u. 50 ü. 50 N 100 - - 100 33,3 33,3 33,3 - 100 - 33,3 33,3 33,3 - - 100 33,3 33,3 33,3 100 100 100 100 100 300 Chi-Square: 600 φ V= V= 600 = = 1,4142135 300 χ² N min( r − 1 / c − 1) 600 =1 300 * 2 92 Schuld an AIDS sind die Hauptrisikogruppen stimme sehr zu stimme eher zu teils-teils lehne eher ab lehne sehr ab N 30,3% 29,3% 23,3% 10,1% 7,0% 2106 59,6% 17,1% Quelle: ZUMA-Sozialwissenschaften-BUS 2/1990 Jacob, Datenanalyse 93 V10_7 Risikogruppen sind Schuld by ALTK Altersklassen ALTK Count | Exp Val | Row Pct |18-30 30-40 40-50 50-60 ü. 60 Col Pct | Row Tot Pct | 1,00| 2,00| 3,00| 4,00| 5,00| Total V10_7 --------+--------+--------+--------+--------+--------+ 1 | 96 | 95 | 109 | 127 | 208 | 635 stimme sehr zu | 159,7 | 129,0 | 104,1 | 97,1 | 145,1 | 30,4% | 15,1% | 15,0% | 17,2% | 20,0% | 32,8% | | 18,3% | 22,4% | 31,8% | 39,7% | 43,5% | | 4,6% | 4,5% | 5,2% | 6,1% | 9,9% | +--------+--------+--------+--------+--------+ 2 | 125 | 118 | 97 | 108 | 166 | 614 stimme eher zu | 154,4 | 124,7 | 100,7 | 93,9 | 140,3 | 29,3% | 20,4% | 19,2% | 15,8% | 17,6% | 27,0% | | 23,8% | 27,8% | 28,3% | 33,8% | 34,7% | | 6,0% | 5,6% | 4,6% | 5,2% | 7,9% | +--------+--------+--------+--------+--------+ 3 | 152 | 123 | 86 | 55 | 71 | 487 teils/teils | 122,4 | 98,9 | 79,8 | 74,5 | 111,3 | 23,3% | 31,2% | 25,3% | 17,7% | 11,3% | 14,6% | | 28,9% | 28,9% | 25,1% | 17,2% | 14,9% | | 7,3% | 5,9% | 4,1% | 2,6% | 3,4% | +--------+--------+--------+--------+--------+ 4 | 91 | 46 | 35 | 24 | 16 | 212 lehne eher ab | 53,3 | 43,1 | 34,8 | 32,4 | 48,4 | 10,1% | 42,9% | 21,7% | 16,5% | 11,3% | 7,5% | | 17,3% | 10,8% | 10,2% | 7,5% | 3,3% | | 4,3% | 2,2% | 1,7% | 1,1% | ,8% | +--------+--------+--------+--------+--------+ 5 | 62 | 43 | 16 | 6 | 17 | 144 lehne sehr ab | 36,2 | 29,3 | 23,6 | 22,0 | 32,9 | 6,9% | 43,1% | 29,9% | 11,1% | 4,2% | 11,8% | | 11,8% | 10,1% | 4,7% | 1,9% | 3,6% | | 3,0% | 2,1% | ,8% | ,3% | ,8% | +--------+--------+--------+--------+--------+ Column 526 425 343 320 478 2092 Total 25,1% 20,3% 16,4% 15,3% 22,8% 100,0% 94 Chi-Square -------------------- Value ----------- DF ---- Significance ------------ Pearson 214,49197 16 ,00000 Minimum Expected Frequency - 22,027 Statistic -------------------Phi Cramer's V Value --------- ASE1 -------- Val/ASE0 -------- ,32020 ,16010 Approximate Significance -----------,00000 ,00000 Kendall's Tau-b Kendall's Tau-c Gamma -,24786 -,23934 -,31890 ,01659 ,01608 ,02103 -14,8882 -14,8882 -14,8882 ,00000 ,00000 ,00000 Pearson's R Spearman Correlation -,30172 -,30245 ,01981 ,02007 -14,4680 -14,5062 ,00000 ,00000 Jacob, Datenanalyse 95 v10_7 Risikogruppen sind Schuld by ALTK Altersklassen ALTK Col Pct | |18-30 30-40 40-50 50-60 ü. 60 | Row | 1,00| 2,00| 3,00| 4,00| 5,00| Total V10_7 --------+--------+--------+--------+--------+--------+ 1 | 18,3 | 22,4 | 31,8 | 39,7 | 43,5 | 635 stimme sehr zu | | | | | | 30,4 +--------+--------+--------+--------+--------+ 2 | 23,8 | 27,8 | 28,3 | 33,8 | 34,7 | 614 stimme eher zu | | | | | | 29,3 +--------+--------+--------+--------+--------+ 3 | 28,9 | 28,9 | 25,1 | 17,2 | 14,9 | 487 teils/teils | | | | | | 23,3 +--------+--------+--------+--------+--------+ 4 | 17,3 | 10,8 | 10,2 | 7,5 | 3,3 | 212 lehne eher ab | | | | | | 10,1 +--------+--------+--------+--------+--------+ 5 | 11,8 | 10,1 | 4,7 | 1,9 | 3,6 | 144 lehne sehr ab | | | | | | 6,9 +--------+--------+--------+--------+--------+ Column 526 425 343 320 478 2092 Total 25,1 20,3 16,4 15,3 22,8 100,0 Statistic -------------------Phi Cramer's V Value --------- ASE1 -------- Val/ASE0 -------- ,32020 ,16010 Approximate Significance -----------,00000 ,00000 Kendall's Tau-b Kendall's Tau-c Gamma -,24786 -,23934 -,31890 ,01659 ,01608 ,02103 -14,8882 -14,8882 -14,8882 ,00000 ,00000 ,00000 Pearson's R Spearman Correlation -,30172 -,30245 ,01981 ,02007 -14,4680 -14,5062 ,00000 ,00000 96 V10_7 Risikogruppen sind Schuld by ALTK Altersklassen ALTK Col Pct | |18-30 30-40 40-50 50-60 ü. 60 | Row | 1,00| 2,00| 3,00| 4,00| 5,00| Total V10_7 --------+--------+--------+--------+--------+--------+ 1 | 42,0 | 50,1 | 60,1 | 73,4 | 78,2 | 1249 stimme sehr zu | | | | | | 59,7 +--------+--------+--------+--------+--------+ 2 | 28,9 | 28,9 | 25,1 | 17,2 | 14,9 | 487 stimme eher zu | | | | | | 23,3 +--------+--------+--------+--------+--------+ 3 | 29,1 | 20,9 | 14,9 | 9,4 | 6,9 | 356 teils/teils | | | | | | 17,0 +--------+--------+--------+--------+--------+ Column 526 425 343 320 478 2092 Total 25,1 20,3 16,4 15,3 22,8 100,0 Statistic -------------------Phi Cramer's V Value --------- ASE1 -------- Val/ASE0 -------- ,30484 ,21555 Approximate Significance -----------,00000 ,00000 Kendall's Tau-b Kendall's Tau-c Gamma -,25803 -,25802 -,38250 ,01741 ,01764 ,02506 -14,6245 -14,6245 -14,6245 ,00000 ,00000 ,00000 Pearson's R Spearman Correlation -,29590 -,29926 ,01976 ,02010 -14,1617 -14,3381 ,00000 ,00000 Jacob, Datenanalyse 97 Drittfaktorenkontrolle: Ist die Konfessionszugehörigkeit die entscheidende erklärende Variable? 98 Drittfaktorenkontrolle Bivariate Korrelation, signifikanter Zusammenhang Einführung eines Drittfaktors t: (=potentielle weitere verursachende Variable), Berechnung von Teiltabellen, die den ursprünglichen bivariaten Zusammenhang für jeweils eine Merkmalsausprägung des Drittfaktors ausweisen. Jacob, Datenanalyse 99 Formen: Scheinkorrelation: ursprüngliche Beziehung besteht nur scheinbar und ist ein statistisches Artefakt Intervention: Kausalkette Multikausalität: Drittfaktor ist eine weitere unabhängige Variable Bestätigung: Drittfaktor hat keinen nachweisbaren Effekt und bestätigt damit die ursprüngliche Beziehung Jacob, Datenanalyse 100 Jacob, Datenanalyse 101 Jacob, Datenanalyse 102 Statistischer Nachweis Scheinkorrelation und Intervention: Nach Einführung der Drittvariablen sind die bedingten Korrelationen gleich oder nahe Null und der Zusammenhang nicht mehr signifikant. Unterscheidung aufgrund theoretischer Überlegungen. Multikausalität: Die beiden unabhängigen Variablen sind statistisch unabhängig. Zumindest eine der bedingten Korrelationen ist größer als die ursprüngliche Korrelationen. Bestätigung: Alle bedingten Korrelationen sind größer als Null, keine ist größer als die ursprüngliche Korrelation bzw. alle bedingten Korrelationen sind gleich groß. Jacob, Datenanalyse 103 AIDS ist die Geißel der Menschheit und die Strafe für ein unmoralisches, zügelloses Leben stimme sehr zu stimme eher zu teils-teils lehne eher ab lehne sehr ab N 10,6% 18,0% 22,6% 21,9% 26,9% 2113 28,6% 48,8% Quelle: ZUMA-Sozialwissenschaften-BUS 2/1990 Jacob, Datenanalyse 104 V10_2 AIDS Geißel der Menschheit by FROMM Verbundenheit mit Kirche FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 37,0 | 27,4 | 23,1 | 572 stimme zu | | | | 29,9 +--------+--------+--------+ 3 | 25,7 | 23,0 | 19,9 | 447 teils-teils | | | | 23,4 +--------+--------+--------+ 4 | 37,2 | 49,6 | 57,0 | 891 lehne ab | | | | 46,6 +--------+--------+--------+ Column 637 966 307 1910 Total 33,4 50,6 16,1 100,0 Chi-Square Value DF --------------------------------Pearson 41,75838 4 Gamma ,20966 Jacob, Datenanalyse Significance -----------,00000 105 FROMM Verbundenheit mit Kirche by ALTK Altersklassen ALTK Col Pct | |18-30 30-40 40-50 50-60 ü. 60 | Row | 1,00| 2,00| 3,00| 4,00| 5,00| Total FROMM --------+--------+--------+--------+--------+--------+ 1,00 | 14,8 | 21,4 | 32,2 | 38,4 | 57,0 | 628 stark | | | | | | 33,0 +--------+--------+--------+--------+--------+ 2,00 | 53,9 | 58,4 | 53,2 | 54,4 | 38,0 | 968 weniger stark | | | | | | 50,9 +--------+--------+--------+--------+--------+ 3,00 | 31,3 | 20,1 | 14,6 | 7,2 | 5,0 | 306 gar nicht | | | | | | 16,1 +--------+--------+--------+--------+--------+ Column 447 373 314 305 463 1902 Total 23,5 19,6 16,5 16,0 24,3 100,0 Chi-Square -------------------Pearson Gamma Value ----------- DF ---- Significance ------------ 283,99247 -,45725 8 ,00000 Jacob, Datenanalyse 106 Drittfaktor Alter: Scheinkorrelation oder Intervention? V10_2 AIDS Geißel der Menschheit Controlling for.. ALTK Altersklassen Value = 1,00 by FROMM Verbundenheit mit Kirche 18-30 FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 18,2 | 15,8 | 17,1 | 74 stimme zu | | | | 16,6 +--------+--------+--------+ 3 | 22,7 | 17,8 | 15,7 | 80 teils-teils | | | | 17,9 +--------+--------+--------+ 4 | 59,1 | 66,4 | 67,1 | 293 lehne ab | | | | 65,5 +--------+--------+--------+ Column 66 241 140 447 Total 14,8 53,9 31,3 100,0 Chi-Square Value DF --------------------------------Pearson 1,95869 4 Gamma ,05971 Jacob, Datenanalyse Significance -----------,74336 107 V10_2 AIDS Geißel der Menschheit Controlling for.. ALTK Altersklassen Value = 2,00 by FROMM Verbundenheit mit Kirche 30-40 FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 26,3 | 21,2 | 21,3 | 83 stimme zu | | | | 22,3 +--------+--------+--------+ 3 | 25,0 | 19,8 | 22,7 | 80 teils-teils | | | | 21,5 +--------+--------+--------+ 4 | 48,8 | 59,0 | 56,0 | 209 lehne ab | | | | 56,2 +--------+--------+--------+ Column 80 217 75 372 Total 21,5 58,3 20,2 100,0 Chi-Square Value DF --------------------------------Pearson 2,58898 4 Gamma ,07777 Jacob, Datenanalyse Significance -----------,62878 108 V10_2 AIDS Geißel der Menschheit Controlling for.. ALTK Altersklassen Value = 3,00 by FROMM Verbundenheit mit Kirche 40-50 FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 26,7 | 28,1 | 34,8 | 90 stimme zu | | | | 28,7 +--------+--------+--------+ 3 | 25,7 | 26,9 | 17,4 | 79 teils-teils | | | | 25,2 +--------+--------+--------+ 4 | 47,5 | 44,9 | 47,8 | 145 lehne ab | | | | 46,2 +--------+--------+--------+ Column 101 167 46 314 Total 32,2 53,2 14,6 100,0 Chi-Square Value DF --------------------------------Pearson 2,20173 4 Gamma -,04033 Jacob, Datenanalyse Significance -----------,69871 109 V10_2 AIDS Geißel der Menschheit Controlling for.. ALTK Altersklassen Value = 4,00 by FROMM Verbundenheit mit Kirche 50-60 FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 43,6 | 36,0 | 27,3 | 116 stimme zu | | | | 38,3 +--------+--------+--------+ 3 | 23,1 | 30,5 | 27,3 | 83 teils-teils | | | | 27,4 +--------+--------+--------+ 4 | 33,3 | 33,5 | 45,5 | 104 lehne ab | | | | 34,3 +--------+--------+--------+ Column 117 164 22 303 Total 38,6 54,1 7,3 100,0 Chi-Square -------------------Pearson Gamma Value ----------4,01172 ,11521 Jacob, Datenanalyse DF ---4 Significance -----------,40442 110 V10_2 AIDS Geißel der Menschheit Controlling for.. ALTK Altersklassen Value = 5,00 by FROMM Verbundenheit mit Kirche ü. 60 FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 46,6 | 42,0 | 39,1 | 206 stimme zu | | | | 44,5 +--------+--------+--------+ 3 | 26,9 | 23,3 | 30,4 | 119 teils-teils | | | | 25,7 +--------+--------+--------+ 4 | 26,5 | 34,7 | 30,4 | 138 lehne ab | | | | 29,8 +--------+--------+--------+ Column 264 176 23 463 Total 57,0 38,0 5,0 100,0 Chi-Square Value DF --------------------------------Pearson 3,74277 4 Gamma ,10891 Jacob, Datenanalyse Significance -----------,44194 111 Drittfaktor Geschlecht: Bestätigung V10_2 AIDS Geißel der Menschheit Controlling for.. S1 Geschlecht Value = 0 Männer by FROMM Verbundenheit mit Kirche FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 34,5 | 28,7 | 21,8 | 250 stimme zu | | | | 28,8 +--------+--------+--------+ 3 | 25,2 | 21,2 | 21,8 | 194 teils-teils | | | | 22,4 +--------+--------+--------+ 4 | 40,3 | 50,1 | 56,5 | 423 lehne ab | | | | 48,8 +--------+--------+--------+ Column 226 471 170 867 Total 26,1 54,3 19,6 100,0 Chi-Square -------------------Pearson Gamma Value ----------12,18972 ,16866 DF ---4 Jacob, Datenanalyse Significance -----------,01599 112 V10_2 AIDS Geißel der Menschheit Controlling for.. S1 Geschlecht Value = 1 Frauen by FROMM Verbundenheit mit Kirche FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 38,4 | 26,3 | 24,8 | 322 stimme zu | | | | 30,9 +--------+--------+--------+ 3 | 26,0 | 24,6 | 17,5 | 253 teils-teils | | | | 24,3 +--------+--------+--------+ 4 | 35,5 | 49,1 | 57,7 | 468 lehne ab | | | | 44,9 +--------+--------+--------+ Column 411 495 137 1043 Total 39,4 47,5 13,1 100,0 Chi-Square -------------------Pearson Gamma Value ----------30,76019 ,23709 DF ---4 Jacob, Datenanalyse Significance -----------,00000 113 V10_2 AIDS Geißel der Menschheit by S1 Geschlecht S1 Col Pct | |Männer Frauen | Row | 0 | 1 | Total V10_2 --------+--------+--------+ 2 | 27,2 | 29,8 | 604 stimme zu | | | 28,6 +--------+--------+ 3 | 21,6 | 23,5 | 478 teils-teils | | | 22,6 +--------+--------+ 4 | 51,2 | 46,7 | 1031 lehne ab | | | 48,8 +--------+--------+ Column 991 1122 2113 Total 46,9 53,1 100,0 Chi-Square -------------------Pearson Gamma Value ----------4,18636 -,07114 DF ---2 Jacob, Datenanalyse Significance -----------,12329 114 Multikausalität V10_7 Risikogruppen sind Schuld by K3 Pol. Gemeindegröße K3 Page 1 of 1 Col Pct | | - u 5 5T - u 2 20T - u 50T - u 100T - ü | 0T 50T 100T 500T Row | 2 | 3 | 4 | 5 | 6 | Total V10_7 --------+--------+--------+--------+--------+--------+ 2 | 74,1 | 68,2 | 64,2 | 62,7 | 46,6 | 1256 stimme zu | | | | | | 59,6 +--------+--------+--------+--------+--------+ 3 | 14,7 | 20,2 | 22,3 | 20,1 | 29,5 | 491 teils/teils | | | | | | 23,3 +--------+--------+--------+--------+--------+ 4 | 11,2 | 11,5 | 13,5 | 17,2 | 23,9 | 359 lehne ab | | | | | | 17,0 +--------+--------+--------+--------+--------+ Column 286 485 327 209 799 2106 Total 13,6 23,0 15,5 9,9 37,9 100,0 Chi-Square -------------------Pearson Gamma Value ----------- DF ---- Significance ------------ 104,85719 ,28868 8 ,00000 Jacob, Datenanalyse 115 V10_7 Risikogruppen sind Schuld by K3 Controlling for.. ALTK Altersklassen Value = 1,00 18-30 Pol. Gemeindegröße K3 Page 1 of 1 Col Pct | |2T - u 5 5T - u 2 20T - u 50T - u 100T - u |T 0T 50T 100T 500T Row | 2 | 3 | 4 | 5 | 6 | Total V10_7 --------+--------+--------+--------+--------+--------+ 2 | 66,1 | 58,2 | 40,5 | 44,6 | 28,3 | 221 stimme zu | | | | | | 42,0 +--------+--------+--------+--------+--------+ 3 | 23,2 | 20,0 | 33,8 | 23,2 | 34,3 | 152 teils/teils | | | | | | 28,9 +--------+--------+--------+--------+--------+ 4 | 10,7 | 21,8 | 25,7 | 32,1 | 37,4 | 153 lehne ab | | | | | | 29,1 +--------+--------+--------+--------+--------+ Column 56 110 74 56 230 526 Total 10,6 20,9 14,1 10,6 43,7 100,0 Chi-Square -------------------Pearson Gamma Value ----------46,70910 ,34015 Jacob, Datenanalyse DF ---8 Significance -----------,00000 116 V10_7 Risikogruppen sind Schuld by K3 Controlling for.. ALTK Altersklassen Value = 2,00 30-40 Pol. Gemeindegröße K3 Page 1 of 1 Col Pct | |2T - u 5 5T - u 2 20T - u 50T - u 100T - u |T 0T 50T 100T 500T Row | 2 | 3 | 4 | 5 | 6 | Total V10_7 --------+--------+--------+--------+--------+--------+ 2 | 64,4 | 54,7 | 54,4 | 62,5 | 37,4 | 213 stimme zu | | | | | | 50,1 +--------+--------+--------+--------+--------+ 3 | 18,6 | 31,6 | 27,9 | 17,5 | 34,4 | 123 teils/teils | | | | | | 28,9 +--------+--------+--------+--------+--------+ 4 | 16,9 | 13,7 | 17,6 | 20,0 | 28,2 | 89 lehne ab | | | | | | 20,9 +--------+--------+--------+--------+--------+ Column 59 95 68 40 163 425 Total 13,9 22,4 16,0 9,4 38,4 100,0 Chi-Square -------------------Pearson Gamma Value ----------- DF ---- Significance ------------ 22,72916 ,24056 8 ,00373 Jacob, Datenanalyse 117 V10_7 Risikogruppen sind Schuld by K3 Controlling for.. ALTK Altersklassen Value = 3,00 40-50 Pol. Gemeindegröße K3 Page 1 of 1 Col Pct | |2T - u 5 5T - u 2 20T - u 50T - u 100T - u |T 0T 50T 100T 500T Row | 2 | 3 | 4 | 5 | 6 | Total V10_7 --------+--------+--------+--------+--------+--------+ 2 | 66,0 | 64,5 | 73,3 | 58,3 | 50,0 | 206 stimme zu | | | | | | 60,1 +--------+--------+--------+--------+--------+ 3 | 17,0 | 24,7 | 20,0 | 27,8 | 29,5 | 86 teils/teils | | | | | | 25,1 +--------+--------+--------+--------+--------+ 4 | 17,0 | 10,8 | 6,7 | 13,9 | 20,5 | 51 lehne ab | | | | | | 14,9 +--------+--------+--------+--------+--------+ Column 47 93 45 36 122 343 Total 13,7 27,1 13,1 10,5 35,6 100,0 Chi-Square -------------------Pearson Minimum Expected Frequency Gamma Value ----------- DF ---- Significance ------------ 12,57686 5,353 8 ,12726 ,18245 Jacob, Datenanalyse 118 V10_7 Risikogruppen sind Schuld by K3 Controlling for.. ALTK Altersklassen Value = 4,00 50-60 Pol. Gemeindegröße K3 Page 1 of 1 Col Pct | |2T - u 5 5T - u 2 20T - u 50T - u 100T - u |T 0T 50T 100T 500T Row | 2 | 3 | 4 | 5 | 6 | Total V10_7 --------+--------+--------+--------+--------+--------+ 2 | 82,7 | 83,3 | 73,2 | 66,7 | 63,4 | 235 stimme zu | | | | | | 73,4 +--------+--------+--------+--------+--------+ 3 | 5,8 | 9,7 | 18,3 | 25,0 | 25,7 | 55 teils/teils | | | | | | 17,2 +--------+--------+--------+--------+--------+ 4 | 11,5 | 6,9 | 8,5 | 8,3 | 10,9 | 30 lehne ab | | | | | | 9,4 +--------+--------+--------+--------+--------+ Column 52 72 71 24 101 320 Total 16,3 22,5 22,2 7,5 31,6 100,0 Chi-Square -------------------- Value ----------- Pearson 15,64945 Minimum Expected Frequency 2,250 Cells with Expected Frequency < 5 3 of Gamma DF ---- Significance ------------ 8 ,04768 15 ( 20,0%) ,26227 Jacob, Datenanalyse 119 V10_7 Risikogruppen sind Schuld by K3 Controlling for.. ALTK Altersklassen Value = 5,00 ü. 60 Pol. Gemeindegröße K3 Page 1 of 1 Col Pct | |2T - u 5 5T - u 2 20T - u 50T - u 100T - u |T 0T 50T 100T 500T Row | 2 | 3 | 4 | 5 | 6 | Total V10_7 --------+--------+--------+--------+--------+--------+ 2 | 87,1 | 83,2 | 83,6 | 82,7 | 68,2 | 374 stimme zu | | | | | | 78,2 +--------+--------+--------+--------+--------+ 3 | 10,0 | 13,3 | 10,4 | 11,5 | 20,5 | 71 teils/teils | | | | | | 14,9 +--------+--------+--------+--------+--------+ 4 | 2,9 | 3,5 | 6,0 | 5,8 | 11,4 | 33 lehne ab | | | | | | 6,9 +--------+--------+--------+--------+--------+ Column 70 113 67 52 176 478 Total 14,6 23,6 14,0 10,9 36,8 100,0 Chi-Square -------------------Pearson Value ----------- DF ---- Significance ------------ 18,75636 8 ,01622 Minimum Expected Frequency 3,590 Cells with Expected Frequency < 5 Gamma 3 of 15 ( 20,0%) ,31110 Jacob, Datenanalyse 120