Rating-Skalen "Auf sehr unterschiedliche Art und Weise kann der Antworttypus , d.h. die Art der verlangten sprachlichen Reaktion gestaltet sein. Hier kommen fast alle aus der Psychophysik, der Wissenschaft von den Beziehungen zwischen objektiv gegebenen Stimuli und subjektiv erfolgenden Reaktionen her bekannten Formen des Urteilens in Frage. In einfachster und weitaus am häufigsten angewendeter Weise wird auf eine Frage oder Feststellung lediglich ein zweistufiges kategoriales Urteil verlangt: 'Ja' ('Stimmt', 'Stimme zu' etc.) 'Nein' ('Stimmt nicht', 'Lehne ab' etc.) Rating-Skalen (2) Die Zahl der Antwortkategorien kann erweitert werden, z.B. im Minimalfalle um eine dritte Antwortkategorie: 'Ja' -- 'Neutral' -- 'Nein‚ '+' -- '0' -- '-' Rating-Skalen (3) Es kommen ferner alle denkbaren Arten von Mehrfachwahlantworten in Frage, so dass die Beantwortung der Fragebogen-Items in Form eines Rating , also auf einer Schätzskala erfolgt; dabei kann es sich um eine rein numerische Rating-Skala, eine graphische Rating-Skala, eine verbal verankerte (d.h., an bestimmten Punkten der Skala mit Worten beschriftete) oder aber nicht verankerte Rating-Skala oder um irgendwelche Kombinationen solcher Antwortformen handeln, z.B. aus: H.D. Mummendey: Die Fragebogen-Methode. Göttingen 1987: 55, Herv. im Original) Rating-Skalen (4) Wichtig ist, dass die Antwortdimension zur Frage passt: Häufigkeit: nie – selten – manchmal – oft – immer Intensität: nicht – wenig – mittelmäßig – ziemlich – sehr Diese Antworten können als gleichabständig gelten (Rohrmann, 1978) und als daher intervallskaliert behandelt werden. Bei subjektiven Einschätzungen sind 5 bis 7-stufige Ratingskalen empfehlenswert Wichtig: Sollen mehrere Items zu einer Gesamtskala zusammengefasst werden, müssen alle dasselbe Antwortformat haben. Umwelt-Items Datenaufbereitung • Variablenbenennung (z.B. gro für Geschlechtsrollenorientierung) • Codierung und Wertebenennung (z.B. 1=SPD, 2=CDU) • Umgang mit fehlenden Werten: Weglassen oder Zahl eintippen (999) und als fehlend definieren; diese Werte dürfen nicht als echte Werte vorkommen können • Eintrag in die Datenmatrix Datenmatrix Als Beispiel verwenden wir die Einkommensangaben Nettoeinkommen der Befragten (Rohdaten bzw. Urliste) aus der Datenmatrix von Diekmann (1995). Fall-Nr./V1 Schulbildung/V2 Beruf/V3 Einkommen/V4 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 2 1 4 2 2 3 4 3 2 2 2 3 4 3 2 Werkzeugmacher Verkäufer Studienrätin Kraftfahrer Friseur Programmiererin Allgemeinmediziner Journalistin Sachbearbeiter Installateur Krankenpfleger Steuerberaterin Bankkaufmann Verkäuferin Krankengymnastin 3500 2400 5200 3200 2300 4500 12000 6500 99999 99999 2300 99999 4600 1600 2900 Weiteres Vorgehen • Items zu Gesamtskalen zusammenfassen: • gegensinnige Items umpolen, z.B. (1=5) (2=4) (3=3) (4=2) (5=1) • Gesamtskala als Summe oder Mittelwert berechnen, Mittelwert hat 2 Vorteile: Einheit wird beibehalten, fehlende Werte werden berücksichtigt • Itemanalyse, d.h. Überprüfung der inneren Konsistenz (Reliabilität) Itemanalyse R E L I A B I L I T Y 1. 2. 3. 4. STA1 STA2 STA3 STA4 A N A L Y S I S Mean ,3699 ,3179 ,9653 ,6012 - S C A L E Std Dev ,4842 ,4670 ,1835 ,4911 (STA) Cases 173,0 173,0 173,0 173,0 Itemanalyse **** Method 1 (space saver) will be used for this analysis ****** R E L I A B I L I T Y A N A L Y S I S - S C A L E (S T A) Item-total Statistics STA1 STA2 STA3 STA4 Scale Mean if Item Deleted Scale Variance if Item Deleted 1,8844 1,9364 1,2890 1,6532 ,7191 ,5831 1,0090 ,5651 Corrected ItemTotal Correlation Alpha if Item Deleted ,1472 ,3831 ,0862 ,3633 ,4718 ,1900 ,4687 ,2093 Reliability Coefficients N of Cases = Alpha = ,4307 173,0 N of Items = 4 Univariate Häufigkeitsverteilung Ausgangsdaten In welcher Form liegen die erhobenen Informationen vor? -Rohdaten (Urliste) -Sortierte Daten (Primärliste) -gruppierte Daten -klassifizierte Daten Univariate Häufigkeitsverteilung Berufliche Stellung des Vaters (Rohdaten bzw. Urliste) Als Beispiel dient die Angabe über die berufliche Stellung des Vaters in der Befragung von Benninghaus (1987) . Da es sich um viele Fälle (n=60), aber nur eine Variable handelt, werden die Rohdaten der Einfachheit halber nicht in Form einer Matrix, sondern in Form einer Liste der einzelnen Variablenausprägungen angegeben. Urliste 2, 1, 2, 1, 4, 1, 1, 3, 1, 5, 4, 2, 5, 1, 2, 1, 3, 1, 3, 1, 3, 5, 4, 5, 4, 2, 1, 2, 3, 1, 1, 2, 2, 2, 2, 1, 3, 4, 2, 1, 2, 2, 1, 1, 1, 3, 1, 3, 3, 2, 1, 1, 1, 2, 1, 2, 3, 3, 3, 3 In sortierter Form (Primärliste): 1111111111111111111111222222222222222233 33333333333444445555 Univariate Häufigkeitsverteilung, gruppierte Daten Univariate Häufigkeitsverteilung; klassifizierte Daten • Wenn (kontinuierliche) Variablen viele Ausprägungen haben, sind Häufigkeitsverteilungen unübersichtlich. Die Variablenausprägungen werden dann in Gruppen aufgeteilt (z.B. Alter 10-20 Jahre, 2030 Jahre, 30-40 Jahre usw.) • Dazu wird eine neue Variable gebildet, die dann in einer Häufigkeitsverteilung dargestellt werden kann. • Die Klassen dürfen sich nicht überschneiden: Alter 10 - unter 20, 20 – unter 30 usw. Klassifizierung von Variablen • möglichst Klassen gleicher Breite • nicht mehr als 20 Klassen • die Klassen sollten so breit sein, dass keine leeren Klassen (Lücken) auftreten • Wichtige Begriffe: Klassenbreite, Klassenmitte, exakte Grenzen Univariate Verteilung einer kontinuierlichen Variablen (2) Ergebnisse einer Auszählung per Hand Da es sich um eine kontinuierliche Variable (mit vielen unterschiedlichen Ausprägungen) handelt, führt eine Häufigkeitsverteilung der einzelnen Ausprägungen zu keiner Übersicht. Man sollte die Variable vorher klassifizieren. Dann ergibt sich folgende Verteilung. Personen ohne Einkommensangaben (missing values) werden getrennt aufgeführt. Einkommensklasse Klassenmitte von ... bis unter ... DM l xl absolute und relative Häufigkeiten fl pl 0 - 2000 1000 1 0,083 2000 - 4000 3000 6 0,500 4000 - 6000 5000 3 0,250 6000 - 8000 7000 1 0,083 > 8000 (9000) 1 0,083 12 0,999 Für drei befragte Personen liegen keine Einkommensangaben vor. Bestandteile von Tabellen Überschrift: Sachliche, räumliche und zeitliche Bezeichnung des Tabelleninhalts Überschrift für Vorspalte Tabellenkopf: Überschriften der einzelnen Tabellenspalten mit Angabe der jeweiligen Maßeinheit Vorspalte: Bezeichnungen der einzelnen Tabellenzeilen Anmerkungen: Anmerkungen zu einzelnen Einträgen in der Tabelle. Quelle: Datenbasis: Quellenangabe, wenn Tabelle insgesamt oder die in der Tabelle dargestellten Zahlen von anderer Stelle übernommen wurden. Bezeichnung der Datenquelle, mit Hilfe derer die Zahlen in der Tabelle generiert wurden. Abkürzungen • • • • • • X Y Z Variablen xi Werte einer Variablen fi Häufigkeit pi relative Häufigkeiten (Prozente) fci kumulierte Häufigkeit N Anzahl der Untersuchungseinheiten Häufigkeitsverteilung der Variablen Schulbildung Ausprägung xk absolute und relative kumulierte absolute und Häufigkeiten relative Häufigkeiten fk pk 100pk cfk cpk 100cpk kein Abschluß 1 1 0,07 7 1 0,07 7 Volks-, Hauptschule 2 7 0,47 47 8 0,53 53 Realschule, Mittlere Reife 3 4 0,27 27 12 0,80 80 Abitur, Hochschulreife 4 3 0,20 20 15 1,0 100 15 1,01 101 Insgesamt Quelle: Diekmann (1995: 556) Einkommensverteilung (klassifizierte Daten) Einkommensklasse von ... bis unter ... l Klassenmitte xl fl pl cfl cpl 0 - 2000 DM 1000 DM 1 0,083 1 0,083 2000 DM - 4000 DM 3000 DM 6 0,500 7 0,583 4000 DM - 6000 DM 5000 DM 3 0,250 10 0,833 6000 DM - 8000 DM 7000 DM 1 0,083 11 0,916 8000 DM und mehr (9000 DM) 1 0,083 12 0,999 12 0,999 Quelle: Diekmann (1995: 559) absolute und relative Häufigkeiten kumulierte absolute und relative Häufigkeiten Graphische Darstellung diskreter Variablen; Säulendiagramm Kreisdiagramm Bestandteile von Graphiken -Überschrift: Sachliche, räumliche und zeitliche Bezeichnung des dargestellten Sachverhalts. - Achsenbeschriftung: Bezeichnung des auf der Achse abgetragenen Merkmals (inkl. Maßeinheit). - Achsenskalierung: Beschriftung der auf der Achse abgetragenen Werte. - Legende: Bezeichnung der Datenreihen, falls mehrere in einer Graphik dargestellt werden. - Anmerkungen: Anmerkungen zu Einzelheiten in der Graphik. -Quelle: Quellenangabe, wenn Graphik insgesamt oder die in der Graphik dargestellten Zahlen von anderer Stelle übernommen wurden. - Datenbasis: Bezeichnung der Datenquelle, mit Hilfe derer die Zahlen in der Graphik generiert wurden. Univariate Verteilung einer kontinuierlichen Variablen Statistische Graphik: Histogramm Ein Histogramm sieht aus wie ein Säulendiagramm. Da es sich um eine kontinuierliche Variable handelt, ist jedoch der gesamte Wertebereich der x-Achse relevant (und nicht nur einzelne, diskrete Ausprägungen). Dementsprechend gibt es keine Zwischenräume zwischen den "Säulen", sie stoßen direkt aneinander an. Darüber hinaus ist auch noch zu berücksichtigen, dass ein Histogramm eine flächenproportionale Darstellung ist (und keine höhenproportionale wie beim Säulendiagramm). Univariate Verteilung einer kontinuierlichen Variablen Klassifizierte Variable Lebensalter (Version I) Atersklasse in Jahren exakte Grenzen von ... bis unter ... Klassenmitte in Jahren Häufigkeit kumulierte Häufigkeit 21-25 20,5-25,5 23 5 5 26-30 25,5-30,5 28 7 12 31-35 30,5-35,5 33 8 20 36-40 35,5-40,5 38 9 29 41-45 40,5-45,5 43 9 38 46-50 45,5-50,5 48 6 44 51-55 50,5-55,5 53 9 53 56-60 55,5-60,5 58 5 58 61-65 60,5-65,5 63 2 60 Klassifizierte Variable Lebensalter (Version I) Klassifizierte Variable Lebensalter (Version 2) Altersklasse in Jahren exakte Grenzen von ... bis unter ... 18-22 17,5-22,5 20 2 2 23-27 22,5-27,5 25 5 7 28-32 27,5-32,5 30 11 18 33-37 32,5-37,5 35 5 23 38-42 37,5-42,5 40 10 33 43-47 42,5-47,5 45 8 41 48-52 47,5-52,5 50 8 49 53-57 52,5-57,5 55 4 53 58-62 57,5-62,5 60 6 59 63-67 62,5-67,5 65 1 60 Klassenmitte Häufigkeit in Jahren kumulierte Häufigkeit Klassifizierte Variable Lebensalter (Version 2) Histogramm mit Polygonzug Klassifizierte Variable mit unterschiedlichen Klassenbreiten (1) Einkommensklasse von ... bis unter ... DM Klassenmitte in DM Prozentualer Anteil Klassenbreite in DM Proz. Anteil pro 100 DM Klasse unter 1000 500,00 6,4 1000 0,64 1000-1800 1400,00 15,6 800 1,95 1800-2500 2150,00 19,1 700 2,73 2500-3000 2750,00 11,0 500 2,20 3000-4000 3500,00 18,3 1000 1,83 4000-5000 4500,00 12,6 1000 1,26 5000-6000 5500,00 7,2 1000 0,72 6000-7500 6750,00 5,3 1500 0,35 7500 und mehr 9500,00 4,6 4000 angenommen 0,12 Monatliche Haushalts-Nettoeinkommen in DM (Mai 1992, früheres Bundesgebiet) Quelle: Datenreport (1994: 104). Klassifizierte Variable mit unterschiedlichen Klassenbreiten (2) Klassifizierte Variable mit unterschiedlichen Klassenbreiten (3) Die vorherige Abbildung suggeriert, dass in der vierten Einkommensklasse (2500-3000 DM, Klassenmitte 2750 DM) -verglichen mit den angrenzenden Einkommensklassen -- eher wenige Haushalte vertreten sind. Das hat jedoch damit zu tun, dass diese Einkommensklasse nur ein Einkommensintervall von 500 DM umfasst. Beträgt das Einkommensintervall 1000 DM, wie in der fünften Einkommensklasse, dann werden dadurch natürlich sehr viel mehr Haushalte erfasst. Das folgende Histogramm kontrolliert dagegen die Breite der Einkommensklassen. Jetzt zeigt sich nicht mehr der "Einbruch" in der vierten Einkommensklasse. Klassifizierte Variable mit unterschiedlichen Klassenbreiten (4) Ein solches (flächenproportionales) Histogramm erzeugt man, indem man die unterschiedlich breiten Klassen in kleinere Klassen gleicher Breite unterteilt. In dem obigen Beispiel wurden Klassen der Breite 100 DM gewählt. Die (absoluten oder relativen) Häufigkeiten der ursprünglichen Klassen sind entsprechend auf die kleineren Klassen aufzuteilen. Dies geschieht in dem Beispiel durch Division mit der Anzahl der 100 DM Klassen, die das ursprüngliche Intervall umfasst. Klassifizierte Variable mit unterschiedlichen Klassenbreiten (5) Klassifizierte Variable mit unterschiedlichen Klassenbreiten (6) An dieser Stelle wird auch deutlich, warum es sich um eine flächenproportionale Darstellung handelt. Die Höhe der "Säulen" entspricht jetzt nicht mehr dem dargestellten Sachverhalt: dem prozentualen Anteil der entsprechenden Einkommensklasse. Betrachten wir dazu die zweite Einkommensklasse und die zweite "Säule". Der prozentuale Anteil der zweiten Einkommensklasse beträgt 15,6%, die Höhe der zweiten Säule entspricht jedoch nur einem Anteil von knapp unter 2% (exakt 1,95%). Auf den darzustellenden Sachverhalt (Anteilswert von 15,6%) kommt man nur, wenn man bedenkt, dass die zweite "Säule" aus insgesamt 8 "Teilsäulen" á 100 DM zusammengesetzt ist. Das Produkt 8*1,95 ergibt die gesuchte Größe 15,6. Anders ausgedrückt: Das Produkt aus Breite (8) und Höhe (1,95) der "Säule", also ihre Fläche, entspricht dem darzustellenden Sachverhalt. Bivariate Verteilung; Gestapeltes Säulendiagramm Bivariate Verteilung zweier kontinuierlicher Variablen Graphische Darstellungen 1. Variable kategorial Univariate Verteilungen Bivariate Verteilungen 2. Variable kategorial kontinuierlich kontinuierlich Kreisdiagramm Balkendiagramm Säulendiagramm Stabdiagramm Histogramm Polygonzug Stamm-und-BlattDiagramm Box-Plot Vergleich mehrerer Balken- oder Säulendiagramme Vergleich mehrerer Box-Plots - Streudiagramm Manipulieren mit Graphiken • Beispiel: Bei einem Säulendiagramm wird auf der y-Achse nur ein Teil der Skalierung aufgeführt, so dass Unterschiede zwischen den Säulen überbetont werden.