Proseminar Methoden II für das Modul P4 Stefan Jahr Organisatorisches • Teilnahmebedingungen – Bestandene Methoden I – Klausur oder – Stattgegebener Härtefallantrag • Leistungen für den Teilmodulabschluss – max. zweimaliges Fehlen – Klausur am 11.2.2008, HS 146 UHG – Nachklausur 3.3.2008, HS 146 UHG • „alter“ Methoden II – Schein – Zusatzleistung in Statistik I erforderlich Methoden II – Stefan Jahr 2 Kursmaterialien • Folien + Fragebogen + Datensatz + weitere Infos: www.eurelite.uni-jena.de/Methoden2/Methoden • Fragebogen + Datensatz: • Studentenbefragung von Michael Behr • Allgemeine Fragen zur Demographie, Studium, Einstellungen • Panel • n = Studenten aller bisherigen Kurse Methoden II – Stefan Jahr 3 Was ist Statistik? Steigerung: Lüge, gemeine Lüge, Statistik Mit Statistik kann man alles beweisen Nützliche Hilfswissenschaft zur Bewertung von empirischen Zusammenhängen Ich glaube keiner Statistik, die ich nicht selbst gefälscht habe. -- Winston Churchill Die Statistik ist die Erste der ungenauen Wissenschaften. (Edmond de Goncourt, franz. Schriftsteller, 1822-1896) Statistics are like a bikini. What they reveal is suggestive, but what they conceal is vital. Aaron Levenstein Verdichtung von Information ⇒ Traue keiner Statistik, die Du nicht selbst verstanden hast! Methoden II – Stefan Jahr 4 Forderung an empirische Daten 1. Quantifizierbare Daten 2. Exakte Definitionen 3. geeignete Messung/Erhebung Methoden II – Stefan Jahr 5 Vorteile von Statistik • Möglichkeit der Präzisierung • Verallgemeinerbarkeit von Stichprobenergebnissen • Genauigkeit und Sicherheit der Ergebnisse einschätzbar • Modellrechnungen möglich Methoden II – Stefan Jahr 6 Nachteile von Statistik • Keine Aussagen zur inhaltlichen Bedeutsamkeit der durchgeführten Untersuchung • Liefert keine Kriterien für die notwendigen Beobachtungsgrößen • Keine Anhaltspunkte für die Wahl des Erhebungsinstrumentes • Keine inhaltliche Interpretation • Kann sich gegen Voraussetzungsverletzungen nicht wehren Methoden II – Stefan Jahr 7 Ablauf einer statistischen Untersuchung • Codeplanerstellung • Dateneingabe • Formulierung der statistischen Hypothesen • Untersuchung der benötigten Variablen im Datensatz und gegebenenfalls Datenbereinigung und Datentransformation • Allgemeine Voraussetzungsprüfung • Wahl des statistischen Verfahrens • Spezielle Voraussetzungsprüfung • Durchführung des statistischen Verfahrens und Interpretation der Ergebnisse Methoden II – Stefan Jahr 8 Kursablauf 22.10 Organisatorisches, Vorstellung der Themen, Einführung 29.10. Auswertung I: Vom Fragebogen zur Datenmatrix, Codeplan, Datenorganisation, Auswertungsstrategien, Fragebogen zur Erstellung eines Datensatzes für den Kurs 5.11. SPSS I: Programm- und Versionshistorie, Programmmodule, Struktur, Menü, Fenster, Hilfe, Syntaxgrammatik, Programmoptionen 12.11. Auswertung II: Prüfung auf NV, Häufigkeiten, Mittelwerte und Streuungsmaße 19.11. Auswertung III: Indifferenz und Assoziation, PRE-Interpretation Auswertung IV: Kreuztabellenanalyse, Zusammenhangsmaße 26.11. SPSS II: Häufigkeiten, Deskriptive Maßzahlen 3.12. SPSS III: Mittelwerte und Streuungsmaße, Darstellungsformen: Tabellen und Grafiken in SPSS, Word und Excel, Ergebnissexport 10.12. SPSS IV: Datentransformation und –manipulationen, Indexbildung 17.12. SPSS V: Kreuztabellenanalyse 7.1. SPSS VI: Zusammenhangsmaße I 14.1. SPSS VII: Zusammenhangsmaße II 21.1. SPSS VIII: Lineare Regressionsanalyse I 28.1. SPSS IIX: Lineare Regressionsanalyse II 4.2 SPSS IX: Ausblick auf multiple Regressionsanalyse II – Stefan Jahr Abschlussklausur: 10-12 UhrMethoden HS 146 ÚHG 11.2. 9 Vom Fragebogen zum Codeplan 1. 2. 3. Wie sicher fühlen Sie sich in Leipzig? sehr sicher 7 eher sicher eher unsicher sehr unsicher Um das Sicherheitsgefühl der Bürger zu erhöhen, hat Leipzig begonnen, öffentliche Straßen und Plätze durch Videokameras zu überwachen. Ist Ihnen das bekannt? nein ) weiter mit Frage 6 auf dieser Seite ja 7 Wodurch haben Sie das erfahren? (Mehrfachantworten möglich) Fernsehen 7 Illustrierte/Stadtmagazin(e) Radio Familienmitglieder/Freunde Bekannte/Kollegen Tageszeitungen 7 ) welche? LVZ (weiß nicht mehr) andere Infoquelle Methoden II – Stefan Jahr 10 Variablen Variable = Merkmal, Skala, Item, Verteilung Unterscheidung von: • Variable • Ausprägungen • Merkmalsträgern Definition • Eigenschaft eines Begriffes mit mehr als einer Ausprägung (ggs. Konstante) Arten • Quantitativ vs. Qualitativ • Kontinuierlich vs. Diskret • Dichotom vs. Trichotom vs. Polytom Methoden II – Stefan Jahr 11 Nominal Ordinal Intervall Zulässige stat. Verfahren Informationsgehalt Skalentypen - Messniveaus Ratio Methoden II – Stefan Jahr 12 Datenmatrix Stichworte: • Untersuchungseinheit, Case, Merkmalsträger • Variable, Merkmal, Item, Skala, Verteilung • Wert • Rohdatenmatrix Methoden II – Stefan Jahr 13 Datenorganisationsformen (I) • Standardformat Methoden II – Stefan Jahr 14 Datenorganisationsformen (II) • Horizontales Panel Person Jahreseinkommen t1 Jahreseinkommen t2 Stellung im Beruf t1 Stellung im Beruf t2 1 50000,- 60000,- Angestellter Angestellter 2 55000,- 62000,- Angestellter Selbstständig 3 - 40800,- - Angestellter 4 48000,- - Beamter - • Vertikales Panel Person Untersuchungszeitpunkt Jahreseinkommen Stellung im Beruf 1 t1 50000,- Angestellter 1 t2 60000,- Angestellter 2 t1 55000,- Angestellter 2 t2 62000,- Selbstständig 3 t2 40800,- Angestellter 4 t1 48000,- Beamter Methoden II – Stefan Jahr 15 Vom Fragebogen zum Codeplan 1. 2. 3. Wie sicher fühlen Sie sich in Leipzig? v1 sehr sicher 7 (1) eher sicher (2) eher unsicher (3) sehr unsicher (4) Um das Sicherheitsgefühl der Bürger zu erhöhen, hat Leipzig begonnen, öffentliche Straßen und Plätze durch Videokameras zu überwachen. Ist Ihnen das bekannt? v2 nein (0) ) weiter mit Frage 6 auf dieser Seite ja 7 (1) Wodurch haben Sie das erfahren? (Mehrfachantworten möglich) Fernsehen 7 Illustrierte/Stadtmagazin(e) Radio Familienmitglieder/Freunde Bekannte/Kollegen Tageszeitungen 7 ) welche? LVZ (weiß nicht mehr) andere Infoquelle Variablennamen • Restriktionen des Datenverarbeitungsprogramms hinsichtlich: Schreibweise, Sonderzeichen, Namenlänge, zulässige Variablentypen • Logischer Aufbau • Keine Dopplungen • Praktikabilität Variablenausprägungen • Skalenniveaus • Restriktionen des Datenverarbeitungsprogramms hinsichtlich: Schreibweise, Sonderzeichen, Namenlänge • Eindeutige Abbildung Methoden II• –Praktikabilität Stefan Jahr 16 Auswertungsstrategien Univariate Datenanalyse Bivariate Datenanalyse Multivariate Datenanalyse sex Geschlecht Frequency Valid Percent Valid Percent Cumulative Percent 1 männlich 9 64,3 64,3 64,3 2 weiblich 5 35,7 35,7 100,0 14 100,0 100,0 Total Methoden II – Stefan Jahr 17 SPSS – Allgemein • Superior Performing Statistical Software – Alter Name: Statistical Package for the Social Sciences • 1965 von Norman Nie und Dale Bent an der Stanford University entwickelt – – – – 1968 Teamerweiterung mit Hadlai Hull In FORTRAN programmiert Erstes zusammenhängendes Statistikpaket 1981 für IBM-kompatible PC weiterentwickelt (SPSS/PC+) – 1992 für Windows portiert • Aktuelle Version: 15.0 • Modularer Aufbau Methoden II – Stefan Jahr 18 SPSS-Module Modul Beschreibung Base Basissystem enthält Datenmanagementfunktionen, deskrip. Statistiken, Mittelwertvergleiche, lineare Regression, Faktorenanalyse etc. Regression Models Verschiedene Regressionsmodelle (multinominal, logistisch, nicht lineare Modelle) Advanced Models Allgemeine lineare Modelle (GLM), multivariate Varianzanalysen, Loglineare Modelle, Cox-Regression, Survivalanalysen Tables Erzeugung „druckreifer“ Häufigkeitstabellen Classification Trees (ab SPSS 13) Klassifikations- und Entscheidungsbäume erstellen Categories Korrespondenzanalysen, optimale Skalierung, Klassif. nominaler Daten Complex Samples (ab SPSS 12) Komplexe Stichprobendesigns Trends Zeitreihenanalysen und Prognosen Missing Value Analysis Analyse fehlender Werte Maps Darstellung von Daten in geographischen Karten Conjoint Conjoint-Analyse Exact Test Exakte Signifikanztests für kleine Stichproben Amos Lineare Strukturgleichungsmodelle Methoden II – Stefan Jahr 19 SPSS-Vorteile • Umfangreiche Datenmengen bearbeitbar (32768 Variablen und 2,15 Billionen Fälle bis SPSS9.x; ab SPSS10 2,15 Billionen Variablen und Fälle; Excel kann nur 65.536 Datenzeilen und XX Variablen bearbeiten) • Moderate Hardwareanforderungen (z.B. geringerer Speicherverbrauch im vgl. zu TDA) • Gute Symbiose aus menü- und syntaxgeführter Bedienung • Relativ leicht zu erlernen • Im Vergleich recht gute Darstellung der Ergebnisse • Gute Export- und Importfunktionen (ODBC-Quellen [Open Database Connectivity]) • Gute Interaktion mit Office-Programmen • Hoher Verbreitungsgrad (Quasi-Standard) Methoden II – Stefan Jahr 20 SPSS - Nachteile • Recht teuer 12.131 € Neuanschaffung 2690 € Lizenzverlängerung pro Jahr – Studentenversion (1500 Fälle und 50 Variablen): bei http://www.statcon.de für 75.00 € – 30 Tage voll funktionsfähige Demoversion nach Anmeldung: www.spss.com – Statistica: 998,00 € / Stata: 1215,00 € / TDA: kostenlos • • • • Recht rigide Datenorganisation Schlechter Debugger der Syntax Noch teilweise fehlerhafte Prozeduren enthalten Einige (mittlerweile) wichtige Analyseverfahren nicht oder nur halbherzig integriert (Korrespondenzanalyse – SIMCA, Verlaufdatenanalyse – TDA/STATA) Methoden II – Stefan Jahr 21 Gefahren von Statistikpaketen • Programmstruktur beeinflusst Forschungslogik – Forschungsfragen werden auf die Möglichkeiten des Programms zugeschnitten • Unvollständigkeit der Pakete – Man rechnet nicht mit dem optimalen, sondern mit dem vorhanden Verfahren • Leichtigkeit der Anwendung – Verfahren werden oft explorativ genutzt, ohne genaue Überlegungen ihrer Verwendbarkeit anzustellen Kein Test, der auf Wahrscheinlichkeitstheorie beruht, kann von sich aus nützliche Belege für die Richtigkeit oder Unrichtigkeit einer Hypothese liefern. Neyman/Pearson 1933 Methoden II – Stefan Jahr 22 SPSS-Bestandteile • Dateneditor – – – – Hauptmodul von SPSS Seit Version 10 mehrere Instanzen möglich Spezielle Menüpunkte „Daten“ und „Transformieren“ Seit Version 7.XX und 13 neues Format der Datenspeicherung (nicht mit älteren Versionen kompatibel) • Syntaxeditor – Normaler Texteditor mit angepassten Menüs – Spezieller Menüpunkt „Ausführen“ • Ausgabeviewer – Über Menüpunkt „Optionen“ Wahl zw. neuem Viewer oder (altem) Draft-Viewer • Diagrammeditor – Nachbearbeitung der Diagramme • Pivot-Tabellen-Editor – Nachbearbeitung von Tabellen Methoden II – Stefan Jahr 23 Dateneditor Methoden II – Stefan Jahr 24 Variablennamen Normen: • Darf maximal 8 Zeichen lang sein und keine Leerzeichen enthalten (ab SPSS 12: 64 Zeichen) • Muss mit einem Buchstaben oder Zeichen: @ # $ beginnen, aber: • # indiziert eine Arbeitsvariable (wird nicht im Editor angezeigt) • $ indiziert eine Systemvariable (sind von SPSS vorgegeben) • Alle Zeichen des Alphabets zulässig (keine Unterscheidung zwischen Groß- und Kleinschreibung) • An zweiter Stelle alle Ziffern von 0 – 9 zulässig • Dürfen nicht mit Punkt oder Unterstrich enden • Bestimmte Schlüsselwörter ausgeschlossen (z.B. and, or, eq, lt, with) • Umlaute und ß machen in älteren SPSS-Versionen Probleme Methoden II – Stefan Jahr 25 Variablentypen Numerisch: Ziffern mit oder ohne Nachkommastelle; Dezimaltrenn- und Tausenderzeichen richtet sich nach Windowseinstellung Komma: wie numerisch, jedoch mit einem Komma als Tausendertrennund Punkt als Dezimaltrennzeichen Punkt: wie numerisch, jedoch mit einem Punkt als Tausendertrennund Komma als Dezimaltrennzeichen Wissenschaftliche Notation: Potenzschreibweise für sehr große und kleine Zahlen (z.B.: 1,23E+02 = 123) Datum: Datums- oder Zeitangaben; Datumsangaben werden intern in Sekunden seit dem 15. Oktober 1582 umgerechnet (Einführung des Gregorianischen Kalenders); Zeiteingaben in Sekunden seit 00:00 Uhr Dollar: Zahlen bekommen automatisch den Präfix $ Spezielle Währung: über „Optionen“ lassen sich bis zu 5 verschiedene spezielle Währungen definieren (Präfix und Suffix frei wählbar) String: Texteingaben mit max. 255 Zeichen (ab SPSS 13: 31.767 Zeichen); Ziffern werden als Text interpretiert; max. 8 Zeichen, in statistischen Prozeduren genutzt werden zu können Methoden II – um Stefan Jahr 26 Labels Enthält nähere Beschreibung der Variablen Normen: • Können maximal 255 Zeichen umfassen • Alle Zeichen zulässig • Labels mit Sonderzeichen wie Punkt, Backslash, Semikolon müssen bei Vergabe über die Syntax in Hochkommas geschrieben werden • Bleiben nur in der SPSS-Datendatei erhalten (Dateiendung .sav) • Haben keinerlei statistischen Wert Methoden II – Stefan Jahr 27 Values Enthält nähere Beschreibung der Variablenausprägungen Normen: • Können maximal 60 Zeichen umfassen (ab SPSS 14: 120 Zeichen) • Alle Zeichen zulässig • Labels mit Sonderzeichen wie Punkt, Backslash, Semikolon müssen bei Vergabe über die Syntax in Hochkommas geschrieben werden • Bleiben nur in der SPSS-Datendatei erhalten (Dateiendung .sav) • Haben keinerlei statistischen Wert Methoden II – Stefan Jahr 28 Missing values Indizieren SPSS welche Werte bei Analysen ausgelassen werden sollen Zwei Möglichkeiten der Wertebereichsangabe: 1. Drei einzelne (diskrete) Werte 2. Einen zusammenhängenden Wertebereich plus einen Wert außerhalb dieses Wertebereichs Methoden II – Stefan Jahr 29 Syntaxeditor Syntaxgrammatik: • Jeder Befehl muss in einer neuen Zeile beginnen und mit einem Punkt enden, kann sich aber über beliebig viele Zeilen erstrecken • Unteranweisungen mit Schrägstrich voneinander trennen; können in einer Zeile stehen • Jede Befehlszeile darf höchstens 255 Zeichen lang sein • Dezimaltrennzeichen in Spezifikationen ist der Punkt • Keine Unterscheidung zwischen Groß- und Kleinschreibung Syntax-Bausteine: • Befehl: (npar tests) • Unteranweisung: Zusatz zu einem Befehl (m-w; missing; stat) • Spezifikationen: Angaben, die einer Anweisung oder Unteranweisung hinzugefügt werden können (gebjahr by sex (1 2)) • Schlüsselwörter: in SPSS vordefiniert und mit dem Befehl verbunden (analysis; desc) Methoden II – Stefan Jahr 30 Mittelwerte • Modus h = xh = xmax = Modus • Median 1 1 ⎛n ⎞ − x50 = x% = xm − + F m −1 ⎟ ⎜ 2 fm ⎝ 2 ⎠ • Arithmetisches Mittel 1 n x = * ∑ fi xi n i =1 Methoden II – Stefan Jahr 31 Mittelwerte Datenart metrisch singulär gruppiert ordinal kategorial Voraussetzungen Mittelwert symmetrisch und eingipflig verteilt arithmetisches Mittel asymmetrisch und eingipflig verteilt Median kleine Stichprobe (n<5) Median mehrgipflig verteilt Modalwerte symmetrisch und eingipflig verteilt arithmetischer Mittelwert für Häufigkeiten asymmetrisch und eingipflig verteilt Median mit Interpolation besetzte offene Klassen Median mit Interpolation mehrgipflig verteilt Modalwerte singulär Median gruppiert Median bei Rangklassen Modalwert(e) Methoden II – Stefan Jahr 32 Streuungsmaße – Relativer Informationsgehalt k k n n k 1 h= * ∑ i ln i = * ln k i =1 n n n n * ln k − ∑ n1 * ln ni i =1 k * ln k – Interquartilsabstand Q = Q3 − Q1 – Varianz/(Standardabweichung) n 1 * ∑ ( xi − x ) 2 s = n − 1 i =1 2 Methoden II – Stefan Jahr 33 Streuungsmaße Datenart metrisch singulär gruppiert ordinal kategorial Voraussetzungen Streuwert symmetrisch und eingipflig verteilt Standardabweichung asymmetrisch und eingipflig verteilt Mittlerer Quartilsabstand kleine Stichprobe (n<12) Variationsbreite mehrgipflig verteilt Relativer Informationsgehalt symmetrisch und eingipflig verteilt Standardabweichungen für Häufigkeiten asymmetrisch und eingipflig verteilt Quartilsabstand mit Interpolation besetzte offene Klassen Quartilsabstand mit Interpolation mehrgipflig verteilt Relativer Informationsgehalt singulär Interquartilsbereich gruppiert Unterschied der Quartilsklassen Relativer Informationsgehalt Methoden II – Stefan Jahr 34 Verteilungsformen Methoden II – Stefan Jahr 35 Graphische Beurteilung der Verteilungsform I Histogramm (Balken, Säulen) Boxplot Histogram 400 300 Frequency 200 100 Std. Dev = 12,51 Mean = 70,0 N = 1920,00 0 0 0, 10,0 95,0 90,0 85,0 80,0 75,0 70,0 65,0 60,0 55,0 50,0 45,0 40,0 35,0 30,0 25 ALTER Methoden II – Stefan Jahr 36 Graphische Beurteilung der Verteilungsform II Stem & Leaf Q-Q Plots Methoden II – Stefan Jahr 37 Maßzahlen zur Beurteilung der Verteilungsgeometrie I Lage der Mittelwerte Getrimmtes arithm. Mittel Descriptives Statistic ALTER Mean 69,9911 95% Confidence Interva Lower Bound for Mean Upper Bound 69,4313 5% Trimmed Mean 70,3218 Median 71,0000 Variance 156,484 Std. Deviation ,28549 70,5510 12,50936 Minimum 24,00 Maximum 98,00 Range 74,00 Interquartile Range Std. Error 18,0000 Skewness -,367 ,056 Kurtosis -,279 ,112 Methoden II – Stefan Jahr 38 Maßzahlen zur Beurteilung der Verteilungsgeometrie II • Skewness • Kurtosis ⎛ x⎞ ⎜ xi − ⎟ ∑ ⎜ s x ⎟⎠ i =1 ⎝ Sch = n n (>0 Â rechtsschief) 3 4 ⎛ x⎞ ⎜ xi − ⎟ ∑ ⎜ s x ⎟⎠ i =1 ⎝ −3 St = n n (>0 Â höher als NV) • Kolmogorov-Smirnov-Test Tests of Normality a Kolmogorov-Smirnov Statistic ALTER ,057 df 1920 Shapiro-Wilk Sig. ,000 Statistic ,987 df 1920 Sig. ,000 a. Lilliefors Significance Correction • Streuungsparameter Methoden II – Stefan Jahr 39 Verfahren der Zusammenhangsprüfung – Kombinierte Häufigkeitsverteilungen (graphisch) 120 100 80 60 3085 3083 3082 3084 40 3897 3391 25 3898 26 1716 3899 3392 3028 6199 3412 6987 3413 6200 6988 3004 6961 3005 6960 3003 4432 4431 5016 5017 1673 1672 4824 30 0 N= 5586 416 MAENNLICH WEIBLICH GESCHLECHT Haushaltsnettoeinkommen (kategorisiert) ALTER 5487 20 20 10 0 10 20 30 40 50 60 Methoden II – Stefan Jahr ALTER 70 80 90 40 Verfahren der Zusammenhangsprüfung – Kombinierte Häufigkeitsverteilungen (Kreuztabellen) SCHICHT Subjektive Schichteinstufung * SCHULE Alggemeiner Schulabschluß Crosstabulation SCHULE Alggemeiner Schulabschluß SCHICHT Subjektive Schichteinstufung 2 Arbeiterschicht 3 Mittelschicht 4 Obere Mittelschicht 2 Volks-, Hauptschu labschluß 3 Mittl. Reife, Realschulabschl uß 4 Fachhochs chulreife 5 Abitur, Hochschulreife 799 355 31 55 1240 % within SCHICHT Subjektive Schichteinstufung 64,4% 28,6% 2,5% 4,4% 100,0% % within SCHULE Alggemeiner Schulabschluß 54,2% 36,9% 17,7% 11,2% 40,0% % of Total 25,8% 11,4% 1,0% 1,8% 40,0% 655 534 120 319 1628 % within SCHICHT Subjektive Schichteinstufung 40,2% 32,8% 7,4% 19,6% 100,0% % within SCHULE Alggemeiner Schulabschluß 44,4% 55,5% 68,6% 65,1% 52,5% % of Total 21,1% 17,2% 3,9% 10,3% 52,5% 21 73 24 116 234 % within SCHICHT Subjektive Schichteinstufung 9,0% 31,2% 10,3% 49,6% 100,0% % within SCHULE Alggemeiner Schulabschluß 1,4% 7,6% 13,7% 23,7% 7,5% Count Count Count % of Total Total Total ,7% 2,4% ,8% 3,7% 7,5% 1475 962 175 490 3102 % within SCHICHT Subjektive Schichteinstufung 47,5% 31,0% 5,6% 15,8% 100,0% % within SCHULE Alggemeiner Schulabschluß 100,0% 100,0% 100,0% 100,0% 100,0% 47,5% 31,0% 5,6% 15,8% 100,0% Count % of Total Methoden II – Stefan Jahr 41 Zusammenhangsprüfung • Begrifflichkeiten – Assoziation, Kontingenz, Korrelation – Kausalität und Korrelation • Logiken der Zusammenhangsprüfung – Abweichung von der Indifferenz – Paarbildung – Fehlerreduktion bei der Vorhersage der abhängigen Variable (PRE) Methoden II – Stefan Jahr 42 Koeffizienten Koeffizient Gibt es einen Zusammenhang? Wie stark ist der Zusammenhang? Welche Richtung hat der Zusammenhang? n. n. n. o. m. o. m. o. m. PRE-Maß n. o. Bemerkungen m. Chi-Square nach Pearson Fishers exakter Test Phi Kontingenzkoeffizient C Cramers’ V Lambda Gamma Kendall’s Tau B Kendall’s Tau C Somer’s D Eta² Eta Determinationskoeffizient R² P-M-K r (Pearsons r) Methoden II – Stefan Jahr 43 Variablen und Werte benennen Benutzte Befehle/Schlüsselwörter: VARIABLE LABELS • Benennt eine Variable • Kurzform: VAR LAB VALUE LABELS • Benennt die Ausprägungen einer Variable • Kurzform: VAL LAB MISSING VALUE • Definiert bestimmte Werte in der Variable als fehlende Werte • Als „missing value“ definierte Ausprägungen werden von SPSS in Analysen nicht berücksichtigt • Nicht auf Variablentyp „String“ anwendbar • Kurzform: MIS VAL Methoden II – Stefan Jahr 44 Datensatz speichern und einlesen Benutzte Befehle/Schlüsselwörter: SAVE OUTFILE • Speichert den Datensatz im SPSS-Format • Unterbefehl DROP ermöglicht das Löschen von Variablen beim Speichern • Unterbefehl RENAME ermöglicht das Umbenennen von Variablen beim Speichern GET FILE • Liest einen SPSS-Datensatz Methoden II – Stefan Jahr 45 Häufigkeiten, Berechnungen Benutzte Befehle/Schlüsselwörter: FREQUENCIES • Ausgabe einer einfachen Häufigkeitsverteilung • Unterbefehle für Statistiken und Grafiken möglich • Kurzform: FRE MEANS • Mittelwertberechnung • Schlüsselwort BY ermöglicht Subgruppenbetrachtung COMPUTE • Berechnen einer neuen Variable • Alle mathematischen Operationen denkbar • Kurzform: COMP EXECUTE • Aktualisiert den Dateneditor mit den neu berechneten Variablen • Kurzform: EXE Methoden II – Stefan Jahr 46 Indexbildung mit Compute Benutzte Befehle/Schlüsselwörter: COMPUTE • Schlüsselwort SUM führt eine einfache Addition der in Klammern genannten Variablen aus • Schlüsselwort MEAN bildet den Durchschnittswert aus den in Klammern genannten Variablen. Diese sollten daher in der gleichen Einheit vorliegen. Achtung: unterschiedliche Behandlung der fehlenden Werte in den gezeigten Alternativen Methoden II – Stefan Jahr 47 Prüfung auf NV – Variablen umcodieren Benutzte Befehle/Schlüsselwörter: EXAMINE • Gibt verschiedene Kennwerte, Grafiken und Tests aus, um Grad der Übereinstimmung mit der NV zu prüfen • Schlüsselwort BY ermöglicht Subgruppenbetrachtung • Kurzform: EXA Benutzte Befehle/Schlüsselwörter: RECODE • Ersetzt die Werte oder Wertebereiche einer Variable nach vorgegebenem Muster in entweder eine neue Variable (Schlüsselwort: INTO) oder in die selbe Variable (ohne Schlüsselbefehl). • Kurzform: REC Methoden II – Stefan Jahr 48 Bedingungen Benutzte Befehle/Schlüsselwörter: IF • Formulieren einer Bedingung für selektive Variablenberechnungen DO IF – END IF • Wenn mehrere Berechnungen für einen selektiven Personenkreis ausgeführt werden sollen DO REPEAT – END REPEAT • Verbindet eine Menge von Variablen mit einem Platzhalter bzw. Jokervariable (hier „a“) • Ermöglicht identische Modifikationen für die unter „a“ gebündelten Variablen • Jokervariable lässt sich nur innerhalb der Befehlsstruktur ansprechen • Mehrere Jokervariablen vereinbar • Kurzform: DO REP Methoden II – Stefan Jahr 49 Selektion und Auswahl von Fällen Benutzte Befehle/Schlüsselwörter: TEMPORARY • Kann vor Datentransformationen stehen • Nachfolgende Datentransformationen werden aber nicht dauerhaft im Dateneditor gespeichert • Bleibt bis nach der nächsten statistischen Prozedur (z.B. FREQ) erhalten • Kurzform: TEMP SELECT IF • Selektionsbefehl zur Auswahl von Fällen mit bestimmten Merkmalen oder Merkmalskombinationen • Erzeugt ohne vorangestelltes TEMP eine dauerhafte Selektion im Dateneditor indem alle nicht selektierten Datenzeilen entfernt werden. • Kurzform: SEL IF FILTER BY – FILTER OFF • Selektionsbefehl zur Auswahl von Fällen die in einer (beliebigen) Selektionsvariable den Wert 1 haben • Kurzform: keine Methoden II – Stefan Jahr 50 Datensatz zur Analyse aufteilen Werte zählen Benutzte Befehle/Schlüsselwörter: SPLIT FILE • gibt Analysen getrennt für alle Kategorien einer Schlüsselvariable aus • Schlüsselwort: SEPARATE – trennt die Ausgabetabellen voneinander CROSSTABS • erzeugt Kreuztabelle • Kurzform: CROS Benutzte Befehle/Schlüsselwörter: COUNT • Zählt die Häufigkeit definierter Values über bestimmte Variablen • Kurzform: COU Methoden II – Stefan Jahr 51 Mittelwertunterschiede analysiert mit MEANS Case Processing Summary Cases Included N income * sex Geschlecht Excluded Percent 133 N Total Percent 97,1% 4 N 2,9% Percent 137 100,0% Report income sex Geschlecht Mean 1,00 männlich 577,0588 N 51 Std. Deviation 427,59646 2,00 weiblich 504,6098 82 235,43219 Total 532,3910 133 323,29592 ANOVA Table Sum of Squares income * sex Geschlecht Between Groups (Combined) df Mean Square 165043,333 1 165043,333 Within Groups 13631630,336 131 104058,247 Total 13796673,669 132 F 1,586 Sig. ,210 Measures of Association Eta income * sex Geschlecht Eta Squared ,109 ,012 Methoden II – Stefan Jahr 52 Hypothesen Hypothesen Behauptung, die ohne mit Sicherheit vorher als wahr erkannt zu sein, für bestimmte Zwecke angenommen wird - sind Zweckgebunden - haben vorläufigen Charakter (verifiziert/falsifiziert) - müssen empirisch überprüfbar sein Forschungshypothese - allgemein formuliert beziehen sich auf die Grundgesamtheit Wenn - dann oder Je - desto Aussagen operationale Hypothese - beziehen sich ausschließlich auf die Untersuchungsgesamtheit (Stichprobe) Zusammenhangshypothese - - Unterschiedshypothese behauptet Zusammenhang zwischen mind. zwei Variablen der Grundgesamtheit Überprüfung durch Signifikanztests oder Korrelations- und Regressionsverfahren - - behauptet, dass sich mind. zwei Gruppen der Grundgesamtheit, sich im Hinblick auf eine oder mehrere abhängige Variablen unterscheiden Überprüfung mittels Signifikanztests des Unterschieds von Mittelwerten und Varianzen Veränderungshypothese - - behauptet, die Veränderung einer oder mehrerer abhängigen Variablen im Zeitverlauf Überprüfung durch Zeitreihenanalyse und Panelanalysen (spezielle Form der Unterschiedshypothesen) Alternativhypothese HA - (entspricht inhaltlich meistens der Forschungshypothese) es besteht eine Beziehung zwischen den untersuchten Variablen Nullhypothese H0 statistische Hypothese - durch formale mathematische Überprüfung von zwei sich ausschließenden statistischen Entscheidungen Methoden II – Stefan Jahr wird zuverlässig eine Aussage über die Grundgesamtheit getroffen - (entspricht inhaltlich meistens nicht der Forschungshypothese) es besteht keine Beziehung zwischen den untersuchten53 Variablen Einseitige und zweiseitige Fragestellungen einseitig zweiseitig spezifisch HA: Es gibt einen positiven Zusammenhang von mind. der Stärke 0.70. - unspezifisch HA: Es gibt einen positiven Zusammenhang. HA: Es gibt einen Zusammenhang. Methoden II – Stefan Jahr 54 Statistische Hypothesenprüfung •Sprachliche Regelung –Ist die Irrtumswahrscheinlichkeit (graphisches Symbol: *). –Ist die Irrtumswahrscheinlichkeit (graphisches Symbol: **). –Ist die Irrtumswahrscheinlichkeit signifikant (graphisches Symbol: ***). –Ist die Irrtumswahrscheinlichkeit <5%, dann bezeichnet man das Ergebnis als signifikant <1%, dann bezeichnet man das Ergebnis als sehr signifikant <0,1%, dann bezeichnet man das Ergebnis als höchst ≥ 5%, dann bezeichnet man das Ergebnis als nicht signifikant. •α- und β-Fehler Methoden II – Stefan Jahr 55 Kreuztabellenanalyse – Teil I Methoden II – Stefan Jahr 56 Kreuztabellenanalyse – Teil II Methoden II – Stefan Jahr 57 Korrelationen Benutzte Befehle/Schlüsselwörter: cor v1e with v2c v2b. Benutzte Befehle/Schlüsselwörter: nonpar cor v1e with v2c v2b /print both. Methoden II – Stefan Jahr 58 Regression I Methoden II – Stefan Jahr 59 Regression II Methoden II – Stefan Jahr 60