SPSS – Skriptum SPSS (SUPERIOR PERFORMING SOFTWARE SYSTEM) Grundlage SPSS-Version 15.0 1 2 3 4 5 6 7 8 Qualitative und quantitative Forschungsmethoden ...............................................................................4 1.1 Qualitative Methoden: ...................................................................................................................4 1.2 Quantitative Methoden: .................................................................................................................4 Statistische Grundbegriffe .....................................................................................................................4 2.1 Skalenniveau:.................................................................................................................................4 2.2 Homogene Varianzen ....................................................................................................................4 2.3 Normalverteilung:..........................................................................................................................5 2.4 Die gebräuchlichsten Testnormskalen im Vergleich:....................................................................5 2.5 Abhängige und unabhängige Stichproben: ....................................................................................6 2.6 Aufgliederung der Statistik............................................................................................................6 2.7 Hypothesen ....................................................................................................................................8 2.8 Konfidenzintervall .........................................................................................................................8 2.9 Irrtumswahrscheinlichkeit p ..........................................................................................................9 2.10 Population/Stichprobe/Stichprobengröße ....................................................................................10 2.11 Vorgehen bei statistischen Hypothesenprüfungen.......................................................................10 2.12 Übersicht über die gängigen Tests...............................................................................................11 Kodierplan ...........................................................................................................................................11 SPSS – Ansicht ....................................................................................................................................12 4.1 Daten Editor: Dateneingabe.........................................................................................................12 4.2 SPSS-Viewer: Datenausgabe.......................................................................................................12 4.3 Diagramm Editor: ........................................................................................................................12 4.4 Syntax-Editor...............................................................................................................................12 Kreuztabellen/Chi-Quadrat-Einzeltest (asymptotischer).....................................................................12 5.1.1 Signifikanzniveau ................................................................................................................12 Symbolleiste ........................................................................................................................................13 6.1 Fall einfügen ................................................................................................................................13 6.2 Variable einfügen.........................................................................................................................13 6.3 Fall finden ....................................................................................................................................13 6.4 Variable finden ............................................................................................................................13 6.5 Datenwert suchen.........................................................................................................................13 6.6 Dublettensuche ............................................................................................................................13 6.7 Wertelabels ..................................................................................................................................13 6.8 Drucken........................................................................................................................................13 6.9 Speichern .....................................................................................................................................13 6.10 Datei aufteilen..............................................................................................................................14 6.11 Fälle auswählen ...........................................................................................................................14 6.12 Gewichten von Fällen ..................................................................................................................14 6.13 Variablen-Sets definieren und verwenden...................................................................................14 Umdefinieren und Übertragen von Variableneigenschaften ...............................................................14 Transformieren von Daten...................................................................................................................14 8.1 Berechnen neuer Variablen..........................................................................................................14 8.2 Verwenden von Bedingungsausdrücken......................................................................................14 8.3 Umkodieren von Werten..............................................................................................................14 8.4 Automatisches Umkodieren.........................................................................................................15 8.5 Klassifizieren und Kategorisieren von Daten (Bereichseinteiler) ...............................................15 8.6 Zählen des Auftretens bestimmter Werte ....................................................................................15 Mag. Michael Kuttner (PHT) Seite 1 22.03.2009 SPSS – Skriptum 8.7 Transformieren in Rangwerte ......................................................................................................15 8.8 Transformieren von Datums- und Uhrzeit...................................................................................15 8.9 Transformieren von Zeitreihendaten ...........................................................................................15 9 Transformieren von Dateien ................................................................................................................15 9.1 Daten sortieren.............................................................................................................................15 9.2 Transponieren von Fällen und Variablen ....................................................................................15 9.3 Daten umstrukturieren .................................................................................................................15 9.4 Hinzufügen neuer Fälle................................................................................................................15 9.5 Hinzufügen neuer Variablen........................................................................................................16 9.6 Aufteilen von Daten in Gruppen..................................................................................................16 9.7 Teilmengen von Fällen auswählen ..............................................................................................16 9.8 Erstellen einer Datei mit aggregierten Variablen ........................................................................16 10 Zusammenhangsmaße (Assoziationsmaße).....................................................................................17 10.1 Bivariate Korrelation ...................................................................................................................17 10.2 Partielle Korrelation.....................................................................................................................18 10.3 Distanz- und Ähnlichkeitsmaße...................................................................................................19 11 Lineare Regressionsanalyse.............................................................................................................19 12 Berichte............................................................................................................................................20 12.1 OLAP-Würfel ..............................................................................................................................20 12.2 Fälle zusammenfassen .................................................................................................................20 12.3 Berichte in Zeilen oder Spalten ...................................................................................................20 13 Analysieren von Mehrfachantworten ..............................................................................................20 13.1 Definieren von Mehrfachantworten-Sets.....................................................................................20 13.2 Erstellen einer Häufigkeitstabelle................................................................................................20 13.3 Kreuztabellen für Mehrfachantworten-Sets.................................................................................20 14 Mittelwertvergleiche und t-Tests (parametrische Tests) .................................................................20 14.1 Mittelwerte vergleichen ...............................................................................................................21 14.2 T-Test für eine Stichprobe ...........................................................................................................21 14.3 T-Test für zwei unabhängige Stichproben...................................................................................21 14.4 T-Test für zwei abhängige (gepaarte) Stichproben .....................................................................21 14.5 Einfaktorielle Varianzanalyse (ANOVA)....................................................................................21 14.5.1 Multiple Vergleiche (Schaltfläche „Post Hoc“) ..................................................................21 14.5.2 Kontraste zwischen a priori definierten Gruppen (Schaltfläche „Kontraste“) ....................22 14.6 Mehr-Weg-Varianzanalyse..........................................................................................................22 14.6.1 Faktorielle Designs mit gleicher Zellhäufigkeit ..................................................................22 14.6.2 Faktorielle Designs mit ungleicher Zellhäufigkeit ..............................................................22 14.6.3 Mehrfachvergleiche zwischen Gruppen ..............................................................................22 15 Nichtparametrische Tests.................................................................................................................22 15.1 Tests für eine Stichprobe .............................................................................................................22 15.1.1 Chi-Quadrat-Test (Anpassungstest).....................................................................................22 15.1.2 Binominal-Test ....................................................................................................................23 15.1.3 Sequenz-Test (Runs-Test) für eine Stichprobe....................................................................23 15.1.4 Kolmogorov-Smirnov-Test für eine Stichprobe..................................................................23 15.2 Tests für 2 unabhängige Stichproben ..........................................................................................23 15.2.1 Mann-Whitney U-Test.........................................................................................................23 15.2.2 Moses-Test bei extremer Reaktion ......................................................................................23 15.2.3 Kolmogorov-Smirnov Z-Test ..............................................................................................23 15.2.4 Wald-Wolfowitz-Test ..........................................................................................................23 15.3 Test für k unabhängige Stichproben ............................................................................................23 15.3.1 Kruskal-Wallis H-Test.........................................................................................................24 15.3.2 Median-Test .........................................................................................................................24 Mag. Michael Kuttner (PHT) Seite 2 22.03.2009 SPSS – Skriptum 15.3.3 Jonckheere-Terpstra-Test ....................................................................................................24 15.4 Tests für 2 verbundene Stichproben ............................................................................................24 15.4.1 Wilcoxon-Test .....................................................................................................................24 15.4.2 Vorzeichen-Test...................................................................................................................24 15.4.3 McNemar-Test .....................................................................................................................24 15.4.4 Rand-Homogenitätstest........................................................................................................24 15.5 Tests für k verbundene Stichproben ............................................................................................24 15.5.1 Friedman-Test......................................................................................................................24 15.5.2 Kendall`s W-Test.................................................................................................................24 15.5.3 Cochran Q-Test....................................................................................................................24 16 Exakte Tests.....................................................................................................................................25 17 Faktorenanalyse ...............................................................................................................................25 18 Clusteranalyse..................................................................................................................................26 18.1 Hierarchische Clusteranalyse.......................................................................................................26 18.2 Clusterzentrenanalyse ..................................................................................................................26 18.3 Two-Step-Clusteranalyse.............................................................................................................26 19 Regressionseffekt.............................................................................................................................27 20 Interaktive Grafiken erzeugen und gestalten ...................................................................................27 21 Herkömmliche Grafiken erzeugen...................................................................................................27 21.1 Balkendiagramme ........................................................................................................................27 21.2 3D-Balkendiagramme..................................................................................................................27 21.3 Liniendiagramme.........................................................................................................................27 21.4 Flächendiagramme.......................................................................................................................27 21.5 Kreisdiagramme...........................................................................................................................27 21.6 Hoch-Tief-Diagramm ..................................................................................................................27 21.7 Boxplot-Diagramme ....................................................................................................................28 21.8 Fehlerbalkendiagramme ..............................................................................................................28 21.9 Populationspyramiden .................................................................................................................28 21.10 Streu-/Punktdiagramme ...........................................................................................................28 21.11 Histogramme............................................................................................................................28 22 Prinzipien für die Frageformulierung ..............................................................................................28 Mag. Michael Kuttner (PHT) Seite 3 22.03.2009 SPSS – Skriptum 1 Qualitative und quantitative Forschungsmethoden 1.1 Qualitative Methoden: Qualitative Verfahren werden oft benutzt, wenn der Forschungsgegenstand neu ist oder um das Forschungsgebiet zu explorieren und Hypothesen zu entwickeln. 1.2 Quantitative Methoden: Quantitative Methoden setzen Hypothesen voraus, die dann getestet werden. Quantitative Methoden zielen auf eine systematische Messung und Auswertung von sozialen Fakten mit Hilfe verschiedener Erhebungsinstrumente ab. 2 Statistische Grundbegriffe 2.1 Skalenniveau: Messniveau Nominalskalierte Variablen Ordinalskalierte Variablen: Intervallskalierte Variablen: Verhältnisskalierte Variablen: Mögliche empirische Beispiele Aussagen 1. Gleichheit und Ungleichheit Geschlecht, Automarke, Partei, Haustier (nur 2 Kategorien = dichotome Variable) 1. Gleichheit und Ungleichheit Rauchergewohnheiten, 2. Ordnung Einkommenskategorien, Schulnoten, soziale Schichtung 1. Gleichheit und Ungleichheit Intelligenzquotient (IQ), 2. Ordnung Leistungspunktwerte, 3. Gleichheit von Differenzen Celsiustemperaturskala 1. Gleichheit und Ungleichheit Alter, Größe, Gewicht, Reaktionszeit, 2. Ordnung Anzahl der Kinder 3. Gleichheit von Differenzen 4. Gleichheit von Quotienten Im SPSS-Programm wird nur zwischen nomianalskalierten, ordinalskalierten und metrischen Daten (intervall- oder verhältnisskalierte Variablen) unterschieden! Nominalskalierte Variablen mit nur 2 Ausprägungen können als ordinalskaliert angesehen werden! Unterscheiden muss man zwischen unabhängige und abhängige Variablen! Z.B. Einkommen von Männer und Frauen: das Geschlecht ist die unabhängige Variable; das Einkommen die abhängige Variable. 2.2 Homogene Varianzen Die Homogenität (Gleichheit) der Varianzen in Vergleichsgruppen ist eine Annahme, die viele statistische Tests voraussetzen! Um die Voraussetzung der Homogenität (Gleichheit) der Varianzen von Vergleichsgruppen zu überprüfen, kann man im Menü „Explorative Datenanalyse“ zweierlei benutzen: Levene-Test Streuung über Zentralwertdiagramm Analysieren, Deskriptive Statistiken, Explorative Datenanalyse, Diagramme, Streuungsbreite vs. mittleres Niveau mit Levene Test: „Nicht transformiert“ Mag. Michael Kuttner (PHT) Seite 4 22.03.2009 SPSS – Skriptum 2.3 Normalverteilung: Ebenso setzen zahlreiche Verfahren voraus, dass die intervallskalierten Variablen normalverteilt sind! Die Normalverteilungskurve (Gaußsche Glockenkurve) ist eingipflig, symmetrisch und nähert sich asymptotisch der Abszisse. Eine Normalverteilung ist durch den Mittelwert und die Standardabweichung definiert. Im Bereich Mittelwert + 1 Standardabweichung liegen 34,13% + 34,13% = 68,26% Im Bereich Mittelwert + 2 Standardabweichungen liegen 47,72% + 47,72% = 95,44% Im Bereich Mittelwert + 3 Standardabweichungen liegen 49,87% + 49,87% = 99,74% Optischer Eindruck: Normalverteilungskurve wird über das Histogramm gelegt. Analysieren, Deskriptive Statistiken, Häufigkeiten, Diagramme, Histogramme (mit Normalvrteilungskurve) Rechnerische Überprüfung: Kolmogorov-Smirnov-Test (nichtparametrischer Test) Analysieren, Nichtparametrische Tests, K-S bei einer Stichprobe Der Kolmogorov-Smirnov-Test ist auch bei ordinalskalierten Variablen anwendbar! Bei Stichprobengrößen unter 50 sollte der Shapiro-Wilk-Test verwendet werden! Ein signifikantes Ergebnis besagt, dass die vorliegende Verteilung sich signifikant von einer Normalverteilung unterscheidet. Dann kann man nicht davon ausgehen, dass die Variable in der Grundgesamtheit normalverteilt ist! Nichtparametrische Tests verwenden! Analysieren, Deskriptive Statistiken, Explorative Datenanalysen, Diagramme 2.4 Die gebräuchlichsten Testnormskalen im Vergleich: Mag. Michael Kuttner (PHT) Seite 5 22.03.2009 SPSS – Skriptum Hochbegabung: Eine Person ist hochbegabt, wenn sie bezüglich ihres intellektuellen Leistungsvermögens zu den besten 2% ihrer Bezugsgruppe gehört. Prozentrang ≥ 98 bzw. IQ ≥ 130 (2 Standardabweichungen). Damit man für die Variablen vergleichbare Messskalen erhält, müssen die Variablen transformiert werden. SPSS bietet mehrere Möglichkeiten an. Eine häufig gewählte Transformation ist die zTransformation von Werten einer Variable. Testnormskala z-Skala Z-Skala IQ-Skala T-Skala C-Skala Stanine-Skala Mittelwert 0 100 100 50 5 5 Standardabweichung 1 10 15 10 2 2 2.5 Abhängige und unabhängige Stichproben: Abhängige (gebundene, gepaarte) Stichprobe: jedem Wert der einen Stichprobe kann eindeutig ein Wert der anderen Stichprobe zugeordnet werden. (Z.B. Messung eines Merkmals zu mehreren Zeitpunkten oder matched pairs: Paare werden derart gebildet, dass sich ein Paar hinsichtlich wichtiger sonstiger relevanter Einflussfaktoren nicht unterscheidet ⇒ verbunden Stichprobe) Unabhängige Stichprobe: eine eindeutige Wertezuordnung zwischen den Stichproben ist nicht möglich. (Z.B. verschiedene Probanden) 2.6 Aufgliederung der Statistik Deskriptive Statistik: beschreibende Statistik Modalwert: der Wert, der am häufigsten vorkommt; Nominalskalenniveau Median: teilt die geordneten Werte in zwei gleich große Teile; Ordinalskalenniveau Mittelwert: arithmetische Mittel; Intervallskalenniveau Summe: alle Werte werden addiert Geometrische Mittel: ist die n-te Wurzel aus dem Produkt der Werte Varianz: Streuungsmaß; die Summe aller quadrierten Abweichungen vom arithmetischen Mittel dividiert durch die Gesamtanzahl. In SPSS wird die Varianz als Stichprobenvarianz (=Schätzwert für die Varianz der Grundgesamtheit) berechnet. Daher wird durch n-1 dividiert! Die Varianz ist 0, wenn alle Werte mit dem Mittelwert identisch sind und wird um so größer, je größer die Streuung ist. Standardabweichung: Streuungsmaß; Wurzel aus der Varianz; hat dieselben Maßeinheiten wie die Originaldaten! Die Standardabweichung ist 0, wenn alle Werte mit dem Mittelwert identisch sind und wird um so größer, je größer die Streuung ist. Standardfehler: Maß für die Abweichung des Stichprobenmittelwerts vom Populationsmittelwert (Mittelwert der Grundgesamtheit). Der Wert muss mit 1,96 multipliziert werden. Dann kann man sagen, dass mit 95 prozentiger Sicherheit der „wahre Mittelwert“ im Bereich: Mittelwert ± Standardfehler * 1,96 liegt. (Multiplikator = 2,576 ⇒ 99 prozentige Sicherheit) Minimum: der kleinste Wert Maximum: der größte Wert Mag. Michael Kuttner (PHT) Seite 6 22.03.2009 SPSS – Skriptum Spannweite: Maximum - Minimum Schiefe: Maß für die Abweichung einer Häufigkeitsverteilung von einer symmetrischen Verteilung; bei einer Normalverteilung ist die Schiefe 0! positive Schiefe ⇒ Spitze bei den kleinen Werten = linksgipflig, negative Schiefe ⇒ Spitze bei den großen Werten = rechtsgipflig, Kurtosis (Exzeß): Maß für die Breitgipfligkeit (negativer Wert = flache Verteilung) oder die Schmalgipfligkeit (positiver Wert = steile Verteilung) einer Verteilung; bei einer Normalverteilung ist der Exzeß 0! Perzentilwerte: Ein Perzentilwert P einer Verteilung ist der Wert auf der Messskala, unter dem P% und über dem (100-P)% der Messwerte liegen. Z.B. liegen unterhalb des 10. Perzentilwerts 10%, darüber 90% der Werte Statistische Maßzahlen aus Stichproben dienen nur als Schätzwerte für die Parameter der Grundgesamtheit, für die wahren Werte! Messniveau Nominal Ordinal Intervall Verhältnis sinnvolle Parameter Lageparameter Streuungsparameter Modalwert Häufigkeitsverteilung Median Quartilsabstand (Perzentile) Arithmetisches Mittel Varianz Standardabweichung Spannweite Geometrisches Mittel Varianzkoeffizient Analysieren, Deskriptive Statistiken, Häufigkeiten, Statistik (für Häufigkeitstabellen; Einstellungsmöglichkeiten über Statistik..., Diagramme..., Format...) Analysieren, Deskriptive Statistiken, Deskriptive Statistiken (Standardisierung von Variablen möglich! z-Transformation: eine Transformation der Rohdaten in standardisierte z-Werte) Analysieren, Deskriptive Statistiken, Verhältnis (Vergleich von Gruppen , wenn die abhängige Variable eine zusammengesetzte Variable ist, deren Wert sich aus dem Verhältnis der Werte zweier Ausgangsvariablen ergibt. Z.B. Stundenkilometer, Stundenlohn, Umsatz zur Verkaufsfläche) Analysieren, Deskriptive Statistiken, Explorative Datenanalyse (Interquartilbereich = Bereich in dem die mittleren 50% liegen; 5% getrimmtes Mittel ist ein getrimmtes arithmetisches Mittel, das unter Auslassung der 5% Fälle mit den höchsten und der 5% Fälle mit den niedrigsten Werten berechnet wird; Ober- und Untergrenze des 95% Konfidenzintervall des Mittelwerts; M-Schätzer sind robuste Mittelwerte, die störende Einflüsse von Extremwerten ausschließen; Perzentile; Ausreißer; StängelBlatt-Diagramm, Boxplot, Überprüfung der Voraussetzung homogener Varianzen und Normalverteilung) Mag. Michael Kuttner (PHT) Seite 7 22.03.2009 SPSS – Skriptum Analytische Statistik: Verfahren zur Feststellung, ob ein Mittelwertsunterschied oder aber auch ein Zusammenhang zufällig zustande gekommen ist oder nicht. 2.7 Hypothesen Vier Merkmale von wissenschaftlichen Hypothesen: • Konditionalsatz: Eine wissenschaftliche Hypothese hat immer die Form eines „Wenn-dann-Satzes“ oder eines „Jedesto-Satzes“ • Der All-Satz: Eine wissenschaftliche Hypothese ist eine allgemeingültige, über den Einzelfall hinausreichende Behauptung. Sie beschäftigt sich somit nicht mit einer einigen Person oder einem einzelnen Ereignis. • Realer Sachverhalt: Wissenschaftliche Hypothesen beziehen sich deshalb auf reale Sachverhalte. Esoterisches, Parapsychologisches und Mystisches scheiden somit aus. In diesem Zusammenhang werden auch die beiden Verben „verifiziert“ und „falsifiziert“ verwenden. • Mit Daten widerlegbar: Ein „Wenn-dann-Satz“ oder ein „Je-desto-Satz“, also eine Hypothese, muss durch Daten widerlegbar sein. Trifft dies nicht zu, ist der Satz keine wissenschaftliche Hypothese. Man unterscheidet zwischen Zusammenhangshypothesen und Unterschiedshypothesen. Zusammenhangshypothesen: Zwischen zwei oder mehreren Merkmalen (oder Variablen) wird ein Zusammenhang vermutet. Z.B. Wenn Menschen getrunken haben, sind sie beim Auto fahren risikobereiter. Unterschiedshypothesen: Zwischen zwei oder mehreren Gruppen gibt es einen Unterschied hinsichtlich eines Merkmals (Variable). Z.B. Es gibt Unterschiede zwischen Buben und Mädchen bezüglich der Lesekompetenz. Unterschiedshypothesen können gerichtet oder ungerichtet sein. Wenn man behauptet, dass Mädchen besser lesen können als Buben, dann spricht man von einer gerichteten Hypothese. Hypothese 0 (Nullhypothese): Die beiden Stichproben entstammen der gleichen Grundgesamtheit (d.h. der Mittelwertsunterschied ist zufällig zustande gekommen). Hypothese 1 (Alternativhypothese): Die beiden Stichproben entstammen verschiedenen Grundgesamtheiten (d.h. der Mittelwertsunterschied ist nicht zufällig zustande gekommen). Um zu entscheiden, ob H1 als statistisch gesichert angenommen werden kann oder H0 beibehalten werden soll, wird ein Signifikanztest durchgeführt. Man kann keine Hypothese als „wahr“ beweisen, aber man kann eine Hypothese als „falsch“ entlarven! 2.8 Konfidenzintervall (Schätzintervall, Fehlerspielraum, Sicherheitsspielraum, Vertrauensbereich) Konfidenzintervall am Beispiel für das arithmetische Mittel: Unter der Voraussetzung, dass die Erhebungsdaten aus einer definierten Grundgesamtheit interpretiert werden können, ist der aus der Stichprobe gewonnene Mittelwert x eine Punktschätzung für den unbekannten Mittelwert µ der Grundgesamtheit. Da eine Punktschätzung wegen der Zufallsauswahl der Stichprobe nur selten dem Parameter entspricht, wird häufig eine Intervallschätzung vorgenommen. Bei einer Intervallschätzung wird ein Bereich berechnet – angegeben durch eine untere und obere Schranke – in dem das unbekannte µ mit einer Wahrscheinlichkeit von z.B. 95% (= 0,95 oder allgemein 1 – α) erwarten kann. Bei einem z.B. 95% Konfidenzintervall besteht eine Wahrscheinlichkeit von 5%, dass der unbekannte Wert nicht in dem zu berechnenden Konfidenzintervall liegt. Mag. Michael Kuttner (PHT) Seite 8 22.03.2009 SPSS – Skriptum 2.9 Irrtumswahrscheinlichkeit p Mit Hilfe verschiedenster Verfahren kann die so genannte Irrtumswahrscheinlichkeit berechnet werden. Es ist dies die Wahrscheinlichkeit, sich zu irren, wenn man die Nullhypothese verwirft und die Alternativhypothese annimmt. 0≤p≤1 p > 0,05 p ≤ 0,05 p ≤ 0,01 p ≤ 0,001 nicht signifikant signifikant hoch signifikant höchst signifikant n.s. * ** *** Üblicherweise testet man in den Sozialwissenschaften mit Signifikanzniveaus von α = 0,05 (= 5%) bzw. α = 0,01 (=1%)! Fehler erster Art (α-Fehler): die Nullhypothese wird verworfen, obwohl sie richtig ist; die Wahrscheinlichkeit einen Fehler erster Art zu begehen ist gleich der Irrtumswahrscheinlichkeit p. Fehler zweiter Art (β-Fehler): die Nullhypothese wird beibehalten, obwohl sie falsch ist; die Wahrscheinlichkeit einen Fehler zweiter Art zu begehen ist umso kleiner, je größer die Irrtumswahrscheinlichkeit p ist. Population H0 H0 H1 Fehler 2.Art β-Fehler H1 Fehler 1.Art α-Fehler Stichprobe α-Fehler-Kummulierung: Werden mehrere Signifikanztests nacheinander durchgeführt, dann muss man den α-Fehler korrigieren: αR = 1 – (1 – α)^ 1 k Einseitige Prüfung: Einseitige Hypothesen dürfen nur dann aufgestellt werden, wenn sich aufgrund schon vorliegender früherer Arbeiten eine sehr gut begründete Vermutung über die Richtung des zu erwartenden Unterschieds ergibt. Ein gegebener Mittelwertsunterschied wird bei einseitiger Hypothesentestung eher „statistisch signifikant“ als bei einer zweiseitigen Hypothesentestung. Mag. Michael Kuttner (PHT) Seite 9 22.03.2009 SPSS – Skriptum Zweiseitige Prüfung: 2.10 Population/Stichprobe/Stichprobengröße Population = Gesamtheit aller Personen, für die die in einer Untersuchung gefundenen Resultate gelten sollen. Stichprobe = diejenige Personengruppe, die man für eine bestimmte empirische Untersuchung ausgewählt hat. In sozialwissenschaftlichen Untersuchungen ist bei Verwendung sehr großer Stichproben praktisch jeder Unterschied signifikant. Das liegt daran, dass sehr schwache Beziehungen zwischen zwei Variablen bzw. schwache Wirkungen von Störvariablen praktisch immer vorliegen. Bei kleinen Stichproben ist dagegen die Gefahr des β-Fehlers (Fehler zweiter Art) sehr groß. Daher sollte man Daten kleinerer Studien zu demselben Gegenstand solange kumulieren, bis die Fallzahl einen hinreichend sicheren Schluss zwischen H0 und H1 zulässt. Ergibt aber eine kleine Stichprobe ein signifikantes Ergebnis für H1, ist das Risiko eines α-Fehlers (Fehler erster Art) ebenso gering als hätten wir eine große Stichprobe untersucht. Regeln für die Stichprobengröße: • Werden zwei unabhängige Gruppen auf Mittelwertsunterschiede geprüft, ist es ratsam, pro Gruppe mindestens n = 35 Personen (zusammen also N = 70) vorzusehen. So kann man bei α = 0,05 und β = 0,20 wenigstens große Effekte als statistisch signifikant absichern. • Mit n = 65 oder mehr Probanden je Gruppe (also insgesamt mindestens N =130) gelingt es bei zwei unabhängigen Gruppen, mittlere Effekte als statistisch signifikant zu belegen (α = 0,05 und β = 0,20). • Ab rund n = 160 Versuchspersonen pro Gruppe (also zusammen N =320) können bei zwei unabhängigen Gruppen und bei α = 0,05 und β = 0,20 zumeist kleine Effekte als statistisch signifikant ausgewiesen werden. • Bei sogenannten mehrfaktoriellen Versuchsplänen empfiehlt es sich, möglichst die Zahl von N = 15 Personen pro Subgruppe nicht zu unterschreiten. Bei sogenannten 2 x 2 Versuchsplänen sollen pro Zelle mindestens 30 sein, besser jedoch mehr. Je größer die Grundgesamtheit ist, umso kleiner kann der prozentuale Anteil derjenigen Elemente werden, die zur Stichprobe gehören! 2.11 Vorgehen bei statistischen Hypothesenprüfungen 1. Formulierung der zur Fragestellung gehörenden Nullhypothese H0, dass sich die Mittelwerte der beiden Gruppen A und B unserer Stichprobe hinsichtlich des interessierenden Merkmals nicht voneinander unterscheiden: MA = MB. 2. Formulierung der zugehörenden (einseitigen oder zweiseitigen) Alternativhypothese H1, dass sich die beiden Gruppen A und B im interessierenden Merkmal unterscheiden MA ≠ MB bei zweiseitiger Fragestellung, bei einseitiger Fragestellung je nach Sachlage entweder MA > MB oder MA < MB. Mag. Michael Kuttner (PHT) Seite 10 22.03.2009 SPSS – Skriptum 3. Festsetzung des statistischen Signifikanzniveaus α, d.h. des Kriteriums, ab wann die empirisch ermittelte Wahrscheinlichkeit der Mittelwertdifferenz beider Gruppen unter H0 – Gültigkeitsannahme klein genug ist, damit hinreichend Anlass besteht, die Nullhypothese H0 als falsch zurückzuweisen. 4. Wahl des geeigneten statistischen Signifikanztests. 5. Berechnung der zum statistischen Signifikanztest gehörenden Prüfstatistik aufgrund der zufällig zusammengestellten Stichprobe und Ermittlung der zugehörigen Wahrscheinlichkeit p, dass unter H0 – Bedingung der Mittelwertsunterschied zwischen der Gruppe A und der Gruppe B mindestens so groß ausfällt wie die in unserer Stichprobe beobachtete Mittelwertsdifferenz. 6. Entscheidung, ob die Nullhypothese zurückgewiesen werden kann oder nicht. Ist p < α, dann besteht hinreichend Anlass die Nullhypothese H0 als falsch zurückzuweisen (je nach Sachlage gilt dann entweder MA > MB oder MA < MB). Ist p ≥ α, dann besteht kein Anlass, H0 zurückzuweisen (wir gehen dann weiter davon aus, dass MA = MB zutrifft). Will man einen einseitigen Test durchführen, dann wird der angegebene p-Wert einfach halbiert. 2.12 Übersicht über die gängigen Tests Intervallskalierte, normalverteilte Variablen: (parametrische Tests) Anzahl der miteinander zu vergleichenden Stichproben Abhängigkeit 2 2 >2 unabhängig abhängig unabhängig >2 abhängig Test t-Test nach Student t-Test für abhängige Stichproben einfache Varianzanalyse (ANOVA) einfache Varianzanalyse mit Meßwiederholungen Ordinalskalierte oder nicht-normalverteilte intervallskalierte Variablen: (nichtparametrische Tests) Anzahl der miteinander zu vergleichenden Stichproben 2 2 >2 >2 Abhängigkeit unabhängig abhängig unabhängig abhängig Test U-Test nach Mann und Whitney Wilcoxon-Test H-Test nach Kruskal Wallis Friedman-Test 3 Kodierplan Bevor die erhobenen Daten in eine SPSS-Datendatei eingegeben werden, ist in einem Kodierplan für jede Variable festzulegen, wie die Angaben der Befragten numerisch zu behandeln bzw. zu verschlüsseln sind. Bei metrischen Daten (Alter, Größe, Gewicht) liegen die Daten meist bereits als direkt eingebbare Zahlen vor, bei anderen Merkmalen (Geschlecht, Schulabschluss, Studienfach) ist dagegen zu überlegen, nach welchen Regeln den Kreuzen oder Angaben der Personen Zahlen zugewiesen werden. Es erleichtert die Eingabe von Daten, wenn die Kodierungen in einem Fragebogen bereits so weit wie möglich aufgedruckt sind! Mag. Michael Kuttner (PHT) Seite 11 22.03.2009 SPSS – Skriptum 4 SPSS – Ansicht 4.1 Daten Editor: Dateneingabe Spalten: Variablen Zeilen: Fälle Datenansicht: Eingabe der Daten Variablenansicht: Name – Typ – Spaltenformat (Variablenbreite) – Dezimalstellen – Variablenlabel – Wertelabels – Fehlende Werte (dies geschieht automatisch, wenn keine Werte eingetragen sind!) – Spalten – Ausrichtung – Messniveau Datei, Datendatei-Informationen anzeigen, Arbeitsdatei Alle Variblenbeschreibungen und Variablenwerte werden in einer Tabelle ausgedruckt 4.2 SPSS-Viewer: Datenausgabe Alle Ergebnisse statistischer Prozeduren, Diagramme und sonstige Meldungen werden im „SPSSViewer“ angezeigt. Er besteht aus der Gliederungsansicht und dem Inhaltsfenster. In der Gliederungsansicht kann man Objekte wegschalten (Doppelklick!) Pivotieren von Tabellen: die Spalten, Zeilen und Schichten einer Tabelle können verändert werden. (Doppelklick auf die Tabelle) 4.3 Diagramm Editor: Dort können Diagramme bearbeitet werden Doppelklick auf das Diagramm 4.4 Syntax-Editor Hier wird die Befehlssyntax angezeigt. Die Befehle markieren und auf das Symbol „“ klicken 5 Kreuztabellen/Chi-Quadrat-Einzeltest (asymptotischer) Eine Kreuztabelle ist das einfachste Verfahren um den Zusammenhang von zwei Variablen zu untersuchen. Bei Kreuztabellen ist zu entscheiden, in welcher Richtung die Prozentuierung erfolgen soll. Steht die unabhängige Variable im Kopf der Tabelle, ist eine spaltenweise Prozentuierung angemessen. Dadurch werden die verschiedensten Gruppen, die den Ausprägungen der unabhängigen Variablen entsprechen, vergleichbar. Der Chi-Quadrat-Einzeltest überprüft, ob sich beobachtete und erwartete Häufigkeiten bei nominalskalierten Variablen signifikant voneinander unterscheiden. Den ChiQuadrat-Einzeltest findet man auch bei den Kreuztabellen. Standardisierte Residuen und erwartete Häufigkeiten anklicken! Analysieren, Deskriptive Statistiken, Kreuztabellen bei Zellen... gibt es Einstellmöglichkeiten für Häufigkeiten (Beobachtet/Erwartet), Prozentwerte (die unabhängige Variable prozentuieren = Spaltenweise!) und Residuen; Bei Kreuztabellen kann man Kontrollvariablen (Einfluss weiterer Variablen) hinzufügen (Schicht) ⇒ drei- und mehrdimensionale Tabellen! Kreuztabellen können auch mit gewichteten Werten berechnet werden („keine Korrektur“ oder „Anzahl in den Zellen runden“) Statistik, Chi-Quadrat (asymptotischer); bei 2*2-Tabellen wird Fisher´s exact Test durchgeführt! Standardisiertes Residuum > 2,0 P < 0,05 > 2,6 P < 0,01 > 3,3 P < 0,001 Mag. Michael Kuttner (PHT) Seite 12 5.1.1 Signifikanzniveau * signifikant ** sehr signifikant *** höchst signifikant 22.03.2009 SPSS – Skriptum Achtung: maximal 20% der Felder dürfen nur eine erwartete Häufigkeit < 5 haben. Zeilen- und Spaltensummen müssen stets größer 0 sein! Wenn die Bedingungen für den Chi-Quadrat-Test (erwartete Häufigkeiten > 5) nicht erfüllt sind, sollte ein exakter Test durchgeführt werden. 6 Symbolleiste Geh zu Fall Zuletzt verwendete Dialogfelder Datei speichern Datei öffnen Rückgängig machen Fälle gewichten Variable Suchen Alle Variablen anzeigen Wertelabels Fälle einfügen Wiederholen Drucken Variable einfügen Fälle auswählen Datei aufteilen Variablen-Sets verwenden 6.1 Fall einfügen Kontextmenü (rechte Maustaste) 6.2 Variable einfügen Kontextmenü (rechte Maustaste) 6.3 Fall finden Bearbeiten, Geh zu Fall 6.4 Variable finden Extras, Variablen 6.5 Datenwert suchen Bearbeiten, Suchen 6.6 Dublettensuche Daten, Doppelte Fälle ermitteln 6.7 Wertelabels Ansicht, Wertelabels 6.8 Drucken Datei, Drucken 6.9 Speichern Datei, Speichern Daten: *.sav Viewer: *.spo Syntax: *.sps Mag. Michael Kuttner (PHT) Seite 13 22.03.2009 SPSS – Skriptum 6.10 Datei aufteilen Daten, Datei aufteilen 6.11 Fälle auswählen Daten, Fälle auswählen 6.12 Gewichten von Fällen Gewichtungsfaktor = Sollwert : Istwert Gewichtungsfaktor in einer neuen Variable berechnen (Transformieren, Variable berechnen..., Falls; im Syntaxfenster alles markieren und Execute drücken!) Daten, Fälle gewichten (Gewichtung an! in der Statuszeile) Daten, Fälle nicht gewichten (Gewichtung aus! in der Statuszeile) 6.13 Variablen-Sets definieren und verwenden Extras, Sets definieren... Man wird damit übersichtliche Variablenlisten mit den Variablen zusammenstellen, die man für die jeweils anstehenden Analysen benötigt. 1. Extras, Sets verwenden... Nachdem man bestimmt hat, welche Sets in Verwendung sind, werden im Weiteren nur noch die in diesen Sets definierten Variablen angezeigt 7 Umdefinieren und Übertragen von Variableneigenschaften Daten, Variableneigenschaften definieren 8 Transformieren von Daten 8.1 Berechnen neuer Variablen Transformieren, Variable berechnen... Dezimalzahlen immer mit Punkt eingeben! Etliche Funktionen stehen zur Verfügung: • Arithmetische Funktionen • Statistische Funktionen • Suchfunktionen • Funktionen für fehlende Werte • Funktionen für Datums- und Zeitvariablen • Cross-Case Funktionen • Wahrscheinlichkeits- und Verteilungsfunktionen • Andere Verteilungsfunktionen • String Funktionen • Funktionen zur Umwandlung (numerisch – string) 8.2 Verwenden von Bedingungsausdrücken Transformieren, Variable berechnen... Schaltfläche „Falls“ Es muss die Bedingung eingegeben werden! 8.3 Umkodieren von Werten Transformieren, Umkodieren in dieselben Variablen oder Umkodieren in andere Variable Alte und neue Werte müssen festgelegt werden Mag. Michael Kuttner (PHT) Seite 14 22.03.2009 SPSS – Skriptum 8.4 Automatisches Umkodieren Transformieren, Automatisch umkodieren... Eine Möglichkeit numerische oder Stringvariablen in fortlaufende ganze Zahlen einfach umzukodieren 8.5 Klassifizieren und Kategorisieren von Daten (Bereichseinteiler) Transformieren, Visuelles Klassieren... Hier können sehr einfach Kategorien gebildet werden. Trennwerte erstellen anklicken! 8.6 Zählen des Auftretens bestimmter Werte Transformieren, Werte in Fällen zählen... Damit kann derselbe Wert über mehrer Variablen hinweg ausgezählt werden! 8.7 Transformieren in Rangwerte Transformieren, Rangfolge bilden... Damit können ursprüngliche Messwerte in Rangplätze übergeführt werden (z.B. wenn man ordinalskalierte Variablen miteinander korrelieren will) Bei gleichen Werten wird jedem Fall der mittlere Rangplatz all dieser Fälle zugeordnet! 8.8 Transformieren von Datums- und Uhrzeit Transformieren, Assistent für Datum und Uhrzeit Ein Assistent hilft Operationen mit Datum und Uhrzeit durchzuführen 8.9 Transformieren von Zeitreihendaten Daten, Datum definieren... Transformieren, Zeitreihen erstellen... SPSS stellt spezielle Routinen zur Bearbeitung von Zeitreihen zur Verfügung 9 Transformieren von Dateien 9.1 Daten sortieren Daten, Fälle sortieren... Damit kann eine Variable aufsteigen oder absteigend sortiert werden. 9.2 Transponieren von Fällen und Variablen Daten, Transponieren... Damit kann man Zeilen in Spalten und Spalten in Zeilen umwandeln. Dies kann man benötigen, wenn Daten aus anderen Programmen übernommen werden. 9.3 Daten umstrukturieren Daten, Umstrukturieren... Hier kann man ebenso Daten mit Hilfe eines Assistenten umstrukturieren 9.4 Hinzufügen neuer Fälle Daten, Dateien zusammenfügen, Fälle hinzufügen... Wenn die Variablen weitgehend identisch sind, dann können die Fälle aus einer Datei in die andere übernommen werden. Mag. Michael Kuttner (PHT) Seite 15 22.03.2009 SPSS – Skriptum 9.5 Hinzufügen neuer Variablen Daten, Dateien zusammenfügen, Variablen hinzufügen... Entweder werden gleichwertige Dateien zusammengeführt oder eine Datei ist die Schlüsseldatei 9.6 Aufteilen von Daten in Gruppen Daten, Datei aufteilen..., Die ganze Datei wird dadurch in Gruppen aufgeteilt • Alle Fälle analysieren, keine Gruppen bilden • Gruppen vergleichen: die Gruppen werden getrennt analysiert, aber die Ergebnisse für alle Gruppen werden in einer Tabelle dargestellt • Ausgabe nach Gruppen aufteilen: für jede Gruppe entsteht eine eigene Ausgabe 9.7 Teilmengen von Fällen auswählen Daten, Fälle auswählen... Entsprechende Fälle können ausgewählt werden. • Falls Bedingung zutrifft • Zufallsstichprobe • Nach Zeit- oder Fallbereich • Filtervariable verwenden 9.8 Erstellen einer Datei mit aggregierten Variablen Break-Variable(n): Die Ausgangsdatei hat mindestens eine Variable, die dann jeweils ein Fall der neuen Datei ist. Aggregierungsvariable(n): Ihre Werte kommen dadurch zustande, dass sämtliche Werte der Fälle einer Kategorie der Break-Variable zu einem einzigen Wert zusammengefasst werden. Daten, Aggregieren... Mag. Michael Kuttner (PHT) Seite 16 22.03.2009 SPSS – Skriptum 10 Zusammenhangsmaße (Assoziationsmaße) Zusammenhangsmaße werden berechnet, wenn man die Stärke des Zusammenhangs von zwei Variablen untersuchen möchte Analysieren, Deskriptive Statistiken, Kreuztabellen... Unter Statistik findet man die Zusammenhangsmaße Messniveau Nominal Chi-Quadrat-basierte Messung Relative Irrtumsreduktion Ordinal Rangkorrelationsmaße Auf paarweisen Vergleich beruhende Maßzahlen Maßzahl • • • Phi Koeffizien (für 2*2 Tabellen) Cramers V Kontingenzkoeffizient • • • Lammda λ Kruskals und Goodmans tau Unsicherheitskoeffizient • • Spearmans Rangkorrelationskoeffizient r Mantel-Haenszel Chi Quadrat • • • • Kendalls tau-b Kendalls tau-c Goodmans und Kruskals Gamma Somers d • Pearsonscher Produkt-Moment Korrelations-Koeffizient r • Eta (unabhängige Variable: nominal; abhängige Variable: mindestens intervall) Intervall Mischformen Sonderaufgaben Risikoeinschätzung: speziell für Kohorten- bzw. FallKontroll-Studien; nur für 2*2 Tabellen Jede nominalskalierte Variable, die zweifach abgestuft ist (dichotom), kann als ordinalskalierte Variable betrachtet werden. • 10.1 Bivariate Korrelation Beispiele für Streudiagramme: Mag. Michael Kuttner (PHT) Seite 17 22.03.2009 SPSS – Skriptum Die berechneten Werte sind interessant: 0 < r < 0,2 0,2 < r < 0,5 0,5 < r < 0,7 0,7 < r < 0,9 0,9 < r < 1 sehr geringe Korrelation geringe Korrelation mittlere Korrelation hohe Korrelation sehr hohe Korrelation +: positive Korrelation (hoher Wert der einen Variable bedeutet einen hohen Wert der anderen Variable) -: negative Korrelation (hoher Wert der einen Variable bedeutet einen niederen Wert der anderen Variable) Die Korrelation zweier Merkmale bedeutet nicht unbedingt einen funktionalen oder kausalen Zusammenhang! Korrelation ist nicht gleich Kausalität! Zwei voneinander unabhängige Variablen A und B können eine statistische Korrelation ausweisen, weil z.B. eine dritte Variable C (Moderatorvariable) sowohl auf A als auch auf B wirkt. Bei Vorliegen einer statistisch gemessenen Korrelation ohne Vorliegen eines Kausalzusammenhangs spricht man von Scheinkorrelationen. (z.B. positive, mittlere Korrelation zwischen Anzahl der Geburten und Anzahl der Störche in einer Region; mögliche Erklärung: Auf dem Land gibt es mehr Kinder und mehr Störche als in der Stadt!). Die Begründung für das Vorliegen eines Zusammenhangs zwischen Variablen sollte theoretisch bzw. durch Plausibilitätserklärung fundiert sein. Denkbar ist auch umgekehrt, dass ein tatsächlich bestehender Zusammenhang zwischen A und B durch den Einfluss von C statistisch verdeckt wird (verdeckte Korrelation). Der Aussage A korreliert mit B können mindestens folgende Verhältnisse zugrunde liegen: • A B (A ist Ursache oder Teilursache von B) • A B (B ist Ursache oder Teilursache von A) • A C B (Sowohl A als auch B hängen von einem oder mehreren Faktoren C ab.) • A B (A und B beeinflussen sich wechselseitig) Für einen kausalen Zusammenhang müssen mindestens folgende drei Bedingungen erfüllt sein: • Die beiden Variablen A und B sind statistisch miteinander assoziiert • Variable A liegt zeitlich vor Variable B • Die Verbindung zwischen den beiden Variablen A und B wird nicht aufgehoben, wenn die Effekte einer oder mehrerer anderer Variablen, die zeitlich vor oder gleichzeitig mit A oder B auftreten, eliminiert werden. Es werden auch Signifikanzprüfungen für die Korrelationskoeffizienten berechnet. Ein signifikanter Wert besagt, dass in der Grundgesamtheit diese Korrelation auch zu erwarten ist. Das Untermenü „Bivariat“ von „Korrelationen“ erlaubt die Berechnung drei verschiedener Korrelationskoeffizienten (Pearson, Kendall-Tau-b und Spearman). Analysieren, Korrelationen, Bivariat...(drei verschiedener Korrelationskoeffizienten, einseitige Prüfung, wenn eine Erwartung über die Richtung der Zusammenhänge besteht, Optionen) 10.2 Partielle Korrelation Eine Scheinkorrelation oder verdeckte Korrelation kann mit Hilfe der partiellen Korrelation aufgedeckt werden. Analysieren, Korrelationen, Partiell...(Kontrollvariablen!) Mag. Michael Kuttner (PHT) Seite 18 22.03.2009 SPSS – Skriptum 10.3 Distanz- und Ähnlichkeitsmaße Maße für die Unähnlichkeit von Objekten werden Distanzen genannt. Maße für die Ähnlichkeit von Objekten werden Ähnlichkeiten genannt. Alle Distanz- und Ähnlichkeitsmaße beruhen auf einem Vergleich von jeweils zwei Personen bzw. Objekten unter Berücksichtigung von mehreren Merkmalsvariablen. Vor der Distanzberechnung sollten die Messwerte transformiert werden (z-Transformation!) Analysieren, Korrelationen, Distanzen... Das Ergebnis zeigt an, welche Personen bzw. Objekte sich hinsichtlich der betrachteten Variablen stark ähnlich sind und welche sich stark unterscheiden 11 Lineare Regressionsanalyse Die Regressionsanalyse befasst sich mit der Untersuchung und Quantifizierung von Abhängigkeiten zwischen metrisch skalierten Variablen. Wesentliche Aufgabe dabei ist es, eine lineare Funktion zu finden, die die Abhängigkeit einer abhängige Variable (Kriterium) von einer oder mehreren unabhängigen Variablen (Prädiktoren) quantifiziert. Gibt es nur eine unabhängige Variable, dann spricht man von einer Einfachregression. Gibt es mehrere unabhängige Variablen, dann handelt es sich um eine Mehrfachoder multiplen Regression. Die Beziehung kann durch die lineare Gleichung yi = b0 + b1xi + b2xi + b3xi... dargestellt werden (b0 = Konstante, b1, b2, b3 ...heißen Regressionskoeffizienten). In der Regressionsanalyse geht es nicht nur um die numerische Bestimmung der Gleichung, sondern auch um die Bestimmung wie eng die Punkte des Streudiagramms sich um die gewonnenen Gleichung scharen. Dieses Maß heißt Bestimmtheitsmaß. Die in der Praxis vorherrschende Anwendungsform des Testens von Regressionskoeffizienten bezieht sich auf die Frage, ob für die Grundgesamtheit der Variablen ein (linearer) Regressionszusammenhang angenommen werden darf oder nicht. Ebenso ist zu prüfen, ob ein positiver linearer Zusammenhang oder ein negativer linearer Zusammenhang besteht. H0: kein linearer Zusammenhang H1:positiver oder negativer linearer Zusammenhang Analysieren, Regression, Linear... In der Tabelle „Modellzusammenfassung“ findet man das Bestimmtheitsmaß R2. Dieser Wert liegt irgendwo zwischen 0 und 1. Wenn dieser Wert nahezu 1 ist, dann spricht man von einem guten „Fit der Gleichung“. Das korrigierte R2 sollt man betrachten, wenn man die Qualität mehrerer Regressionsmodelle mit unterschiedlicher Anzahl an erklärenden Variablen miteinander vergleichen möchte. In der Tabelle „ANOVA“ wird die Signifikanz des Gesamtmodells untersucht. Es wird geprüft, ob die Variablen einen Erklärungsbeitrag leisten oder nicht. Im Vergleich zum t-Test wird deutlich, dass der FTest nur allgemein prüft, ob mehrere Erklärungsvariablen gemeinsam einen regressionsanalytischen Erklärungsbeitrag leisten. Weitere Schaltflächen: Statistik, Diagramme, Speichern, Optionen In der Tabelle „Koeffizienten“ werden die nicht standardisierten Koeffizienten (Spalte B beachten!), die standardisierten Koeffizienten (Koeffizienten können hier untereinander verglichen werden!), die T Werte und die Signifikanz für jede einzelne Variable ausgegeben. Die vorhergesagten Werte der Regressionsgleichung können mit Hilfe der Schaltfläche „Speichern“ (Vorhergesagte Werte – Nicht standardisiert ankreuzen) als neue Variable (PRE_1) in der Datendatei gespeichert werden! Mit den vorhergesagten Werten und den tatsächlichen Werten kann dann ein interessantes Streudiagramm erstellt werden. Mag. Michael Kuttner (PHT) Seite 19 22.03.2009 SPSS – Skriptum 12 Berichte 12.1 OLAP-Würfel Der OLAP-Würfel dient dazu, in Schichten gegliederte Tabellen zu erstellen. Analysieren, Berichte, OLAP-Würfel (Statistik: etliche Maße stehen zur Verfügung; Differenzen: verschiedenste Differenzen können gebildet werden; die ausgegebene Tabelle ist bereits durch Doppelklick zum Pivotieren aktiviert) 12.2 Fälle zusammenfassen Kennwerte können getrennt nach den Kategorien einer Gruppenvariable berechnet werden! Die Anzahl der ausgegebenen Fälle kann auch eingegeben werden Analysieren, Berichte, Fälle zusammenfassen 12.3 Berichte in Zeilen oder Spalten Beide erlauben es, gegliedert nach einer oder mehreren Gliederungsvariablen (Break-Variablen) zusammenfassende Statistiken zu erstellen. Statistiken für mindestens intervallskalierte Variablen. Der Bericht gibt die Maße für mehrere Variablen in einer Übersichtstabelle parallel an! Analysieren, Berichte, Berichte in Zeilen (Berichtsvariablen sind in Spalten) Analysieren, Berichte, Berichte in Spalten (Jede Maßzahl bildet eine Spalte) 13 Analysieren von Mehrfachantworten Mehrfachantworten müssen in SPSS zunächst in Form mehrer Elementarvariablen nach der multiple Dichotomien- oder multiple Kategorien-Methode abgespeichert werden. Zur Analyse können diese aber in Form von multiple Dichotomien- oder multiple Kategorien-Sets zusammengefasst werden. a) Multiple Dichotomien Methode: Für jede Antwortmöglichkeit wird eine eigene Variable mit ja (1) oder nein (0) definiert. b) Multiple Kategorien Methode: Hier muss zunächst die maximale Anzahl der möglichen Antworten bekannt sein. Für jede Antwortmöglichkeit wird dann eine eigene Variable gebildet und die Werte der Reihe nach eingegeben Mehrfachantworten-Sets können nicht gespeichert werden. Eine Wiederverwendung ist nur über die Speicherung der Syntax möglich! 13.1 Definieren von Mehrfachantworten-Sets Analysieren, Mehrfachantworten, Sets definieren..(Dichotomien oder Kategorien anklicken!) 13.2 Erstellen einer Häufigkeitstabelle Analysieren, Mehrfachantworten, Häufigkeiten... Die Spalte „Prozent“ gibt an, welchen Anteil der einzelnen Werte an allen Antworten hat. Die Spalte „Prozent der Fälle“ zeigt dagegen die Prozentuierung auf Basis der gültigen Fälle (die Gesamtsumme kann 100% übersteigen!) 13.3 Kreuztabellen für Mehrfachantworten-Sets Analysieren, Mehrfachantworten, Kreuztabellen...(Optionen) 14 Mittelwertvergleiche und t-Tests (parametrische Tests) Zur Prüfung einer Abhängigkeit wird berechnet, ob sich die Mittelwerte zwischen den verschiedenen Vergleichsgruppen unterscheiden oder nicht. Die abhängige Variable muss, da das arithmetische Mittel verwendet wird, zumindest auf dem intervallskaliert sein. Für die unabhängige Variable genügt dagegen Nominalskalenniveau. Mag. Michael Kuttner (PHT) Seite 20 22.03.2009 SPSS – Skriptum Für alle T-Tests: Es werden die untere und obere Schranke des 95% Konfidenzintervalls angegeben. Diese werden mit dem Standardfehler berechnet. In diesem Bereich liegt mit 95% Sicherheit der wahre Wert. Die entscheidende Frage lautet: Könnte der wahre Wert der Differenzen auch 0 sein? 14.1 Mittelwerte vergleichen Vergleich von zwei Mittelwerten unabhängige Variable: Nominalskalenniveau abhängige Variable: zumindest Intervallskalenniveau Analysieren, Mittelwerte vergleichen, Mittelwerte (Schicht: eine Kontrollvariable kann einbezogen werden! Zwei statistische Analyseverfahren werden angeboten: ANOVA-Tabelle und Eta bzw. Linearitätstest) 14.2 T-Test für eine Stichprobe Analysieren, Mittelwerte vergleichen, T-Test bei einer Stichprobe...(Testwert eintragen!) 14.3 T-Test für zwei unabhängige Stichproben Analysieren, Mittelwerte vergleichen, T-Test bei unabhängigen Stichproben... Levene-Test der Varianzengleichheit wird mitgeliefert und muss beachtet werden: keine Signifikanz ⇒ Varianzen sind gleich Signifikanz ⇒ Varianzen sind nicht gleich 14.4 T-Test für zwei abhängige (gepaarte) Stichproben Analysieren, Mittelwerte vergleichen, T-Test bei verbundenen Stichproben... Die abhängige Vergleichsgruppe besteht aus denselben Fällen für die aber eine Variable mehrfach gemessen wurde (z.B. zu einem anderen Zeitpunkt). Daher gepaarte Variablen eingeben! 14.5 Einfaktorielle Varianzanalyse (ANOVA) Varianzanalysen können nach zwei verschiedenen Methoden gerechnet werden: • Nach der herkömmlichen „klassischen“ Methode nach Fischer (Analysieren, Mittelwerte vergleichen, Einfaktorielle ANOVA...) • Nach der neueren Methode als „Allgemeines lineares Modell“ (Analysieren, Allgemeines lineares Modell, Univariat...) Mit der Varianzanalyse kann man mehre Mittelwerte zugleich untersuchen. Sie zeigt dabei auf, ob mindestens ein Unterschied zwischen multiplen Vergleichsgruppen signifikant ausfällt. Darüber, um welche oder welches es sich handelt, ermöglicht sie keine Aussage. Analysieren, Mittelwerte vergleichen, Einfaktorielle ANOVA... Optionen: Test auf Homogenität (Gleichheit) der Varianzen ist eine Voraussetzung der Varianzanalyse; Deskriptive Statistik ist auch sinnvoll! Die Betrachtung der 95%-Konfidenzintervalle (untere und obere Grenze) zeigt, ob sich die Konfidenzintervalle der verschiedenen Gruppen überschneiden oder nicht. Daraus kann man schon schließen, zwischen welchen Gruppen wahrscheinlich ein signifikanter Unterschied besteht. Die multiplen Vergleichstests sollen diese Frage klären. 14.5.1 Multiple Vergleiche (Schaltfläche „Post Hoc“) • Tests für Mehrfachvergleiche, die Varianzgleichheit voraussetzen Damit werden die Mittelwertsdifferenzen aller möglichen Paare von Gruppen auf statistische Signifikanz überprüft (LSD, Bonferroni, Sidak, Scheffè, Tukey (HSD), GT2 Hochberg, Gabriel, Dunnett) • Spannweiten-Tests Jeweils zwei Gruppen, die sich nicht unterscheiden, werden als neue homogene Gruppe ausgewiesen. (F nach R-E-G-W, Q nach R-E-G-W, SNK, Duncan, Turkey-B; Waller-Duncan Mag. Michael Kuttner (PHT) Seite 21 22.03.2009 SPSS – Skriptum Tests für Mehrfachvergleiche, die keine Varianzgleichheit voraussetzen (Tamhane-T2, Dunnett-T3, Games-Howell, Dunett-C) 14.5.2 Kontraste zwischen a priori definierten Gruppen (Schaltfläche „Kontraste“) Bestehen vor der Durchführung der Varianzanalyse Hypothesen darüber, welche Gruppen sich bezüglich der Mittelwerte unterscheiden, kann man dies mit Hilfe des Untermenüs „Kontraste“. Es werden daher nur festgelegte Paare auf signifikante Differenzen hin überprüft. Die zwei Gruppen, die man zum Vergleich auswählt, bekommen Koeffizienten zugeordnet. (z.B. –1 bzw. +1) Die Gruppe, die nicht in die Auswahl kommt, erhält den Koeffizient 0. Sollen mehrere Ursprungsgruppen zu einer neuen zusammengefasst werden, bekommen sie den gleichen Koeffizienten (z.B. 0,5 und 0,5). Alle Koeffizienten müssen aber zusammen 0 ergeben! • 14.6 Mehr-Weg-Varianzanalyse Die Mehr-Weg-Varianzanalyse unterscheidet sich von der einfaktoriellen Varianzanalyse dadurch, dass nicht ein, sondern zwei oder mehr Faktoren zur Erklärung der Kriteriumsvariable verwendet werden. Den Beitrag der Hauptvariablen nennt man Haupteffekte. Effekte, die auf spezifische Faktoren zurückzuführen sind, bezeichnet man als Interaktionseffekte. Ist eine Interaktion signifikant, sind alle Tests der Haupteffekte hinfällig. 14.6.1 Faktorielle Designs mit gleicher Zellhäufigkeit Gleiche Zahl der Fälle in den einzelnen Zellen. Analysieren, Allgemeines lineares Modell, Univariat...(Abhängige Variable, Feste Faktoren, Diagramme) 14.6.2 Faktorielle Designs mit ungleicher Zellhäufigkeit Ungleiche Zahl der Fälle in den einzelnen Zellen Kovarianzanalyse: Die Einführung einer Kovariate heißt, dass zusätzlich zu den kategorialen Faktoren eine metrisch gemessene unabhängige Variable in die Analyse eingeführt wird. Modellbildung: Zweierlei Arten sind möglich Auswahl von Faktoren und Kovariaten: „Gesättigtes Modell“ oder „Anpassen“ Berechnung der Quadratsummen: Typ I, Typ II, Typ III und Typ IV Analysieren, Allgemeines lineares Modell, Univariat...(Abhängige Variable, Feste Faktoren, Kovariaten; Modell, Optionen) 14.6.3 Mehrfachvergleiche zwischen Gruppen Zweierlei Möglichkeiten: Ausgabe von Mittelwerten oder Mittelwertdifferenzen: Deskriptive Statistik, Mittelwerte anzeigen für, Kontraste Signifikanztests für paarweise Mittelwertvergleiche: Haupteffekte vergleichen, Post hoc Ebenso können multiple Vergleiche Post Hoc und Kontraste zwischen a priori definierten Gruppen berechnet werden! 15 Nichtparametrische Tests Die zu testenden Variablen haben Ordinal- bzw. Nominalskalen oder die zu testenden Variablen sind nicht normalverteilt (verteilungsfreie Tests). Dem Vorteil wenig restriktiver Anwendungsbedingungen steht der Nachteil gegenüber, dass nichtparametrische Tests nicht so trennscharf sind wie parametrische, und zwar deshalb, weil Annahmen über die Verteilung nicht einfließen. Nichtparametrische Tests beruhen auf Rangziffern oder Häufigkeiten der Variablen. 15.1 Tests für eine Stichprobe 15.1.1 Chi-Quadrat-Test (Anpassungstest) Hier geht es darum, ob sich für eine Zufallsstichprobe eine Variable in ihrer Häufigkeitsverteilung signifikant von erwarteten Häufigkeiten der Grundgesamtheit unterscheidet. Mag. Michael Kuttner (PHT) Seite 22 22.03.2009 SPSS – Skriptum Analysieren, Nichtparametrische Tests, Chi-Quadrat...(Erwartete Werte: Alle Kategorien gleich oder Werte eingeben, Optionen, Exakte Tests) 15.1.2 Binominal-Test Eine Binominalverteilung ist eine Wahrscheinlichkeitsverteilung für eine Variable, die nur zwei Werte annimmt (dichotome Variable). Mit Hilfe der Binominalverteilung lässt sich testen, ob ein prozentualer Häufigkeitsanteil für eine Variable in der Stichprobe mit dem der Grundgesamtheit vereinbar ist. Analysieren, Nichtparametrische Tests, Binominal...(Testanteil eingeben) 15.1.3 Sequenz-Test (Runs-Test) für eine Stichprobe Dieser Test ermöglicht es zu prüfen, ob die Reihenfolge der Werte einer Variable in einer Stichprobe (und damit die Stichprobe) zufällig ist. Angewendet wird dieser Test z.B. in der Qualitätskontrolle und bei Zeitreihenanalysen. Analysieren, Nichtparametrische Tests, Sequenzen... 15.1.4 Kolmogorov-Smirnov-Test für eine Stichprobe Dieser Test hat die Aufgabe zu prüfen, ob die Verteilung einer Stichprobenvariable mit einer theoretischen Verteilung übereinstimmt oder nicht (Anpassungstest). Analysieren, Nichtparametrische Tests, K-S bei einer Stichprobe...(Testverteilung: Normal, Poisson, Gleichverteilung, Exponentiell) Er dient zur Überprüfung der Verteilungsform (Normal-, Poisson-, Gleich- und exponentielle Verteilung). p < 0,05 bedeutet eine signifikante Abweichung von der Normalverteilung (Verwendung von nichtparametrischen Tests!) 15.2 Tests für 2 unabhängige Stichproben 15.2.1 Mann-Whitney U-Test Dieser Test ist die Alternative zum parametrischen t-Test für den Vergleich von zwei Mittelwerten von Verteilungen, wenn die Voraussetzungen für den t-Test nicht erfüllt sind: keine metrischen Daten und/oder keine Normalverteilung. Die Variable muss mindestens ordinalskaliert sein. Analysieren, Nichtparametrische Tests, Zwei unabhängige Stichproben...(Mann-Whitney U-Test, die einseitige exakte Signifikanz kann mit „Exakter Test“ berechnet werden) 15.2.2 Moses-Test bei extremer Reaktion Dieser Test eignet sich dann, wenn man erwartet, dass bei experimentellen Tests unter bestimmten Testbedingungen manche Personen stark in einer Weise und andere Personen stark in einer entgegengesetzten Weise reagieren. Insofern stellt der Test Unterschiede in den Streuungen fest. Analysieren, Nichtparametrische Tests, Zwei unabhängige Stichproben...(Extremreaktionen nach Mose) 15.2.3 Kolmogorov-Smirnov Z-Test Im Vergleich zum Mann-Whitney U-Test prüft der Test jegliche Abweichung der Verteilungen (zentrale Tendenz, Streuung etc.) Analysieren, Nichtparametrische Tests, Zwei unabhängige Stichproben...(Kolmogorov-Smirnov Z) 15.2.4 Wald-Wolfowitz-Test Auch dieser Test prüft jegliche Abweichung der Verteilungen (zentrale Tendenz, Streuung etc.) Er ist eine Alternative zum Kolmogorov-Smirnov Z-Test. Er ist ein Sequenzentest. Analysieren, Nichtparametrische Tests, Zwei unabhängige Stichproben...(Wald-WolfowitzSequenzen) 15.3 Test für k unabhängige Stichproben Bei diesen Tests wird geprüft, ob sich k (drei oder mehr) Gruppen unterscheiden oder nicht. Dies entspricht bei den parametrischen Tests der einfaktoriellen Varianzanalyse (Voraussetzung: Normalverteilung, gleiche Varianzen, mindestens Intervallskalenniveau). Interessiert man sich im Signifikanzfalle dafür, welche Gruppen sich im einzelnen signifikant voneinander unterscheiden, muss man die Gruppen paarweise gegeneinander testen (Mann-Whitney UTest). Mag. Michael Kuttner (PHT) Seite 23 22.03.2009 SPSS – Skriptum 15.3.1 Kruskal-Wallis H-Test Er eignet sich gut zur Prüfung auf eine unterschiedliche zentrale Tendenz von Verteilungen. Er ist eine einfaktorielle Varianzanalyse für Rangziffern. Analysieren, Nichtparametrische Tests, K unabhängige Stichproben...(Kruskal-Wallis H) 15.3.2 Median-Test Geprüft wird, ob die Stichproben aus Grundgesamtheiten mit gleichen Medianen stammen. Daher ist er ein sehr allgemeiner Test. Analysieren, Nichtparametrische Tests, K unabhängige Stichproben...(Median) 15.3.3 Jonckheere-Terpstra-Test In manchen Untersuchungen hat man die Situation, dass eine Wirkungsrichtung angenommen werden kann. Analysieren, Nichtparametrische Tests, K unabhängige Stichproben...(Jonckheere-Terpstra) 15.4 Tests für 2 verbundene Stichproben Bei diesem Testtyp möchte man prüfen, ob eine Maßnahme oder Aktivität wirksam ist oder nicht und bildet zwei Stichprobengruppen: eine Experiment- und eine Kontrollgruppe (matched pairs: die Paare werden derart gebildet, dass sich ein Paar hinsichtlich wichtiger sonstiger relevanter Einflussfaktoren nicht unterscheidet ⇒ verbunden Stichprobe). 15.4.1 Wilcoxon-Test Der Test eignet sich, wenn Unterschiede in der zentralen Tendenz von Verteilungen geprüft werden sollen. Der Test beruht auf Rängen von Differenzen in den Variablenwerten. Analysieren, Nichtparametrische Tests, Zwei verbundene Stichproben...(Wilcoxon) 15.4.2 Vorzeichen-Test Im Unterschied zum Wilcoxon-Test gehen nur die Vorzeichen der Differenzen, nicht aber die Größen der Differenzen in Form von Rangziffern in das Testverfahren ein. Analysieren, Nichtparametrische Tests, Zwei verbundene Stichproben...(Vorzeichen) 15.4.3 McNemar-Test Dieser Test eignet sich für ein „vorher-nachher“-Testdesign mit dichotomen Variablen und testet Häufigkeitsunterschiede. Analysieren, Nichtparametrische Tests, Zwei verbundene Stichproben...(McNemar) 15.4.4 Rand-Homogenitätstest Dieser Test ist eine Verallgemeinerung des McNemar-Tests. Anstelle von zwei (binären) Kategorien (vorher - nachher) werden mehr als zwei Kategorien berücksichtigt. Dabei muss es sich um geordnete Kategorien handeln. Analysieren, Nichtparametrische Tests, Zwei verbundene Stichproben...(Rand-Homogenität) 15.5 Tests für k verbundene Stichproben Hier geht es um Prüfung von Unterschieden zwischen drei und mehr Stichproben bzw. Gruppen, wobei es sich um abhängige bzw. verbundene Stichproben handelt. 15.5.1 Friedman-Test Es handelt sich um einen allgemeinen Test, der auf Unterschiede prüft ohne aufzudecken, um welche Unterschiede es sich handelt. Analysieren, Nichtparametrische Tests, K verbundene Stichproben...(Friedman) 15.5.2 Kendall`s W-Test Der Test ist dem von Friedman äquivalent. Analysieren, Nichtparametrische Tests, K verbundene Stichproben...(Kendall-W) 15.5.3 Cochran Q-Test Dieser Test entspricht dem McNemar-Test mit dem Unterschied, dass er für mehr als zwei dichotome Variablen angewendet werden kann. Analysieren, Nichtparametrische Tests, K verbundene Stichproben...(Cochran-Q) Mag. Michael Kuttner (PHT) Seite 24 22.03.2009 SPSS – Skriptum 16 Exakte Tests Beim Testen von Hypothesen werden Testverteilungen (z.B. t-Verteilung, Standardnormalverteilung, Chi-Quadrat-Verteilung) verwendet. Dabei handelt es sich um eine Approximation. Die Prüfgröße entspricht annähernd einer theoretischen Verteilung. Je größer der Stichprobenumfang ist, umso besser ist die Approximation. Man spricht daher von asymptotischen Tests. Diese asymptotischen Tests können aber zu falschen Ergebnissen führen, wenn der Stichprobenumfang zu klein oder die Stichprobe nicht ausgewogen ist (z.B. Zellenbesetzungen in den Kreuztabellen). Daher muss man bei kleinen und unausgewogenen Stichproben exakte Tests durchführen. Bei solchen Tests werden die Wahrscheinlichkeitsverteilungen der Prüfgrößen eigens für die Daten einer vorliegenden Stichprobe berechnet. SPSS bietet neben den asymptotischen Tests und der exakten Berechnung auch eine Schätzung des exakten Wertes an (Monte-Carlo-Verfahren: aus der Verteilung der Prüfgröße werden z.B. 10000 ausgewählt). Bei Stichprobenumfängen ≤ 30 und 3*3-Kreuztabellen bzw. kleiner ist aber eine exakte Berechnung von p einigermaßen schnell möglich. Falls SPSS die Prozedur mangels Speicherplatzes abbricht, sollte man das Monte-Carlo-Verfahren einsetzten. Analysieren, Deskriptive Statistiken, Kreuztabellen... Exakt: Nur asymptotisch; Monte Carlo; Exakt 17 Faktorenanalyse Bei der Faktorenanalyse handelt es sich um eine Sammlung von Verfahren, die es erlauben, eine Anzahl von Variablen auf eine kleinere Anzahl von Faktoren (oder Komponenten) zurückzuführen. Ziele der Faktorenanalyse: • Aufdecken latenter Strukturen • Datenreduktion: viele Variablen sollen durch Faktoren ersetzt werden • Entwicklung und Überprüfung eines Messinstruments: Test Schritte einer Faktorenanalyse: • Vorbereitung einer Korrelationsmatrix der Beobachtungsvariablen • Extraktion der Ursprungsfaktoren • Rotation zur endgültigen Lösung und Interpretation der Faktoren • Eventuelle Berechnung der Faktorwerte für die Fälle und Speicherung als neue Variable Voraussetzung: normalverteilte, metrisch skalierte, untereinander korrelierte Merkmalsvariablen. Ergebnis: normalverteilte, metrisch skalierte, nicht unmittelbar beobachtbare Variablen (Faktoren). Analysieren, Dimensionsreduktion, Faktorenanalyse Extraktion: Hauptkomponenten oder Hauptachsen-Faktorenanalyse, Nicht rotierte Faktorlösung, Screeplot Rotation: Varimax Optionen: Fehlende Werte durch Mittelwerte ersetzen, Sortiert nach Größe, Unterdrücken von Absolutwerten kleiner als 0,3 Die Kommunalität einer Variable gibt an, in welchem Ausmaß diese Variable durch die Faktoren aufgeklärt bzw. erfasst wird. Der Eigenwert eines Faktors gibt an, wie viel von der Gesamtvarianz aller Variablen durch diesen Faktor erfasst wird. Ein Scree-Plot ist die Darstellung der Eigenwerte in einem Diagramm, geordnet in abfallender Reihenfolge. Interessant sind die Faktorenladungen (rotierte Komponentenmatrix)und die Eigenwerte der Faktoren (Erklärte Gesamtvarianz)! Mag. Michael Kuttner (PHT) Seite 25 22.03.2009 SPSS – Skriptum 18 Clusteranalyse Bei der Clusteranalyse handelt es sich um ein Verfahren mit der Zielsetzung, Fälle (für die mehrer Variablen vorliegen), derart in Gruppen (Cluster) zusammen zu fassen, dass in einem Cluster hinsichtlich der Variablen möglichst gleichartige (ähnliche) Fälle enthalten sind (Homogenität). Die gebildeten Cluster sollen sich dann möglichst stark voneinander unterscheiden (Heterogenität). Drei grundlegende Verfahren: 18.1 Hierarchische Clusteranalyse Sie bietet sehr detaillierte Analysemöglichkeiten und ist vor allem für kleine Datensätze geeignet. Es können sowohl metrische als auch nichtmetrische Daten genutzt werden. Sie kann auch für das Clustern von Variablen verwendet werden. Die hirarchische Clusteranalyse arbeitet mit Ähnlichkeits- oder Distanzmaßen. Die verschiedenen Verfahren der hierarchischen Clusteranalyse unterscheiden sich darin, wie die Distanzen zwischen Objekten und Cluster und zwischen Clusterpaaren berechnet werden. Analysieren, Klassifizieren, Hierarchische Cluster... Methode: Zentroid-Clustering/Quadrierter Euklidischer Abstand Statistik: Zuordnungsübersicht, Distanz-Matrix, Cluster-Zugehörigkeit Diagramm: Alle Cluster, Angegebener Clusterbereich, Dendogramm Speichern: Die Clusterzugehörigkeit wird unter einem Variablennamen in der Arbeitsdatei gespeichert. Die Ergebnisausgabe „Vertikales Eiszapfendiagramm“ werden die Clusterlösungen der einzelnen Hierarchistufen grafisch dargestellt. 18.2 Clusterzentrenanalyse Dieses Verfahren eignet sich nur für metrische Verfahren. Bei diesem Verfahren ist die Anzahl der zu bildenden Cluster vorzugeben. Das Verfahren hat dann die Aufgabe, eine optimale Zuordnung der Objekte zu den Cluster vorzunehmen. Dieses Verfahren kann auch bei sehr großen Datensätzen angewendet werden. Zweckmäßig ist es, mit einer hierarchischen Methode zunächst die Anzahl der Cluster zu bestimmen und dann mit der Clusterzentrenanalyse die Clusterlösung zu verbessern. Analysieren, Klassifizieren, Clusterzentrenanalyse... Anzahl der Cluster eingeben! Clusterzentren: man könnte Anfangswerte für Clusterzentren bereitstellen Iterieren: der Iterationsprozess des Auffindens einer optimalen Lösung kann hier beeinflusst werden Speichern: die endgültige Clusterzugehörigkeit und die Distanz der Fälle vom jeweiligen Clusterzentrum werden in einer neuen Variable in der Arbeitsdatei gespeichert. Optionen: Statistik und Vorgehen bei fehlenden Werten 18.3 Two-Step-Clusteranalyse Dieses Verfahren stellt im gewissen Sinne eine Kombination aus den beiden anderen Verfahren da. Es können gleichzeitig metrische als auch kategoriale Variablen verwendet werden. Die optimale Anzahl der Cluster kann vom Verfahren bestimmt werden (optional). Das Verfahren ist für sehr große Datensätze geeignet und es können Ausreißerfälle separiert werden (optional). Die Two-Step-Clusteranalyse ist ein robustes Verfahren, das in der Regel brauchbare Cluster-Ergebnisse liefert. Analysieren, Klassifizieren, Two-Step-Clusteranalyse... Obergrenze der Clusteranzahl eingeben. Optionen: Behandlung von Ausreißern, Standardisierung von Variablen, Speicherzuweisung Diagramme: „Prozentdiagramm im Cluster“ erzeugt für jede kategoriale Variable ein gruppiertes Balkendiagramm; Gestapeltes Kreisdiagramm; Wichtigkeitsdiagramme für Variablen Ausgabe: Statistiken; Arbeitsdatei (Clusterzugehörigkeit wird in einer Variable gespeichert); XMLDateien Es ist problematisch, wenn bei einer Clusteranalyse die verwendeten Variablen korrelieren. Eine Faktorenanalyse sollt man dann vorschalten, um die Variablen auf einige Faktoren zu reduzieren. Mag. Michael Kuttner (PHT) Seite 26 22.03.2009 SPSS – Skriptum 19 Regressionseffekt Die Wahrscheinlichkeit, dass extreme Messwerte sich bei einer zweiten Testung dem Mittelwert nähern, ist größer als die Wahrscheinlichkeit, dass sie sich weiter von ihm entfernen, also noch extremer werden. Dies ist der bekannte Regressionseffekt (Regression zum Mittelwert, Regression zur Mitte). Je weiter der Gruppendurchschnitt vom Populationsmittel abweicht, desto größer fällt der statistische Regressionseffekt aus. 20 Interaktive Grafiken erzeugen und gestalten Im Unterschied zu herkömmlichen Grafiken wird das Überarbeiten von Grafiken im Ausgabefenster und nicht im Diagramm-Editor vorgenommen. Grafiken, Interaktiv Grafiktyp auswählen; Variablen müssen hinübergezogen werden; Variablen können mit der rechten Maustaste umgestellt werden (Kategorial-Metrisch) $CASE = Fall $COUNT = absolute Häufigkeit $PCT = prozentuale Häufigkeit Um Grafiken zu verändern muss man im Viewer durch Doppelklick auf die Grafik die Bearbeitung aktiv gestalten. 21 Herkömmliche Grafiken erzeugen Herkömmliche Grafiken können erst durch Übergabe der Grafik in den Diagramm Editor (Doppelklick auf das Diagramm) überarbeitet werden. 21.1 Balkendiagramme Grafiken, Veraltete Dialogfelder, Balken... Wahlmöglichkeit: Einfach, Gruppiert, Gestapelt bzw. Daten im Diagramm 21.2 3D-Balkendiagramme Grafiken, Veraltete Dialogfelder, 3D-Balken... X-Achse steht für Fallgruppen, verschiedene Variablen, einzelne Fälle! Z-Achse steht für Fallgruppen, verschiedene Variablen, einzelne Fälle! 21.3 Liniendiagramme Grafiken, Veraltete Dialogfelder, Linie... Wahlmöglichkeiten: Einfach, Mehrfach, Verbundlinie bzw. Daten im Diagramm 21.4 Flächendiagramme Grafiken, Veraltete Dialogfelder, Flächen... Wahlmöglichkeiten: Einfach, Gestapelt bzw. Daten im Diagramm 21.5 Kreisdiagramme Grafiken, Veraltete Dialogfelder, Kreise... Wahlmöglichkeiten: Daten im Diagramm 21.6 Hoch-Tief-Diagramm Grafiken, Veraltete Dialogfelder, Hoch-Tief... Wahlmöglichkeiten: Einfach Hoch-Tief-Schluss, Gruppiert Hoch-Tief-Schluss, Differenzbereich, Einfach Bereichsbalken, Gruppiert Bereichsbalken bzw. Daten im Diagramm Mag. Michael Kuttner (PHT) Seite 27 22.03.2009 SPSS – Skriptum Hoch-Tief-Schluss-Diagramme eignen sich zur Darstellung der Entwicklung von Aktien- und Währungskursen. Bereichsbalkendiagramme können die Differenzen der Häufigkeiten von zwei Gruppen in Form eines Balkens darstellen. Differenzliniendiagramme sind ähnlich den Bereichsbalkendiagrammen. Es werden die Differenzen in Form von Linien dargestellt. 21.7 Boxplot-Diagramme Grafiken, Veraltete Dialogfelder, Boxplot... Wahlmöglichkeiten: Einfach, Gruppiert bzw. Daten im Diagramm In einem Boxplot-Diagramm wird für jede Kategorie die Streuung einer Variable grafisch dargestellt. 21.8 Fehlerbalkendiagramme Grafiken, Veraltete Dialogfelder, Fehlerbalken... Wahlmöglichkeiten: Einfach, Gruppiert bzw. Daten im Diagramm In einem Fehlerbalkendiagramm können Konfidenzbereiche für den unbekannten Mittelwert der Grundgesamtheit bzw. Streuungsbereiche der metrischen Variable dargestellt werden. 21.9 Populationspyramiden Grafiken, Veraltete Dialogfelder, Populationspyramide... Wahlmöglichkeiten: Häufigkeiten Bei Populationspyramiden werden für verschiedene Altersgruppen (senkrechte Achse) die Häufigkeit von Männern und Frauen (waagrechte Achse) in einer Grafik aufbereitet. 21.10Streu-/Punktdiagramme Grafiken, Veraltete Dialogfelder, Streu-/Punktdiagramm... Wahlmöglichkeiten: Einfaches Streudiagramm, Überlagertes Streudiagramm, Matrix-Streudiagramm, 3D-Streudiagramm, Einfaches Punktdiagramm 21.11Histogramme Grafiken, Veraltete Dialogfelder, Histogramm... Wahlmöglichkeiten: Normalverteilungskurve anzeigen 22 Prinzipien für die Frageformulierung • • • • • • • • • • • • • • Einfache und klare Formulierungen verwenden. Fragen bzw. Aussagen müssen vom Befragten eindeutig interpretiert werden können. Sie sollten sich auf die Einstellungen beziehen, um die es geht. Möglichst kurze Fragen bzw. Aussagen verwenden. Sie sollten immer nur einen Gedanken enthalten. Sie sollten den gesamten affektiven Bereich der interessierenden Einstellung abdecken. Sie sollten aus einfachen Sätzen und nicht aus Satzgefügen oder Satzverbindungen bestehen. Keine Worte verwenden, die den Befragten unverständlich sein könnten. Sie sollten keine doppelte Verneinung enthalten. Worte wie „alle“, „immer“ und „kaum“ lediglich in Ausnahmefällen verwenden. Auf die Gegenwart beziehen. Sie sollten keine Tatsachen beschreiben oder als Tatsachenbeschreibungen aufgefasst werden können. Keine Fragen oder Aussage verwenden, die alle Befragten ablehnen oder denen alle zustimmen. Sie müssen sich auf das Forschungsproblem und Forschungsziel beziehen. Mag. Michael Kuttner (PHT) Seite 28 22.03.2009 SPSS – Skriptum • • • • • • • • • • Die Notwendigkeit aller Fragen überprüfen. Keine Suggestivfragen verwenden. (Antwort ist bereits vorgegeben). Sozial erwünschte Fragen vermeiden. Fragerichtung ausbalancieren („Ja“ – „Nein“ Antworten gleich verteilen). Die Kompetenz der Befragten berücksichtigen. Alle Antwortalternativen vorgeben. „Lügenfragen“ zur Überprüfung der „ehrlichen“ Antworten einbauen. Fragen über persönliche oder intime Probleme des Befragten sind problematisch. Umfang der Befragung berücksichtigen. „Rücklaufquote“ und „fehlende Werte“ beachten. Mag. Michael Kuttner (PHT) Seite 29 22.03.2009