SUPERIOR PERFORMING SOFTWARE SYSTEM

Werbung
SPSS – Skriptum
SPSS
(SUPERIOR PERFORMING SOFTWARE SYSTEM)
Grundlage SPSS-Version 15.0
1
2
3
4
5
6
7
8
Qualitative und quantitative Forschungsmethoden ...............................................................................4
1.1
Qualitative Methoden: ...................................................................................................................4
1.2
Quantitative Methoden: .................................................................................................................4
Statistische Grundbegriffe .....................................................................................................................4
2.1
Skalenniveau:.................................................................................................................................4
2.2
Homogene Varianzen ....................................................................................................................4
2.3
Normalverteilung:..........................................................................................................................5
2.4
Die gebräuchlichsten Testnormskalen im Vergleich:....................................................................5
2.5
Abhängige und unabhängige Stichproben: ....................................................................................6
2.6
Aufgliederung der Statistik............................................................................................................6
2.7
Hypothesen ....................................................................................................................................8
2.8
Konfidenzintervall .........................................................................................................................8
2.9
Irrtumswahrscheinlichkeit p ..........................................................................................................9
2.10 Population/Stichprobe/Stichprobengröße ....................................................................................10
2.11 Vorgehen bei statistischen Hypothesenprüfungen.......................................................................10
2.12 Übersicht über die gängigen Tests...............................................................................................11
Kodierplan ...........................................................................................................................................11
SPSS – Ansicht ....................................................................................................................................12
4.1
Daten Editor: Dateneingabe.........................................................................................................12
4.2
SPSS-Viewer: Datenausgabe.......................................................................................................12
4.3
Diagramm Editor: ........................................................................................................................12
4.4
Syntax-Editor...............................................................................................................................12
Kreuztabellen/Chi-Quadrat-Einzeltest (asymptotischer).....................................................................12
5.1.1
Signifikanzniveau ................................................................................................................12
Symbolleiste ........................................................................................................................................13
6.1
Fall einfügen ................................................................................................................................13
6.2
Variable einfügen.........................................................................................................................13
6.3
Fall finden ....................................................................................................................................13
6.4
Variable finden ............................................................................................................................13
6.5
Datenwert suchen.........................................................................................................................13
6.6
Dublettensuche ............................................................................................................................13
6.7
Wertelabels ..................................................................................................................................13
6.8
Drucken........................................................................................................................................13
6.9
Speichern .....................................................................................................................................13
6.10
Datei aufteilen..............................................................................................................................14
6.11
Fälle auswählen ...........................................................................................................................14
6.12
Gewichten von Fällen ..................................................................................................................14
6.13
Variablen-Sets definieren und verwenden...................................................................................14
Umdefinieren und Übertragen von Variableneigenschaften ...............................................................14
Transformieren von Daten...................................................................................................................14
8.1
Berechnen neuer Variablen..........................................................................................................14
8.2
Verwenden von Bedingungsausdrücken......................................................................................14
8.3
Umkodieren von Werten..............................................................................................................14
8.4
Automatisches Umkodieren.........................................................................................................15
8.5
Klassifizieren und Kategorisieren von Daten (Bereichseinteiler) ...............................................15
8.6
Zählen des Auftretens bestimmter Werte ....................................................................................15
Mag. Michael Kuttner (PHT)
Seite 1
22.03.2009
SPSS – Skriptum
8.7
Transformieren in Rangwerte ......................................................................................................15
8.8
Transformieren von Datums- und Uhrzeit...................................................................................15
8.9
Transformieren von Zeitreihendaten ...........................................................................................15
9
Transformieren von Dateien ................................................................................................................15
9.1
Daten sortieren.............................................................................................................................15
9.2
Transponieren von Fällen und Variablen ....................................................................................15
9.3
Daten umstrukturieren .................................................................................................................15
9.4
Hinzufügen neuer Fälle................................................................................................................15
9.5
Hinzufügen neuer Variablen........................................................................................................16
9.6
Aufteilen von Daten in Gruppen..................................................................................................16
9.7
Teilmengen von Fällen auswählen ..............................................................................................16
9.8
Erstellen einer Datei mit aggregierten Variablen ........................................................................16
10
Zusammenhangsmaße (Assoziationsmaße).....................................................................................17
10.1 Bivariate Korrelation ...................................................................................................................17
10.2 Partielle Korrelation.....................................................................................................................18
10.3 Distanz- und Ähnlichkeitsmaße...................................................................................................19
11
Lineare Regressionsanalyse.............................................................................................................19
12
Berichte............................................................................................................................................20
12.1 OLAP-Würfel ..............................................................................................................................20
12.2 Fälle zusammenfassen .................................................................................................................20
12.3 Berichte in Zeilen oder Spalten ...................................................................................................20
13
Analysieren von Mehrfachantworten ..............................................................................................20
13.1 Definieren von Mehrfachantworten-Sets.....................................................................................20
13.2 Erstellen einer Häufigkeitstabelle................................................................................................20
13.3 Kreuztabellen für Mehrfachantworten-Sets.................................................................................20
14
Mittelwertvergleiche und t-Tests (parametrische Tests) .................................................................20
14.1 Mittelwerte vergleichen ...............................................................................................................21
14.2 T-Test für eine Stichprobe ...........................................................................................................21
14.3 T-Test für zwei unabhängige Stichproben...................................................................................21
14.4 T-Test für zwei abhängige (gepaarte) Stichproben .....................................................................21
14.5 Einfaktorielle Varianzanalyse (ANOVA)....................................................................................21
14.5.1
Multiple Vergleiche (Schaltfläche „Post Hoc“) ..................................................................21
14.5.2
Kontraste zwischen a priori definierten Gruppen (Schaltfläche „Kontraste“) ....................22
14.6 Mehr-Weg-Varianzanalyse..........................................................................................................22
14.6.1
Faktorielle Designs mit gleicher Zellhäufigkeit ..................................................................22
14.6.2
Faktorielle Designs mit ungleicher Zellhäufigkeit ..............................................................22
14.6.3
Mehrfachvergleiche zwischen Gruppen ..............................................................................22
15
Nichtparametrische Tests.................................................................................................................22
15.1 Tests für eine Stichprobe .............................................................................................................22
15.1.1
Chi-Quadrat-Test (Anpassungstest).....................................................................................22
15.1.2
Binominal-Test ....................................................................................................................23
15.1.3
Sequenz-Test (Runs-Test) für eine Stichprobe....................................................................23
15.1.4
Kolmogorov-Smirnov-Test für eine Stichprobe..................................................................23
15.2 Tests für 2 unabhängige Stichproben ..........................................................................................23
15.2.1
Mann-Whitney U-Test.........................................................................................................23
15.2.2
Moses-Test bei extremer Reaktion ......................................................................................23
15.2.3
Kolmogorov-Smirnov Z-Test ..............................................................................................23
15.2.4
Wald-Wolfowitz-Test ..........................................................................................................23
15.3 Test für k unabhängige Stichproben ............................................................................................23
15.3.1
Kruskal-Wallis H-Test.........................................................................................................24
15.3.2
Median-Test .........................................................................................................................24
Mag. Michael Kuttner (PHT)
Seite 2
22.03.2009
SPSS – Skriptum
15.3.3
Jonckheere-Terpstra-Test ....................................................................................................24
15.4 Tests für 2 verbundene Stichproben ............................................................................................24
15.4.1
Wilcoxon-Test .....................................................................................................................24
15.4.2
Vorzeichen-Test...................................................................................................................24
15.4.3
McNemar-Test .....................................................................................................................24
15.4.4
Rand-Homogenitätstest........................................................................................................24
15.5 Tests für k verbundene Stichproben ............................................................................................24
15.5.1
Friedman-Test......................................................................................................................24
15.5.2
Kendall`s W-Test.................................................................................................................24
15.5.3
Cochran Q-Test....................................................................................................................24
16
Exakte Tests.....................................................................................................................................25
17
Faktorenanalyse ...............................................................................................................................25
18
Clusteranalyse..................................................................................................................................26
18.1 Hierarchische Clusteranalyse.......................................................................................................26
18.2 Clusterzentrenanalyse ..................................................................................................................26
18.3 Two-Step-Clusteranalyse.............................................................................................................26
19
Regressionseffekt.............................................................................................................................27
20
Interaktive Grafiken erzeugen und gestalten ...................................................................................27
21
Herkömmliche Grafiken erzeugen...................................................................................................27
21.1 Balkendiagramme ........................................................................................................................27
21.2 3D-Balkendiagramme..................................................................................................................27
21.3 Liniendiagramme.........................................................................................................................27
21.4 Flächendiagramme.......................................................................................................................27
21.5 Kreisdiagramme...........................................................................................................................27
21.6 Hoch-Tief-Diagramm ..................................................................................................................27
21.7 Boxplot-Diagramme ....................................................................................................................28
21.8 Fehlerbalkendiagramme ..............................................................................................................28
21.9 Populationspyramiden .................................................................................................................28
21.10
Streu-/Punktdiagramme ...........................................................................................................28
21.11
Histogramme............................................................................................................................28
22
Prinzipien für die Frageformulierung ..............................................................................................28
Mag. Michael Kuttner (PHT)
Seite 3
22.03.2009
SPSS – Skriptum
1 Qualitative und quantitative Forschungsmethoden
1.1 Qualitative Methoden:
Qualitative Verfahren werden oft benutzt, wenn der Forschungsgegenstand neu ist oder um das
Forschungsgebiet zu explorieren und Hypothesen zu entwickeln.
1.2 Quantitative Methoden:
Quantitative Methoden setzen Hypothesen voraus, die dann getestet werden. Quantitative Methoden
zielen auf eine systematische Messung und Auswertung von sozialen Fakten mit Hilfe verschiedener
Erhebungsinstrumente ab.
2 Statistische Grundbegriffe
2.1 Skalenniveau:
Messniveau
Nominalskalierte Variablen
Ordinalskalierte Variablen:
Intervallskalierte Variablen:
Verhältnisskalierte Variablen:
Mögliche empirische
Beispiele
Aussagen
1. Gleichheit und Ungleichheit Geschlecht, Automarke, Partei, Haustier
(nur 2 Kategorien = dichotome Variable)
1. Gleichheit und Ungleichheit Rauchergewohnheiten,
2. Ordnung
Einkommenskategorien, Schulnoten,
soziale Schichtung
1. Gleichheit und Ungleichheit Intelligenzquotient (IQ),
2. Ordnung
Leistungspunktwerte,
3. Gleichheit von Differenzen Celsiustemperaturskala
1. Gleichheit und Ungleichheit Alter, Größe, Gewicht, Reaktionszeit,
2. Ordnung
Anzahl der Kinder
3. Gleichheit von Differenzen
4. Gleichheit von Quotienten
Im SPSS-Programm wird nur zwischen nomianalskalierten, ordinalskalierten und metrischen Daten
(intervall- oder verhältnisskalierte Variablen) unterschieden! Nominalskalierte Variablen mit nur 2
Ausprägungen können als ordinalskaliert angesehen werden!
Unterscheiden muss man zwischen unabhängige und abhängige Variablen! Z.B. Einkommen von
Männer und Frauen: das Geschlecht ist die unabhängige Variable; das Einkommen die abhängige
Variable.
2.2 Homogene Varianzen
Die Homogenität (Gleichheit) der Varianzen in Vergleichsgruppen ist eine Annahme, die viele
statistische Tests voraussetzen!
Um die Voraussetzung der Homogenität (Gleichheit) der Varianzen von Vergleichsgruppen zu
überprüfen, kann man im Menü „Explorative Datenanalyse“ zweierlei benutzen:
Levene-Test
Streuung über Zentralwertdiagramm
Analysieren, Deskriptive Statistiken, Explorative Datenanalyse, Diagramme, Streuungsbreite vs.
mittleres Niveau mit Levene Test: „Nicht transformiert“
Mag. Michael Kuttner (PHT)
Seite 4
22.03.2009
SPSS – Skriptum
2.3 Normalverteilung:
Ebenso setzen zahlreiche Verfahren voraus, dass die intervallskalierten Variablen normalverteilt sind!
Die Normalverteilungskurve (Gaußsche Glockenkurve) ist eingipflig, symmetrisch und nähert sich
asymptotisch der Abszisse. Eine Normalverteilung ist durch den Mittelwert und die Standardabweichung definiert.
Im Bereich Mittelwert + 1 Standardabweichung liegen 34,13% + 34,13% = 68,26%
Im Bereich Mittelwert + 2 Standardabweichungen liegen 47,72% + 47,72% = 95,44%
Im Bereich Mittelwert + 3 Standardabweichungen liegen 49,87% + 49,87% = 99,74%
Optischer Eindruck: Normalverteilungskurve wird über das Histogramm gelegt.
Analysieren, Deskriptive Statistiken, Häufigkeiten, Diagramme, Histogramme (mit
Normalvrteilungskurve)
Rechnerische Überprüfung: Kolmogorov-Smirnov-Test (nichtparametrischer Test)
Analysieren, Nichtparametrische Tests, K-S bei einer Stichprobe
Der Kolmogorov-Smirnov-Test ist auch bei ordinalskalierten Variablen anwendbar!
Bei Stichprobengrößen unter 50 sollte der Shapiro-Wilk-Test verwendet werden!
Ein signifikantes Ergebnis besagt, dass die vorliegende Verteilung sich signifikant von einer
Normalverteilung unterscheidet. Dann kann man nicht davon ausgehen, dass die Variable in der
Grundgesamtheit normalverteilt ist! Nichtparametrische Tests verwenden!
Analysieren, Deskriptive Statistiken, Explorative Datenanalysen, Diagramme
2.4 Die gebräuchlichsten Testnormskalen im Vergleich:
Mag. Michael Kuttner (PHT)
Seite 5
22.03.2009
SPSS – Skriptum
Hochbegabung: Eine Person ist hochbegabt, wenn sie bezüglich ihres intellektuellen Leistungsvermögens
zu den besten 2% ihrer Bezugsgruppe gehört.
Prozentrang ≥ 98 bzw. IQ ≥ 130 (2 Standardabweichungen).
Damit man für die Variablen vergleichbare Messskalen erhält, müssen die Variablen transformiert
werden. SPSS bietet mehrere Möglichkeiten an. Eine häufig gewählte Transformation ist die zTransformation von Werten einer Variable.
Testnormskala
z-Skala
Z-Skala
IQ-Skala
T-Skala
C-Skala
Stanine-Skala
Mittelwert
0
100
100
50
5
5
Standardabweichung
1
10
15
10
2
2
2.5 Abhängige und unabhängige Stichproben:
Abhängige (gebundene, gepaarte) Stichprobe: jedem Wert der einen Stichprobe kann eindeutig ein Wert
der anderen Stichprobe zugeordnet werden. (Z.B. Messung eines Merkmals zu mehreren Zeitpunkten
oder matched pairs: Paare werden derart gebildet, dass sich ein Paar hinsichtlich wichtiger sonstiger
relevanter Einflussfaktoren nicht unterscheidet ⇒ verbunden Stichprobe)
Unabhängige Stichprobe: eine eindeutige Wertezuordnung zwischen den Stichproben ist nicht möglich.
(Z.B. verschiedene Probanden)
2.6 Aufgliederung der Statistik
Deskriptive Statistik: beschreibende Statistik
Modalwert: der Wert, der am häufigsten vorkommt; Nominalskalenniveau
Median: teilt die geordneten Werte in zwei gleich große Teile; Ordinalskalenniveau
Mittelwert: arithmetische Mittel; Intervallskalenniveau
Summe: alle Werte werden addiert
Geometrische Mittel: ist die n-te Wurzel aus dem Produkt der Werte
Varianz: Streuungsmaß; die Summe aller quadrierten Abweichungen vom arithmetischen Mittel dividiert
durch die Gesamtanzahl.
In SPSS wird die Varianz als Stichprobenvarianz (=Schätzwert für die Varianz der Grundgesamtheit)
berechnet. Daher wird durch n-1 dividiert!
Die Varianz ist 0, wenn alle Werte mit dem Mittelwert identisch sind und wird um so größer, je größer
die Streuung ist.
Standardabweichung: Streuungsmaß; Wurzel aus der Varianz; hat dieselben Maßeinheiten wie die
Originaldaten!
Die Standardabweichung ist 0, wenn alle Werte mit dem Mittelwert identisch sind und wird um so größer,
je größer die Streuung ist.
Standardfehler: Maß für die Abweichung des Stichprobenmittelwerts vom Populationsmittelwert
(Mittelwert der Grundgesamtheit).
Der Wert muss mit 1,96 multipliziert werden. Dann kann man sagen, dass mit 95 prozentiger Sicherheit
der „wahre Mittelwert“ im Bereich: Mittelwert ± Standardfehler * 1,96 liegt. (Multiplikator = 2,576 ⇒ 99
prozentige Sicherheit)
Minimum: der kleinste Wert
Maximum: der größte Wert
Mag. Michael Kuttner (PHT)
Seite 6
22.03.2009
SPSS – Skriptum
Spannweite: Maximum - Minimum
Schiefe: Maß für die Abweichung einer Häufigkeitsverteilung von einer symmetrischen Verteilung; bei
einer Normalverteilung ist die Schiefe 0!
positive Schiefe ⇒ Spitze bei den kleinen Werten = linksgipflig,
negative Schiefe ⇒ Spitze bei den großen Werten = rechtsgipflig,
Kurtosis (Exzeß): Maß für die Breitgipfligkeit (negativer Wert = flache Verteilung) oder die
Schmalgipfligkeit (positiver Wert = steile Verteilung) einer Verteilung; bei einer Normalverteilung ist der
Exzeß 0!
Perzentilwerte: Ein Perzentilwert P einer Verteilung ist der Wert auf der Messskala, unter dem P% und
über dem (100-P)% der Messwerte liegen. Z.B. liegen unterhalb des 10. Perzentilwerts 10%, darüber 90%
der Werte
Statistische Maßzahlen aus Stichproben dienen nur als Schätzwerte für die Parameter der
Grundgesamtheit, für die wahren Werte!
Messniveau
Nominal
Ordinal
Intervall
Verhältnis
sinnvolle Parameter
Lageparameter
Streuungsparameter
Modalwert
Häufigkeitsverteilung
Median
Quartilsabstand
(Perzentile)
Arithmetisches Mittel
Varianz
Standardabweichung
Spannweite
Geometrisches Mittel
Varianzkoeffizient
Analysieren, Deskriptive Statistiken, Häufigkeiten, Statistik (für Häufigkeitstabellen;
Einstellungsmöglichkeiten über Statistik..., Diagramme..., Format...)
Analysieren, Deskriptive Statistiken, Deskriptive Statistiken (Standardisierung von Variablen
möglich! z-Transformation: eine Transformation der Rohdaten in standardisierte z-Werte)
Analysieren, Deskriptive Statistiken, Verhältnis (Vergleich von Gruppen , wenn die abhängige
Variable eine zusammengesetzte Variable ist, deren Wert sich aus dem Verhältnis der Werte zweier
Ausgangsvariablen ergibt. Z.B. Stundenkilometer, Stundenlohn, Umsatz zur Verkaufsfläche)
Analysieren, Deskriptive Statistiken, Explorative Datenanalyse (Interquartilbereich = Bereich in dem
die mittleren 50% liegen; 5% getrimmtes Mittel ist ein getrimmtes arithmetisches Mittel, das unter
Auslassung der 5% Fälle mit den höchsten und der 5% Fälle mit den niedrigsten Werten berechnet
wird; Ober- und Untergrenze des 95% Konfidenzintervall des Mittelwerts; M-Schätzer sind robuste
Mittelwerte, die störende Einflüsse von Extremwerten ausschließen; Perzentile; Ausreißer; StängelBlatt-Diagramm, Boxplot, Überprüfung der Voraussetzung homogener Varianzen und
Normalverteilung)
Mag. Michael Kuttner (PHT)
Seite 7
22.03.2009
SPSS – Skriptum
Analytische Statistik: Verfahren zur Feststellung, ob ein Mittelwertsunterschied oder aber auch ein
Zusammenhang zufällig zustande gekommen ist oder nicht.
2.7 Hypothesen
Vier Merkmale von wissenschaftlichen Hypothesen:
• Konditionalsatz:
Eine wissenschaftliche Hypothese hat immer die Form eines „Wenn-dann-Satzes“ oder eines „Jedesto-Satzes“
• Der All-Satz:
Eine wissenschaftliche Hypothese ist eine allgemeingültige, über den Einzelfall hinausreichende
Behauptung. Sie beschäftigt sich somit nicht mit einer einigen Person oder einem einzelnen Ereignis.
• Realer Sachverhalt:
Wissenschaftliche Hypothesen beziehen sich deshalb auf reale Sachverhalte. Esoterisches,
Parapsychologisches und Mystisches scheiden somit aus. In diesem Zusammenhang werden auch die
beiden Verben „verifiziert“ und „falsifiziert“ verwenden.
• Mit Daten widerlegbar:
Ein „Wenn-dann-Satz“ oder ein „Je-desto-Satz“, also eine Hypothese, muss durch Daten widerlegbar
sein. Trifft dies nicht zu, ist der Satz keine wissenschaftliche Hypothese.
Man unterscheidet zwischen Zusammenhangshypothesen und Unterschiedshypothesen.
Zusammenhangshypothesen: Zwischen zwei oder mehreren Merkmalen (oder Variablen) wird ein
Zusammenhang vermutet. Z.B. Wenn Menschen getrunken haben, sind sie beim Auto fahren
risikobereiter.
Unterschiedshypothesen: Zwischen zwei oder mehreren Gruppen gibt es einen Unterschied hinsichtlich
eines Merkmals (Variable). Z.B. Es gibt Unterschiede zwischen Buben und Mädchen bezüglich der
Lesekompetenz. Unterschiedshypothesen können gerichtet oder ungerichtet sein. Wenn man behauptet,
dass Mädchen besser lesen können als Buben, dann spricht man von einer gerichteten Hypothese.
Hypothese 0 (Nullhypothese): Die beiden Stichproben entstammen der gleichen Grundgesamtheit (d.h.
der Mittelwertsunterschied ist zufällig zustande gekommen).
Hypothese 1 (Alternativhypothese): Die beiden Stichproben entstammen verschiedenen
Grundgesamtheiten (d.h. der Mittelwertsunterschied ist nicht zufällig zustande gekommen).
Um zu entscheiden, ob H1 als statistisch gesichert angenommen werden kann oder H0 beibehalten werden
soll, wird ein Signifikanztest durchgeführt.
Man kann keine Hypothese als „wahr“ beweisen, aber man kann eine Hypothese als „falsch“ entlarven!
2.8 Konfidenzintervall
(Schätzintervall, Fehlerspielraum, Sicherheitsspielraum, Vertrauensbereich)
Konfidenzintervall am Beispiel für das arithmetische Mittel:
Unter der Voraussetzung, dass die Erhebungsdaten aus einer definierten Grundgesamtheit interpretiert
werden können, ist der aus der Stichprobe gewonnene Mittelwert x eine Punktschätzung für den
unbekannten Mittelwert µ der Grundgesamtheit. Da eine Punktschätzung wegen der Zufallsauswahl der
Stichprobe nur selten dem Parameter entspricht, wird häufig eine Intervallschätzung vorgenommen. Bei
einer Intervallschätzung wird ein Bereich berechnet – angegeben durch eine untere und obere Schranke –
in dem das unbekannte µ mit einer Wahrscheinlichkeit von z.B. 95% (= 0,95 oder allgemein 1 – α)
erwarten kann. Bei einem z.B. 95% Konfidenzintervall besteht eine Wahrscheinlichkeit von 5%, dass der
unbekannte Wert nicht in dem zu berechnenden Konfidenzintervall liegt.
Mag. Michael Kuttner (PHT)
Seite 8
22.03.2009
SPSS – Skriptum
2.9 Irrtumswahrscheinlichkeit p
Mit Hilfe verschiedenster Verfahren kann die so genannte Irrtumswahrscheinlichkeit berechnet werden.
Es ist dies die Wahrscheinlichkeit, sich zu irren, wenn man die Nullhypothese verwirft und die
Alternativhypothese annimmt.
0≤p≤1
p > 0,05
p ≤ 0,05
p ≤ 0,01
p ≤ 0,001
nicht signifikant
signifikant
hoch signifikant
höchst signifikant
n.s.
*
**
***
Üblicherweise testet man in den Sozialwissenschaften mit Signifikanzniveaus von α = 0,05 (= 5%) bzw.
α = 0,01 (=1%)!
Fehler erster Art (α-Fehler): die Nullhypothese wird verworfen, obwohl sie richtig ist; die
Wahrscheinlichkeit einen Fehler erster Art zu begehen ist gleich der Irrtumswahrscheinlichkeit p.
Fehler zweiter Art (β-Fehler): die Nullhypothese wird beibehalten, obwohl sie falsch ist; die
Wahrscheinlichkeit einen Fehler zweiter Art zu begehen ist umso kleiner, je größer die Irrtumswahrscheinlichkeit p ist.
Population
H0
H0
H1
Fehler 2.Art
β-Fehler
H1
Fehler 1.Art
α-Fehler
Stichprobe
α-Fehler-Kummulierung: Werden mehrere Signifikanztests nacheinander durchgeführt, dann muss man
den α-Fehler korrigieren:
αR = 1 – (1 – α)^
1
k
Einseitige Prüfung:
Einseitige Hypothesen dürfen nur dann aufgestellt werden, wenn sich aufgrund schon vorliegender
früherer Arbeiten eine sehr gut begründete Vermutung über die Richtung des zu erwartenden
Unterschieds ergibt. Ein gegebener Mittelwertsunterschied wird bei einseitiger Hypothesentestung eher
„statistisch signifikant“ als bei einer zweiseitigen Hypothesentestung.
Mag. Michael Kuttner (PHT)
Seite 9
22.03.2009
SPSS – Skriptum
Zweiseitige Prüfung:
2.10 Population/Stichprobe/Stichprobengröße
Population = Gesamtheit aller Personen, für die die in einer Untersuchung gefundenen Resultate gelten
sollen.
Stichprobe = diejenige Personengruppe, die man für eine bestimmte empirische Untersuchung
ausgewählt hat.
In sozialwissenschaftlichen Untersuchungen ist bei Verwendung sehr großer Stichproben praktisch
jeder Unterschied signifikant. Das liegt daran, dass sehr schwache Beziehungen zwischen zwei Variablen
bzw. schwache Wirkungen von Störvariablen praktisch immer vorliegen.
Bei kleinen Stichproben ist dagegen die Gefahr des β-Fehlers (Fehler zweiter Art) sehr groß. Daher
sollte man Daten kleinerer Studien zu demselben Gegenstand solange kumulieren, bis die Fallzahl einen
hinreichend sicheren Schluss zwischen H0 und H1 zulässt. Ergibt aber eine kleine Stichprobe ein
signifikantes Ergebnis für H1, ist das Risiko eines α-Fehlers (Fehler erster Art) ebenso gering als hätten
wir eine große Stichprobe untersucht.
Regeln für die Stichprobengröße:
• Werden zwei unabhängige Gruppen auf Mittelwertsunterschiede geprüft, ist es ratsam, pro Gruppe
mindestens n = 35 Personen (zusammen also N = 70) vorzusehen. So kann man bei α = 0,05 und β =
0,20 wenigstens große Effekte als statistisch signifikant absichern.
• Mit n = 65 oder mehr Probanden je Gruppe (also insgesamt mindestens N =130) gelingt es bei zwei
unabhängigen Gruppen, mittlere Effekte als statistisch signifikant zu belegen (α = 0,05 und β =
0,20).
• Ab rund n = 160 Versuchspersonen pro Gruppe (also zusammen N =320) können bei zwei
unabhängigen Gruppen und bei α = 0,05 und β = 0,20 zumeist kleine Effekte als statistisch
signifikant ausgewiesen werden.
• Bei sogenannten mehrfaktoriellen Versuchsplänen empfiehlt es sich, möglichst die Zahl von N = 15
Personen pro Subgruppe nicht zu unterschreiten. Bei sogenannten 2 x 2 Versuchsplänen sollen pro
Zelle mindestens 30 sein, besser jedoch mehr.
Je größer die Grundgesamtheit ist, umso kleiner kann der prozentuale Anteil derjenigen Elemente werden,
die zur Stichprobe gehören!
2.11 Vorgehen bei statistischen Hypothesenprüfungen
1. Formulierung der zur Fragestellung gehörenden Nullhypothese H0, dass sich die Mittelwerte der
beiden Gruppen A und B unserer Stichprobe hinsichtlich des interessierenden Merkmals nicht
voneinander unterscheiden: MA = MB.
2. Formulierung der zugehörenden (einseitigen oder zweiseitigen) Alternativhypothese H1, dass sich die
beiden Gruppen A und B im interessierenden Merkmal unterscheiden MA ≠ MB bei zweiseitiger
Fragestellung, bei einseitiger Fragestellung je nach Sachlage entweder MA > MB oder MA < MB.
Mag. Michael Kuttner (PHT)
Seite 10
22.03.2009
SPSS – Skriptum
3. Festsetzung des statistischen Signifikanzniveaus α, d.h. des Kriteriums, ab wann die empirisch
ermittelte Wahrscheinlichkeit der Mittelwertdifferenz beider Gruppen unter H0 – Gültigkeitsannahme
klein genug ist, damit hinreichend Anlass besteht, die Nullhypothese H0 als falsch zurückzuweisen.
4. Wahl des geeigneten statistischen Signifikanztests.
5. Berechnung der zum statistischen Signifikanztest gehörenden Prüfstatistik aufgrund der zufällig
zusammengestellten Stichprobe und Ermittlung der zugehörigen Wahrscheinlichkeit p, dass unter H0 –
Bedingung der Mittelwertsunterschied zwischen der Gruppe A und der Gruppe B mindestens so groß
ausfällt wie die in unserer Stichprobe beobachtete Mittelwertsdifferenz.
6. Entscheidung, ob die Nullhypothese zurückgewiesen werden kann oder nicht. Ist p < α, dann besteht
hinreichend Anlass die Nullhypothese H0 als falsch zurückzuweisen (je nach Sachlage gilt dann
entweder MA > MB oder MA < MB). Ist p ≥ α, dann besteht kein Anlass, H0 zurückzuweisen (wir
gehen dann weiter davon aus, dass MA = MB zutrifft).
Will man einen einseitigen Test durchführen, dann wird der angegebene p-Wert einfach
halbiert.
2.12 Übersicht über die gängigen Tests
Intervallskalierte, normalverteilte Variablen: (parametrische Tests)
Anzahl der miteinander zu
vergleichenden Stichproben
Abhängigkeit
2
2
>2
unabhängig
abhängig
unabhängig
>2
abhängig
Test
t-Test nach Student
t-Test für abhängige Stichproben
einfache Varianzanalyse
(ANOVA)
einfache Varianzanalyse mit
Meßwiederholungen
Ordinalskalierte oder nicht-normalverteilte intervallskalierte Variablen: (nichtparametrische Tests)
Anzahl der miteinander zu
vergleichenden Stichproben
2
2
>2
>2
Abhängigkeit
unabhängig
abhängig
unabhängig
abhängig
Test
U-Test nach Mann und Whitney
Wilcoxon-Test
H-Test nach Kruskal Wallis
Friedman-Test
3 Kodierplan
Bevor die erhobenen Daten in eine SPSS-Datendatei eingegeben werden, ist in einem Kodierplan für jede
Variable festzulegen, wie die Angaben der Befragten numerisch zu behandeln bzw. zu verschlüsseln sind.
Bei metrischen Daten (Alter, Größe, Gewicht) liegen die Daten meist bereits als direkt eingebbare Zahlen
vor, bei anderen Merkmalen (Geschlecht, Schulabschluss, Studienfach) ist dagegen zu überlegen, nach
welchen Regeln den Kreuzen oder Angaben der Personen Zahlen zugewiesen werden.
Es erleichtert die Eingabe von Daten, wenn die Kodierungen in einem Fragebogen bereits so weit wie
möglich aufgedruckt sind!
Mag. Michael Kuttner (PHT)
Seite 11
22.03.2009
SPSS – Skriptum
4 SPSS – Ansicht
4.1 Daten Editor: Dateneingabe
Spalten: Variablen
Zeilen: Fälle
Datenansicht: Eingabe der Daten
Variablenansicht: Name – Typ – Spaltenformat (Variablenbreite) – Dezimalstellen – Variablenlabel –
Wertelabels – Fehlende Werte (dies geschieht automatisch, wenn keine Werte eingetragen sind!) –
Spalten – Ausrichtung – Messniveau
Datei, Datendatei-Informationen anzeigen, Arbeitsdatei
Alle Variblenbeschreibungen und Variablenwerte werden in einer Tabelle ausgedruckt
4.2 SPSS-Viewer: Datenausgabe
Alle Ergebnisse statistischer Prozeduren, Diagramme und sonstige Meldungen werden im „SPSSViewer“ angezeigt. Er besteht aus der Gliederungsansicht und dem Inhaltsfenster. In der
Gliederungsansicht kann man Objekte wegschalten (Doppelklick!)
Pivotieren von Tabellen: die Spalten, Zeilen und Schichten einer Tabelle können verändert werden.
(Doppelklick auf die Tabelle)
4.3 Diagramm Editor:
Dort können Diagramme bearbeitet werden
Doppelklick auf das Diagramm
4.4 Syntax-Editor
Hier wird die Befehlssyntax angezeigt.
Die Befehle markieren und auf das Symbol „“ klicken
5 Kreuztabellen/Chi-Quadrat-Einzeltest (asymptotischer)
Eine Kreuztabelle ist das einfachste Verfahren um den Zusammenhang von zwei Variablen zu
untersuchen. Bei Kreuztabellen ist zu entscheiden, in welcher Richtung die Prozentuierung erfolgen soll.
Steht die unabhängige Variable im Kopf der Tabelle, ist eine spaltenweise Prozentuierung
angemessen. Dadurch werden die verschiedensten Gruppen, die den Ausprägungen der unabhängigen
Variablen entsprechen, vergleichbar. Der Chi-Quadrat-Einzeltest überprüft, ob sich beobachtete und
erwartete Häufigkeiten bei nominalskalierten Variablen signifikant voneinander unterscheiden. Den ChiQuadrat-Einzeltest findet man auch bei den Kreuztabellen. Standardisierte Residuen und erwartete
Häufigkeiten anklicken!
Analysieren, Deskriptive Statistiken, Kreuztabellen
bei Zellen... gibt es Einstellmöglichkeiten für Häufigkeiten (Beobachtet/Erwartet), Prozentwerte (die
unabhängige Variable prozentuieren = Spaltenweise!) und Residuen;
Bei Kreuztabellen kann man Kontrollvariablen (Einfluss weiterer Variablen) hinzufügen (Schicht)
⇒ drei- und mehrdimensionale Tabellen!
Kreuztabellen können auch mit gewichteten Werten berechnet werden („keine Korrektur“ oder
„Anzahl in den Zellen runden“)
Statistik, Chi-Quadrat (asymptotischer); bei 2*2-Tabellen wird Fisher´s exact Test durchgeführt!
Standardisiertes Residuum
> 2,0
P < 0,05
> 2,6
P < 0,01
> 3,3
P < 0,001
Mag. Michael Kuttner (PHT)
Seite 12
5.1.1 Signifikanzniveau
* signifikant
** sehr signifikant
*** höchst signifikant
22.03.2009
SPSS – Skriptum
Achtung: maximal 20% der Felder dürfen nur eine erwartete Häufigkeit < 5 haben. Zeilen- und
Spaltensummen müssen stets größer 0 sein!
Wenn die Bedingungen für den Chi-Quadrat-Test (erwartete Häufigkeiten > 5) nicht erfüllt sind, sollte
ein exakter Test durchgeführt werden.
6 Symbolleiste
Geh zu Fall
Zuletzt verwendete
Dialogfelder
Datei speichern
Datei öffnen
Rückgängig
machen
Fälle
gewichten
Variable
Suchen
Alle Variablen
anzeigen
Wertelabels
Fälle
einfügen
Wiederholen
Drucken
Variable
einfügen
Fälle auswählen
Datei
aufteilen
Variablen-Sets
verwenden
6.1 Fall einfügen
Kontextmenü (rechte Maustaste)
6.2 Variable einfügen
Kontextmenü (rechte Maustaste)
6.3 Fall finden
Bearbeiten, Geh zu Fall
6.4 Variable finden
Extras, Variablen
6.5 Datenwert suchen
Bearbeiten, Suchen
6.6 Dublettensuche
Daten, Doppelte Fälle ermitteln
6.7 Wertelabels
Ansicht, Wertelabels
6.8 Drucken
Datei, Drucken
6.9 Speichern
Datei, Speichern
Daten: *.sav
Viewer: *.spo
Syntax: *.sps
Mag. Michael Kuttner (PHT)
Seite 13
22.03.2009
SPSS – Skriptum
6.10 Datei aufteilen
Daten, Datei aufteilen
6.11 Fälle auswählen
Daten, Fälle auswählen
6.12 Gewichten von Fällen
Gewichtungsfaktor = Sollwert : Istwert
Gewichtungsfaktor in einer neuen Variable berechnen
(Transformieren, Variable berechnen..., Falls; im Syntaxfenster alles markieren und Execute drücken!)
Daten, Fälle gewichten (Gewichtung an! in der Statuszeile)
Daten, Fälle nicht gewichten (Gewichtung aus! in der Statuszeile)
6.13 Variablen-Sets definieren und verwenden
Extras, Sets definieren...
Man wird damit übersichtliche Variablenlisten mit den Variablen zusammenstellen,
die man für die jeweils anstehenden Analysen benötigt.
1. Extras, Sets verwenden...
Nachdem man bestimmt hat, welche Sets in Verwendung sind, werden
im Weiteren nur noch die in diesen Sets definierten Variablen angezeigt
7 Umdefinieren und Übertragen von Variableneigenschaften
Daten, Variableneigenschaften definieren
8 Transformieren von Daten
8.1 Berechnen neuer Variablen
Transformieren, Variable berechnen...
Dezimalzahlen immer mit Punkt eingeben!
Etliche Funktionen stehen zur Verfügung:
• Arithmetische Funktionen
• Statistische Funktionen
• Suchfunktionen
• Funktionen für fehlende Werte
• Funktionen für Datums- und Zeitvariablen
• Cross-Case Funktionen
• Wahrscheinlichkeits- und Verteilungsfunktionen
• Andere Verteilungsfunktionen
• String Funktionen
• Funktionen zur Umwandlung (numerisch – string)
8.2 Verwenden von Bedingungsausdrücken
Transformieren, Variable berechnen... Schaltfläche „Falls“
Es muss die Bedingung eingegeben werden!
8.3 Umkodieren von Werten
Transformieren, Umkodieren in dieselben Variablen oder Umkodieren in andere Variable
Alte und neue Werte müssen festgelegt werden
Mag. Michael Kuttner (PHT)
Seite 14
22.03.2009
SPSS – Skriptum
8.4 Automatisches Umkodieren
Transformieren, Automatisch umkodieren...
Eine Möglichkeit numerische oder Stringvariablen in fortlaufende ganze Zahlen einfach umzukodieren
8.5 Klassifizieren und Kategorisieren von Daten (Bereichseinteiler)
Transformieren, Visuelles Klassieren...
Hier können sehr einfach Kategorien gebildet werden. Trennwerte erstellen anklicken!
8.6 Zählen des Auftretens bestimmter Werte
Transformieren, Werte in Fällen zählen...
Damit kann derselbe Wert über mehrer Variablen hinweg ausgezählt werden!
8.7 Transformieren in Rangwerte
Transformieren, Rangfolge bilden...
Damit können ursprüngliche Messwerte in Rangplätze übergeführt werden (z.B. wenn man
ordinalskalierte Variablen miteinander korrelieren will)
Bei gleichen Werten wird jedem Fall der mittlere Rangplatz all dieser Fälle zugeordnet!
8.8 Transformieren von Datums- und Uhrzeit
Transformieren, Assistent für Datum und Uhrzeit
Ein Assistent hilft Operationen mit Datum und Uhrzeit durchzuführen
8.9 Transformieren von Zeitreihendaten
Daten, Datum definieren...
Transformieren, Zeitreihen erstellen...
SPSS stellt spezielle Routinen zur Bearbeitung von Zeitreihen zur Verfügung
9 Transformieren von Dateien
9.1 Daten sortieren
Daten, Fälle sortieren...
Damit kann eine Variable aufsteigen oder absteigend sortiert werden.
9.2 Transponieren von Fällen und Variablen
Daten, Transponieren...
Damit kann man Zeilen in Spalten und Spalten in Zeilen umwandeln.
Dies kann man benötigen, wenn Daten aus anderen Programmen übernommen werden.
9.3 Daten umstrukturieren
Daten, Umstrukturieren...
Hier kann man ebenso Daten mit Hilfe eines Assistenten umstrukturieren
9.4 Hinzufügen neuer Fälle
Daten, Dateien zusammenfügen, Fälle hinzufügen...
Wenn die Variablen weitgehend identisch sind, dann können die Fälle aus einer Datei in die andere
übernommen werden.
Mag. Michael Kuttner (PHT)
Seite 15
22.03.2009
SPSS – Skriptum
9.5 Hinzufügen neuer Variablen
Daten, Dateien zusammenfügen, Variablen hinzufügen...
Entweder werden gleichwertige Dateien zusammengeführt oder eine Datei ist die Schlüsseldatei
9.6 Aufteilen von Daten in Gruppen
Daten, Datei aufteilen...,
Die ganze Datei wird dadurch in Gruppen aufgeteilt
• Alle Fälle analysieren, keine Gruppen bilden
• Gruppen vergleichen: die Gruppen werden getrennt analysiert, aber die Ergebnisse für alle Gruppen
werden in einer Tabelle dargestellt
• Ausgabe nach Gruppen aufteilen: für jede Gruppe entsteht eine eigene Ausgabe
9.7 Teilmengen von Fällen auswählen
Daten, Fälle auswählen...
Entsprechende Fälle können ausgewählt werden.
• Falls Bedingung zutrifft
• Zufallsstichprobe
• Nach Zeit- oder Fallbereich
• Filtervariable verwenden
9.8 Erstellen einer Datei mit aggregierten Variablen
Break-Variable(n): Die Ausgangsdatei hat mindestens eine Variable, die dann jeweils ein Fall der neuen
Datei ist.
Aggregierungsvariable(n): Ihre Werte kommen dadurch zustande, dass sämtliche Werte der Fälle einer
Kategorie der Break-Variable zu einem einzigen Wert zusammengefasst werden.
Daten, Aggregieren...
Mag. Michael Kuttner (PHT)
Seite 16
22.03.2009
SPSS – Skriptum
10 Zusammenhangsmaße (Assoziationsmaße)
Zusammenhangsmaße werden berechnet, wenn man die Stärke des Zusammenhangs von zwei Variablen
untersuchen möchte
Analysieren, Deskriptive Statistiken, Kreuztabellen...
Unter Statistik findet man die Zusammenhangsmaße
Messniveau
Nominal
Chi-Quadrat-basierte Messung
Relative Irrtumsreduktion
Ordinal
Rangkorrelationsmaße
Auf paarweisen Vergleich beruhende
Maßzahlen
Maßzahl
•
•
•
Phi Koeffizien (für 2*2 Tabellen)
Cramers V
Kontingenzkoeffizient
•
•
•
Lammda λ
Kruskals und Goodmans tau
Unsicherheitskoeffizient
•
•
Spearmans Rangkorrelationskoeffizient r
Mantel-Haenszel Chi Quadrat
•
•
•
•
Kendalls tau-b
Kendalls tau-c
Goodmans und Kruskals Gamma
Somers d
•
Pearsonscher Produkt-Moment Korrelations-Koeffizient r
•
Eta (unabhängige Variable: nominal; abhängige Variable:
mindestens intervall)
Intervall
Mischformen
Sonderaufgaben
Risikoeinschätzung: speziell für Kohorten- bzw. FallKontroll-Studien; nur für 2*2 Tabellen
Jede nominalskalierte Variable, die zweifach abgestuft ist (dichotom), kann als ordinalskalierte Variable
betrachtet werden.
•
10.1 Bivariate Korrelation
Beispiele für Streudiagramme:
Mag. Michael Kuttner (PHT)
Seite 17
22.03.2009
SPSS – Skriptum
Die berechneten Werte sind interessant:
0 < r < 0,2
0,2 < r < 0,5
0,5 < r < 0,7
0,7 < r < 0,9
0,9 < r < 1
sehr geringe Korrelation
geringe Korrelation
mittlere Korrelation
hohe Korrelation
sehr hohe Korrelation
+: positive Korrelation (hoher Wert der einen Variable bedeutet einen hohen Wert der anderen Variable)
-: negative Korrelation (hoher Wert der einen Variable bedeutet einen niederen Wert der anderen
Variable)
Die Korrelation zweier Merkmale bedeutet nicht unbedingt einen funktionalen oder kausalen
Zusammenhang! Korrelation ist nicht gleich Kausalität! Zwei voneinander unabhängige Variablen A
und B können eine statistische Korrelation ausweisen, weil z.B. eine dritte Variable C
(Moderatorvariable) sowohl auf A als auch auf B wirkt. Bei Vorliegen einer statistisch gemessenen
Korrelation ohne Vorliegen eines Kausalzusammenhangs spricht man von Scheinkorrelationen. (z.B.
positive, mittlere Korrelation zwischen Anzahl der Geburten und Anzahl der Störche in einer Region;
mögliche Erklärung: Auf dem Land gibt es mehr Kinder und mehr Störche als in der Stadt!). Die
Begründung für das Vorliegen eines Zusammenhangs zwischen Variablen sollte theoretisch bzw. durch
Plausibilitätserklärung fundiert sein. Denkbar ist auch umgekehrt, dass ein tatsächlich bestehender
Zusammenhang zwischen A und B durch den Einfluss von C statistisch verdeckt wird (verdeckte
Korrelation).
Der Aussage A korreliert mit B können mindestens folgende Verhältnisse zugrunde liegen:
• A B (A ist Ursache oder Teilursache von B)
• A  B (B ist Ursache oder Teilursache von A)
• A  C B (Sowohl A als auch B hängen von einem oder mehreren Faktoren C ab.)
• A B (A und B beeinflussen sich wechselseitig)
Für einen kausalen Zusammenhang müssen mindestens folgende drei Bedingungen erfüllt sein:
• Die beiden Variablen A und B sind statistisch miteinander assoziiert
• Variable A liegt zeitlich vor Variable B
• Die Verbindung zwischen den beiden Variablen A und B wird nicht aufgehoben, wenn die Effekte
einer oder mehrerer anderer Variablen, die zeitlich vor oder gleichzeitig mit A oder B auftreten,
eliminiert werden.
Es werden auch Signifikanzprüfungen für die Korrelationskoeffizienten berechnet. Ein signifikanter Wert
besagt, dass in der Grundgesamtheit diese Korrelation auch zu erwarten ist. Das Untermenü „Bivariat“
von „Korrelationen“ erlaubt die Berechnung drei verschiedener Korrelationskoeffizienten (Pearson,
Kendall-Tau-b und Spearman).
Analysieren, Korrelationen, Bivariat...(drei verschiedener Korrelationskoeffizienten, einseitige
Prüfung, wenn eine Erwartung über die Richtung der Zusammenhänge besteht, Optionen)
10.2 Partielle Korrelation
Eine Scheinkorrelation oder verdeckte Korrelation kann mit Hilfe der partiellen Korrelation aufgedeckt
werden.
Analysieren, Korrelationen, Partiell...(Kontrollvariablen!)
Mag. Michael Kuttner (PHT)
Seite 18
22.03.2009
SPSS – Skriptum
10.3 Distanz- und Ähnlichkeitsmaße
Maße für die Unähnlichkeit von Objekten werden Distanzen genannt.
Maße für die Ähnlichkeit von Objekten werden Ähnlichkeiten genannt.
Alle Distanz- und Ähnlichkeitsmaße beruhen auf einem Vergleich von jeweils zwei Personen bzw.
Objekten unter Berücksichtigung von mehreren Merkmalsvariablen.
Vor der Distanzberechnung sollten die Messwerte transformiert werden (z-Transformation!)
Analysieren, Korrelationen, Distanzen...
Das Ergebnis zeigt an, welche Personen bzw. Objekte sich hinsichtlich der betrachteten Variablen stark
ähnlich sind und welche sich stark unterscheiden
11 Lineare Regressionsanalyse
Die Regressionsanalyse befasst sich mit der Untersuchung und Quantifizierung von Abhängigkeiten
zwischen metrisch skalierten Variablen. Wesentliche Aufgabe dabei ist es, eine lineare Funktion zu
finden, die die Abhängigkeit einer abhängige Variable (Kriterium) von einer oder mehreren unabhängigen
Variablen (Prädiktoren) quantifiziert. Gibt es nur eine unabhängige Variable, dann spricht man von einer
Einfachregression. Gibt es mehrere unabhängige Variablen, dann handelt es sich um eine Mehrfachoder multiplen Regression.
Die Beziehung kann durch die lineare Gleichung yi = b0 + b1xi + b2xi + b3xi... dargestellt werden (b0 =
Konstante, b1, b2, b3 ...heißen Regressionskoeffizienten). In der Regressionsanalyse geht es nicht nur um
die numerische Bestimmung der Gleichung, sondern auch um die Bestimmung wie eng die Punkte des
Streudiagramms sich um die gewonnenen Gleichung scharen. Dieses Maß heißt Bestimmtheitsmaß.
Die in der Praxis vorherrschende Anwendungsform des Testens von Regressionskoeffizienten bezieht
sich auf die Frage, ob für die Grundgesamtheit der Variablen ein (linearer) Regressionszusammenhang
angenommen werden darf oder nicht. Ebenso ist zu prüfen, ob ein positiver linearer Zusammenhang oder
ein negativer linearer Zusammenhang besteht.
H0: kein linearer Zusammenhang
H1:positiver oder negativer linearer Zusammenhang
Analysieren, Regression, Linear...
In der Tabelle „Modellzusammenfassung“ findet man das Bestimmtheitsmaß R2. Dieser Wert liegt
irgendwo zwischen 0 und 1. Wenn dieser Wert nahezu 1 ist, dann spricht man von einem guten „Fit der
Gleichung“. Das korrigierte R2 sollt man betrachten, wenn man die Qualität mehrerer Regressionsmodelle mit unterschiedlicher Anzahl an erklärenden Variablen miteinander vergleichen möchte.
In der Tabelle „ANOVA“ wird die Signifikanz des Gesamtmodells untersucht. Es wird geprüft, ob die
Variablen einen Erklärungsbeitrag leisten oder nicht. Im Vergleich zum t-Test wird deutlich, dass der FTest nur allgemein prüft, ob mehrere Erklärungsvariablen gemeinsam einen regressionsanalytischen
Erklärungsbeitrag leisten.
Weitere Schaltflächen: Statistik, Diagramme, Speichern, Optionen
In der Tabelle „Koeffizienten“ werden die nicht standardisierten Koeffizienten (Spalte B beachten!), die
standardisierten Koeffizienten (Koeffizienten können hier untereinander verglichen werden!), die T Werte
und die Signifikanz für jede einzelne Variable ausgegeben.
Die vorhergesagten Werte der Regressionsgleichung können mit Hilfe der Schaltfläche „Speichern“
(Vorhergesagte Werte – Nicht standardisiert ankreuzen) als neue Variable (PRE_1) in der Datendatei
gespeichert werden! Mit den vorhergesagten Werten und den tatsächlichen Werten kann dann ein
interessantes Streudiagramm erstellt werden.
Mag. Michael Kuttner (PHT)
Seite 19
22.03.2009
SPSS – Skriptum
12 Berichte
12.1 OLAP-Würfel
Der OLAP-Würfel dient dazu, in Schichten gegliederte Tabellen zu erstellen.
Analysieren, Berichte, OLAP-Würfel (Statistik: etliche Maße stehen zur Verfügung; Differenzen:
verschiedenste Differenzen können gebildet werden; die ausgegebene Tabelle ist bereits durch
Doppelklick zum Pivotieren aktiviert)
12.2 Fälle zusammenfassen
Kennwerte können getrennt nach den Kategorien einer Gruppenvariable berechnet werden!
Die Anzahl der ausgegebenen Fälle kann auch eingegeben werden
Analysieren, Berichte, Fälle zusammenfassen
12.3 Berichte in Zeilen oder Spalten
Beide erlauben es, gegliedert nach einer oder mehreren Gliederungsvariablen (Break-Variablen)
zusammenfassende Statistiken zu erstellen. Statistiken für mindestens intervallskalierte Variablen. Der
Bericht gibt die Maße für mehrere Variablen in einer Übersichtstabelle parallel an!
Analysieren, Berichte, Berichte in Zeilen (Berichtsvariablen sind in Spalten)
Analysieren, Berichte, Berichte in Spalten (Jede Maßzahl bildet eine Spalte)
13 Analysieren von Mehrfachantworten
Mehrfachantworten müssen in SPSS zunächst in Form mehrer Elementarvariablen nach der multiple
Dichotomien- oder multiple Kategorien-Methode abgespeichert werden. Zur Analyse können diese aber
in Form von multiple Dichotomien- oder multiple Kategorien-Sets zusammengefasst werden.
a) Multiple Dichotomien Methode: Für jede Antwortmöglichkeit wird eine eigene Variable mit ja (1)
oder nein (0) definiert.
b) Multiple Kategorien Methode: Hier muss zunächst die maximale Anzahl der möglichen Antworten
bekannt sein. Für jede Antwortmöglichkeit wird dann eine eigene Variable gebildet und die Werte der
Reihe nach eingegeben
Mehrfachantworten-Sets können nicht gespeichert werden. Eine Wiederverwendung ist nur über die
Speicherung der Syntax möglich!
13.1 Definieren von Mehrfachantworten-Sets
Analysieren, Mehrfachantworten, Sets definieren..(Dichotomien oder Kategorien anklicken!)
13.2 Erstellen einer Häufigkeitstabelle
Analysieren, Mehrfachantworten, Häufigkeiten...
Die Spalte „Prozent“ gibt an, welchen Anteil der einzelnen Werte an allen Antworten hat.
Die Spalte „Prozent der Fälle“ zeigt dagegen die Prozentuierung auf Basis der gültigen Fälle (die
Gesamtsumme kann 100% übersteigen!)
13.3 Kreuztabellen für Mehrfachantworten-Sets
Analysieren, Mehrfachantworten, Kreuztabellen...(Optionen)
14 Mittelwertvergleiche und t-Tests (parametrische Tests)
Zur Prüfung einer Abhängigkeit wird berechnet, ob sich die Mittelwerte zwischen den verschiedenen
Vergleichsgruppen unterscheiden oder nicht. Die abhängige Variable muss, da das arithmetische Mittel
verwendet wird, zumindest auf dem intervallskaliert sein. Für die unabhängige Variable genügt dagegen
Nominalskalenniveau.
Mag. Michael Kuttner (PHT)
Seite 20
22.03.2009
SPSS – Skriptum
Für alle T-Tests: Es werden die untere und obere Schranke des 95% Konfidenzintervalls angegeben.
Diese werden mit dem Standardfehler berechnet. In diesem Bereich liegt mit 95% Sicherheit der wahre
Wert. Die entscheidende Frage lautet: Könnte der wahre Wert der Differenzen auch 0 sein?
14.1 Mittelwerte vergleichen
Vergleich von zwei Mittelwerten
unabhängige Variable: Nominalskalenniveau
abhängige Variable: zumindest Intervallskalenniveau
Analysieren, Mittelwerte vergleichen, Mittelwerte (Schicht: eine Kontrollvariable kann einbezogen
werden! Zwei statistische Analyseverfahren werden angeboten: ANOVA-Tabelle und Eta bzw.
Linearitätstest)
14.2 T-Test für eine Stichprobe
Analysieren, Mittelwerte vergleichen, T-Test bei einer Stichprobe...(Testwert eintragen!)
14.3 T-Test für zwei unabhängige Stichproben
Analysieren, Mittelwerte vergleichen, T-Test bei unabhängigen Stichproben...
Levene-Test der Varianzengleichheit wird mitgeliefert und muss beachtet werden:
keine Signifikanz ⇒ Varianzen sind gleich
Signifikanz ⇒ Varianzen sind nicht gleich
14.4 T-Test für zwei abhängige (gepaarte) Stichproben
Analysieren, Mittelwerte vergleichen, T-Test bei verbundenen Stichproben...
Die abhängige Vergleichsgruppe besteht aus denselben Fällen für die aber eine Variable mehrfach
gemessen wurde (z.B. zu einem anderen Zeitpunkt). Daher gepaarte Variablen eingeben!
14.5 Einfaktorielle Varianzanalyse (ANOVA)
Varianzanalysen können nach zwei verschiedenen Methoden gerechnet werden:
• Nach der herkömmlichen „klassischen“ Methode nach Fischer (Analysieren, Mittelwerte
vergleichen, Einfaktorielle ANOVA...)
• Nach der neueren Methode als „Allgemeines lineares Modell“ (Analysieren, Allgemeines lineares
Modell, Univariat...)
Mit der Varianzanalyse kann man mehre Mittelwerte zugleich untersuchen. Sie zeigt dabei auf, ob
mindestens ein Unterschied zwischen multiplen Vergleichsgruppen signifikant ausfällt. Darüber, um
welche oder welches es sich handelt, ermöglicht sie keine Aussage.
Analysieren, Mittelwerte vergleichen, Einfaktorielle ANOVA...
Optionen: Test auf Homogenität (Gleichheit) der Varianzen ist eine Voraussetzung der Varianzanalyse;
Deskriptive Statistik ist auch sinnvoll!
Die Betrachtung der 95%-Konfidenzintervalle (untere und obere Grenze) zeigt, ob sich die
Konfidenzintervalle der verschiedenen Gruppen überschneiden oder nicht. Daraus kann man schon
schließen, zwischen welchen Gruppen wahrscheinlich ein signifikanter Unterschied besteht. Die
multiplen Vergleichstests sollen diese Frage klären.
14.5.1 Multiple Vergleiche (Schaltfläche „Post Hoc“)
• Tests für Mehrfachvergleiche, die Varianzgleichheit voraussetzen
Damit werden die Mittelwertsdifferenzen aller möglichen Paare von Gruppen auf statistische
Signifikanz überprüft (LSD, Bonferroni, Sidak, Scheffè, Tukey (HSD), GT2 Hochberg, Gabriel,
Dunnett)
• Spannweiten-Tests
Jeweils zwei Gruppen, die sich nicht unterscheiden, werden als neue homogene Gruppe ausgewiesen.
(F nach R-E-G-W, Q nach R-E-G-W, SNK, Duncan, Turkey-B; Waller-Duncan
Mag. Michael Kuttner (PHT)
Seite 21
22.03.2009
SPSS – Skriptum
Tests für Mehrfachvergleiche, die keine Varianzgleichheit voraussetzen
(Tamhane-T2, Dunnett-T3, Games-Howell, Dunett-C)
14.5.2 Kontraste zwischen a priori definierten Gruppen (Schaltfläche „Kontraste“)
Bestehen vor der Durchführung der Varianzanalyse Hypothesen darüber, welche Gruppen sich bezüglich
der Mittelwerte unterscheiden, kann man dies mit Hilfe des Untermenüs „Kontraste“. Es werden daher
nur festgelegte Paare auf signifikante Differenzen hin überprüft.
Die zwei Gruppen, die man zum Vergleich auswählt, bekommen Koeffizienten zugeordnet. (z.B. –1 bzw.
+1) Die Gruppe, die nicht in die Auswahl kommt, erhält den Koeffizient 0. Sollen mehrere
Ursprungsgruppen zu einer neuen zusammengefasst werden, bekommen sie den gleichen Koeffizienten
(z.B. 0,5 und 0,5). Alle Koeffizienten müssen aber zusammen 0 ergeben!
•
14.6 Mehr-Weg-Varianzanalyse
Die Mehr-Weg-Varianzanalyse unterscheidet sich von der einfaktoriellen Varianzanalyse dadurch, dass
nicht ein, sondern zwei oder mehr Faktoren zur Erklärung der Kriteriumsvariable verwendet werden.
Den Beitrag der Hauptvariablen nennt man Haupteffekte. Effekte, die auf spezifische Faktoren
zurückzuführen sind, bezeichnet man als Interaktionseffekte. Ist eine Interaktion signifikant, sind alle
Tests der Haupteffekte hinfällig.
14.6.1 Faktorielle Designs mit gleicher Zellhäufigkeit
Gleiche Zahl der Fälle in den einzelnen Zellen.
Analysieren, Allgemeines lineares Modell, Univariat...(Abhängige Variable, Feste Faktoren,
Diagramme)
14.6.2 Faktorielle Designs mit ungleicher Zellhäufigkeit
Ungleiche Zahl der Fälle in den einzelnen Zellen
Kovarianzanalyse: Die Einführung einer Kovariate heißt, dass zusätzlich zu den kategorialen Faktoren
eine metrisch gemessene unabhängige Variable in die Analyse eingeführt wird.
Modellbildung: Zweierlei Arten sind möglich
Auswahl von Faktoren und Kovariaten: „Gesättigtes Modell“ oder „Anpassen“
Berechnung der Quadratsummen: Typ I, Typ II, Typ III und Typ IV
Analysieren, Allgemeines lineares Modell, Univariat...(Abhängige Variable, Feste Faktoren,
Kovariaten; Modell, Optionen)
14.6.3 Mehrfachvergleiche zwischen Gruppen
Zweierlei Möglichkeiten:
Ausgabe von Mittelwerten oder Mittelwertdifferenzen: Deskriptive Statistik, Mittelwerte anzeigen für,
Kontraste
Signifikanztests für paarweise Mittelwertvergleiche: Haupteffekte vergleichen, Post hoc
Ebenso können multiple Vergleiche Post Hoc und Kontraste zwischen a priori definierten Gruppen
berechnet werden!
15 Nichtparametrische Tests
Die zu testenden Variablen haben Ordinal- bzw. Nominalskalen oder die zu testenden Variablen sind
nicht normalverteilt (verteilungsfreie Tests). Dem Vorteil wenig restriktiver Anwendungsbedingungen
steht der Nachteil gegenüber, dass nichtparametrische Tests nicht so trennscharf sind wie parametrische,
und zwar deshalb, weil Annahmen über die Verteilung nicht einfließen. Nichtparametrische Tests
beruhen auf Rangziffern oder Häufigkeiten der Variablen.
15.1 Tests für eine Stichprobe
15.1.1 Chi-Quadrat-Test (Anpassungstest)
Hier geht es darum, ob sich für eine Zufallsstichprobe eine Variable in ihrer Häufigkeitsverteilung
signifikant von erwarteten Häufigkeiten der Grundgesamtheit unterscheidet.
Mag. Michael Kuttner (PHT)
Seite 22
22.03.2009
SPSS – Skriptum
Analysieren, Nichtparametrische Tests, Chi-Quadrat...(Erwartete Werte: Alle Kategorien gleich oder
Werte eingeben, Optionen, Exakte Tests)
15.1.2 Binominal-Test
Eine Binominalverteilung ist eine Wahrscheinlichkeitsverteilung für eine Variable, die nur zwei Werte
annimmt (dichotome Variable). Mit Hilfe der Binominalverteilung lässt sich testen, ob ein prozentualer
Häufigkeitsanteil für eine Variable in der Stichprobe mit dem der Grundgesamtheit vereinbar ist.
Analysieren, Nichtparametrische Tests, Binominal...(Testanteil eingeben)
15.1.3 Sequenz-Test (Runs-Test) für eine Stichprobe
Dieser Test ermöglicht es zu prüfen, ob die Reihenfolge der Werte einer Variable in einer Stichprobe (und
damit die Stichprobe) zufällig ist. Angewendet wird dieser Test z.B. in der Qualitätskontrolle und bei
Zeitreihenanalysen.
Analysieren, Nichtparametrische Tests, Sequenzen...
15.1.4 Kolmogorov-Smirnov-Test für eine Stichprobe
Dieser Test hat die Aufgabe zu prüfen, ob die Verteilung einer Stichprobenvariable mit einer
theoretischen Verteilung übereinstimmt oder nicht (Anpassungstest).
Analysieren, Nichtparametrische Tests, K-S bei einer Stichprobe...(Testverteilung: Normal, Poisson,
Gleichverteilung, Exponentiell)
Er dient zur Überprüfung der Verteilungsform (Normal-, Poisson-, Gleich- und exponentielle Verteilung).
p < 0,05 bedeutet eine signifikante Abweichung von der Normalverteilung (Verwendung von
nichtparametrischen Tests!)
15.2 Tests für 2 unabhängige Stichproben
15.2.1 Mann-Whitney U-Test
Dieser Test ist die Alternative zum parametrischen t-Test für den Vergleich von zwei Mittelwerten von
Verteilungen, wenn die Voraussetzungen für den t-Test nicht erfüllt sind: keine metrischen Daten
und/oder keine Normalverteilung. Die Variable muss mindestens ordinalskaliert sein.
Analysieren, Nichtparametrische Tests, Zwei unabhängige Stichproben...(Mann-Whitney U-Test, die
einseitige exakte Signifikanz kann mit „Exakter Test“ berechnet werden)
15.2.2 Moses-Test bei extremer Reaktion
Dieser Test eignet sich dann, wenn man erwartet, dass bei experimentellen Tests unter bestimmten
Testbedingungen manche Personen stark in einer Weise und andere Personen stark in einer
entgegengesetzten Weise reagieren. Insofern stellt der Test Unterschiede in den Streuungen fest.
Analysieren, Nichtparametrische Tests, Zwei unabhängige Stichproben...(Extremreaktionen nach
Mose)
15.2.3 Kolmogorov-Smirnov Z-Test
Im Vergleich zum Mann-Whitney U-Test prüft der Test jegliche Abweichung der Verteilungen (zentrale
Tendenz, Streuung etc.)
Analysieren, Nichtparametrische Tests, Zwei unabhängige Stichproben...(Kolmogorov-Smirnov Z)
15.2.4 Wald-Wolfowitz-Test
Auch dieser Test prüft jegliche Abweichung der Verteilungen (zentrale Tendenz, Streuung etc.)
Er ist eine Alternative zum Kolmogorov-Smirnov Z-Test. Er ist ein Sequenzentest.
Analysieren, Nichtparametrische Tests, Zwei unabhängige Stichproben...(Wald-WolfowitzSequenzen)
15.3 Test für k unabhängige Stichproben
Bei diesen Tests wird geprüft, ob sich k (drei oder mehr) Gruppen unterscheiden oder nicht. Dies
entspricht bei den parametrischen Tests der einfaktoriellen Varianzanalyse (Voraussetzung:
Normalverteilung, gleiche Varianzen, mindestens Intervallskalenniveau).
Interessiert man sich im Signifikanzfalle dafür, welche Gruppen sich im einzelnen signifikant
voneinander unterscheiden, muss man die Gruppen paarweise gegeneinander testen (Mann-Whitney UTest).
Mag. Michael Kuttner (PHT)
Seite 23
22.03.2009
SPSS – Skriptum
15.3.1 Kruskal-Wallis H-Test
Er eignet sich gut zur Prüfung auf eine unterschiedliche zentrale Tendenz von Verteilungen. Er ist eine
einfaktorielle Varianzanalyse für Rangziffern.
Analysieren, Nichtparametrische Tests, K unabhängige Stichproben...(Kruskal-Wallis H)
15.3.2 Median-Test
Geprüft wird, ob die Stichproben aus Grundgesamtheiten mit gleichen Medianen stammen. Daher ist er
ein sehr allgemeiner Test.
Analysieren, Nichtparametrische Tests, K unabhängige Stichproben...(Median)
15.3.3 Jonckheere-Terpstra-Test
In manchen Untersuchungen hat man die Situation, dass eine Wirkungsrichtung angenommen werden
kann.
Analysieren, Nichtparametrische Tests, K unabhängige Stichproben...(Jonckheere-Terpstra)
15.4 Tests für 2 verbundene Stichproben
Bei diesem Testtyp möchte man prüfen, ob eine Maßnahme oder Aktivität wirksam ist oder nicht und
bildet zwei Stichprobengruppen: eine Experiment- und eine Kontrollgruppe (matched pairs: die Paare
werden derart gebildet, dass sich ein Paar hinsichtlich wichtiger sonstiger relevanter Einflussfaktoren
nicht unterscheidet ⇒ verbunden Stichprobe).
15.4.1 Wilcoxon-Test
Der Test eignet sich, wenn Unterschiede in der zentralen Tendenz von Verteilungen geprüft werden
sollen. Der Test beruht auf Rängen von Differenzen in den Variablenwerten.
Analysieren, Nichtparametrische Tests, Zwei verbundene Stichproben...(Wilcoxon)
15.4.2 Vorzeichen-Test
Im Unterschied zum Wilcoxon-Test gehen nur die Vorzeichen der Differenzen, nicht aber die Größen der
Differenzen in Form von Rangziffern in das Testverfahren ein.
Analysieren, Nichtparametrische Tests, Zwei verbundene Stichproben...(Vorzeichen)
15.4.3 McNemar-Test
Dieser Test eignet sich für ein „vorher-nachher“-Testdesign mit dichotomen Variablen und testet
Häufigkeitsunterschiede.
Analysieren, Nichtparametrische Tests, Zwei verbundene Stichproben...(McNemar)
15.4.4 Rand-Homogenitätstest
Dieser Test ist eine Verallgemeinerung des McNemar-Tests. Anstelle von zwei (binären) Kategorien
(vorher - nachher) werden mehr als zwei Kategorien berücksichtigt. Dabei muss es sich um geordnete
Kategorien handeln.
Analysieren, Nichtparametrische Tests, Zwei verbundene Stichproben...(Rand-Homogenität)
15.5 Tests für k verbundene Stichproben
Hier geht es um Prüfung von Unterschieden zwischen drei und mehr Stichproben bzw. Gruppen, wobei es
sich um abhängige bzw. verbundene Stichproben handelt.
15.5.1 Friedman-Test
Es handelt sich um einen allgemeinen Test, der auf Unterschiede prüft ohne aufzudecken, um welche
Unterschiede es sich handelt.
Analysieren, Nichtparametrische Tests, K verbundene Stichproben...(Friedman)
15.5.2 Kendall`s W-Test
Der Test ist dem von Friedman äquivalent.
Analysieren, Nichtparametrische Tests, K verbundene Stichproben...(Kendall-W)
15.5.3 Cochran Q-Test
Dieser Test entspricht dem McNemar-Test mit dem Unterschied, dass er für mehr als zwei dichotome
Variablen angewendet werden kann.
Analysieren, Nichtparametrische Tests, K verbundene Stichproben...(Cochran-Q)
Mag. Michael Kuttner (PHT)
Seite 24
22.03.2009
SPSS – Skriptum
16 Exakte Tests
Beim Testen von Hypothesen werden Testverteilungen (z.B. t-Verteilung, Standardnormalverteilung,
Chi-Quadrat-Verteilung) verwendet. Dabei handelt es sich um eine Approximation. Die Prüfgröße
entspricht annähernd einer theoretischen Verteilung. Je größer der Stichprobenumfang ist, umso besser ist
die Approximation. Man spricht daher von asymptotischen Tests. Diese asymptotischen Tests können
aber zu falschen Ergebnissen führen, wenn der Stichprobenumfang zu klein oder die Stichprobe nicht
ausgewogen ist (z.B. Zellenbesetzungen in den Kreuztabellen). Daher muss man bei kleinen und
unausgewogenen Stichproben exakte Tests durchführen. Bei solchen Tests werden die Wahrscheinlichkeitsverteilungen der Prüfgrößen eigens für die Daten einer vorliegenden Stichprobe berechnet.
SPSS bietet neben den asymptotischen Tests und der exakten Berechnung auch eine Schätzung des
exakten Wertes an (Monte-Carlo-Verfahren: aus der Verteilung der Prüfgröße werden z.B. 10000
ausgewählt).
Bei Stichprobenumfängen ≤ 30 und 3*3-Kreuztabellen bzw. kleiner ist aber eine exakte Berechnung von
p einigermaßen schnell möglich. Falls SPSS die Prozedur mangels Speicherplatzes abbricht, sollte man
das Monte-Carlo-Verfahren einsetzten.
Analysieren, Deskriptive Statistiken, Kreuztabellen...
Exakt: Nur asymptotisch; Monte Carlo; Exakt
17 Faktorenanalyse
Bei der Faktorenanalyse handelt es sich um eine Sammlung von Verfahren, die es erlauben, eine Anzahl
von Variablen auf eine kleinere Anzahl von Faktoren (oder Komponenten) zurückzuführen.
Ziele der Faktorenanalyse:
• Aufdecken latenter Strukturen
• Datenreduktion: viele Variablen sollen durch Faktoren ersetzt werden
• Entwicklung und Überprüfung eines Messinstruments: Test
Schritte einer Faktorenanalyse:
• Vorbereitung einer Korrelationsmatrix der Beobachtungsvariablen
• Extraktion der Ursprungsfaktoren
• Rotation zur endgültigen Lösung und Interpretation der Faktoren
• Eventuelle Berechnung der Faktorwerte für die Fälle und Speicherung als neue Variable
Voraussetzung: normalverteilte, metrisch skalierte, untereinander korrelierte Merkmalsvariablen.
Ergebnis: normalverteilte, metrisch skalierte, nicht unmittelbar beobachtbare Variablen (Faktoren).
Analysieren, Dimensionsreduktion, Faktorenanalyse
Extraktion: Hauptkomponenten oder Hauptachsen-Faktorenanalyse, Nicht rotierte Faktorlösung,
Screeplot
Rotation: Varimax
Optionen: Fehlende Werte durch Mittelwerte ersetzen, Sortiert nach Größe, Unterdrücken von
Absolutwerten kleiner als 0,3
Die Kommunalität einer Variable gibt an, in welchem Ausmaß diese Variable durch die Faktoren
aufgeklärt bzw. erfasst wird.
Der Eigenwert eines Faktors gibt an, wie viel von der Gesamtvarianz aller Variablen durch diesen Faktor
erfasst wird.
Ein Scree-Plot ist die Darstellung der Eigenwerte in einem Diagramm, geordnet in abfallender
Reihenfolge.
Interessant sind die Faktorenladungen (rotierte Komponentenmatrix)und die Eigenwerte der Faktoren
(Erklärte Gesamtvarianz)!
Mag. Michael Kuttner (PHT)
Seite 25
22.03.2009
SPSS – Skriptum
18 Clusteranalyse
Bei der Clusteranalyse handelt es sich um ein Verfahren mit der Zielsetzung, Fälle (für die mehrer
Variablen vorliegen), derart in Gruppen (Cluster) zusammen zu fassen, dass in einem Cluster hinsichtlich
der Variablen möglichst gleichartige (ähnliche) Fälle enthalten sind (Homogenität). Die gebildeten
Cluster sollen sich dann möglichst stark voneinander unterscheiden (Heterogenität).
Drei grundlegende Verfahren:
18.1 Hierarchische Clusteranalyse
Sie bietet sehr detaillierte Analysemöglichkeiten und ist vor allem für kleine Datensätze geeignet. Es
können sowohl metrische als auch nichtmetrische Daten genutzt werden. Sie kann auch für das Clustern
von Variablen verwendet werden. Die hirarchische Clusteranalyse arbeitet mit Ähnlichkeits- oder
Distanzmaßen. Die verschiedenen Verfahren der hierarchischen Clusteranalyse unterscheiden sich darin,
wie die Distanzen zwischen Objekten und Cluster und zwischen Clusterpaaren berechnet werden.
Analysieren, Klassifizieren, Hierarchische Cluster...
Methode: Zentroid-Clustering/Quadrierter Euklidischer Abstand
Statistik: Zuordnungsübersicht, Distanz-Matrix, Cluster-Zugehörigkeit
Diagramm: Alle Cluster, Angegebener Clusterbereich, Dendogramm
Speichern: Die Clusterzugehörigkeit wird unter einem Variablennamen in der Arbeitsdatei gespeichert.
Die Ergebnisausgabe „Vertikales Eiszapfendiagramm“ werden die Clusterlösungen der einzelnen
Hierarchistufen grafisch dargestellt.
18.2 Clusterzentrenanalyse
Dieses Verfahren eignet sich nur für metrische Verfahren. Bei diesem Verfahren ist die Anzahl der zu
bildenden Cluster vorzugeben. Das Verfahren hat dann die Aufgabe, eine optimale Zuordnung der
Objekte zu den Cluster vorzunehmen. Dieses Verfahren kann auch bei sehr großen Datensätzen
angewendet werden. Zweckmäßig ist es, mit einer hierarchischen Methode zunächst die Anzahl der
Cluster zu bestimmen und dann mit der Clusterzentrenanalyse die Clusterlösung zu verbessern.
Analysieren, Klassifizieren, Clusterzentrenanalyse...
Anzahl der Cluster eingeben!
Clusterzentren: man könnte Anfangswerte für Clusterzentren bereitstellen
Iterieren: der Iterationsprozess des Auffindens einer optimalen Lösung kann hier beeinflusst werden
Speichern: die endgültige Clusterzugehörigkeit und die Distanz der Fälle vom jeweiligen Clusterzentrum
werden in einer neuen Variable in der Arbeitsdatei gespeichert.
Optionen: Statistik und Vorgehen bei fehlenden Werten
18.3 Two-Step-Clusteranalyse
Dieses Verfahren stellt im gewissen Sinne eine Kombination aus den beiden anderen Verfahren da. Es
können gleichzeitig metrische als auch kategoriale Variablen verwendet werden. Die optimale Anzahl der
Cluster kann vom Verfahren bestimmt werden (optional). Das Verfahren ist für sehr große Datensätze
geeignet und es können Ausreißerfälle separiert werden (optional). Die Two-Step-Clusteranalyse ist ein
robustes Verfahren, das in der Regel brauchbare Cluster-Ergebnisse liefert.
Analysieren, Klassifizieren, Two-Step-Clusteranalyse...
Obergrenze der Clusteranzahl eingeben.
Optionen: Behandlung von Ausreißern, Standardisierung von Variablen, Speicherzuweisung
Diagramme: „Prozentdiagramm im Cluster“ erzeugt für jede kategoriale Variable ein gruppiertes
Balkendiagramm; Gestapeltes Kreisdiagramm; Wichtigkeitsdiagramme für Variablen
Ausgabe: Statistiken; Arbeitsdatei (Clusterzugehörigkeit wird in einer Variable gespeichert); XMLDateien
Es ist problematisch, wenn bei einer Clusteranalyse die verwendeten Variablen korrelieren. Eine
Faktorenanalyse sollt man dann vorschalten, um die Variablen auf einige Faktoren zu reduzieren.
Mag. Michael Kuttner (PHT)
Seite 26
22.03.2009
SPSS – Skriptum
19 Regressionseffekt
Die Wahrscheinlichkeit, dass extreme Messwerte sich bei einer zweiten Testung dem Mittelwert nähern,
ist größer als die Wahrscheinlichkeit, dass sie sich weiter von ihm entfernen, also noch extremer werden.
Dies ist der bekannte Regressionseffekt (Regression zum Mittelwert, Regression zur Mitte). Je weiter der
Gruppendurchschnitt vom Populationsmittel abweicht, desto größer fällt der statistische
Regressionseffekt aus.
20 Interaktive Grafiken erzeugen und gestalten
Im Unterschied zu herkömmlichen Grafiken wird das Überarbeiten von Grafiken im Ausgabefenster und
nicht im Diagramm-Editor vorgenommen.
Grafiken, Interaktiv
Grafiktyp auswählen; Variablen müssen hinübergezogen werden; Variablen können mit der rechten
Maustaste umgestellt werden (Kategorial-Metrisch)
$CASE = Fall
$COUNT = absolute Häufigkeit
$PCT = prozentuale Häufigkeit
Um Grafiken zu verändern muss man im Viewer durch Doppelklick auf die Grafik die Bearbeitung aktiv
gestalten.
21 Herkömmliche Grafiken erzeugen
Herkömmliche Grafiken können erst durch Übergabe der Grafik in den Diagramm Editor (Doppelklick
auf das Diagramm) überarbeitet werden.
21.1 Balkendiagramme
Grafiken, Veraltete Dialogfelder, Balken...
Wahlmöglichkeit: Einfach, Gruppiert, Gestapelt bzw. Daten im Diagramm
21.2 3D-Balkendiagramme
Grafiken, Veraltete Dialogfelder, 3D-Balken...
X-Achse steht für Fallgruppen, verschiedene Variablen, einzelne Fälle!
Z-Achse steht für Fallgruppen, verschiedene Variablen, einzelne Fälle!
21.3 Liniendiagramme
Grafiken, Veraltete Dialogfelder, Linie...
Wahlmöglichkeiten: Einfach, Mehrfach, Verbundlinie bzw. Daten im Diagramm
21.4 Flächendiagramme
Grafiken, Veraltete Dialogfelder, Flächen...
Wahlmöglichkeiten: Einfach, Gestapelt bzw. Daten im Diagramm
21.5 Kreisdiagramme
Grafiken, Veraltete Dialogfelder, Kreise...
Wahlmöglichkeiten: Daten im Diagramm
21.6 Hoch-Tief-Diagramm
Grafiken, Veraltete Dialogfelder, Hoch-Tief...
Wahlmöglichkeiten: Einfach Hoch-Tief-Schluss, Gruppiert Hoch-Tief-Schluss, Differenzbereich, Einfach
Bereichsbalken, Gruppiert Bereichsbalken bzw. Daten im Diagramm
Mag. Michael Kuttner (PHT)
Seite 27
22.03.2009
SPSS – Skriptum
Hoch-Tief-Schluss-Diagramme eignen sich zur Darstellung der Entwicklung von Aktien- und
Währungskursen.
Bereichsbalkendiagramme können die Differenzen der Häufigkeiten von zwei Gruppen in Form eines
Balkens darstellen.
Differenzliniendiagramme sind ähnlich den Bereichsbalkendiagrammen. Es werden die Differenzen in
Form von Linien dargestellt.
21.7 Boxplot-Diagramme
Grafiken, Veraltete Dialogfelder, Boxplot...
Wahlmöglichkeiten: Einfach, Gruppiert bzw. Daten im Diagramm
In einem Boxplot-Diagramm wird für jede Kategorie die Streuung einer Variable grafisch dargestellt.
21.8 Fehlerbalkendiagramme
Grafiken, Veraltete Dialogfelder, Fehlerbalken...
Wahlmöglichkeiten: Einfach, Gruppiert bzw. Daten im Diagramm
In einem Fehlerbalkendiagramm können Konfidenzbereiche für den unbekannten Mittelwert der
Grundgesamtheit bzw. Streuungsbereiche der metrischen Variable dargestellt werden.
21.9 Populationspyramiden
Grafiken, Veraltete Dialogfelder, Populationspyramide...
Wahlmöglichkeiten: Häufigkeiten
Bei Populationspyramiden werden für verschiedene Altersgruppen (senkrechte Achse) die Häufigkeit von
Männern und Frauen (waagrechte Achse) in einer Grafik aufbereitet.
21.10Streu-/Punktdiagramme
Grafiken, Veraltete Dialogfelder, Streu-/Punktdiagramm...
Wahlmöglichkeiten: Einfaches Streudiagramm, Überlagertes Streudiagramm, Matrix-Streudiagramm,
3D-Streudiagramm, Einfaches Punktdiagramm
21.11Histogramme
Grafiken, Veraltete Dialogfelder, Histogramm...
Wahlmöglichkeiten: Normalverteilungskurve anzeigen
22 Prinzipien für die Frageformulierung
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Einfache und klare Formulierungen verwenden.
Fragen bzw. Aussagen müssen vom Befragten eindeutig interpretiert werden können.
Sie sollten sich auf die Einstellungen beziehen, um die es geht.
Möglichst kurze Fragen bzw. Aussagen verwenden.
Sie sollten immer nur einen Gedanken enthalten.
Sie sollten den gesamten affektiven Bereich der interessierenden Einstellung abdecken.
Sie sollten aus einfachen Sätzen und nicht aus Satzgefügen oder Satzverbindungen bestehen.
Keine Worte verwenden, die den Befragten unverständlich sein könnten.
Sie sollten keine doppelte Verneinung enthalten.
Worte wie „alle“, „immer“ und „kaum“ lediglich in Ausnahmefällen verwenden.
Auf die Gegenwart beziehen.
Sie sollten keine Tatsachen beschreiben oder als Tatsachenbeschreibungen aufgefasst werden
können.
Keine Fragen oder Aussage verwenden, die alle Befragten ablehnen oder denen alle zustimmen.
Sie müssen sich auf das Forschungsproblem und Forschungsziel beziehen.
Mag. Michael Kuttner (PHT)
Seite 28
22.03.2009
SPSS – Skriptum
•
•
•
•
•
•
•
•
•
•
Die Notwendigkeit aller Fragen überprüfen.
Keine Suggestivfragen verwenden. (Antwort ist bereits vorgegeben).
Sozial erwünschte Fragen vermeiden.
Fragerichtung ausbalancieren („Ja“ – „Nein“ Antworten gleich verteilen).
Die Kompetenz der Befragten berücksichtigen.
Alle Antwortalternativen vorgeben.
„Lügenfragen“ zur Überprüfung der „ehrlichen“ Antworten einbauen.
Fragen über persönliche oder intime Probleme des Befragten sind problematisch.
Umfang der Befragung berücksichtigen.
„Rücklaufquote“ und „fehlende Werte“ beachten.
Mag. Michael Kuttner (PHT)
Seite 29
22.03.2009
Herunterladen