Statistische Auswertungsverfahren mit SPSS

Werbung
Statistische Auswertungsverfahren mit SPSS
Prof. Dr. Andrea Raab
Fachhochschule Ingolstadt
Statistische Auswertungsverfahren mit SPSS
Inhaltliche Übersicht
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Informationen zum Programm SPSS
• Grundlagen der Programmbedienung in SPSS
• Befragung und Datenerstellung
• Daten und Variablen
• Deskriptive Analysemethoden
2
Statistische Auswertungsverfahren mit SPSS
Das Programmpaket SPSS für Windows
•
3
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
SPSS
–
früher:
Statistical Package for Social Sciences
–
heute:
Statistical Product and Service Solution
•
Marktführendes Produkt im Bereich der programmgestützten statistischen Analyse
•
Ab Version 5.0 grafische Benutzeroberfläche (GUI) sowie Menüsystem und
integrierte Grafik
•
Derzeit aktuellste Version:
–
SPSS Version 14.0 für Windows
–
SPSS Version 13.0 (englisch) für Apple Macintosh (nur PowerPC, nicht Intel)
•
32.768 Variablen (2 hoch 15) pro Datendatei nutzbar.
•
SPSS-Paket bestehend aus einem Basismodul und verschiedensten Zusatzmodulen
•
Die SPSS-Studentenversion ist ausschließlich in englischer Sprache und unter
Windows verfügbar. (Inhalt: SPSS Base System; Beschränkt auf Verarbeitung von 1500 Fällen und 50 Variablen)
Statistische Auswertungsverfahren mit SPSS
Das Programmpaket SPSS für Windows
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Basismodul
grundlegende Funktionen, einfache
und fortgeschrittene Methoden zur
Datenanalyse und umfangreiche
Grafikmöglichkeiten
4
Zusatzmodule
SPSS Advanced Models
SPSS Categories
SPSS Conjoint
SPSS Data Entry Builder
SPSS Exact Tests
SPSS Maps
SPSS Missing Value Analysis
SPSS Regression Models
SPSS Tables
SPSS Trends
...
Statistische Auswertungsverfahren mit SPSS
Warum SPSS und nicht Excel?
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab

Arbeiten mit großen Datensätzen möglich
(32.768 Variablen (2 hoch 15) pro Datei benutzbar)

Umfangreiche Datentransformationen und -funktionen

Dokumentation und Automatisierung über SYNTAX-Sprache

Großer Umfang an statistischen Funktionen und Prozeduren
 Deskriptive Statistik
(Mittelwerte, Standardabweichungen , Häufigkeiten, Kreuztabellen)
 Inferenzstatistik
(Chi-Quadrat, t-Test, Einfaktorielle Varianzanalyse)
 Multivariate Verfahren
(Clusteranalyse, Faktorenanalyse, Diskriminanzanalyse, Conjointanalyse,
Multidimensionale Skalierung etc.)
5
Statistische Auswertungsverfahren mit SPSS
Statistische Methoden
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistik
beschreibende (deskriptive)
Statistik
- Daten sammeln
- Daten präsentieren
- Daten charakterisieren
6
schließende (induktive)
Statistik
- Schätzen
- Hypothesen testen
Statistische Auswertungsverfahren mit SPSS
Statistische Methoden
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
•
Deskriptive (beschreibende) Statistik
– Messwerte ordnen
– Anschauliche und übersichtliche Darstellung von Daten in
• Tabellen
• Diagrammen
–
–
–
–
–
–
–
–
–
–
–
•
Säulen
Balken
Linien
Punkt
Flächen
Netz
Stengel/Blatt
Hoch-Tief
Box
Streu
Histogramme
Induktive (schließende) Statistik
– Ermittlung von Vertrauensbereichen
– Überprüfung von Hypothesen
7
Statistische Auswertungsverfahren mit SPSS
Statistische Methoden
Vorgehen bei analytischer Statistik (nach Petersen, 1991)
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Grundgesamtheit
Schluss von der bekannten Stichprobe auf die unbekannte
Grundgesamtheit
Formulierung des zu
prüfenden Sachverhaltes
Ermittlung von Schätzgrößen für die Kenngrößen
Entnahme einer Stichprobe
Prüfung der Hypothesen
Parametertests
Prüfung der Hypothesen
Verteilungstests
Erzeugen der Analysendaten
Parameterhypothesen
Verteilungshypothesen
Aufbereitung der Daten
• tabellarisch
• rechnerisch
• graphisch
8
Formulierung der Nullhypothesen und Alternativhypothesen
Statistische Auswertungsverfahren mit SPSS
Begriffsdefinitionen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Variablen/Merkmale und Merkmalsausprägungen
–
In SPSS werden die Ausprägungen bestimmter Merkmale/Variablen betrachtet. Jedes
Merkmal hat mindestens zwei Merkmalsausprägungen (konkreter Wert des Merkmals
= Analysenergebnis)
–
Bsp.: Geschlecht - männlich / weiblich
• Unabhängige (Faktor) und abhängige Variablen
–
unabhängige Variablen können die Merkmalsausprägungen von abhängigen
Variablen beeinflussen (z.B. Alter beeinflusst die Konsumgewohnheiten)
• Qualitative und quantitative Variablen
–
ein Merkmal/Variable kann in seiner Ausprägung qualitativ beschreibend sein
(z.B. Weinsorte, Freundlichkeit)
–
ein Merkmal/Variable kann in seiner Ausprägung quantitativ vermessen worden sein
(z.B. Gehalt, Semesteranzahl)
9
Statistische Auswertungsverfahren mit SPSS
Begriffsdefinitionen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• uni-, bi- und multivariate Daten
–
univariat
•
–
bivariat
•
–
nur ein Merkmal/Variable wird für jeden Fall gemessen/beschrieben
Jeweils 2 Variablen werden für jeden Fall in Beziehung gesetzt (xi,yi)
multivariat
•
Mehr als 2 Variablen werden für jeden Fall in Beziehung gesetzt (xi,yi,zi, ....ki)
Beispiel: Beschreibung einer Kundengruppe
10
–
Alter
–
Einkommen
–
Geschlecht
–
Konsumgewohnheiten
–
Lifestyle
Statistische Auswertungsverfahren mit SPSS
Starten von SPSS
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Dialogfenster
Durch „Abbrechen“ kann dieses Fenster
geschlossen werden
Dialogfenster in Zukunft nicht
mehr anzeigen
v
11
Statistische Auswertungsverfahren mit SPSS
Die SPSS Fenster
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
SPSS Daten Editor
SPSS Syntax Fenster
12
SPSS Viewer
Statistische Auswertungsverfahren mit SPSS
SPSS Daten-Editor
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Arbeitsfläche von SPSS
• Sämtliche mit SPSS durchführbare Analysen
• Variablenansicht
– zeigt alle Variablen und zugehörige Attribute (z.B. Name, Typ, etc.)
• Datenansicht
– zeigt die Beobachtungswerte aller in der
aktuellen Datendatei enthaltenen Variablen.
• Dateityp:
13
*.sav
Statistische Auswertungsverfahren mit SPSS
SPSS Syntax Fenster
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Befehlseingabe für einzelne Prozeduren
– ermöglicht beispielsweise Berechnen von Variablen, Transformieren
von Daten, Ausführen statistischer Prozeduren u.v.m.
• SPSS-Befehlssprache wird im Zuge der Vorlesung noch genauer
bearbeitet werden
• Dateityp: *.sps
14
Statistische Auswertungsverfahren mit SPSS
SPSS Viewer
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Ausgabe für Ergebnisse von Analysen oder Prozeduren
• Wird bei jeder Analyse oder Prozedur automatisch geöffnet
• Navigationsbereich
– Anzeige aller Ergebnisse als ein- und ausblendbare Gliederungspunkte
• Dateityp: *.spo
15
Statistische Auswertungsverfahren mit SPSS
Definition der Variablen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Variablentypen
– String-Variablen (Zeichenketten)
• Verwendung bei offener Fragestellung
– Numerische Variablen
• Vercodung von möglichen Antworten (Bsp.: Bundesland)
• Relative Ordnung von Merkmalen
• Exakte Messung eines Merkmals
16
Statistische Auswertungsverfahren mit SPSS
Qualität der Daten, Skala und Skalenniveau
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Qualität der Daten wird u.a. bestimmt durch die Art und Weise der Messung
Gut messbare Daten
z.B. Körpergröße eines Menschen
schlecht messbare Daten
z.B. Motivation, Gesundheitszustand
Skala
„Meßlatte“, auf der die Ausprägungen einer Eigenschaft abgetragen
werden können
Skalenniveau
Art und Weise, in der eine Eigenschaft eines Objektes in Zahlen
ausgedrückt werden kann
17
Statistische Auswertungsverfahren mit SPSS
Skalenniveau
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Variablen
Qualitative
Variablen
nominal skaliert
18
Quantitative
Variablen
ordinal skaliert
metrisch skaliert
Statistische Auswertungsverfahren mit SPSS
Skalenniveau - Nominalskala
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
•
Ausprägungen einer Variablen bilden nur Kategorien
•
Keinerlei Ordnungsvorschrift
•
Dient lediglich zur Unterscheidung der einzelnen Kategorien
•
Auswertungsmöglichkeiten eingeschränkt
(z.B. Häufigkeitsauszählung; Berechnung eines Mittelwertes ist sinnlos!)
•
Beispiele
– Geschlecht
Kategorie
– Familienstand
1
– Herkunft
2
3
4…
19
Statistische Auswertungsverfahren mit SPSS
Skalenniveau - Ordinalskala
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
•
Für die einzelnen Ausprägungen existiert eine Relation („größer“, „kleiner“)
•
Es kann eine Rangordnung erstellt werden
•
Auswertungsmöglichkeiten:
(z.B. Ranglisten; Median als Mittelwert ist sinnvoll!)
•
Beispiel:
– Platzierungen
– Schulnoten
(streng genommen ordinal)
•
20
Keine Aussage über die Abstände zwischen den Rängen möglich!
Statistische Auswertungsverfahren mit SPSS
Skalenniveau – Intervallskala
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
– Eigenschaften der Nominal - und Ordinalskala
– die Differenzen, nicht jedoch die Quotienten sind interpretierbar
– Ausprägungen werden als Vielfaches einer elementaren Maßeinheit
angegeben
– Beispiel
• Temperatur (hat keinen natürlichen Nullpunkt)
• Schulnoten (werden oft als quasi intervallskaliert behandelt)
21
Statistische Auswertungsverfahren mit SPSS
Skalenniveau – Verhältnisskala
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
– Angabe von Differenzen und Quotienten ist sinnvoll
– Beispiele
• Umsatz eines Unternehmens
• Alter
• Einwohnerzahlen
Intervall – und Verhältnisskalen heißen
metrisch skaliert, Nominal- und Ordinalskalen
heißen nicht metrisch skaliert
(eine Unterscheidung der beiden metrischen Niveaus kommt
bei den meisten statistischen Verfahren keine Bedeutung zu)
22
Statistische Auswertungsverfahren mit SPSS
Skalenniveau - Überblick
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Skala
Beispiel
Differenzierung
Kenngrößen
Lagemaß
Streumaß
Nominal
A=B, A≠B
Geschlecht:
männlich/weiblich
Klassifizierung bei
qualitativen Merkmalen
(gleich, ungleich)
•relative Häufigkeiten
•Modus
Ordinal
A=B, A≠B; A<B<C
Rangordnung
kalt < lau < warm < heiß,
Schulnoten, Güteklasse
Einstufung bei
qualitativen Merkmalen
(kleiner / größer)
•relative Häufigkeiten
•Modus
•Median (x̃),
•Quantile (Q)
•Spannweite (R)
Intervall
Skala mit konstanten
Abständen, Addition,
Subtraktion, Mittelwert
absolute Differenzen
Kalenderdatum, Punkte im
von quantitativen
Intelligenztest
Merkmalen
•relative Häufigkeiten
•Modus
•Median (x)̃,
•arithmetisches Mittel
•Standardabweichung (s)
•Varianz (s2)
•relative Häufigkeiten
relative und absolute
•Modus
Differenzen von
•Median (x)̃
quantitativen Merkmalen •arithmetisches Mittel
•geometrisches Mittel
•Standardabweichung (s)
•Varianz (s2)
Verhältnis
23
Information
Multiplikation, Division
Länge, Fläche
Statistische Auswertungsverfahren mit SPSS
Skalenniveau - Metrische Variablen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
– Diskrete Variablen
• Ein Merkmal/Variable kann nur endlich viele Ausprägungen annehmen
• Anzahl der möglichen Ausprägungen ist abzählbar
• Bsp.: Kinderzahl, Einwohneranzahl, Digitaluhr
– Stetige Variablen
• Ein Merkmal/Variable kann unendlich viele Ausprägungen annehmen
• Mehr als abzählbare Ausprägungen eines Merkmals
• Aus messtechnischen Gründen oft nicht beliebig genau bestimmbar
• Bsp.: Umsatz, Alter, Einkommen, BMI = kg/m², Sanduhr
24
Statistische Auswertungsverfahren mit SPSS
Praxisbeispiel: Befragung der Studenten
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Praxisbeispiel: Befragung der Studenten
Ziele:
1. Erstellen eines praxisrelevanten Datensatzes
2. Auswertungen basierend auf diesen Datensatz
25
Statistische Auswertungsverfahren mit SPSS
Näheres zur Variablenansicht
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bezeichnung
der Variable
Anzahl
der
Zeichen
Ausschlaggebend
für die
Verarbeitung der
Variable in SPSS
26
Bezeichnung der Variablen
Unterscheidung zwischen
und Werte in Datenansicht und nominal, ordinal und metrisch
Ausgaben
(Bisher irrelevant für SPSS)
Benutzerdefiniert
fehlende Werte
Optionen für die Anzeige
in der Datenansicht
Statistische Auswertungsverfahren mit SPSS
Definition von Variablen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
27
Variablenname
Datentypen
Messniveau
• muss mit Buchstaben
beginnen; restliche Zeichen
sind Buchstaben, Ziffern,
Punkte oder folgende
Sonderzeichen @, #, _, $;
keine Leerzeichen!
• darf nicht mit Punkt enden
• soll nicht mit Unterstrich
enden
• auf 64 Zeichen beschränkt
• Name muss eindeutig sein
• Groß- und Kleinschreibung
wird unterschieden
• Bestimmte Namen sind
reserviert z.B. ALL, AND,
NOT, WITH, OR
• Numerisch
• Nominal
• Komma
• Ordinal
• Punkt
• Metrisch
• Wissenschaftliche
Notation
• Datum
• Dollar
• Andere Währung
• String
Statistische Auswertungsverfahren mit SPSS
Deklaration von Variablen am Bsp. A1
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
•
Den einzelnen Werten werden Zahlen zugewiesen
– Um den von uns benutzerdefiniert fehlenden Wert „weiß nicht“ von
den anderen Nennungen zu trennen, geben wir ihm eine erhöhte
Zahl (und trage diesen anschließend bei Fehlende Werte ein)
1
28
2
3
4
8
Statistische Auswertungsverfahren mit SPSS
Deklaration von Variablen am Bsp. A1
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Ein Zeichen lang
Typ: Numerisch
Bezeichnung der Variable
Keine Dezimalstellen
Benutzerdefiniert fehlender Wert:
8 (Weiß nicht)
Wertelabels:
1 = sehr gut
…
4 = nicht gut
8 = weiß nicht
String-Variablen bedürfen weniger Aufwand bei der Deklaration (am Bsp. A3).
Jedoch erzeugen diese offenen Fragen meist viel Arbeit bei der Auswertung.
Anzahl der Zeichen sinnvoll wählen
29
Statistische Auswertungsverfahren mit SPSS
Datenansicht am Bsp. A1
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
•
In der Datenansicht werden die einzelnen
Interviews in Zeilen dargestellt.
•
Die Spalte a1 repräsentiert unsere neu
erzeugte Variable
•
Wie man sieht, wurden die Zahlen durch
das jeweilige Wertelabel ersetzt.
•
Man kann jene mit Hilfe des folgenden
Buttons ein und ausblenden:
30
Statistische Auswertungsverfahren mit SPSS
Praxisbeispiel: Befragung der Kursteilnehmer
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
S1
1 x
2
1
31
Statistische Auswertungsverfahren mit SPSS
Praxisbeispiel: Befragung der Kursteilnehmer
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
A1
1
A2
1
2
8
32
2
3
4
8
Statistische Auswertungsverfahren mit SPSS
Praxisbeispiel: Befragung der Kursteilnehmer
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
A3
33
A4_1
1. Nennung
A4_2
2. Nennung
A4_3
3. Nennung
Statistische Auswertungsverfahren mit SPSS
Praxisbeispiel: Befragung der Kursteilnehmer
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
1
M1_1
M1_2
M1_3
M1_4
M1_5
34
2
3
4
5
8
9
Statistische Auswertungsverfahren mit SPSS
Praxisbeispiel: Befragung der Kursteilnehmer
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
M2
1
2
M3
1
2
3
35
Statistische Auswertungsverfahren mit SPSS
Praxisbeispiel: Befragung der Kursteilnehmer
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
B1
1
2
B2
1
B3
1
2
8
36
2
3
4
8
Statistische Auswertungsverfahren mit SPSS
Praxisbeispiel: Befragung der Kursteilnehmer
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
F1
F1_1
F1_2
F1_3
x
F1_8 = 1
37
Statistische Auswertungsverfahren mit SPSS
Praxisbeispiel: Befragung der Kursteilnehmer
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
1
F2_1
F2_2
F2_3
F2_4
F2_5
38
2
3
4
5
8
9
Statistische Auswertungsverfahren mit SPSS
Praxisbeispiel: Befragung der Kursteilnehmer
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Jeweils mit 1 vercoden
F3_
1
2
3
4
5
6
98
F3_s
7
8
Bsp.: Befragter nutzt Fitness und Volleyball, d.h. die Variablen F3_5 und F3_8
nehmen den Wert “1” an.
39
Statistische Auswertungsverfahren mit SPSS
Praxisbeispiel: Befragung der Kursteilnehmer
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
ST_O
ST_P
ST2
ST3
ST4
1
40
2
9
Statistische Auswertungsverfahren mit SPSS
Praxisbeispiel: Befragung der Kursteilnehmer
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
ST5
1
2
3
4
5
41
6
7
8
9
Statistische Auswertungsverfahren mit SPSS
Praxisbeispiel: Befragung der Kursteilnehmer
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
ST6
1
2
3
ST7
ST8
ST9
1
42
2
Statistische Auswertungsverfahren mit SPSS
Prof. Dr. Andrea Raab
Fachhochschule Ingolstadt
V2
Statistische Auswertungsverfahren mit SPSS
Überblick
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Häufigkeiten
• Lage- und Streuparameter
• Explorative Datenanalyse
• Datenmodifikation
2
Statistische Auswertungsverfahren mit SPSS
Dateneingabe
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Dateneingabe und -konsolidierung
• SPSS
-
Definition der Datenmatrix
Variablennamen, Typ, Label, Missing Values
-
Keine Fehlerprüfung möglich
• Einlesen von Textdateien
-
Variablennamen in 1. Zeile
-
keine Leerzeilen oder -spalten, Überschriften, Texte o.ä.
-
Daten mit dem Assistenten für Textimport einlesen
• Einlesen von fremden Dateiformaten (z.B. Excel, Datenbanken)
-
Variablennamen in 1. Zeile
-
keine Leerzeilen oder -spalten, Überschriften, Texte o.ä.
-
Daten in SPSS einlesen mit Dateityp Excel (.xls)
→ Option „Read Variable Names“ aktivieren
• Data Entry
3
-
Definition der Datenmatrix
-
Eingabe mit Fehlerprüfung
-
Nur bei großen Datenmengen sinnvoll
Statistische Auswertungsverfahren mit SPSS
Statistik Prozeduren in SPSS
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Variablenliste
zu analysierende Variablen
Analyse durchführen
Übergabe in den Syntax Editor
Einstellungen zurücksetzen
Übertragung der Variablen in Analyse
Mit der rechten Maustaste kann die
wissensbasierte Datenbank von SPSS
konsultiert werden.
prozedurspezifische
Steuerungsmöglichkeiten
4
Statistische Auswertungsverfahren mit SPSS
Häufigkeiten
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Häufigkeiten:
5
–
„Analysieren –> Deskriptive Statistik -> Häufigkeiten“
–
Die Werte können absolut oder prozentual dargestellt werden.
–
Das Ergebnis wird in tabellarischer Form im Viewer ausgegeben.
Statistische Auswertungsverfahren mit SPSS
Häufigkeiten
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Häufigkeiten:
–
In der Variablenliste werden alle numerischen und String-Variablen angezeigt.
–
Die Variable, für welche die statistische Maßzahlen berechnet werden sollen, wird aus der
Variablenliste ausgewählt und mit der Pfeil-Schaltfläche in die Liste „Variable(n)“ verschoben.
6
Statistische Auswertungsverfahren mit SPSS
Häufigkeiten
Häufigkeiten:
 M2. Besuchst du regelmäßig die Cafeteria der Mensa?
(Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten)
7
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Häufigkeiten
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Auswertung des Fragebogens zum Kurs
 M2. Besuchst du regelmäßig die Cafeteria der Mensa?
(Ausgabe eines Kuchendiagramms mit prozentualen Diagrammwerten)
Regelm äßige r Be such der Cafete ria
Gültig
Häuf igkeit
92
35
Prozent
71,3
27,1
Gültige
Prozente
72,4
27,6
Gesamt
127
98,4
100,0
System
2
129
1,6
100,0
ja
nein
Fehlend
Gesamt
Kumulierte
Prozente
72,4
100,0
• Nahezu 3/4 der befragten Studenten besuchen
regelmäßig die Mensa der FH Ingolstadt.
8
Statistische Auswertungsverfahren mit SPSS
Häufigkeiten
Auswertung des Fragebogens zum Kurs
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
 M3. Was würdest du zu einem Rauchverbot in der Cafeteria sagen?
(Ausgabe eines Kuchendiagramms mit prozentualen Diagrammwerten)
Me inung zu Rauchve rbot in der Cafete ria
Gültig
Ja, f inde ich gut
Nein, lehne ich ab
Is t mir im Prinzip egal
8
Gesamt
Fehlend
Gesamt
9
System
Häuf igkeit
37
Proz ent
28,7
Gültige
Proz ente
33,0
Kumulierte
Proz ente
33,0
39
30,2
34,8
67,9
23
13
17,8
10,1
20,5
11,6
88,4
100,0
112
17
86,8
13,2
100,0
129
100,0
Statistische Auswertungsverfahren mit SPSS
Häufigkeiten
Auswertung des Fragebogens zum Kurs
 A1. Wie gefällt es Dir in Ingolstadt?
(Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten)
Bew e rtung de r Stadt Ingols tadt
Gültig
Sehr gut
Gut
Weniger gut
Nicht gut
Weiß nicht
Gesamt
Fehlend
Gesamt
System
Häuf igkeit
33
Proz ent
25,6
Gültige
Proz ente
25,8
Kumulierte
Proz ente
25,8
82
8
63,6
6,2
64,1
6,3
89,8
96,1
4
1
3,1
,8
3,1
,8
99,2
100,0
128
99,2
100,0
1
129
,8
100,0
• Der Mehrzahl der Befragten gefällt Ingolstadt
gut oder sogar sehr gut.
10
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Häufigkeiten
Auswertung des Fragebogens zum Kurs
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
 ST5. Wie viel Geld verwendest Du etwa im Monat für Abends zum Weggehen?
(Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten)
Aus gabe n fürs Wegge he n
Gültig
10 ! bis unter 30 !
30 ! bis unter 50 !
50 ! bis unter 70 !
70 ! bis unter 100!
100 ! bis unter 130 !
130 ! bis unter 150 !
150 ! bis unter 200 !
Fehlend
Gesamt
Häuf igkeit
16
Prozent
12,4
Gültige
Prozente
13,3
Kumulierte
Prozente
13,3
17
13,2
14,2
27,5
27
23
20,9
17,8
22,5
19,2
50,0
69,2
8
7
6,2
5,4
6,7
5,8
75,8
81,7
7
5,4
5,8
87,5
mehr als 200 !
Gesamt
15
120
11,6
93,0
12,5
100,0
100,0
System
9
129
7,0
100,0
• 30% der Probanden geben fürs Weggehen mehr als
100 € pro Abend aus.
11
Statistische Auswertungsverfahren mit SPSS
Häufigkeiten
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Auswertung des Fragebogens zum Kurs
 ST6. Rauchst Du?
(Ausgabe eines Kreisdiagramms mit prozentualen Diagrammwerten)
Rauche r
Gültig
Nein, ic h rauche nic ht
Ja, hin und w ieder
Ja, regelmäßig
Fehlend
Gesamt
Gesamt
System
Häuf igkeit
65
20
Proz ent
50,4
15,5
Gültige
Proz ente
52,0
16,0
Kumulierte
Proz ente
52,0
68,0
40
125
31,0
96,9
32,0
100,0
100,0
4
3,1
129
100,0
• Über 50% der befragten Betriebswirtschaftsstudenten rauchen nicht.
12
Statistische Auswertungsverfahren mit SPSS
Häufigkeiten
Auswertung des Fragebogens zum Kurs
 ST7. Wie alt bist du?
(Ausgabe eines Säulendiagramm mit absoluten Diagrammwerten)
Alte r
Gültig
18
19
20
21
22
Gültige
Prozente
1,6
Kumulierte
Prozente
1,6
13
10,1
10,6
12,2
12
24
9,3
18,6
9,8
19,5
22,0
41,5
13
10,1
10,6
52,0
13
12
10,1
9,3
10,6
9,8
62,6
72,4
25
14
7
10,9
5,4
11,4
5,7
83,7
89,4
2
1,6
1,6
91,1
28
29
4
3
3,1
2,3
3,3
2,4
94,3
96,7
30
1
1
,8
,8
,8
,8
97,6
98,4
1
,8
,8
99,2
1
123
,8
95,3
,8
100,0
100,0
31
33
224
Gesamt
Gesamt
Prozent
1,6
23
24
26
27
Fehle nd
Häuf ig keit
2
System
6
4,7
129
100,0
• Die Mehrzahl der Teilnehmer geben .....
13
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Übungsblatt 2
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die
Aufgabe 1 des Übungsblattes.
14
Statistische Auswertungsverfahren mit SPSS
Überblick
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Häufigkeiten
• Lage- und Streuparameter
• Explorative Datenanalyse
• Datenmodifikation
15
Statistische Auswertungsverfahren mit SPSS
Lage und Streuungsparameter
Lageparameter
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• die meist eingesetzten Maßzahlen sind Mittelwerte und Streuungswerte
• Anwendung i.d.R. nur bei metrischen Variablen
• wenn sinnvoll, sollten zu Mittelwerten immer geeignete Streuungsparameter angegeben werden,
um die Häufigkeitsverteilung zu charakterisieren.
Median
• Wert, der eine nach Größe sortierte Reihe von Merkmalsausprägungen in
zwei gleich große Hälften teilt
• 50% der Fälle liegen oberhalb und 50% liegen unterhalb des Median
• Daten mindestens ordinalskaliert (Ordnung nach Größe zwingend)
• Anwendung: Bildung von Extremgruppen z.B. oberstes/unterstes Viertel der
Einkommensvariable (Berechnung von Quartilen)
Modalwert (Modus)
• Messwert, der in einem Datensatz am häufigsten vorkommt
• Gibt an, wo die größte Dichte einer Verteilung liegt
• nominale, ordinale und metrische Daten
16
Statistische Auswertungsverfahren mit SPSS
Lage und Streuungsparameter
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Lageparameter
Arithmetisches Mittel
• Maßzahl zur zentralen Tendenz von Daten
• Ermittlung der durchschnittlichen Merkmalsausprägung
• Daten mindestens intervallskaliert (in manchen Fällen auch ordinal)
• Alle Messwerte gehen mit vollem Gewicht in die Berechnung ein, so dass
Extremwerte stark verzerren können → prüfen ob es Ausreißer gibt
• Befragte, die mit „weiß nicht“ oder die gar nicht geantwortet haben (und dafür z.B.
die Codes 8, 9, oder 99 bekommen) müssen von der Mittelwertberechnung
ausgeschlossen werden, indem sie als fehlende Werte definiert werden
• Das arithmetische Mittel ist nur dann ein wirklich guter mittlerer Kennwert einer
Verteilung, wenn diese symmetrisch ist
17
Statistische Auswertungsverfahren mit SPSS
Lage und Streuungsparameter
Lageparameter
Aus der Reihenfolge der drei Mittelwert arithmetisches Mitte, Modus und Median kann man
Aussagen über die Form der Häufigkeitsverteilung von Variablen ableiten:
1.
2.
3.
18
Linkssteile Verteilung
Die Verteilung steigt links schnell an, erreicht ihren
Gipfel und fällt dann langsam ab.
Modus < Median < arithmetisches Mittel
Rechtssteile Verteilung
Die Verteilung steigt links langsam an, erreicht ihren
Gipfel und fällt rechts steil ab.
arithmetisches Mittel < Median < Modus
Symmetrische Verteilung
Alle drei Mittelwerte fallen auf einen Punkt.
arithmetisches Mittel = Median = Modalwert
• Die Form der Verteilung kann mittels SPSS festgestellt
werden. Die Funktionen heißen „Schiefe“ (Welche Seite der
Verteilung ist länger?) und „Kurtosis“ (Wölbung; je größer die
Wölbung, desto stärker konzentrieren sich die Werte an einer
bestimmten Stelle).
• Schiefe:
rechtssteil < 0 < linkssteil
• Kurtosis:
flachgipflig < 0 < hochgipflig
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Lage und Streuungsparameter
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
19
Statistische Auswertungsverfahren mit SPSS
Lage- und Streuungsparameter
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Streuungsparameter
• Messung der Verteilung der Häufigkeitsverteilung um den Mittelwert
• Präzisiert die Aussage der Lageparameter
• Einfachste Streuungsparameter sind das Minimum (kleinste vorkommende
Merkmalsausprägung) und das Maximum (größte vorkommende Merkmalsausprägung).
Varianz
•
•
•
•
Nur metrische Daten
Bestimmung einer Art durchschnittliche Abweichung vom Mittelwert
Je dichter die einzelnen Werte an dem Mittelwert liegen, desto kleiner ist die Varianz
Die Varianz wird nicht in der Einheit der Variablenwerte gemessen
Standardabweichung
•
•
•
•
Nur metrische Daten
Ermöglicht Vergleichbarkeit mit Mittelwerten
Vergleichbarkeit bei Varianz nicht gegeben, da Einheit zum Quadrat
Die Standardabweichung wird in der Einheit der Variablenwerte gemessen
Spannweite
•
•
•
Mindestens ordinalskalierte Daten
Differenz zwischen dem größten und dem kleinsten Wert der Stichprobe
Kann durch Ausreißer stark beeinflusst werden
Standardfehler
•
•
20
Nur metrische Daten
Maß für die Streuung des Mittelwertes der Stichprobe bzw. verschiedener (potenzieller) Stichproben
um den Mittelwert der Grundgesamtheit
Statistische Auswertungsverfahren mit SPSS
Lage- und Streuungsparameter
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
21
Statistische Auswertungsverfahren mit SPSS
Übungsblatt 2
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die
Aufgabe 2 des Übungsblattes.
22
Statistische Auswertungsverfahren mit SPSS
Überblick
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Häufigkeiten
• Lage- und Streuparameter
• Explorative Datenanalyse
• Datenmodifikation
23
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Explorative Datenanalyse
•
•
•
24
Fehlerhaft erhobene oder eingegebene Daten bedeuten die
Verzerrung der Ergebnisse, deshalb sollten Daten vor Beginn
der Datenanalyse zunächst einer Plausibiltätsprüfung
unterzogen werden
•
Stängel-Blatt-Diagramm
•
Histogramm
Untersuchung und Begutachtung von Daten, von denen man
nur geringes Wissen über deren Zusammenhänge hat
•
Perzentile
Ziele der explorativen Datenanalyse
•
M-Schätzer
1.
Überprüfung der Rohdaten und ggf. der Originalbelege
•
Ausreißer
2.
Prüfung der Verteilung der Werte und Identifikation von
Ausreißern
•
Schachtel-Diagramm
•
Normalverteilungstest
3.
Bildung von Hypothesen über Gründe und
Zusammenhänge, die vorher nicht erkennbar waren
4.
Hilfe zur Wahl des passenden statistischen Werkzeuges
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Explorative Datenanalyse
1. Grafische Darstellung der Werteverteilung
•
•
Stängel-Blatt-Diagramm (Stem-and-Leaf)
Histogramm
2. Lage der Werte beschreiben
Stängel-Blatt-Diagramm
•
Histogramm
•
Perzentile
•
Ausreißer
•
Perzentile
•
Schachtel-Diagramm
•
Ausreißer-Analyse
•
M-Schätzer
•
M-Schätzer
•
Normalverteilungstest
3. Test auf Normalverteilung
25
•
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Stem-and-Leaf Plot (Stängel-Blatt-Diagramm)
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Übersichtliche Darstellung von Variablen mit vielen unterschiedlichen Werten
• Liefert einen grafischen Eindruck von der Verteilung der Werte
• Erstellung per Hand
– Die n Beobachtungswerte werden der Größe nach geordnet
• 101, 103, 105, 111, 112, 112, 134
– Wahl der Blatteinheit (stem width) (Zahl mit der multipliziert werden muss, um zum ursprünglichen Wert zurückzukehren)
• Üblicherweise … 0,1 bzw. 1 bzw. 10 bzw. 100 …
• So wählen, dass beim Teilen eine Nachkommastelle stehen bleibt. Hier: 10
– Beobachtungswerte durch die Blatteinheit teilen
• 10,1 ; 10,3 ; 10,5 ; 11,1 ; 11,2 ; 11,2 ; 13,4
– Den Modulus der Zahl (ohne Komma) bezeichnen wir als Stamm
– Den Wert hinter dem Komma als Blatt
Frequency
3,00
3,00
0,00
1,00
Stem & Leaf
10 . 135
11 . 122
12 .
13 . 4
Stem width: 10,00
Each leaf: 1 case(s)
26
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Stem-and-Leaf Plot (Stängel-Blatt-Diagramm)
 ST8. Wie groß bist Du? (in cm)
Größe Stem-and-Leaf Plot
Frequency
Gibt an, um welchen Faktor die
Ursprungswerte von den im
Diagramm angegebenen
Werten abweichen
Gibt die Anzahl der Werte an,
die durch ein Blatt repräsentiert
werden
27
1,00
15,00
20,00
29,00
23,00
19,00
10,00
3,00
2,00
Stem & Leaf
15 .
16 .
16 .
17 .
17 .
18 .
18 .
19 .
19 .
Gibt den ganzzahligen Teil
der Werte wieder
8
000000233344444
55555556677888888999
00000000000011222222333333344
55555666666777888889999
0000000112222233444
5556667889
034
56
Stem width: 10
Each leaf:
1 case(s)
Gibt den Dezimalteil der
Werte wieder
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Histogramm
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Das Histogramm vermittelt den gleichen Eindruck von der Werteverteilung wie das Stängel-BlattDiagramm, gibt aber keine Auskunft über die Verteilung der Werte innerhalb der einzelnen Klassen
• Werte werden in gruppierter Form (Werteklassen) betrachtet und durch Säulen dargestellt (Bereiche
haben gleiche Breite). Die Werteklassen werden von SPSS automatisch gebildet.
• Nur metrische Daten
* SPSS benötigt metrische Daten für die Darstellung eines Histogramms, in der Statistik gibt es Histogramme für ordinalskalierte Daten
Wenig
aussagekräftig, weil
sich jeder einzelne
Balken auf eine
einzelne Kategorie
bezieht.
28
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Explorative Datenanalyse
1. Grafische Darstellung der Werteverteilung
•
•
Stängel-Blatt-Diagramm (Stem-and-Leaf)
Histogramm
2. Lage der Werte beschreiben
Stängel-Blatt-Diagramm
•
Histogramm
•
Perzentile
•
Ausreißer
•
Perzentile
•
Schachtel-Diagramm
•
Ausreißer-Analyse
•
M-Schätzer
•
M-Schätzer
•
Normalverteilungstest
3. Test auf Normalverteilung
29
•
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Perzentile (auch Quantile, Fraktile)
• Ordnet man die Beobachtungswerte eines Merkmals der Reihe nach, so bestimmt sich der Wert
eines x%-Perzentils durch die Ausprägung des Falles an der x%ten Stelle.
Das 40%-Perzentil dieser Verteilung
hat den Wert 3 (0,4*15 = 6)
Das 50%-Perzentil (Median) dieser
Verteilung hat den Wert 4
(0,5*15 = 7,5 → 8)
30
Fallnummer
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Ausprägung
1
1
2
2
2
3
3
4
5
6
6
7
8
13
26
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Perzentile (auch Quantile, Fraktile)
31
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Perzentile (auch Quantile, Fraktile)
• Die Explorative Datenanalyse gibt eine vorgegebene Auswahl an Perzentilen aus.
Perze ntile
Gew ichtetes Mittel
(Def inition 1)
A lter
Tukey-A ngelpunkte
A lter
5
10
19,00
19,00
25
Perz entile
50
75
21,00
22,00
25,00
21,00
22,00
25,00
90
27,00
95
29,00
• Mit Hilfe der Funktion „Häufigkeiten“ lassen sich benutzerdefinierte Perzentile ausgeben
(Analysieren > Deskriptive Statistik > Häufigkeiten > Statistik)
Statistiken
Alter
N
Gültig
Perzentile
Fehlend
10
20
30
40
50
60
70
80
90
32
123
6
19,00
20,00
21,00
21,00
22,00
23,00
24,00
25,00
27,00
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Ausreißeranalyse (Extremwerte)
• Durch das Anzeigen der Extremwerte (kleinste und größte Werte) können Ausreißer entdeckt
werden.
Extr em w erte
A lter
Größte Werte
1
2
3
4
Kleinste Werte
Fallnummer
96
Wert
71
77
33
31
51
30
5
1
50
106
29 a
18
2
104
124
18
19
119
19
114
19 b
3
4
5
a. Nur eine partielle Liste von Fällen mit dem Wert 29
w ird in der Tabelle der oberen Ex tremw erte angez eigt.
b. Nur eine partielle Liste von Fällen mit dem Wert 19
w ird in der Tabelle der unteren Extremw erte angezeigt.
33
**
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Schachtel-Diagramm (Box Plot)
• Stellt die Lage der Werte und deren Streuung im Definitionsbereich dar
• Ausreißer und Extremwerte werden sichtbar gemacht
Ausreißer (°):
Extremwerte (*):
34
Werte, die mehr als 1,5 Box-Längen vom 25%- oder
75%-Perzentil entfernt sind
Werte, die mehr als 3 Box-Längen vom 25%- oder
75%-Perzentil entfernt sind
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Schachtel-Diagramm (Box Plot)
• Stellt die Lage der Werte und deren Streuung im Definitionsbereich dar
• Ausreißer und Extremwerte werden sichtbar gemacht
Ausreißer
höchster Wert, der
kein Ausreißer ist
75% Perzentil
50% der
Fälle
Median
25% Perzentil
niedrigster Wert, der
kein Ausreißer ist
Ausreißer (°):
Extremwerte (*):
35
Werte, die mehr als 1,5 Box-Längen vom 25%- oder
75%-Perzentil entfernt sind
Werte, die mehr als 3 Box-Längen vom 25%- oder
75%-Perzentil entfernt sind
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
M-Schätzer (Maximum-Likelihood-Schätzer)
• Mittelwertberechnung unter Berücksichtigung von Extremwerten
• Werte werden bei der Berechnung unterschiedlich stark gewichtet (je stärker ein Wert von den
übrigen Werten abweicht, desto geringer ist das Gewicht)
Datenbasis mit Fehleingaben
Berichtigte Datenbasis
Statistiken
Statistiken
Alter
N
Gültig
Fehlend
Mittelwert
Alter
N
123
6
24,41
Mittelwert
M-Schätzer
Alter
M-Schätzer
a
nach Huber
22,48
Tukeyb
Biweight
22,30
M-Schätzer
c
nach Hampel
22,47
a. Die Gewichtungskonstante ist 1,339.
b. Die Gewichtungskonstante ist 4,685.
c. Die Gewichtungskonstanten sind 1,700, 3,400 und 8,500
d. Die Gewichtungskonstante ist 1,340*pi.
36
Andrewsd
Welle
22,29
Gültig
Fehlend
123
6
22,79
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Explorative Datenanalyse
1. Grafische Darstellung der Werteverteilung
•
•
Stängel-Blatt-Diagramm (Stem-and-Leaf)
Histogramm
2. Lage der Werte beschreiben
Stängel-Blatt-Diagramm
•
Histogramm
•
Perzentile
•
Ausreißer
•
Perzentile
•
Schachtel-Diagramm
•
Ausreißer-Analyse
•
M-Schätzer
•
M-Schätzer
•
Normalverteilungstest
3. Test auf Normalverteilung
37
•
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Test auf Normalverteilung
• Zahlreiche statistische Verfahren setzen voraus, dass die zu untersuchenden Daten annähernd
normalverteilt sind
• SPSS bietet mit der Prozedur „Explorative Datenanalyse“ folgende Möglichkeiten Daten auf
Normalverteilung zu prüfen
• Normalverteilungsplots
Empirisch beobachtete Werte werden den erwarteten Werten bei einer Normalverteilung
gegenübergestellt
• Signifikanztests
Errechnung einer Wahrscheinlichkeit, mit der das Zurückweisen der Hypothese, die Werte seien
normalverteilt, fehlerhaft ist
38
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Normalverteilungsplots
Theoretische Werte
einer Normalverteilung
• Sind die empirischen Werte normalverteilt,
müssen die einzelnen Punkte weitgehend dem
Verlauf der Geraden folgen.
• Gravierender ist die Stärke der Abweichung in
deren Form. Folgen die Werte einem klaren
Muster, weichen die Werte systematisch von
der Normalverteilung ab.
39
• Diese Grafik ist geeignet um ein Muster in den
Abweichungen zu erkennen
• Wären die Stichprobenwerte normalverteilt,
müssten die Punkte in der Grafik zufällig und
nicht einem Muster folgend um die horizontale
Linie streuen.
• das Alter ist in der Grundgesamtheit nicht normalverteilt
Statistische Auswertungsverfahren mit SPSS
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Signifikanztests
• Der Kolmogorov-Smirnov- und der Shapiro-Wilk-Test überprüfen beide die Nullhypothese, die Werte
der untersuchten Variablen seien in der Grundgesamtheit normalverteilt
• Es wird eine Wahrscheinlichkeit errechnet, mit der das Zurückweisen dieser Hypothese falsch ist
• Je größer die Irrtumswahrscheinlichkeit, desto eher kann davon ausgegangen werden, dass die Werte
normalverteilt sind.
• Kolmogorov-Smirnov: für große Stichproben geeignet
• Shapiro-Wilk-Test:
ergänzend für kleine Stichproben (etwa weniger als 50)
Tests auf Normalv erteilung
a
Alter
Kolmogorov-Smirnov
Statistik
df
Signifikanz
,143
123
,000
Statistik
,942
a. Signifikanzkorrektur nach Lilliefors
Irrtumswahrscheinlichkeit
• Annahme einer Normalverteilung ist zurückzuweisen
40
Shapiro-Wilk
df
Signifikanz
123
,000
Statistische Auswertungsverfahren mit SPSS
Übungsblatt 2
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die
Aufgabe 3 des Übungsblattes.
41
Statistische Auswertungsverfahren mit SPSS
Überblick
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Häufigkeiten
• Lage- und Streuparameter
• Explorative Datenanalyse
• Datenmodifikation
42
Statistische Auswertungsverfahren mit SPSS
Datenmodifikation und -filterung
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Datenmodifikation und -filterung
Umkodieren
(Befehl: Transformieren → Umkodieren)
Veränderung der Werte einer schon vorhandenen Variablen
• in dieselbe Variable (alte Werte werden überschrieben)
• in eine neue Variable (die alte Variable bleibt erhalten)
• Sonderfall: Umkodierung in aufeinander folgende Zahlen
Berechnen
(Befehl: Transformieren → Berechnen)
Ausführung von mathematischen Operationen mit den vorhandenen Datenwerten
(z.B. Merkmalsausprägungen addieren, Index bilden)
43
Statistische Auswertungsverfahren mit SPSS
Datenmodifikation und -filterung
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Datenmodifikation und -filterung
Untersuchungen anhand einer kategorialen (Gruppierungs-) Variablen
(Befehl: Daten → Datei aufteilen)
Analyse von unterschiedlichen Teildatenmengen
Untersuchungen anhand von kontinuierlichen Variablen
(Befehl: Daten → Fälle auswählen)
Analyse von Daten, die anhand der Werte ihrer Variablen ausgewählt werden
Gewichtung von Fällen
(Befehl: Daten → Fälle gewichten)
Zuweisung von Gewichten auf die unterschiedlichen Fälle der Datendatei, um die
Repräsentativität der Ergebnisse zu gewährleisten (manche Daten sind über- oder
unterrepräsentiert). Die Gewichtungsfaktoren werden bei den nachfolgenden statistischen
Analysen berücksichtigt.
44
Statistische Auswertungsverfahren mit SPSS
Datenmodifikation und -filterung
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Datenmodifikation und -filterung
•
45
Umkodieren
Statistische Auswertungsverfahren mit SPSS
Datenmodifikation und -filterung
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Datenmodifikation und -filterung
•
46
Berechnen
Statistische Auswertungsverfahren mit SPSS
Datenmodifikation und -filterung
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Datenmodifikation und -filterung
•
47
Untersuchungen anhand einer kategorialen (Gruppierungs-) Variablen
Statistische Auswertungsverfahren mit SPSS
Datenmodifikation und -filterung
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Datenmodifikation und -filterung
•
48
Untersuchungen anhand von kontinuierlichen Variablen
Statistische Auswertungsverfahren mit SPSS
Datenmodifikation und -filterung
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Datenmodifikation und -filterung
•
49
Gewichtung von Fällen
Statistische Auswertungsverfahren mit SPSS
Übungsblatt 2
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die
restlichen Fragen des
Übungsblattes.
50
Statistische Auswertungsverfahren mit SPSS
Prof. Dr. Andrea Raab
Fachhochschule Ingolstadt
V3
Statistische Auswertungsverfahren mit SPSS
Überblick
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
2
•
Analyse von Mehrfachantworten
•
Kreuztabellen
•
Korrelationen
•
Regression
Statistische Auswertungsverfahren mit SPSS
Analyse von Mehrfachantworten
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Mehrfachantworten
•
Fragen, auf die Probanden mehrere Antworten gleichzeitig gegeben können
• Beispiel:
x
x
x
• Unabhängig davon, wie viele Kreuze der Befragte setzt, gibt es jedoch in jedem Fall neun
Antwortkategorien
• Die Antworten können nicht in einer Variable gespeichert werden → die Gruppe von Antworten soll
aber so ausgewertet werden, als wären die Informationen nur in einer Variablen gespeichert
• SPSS bietet zwei verschiedene Methoden an:
 Methode multipler Kategorien
 Methode multipler Dichotomien
3
Statistische Auswertungsverfahren mit SPSS
Analyse von Mehrfachantworten
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Mehrfachantworten zur Analyse aufbereiten
• Methode multipler Kategorien:
•
Anzahl der zu ankreuzenden Antworten wurde beschränkt
(z.B.: Bitte kreuzen Sie maximal 3 Antworten an)
→ Anzahl der Variablen entspricht der maximalen Anzahl an Antworten
•
Falls nicht angegeben wurde, wie viele Antworten angekreuzt werden sollen, kann die Anzahl
der maximalen Antworten durch Schätzung oder Durchsicht der Fragebögen ermittelt werden
•
Die Kodierung erfolgt wie bei Einfachantworten
1
2
3
4
5
6
9
F3_99
4
F3_1
→ 1,2,3,4,5,6,7,8,9
F3_2
→ 1,2,3,4,5,6,7,8,9
F3_3
→ 1,2,3,4,5,6,7,8,9
7
8
F3_s
Statistische Auswertungsverfahren mit SPSS
Analyse von Mehrfachantworten
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Mehrfachantworten zur Analyse aufbereiten
• Methode multipler Dichotomien:
• Keine Beschränkung bei der Anzahl der zu
ankreuzenden Antworten
→ für jede Antwortmöglichkeit wird eine Variable erstellt
• Häufig verwendete Codierung:
„1 = wurde gewählt“, „0 = wurde nicht gewählt“
• Vorteil: klare Struktur der Kodierung
• Nachteil: hohe Anzahl an Variablen
1
F3_1
/0
1
F3_2
1
F3_3
F3_99
1
/0
1
/0
1
/0
F3_4
/0
/0
F3_5
F3_6
F3_9
1
/0
/0
Um diese Frage noch eindeutiger zu stellen, müssten eigentlich zwei
Fragen formuliert werden. (1. Treibst du Sport; 2. Welches
Sportangebot an der Fachhochschule Ingolstadt nutzt Du?)
5
um
F3_7
F3_8
F3_9s
1
n
re
e
i
kod
1
/0
1
/0
Statistische Auswertungsverfahren mit SPSS
Analyse von Mehrfachantworten
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Häufigkeitsauswertung von Mehrfachantworten
• Multiple Dichotomien
• Häufigkeitsauswertung über jede einzelne Variable und Vergleich der einzelnen Analysen
→ sehr umständlich und weniger anschaulich
• Multiple Kategorien
• Häufigkeitsauswertung über jede Antwortvariable
→ wenig aussagekräftig, da eine bestimmte Antwort in jeder der in Frage kommenden
Variablen gespeichert sein könnte
Lösung: Variablen zu Sets zusammenfassen
• Mehrfachantworten-Sets werden
nicht mit der Datendatei gespeichert
→ Syntax (kein „Einfügen“ Button)
• Zusammengehörende Variablen in Sets zusammenfassen
• Analyse der Daten mit Prozeduren, die speziell für Mehrfachantworten entwickelt wurden
• „Analysieren > Mehrfachantworten > Sets definieren“
• Sets für multiple Dichotomien
Alle Variablen der Mehrfachantworten werden zu einer Gruppe zusammengefasst, dabei muss angegeben
werden, welche Kodierung bei späteren Analysen von Interesse ist (z.B. 1 = wurde gewählt)
→ Analyse über alle Variablen, mit welcher Häufigkeit die angegebene Kodierung auftritt
• Sets für multiple Kategorien
Alle Antwortvariablen werden zu einer Gruppe zusammengefasst, dabei müssen alle Kodierungen angegeben
sein, die bei der Analyse ausgezählt werden sollen (1 = Aerobic, 2 = Badminton etc.)
→ Analyse, mit welcher Häufigkeit die einzelnen Kodierungen im Set enthalten sind
6
Statistische Auswertungsverfahren mit SPSS
Analyse von Mehrfachantworten
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Variablen zu Setz zusammenfassen
 F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du?
(Mehrfachnennungen möglich)
7
Statistische Auswertungsverfahren mit SPSS
Analyse von Mehrfachantworten
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Häufigkeitsauswertung von Mehrfachantworten
 F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich)
8
Statistische Auswertungsverfahren mit SPSS
Analyse von Mehrfachantworten
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Häufigkeitsauswertung von Mehrfachantworten
 F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich)
Häufigkeiten v on $Sportangebot_set
Fallzusammenfassung
Fälle
$Sportangebot_set a
Gültig
N
Prozent
59
45,7%
Fehlend
N
Prozent
70
54,3%
N
Gesamt
Prozent
129
100,0%
a. Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1.
• Von 129 Probanden nutzen 46% das Sportangebot
an der FHI
• Von allen angebotenen Sportarten wird Aerobic am
meisten besucht (17%)
• 25% der Studenten, die das Sportangebot an der
FHI nutzen, nehmen an der Sportart Aerobic teil.
• Die Kategorie „mache keinen Sport“ sowie die
Spezifizierung der Kategorie „Sonstige“ müssen
separat ausgewertet werden. Es kann jedoch die
Schlussfolgerung gezogen werden, dass die 70
fehlenden Fälle keinen Sport treiben.
Sportangebota
Basketball
Fechten
Fitness
Fußball
Lauftreff
Volleyball
Sonstiges
Gesamt
a.
Prozent
der Fälle
25,4%
6
8
3
6,8%
9,1%
3,4%
10,2%
13,6%
5,1%
11
12,5%
18,6%
11
6
10
18
12,5%
6,8%
11,4%
20,5%
18,6%
10,2%
16,9%
30,5%
88
100,0%
149,2%
Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1.
• Fälle, bei denen keine Set-Variable den angegebenen Wert
(1) annimmt, werden als fehlend bezeichnet
9
Aerobic
Badminton
Antworten
N
Prozent
15
17,0%
Statistische Auswertungsverfahren mit SPSS
Übungsblatt 3
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die
Aufgabe 1 des Übungsblattes.
10
Statistische Auswertungsverfahren mit SPSS
Überblick
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
11
•
Analyse von Mehrfachantworten
•
Kreuztabellen
•
Korrelationen
•
Regression
Statistische Auswertungsverfahren mit SPSS
Kreuztabellen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Kreuztabellen
• Kreuztabellen dienen dazu, die gemeinsame Häufigkeitsverteilung zweier Variablen darzustellen.
Es handelt sich um das Pendant zu einer Häufigkeitstabelle für den 2-Variablen-Fall.
• Es werden Fallgruppen betrachtet, die sich durch die Kombination aus zwei Variablen zusammensetzen
• Kreuztabellen sind zur Betrachtung nominal- oder ordinalskalierten Variablen geeignet
• Die Prozedur Kreuztabellen beschränkt sich nicht nur auf die Verteilung von zwei Variablen, sondern
bietet auch statistische Zusammenhangstests und Zusammenhangsmaße an
Analysemöglichkeiten mit der Prozedur Kreuztabellen
• Kreuztabellen (nominal- und ordinalskalierte Variablen)
• Chi-Quadrat-Test (nominal- und ordinalskalierte Variablen)
Untersucht, z.B. ob aus den Stichprobenbeobachtungen geschlossen werden kann, dass
zwischen zwei kategorialen Variablen in der Grundgesamtheit ein Zusammenhang besteht
• Zusammenhangsmaße (nominal-, ordinal- und intervallskalierte Variablen)
Bringen durch eine Maßzahl die Stärke eines Zusammenhangs zwischen zwei Variablen zum
Ausdruck
12
Statistische Auswertungsverfahren mit SPSS
Kreuztabellen
Kreuztabellen auswerten
 ST2. Im wievielten Semester studierst Du?
 ST6. Rauchst Du?
(Erstellung einer Kreuztabelle und eines Balkendiagramms)
13
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Kreuztabellen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Kreuztabellen auswerten
 ST2. Im wievielten Semester studierst Du?
 ST6. Rauchst Du?
(Erstellung einer Kreuztabelle und eines Balkendiagramms)
Raucher * Semester Kreuztabelle
Anzahl
Raucher
Gesamt
14
Nein, ich rauche nicht
Ja, hin und wieder
Ja, regelmäßig
1
20
3
7
30
3
14
2
9
Semester
5
14
5
11
25
30
7
13
7
11
31
9
4
3
1
Gesamt
65
20
39
8
124
Statistische Auswertungsverfahren mit SPSS
Kreuztabellen
Kreuztabellen auswerten
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Erwartete Häufigkeit: Häufigkeit, die vorliegen müsste, wenn kein statistischer Zusammenhang
vorliegen würde (Zeilensumme * Spaltensumme / Gesamtsumme der Häufigkeit)
• Relative Häufigkeit: absolute Häufigkeit dargestellt in Prozent
• prozentuale Zeilenhäufigkeit: Prozentuierung auf den jeweiligen Zeilensummenwert
• prozentuale Spaltenhäufigkeit: Prozentuierung auf den jeweiligen Spaltensummenwert
• prozentuale Gesamthäufigkeit: Prozentuierung auf die Gesamtzahl der gültigen Fälle
15
Statistische Auswertungsverfahren mit SPSS
Kreuztabellen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Raucher * SemesterKreuztabelle
20
14
Semester
5
14
15,7
30,8%
66,7%
13,1
21,5%
56,0%
16,1%
3
1
Raucher
Nein, ich rauche nicht
bei Normalverteilung beider Merkmale
Anzahl
Erwartete Anzahl
% von Raucher
% von Semester
% der Gesamtzahl
Ja, hin und wieder
Anzahl
Erwartete Anzahl
% von Raucher
% von Semester
Ja, regelmäßig
% der Gesamtzahl
Anzahl
Erwartete Anzahl
% von Raucher
% von Semester
Gesamt
% der Gesamtzahl
Anzahl
Erwartete Anzahl
% von Raucher
% von Semester
% der Gesamtzahl
16
3
7
9
13
4
Gesamt
65
15,7
21,5%
46,7%
16,3
20,0%
41,9%
4,2
6,2%
50,0%
65,0
100,0%
52,4%
11,3%
2
11,3%
5
10,5%
7
3,2%
3
52,4%
20
4,8
15,0%
10,0%
4,0
10,0%
8,0%
4,8
25,0%
16,7%
5,0
35,0%
22,6%
1,3
15,0%
37,5%
20,0
100,0%
16,1%
2,4%
7
1,6%
9
4,0%
11
5,6%
11
2,4%
1
16,1%
39
9,4
17,9%
7,9
23,1%
9,4
28,2%
9,8
28,2%
2,5
2,6%
39,0
100,0%
23,3%
5,6%
30
36,0%
7,3%
25
36,7%
8,9%
30
35,5%
8,9%
31
12,5%
,8%
8
31,5%
31,5%
124
30,0
24,2%
25,0
20,2%
30,0
24,2%
31,0
25,0%
8,0
6,5%
124,0
100,0%
100,0%
24,2%
100,0%
20,2%
100,0%
24,2%
100,0%
25,0%
100,0%
6,5%
100,0%
100,0%
Statistische Auswertungsverfahren mit SPSS
Kreuztabellen
Einsatz von Gruppen – und Schichtenvariablen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Durch Schichtungsvariablen lassen sich mehrdimensionale Häufigkeitstabellen erstellen.
ST2. Im wievielten Semester studierst Du?
ST6. Rauchst Du?
(Erstellung einer Kreuztabelle und eines Balkendiagramms mit der Schichtungsvariable Geschlecht.)
17
Statistische Auswertungsverfahren mit SPSS
Kreuztabellen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Einsatz von Gruppen – und Schichtenvariablen
ST2. Im wievielten Semester studierst Du?
ST6. Rauchst Du?
(Erstellung einer Kreuztabelle und eines Balkendiagramms mit der Schichtungsvariable Geschlecht.)
Raucher * Semester * Geschlecht Kreuztabelle
Anzahl
Geschlecht
männlich
Raucher
weiblich
Gesamt
Raucher
Gesamt
18
Nein, ich rauche nicht
Ja, hin und wieder
Ja, regelmäßig
Nein, ich rauche nicht
Ja, hin und wieder
Ja, regelmäßig
1
10
1
2
13
10
2
5
17
3
5
1
4
10
9
1
5
15
Semester
5
3
0
5
8
11
5
6
22
7
4
5
7
16
9
2
4
15
9
2
3
0
5
2
0
1
3
Gesamt
24
10
18
52
41
10
21
72
Statistische Auswertungsverfahren mit SPSS
Kreuztabellen
Chi-Quadrat-Test (Signifikanztest für mindestens nominalskalierte Daten)
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Zwei Variablen sind voneinander unabhängig (Annahme der Nullhypothese), wenn die
beobachteten Häufigkeiten mit den erwarteten Häufigkeiten übereinstimmen
→ Beispielfragestellung: Besteht zwischen zwei Variablen ein Zusammenhang?
• Nullhypothese:
In der Grundgesamtheit liegt kein Zusammenhang zwischen den Variablen vor.
• Alternativhypothese: In der Grundgesamtheit liegt ein Zusammenhang zwischen den Variablen vor.
• Ein Signifikanzwert von „0,000“ sagt aus, dass man, wenn man die Nullhypothese ablehnt (es besteht
kein Zusammenhang), mit einer Wahrscheinlichkeit von 0,0% einen Fehler begeht.
• Drei verschiedenen Modelle:
• Pearson-Test
am häufigsten verwendeter Test
• Likelihood-Test
liefert bei großen Stichproben das gleiche
Ergebnis wie der Person-Test
• Linear mit linear
misst den linearen Zusammenhang zwischen
den Variablen (min. Ordinalskalierung)
• Voraussetzung für Zuverlässigkeit des Tests
• erwartete Häufigkeit von mindestens 5 in jeder Zelle
• nach Möglichkeit Kreuztabelle mit mehr als 5 Felder
• nominal- und ordinalskalierte Daten
19
Statistische Auswertungsverfahren mit SPSS
Kreuztabellen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Chi-Quadrat-Test (Signifikanztest für mindestens nominalskalierte Daten)
ST2. Im wievielten Semester studierst Du?
ST6. Rauchst Du?
(Prüfung, ob ein Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semester besteht)
Chi-Quadrat-Tests
Chi-Quadrat nach
Pearson
Likelihood-Quotient
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert
a
Asymptotisch
e Signifikanz
(2-seitig)
df
8
,343
Über 0,05
8,895
8
,351
Über 0,01 bis 0,05
1,436
1
,231
Über 0,001 bis 0,01
8,991
124
a. 6 Zellen (40,0%) haben eine erwartete Häufigkeit kleiner 5.
Die minimale erwartete Häufigkeit ist 1,29.
• Es besteht kein signifikanter Zusammenhang
zwischen dem Rauchverhalten und der Anzahl der
Semesteranzahl, da p = 0,343.
• Die Nullhypothese wird angenommen und die
Alternativhypothese verworfen.
20
Irrtumswahrscheinlichkeit*
Unter oder gleich 0,001
Bedeutung
nicht signifikant
signifikant
sehr signifikant
höchst signifikant
*die mit einem Zurückweisen der Nullhypothese verbunden ist.
Statistische Auswertungsverfahren mit SPSS
Kreuztabellen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Zusammenhangsmaße
• Einschätzung der Stärke eines Zusammenhangs und Quantifizierung anhand einer Maßzahl. Eine präzise Aussage
über die Stärke ist anhand der Zusammenhangsmaße nicht möglich.
• Die Anwendbarkeit eines Zusammenhangsmaßes ist vom Skalenniveau der betrachteten Variablen abhängig
• Ein Wert von 0 bedeutet völlige Unabhängigkeit und ein Wert von 1 bedeutet größte Abhängigkeit
(für Zusammenhangsmaße, deren Ausgabe zwischen 0 und 1 liegt)
Zusammenhangsmaß
Nominalskalierte Variablen
Besonderheiten
Ausgabe
Kontingenzkoeffizient
Werte für Tabellen mit unterschiedlicher Feldanzahl sind nur
bedingt vergleichbar
Liefert nur für 2x2 Tabellen (Vierfeldertafel) verlässliche
Ergebnisse und ist stark abhängig von der Anzahl der Fälle
Unempfindlich gegen unterschiedliche Tabellenformate und
Fallzahlen
Lambda ist ein eher grobes Maß und kann auch 0 annehmen,
wenn eine Abhängigkeit gegeben ist
Wert zwischen 0 und 1
Phi
Cramers V
BEST
E WAH
L!
Lambda, Unsicherheitskoeffizient
Ordinalskalierte Variablen
Gamma, Somers d
Betrachtet eine der beiden Variablen als abhängig und eine als
unabhängig
Kendalls Tau-b
Nur für quadratische Tabellen
Kendalls Tau-c
Unempfindlich gegen unterschiedliche Tabellenformate
Wert zwischen -1 und +1
Intervallskalierte Variablen
21
Eta
Abhängige Variable ist intervall- und unabhängige nominal- oder
ordinalskaliert
Wert zwischen 0 und 1
Pearsons Korrelationskoeffizient
Abhängige und unabhängige Variable müssen min.
intervallskaliert sein; Normalverteilung der Variablen
Wert zwischen -1 und +1
Statistische Auswertungsverfahren mit SPSS
Kreuztabellen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Zusammenhangsmaße
ST2. Im wievielten Semester studierst Du?
ST6. Rauchst Du?
(Prüfung, wie stark der Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semester ist)
Symmetrische Maße
Nominal- bzgl.
Nominalmaß
Phi
Cramer-V
Kontingenzkoeffizient
Anzahl der gültigen Fälle
Wert
,269
,190
,260
124
a. Die Null-Hyphothese wird nicht angenommen.
b. Unter Annahme der Null-Hyphothese wird der asymptotische
Standardfehler verwendet.
Zusammenhangsmaß
22
0
über 0 bis 0,2
0,2 bis 0,4
0,4 bis 0,6
0,6 bis 0,8
0,8 bis unter 1
1
Mögliche Interpretation
Kein Zusammenhang
Sehr schwacher Zusammenhang
Schwacher Zusammenhang
Mittlerer Zusammenhang
Starker Zusammenhang
Sehr starker Zusammenhang
Perfekter Zusammenhang
Orientierungshilfe; Brosius 2004, 525
Näherung
sweise
Signifikanz
,343
,343
,343
Statistische Auswertungsverfahren mit SPSS
Übungsblatt 3
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die
Aufgabe 2, 3, 4 und 5 des
Übungsblattes.
23
Statistische Auswertungsverfahren mit SPSS
Überblick
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
24
•
Analyse von Mehrfachantworten
•
Kreuztabellen
•
Korrelationen
•
Regression
Statistische Auswertungsverfahren mit SPSS
Korrelationen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Korrelationen
•
Zielsetzung: Zusammenhänge zwischen zwei Variablen aufdecken, quantifizieren (und testen)
•
Beide Variablen sind „gleichberechtigt“ (keine abhängige und unabhängige Variable)
•
Der Korrelationskoeffizient (R) ist ein Maß für die Stärke und die Richtung des linearen
Zusammenhangs zweier Variablen
+1 → perfekt positiver Zusammenhang
0 → kein linearer Zusammenhang
-1 → perfekt negativer Zusammenhang
–
Der Betrag ist umso größer, je stärker der lineare Zusammenhang zwischen den Variablen ist
–
Wird ein Korrelationskoeffizient von „0“ berechnet, kann dennoch ein perfekter nicht linearer
Zusammenhang zwischen den Variablen bestehen
→ Streudiagramm
Korrelationskoeffizient
0
über 0 bis 0,2
0,2 bis 0,4
0,4 bis 0,6
0,6 bis 0,8
0,8 bis unter 1
1
25
Mögliche Interpretation
Keine Korrelation
Sehr schwache Korrelation
Schwache Korrelation
Mittlere Korrelation
Starke Korrelation
Sehr starke Korrelation
Perfekte Korrelation
Orientierungshilfe; Brosius 2004, 525
Statistische Auswertungsverfahren mit SPSS
Korrelationen
Korrelationen


26
ST7. Wie alt bist Du? (in Jahren)
ST2. Im wievielten Semester studiert Du? (Hochschulsemester)
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Korrelationen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Korrelationen
•
•


In einem Streudiagramm werden die Werte von zwei Variablen gegeneinander abgetragen
Jeder Fall wird durch einen Punkt im Diagramm dargestellt
ST7. Wie alt bist Du? (in Jahren)
ST2. Im wievielten Semester studiert Du? (Hochschulsemester)
1000
Variable 1
800
600
400
200
0
-10,00
-5,00
0,00
5,00
10,00
-5000,00
0,00
Variable 2
20000
Variable 1
15000
10000
5000
0
27
-20000,00
-15000,00
-10000,00
Variable 2
Statistische Auswertungsverfahren mit SPSS
Korrelationen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Korrelationen
•
Wahl der Korrelationskoeffizienten hängt vom Skalenniveau der betreffenden Variablen ab
Pearsons Korrelationskoeffizient
–
Die Variablen müssen mindestens intervallskaliert sein
–
Die Variablen müssen in der Grundgesamtheit annähernd normalverteilt sein
Kendalls Tau-b, Spearmans Rho
–
Die Variablen müssen mindestens ordinalskaliert sein
–
Die Variablen müssen nicht normalverteilt sein
Signifikanztest
•
Rückschlüsse über die Signifikanz eines linearen Zusammenhangs der Variablen von der
Stichprobe auf die Grundgesamtheit können über einen Signifikanztest gezogen werden
•
Wahl des Signifikanztests hängt vom Skalenniveau der betreffenden Variablen ab
(SPSS wählt auf Basis des Korrelationskoeffizienten den richtigen Signifikanztest)
–
Nominalskalenniveau, z.B. Chi-Quadrat Test
–
Ordinalskalenniveau, z.B. Mann-Whitney Test
–
Metrisches Skalenniveau, z.B. T-Test
(Voraussetzung: Variablen normalverteilt)
Irrtumswahrscheinlichkeit*
Über 0,05
Über 0,01 bis 0,05
Über 0,001 bis 0,01
Unter oder gleich 0,001
28
Bedeutung
nicht signifikant
signifikant
sehr signifikant
höchst signifikant
*die mit einem Zurückweisen der Nullhypothese verbunden ist.
Statistische Auswertungsverfahren mit SPSS
Korrelationen
Korrelationen
•


29
Analysieren > Korrelation > Bivariat
ST7. Wie alt bist Du? (in Jahren)
ST2. Im wievielten Semester studiert Du? (Hochschulsemester)
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Korrelationen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Korrelationsmaße
•


Pearsons Korrelationskoeffizient
ST7. Wie alt bist Du? (in Jahren)
ST2. Im wievielten Semester studiert Du? (Hochschulsemester)
Tests auf Normalverteilung
Kolmogorov-Smirnov
Statistik
,164
,143
Semester
Alter
df
123
123
a
Signifikanz
,000
,000
Da die Variablen nicht normalverteilt sind, kann Pearsons
Korrelationskoeffizient nicht berechnet werden. In einem
nächsten Schritt könnte man sich überlegen, ob trotz Test
nicht doch eine Normalverteilung angenommen werden kann.
Shapiro-Wilk
Statistik
,890
,942
df
123
123
Signifikanz
,000
,000
a. Signifikanzkorrektur nachLilliefors
Korrelationen
Alter
Semester
Korrelation nach Pearson
Signifikanz (2-seitig)
N
Korrelation nach Pearson
Signifikanz (2-seitig)
N
Korrelationen
Alter
Semester
,583**
nt
a
d
,000
un
123red
123
,583**
1
,000
123
125
1
Alter
Semester
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig)
Zweiseitiger Signifikanztest
signifikant.
• Es liegt eine mittlere Korrelation der beiden Variablen vor. Laut
Signifikanztest kann der errechnete Korrelationskoeffizient mit einer
Irrtumswahrscheinlichkeit von 0% auf die Grundgesamtheit
übertragen werden (signifikant).
30
Korrelation nach Pearson
Signifikanz (1-seitig)
N
Korrelation nach Pearson
Signifikanz (1-seitig)
N
Alter
1
123
,583**
,000
123
Semester
,583**
,000
123
1
125
**. Die Korrelation ist auf dem Niveau von 0,01 (1-seitig)
Einseitiger Signifikanztest
signifikant.
Statistische Auswertungsverfahren mit SPSS
Korrelationen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Korrelationsmaße
•


Pearsons Korrelationskoeffizient
ST7. Wie alt bist Du? (in Jahren)
ST2. Im wievielten Semester studiert Du? (Hochschulsemester)
Korrelationen
Kendall-Tau-b
Semester
Alter
Spearman-Rho
Semester
Alter
Korrelationskoeffizient
Sig. (2-seitig)
N
Korrelationskoeffizient
Sig. (2-seitig)
N
Korrelationskoeffizient
Sig. (2-seitig)
N
Korrelationskoeffizient
Sig. (2-seitig)
N
**. Die Korrelation istaufdem 0,01 Niveausignifikant(zweiseitig).
• Es liegt eine mittlere Korrelation der beiden Variablen vor. Laut
Signifikanztest kann der errechnete Korrelationskoeffizient mit einer
Irrtumswahrscheinlichkeit von 0% auf die Grundgesamtheit
übertragen werden (höchst signifikant).
31
Semester
1,000
.
125
,517**
,000
123
1,000
.
125
Alter
,517**
,000
123
1,000
.
123
,643**
,000
123
,643**
,000
1,000
.
123
123
Statistische Auswertungsverfahren mit SPSS
Übungsblatt 3
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die
Aufgabe 6 des Übungsblattes.
32
Statistische Auswertungsverfahren mit SPSS
Überblick
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
33
•
Analyse von Mehrfachantworten
•
Kreuztabellen
•
Korrelationen
•
Regression
Statistische Auswertungsverfahren mit SPSS
Regressionsanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Regressionsanalyse
•
–
Beschreibung und Erklärung von Zusammenhängen
–
Durchführung von Prognosen
•
Bestimmung der Parameter (a und b) einer Regressionsgeraden, sodass die Summe der
quadrierten Abstände zwischen den Schätzwerten (Regressionsgerade) und den realen Werten
minimiert wird
•
Einfache lineare Regression
•
34
Die Regressionsanalyse ist ein häufig verwendetes multivariates Analyseverfahren, da es
vielseitig und flexibel eingesetzt werden kann
–
Untersuchung der Abhängigkeit einer Variablen von einer Zweiten
–
Voraussetzung: intervallskalierte, normalverteilte Variablen zwischen denen ein linearer Zusammenhang
besteht
–
Beispiel: Wie verändert sich die Absatzmenge, wenn sich der Preis um 1€ erhöht?
Multiple Regression
–
Untersuchung der Abhängigkeit einer Variablen von einer Kombination mehrerer anderer Variablen
–
Beispiel: Wie beeinflussen Qualität, Preis, Design und Verpackung eines Produktes die
Kundenzufriedenheit?
Statistische Auswertungsverfahren mit SPSS
Regressionsanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Einfache lineare Regression
Regressionsgerade
Y = a +b! X
y = abhängige Variable (Abiturnote)
a = Konstante (Schnittpunkt mit der Y-Achse)
b = Steigungsparameter
x = unabhängige Variable (Alter)
Y = Abiturnote
X = Alter
35
Abiturnote = a + b ! Alter
Statistische Auswertungsverfahren mit SPSS
Regressionsanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Einfache lineare Regression
Nicht erklärte Abweichung
Gesamtabweichung
Erklärte Abweichung
Schätzgerade für die Abiturnote
Y = Abiturnote
X = Alter
36
Y = 0,449 + 0,073 ! X
Statistische Auswertungsverfahren mit SPSS
Regressionsanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Einfache lineare Regression
37
Statistische Auswertungsverfahren mit SPSS
Regressionsanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Einfache lineare Regression
Aufgenommene/Entfernte Variablen
Modell
1
Aufgenomme
ne Variablen
Alter a
Entfernte
Variablen
.
b
Modellzusammenfassung
Methode
Eingeben
Modell
1
← benutzte Variablen
a. Alle gewünschten Variablen wurden aufgenommen.
b. Abhängige Variable: Abiturnote
Regression
Residuen
Gesamt
Quadrats
umme
5,532
17,445
22,977
df
Mittelder
Quadrate
5,532
,150
1
116
117
F
36,781
Signifikanz
,000a
T
1,632
6,065
Signifikanz
,105
,000
a. Einflußvariablen :(Konstante),Alter
b. Abhängige Variable:Abiturnote
Koeffizienten a
Modell
1
(Konstante)
Alter
Nichtstandardisierte
Koeffizienten
Standardf
B
ehler
,449
,275
,073
,012
a. Abhängige Variable: Abiturnote
38
,491a
R-Quadrat
,241
a. Einflußvariablen : (Konstante), Alter
ANOVAb
Modell
1
R
Standardisie
rte
Koeffizienten
Beta
,491
Korrigiertes
R-Quadrat
,234
Standardf
ehler des
Schätzers
,3878
Statistische Auswertungsverfahren mit SPSS
Regressionsanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Einfache lineare Regression
Modellzusammenfassung
Modell
1
R
,491a
R-Quadrat
,241
Korrigiertes
R-Quadrat
,234
Standardf
ehler des
Schätzers
,3878
a. Einflußvariablen : (Konstante), Alter
↑
Korrigiertes R-Quadrat
R=
Regression
Residuen
• Misst den Anteil der erklärten
Streuung an der gesamten
Streuung (Fit des
Regressionsmodells)
39
• Misst, wie viel Varianz der
abhängigen Variable sich durch
die unabhängige Variable
erklären lässt
• Je größer der Wert, desto besser
(Wert: 0 – 1)
 23,4% der Varianz in der
Abiturnote lassen sich durch das
„Alter“ erklären (schlechtes
Ergebnis)
← Standardfehler des Schätzers
• Misst, wie nahe die durch die
Regressionsgleichung
prognostizierten Werte an den
wahren Werten liegen
Statistische Auswertungsverfahren mit SPSS
Regressionsanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Einfache lineare Regression
•
Varianzanalyse für das Regressionsmodell
Gesamtabweichung = nicht erklärte Abweichung + erklärte
Abweichung
ANOVAb
Modell
1
Regression
Residuen
Gesamt
Quadrats
umme
5,532
17,445
22,977
df
1
116
117
Mittelder
Quadrate
5,532
,150
a. Einflußvariablen :(Konstante),Alter
b. Abhängige Variable:Abiturnote
R=
Regression
Residuen
Misst den Anteil der erklärten Streuung an der
gesamten Streuung (Fit des Regressionsmodells)
• Das Regressionsmodell wird so geschätzt, dass die nicht erklärte
Abweichung, die als aggregiertes Fehlermaß interpretiert werden
kann, minimiert wird.
40
F
36,781
Signifikanz
,000a
Signifikanzwert sagt aus,
ob die Variable Alter dazu
geeignet ist, die Abiturnote
vorherzusagen. Modell
wäre geeignet, um die
Abiturnote vorherzusagen
(siehe auch korrigiertes R
Quadrat)
Statistische Auswertungsverfahren mit SPSS
Regressionsanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Einfache lineare Regression
•
Schätzfunktion in der Koeffizienten-Tabelle
Koeffizienten a
Modell
1
(Konstante)
Alter
Nichtstandardisierte
Koeffizienten
Standardf
B
ehler
,449
,275
,073
,012
Standardisie
rte
Koeffizienten
Beta
,491
T
1,632
6,065
Signifikanz
,105
,000
a. Abhängige Variable: Abiturnote
Y = Abiturnote
X = Alter
Y = 0,449 + 0,073 ! X
Steigung der
Gerade
41
Achsenabschnitt
Signifikanzwert sagt aus,
ob die Variable „Alter“
einen signifikanten
Zusammenhang mit der
„Abiturnote“ aufweist.
Weist die Stärke und
Richtung des
Zusammenhangs aus
Statistische Auswertungsverfahren mit SPSS
Übungsblatt 3
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die
Aufgabe 7 des Übungsblattes.
42
Statistische Auswertungsverfahren mit SPSS
Prof. Dr. Andrea Raab
Fachhochschule Ingolstadt
V4
Statistische Auswertungsverfahren mit SPSS
Inhaltliche Übersicht
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
2
•
Arbeiten mit dem Syntaxeditor
•
Mittelwertvergleiche
•
Nichtparametrische und parametrische Tests
Statistische Auswertungsverfahren mit SPSS
Arbeiten mit dem Syntaxeditor
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Der Syntaxeditor
•
Syntax ist eine Programmiersprache, die nicht nur Befehle zur Ausführung von Berechnungen,
sondern auch Anweisungen zum Programmablauf enthält
•
Der Syntaxeditor wird verwendet, um SPSS Prozeduren mit Hilfe von Befehlscode zu speichern,
um sie zu einem späteren Zeitpunkt wieder abrufen zu können
•
Er öffnet sich entweder automatisch indem man die Schaltfläche Einfügen in den jeweiligen
Analysedialogfeldern betätigt oder manuell über das Menü Datei > Neu > Syntax
•
SPSS-Syntax kann im Syntaxeditor über das Menü Datei > Speichern unter der Dateiendung
*.sps gespeichert werden
Vorteile:
3
•
Zeitersparnis bei wiederkehrenden
Berechnungen
•
Schnellere Modifikationen von einzelnen
Befehlen beim Testen von geeigneten
Analyseverfahren
•
Verarbeitet Befehle, die über die
grafische Benutzeroberfläche nicht
erreichbar sind
Statistische Auswertungsverfahren mit SPSS
Arbeiten mit dem Syntaxeditor
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Formulieren eines Syntax Befehls
1.
Ein Befehlsschlüsselwort (z.B. FREQUENCIES) leitet den Syntax Befehl ein

Ein neuer Befehl beginnt in einer neuen Zeile, sprich unmittelbar am Zeilenanfang ohne Leerzeichen und wird
durch ein Befehlsschlüsselwort eingeleitet

Jeder Befehl muss mit einem Punkt abgeschlossen werden

Eine Befehlszeile darf maximal 80 Zeichen (einschließlich Leerräume) enthalten

Befehle dürfen auf beliebig vielen Befehlszeilen fortgesetzt werden, jede neue Zeile muss aber mit mindestens
einem Leerraum eingerückt sein
2.
Der Befehl wird durch ein oder mehrere Unterbefehle gesteuert
(den Befehl spezifizierende Unterbefehle)

Unterbefehle werden in der Regel mit einem Schrägstrich („/“) eingeleitet
3.
Spezifikationen sind die Parameter von Befehlen bzw. Unterbefehlen
(z.B. Variablennamen, Zahlen, Operatoren)
4

Variablennamen dürfen nicht abgekürzt werden

Zahlenangaben in den Spezifikationen dürfen nur den Punkt als Dezimaltrennzeichen benutzen

Zeichenketten, die mit Apostrophen notiert werden können, müssen auf der Zeile enden, auf der sie begonnen
wurden (kein Zeilenumbruch)
Statistische Auswertungsverfahren mit SPSS
Arbeiten mit dem Syntaxeditor
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Beispiele für Syntax Befehle
FREQUENCIES
VARIABLES= st7
/PERCENTILES=25 50 75
/BARCHART .
Häufigkeitsauswertung über die Variable st7 (Alter) mit
Angabe der 25, 50 und 75% Perzentile und eines
Säulendiagramms.
*Bereichseinteiler.
*st7.
RECODE st7
( MISSING = COPY )
( LO THRU 21 =1 )
( LO THRU 24 =2 )
( LO THRU 27 =3 )
( LO THRU 30 =4 )
( LO THRU HI =5 )
( ELSE = SYSMIS ) INTO st7kl.
VARIABLE LABELS st7kl 'Alter (In Bereiche eingeteilt)'.
FORMAT st7kl (F5.0).
VALUE LABELS st7kl
1 '18 - 21'
2 '22 - 24'
3 '25 - 27'
4 '28 - 30'
5 '31+'.
MISSING VALUES st7kl ( ).
VARIABLE LEVEL st7kl ( ORDINAL ).
EXECUTE.
5
Automatische Kategoriebildung über die
Variable st7 (Alter) mit der Funktion
Bereichseinteiler.
• Im Syntaxeditor können Kommentare
eingeflochten werden, die jedoch bei der
Auswertung nicht berücksichtigt werden.
• Sie beginnen mit einem „*“ und enden mit
einem Punkt.
Statistische Auswertungsverfahren mit SPSS
Arbeiten mit dem Syntaxeditor
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Wichtige Befehle (verwendet im Syntaxeditor)
6
RECODE
• Kodiert die Werte von Variablen um und schreibt die resultierenden Wert in die
Zielvariable
• Existierende gleichnamige Variablen werden automatisch überschrieben
VARIABLE LABELS
• Definiert für die Zielvariable ein Variablenlabel
EXECUTE
• Eine Reihe von SPSS Befehlen, z.B. das Einlesen von Daten, Datendefinitionen,
Umkodieren, werden nicht sofort ausgeführt, sondern werden in der Schwebe
gehalten, bis eine explizite Anweisung deren Ausführung erzwingt
COMPUTE
• Variable berechnen
VALUE LABELS
• Definiert für die Zielvariable Wertelabels
FREQUENCIES
• Erstellt Häufigkeitstabellen für eine Variable
DESCRIPTIVES
• Erstellt bestimmt Maßzahlen für eine Variable (z.B. Mittelwert, Spannweite)
CROSSTABS
• Erstellt eine Kreuztabelle über zwei Variablen
EXAMINE
• Führt eine explorative Datenanalyse über eine Variable durch
DO IF
• Wenn bestimmte Transformationen nur für eine bestimmte Auswahl an Fällen
durchgeführt werden soll
Statistische Auswertungsverfahren mit SPSS
Arbeiten mit dem Syntaxeditor
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Ausführen von Syntaxbefehlen
•
Eine Syntaxdatei kann beliebig viele Syntaxbefehle enthalten
•
Folgende Möglichkeiten zur Ausführung stehen zur Verfügung:
•
Ausführen eines einzelnen Befehls
Cursor an einer beliebigen Stelle im Syntaxbefehl positionieren
Ausführen > Aktuellen Befehl
•
Ausführen mehrerer aufeinander folgender Befehle
Auswahl markieren, von jedem auszuführenden Befehl muss mind. ein Zeichen markiert sein
Ausführen > Auswahl
•
Alle Befehl bis zum Ende der Syntaxdatei ausführen
Cursor an einer beliebigen stelle im Syntaxbefehl positionieren
Ausführen > Bis Ende
•
Alle Befehle aus der Syntaxdatei ausführen
Cursor an einer beliebigen Stelle innerhalb der Syntaxdatei positionieren
Ausführen > Alles
7
Statistische Auswertungsverfahren mit SPSS
Arbeiten mit dem Syntaxeditor
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Datenmodifikation mit dem Syntaxeditor
Daten Transformieren
•
die Größe der Studenten soll von cm in Zoll umgerechnet werden, dabei sind 2,54 cm ein Zoll
COMPUTE st8_inch = st8 / 2.54 .
VARIABLE LABELS st8_inch 'Größe in Inch umgerechnet' .
EXECUTE.
Daten Umkodieren
•
Die fünfstelligen Postleitzahlen sollen in die Postleitzahlengebiete 0 bis 9 eingeteilt werden
RECODE
st_p
(Lowest thru 09999=0) (10000 thru 19999=1) (20000 thru 29999=2) (30000
thru 39999=3) (40000 thru 49999=4) (50000 thru 59999=5) (60000 thru
69999=6) (70000 thru 79999=7) (80000 thru 89999=8) (90000 thru Highest=9)
INTO st_p1zahlig .
VARIABLE LABELS st_p1zahlig 'Postleitzahlengebiete einzahlig'.
EXECUTE .
8
Statistische Auswertungsverfahren mit SPSS
Arbeiten mit dem Syntaxeditor
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bedingte Berechnungen mit If
•
Möchte man eine bestimmte Transformation nur für eine bestimmte Auswahl an Fällen
durchführen kann man mithilfe von IF (…) Kriterien festlegen
Einfache Berechnung einer Variablen
IF (st7<=21) st7_kl=1 .
EXECUTE .
Folge von Anweisungen
DO IF (st7>=18 AND st7<21) .
COMPUTE st7=1 .
ELSE IF (st7>=22 AND st7<25) .
COMPUTE st7=2 .
ELSE IF (st7>26) .
COMPUTE st7=3 .
END IF .
EXECUTE .
9
Statistische Auswertungsverfahren mit SPSS
Übungsblatt 4
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die
Aufgaben 1 und 2 des
Übungsblattes 4.
10
Statistische Auswertungsverfahren mit SPSS
Überblick
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
11
•
Arbeiten mit dem Syntaxeditor
•
Mittelwertvergleiche
•
Nichtparametrische und parametrische Tests
Statistische Auswertungsverfahren mit SPSS
Mittelwertvergleiche
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Mittelwertvergleich
•
Berechnung statistischer Maßzahlen (z.B. Mittelwerte) getrennt für verschiedene Fallgruppen
•
Geben erste Anhaltspunkte über mögliche Zusammenhänge der betrachteten Fallgruppen
•
Fallgruppen können durch jede beliebige Merkmalskombination definiert werden
•
Weichen die Mittelwerte der einzelnen Fallgruppen ab, lässt dies zunächst nur Aussagen über die
betrachtete Stichprobe zu, nicht aber über die Grundgesamtheit
→ Signifikanztest (z.B. T-Test, Varianzanalyse (ANOVA))
Grundvoraussetzungen für den einfachen Mittelwertvergleich:
•
•
Abhängige Variable
–
metrisch skalierte Daten
–
Normalverteilung der Variablen in der Grundgesamtheit
Unabhängige Variable
–
12
Nominal- oder ordinalskaliert (nicht metrisch)
Statistische Auswertungsverfahren mit SPSS
Mittelwertvergleiche
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Mittelwertvergleich

13
Mittelwertvergleich über die Variablen Geschlecht (unabhängig) und Körpergröße in cm (abhängig)
Statistische Auswertungsverfahren mit SPSS
Mittelwertvergleiche
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Mittelwertvergleich

Mittelwertvergleich über die Variablen Geschlecht (st9) und Körpergröße in cm (st8)
Verarbeitete Fälle
Größe * Geschlecht
Eingeschlossen
N
Prozent
122
94,6%
Fälle
Ausgeschlossen
N
Prozent
7
5,4%
N
Insgesamt
Prozent
129
100,0%
Bericht
Größe
Geschlecht
männlich
weiblich
Insgesamt
Mittelwert
180,9615
169,1286
174,1721
N
52
70
122
 Vergleicht man die Männer mit den Frauen, kann man
erkennen, dass Männer im Durchschnitt größer sind als
Frauen.
14
Standardab
weichung
6,72415
5,60518
8,45571
Wären die Standardabweichungen
um ein Vielfaches größer als die
Unterschiede zwischen den beiden
Mittelwerten, würde das darauf
hindeuten, dass aus den
beobachteten Mittelwertunterschieden nicht auf entsprechende
Unterschiede in der Grundgesamtheit geschlossen werden kann
→ Validierung durch den T-Test
Statistische Auswertungsverfahren mit SPSS
Übungsblatt 4
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die
Aufgabe 3 des
Übungsblattes 4.
15
Statistische Auswertungsverfahren mit SPSS
Überblick
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
16
•
Arbeiten mit dem Syntaxeditor
•
Mittelwertvergleiche
•
Nichtparametrische und parametrische Tests
Statistische Auswertungsverfahren mit SPSS
Nichtparametrische und parametrische Tests
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Signifikanztests
•
•
Signifikanztests werden eingesetzt, um bestimmte Hypothesen oder Unterschiede über die
Grundgesamtheit anhand einer Stichprobe zu validieren
Sie können in parametrische und nicht parametrische Signifikanztests eingeteilt werden
Ausgangsfrage:
„Sind beobachtete Zusammenhänge oder Unterschiede in der Stichprobe möglicherweise nur
durch die Zufälligkeiten der Stichprobenziehung zustande gekommen oder sind andere
erklärbare Umstände in der Grundgesamtheit dafür verantwortlich?“
17
1.
Aufstellung der Hypothesen (Nullhypothese/Alternativhypothese)
2.
Welche Merkmale sollen untersucht werden?
3.
Welche statistische Kennzahl soll/kann dafür verwendet werden?
4.
Wie hoch soll das Signifikanzniveau sein?
Statistische Auswertungsverfahren mit SPSS
Nichtparametrische und parametrische Tests
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Klassifizierung von Signifikanztests
Nichtparametrische Tests
Anhand der Stichprobe wird der Typ der
Zufallsverteilung überprüft, sprich wie Werte in
der Grundgesamtheit verteilt sind.
Parametrische Tests
Anhand der Stichprobe wird geprüft, ob
konkrete Werte wie z.B. Varianzen oder
Mittelwerte auch so für die Grundgesamtheit
angenommen werden können.
Unterschiede in den Anforderungen an die beobachteten Variablen
• keine Annahmen über die Form der zugrunde
liegenden Verteilung
• Grundgesamtheit sollte annähern nomalverteilt sein
• Variablen können auch nominal skaliert sein
• Variablen müssen metrisch skaliert sein
 Parametrische Tests sind den nichtparametrischen Test generell
vorzuziehen, weil diese eine höhere Aussagekraft besitzen.
 Nichtparametrische Tests können auch mit metrischen Variablen
durchgeführt werden, allerdings nimmt man durch die Herabstufung Einbußen in der Aussagekraft in Kauf
18
Statistische Auswertungsverfahren mit SPSS
Nichtparametrische und parametrische Tests
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Signifikanztests für eine Stichprobe
Test
Binomialtest
Chi-Quadrat Anpassungstest
Kolmogorov-Smirnov-Test
T-Test bei einer Stichprobe
19
Skalenniveau
Dichotom
Nominal
Ordinal
Metrisch
Voraussetzungen
Beschreibung
Keine Vorgabe
•
•
Nichtparametrischer Test
Prüft eine vorgegebene Eintrittswahrscheinlichkeit in der
Grundgesamtheit (z.B. Männer und Frauen sind in der
Grundgesamtheit zu gleichen Teilen vertreten)
Keine Vorgabe
•
•
Nichtparametrischer Test
Prüft die Verteilung der Merkmalsausprägungen in der
Grundgesamtheit (z.B. Familienstand [ledig, verheiratet,
geschieden, verwitwet])
Keine Vorgabe
•
•
Nichtparametrischer Test
Prüft, ob die Werte in der Grundgesamtheit einer bestimmten
Verteilung folgen (z.B. die Bewertung eines Produktes folgt
in der Grundgesamtheit einer Standardnormalverteilung)
•
•
Parametrischer Test
Prüft, ob sich der Mittelwert in der Stichprobe von dem
Mittelwert in der Grundgesamtheit signifikant unterscheidet
(z.B. beträgt das durchschnittliche Alter in der
Grundgesamtheit 35 Jahre?)
Normalverteilung
Statistische Auswertungsverfahren mit SPSS
Nichtparametrische und parametrische Tests
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Chi-Quadrat Anpassungstest
20
•
Testet, ob die empirisch gemessenen Häufigkeiten in der Stichprobe genauso auch in der
Grundgesamtheit erwartet werden können

Sind die Antworten über das Rauchverhalten (st6) in der Grundgesamtheit gleichverteilt?
Statistische Auswertungsverfahren mit SPSS
Nichtparametrische und parametrische Tests
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Chi-Quadrat Anpassungstest

Sind die Antworten über das Rauchverhalten (st6) in der Grundgesamtheit gleichverteilt?
Raucher
Nein, ich rauche nicht
Ja, hin und wieder
Ja, regelmäßig
Gesamt
Beobachtetes
N
65
20
Erwartete
Anzahl
41,7
41,7
Residuum
23,3
-21,7
40
125
41,7
-1,7
Statistik für Test
Chi-Quadrat
df
a
Raucher
24,400
2
Asymptotische Signifikanz
,000
a. Bei 0 Zellen (,0%) werden weniger als
5 Häufigkeiten erwartet. Die kleinste
erwartete Zellenhäufigkeit ist 41,7.
 Mit einer Irrtumswahrscheinlichkeit von 0,0% muss die
Nullhypothese (Gleichverteilung) abgelehnt werden.
 Die Antworten über das Rauchverhalten sind in der
Grundgesamtheit nicht gleichverteilt.
21
Statistische Auswertungsverfahren mit SPSS
Übungsblatt 4
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die
Aufgaben 4 und 5 des
Übungsblattes 4.
22
Statistische Auswertungsverfahren mit SPSS
Prof. Dr. Andrea Raab
Fachhochschule Ingolstadt
V5
Statistische Auswertungsverfahren mit SPSS
Inhaltliche Übersicht
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
2
•
Faktorenanalyse
•
Clusteranalyse
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Die Faktorenanalyse
•
Dimensionsreduzierendes oder strukturentdeckendes Verfahren
•
Reduzierung einer großen Anzahl von Variablen (hohe Komplexität) auf wenige „Faktoren“
anhand deren Korrelationen untereinander
•
Ziel:
•
Skalenniveau: metrisch
•
Vier Schritte:
Extraktion von möglichst wenigen Faktoren, die einen möglichst hohen Anteil
der Beziehungen der gemessenen Variablen untereinander erklären sollen
1. Berechnung der Korrelationsmatrizen
Korrelationsanalyse für jede Variablenkombination
2. Extraktion der Faktoren
Bestimmung der Anzahl und Bildung
der Faktoren
3. Rotation der Faktorladungen
Verbesserung der Interpretationsfähigkeit
der Faktoren (Faktorladungen)
4. Erstellung der Faktorwerte
Berechnung eines Wertes, der die
Ausprägung eines Faktors für einen
Probanden ausdrückt.
3
Da jede Variable auch einen spezifischen
Anteil enthält, kann immer nur ein Teil der
Varianz aufgeklärt werden. Je größer dieser
Teil ist, desto besser die Faktorenanalyse.
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Beispiel
•
PKW Nutzungsgewohnheiten (Wie nutzen Sie ihren aktuellen Pkw? – Pro Zeile eine Angabe)
Statistiken
N
4
•
•
•
•
Gültig
Fehlend
Ich fahre
meistens
alleine.
2373
64
Ich fahre
meistens
mitKindern.
2237
200
Ich befahre
meistens mir
unbekannte
Strecken.
2301
136
2437 Datensätze
Kodierung von 1 – 6 (entsprechend der Frage)
keine Kodierung der fehlenden Werte
Skalenniveau: ordinal / quasi metrisch
Ich telefoniere
vielim
Fahrzeug.
2327
110
Ich fahre mit
meinem Pkw
regelmäig
zum
Arbeitsplatz.
2357
80
Ich fahre mit
meinem Pkw
häufig aufder
Autobahn.
2360
77
Ich fahre
mehrmals
im Jahr mit
meinem
Fahrzeug
insAusland.
2355
82
Ich fahre
meistens mit
meinem Pkw
in den Urlaub.
2357
80
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
Faktorenanalyse
5
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
Einstellungen der Faktorenanalyse
6
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
1. Berechnung der Korrelationsmatrizen
Korrelationsmatrix
cI h fahre
meistens
alleine.
Korrelation
Ich tele foniere
viel im
Fahrzeug.
Ich fahre mit
meinem Pkw
häufig auf der
Autobahn.
Ich fahre
meistens mit
meinem Pkw
in den Urla ub.
1,000
-,201
,144
,237
,232
,197
,069
-,039
cI h fahre meistens mit
Kindern.
-,201
1,000
,024
,033
-,001
-,056
,073
,109
,144
,024
1,000
,395
,009
,278
,219
,070
,237
,033
,395
1,000
,174
,415
,315
,065
cI h fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
,232
-,001
,009
,174
1,000
,226
,074
,011
cI h fahre mit meinem Pkw
häufig auf der Autobahn.
,197
-,056
,278
,415
,226
1,000
,327
,117
cI h fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
,069
,073
,219
,315
,074
,327
1,000
,378
cI h fahre meistens mit
meinem Pkw in den
Urla ub.
-,039
,109
,070
,065
,011
,117
,378
1,000
,000
,000
,000
,000
,000
,001
,035
,138
,065
,488
,005
,000
,000
,000
,334
,000
,000
,001
,000
,000
,000
,001
,000
,000
,312
,000
,000
cI h fahre meistens
alleine.
cI h fahre meistens mit
Kindern.
,000
cI h befahre meistens mir
unbekannte Strecken.
,000
,138
cI h tele foniere vielim
Fahrzeug.
,000
,065
,000
cI h fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
,000
,488
,334
,000
,000
,005
,000
,000
,000
,001
,000
,000
,000
,000
,000
,035
,000
,001
,001
,312
,000
cI h fahre mit meinem Pkw
häufig auf der Autobahn.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
7
Ich befahre
meistens mir
unbekannte
Strecken.
Ich fahre
mehrmals
im Jahr mit
meinem
Fahrzeug
ins Ausland.
cI h fahre meistens
alleine.
cI h befahre meistens mir
unbekannte Strecken.
Ich tele foniere vielim
Fahrzeug.
Signifikanz (1-seitig)
cI h fahre
meistens
mit Kindern.
cI h fahre mit
meinem Pkw
regelmäig
zum
Arbeitsplatz.
cI h fahre meistens mit
meinem Pkw in den
Urla ub.
,000
,000
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
1. Berechnung der Korrelationsmatrizen
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
•
Können die errechneten Korrelationen auch für die Grundgesamtheit angenommen werden?
•
Zwei Möglichkeiten:
–
Signifikanztest für alle Variablen gesammelt (Bartlett Test)
–
Signifikanztest für jede Variablenkombination einzeln (siehe Korrelationsmatrix)
Bartlett Test auf Sphärizität
•
Deckt die Korrelation aller Variablen mit einer Maßzahl ab
•
Nullhypothese:
Es besteht kein Zusammenhang zwischen den beobachteten Variablen in
der Grundgesamtheit
KMO- und Bartlett-Test
Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin.
,674
Bartlett-Test auf
Sphärizität
Ungefähres Chi-Quadrat
df
Signifikanz nach Bartlett
2020,697
28
,000
• Mit einer Irrtumswahrscheinlichkeit von 0,0% liegt die identifizierte
Korrelation in der Stichprobe, zumindest bei einem Teil der
beobachteten Variablen, auch in der Grundgesamtheit vor.
8
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
1. Berechnung der Korrelationsmatrizen
•
Prüfung der Güte des Faktormodells
–
Anti-Image-Korrelationsmatrix
Berechnet für jedes Variablenpaar den Teil der Varianz einer Variablen, der sich nicht durch die jeweils
andere Variable erklären lässt (Residuum / Anti-Image)
→ je niedriger die Werte in der Matrix, desto stärker korrelieren die Variablen miteinander
–
Kaiser-Mayer-Olkin-Maß (KMO)
Drückt die Ergebnisse der Anti-Image-Korrelationsmatrix in einer Maßzahl aus.
→ je näher der KMO-Wert an dem Wert 1 liegt, desto valider ist das Faktormodell
KMO-Test Richtwerte
KMO- und Bartlett-Test
Wert
Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin.
,674
Bartlett-Test auf
Sphärizität
Ungefähres Chi-Quadrat
df
Signifikanz nach Bartlett
2020,697
28
,000
Beurteilung
0,9 – 1,0
fabelhaft
0,8 bis unter 0,9
recht gut
0,7 bis unter 0,8
mittelprächtig
0,6 bis unter 0,7
mäßig
0,5 bis unter 0,6
schlecht
unter 0,5
• Der KMO-Test schätzt die Güte des Faktormodells für mäßig ein.
9
inakzeptabel
Statistische Auswertungsverfahren mit SPSS
Anti-Image-Matrizen
Faktorenanalyse
I h fahre
c
meistens
alleine.
Ich befahre
meistens mir
unbekannte
Strecken.
I h fahre
c
meistens
mit Kindern.
Ich tele foniere
viel im
Fahrzeug.
1. Berechnung der Korrelationsmatrizen
Anti-Image-Kovarianz
•
I h fahre meistens
c
alleine.
,854
,187
I h fahre mit
c
meinem Pkw
regelmäig
zum
Arbeitsplatz.
-,057
-,111
Ich fahre
mehrmals
im Jahr mit
meinem
Fahrzeug
ins Ausla nd.
Ich fahre mit
meinem Pkw
häufig auf der
Autobahn.
-,170
-,047
Ich fahre
meistens mit
meinem Pkw
in den Urla ub.
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
,001
,035
,187
,935
-,026
-,047
,068
-,037
Anti-Image-Korrelationsmatrix und MSA-Werte
(Measure
of-,055Sampling
Adequacy)
-,071
I h fahre meistens mit
c
Kindern.
–
MSA-Werte
I h befahre meistens mir
c
unbekannte Strecken.
-,057
-,026
,812
-,219
,087
-,097
-,055
-,005
I h tele foniere vielim
c
Fahrzeug.
-,111
-,055
-,219
,693
-,065
-,185
-,128
,043
-,047
,068 Anti-Image-Matrizen
-,097
-,185
-,135
,739
-,145
-,022
,001
-,037
-,055
-,128
-,145
Ich fahre
-,071
meistens
mit Kindern.
I h befahre
c
meistens mir
-,005
unbekannte
Strecken.
Ich tele foniere
viel im ,043
Fahrzeug.
,005
I h fahre mit
c
meinem Pkw
regelmäig
zum ,004
Arbeitsplatz.
I h fahre mit
c
meinem Pkw
-,022
häufig auf der
Autobahn.
Ich fahre
,735
mehrmals
im Jahr mit
meinem
-,282
Fahrzeug
ins Ausla nd.
I h fahre
c
meistens mit
,845
meinem Pkw
in den Urla ub.
,187
,209
-,057
-,068
-,111
-,144
-,170
-,194
-,047
-,059
,001
,035
,042
-,026
-,030
-,055
-,069
-,047
-,051
,068
,082
-,037
-,044
-,071
-,080
-,219
-,293
,087
,102
-,097
-,126
-,055
-,071
-,005
-,007
-,185
-,258
-,128
-,179
,043
,056
,005
,007
,004
,004
-,022
-,027
Ähnliches Maß wie der
KMO-Test mit dem Unterschied, dass für jede Variable ein eigener Testwert in der
Ich fahre mit meinem Pkw
regel
m
äig zum
-,170
-,047 angezeigt
,087
-,065 Richtwertetabelle
,898
-,135KMO-Test
,005
,004
Hauptdiagonalen derArbeitspl
Anti-Image-Korrelationsmatrix
wird →
atz.
I h fahre mit meinem Pkw
c
häufig auf der Autobahn.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
Anti-Image-Kovarianz
I h fahre meistens mit
c
meinem Pkw in den
Urla ub.
Ich
h fahre
fahre meistens
meistens
Ic
all
alle
eine.
ine.
Ich
h fahre
fahre meistens
meistens mit
mit
Ic
Kindern.
Kindern.
h befahre
befahre meistens
meistens mir
mir
IIch
c
unbekannte Strecken.
Strecken.
unbekannte
Ich fahre
,035
meistens
alleine.
a
,854
,659
,187
,209
-,057
-,068
a
,935
,481
-,026
-,030
a
,812
,716
h tel
tele
e foniere
foniere viel
vielim
im
IIch
c
Fahrzeug.
Fahrzeug.
-,111
-,144
-,055
-,069
-,219
-,293
,693
,702
-,065
-,082
h fahre
fahre mit
mit meinem
meinem Pkw
Pkw
IIch
c
regelm
mäig
äig zum
zum
regel
Arbeitspla
atz.
tz.
Arbeitspl
-,170
-,194
-,047
-,051
,087
,102
-,065
-,082
,898
,623
-,135
-,166
-,047
-,059
,068
,082
-,097
-,126
-,185
-,258
-,135
-,166
,739
,744
-,145
-,197
,001
,001
-,037
-,044
-,055
-,071
-,128
-,179
,005
,007
-,145
-,197
,735
,667
-,282
-,358
,035
,042
-,071
-,080
-,005
-,007
,043
,056
,004
-,022
-,027
-,282
-,358
,845
,561
,209
-,068
-,144
-,194
-,059
,001
,042
-,030
-,069
-,051
,082
-,044
-,293
,102
-,126
-,071
-,258
0,9
-,179 – 1,0
fabelhaft
,056
0,8 bis unter 0,9
recht gut
h fahre
fahre mit
mit meinem
meinem Pkw
Pkw
IIch
c
häufig auf der Autobahn.
Ich
h fahre
fahre mehrmal
mehrmals
s im
im
Ic
Jahr mit
mit meinem
meinem
Jahr
Fahrzeug ins
ins Ausl
Ausla
and.
nd.
Fahrzeug
I h fahre meistens mit
c
meinem Pkw
Pkw in
in den
den
meinem
Urla
a ub.
ub.
Url
Ich fahre meistens
a. Maßder Stichprobeneignung
alleine.
I h fahre meistens mit
c
Kindern.
a
,659
,209
a
,481
a
I h befahre meistens mir
c
unbekannte Strecken.
-,068
-,030
• Die Residualwerte der Anti-Image-Korrelationsmatrix
sind ,716
Ich tele foniere vielim
-,144
-,069
-,293
durchweg gering, was für
eine hohe Korrelation
steht
Fahrzeug.
c
I
h
fahre
mit
meinem
Pkw
→ das Ergebnis des KMO-Tests
wird bestätigt.
regelmäig zum
-,194
-,051
,102
a
a
a
a
,702
-,082
-,082
,623
-,166
-,258
-,166
,744
-,179
,007
-,197
a
• Lediglich die Variable „Ich
fahre
meistens-,059
mit Kindern“
enthält
Ich fahre mit
meinem Pkw
,082
-,126
häufig auf der Autobahn.
einen inakzeptablen MSA-Wert,
weshalb
ein
Ausschluss
dieser
Ich fahre mehrmals im
Jahr mit meinem
,001
-,044
-,071
Variable aus dem Faktormodell
überlegt werden
sollte.
Fahrzeug ins Ausland.
I h fahre meistens mit
c
meinem Pkw in den
Urla ub.
a. Maßder Stichprobeneignung
,042
-,080
-,007
a
a
,007
,004
-,027
-,007
Beurteilung
,004
0,7 bis unter 0,8
mittelprächtig
-,197 0,7
0,6 bis unter
-,027
mäßig
a 0,6
0,5 bis unter
schlecht
,667
unter 0,5
,056
a
MSA Richtwerte
-,080
Wert
Arbeitsplatz.
10
-,282
-,358
-,358
inakzeptabel
a
,561
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
2. Extraktion der Faktoren
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
•
Verschiedene Modelle zur Faktorextraktion
•
In der Praxis am häufigsten verwendetes Modell: Hauptkomponentenanalyse
•
Ziel: Extrahierte Faktoren sollen einen möglichst großen Teil der Gesamtstreuung abdecken
(für einen Erklärungsgehalt von 100% müssten genauso viele Faktoren extrahiert werden, wie Variablen
in der Faktorenanalyse → jeder Faktor erklärt die die Streuung der zughörigen Variable perfekt)
•
11
Tradeoff zwischen Quantität (Wie viele Faktoren?) und Qualität (Erklärungsgehalt?) der Faktoren
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
2. Extraktion der Faktoren
•
Faktoren mit dem geringsten Erklärungsgehalt werden ausgeschlossen und die mit dem größten
Erklärungsgehalt extrahiert
Erklärte Gesamtvarianz
Komponente
1
2
3
4
5
6
7
8
Gesamt
2,228
1,378
1,010
,963
Anfängliche Eigenwerte
% der Varianz
Kumulierte %
27,847
27,847
17,223
45,070
12,624
57,694
12,040
69,734
,730
,623
,553
9,121
7,792
6,907
78,855
86,647
93,554
,516
6,446
100,000
Summenvon quadrierten Faktorladungen
für Extraktion
Gesamt
% der Varianz
Kumulierte %
2,228
27,847
27,847
1,378
17,223
45,070
1,010
12,624
57,694
Rotierte
Summe
der
Gesamt
quadriert
1,953
en1,465
Ladunge
1,467
a
n
Extraktionsmethode: Hauptkomponentenanalyse.
a. WennKomponenten korreliertsind,könnendie Summen der quadriertenLadungen nichtaddiert werden,um
eine Gesamtvarianzzu erhalten.
Faktoren
Eigenwert
Gibt an, welcher Betrag der
Gesamtstreuung aller
beobachteten Variablen
durch den jeweiligen Faktor
erklärt wird
12
Faktor 1
erklärt 27,8% der
Gesamtstreuung
Extraktionsvorschlag
• Nach dem Kaiser Kriterium
(alle Faktoren mit einem Eigenwert > 1).
• Eigenwert < 1 bedeutet, dass der Faktor einen geringeren Betrag
der Gesamtstreuung erklärt als jede einzelne Variable selbst
Gesamtstreuung
Da die Variablen im Zuge der
Faktorenanalyse standardisiert wurden, hat
jede Variable nun ein Standardabweichung
von 1 und einen Mittelwert von 0
→ Gesamtstreuung = Anzahl der Variablen (8)
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
2. Extraktion der Faktoren
•
•
Kommunalitäten zeigen an, in wieweit die Streuung der einzelnen Variablen durch die extrahierten
Variablen erklärt wird
Das Screeplot stellt die Faktoren und deren Eigenwerte absteigend sortiert in einer Funktion dar
Kommunalitäten
Ich fahre meistens
alleine.
Ich fahre meistens mit
Kindern.
Ich befahre meistens mir
unbekannte Strecken.
Ich telefoniere viel im
Fahrzeug.
Ich fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
Ich fahre mit meinem Pkw
häufig auf der Autobahn.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
Ich fahre meistens mit
meinem Pkw in den
Urlaub.
Anfänglich
Extraktion
1,000
,544
1,000
,338
1,000
,690
1,000
,626
1,000
,638
1,000
,524
1,000
,613
1,000
,643
Extraktionsmethode: Hauptkomponentenanalyse.
Bei Extraktion aller Faktoren wird
die Streuung der einzelnen
Variablen vollständig erklärt
13
Durch Extraktion der drei Faktoren
wird nur noch ein Teil der
Streuung der einzelnen Variablen
erklärt
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
3. Faktorladungen
•
Faktorladungen beschreiben die Beziehung der Faktoren zu den beobachteten Variablen und
werden bei der Interpretation der Faktoren verwendet
•
Sie beschreiben den Zusammenhang zwischen der Variable und dem Faktor – je höher die
Faktorladung, desto stärker der Zusammenhang zwischen der Variable und dem Faktor
•
Faktorladungen können Werte von -1 bis +1 annehmen, es werden allerdings nur Werte zur
Interpretation herangezogen, die mindestens +/- 0,5 oder sogar +/-0,7 überschreiten
•
Positive und negative Werte beschreiben die Richtung des Zusammenhangs
Komponentenmatrix a
Ich telefoniere viel im
Fahrzeug.
Ich fahre mit meinem Pkw
häufig auf der Autobahn.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
Ich fahre meistens mit
meinem Pkw in den
Urlaub.
Ich fahre meistens
alleine.
Ich fahre meistens mit
Kindern.
Ich fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
Ich befahre meistens mir
unbekannte Strecken.
14
Komponente
2
1
3
,743
,718
,632
,616
-,585
,581
,624
,586
Extraktionsmethode: Hauptkomponentenanalyse.
a. 3 Komponenten extrahiert
-,588
• Faktoren sind leicht zu interpretieren, wenn einige Variablen, die
untereinander eine ähnliche homogene Bedeutung haben, hoch
auf ihn laden und gleichzeitig die Ladungen der anderen Variablen
auf diesen Faktor gering sind.
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
3. Rotation der Faktorladungen
•
Ziel: Interpretationsfähigkeit der Faktoren erleichtern
•
Zwei unterschiedliche Gruppen von Rotationsverfahren
–
Orthogonale Rotation (rechtwinklig)
Unterstellt, dass die extrahierten Faktoren nicht miteinander korreliert sind (z.B. VARIMAX, EQUAMAX)
–
Oblique Rotation (schiefwinklig)
Unterstellt, dass die extrahierten Faktoren miteinander korrelieren (z.B. Oblimin)
Rotierte Komponentenmatrix a
Ich befahre meistens mir
unbekannte Strecken.
Ich telefoniere viel im
Fahrzeug.
Ich fahre mit meinem Pkw
häufig auf der Autobahn.
Ich fahre meistens mit
meinem Pkw in den
Urlaub.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
Ich fahre meistens mit
Kindern.
Komponente
2
1
,818
,756
,570
,801
,667
Ich fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
Ich fahre meistens
alleine.
15
3
Extraktionsmethode: Hauptkomponentenanalyse.
Rotationsmethode: Equamax mit Kaiser-Normalisierung.
a. Die Rotation ist in 5 Iterationen konvergiert.
,779
,645
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
3. Rotation der Faktorladungen
Auslandsfahrer
(fac2_1)
Allein fahrender Berufspendler
(fac3_1)
• [+] Ich befahre meistens mir
unbekannte Strecken.
• [+] Ich fahre meistens mit
meinem PKW in den Urlaub.
• [+] Ich telefoniere viel im
Fahrzeug.
• [+] Ich fahre mehrmals im
Jahr mit meinem Fahrzeug
ins Ausland.
• [+] Ich fahre mit meinem Pkw
regelmäßig zum
Arbeitsplatz.
Berufsfahrer / Außendienst
(fac1_1)
• [+] Ich fahre mit meinem Pkw
häufig auf der Autobahn.
16
• [+] Ich fahre meistens
alleine.
Statistische Auswertungsverfahren mit SPSS
Faktorenanalyse
4. Erstellung der Faktorwerte
•
Faktorwerte drücken die Ausprägung eines Faktors für einen konkreten Fall aus
–
hoher positiver Wert = Faktor überdurchschnittlich hoch ausgeprägt
–
hoher negativer Wert = Faktor unterdurchschnittlich niedrig ausgeprägt
•
Werden verwendet um die Ergebnisse der Faktoranalyse in weiterführenden Analyen (z.B.
Clusteranalyse) zu nutzen
•
SPSS bietet drei unterschiedliche Methoden, deren Unterscheidung bei Verwendung der
Hauptkomponentenmethode nicht relevant ist, weil sie jeweils das gleiche Ergebnis liefern
•
Zur Interpretation von Faktorwerten werden die Faktorwerte (gedanklich) in Kategorien eingeteilt:
•
17
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
–
Zwei Kategorien: -9999 bis 0 / 0 bis 9999
–
Drei Kategorien: -9999 bis -1 / -1 bis +1 / +1 bis 9999
–
Vier Kategorien: -9999 bis -1 / -1 bis 0 / 0 bis +1 / +1 bis 9999
–
etc.
Interpretationsalternative:
Runden der Faktorwerte in der Variablenansicht
–
0
→ durchschnittlich
–
<= -1
→ unterdurchschnittlich
–
>= +1
→ überdurchschnittlich
Statistische Auswertungsverfahren mit SPSS
Übungsblatt 5
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die
Aufgaben 1 des 5.
Übungsblattes.
18
Statistische Auswertungsverfahren mit SPSS
Inhaltliche Übersicht
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
19
•
Faktorenanalyse
•
Clusteranalyse
Statistische Auswertungsverfahren mit SPSS
Clusteranalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Clusteranalyse
•
Dimensionsreduzierendes oder strukturentdeckendes Verfahren
•
Objekte werden aufgrund ihrer Ähnlichkeit bezüglich der beobachteten Variablen zu Gruppen
(Cluster) zusammengefasst
•
Ziel:
Bildung von Clustern, die in sich sehr homogene Merkmalsausprägungen
aufweisen, aber zueinander möglichst heterogen sind
•
Skalenniveau:
abhängig von dem verwendeten Clusterungsverfahren
•
Vier Schritte:
1. Auswahl der Merkmale
Anhand welcher Merkmale soll die Gruppenbildung durchgeführt werden
2. Aufbereitung der Daten
Daten müssen den Konventionen des
jeweiligen Clusterungsverfahrens entsprechen
3. Durchführung der Clusteranalyse
Umsetzung in SPSS
4. Interpretation der Ergebnisse
Beschreibung der Cluster und Erstellung
von Clusterprofilen
20
Statistische Auswertungsverfahren mit SPSS
Clusteranalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Clusteranalyse
•
•
•
21
Hierarchische Clusteranalyse
Einzelne Objekte werden schrittweise zu Clustern zusammengefasst. Zunächst wird jedes Objekt als ein
eigener Cluster aufgefasst, welche im weitern Verlauf immer stärker komprimiert werden.
–
Datenmenge:
klein und groß
–
Skalierung:
metrische und nicht-metrische Variablen
–
Vorteil:
sehr differenzierte Steuerung möglich
–
Nachteil:
rechenintensives Verfahren
Clusterzentrenanalyse (Quick-Cluster)
Clusterzuordnung ist bereits vorgegeben und optimale Zuordnung der Objekte soll ermittelt werden.
–
Datenmenge:
groß
–
–
Skalierung:
Vorteil:
metrische Variablen
vertretbarer Rechenaufwand bei großen Datenmengen → schneller
–
Nachteil:
Clusteranzahl muss bekannt sein; Anpassung des Verfahrens nur begrenzt möglich;
Transparenz bei der Berechnung fehlt
Two-Step-Clusteranalyse
Symbiose aus den oben genannten Verfahren; 2-Schritt-Vorgehensweise: grobe Einteilung der Cluster im
ersten Schritt und endgültige Clusterzuordnung mit einem hierarchischen Verfahren im zweiten Schritt
–
Datenmenge:
klein und groß
–
Skalierung:
metrisch und nicht metrische Variablen
–
Vorteil:
automatische Berechnung der Clusteranzahl; spezielle Behandlung von Ausreißern
–
Nachteil:
Anpassung des Verfahrens nur begrenzt möglich; Clusterbildung weniger präzise
Statistische Auswertungsverfahren mit SPSS
Clusteranalyse
1. Auswahl der Merkmale (Two-Step-Clusteranalyse)
•
Anhand welcher Merkmale/Variablen soll die Gruppenbildung vorgenommen werden?
•
Abhängig von der Problemstellung und den zur Verfügung stehenden Daten
Problemstellung:
•
Analyse der Nutzung des Sportangebots an der Fachhochschule Ingolstadt
→ Gibt es Unterschiede im Nutzungsverhalten?
Ausgewählte Merkmale:
•
Nutzung des Sportangebots an der Fachhochschule Ingolstadt (F3)
•
Geschlecht (ST9)
•
Alter (ST7)
•
Anzahl der in Anspruch genommenen Sportangebote *NEU* (Sport)
• Eine Variable (Sport), welche die Anzahl der in Anspruch
genommenen Sportangebote enthält, muss noch errechnet
werden.
22
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Clusteranalyse
2.
Aufbereitung der Daten (Two-Step-Clusteranalyse)
•
Variablen müssen den Konventionen des Clusterungsverfahrens entsprechen
•
Die Two-Step-Clusteranalyse stellt folgende Anforderungen an die Variablen
–
Standardisierte Werte
Standardisierung mit Z-Transformation wird von SPSS automatisch durchgeführt
→ Mittelwert = 0; Standardabweichung = 1
–
Zufällige Sortierung der Datendatei
Sortierung nach einem bestimmten Muster hat Auswirkung auf das Ergebnis der Clusteranalyse, weil die
Fälle sequenziell in die Clusterzuordnung einbezogen werden
Syntax:
SET SEED 1069800
COMPUTE zufall = UNIFORM (1) .
SORT CASES BY zufall .
DELETE VARIABLES zufall .
–
Bei der Verwendung des Distanzmaßes Log-Likelihood (metrische und nicht metrische Variablen)

•
Normalverteilung der stetigen Variablen (Kolmogorov-Smirnov-Test)
•
Multinomiale Verteilung der kategorialen Variablen (nichtparametrischer Chi-Quadrat Anpassungstest)
•
Unabhängigkeit der Variablen (Korrelation bzw. Kreuztabellenanalyse)
• Die Two-Step-Clusteranalyse reagiert relativ robust gegenüber
Verletzungen der Verteilungsanforderungen und der
Unabhängigkeitsbedingung
23
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
• Fehlende Werte bewirken, dass der betroffene Fall von der
Clusteranalyse ausgeschlossen wird → F3_1 – F3_8
Statistische Auswertungsverfahren mit SPSS
Clusteranalyse
3.
Durchführung der Clusteranalyse (Two-Step-Clusteranalyse)
nur stetige Variablen → euklidische Distanz
Distanzmaße
stetige und kategoriale Variablen → Log-Likelihood
24
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Clusteranalyse
3.
Durchführung der Clusteranalyse (Two-Step-Clusteranalyse)
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Sondert Ausreißer in der ersten Clusterstufe aus
Je höher die Anzahl der Knoten desto sorgfältiger wird die Clusterbildung durchgeführt,
aber desto rechenaufwändiger wird das Verfahren
Gruppiertes Balkendiagramm für jede kategoriale
Variable und ein Fehlerbalkendiagramm für jede
stetige Variable
Kreisdiagramm mit prozentualer Verteilung der
Fälle auf die Cluster
Maßzahlen für die Cluster
Diagramme, welche die Bedeutung der einzelnen
Variablen für die Cluster zum Ausdruck bringen.
•
Kategoriale Variablen: Prüft, ob sich die Häufigkeitsverteilung einer Variable signifikant von der
Häufigkeitsverteilung aller Fälle unterscheidet
•
Stetige Variablen: Prüft, ob sich der Mittelwert der
Variable für ein Cluster vom Mittelwert aller
Probanden unterscheidet.
•
Die senkrechte Linie zeigt den kritischen
Signifikanzwert
25
Statistische Auswertungsverfahren mit SPSS
Clusteranalyse
4.
Interpretation der Ergebnisse (Two-Step-Clusteranalyse)
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Clusterverteilung
Cluster
N
1
2
Kombiniert
Ausgeschlossene Fälle
Gesamtwert
% der
Kombination
52,8%
47,2%
100,0%
65
58
123
6
129
% der
Gesamts
umme
50,4%
45,0%
95,3%
4,7%
100,0%
Zentroide
Cluster
1
2
Kombiniert
Alter
Standardab
Mittelwert
weichung
24,38
2,827
21,00
1,835
22,79
2,940
Anzahl der in Anspruch
genommenen
Sportangebote
Standardab
Mittelwert
weichung
,4769
,68711
,9138
1,41774
,6829
1,11117
Semester
1
Cluster
26
1
2
Kombiniert
3
5
7
9
Häufigkeit
1
Prozent
3,3%
Häufigkeit
0
Prozent
,0%
Häufigkeit
27
Prozent
90,0%
Häufigkeit
31
Prozent
100,0%
Häufigkeit
6
Prozent
85,7%
29
30
96,7%
100,0%
25
25
100,0%
100,0%
3
30
10,0%
100,0%
0
31
,0%
100,0%
1
7
14,3%
100,0%
Statistische Auswertungsverfahren mit SPSS
Clusteranalyse
4.
Interpretation der Ergebnisse (Two-Step-Clusteranalyse)
Mit einer Wahrscheinlichkeit von 95% liegt
der Mittelwert der
Grundgesamtheit in
diesem Intervall
27
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Clusteranalyse
4.
Interpretation der Ergebnisse (Two-Step-Clusteranalyse)
Alter
Geschlecht
Semesteranzahl
Anzahl der in Anspruch
genommenen Sportangebote
Cluster 1
Cluster 2
ø 24 Jahre
ø 21 Jahre
ca. gleichverteilt
ca. gleichverteilt
überwiegend
Hauptstudium
(5., 7. und 9. Semester)
überwiegend
Grundstudium
(1. und 3. Semester)
ø 0,5 pro Proband
ø 0,9 pro Proband
Prozent der Probanden im Cluster, die an der jeweiligen Sportart teilnehmen
28
Aerobic
15%
9%
Badminton
0%
10%
Basketball
0%
12%
Fechten
0%
3%
Fitness
11%
5%
Fußball
2%
17%
Lauftreff
3%
5%
Volleyball
2%
16%
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Übungsblatt 5
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Bitte bearbeiten Sie die
Aufgaben 2 des 5.
Übungsblattes.
29
Statistische Auswertungsverfahren mit SPSS
Prof. Dr. Andrea Raab
Fachhochschule Ingolstadt
V6
Statistische Auswertungsverfahren mit SPSS
Review
Skalenniveaus
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Nennen und erklären Sie die 3 in SPSS einstellbaren Skalenniveaus und nennen Sie jeweils ein Beispiel!
2
Statistische Auswertungsverfahren mit SPSS
Review
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Skalenniveaus
Nennen und erklären Sie die 3 in SPSS einstellbaren Skalenniveaus und nennen Sie jeweils ein Beispiel!
• Nominal:
Merkmalsausprägungen bilden nur Kategorien und können nicht in
eine Rangordnung gebracht werden (z.B. Geschlecht)
• Ordinal:
Merkmalsausprägungen können in Relation interpretiert werden und
stellen eine Rangfolge dar (z.B. Platzierung bei einem Wettkampf)
• Metrisch:
(Intervall- oder Verhältnisskaliert) Differenzen bzw. Quotienten der
Merkmalsausprägungen sind interpretierbar. Mittelwerte können
gebildet werden (z.B. Alter)
3
Statistische Auswertungsverfahren mit SPSS
Review
Datenkodierung, Variablendefinition
Kodieren Sie die folgenden Fragen sinnvoll und erstellen Sie Variablendefinitionen:
4
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Review
Datenkodierung, Variablendefinition
Kodieren Sie die folgenden Fragen sinnvoll und erstellen Sie Variablendefinitionen:
1
0
9
5
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Review
Häufigkeitsauswertung
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Erstellen Sie eine Häufigkeitsauswertung über die Frage M3: „Was würdest du zu einem Rauchverbot in
der Cafeteria sagen?“ Beachten Sie dabei offensichtliche Eingabefehler und korrigieren Sie diese im
Vorfeld mit Hilfe von passenden SPSS Funktionen.
Erstellen Sie zusätzlich ein Kreisdiagramm über die Häufigkeitsauswertung mit prozentualen Angaben.
6
Statistische Auswertungsverfahren mit SPSS
Review
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Häufigkeitsauswertung
Erstellen Sie eine Häufigkeitsauswertung über die Frage M3: „Was würdest du zu einem Rauchverbot in
der Cafeteria sagen?“ Beachten Sie dabei offensichtliche Eingabefehler und korrigieren Sie diese im
Vorfeld mit Hilfe von passenden SPSS Funktionen.
Erstellen Sie zusätzlich ein Kreisdiagramm über die Häufigkeitsauswertung mit prozentualen Angaben.
Meinung zu Rauchverbot in der Cafeteria
Ja, finde ich gut
Nein, lehne ich ab
Ist mir im Prinzip egal
MeinungzuRauchverbot in der Cafeteria
Gültig
Fehlend
Gesamt
Ja,finde ich gut
Nein,lehne ich ab
Istmir im Prinzip egal
Gesamt
System
Häufigkeit
37
Prozent
28,7
39
23
99
30
30,2
17,8
76,7
23,3
129
100,0
Gültige
Prozente
37,4
Kumulierte
Prozente
37,4
39,4
23,2
100,0
76,8
100,0
23,20%
37,40%
39,40%
7
Statistische Auswertungsverfahren mit SPSS
Review
Lage- und Streuparameter
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, die
Kurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnen
Maße.
8
Statistische Auswertungsverfahren mit SPSS
Review
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Lage- und Streuparameter
Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, die
Kurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnen
Maße.
Statistiken
Alter
N
Mittelwert
Modus
Standardabweichung
Varianz
Schiefe
Standardfehler der Schiefe
Kurtosis
Standardfehler der Kurtosis
Spannweite
9
Gültig
Fehlend
123
6
22,79
21
2,940
8,643
,821
,218
,611
,433
15
Statistische Auswertungsverfahren mit SPSS
Review
Lage- und Streuparameter
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, die
Kurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnen
Maße.
• Mittelwert
Maßzahl zur zentralen Tendenz der Daten; ermittelt die durchschnittliche Merkmalsausprägung
In te rp re ta ti on Erg e bn i s
• Modalwert
Messwert, der in einem Datensatz am häufigsten vorkommt
In te rp re ta ti on Erg e bn i s
• Varianz/
Standardabw.
Ermitteln die (quadrierten) Abweichungen jedes Einzelwertes vom Mittelwert; ihr Ausmaß verringert
sich, je näher die Werte um den Mittelwert liegen
In te rp re ta ti on Erg e bn i s
• Schiefe
Maß für die Abweichung einer Zufallsvariablen von einer zum Mittelwert symmetrischen Verteilung
Schiefe > 0: rechtsschief (linkssteil); < 0: linksschief (rechtssteil)
In te rp re ta ti on Erg e bn i s
• Kurtosis
Maß für die Abweichung des Verlaufs einer gegebenen Wahrscheinlichkeitsverteilung vom Verlauf
einer Normalverteilung
Kurtosis > 0: hochgipflig; < 0: flachgipflig
In te rp re ta ti on Erg e bn i s
• Spannweite
Differenz zwischen dem größten und dem kleinsten Wert der Stichprobe
In te rp re ta ti on Erg e bn i s
10
Statistische Auswertungsverfahren mit SPSS
Review
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Erstellen Sie ein Histogramm und ein Stängel-Blatt-Diagramm über die Variable „Größe.“
Welchen Vorteil haben die beiden Diagramme im Vergleich zur Darstellung in einem normalen
Balkendiagramm?
11
Statistische Auswertungsverfahren mit SPSS
Review
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Erstellen Sie ein Histogramm und ein Stängel-Blatt-Diagramm über die Variable „Größe.“
Welchen Vorteil haben die beiden Diagramme im Vergleich zur Darstellung in einem normalen
Balkendiagramm?
Größe Stem-and-Leaf Plot
Frequency
1,00
15,00
20,00
29,00
23,00
19,00
10,00
3,00
2,00
Stem & Leaf
15 .
16 .
16 .
17 .
17 .
18 .
18 .
19 .
19 .
8
000000233344444
55555556677888888999
00000000000011222222333333344
55555666666777888889999
0000000112222233444
5556667889
034
56
Stem width: 10
Each leaf:
1 case(s)
12
Statistische Auswertungsverfahren mit SPSS
Review
Explorative Datenanalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Prüfen Sie die Variable „Körpergröße“ mit Hilfe eines Signifikanztests auf Normalverteilung und
interpretieren Sie das Ergebnis.
13
Statistische Auswertungsverfahren mit SPSS
Review
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Explorative Datenanalyse
Prüfen Sie die Variable „Körpergröße“ mit Hilfe eines Signifikanztests auf Normalverteilung und
interpretieren Sie das Ergebnis.
Tests auf Normalverteilung
a
Größe
Kolmogorov-Smirnov
Statistik
df
Signifikanz
,083
122
,040
a. Signifikanzkorrektur nachLilliefors
14
Statistik
,981
Shapiro-Wilk
df
122
Signifikanz
,083
Statistische Auswertungsverfahren mit SPSS
Review
Datenmodifikation
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Erstellen Sie eine Häufigkeitsauswertung über die Variable „Größe“, jedoch nur über die weiblichen
Teilnehmer der Untersuchung. Berechnen Sie zudem den Mittelwert.
15
Statistische Auswertungsverfahren mit SPSS
Review
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Datenmodifikation
Erstellen Sie eine Häufigkeitsauswertung über die Variable „Größe“, jedoch nur über die weiblichen
Teilnehmer der Untersuchung. Berechnen Sie zudem den Mittelwert.
Größe
Gültig
158,00
160,00
162,00
163,00
164,00
165,00
166,00
167,00
168,00
169,00
170,00
171,00
172,00
173,00
174,00
175,00
176,00
177,00
Fehlend
Gesamt
16
178,00
179,00
180,00
182,00
Gesamt
System
Häufigkeit
1
6
1
2
Prozent
1,4
8,3
1,4
2,8
Gültige
Prozente
1,4
8,6
1,4
2,9
5
7
2
2
6
3
11
2
2
5
2
2
4
1
2
1
2
1
6,9
9,7
2,8
2,8
8,3
4,2
15,3
2,8
2,8
6,9
2,8
2,8
5,6
1,4
2,8
1,4
2,8
1,4
7,1
10,0
2,9
2,9
8,6
4,3
15,7
2,9
2,9
7,1
2,9
2,9
5,7
1,4
2,9
1,4
2,9
1,4
70
2
72
97,2
2,8
100,0
100,0
Kumulierte
Prozente
1,4
10,0
11,4
14,3
21,4
31,4
34,3
37,1
45,7
50,0
65,7
68,6
71,4
78,6
81,4
84,3
90,0
91,4
94,3
95,7
98,6
100,0
Statistiken
Größe
N
Gültig
Fehlend
Mittelwert
70
2
169,1286
Statistische Auswertungsverfahren mit SPSS
Review
Kreuztabelle
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Wie viel Prozent der befragten Studenten, die Nichtraucher sind, befinden das Rauchverbot in der
Cafeteria für gut?
Gibt es einen signifikanten Zusammenhang zwischen dem Rauchverhalten und der Meinung gegenüber
dem Rauchverbot in der Cafeteria? Formulieren Sie die Null- und Alternativhypothese und legen Sie ein
geeignetes Signifikanzniveau fest.
Mit welcher Irrtumswahrscheinlichkeit kann von einem Zusammenhang gesprochen werden?
17
Statistische Auswertungsverfahren mit SPSS
Review
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Kreuztabelle
Wie viel Prozent der befragten Studenten, die Nichtraucher sind, beurteilen das Rauchverbot in der
Cafeteria für gut?
Gibt es einen signifikanten Zusammenhang zwischen dem Rauchverhalten und der Meinung gegenüber
dem Rauchverbot in der Cafeteria? Formulieren Sie die Null- und Alternativhypothese und legen Sie ein
geeignetes Signifikanzniveau fest.
Mit welcher Irrtumswahrscheinlichkeit kann von einem Zusammenhang gesprochen werden?
Chi-Quadrat-Tests
MeinungzuRauchverbot inder Cafeteria * Raucher Kreuztabelle
Meinung zu Rauchverbot
in der Cafeteria
Ja,finde ich gut
Nein,lehne ich ab
Istmir im Prinzip egal
Gesamt
18
Anzahl
%von Meinung
zuRauchverbot
in der Cafeteria
%von Raucher
Anzahl
%von Meinung
zuRauchverbot
in der Cafeteria
%von Raucher
Anzahl
%von Meinung
zuRauchverbot
in der Cafeteria
%von Raucher
Anzahl
%von Meinung
zuRauchverbot
in der Cafeteria
%von Raucher
Nein,ich
rauche nicht
30
Raucher
Ja,hinund
wieder
Ja,
regelmäßig
5
1
Gesamt
36
83,3%
13,9%
2,8%
100,0%
69,8%
3
29,4%
8
2,8%
28
37,5%
39
7,7%
20,5%
71,8%
100,0%
7,0%
10
47,1%
4
77,8%
7
40,6%
21
47,6%
19,0%
33,3%
100,0%
23,3%
43
23,5%
17
19,4%
36
21,9%
96
44,8%
17,7%
37,5%
100,0%
100,0%
100,0%
100,0%
100,0%
Chi-Quadrat nach
Pearson
Likelihood-Quotient
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert
a
Asymptotisch
e Signifikanz
(2-seitig)
df
48,355
4
,000
57,925
4
,000
13,737
1
,000
96
a. 1 Zellen (11,1%) haben eine erwartete Häufigkeit kleiner 5.
Die minimale erwartete Häufigkeit ist 3,72.
Statistische Auswertungsverfahren mit SPSS
Review
Zusammenhangsmaße
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Nennen Sie je ein Zusammenhangsmaß für jedes Skalenniveau (nominal, ordinal, metrisch).
Berechnen Sie ein passendes Zusammenhangsmaß für die Variablen „Geschlecht“ und „Meinung zum
Rauchverbot in der Cafeteria“ und interpretieren Sie das Ergebnis.
19
Statistische Auswertungsverfahren mit SPSS
Review
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Zusammenhangsmaße
Nennen Sie je ein Zusammenhangsmaß für jedes Skalenniveau (nominal, ordinal, metrisch).
–
Nominal:
Cramers V
–
Ordinal:
Kendalls Tau-b
–
Metrisch:
Pearsons Korrelationskoeffizient
Berechnen Sie ein passendes Zusammenhangsmaß für die Variablen „Geschlecht“ und „Meinung zum
Rauchverbot in der Cafeteria“ und interpretieren Sie das Ergebnis.
Symmetrische Maße
Nominal- bzgl.
Nominalmaß
Phi
Cramer-V
Anzahl der gültigen Fälle
Wert
,117
,117
125
a. Die Null-Hyphothese wird nicht angenommen.
b. Unter Annahme der Null-Hyphothese wird der asymptotische
Standardfehler verwendet.
20
Näherung
sweise
Signifikanz
,428
,428
Statistische Auswertungsverfahren mit SPSS
Review
Zusammenhangsmaße
Erstellen Sie per Hand ein Streudiagramm, das eine perfekte positive Korrelation darstellt.
21
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Statistische Auswertungsverfahren mit SPSS
Review
Syntax Editor
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Der Präsident der Fachhochschule möchte eine separate Auswertung des Fragebogens über die
Studenten im Hauptstudium (ab 5. Semester) veranlassen. Um die Studenten herauszufiltern, die bereits
im Hauptstudium sind, soll eine Filtervariable erstellt werden, die für alle Studenten im Hauptstudium eine
1 beinhaltet und alle Studenten im Grundstudium (einschließlich 4. Semester) eine 2. Die fehlenden Werte
sollen mit einer 9 gekennzeichnet werden.
Führen Sie die Transformationen in SPSS durch und notieren Sie die SPSS Syntax. Markieren Sie das/die
Befehlsschlüsselwort/-wörter.
22
Statistische Auswertungsverfahren mit SPSS
Review
Syntax Editor
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Der Präsident der Fachhochschule möchte eine separate Auswertung des Fragebogens über die
Studenten im Hauptstudium (ab 5. Semester) veranlassen. Um die Studenten herauszufiltern, die bereits
im Hauptstudium sind, soll eine Filtervariable erstellt werden, die für alle Studenten im Hauptstudium eine
1 beinhaltet und alle Studenten im Grundstudium (einschließlich 4. Semester) eine 2. Die fehlenden Werte
sollen mit einer 9 gekennzeichnet werden.
Führen Sie die Transformationen in SPSS durch und notieren Sie die SPSS Syntax. Markieren Sie das/die
Befehlsschlüsselwort/-wörter.
RECODE
st2
(MISSING=9) (Lowest thru 4=2) (5 thru Highest=1) INTO Filter .
VARIABLE LABELS Filter 'Filtervariable'.
EXECUTE .
23
Statistische Auswertungsverfahren mit SPSS
Review
Mittelwertvergleich
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Untersuchen Sie über die SPSS Funktion Mittelwertvergleich, ob sich die Körpergröße von Männern und
Frauen unterscheidet. Was wäre der passende Signifikanztest um zu prüfen, ob der untersuchte
Zusammenhang signifikant ist?
24
Statistische Auswertungsverfahren mit SPSS
Review
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Mittelwertvergleich
Untersuchen Sie über die SPSS Funktion Mittelwertvergleich, ob sich die Körpergröße von Männern und
Frauen unterscheidet. Was wäre der passende Signifikanztest um zu prüfen, ob der untersuchte
Zusammenhang signifikant ist?
Bericht
Größe
Geschlecht
männlich
weiblich
Insgesamt
Mittelwert
180,9615
N
169,1286
174,1721
52
Standardab
weichung
6,72415
70
122
5,60518
8,45571
Test bei unabhängigenStichproben
Levene-Testder
Varianzgleichheit
Größe
25
Varianzen sind gleich
Varianzen sind nicht
gleich
F
1,170
Signifikanz
,281
T-Test für die Mittelwertgleichheit
T
10,586
df
120
Sig. (2-seitig)
,000
Mittlere
Differenz
11,83297
10,306
97,950
,000
11,83297
Standardfehle
r der Differenz
1,11783
1,14819
95% Konfidenzintervall
der Differenz
Untere
Obere
9,61974
14,04619
9,55441
14,11152
Statistische Auswertungsverfahren mit SPSS
Review
Parametrische und nicht-parametrische Tests
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Nennen Sie einen nicht-parametrischen und einen parametrischen Test und definieren Sie, für welches
Skalenniveau der Test eingesetzt werden kann, welche Voraussetzungen dafür nötig sind und was der
Test untersucht.
26
Statistische Auswertungsverfahren mit SPSS
Review
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Parametrische und nicht-parametrische Tests
Nennen Sie einen nicht-parametrischen und einen parametrischen Test und definieren Sie, für welches
Skalenniveau der Test eingesetzt werden kann, welche Voraussetzungen dafür nötig sind und was der
Test untersucht.
Test
Binomialtest
Chi-Quadrat Anpassungstest
Kolmogorov-Smirnov-Test
T-Test bei einer Stichprobe
27
Skalenniveau
Dichotom
Nominal
Ordinal
Metrisch
Voraussetzungen
Beschreibung
Keine Vorgabe
•
•
Nichtparametrischer Test
Prüft eine vorgegebene Eintrittswahrscheinlichkeit in der
Grundgesamtheit (z.B. Männer und Frauen sind in der
Grundgesamtheit zu gleichen Teilen vertreten)
Keine Vorgabe
•
•
Nichtparametrischer Test
Prüft die Verteilung der Merkmalsausprägungen in der
Grundgesamtheit (z.B. Familienstand [ledig, verheiratet,
geschieden, verwitwet])
Keine Vorgabe
•
•
Nichtparametrischer Test
Prüft, ob die Werte in der Grundgesamtheit einer bestimmten
Verteilung folgen (z.B. die Bewertung eines Produktes folgt
in der Grundgesamtheit einer Standardnormalverteilung)
•
•
Parametrischer Test
Prüft, ob sich der Mittelwert in der Stichprobe von dem
Mittelwert in der Grundgesamtheit signifikant unterscheidet
(z.B. beträgt das durchschnittliche Alter in der
Grundgesamtheit 35 Jahre?)
Normalverteilung
Statistische Auswertungsverfahren mit SPSS
Review
Parametrische und nicht-parametrische Tests
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Mit welchem Test können nominale Variablen auf eine Gleichverteilung hin überprüft werden?
Führen Sie diesen Test über die Variable „Rauchverhalten“ durch und interpretieren Sie das Ergebnis.
28
Statistische Auswertungsverfahren mit SPSS
Review
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Parametrische und nicht-parametrische Tests
Mit welchem Test können nominale Variablen auf eine Gleichverteilung hin überprüft werden?
•
Chi-Quadrat-Verteilungstest
Führen Sie diesen Test über die Variable „Rauchverhalten“ durch und interpretieren Sie das Ergebnis.
Statistik für Test
Raucher
Nein, ich rauche nicht
Ja, hin und wieder
Ja, regelmäßig
Gesamt
29
Beobachtetes
N
65
20
40
125
Erwartete
Anzahl
41,7
41,7
41,7
Residuum
23,3
-21,7
-1,7
Chi-Quadrat
df
a
Asymptotische Signifikanz
Raucher
24,400
2
,000
a. Bei 0 Zellen (,0%) werden weniger als
5 Häufigkeiten erwartet. Die kleinste
erwartete Zellenhäufigkeit ist 41,7.
Statistische Auswertungsverfahren mit SPSS
Review
Faktoren- und Clusteranalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Beschreiben Sie in kurzen Zügen den Ablauf einer Faktorenanalyse und erklären Sie den Zusammenhang
zwischen Faktorladungen, Faktorwerten und Faktoren.
30
Statistische Auswertungsverfahren mit SPSS
Review
Faktoren- und Clusteranalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Beschreiben Sie in kurzen Zügen den Ablauf einer Faktorenanalyse und erklären Sie den Zusammenhang
zwischen Faktorladungen, Faktorwerten und Faktoren.
1.
Berechnung der Korrelationsmatrizen
Korrelationsanalyse für jede Variablenkombination
2.
Extraktion der Faktoren
Bestimmung der Anzahl und Bildung
der Faktoren
3.
Rotation der Faktorladungen
Verbesserung der Interpretationsfähigkeit
der Faktoren (Faktorladungen)
4.
Erstellung der Faktorwerte
Berechnung eines Wertes, der die
Ausprägung eines Faktors für einen
Probanden ausdrückt.
31
Statistische Auswertungsverfahren mit SPSS
Review
Faktoren- und Clusteranalyse
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Welche Faktoren werden bei der Faktorenanalyse nach dem Kaiser-Kriterium extrahiert?
Wie viele Faktoren würden nach diesem Kriterium in der folgenden Auswertung extrahiert werden?
32
Statistische Auswertungsverfahren mit SPSS
Review
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Faktoren- und Clusteranalyse
Welche Faktoren werden bei der Faktorenanalyse nach dem Kaiser-Kriterium extrahiert?
Wie viele Faktoren würden nach diesem Kriterium in der folgenden Auswertung extrahiert werden?
Erklärte Gesamtvarianz
Komponente
1
2
3
4
5
6
7
8
Gesamt
2,228
1,378
1,010
,963
,730
,623
,553
,516
Anfängliche Eigenwerte
% der Varianz
Kumulierte %
27,847
27,847
17,223
45,070
12,624
57,694
12,040
69,734
9,121
78,855
7,792
86,647
6,907
93,554
6,446
100,000
Summenvon quadrierten Faktorladungen
für Extraktion
Gesamt
% der Varianz
Kumulierte %
2,228
27,847
27,847
1,378
17,223
45,070
1,010
12,624
57,694
Extraktionsmethode: Hauptkomponentenanalyse.
a. WennKomponenten korreliertsind,könnendie Summen der quadriertenLadungen nichtaddiert werden,um
eine Gesamtvarianzzu erhalten.
33
Rotierte
Summe
der
Gesamt
quadriert
1,953
en1,465
Ladunge
1,467
a
n
Statistische Auswertungsverfahren mit SPSS
Review
Fachhochschule Ingolstadt
Prof. Dr. Andrea Raab
Skript: V1
•
•
•
•
Statistische Methoden / Begrifflichkeiten
Skalenniveaus
Datenkodierung
Variablendefinition in SPSS
Skript: V2
•
•
•
•
•
•
Häufigkeitsauswertungen
Erstellung von Diagrammen (Kreisdiagramm, Säulendiagramm)
Lageparameter (Median, Modus, Mittelwert, Schiefe, Kurtosis)
Streuparameter (Varianz, Standardabweichung, Spannweite, Standardfehler)
Explorative Datenanalyse (Stem-and-Leaf, Histogramm, Boxplot, Test auf Normalverteilung)
Datenmodifikation (umkodieren, automatisch umkodieren, berechnen, filtern)
Skript: V3
•
•
•
Kodierung von Mehrfachantworten (2 Methoden)
Kreuztabellen (Chi-Quadrat-Unabhängigkeitstest)
Zusammenhangs- bzw. Korrelationsmaße (Streudiagramm)
Skript: V4
•
•
•
Syntax Editor
Mittelwertvergleiche
Unterscheidung parametrische und nicht-parametrische Tests (Chi-Quadrat-Anpassungstest)
Skript: V5
•
•
34
Grundkenntnisse Faktorenanalyse
Grundkenntnisse Clusteranalyse
Herunterladen