Statistische Auswertungsverfahren mit SPSS Prof. Dr. Andrea Raab Fachhochschule Ingolstadt Statistische Auswertungsverfahren mit SPSS Inhaltliche Übersicht Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Informationen zum Programm SPSS • Grundlagen der Programmbedienung in SPSS • Befragung und Datenerstellung • Daten und Variablen • Deskriptive Analysemethoden 2 Statistische Auswertungsverfahren mit SPSS Das Programmpaket SPSS für Windows • 3 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab SPSS – früher: Statistical Package for Social Sciences – heute: Statistical Product and Service Solution • Marktführendes Produkt im Bereich der programmgestützten statistischen Analyse • Ab Version 5.0 grafische Benutzeroberfläche (GUI) sowie Menüsystem und integrierte Grafik • Derzeit aktuellste Version: – SPSS Version 14.0 für Windows – SPSS Version 13.0 (englisch) für Apple Macintosh (nur PowerPC, nicht Intel) • 32.768 Variablen (2 hoch 15) pro Datendatei nutzbar. • SPSS-Paket bestehend aus einem Basismodul und verschiedensten Zusatzmodulen • Die SPSS-Studentenversion ist ausschließlich in englischer Sprache und unter Windows verfügbar. (Inhalt: SPSS Base System; Beschränkt auf Verarbeitung von 1500 Fällen und 50 Variablen) Statistische Auswertungsverfahren mit SPSS Das Programmpaket SPSS für Windows Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Basismodul grundlegende Funktionen, einfache und fortgeschrittene Methoden zur Datenanalyse und umfangreiche Grafikmöglichkeiten 4 Zusatzmodule SPSS Advanced Models SPSS Categories SPSS Conjoint SPSS Data Entry Builder SPSS Exact Tests SPSS Maps SPSS Missing Value Analysis SPSS Regression Models SPSS Tables SPSS Trends ... Statistische Auswertungsverfahren mit SPSS Warum SPSS und nicht Excel? Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Arbeiten mit großen Datensätzen möglich (32.768 Variablen (2 hoch 15) pro Datei benutzbar) Umfangreiche Datentransformationen und -funktionen Dokumentation und Automatisierung über SYNTAX-Sprache Großer Umfang an statistischen Funktionen und Prozeduren Deskriptive Statistik (Mittelwerte, Standardabweichungen , Häufigkeiten, Kreuztabellen) Inferenzstatistik (Chi-Quadrat, t-Test, Einfaktorielle Varianzanalyse) Multivariate Verfahren (Clusteranalyse, Faktorenanalyse, Diskriminanzanalyse, Conjointanalyse, Multidimensionale Skalierung etc.) 5 Statistische Auswertungsverfahren mit SPSS Statistische Methoden Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistik beschreibende (deskriptive) Statistik - Daten sammeln - Daten präsentieren - Daten charakterisieren 6 schließende (induktive) Statistik - Schätzen - Hypothesen testen Statistische Auswertungsverfahren mit SPSS Statistische Methoden Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Deskriptive (beschreibende) Statistik – Messwerte ordnen – Anschauliche und übersichtliche Darstellung von Daten in • Tabellen • Diagrammen – – – – – – – – – – – • Säulen Balken Linien Punkt Flächen Netz Stengel/Blatt Hoch-Tief Box Streu Histogramme Induktive (schließende) Statistik – Ermittlung von Vertrauensbereichen – Überprüfung von Hypothesen 7 Statistische Auswertungsverfahren mit SPSS Statistische Methoden Vorgehen bei analytischer Statistik (nach Petersen, 1991) Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Grundgesamtheit Schluss von der bekannten Stichprobe auf die unbekannte Grundgesamtheit Formulierung des zu prüfenden Sachverhaltes Ermittlung von Schätzgrößen für die Kenngrößen Entnahme einer Stichprobe Prüfung der Hypothesen Parametertests Prüfung der Hypothesen Verteilungstests Erzeugen der Analysendaten Parameterhypothesen Verteilungshypothesen Aufbereitung der Daten • tabellarisch • rechnerisch • graphisch 8 Formulierung der Nullhypothesen und Alternativhypothesen Statistische Auswertungsverfahren mit SPSS Begriffsdefinitionen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Variablen/Merkmale und Merkmalsausprägungen – In SPSS werden die Ausprägungen bestimmter Merkmale/Variablen betrachtet. Jedes Merkmal hat mindestens zwei Merkmalsausprägungen (konkreter Wert des Merkmals = Analysenergebnis) – Bsp.: Geschlecht - männlich / weiblich • Unabhängige (Faktor) und abhängige Variablen – unabhängige Variablen können die Merkmalsausprägungen von abhängigen Variablen beeinflussen (z.B. Alter beeinflusst die Konsumgewohnheiten) • Qualitative und quantitative Variablen – ein Merkmal/Variable kann in seiner Ausprägung qualitativ beschreibend sein (z.B. Weinsorte, Freundlichkeit) – ein Merkmal/Variable kann in seiner Ausprägung quantitativ vermessen worden sein (z.B. Gehalt, Semesteranzahl) 9 Statistische Auswertungsverfahren mit SPSS Begriffsdefinitionen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • uni-, bi- und multivariate Daten – univariat • – bivariat • – nur ein Merkmal/Variable wird für jeden Fall gemessen/beschrieben Jeweils 2 Variablen werden für jeden Fall in Beziehung gesetzt (xi,yi) multivariat • Mehr als 2 Variablen werden für jeden Fall in Beziehung gesetzt (xi,yi,zi, ....ki) Beispiel: Beschreibung einer Kundengruppe 10 – Alter – Einkommen – Geschlecht – Konsumgewohnheiten – Lifestyle Statistische Auswertungsverfahren mit SPSS Starten von SPSS Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Dialogfenster Durch „Abbrechen“ kann dieses Fenster geschlossen werden Dialogfenster in Zukunft nicht mehr anzeigen v 11 Statistische Auswertungsverfahren mit SPSS Die SPSS Fenster Fachhochschule Ingolstadt Prof. Dr. Andrea Raab SPSS Daten Editor SPSS Syntax Fenster 12 SPSS Viewer Statistische Auswertungsverfahren mit SPSS SPSS Daten-Editor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Arbeitsfläche von SPSS • Sämtliche mit SPSS durchführbare Analysen • Variablenansicht – zeigt alle Variablen und zugehörige Attribute (z.B. Name, Typ, etc.) • Datenansicht – zeigt die Beobachtungswerte aller in der aktuellen Datendatei enthaltenen Variablen. • Dateityp: 13 *.sav Statistische Auswertungsverfahren mit SPSS SPSS Syntax Fenster Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Befehlseingabe für einzelne Prozeduren – ermöglicht beispielsweise Berechnen von Variablen, Transformieren von Daten, Ausführen statistischer Prozeduren u.v.m. • SPSS-Befehlssprache wird im Zuge der Vorlesung noch genauer bearbeitet werden • Dateityp: *.sps 14 Statistische Auswertungsverfahren mit SPSS SPSS Viewer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Ausgabe für Ergebnisse von Analysen oder Prozeduren • Wird bei jeder Analyse oder Prozedur automatisch geöffnet • Navigationsbereich – Anzeige aller Ergebnisse als ein- und ausblendbare Gliederungspunkte • Dateityp: *.spo 15 Statistische Auswertungsverfahren mit SPSS Definition der Variablen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Variablentypen – String-Variablen (Zeichenketten) • Verwendung bei offener Fragestellung – Numerische Variablen • Vercodung von möglichen Antworten (Bsp.: Bundesland) • Relative Ordnung von Merkmalen • Exakte Messung eines Merkmals 16 Statistische Auswertungsverfahren mit SPSS Qualität der Daten, Skala und Skalenniveau Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Qualität der Daten wird u.a. bestimmt durch die Art und Weise der Messung Gut messbare Daten z.B. Körpergröße eines Menschen schlecht messbare Daten z.B. Motivation, Gesundheitszustand Skala „Meßlatte“, auf der die Ausprägungen einer Eigenschaft abgetragen werden können Skalenniveau Art und Weise, in der eine Eigenschaft eines Objektes in Zahlen ausgedrückt werden kann 17 Statistische Auswertungsverfahren mit SPSS Skalenniveau Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Variablen Qualitative Variablen nominal skaliert 18 Quantitative Variablen ordinal skaliert metrisch skaliert Statistische Auswertungsverfahren mit SPSS Skalenniveau - Nominalskala Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Ausprägungen einer Variablen bilden nur Kategorien • Keinerlei Ordnungsvorschrift • Dient lediglich zur Unterscheidung der einzelnen Kategorien • Auswertungsmöglichkeiten eingeschränkt (z.B. Häufigkeitsauszählung; Berechnung eines Mittelwertes ist sinnlos!) • Beispiele – Geschlecht Kategorie – Familienstand 1 – Herkunft 2 3 4… 19 Statistische Auswertungsverfahren mit SPSS Skalenniveau - Ordinalskala Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Für die einzelnen Ausprägungen existiert eine Relation („größer“, „kleiner“) • Es kann eine Rangordnung erstellt werden • Auswertungsmöglichkeiten: (z.B. Ranglisten; Median als Mittelwert ist sinnvoll!) • Beispiel: – Platzierungen – Schulnoten (streng genommen ordinal) • 20 Keine Aussage über die Abstände zwischen den Rängen möglich! Statistische Auswertungsverfahren mit SPSS Skalenniveau – Intervallskala Fachhochschule Ingolstadt Prof. Dr. Andrea Raab – Eigenschaften der Nominal - und Ordinalskala – die Differenzen, nicht jedoch die Quotienten sind interpretierbar – Ausprägungen werden als Vielfaches einer elementaren Maßeinheit angegeben – Beispiel • Temperatur (hat keinen natürlichen Nullpunkt) • Schulnoten (werden oft als quasi intervallskaliert behandelt) 21 Statistische Auswertungsverfahren mit SPSS Skalenniveau – Verhältnisskala Fachhochschule Ingolstadt Prof. Dr. Andrea Raab – Angabe von Differenzen und Quotienten ist sinnvoll – Beispiele • Umsatz eines Unternehmens • Alter • Einwohnerzahlen Intervall – und Verhältnisskalen heißen metrisch skaliert, Nominal- und Ordinalskalen heißen nicht metrisch skaliert (eine Unterscheidung der beiden metrischen Niveaus kommt bei den meisten statistischen Verfahren keine Bedeutung zu) 22 Statistische Auswertungsverfahren mit SPSS Skalenniveau - Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Skala Beispiel Differenzierung Kenngrößen Lagemaß Streumaß Nominal A=B, A≠B Geschlecht: männlich/weiblich Klassifizierung bei qualitativen Merkmalen (gleich, ungleich) •relative Häufigkeiten •Modus Ordinal A=B, A≠B; A<B<C Rangordnung kalt < lau < warm < heiß, Schulnoten, Güteklasse Einstufung bei qualitativen Merkmalen (kleiner / größer) •relative Häufigkeiten •Modus •Median (x̃), •Quantile (Q) •Spannweite (R) Intervall Skala mit konstanten Abständen, Addition, Subtraktion, Mittelwert absolute Differenzen Kalenderdatum, Punkte im von quantitativen Intelligenztest Merkmalen •relative Häufigkeiten •Modus •Median (x)̃, •arithmetisches Mittel •Standardabweichung (s) •Varianz (s2) •relative Häufigkeiten relative und absolute •Modus Differenzen von •Median (x)̃ quantitativen Merkmalen •arithmetisches Mittel •geometrisches Mittel •Standardabweichung (s) •Varianz (s2) Verhältnis 23 Information Multiplikation, Division Länge, Fläche Statistische Auswertungsverfahren mit SPSS Skalenniveau - Metrische Variablen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab – Diskrete Variablen • Ein Merkmal/Variable kann nur endlich viele Ausprägungen annehmen • Anzahl der möglichen Ausprägungen ist abzählbar • Bsp.: Kinderzahl, Einwohneranzahl, Digitaluhr – Stetige Variablen • Ein Merkmal/Variable kann unendlich viele Ausprägungen annehmen • Mehr als abzählbare Ausprägungen eines Merkmals • Aus messtechnischen Gründen oft nicht beliebig genau bestimmbar • Bsp.: Umsatz, Alter, Einkommen, BMI = kg/m², Sanduhr 24 Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Studenten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Praxisbeispiel: Befragung der Studenten Ziele: 1. Erstellen eines praxisrelevanten Datensatzes 2. Auswertungen basierend auf diesen Datensatz 25 Statistische Auswertungsverfahren mit SPSS Näheres zur Variablenansicht Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bezeichnung der Variable Anzahl der Zeichen Ausschlaggebend für die Verarbeitung der Variable in SPSS 26 Bezeichnung der Variablen Unterscheidung zwischen und Werte in Datenansicht und nominal, ordinal und metrisch Ausgaben (Bisher irrelevant für SPSS) Benutzerdefiniert fehlende Werte Optionen für die Anzeige in der Datenansicht Statistische Auswertungsverfahren mit SPSS Definition von Variablen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 27 Variablenname Datentypen Messniveau • muss mit Buchstaben beginnen; restliche Zeichen sind Buchstaben, Ziffern, Punkte oder folgende Sonderzeichen @, #, _, $; keine Leerzeichen! • darf nicht mit Punkt enden • soll nicht mit Unterstrich enden • auf 64 Zeichen beschränkt • Name muss eindeutig sein • Groß- und Kleinschreibung wird unterschieden • Bestimmte Namen sind reserviert z.B. ALL, AND, NOT, WITH, OR • Numerisch • Nominal • Komma • Ordinal • Punkt • Metrisch • Wissenschaftliche Notation • Datum • Dollar • Andere Währung • String Statistische Auswertungsverfahren mit SPSS Deklaration von Variablen am Bsp. A1 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Den einzelnen Werten werden Zahlen zugewiesen – Um den von uns benutzerdefiniert fehlenden Wert „weiß nicht“ von den anderen Nennungen zu trennen, geben wir ihm eine erhöhte Zahl (und trage diesen anschließend bei Fehlende Werte ein) 1 28 2 3 4 8 Statistische Auswertungsverfahren mit SPSS Deklaration von Variablen am Bsp. A1 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Ein Zeichen lang Typ: Numerisch Bezeichnung der Variable Keine Dezimalstellen Benutzerdefiniert fehlender Wert: 8 (Weiß nicht) Wertelabels: 1 = sehr gut … 4 = nicht gut 8 = weiß nicht String-Variablen bedürfen weniger Aufwand bei der Deklaration (am Bsp. A3). Jedoch erzeugen diese offenen Fragen meist viel Arbeit bei der Auswertung. Anzahl der Zeichen sinnvoll wählen 29 Statistische Auswertungsverfahren mit SPSS Datenansicht am Bsp. A1 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • In der Datenansicht werden die einzelnen Interviews in Zeilen dargestellt. • Die Spalte a1 repräsentiert unsere neu erzeugte Variable • Wie man sieht, wurden die Zahlen durch das jeweilige Wertelabel ersetzt. • Man kann jene mit Hilfe des folgenden Buttons ein und ausblenden: 30 Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab S1 1 x 2 1 31 Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab A1 1 A2 1 2 8 32 2 3 4 8 Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab A3 33 A4_1 1. Nennung A4_2 2. Nennung A4_3 3. Nennung Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 1 M1_1 M1_2 M1_3 M1_4 M1_5 34 2 3 4 5 8 9 Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab M2 1 2 M3 1 2 3 35 Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab B1 1 2 B2 1 B3 1 2 8 36 2 3 4 8 Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab F1 F1_1 F1_2 F1_3 x F1_8 = 1 37 Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 1 F2_1 F2_2 F2_3 F2_4 F2_5 38 2 3 4 5 8 9 Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Jeweils mit 1 vercoden F3_ 1 2 3 4 5 6 98 F3_s 7 8 Bsp.: Befragter nutzt Fitness und Volleyball, d.h. die Variablen F3_5 und F3_8 nehmen den Wert “1” an. 39 Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab ST_O ST_P ST2 ST3 ST4 1 40 2 9 Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab ST5 1 2 3 4 5 41 6 7 8 9 Statistische Auswertungsverfahren mit SPSS Praxisbeispiel: Befragung der Kursteilnehmer Fachhochschule Ingolstadt Prof. Dr. Andrea Raab ST6 1 2 3 ST7 ST8 ST9 1 42 2 Statistische Auswertungsverfahren mit SPSS Prof. Dr. Andrea Raab Fachhochschule Ingolstadt V2 Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Häufigkeiten • Lage- und Streuparameter • Explorative Datenanalyse • Datenmodifikation 2 Statistische Auswertungsverfahren mit SPSS Dateneingabe Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Dateneingabe und -konsolidierung • SPSS - Definition der Datenmatrix Variablennamen, Typ, Label, Missing Values - Keine Fehlerprüfung möglich • Einlesen von Textdateien - Variablennamen in 1. Zeile - keine Leerzeilen oder -spalten, Überschriften, Texte o.ä. - Daten mit dem Assistenten für Textimport einlesen • Einlesen von fremden Dateiformaten (z.B. Excel, Datenbanken) - Variablennamen in 1. Zeile - keine Leerzeilen oder -spalten, Überschriften, Texte o.ä. - Daten in SPSS einlesen mit Dateityp Excel (.xls) → Option „Read Variable Names“ aktivieren • Data Entry 3 - Definition der Datenmatrix - Eingabe mit Fehlerprüfung - Nur bei großen Datenmengen sinnvoll Statistische Auswertungsverfahren mit SPSS Statistik Prozeduren in SPSS Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Variablenliste zu analysierende Variablen Analyse durchführen Übergabe in den Syntax Editor Einstellungen zurücksetzen Übertragung der Variablen in Analyse Mit der rechten Maustaste kann die wissensbasierte Datenbank von SPSS konsultiert werden. prozedurspezifische Steuerungsmöglichkeiten 4 Statistische Auswertungsverfahren mit SPSS Häufigkeiten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Häufigkeiten: 5 – „Analysieren –> Deskriptive Statistik -> Häufigkeiten“ – Die Werte können absolut oder prozentual dargestellt werden. – Das Ergebnis wird in tabellarischer Form im Viewer ausgegeben. Statistische Auswertungsverfahren mit SPSS Häufigkeiten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Häufigkeiten: – In der Variablenliste werden alle numerischen und String-Variablen angezeigt. – Die Variable, für welche die statistische Maßzahlen berechnet werden sollen, wird aus der Variablenliste ausgewählt und mit der Pfeil-Schaltfläche in die Liste „Variable(n)“ verschoben. 6 Statistische Auswertungsverfahren mit SPSS Häufigkeiten Häufigkeiten: M2. Besuchst du regelmäßig die Cafeteria der Mensa? (Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten) 7 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Häufigkeiten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Auswertung des Fragebogens zum Kurs M2. Besuchst du regelmäßig die Cafeteria der Mensa? (Ausgabe eines Kuchendiagramms mit prozentualen Diagrammwerten) Regelm äßige r Be such der Cafete ria Gültig Häuf igkeit 92 35 Prozent 71,3 27,1 Gültige Prozente 72,4 27,6 Gesamt 127 98,4 100,0 System 2 129 1,6 100,0 ja nein Fehlend Gesamt Kumulierte Prozente 72,4 100,0 • Nahezu 3/4 der befragten Studenten besuchen regelmäßig die Mensa der FH Ingolstadt. 8 Statistische Auswertungsverfahren mit SPSS Häufigkeiten Auswertung des Fragebogens zum Kurs Fachhochschule Ingolstadt Prof. Dr. Andrea Raab M3. Was würdest du zu einem Rauchverbot in der Cafeteria sagen? (Ausgabe eines Kuchendiagramms mit prozentualen Diagrammwerten) Me inung zu Rauchve rbot in der Cafete ria Gültig Ja, f inde ich gut Nein, lehne ich ab Is t mir im Prinzip egal 8 Gesamt Fehlend Gesamt 9 System Häuf igkeit 37 Proz ent 28,7 Gültige Proz ente 33,0 Kumulierte Proz ente 33,0 39 30,2 34,8 67,9 23 13 17,8 10,1 20,5 11,6 88,4 100,0 112 17 86,8 13,2 100,0 129 100,0 Statistische Auswertungsverfahren mit SPSS Häufigkeiten Auswertung des Fragebogens zum Kurs A1. Wie gefällt es Dir in Ingolstadt? (Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten) Bew e rtung de r Stadt Ingols tadt Gültig Sehr gut Gut Weniger gut Nicht gut Weiß nicht Gesamt Fehlend Gesamt System Häuf igkeit 33 Proz ent 25,6 Gültige Proz ente 25,8 Kumulierte Proz ente 25,8 82 8 63,6 6,2 64,1 6,3 89,8 96,1 4 1 3,1 ,8 3,1 ,8 99,2 100,0 128 99,2 100,0 1 129 ,8 100,0 • Der Mehrzahl der Befragten gefällt Ingolstadt gut oder sogar sehr gut. 10 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Häufigkeiten Auswertung des Fragebogens zum Kurs Fachhochschule Ingolstadt Prof. Dr. Andrea Raab ST5. Wie viel Geld verwendest Du etwa im Monat für Abends zum Weggehen? (Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten) Aus gabe n fürs Wegge he n Gültig 10 ! bis unter 30 ! 30 ! bis unter 50 ! 50 ! bis unter 70 ! 70 ! bis unter 100! 100 ! bis unter 130 ! 130 ! bis unter 150 ! 150 ! bis unter 200 ! Fehlend Gesamt Häuf igkeit 16 Prozent 12,4 Gültige Prozente 13,3 Kumulierte Prozente 13,3 17 13,2 14,2 27,5 27 23 20,9 17,8 22,5 19,2 50,0 69,2 8 7 6,2 5,4 6,7 5,8 75,8 81,7 7 5,4 5,8 87,5 mehr als 200 ! Gesamt 15 120 11,6 93,0 12,5 100,0 100,0 System 9 129 7,0 100,0 • 30% der Probanden geben fürs Weggehen mehr als 100 € pro Abend aus. 11 Statistische Auswertungsverfahren mit SPSS Häufigkeiten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Auswertung des Fragebogens zum Kurs ST6. Rauchst Du? (Ausgabe eines Kreisdiagramms mit prozentualen Diagrammwerten) Rauche r Gültig Nein, ic h rauche nic ht Ja, hin und w ieder Ja, regelmäßig Fehlend Gesamt Gesamt System Häuf igkeit 65 20 Proz ent 50,4 15,5 Gültige Proz ente 52,0 16,0 Kumulierte Proz ente 52,0 68,0 40 125 31,0 96,9 32,0 100,0 100,0 4 3,1 129 100,0 • Über 50% der befragten Betriebswirtschaftsstudenten rauchen nicht. 12 Statistische Auswertungsverfahren mit SPSS Häufigkeiten Auswertung des Fragebogens zum Kurs ST7. Wie alt bist du? (Ausgabe eines Säulendiagramm mit absoluten Diagrammwerten) Alte r Gültig 18 19 20 21 22 Gültige Prozente 1,6 Kumulierte Prozente 1,6 13 10,1 10,6 12,2 12 24 9,3 18,6 9,8 19,5 22,0 41,5 13 10,1 10,6 52,0 13 12 10,1 9,3 10,6 9,8 62,6 72,4 25 14 7 10,9 5,4 11,4 5,7 83,7 89,4 2 1,6 1,6 91,1 28 29 4 3 3,1 2,3 3,3 2,4 94,3 96,7 30 1 1 ,8 ,8 ,8 ,8 97,6 98,4 1 ,8 ,8 99,2 1 123 ,8 95,3 ,8 100,0 100,0 31 33 224 Gesamt Gesamt Prozent 1,6 23 24 26 27 Fehle nd Häuf ig keit 2 System 6 4,7 129 100,0 • Die Mehrzahl der Teilnehmer geben ..... 13 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Übungsblatt 2 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bitte bearbeiten Sie die Aufgabe 1 des Übungsblattes. 14 Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Häufigkeiten • Lage- und Streuparameter • Explorative Datenanalyse • Datenmodifikation 15 Statistische Auswertungsverfahren mit SPSS Lage und Streuungsparameter Lageparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • die meist eingesetzten Maßzahlen sind Mittelwerte und Streuungswerte • Anwendung i.d.R. nur bei metrischen Variablen • wenn sinnvoll, sollten zu Mittelwerten immer geeignete Streuungsparameter angegeben werden, um die Häufigkeitsverteilung zu charakterisieren. Median • Wert, der eine nach Größe sortierte Reihe von Merkmalsausprägungen in zwei gleich große Hälften teilt • 50% der Fälle liegen oberhalb und 50% liegen unterhalb des Median • Daten mindestens ordinalskaliert (Ordnung nach Größe zwingend) • Anwendung: Bildung von Extremgruppen z.B. oberstes/unterstes Viertel der Einkommensvariable (Berechnung von Quartilen) Modalwert (Modus) • Messwert, der in einem Datensatz am häufigsten vorkommt • Gibt an, wo die größte Dichte einer Verteilung liegt • nominale, ordinale und metrische Daten 16 Statistische Auswertungsverfahren mit SPSS Lage und Streuungsparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Lageparameter Arithmetisches Mittel • Maßzahl zur zentralen Tendenz von Daten • Ermittlung der durchschnittlichen Merkmalsausprägung • Daten mindestens intervallskaliert (in manchen Fällen auch ordinal) • Alle Messwerte gehen mit vollem Gewicht in die Berechnung ein, so dass Extremwerte stark verzerren können → prüfen ob es Ausreißer gibt • Befragte, die mit „weiß nicht“ oder die gar nicht geantwortet haben (und dafür z.B. die Codes 8, 9, oder 99 bekommen) müssen von der Mittelwertberechnung ausgeschlossen werden, indem sie als fehlende Werte definiert werden • Das arithmetische Mittel ist nur dann ein wirklich guter mittlerer Kennwert einer Verteilung, wenn diese symmetrisch ist 17 Statistische Auswertungsverfahren mit SPSS Lage und Streuungsparameter Lageparameter Aus der Reihenfolge der drei Mittelwert arithmetisches Mitte, Modus und Median kann man Aussagen über die Form der Häufigkeitsverteilung von Variablen ableiten: 1. 2. 3. 18 Linkssteile Verteilung Die Verteilung steigt links schnell an, erreicht ihren Gipfel und fällt dann langsam ab. Modus < Median < arithmetisches Mittel Rechtssteile Verteilung Die Verteilung steigt links langsam an, erreicht ihren Gipfel und fällt rechts steil ab. arithmetisches Mittel < Median < Modus Symmetrische Verteilung Alle drei Mittelwerte fallen auf einen Punkt. arithmetisches Mittel = Median = Modalwert • Die Form der Verteilung kann mittels SPSS festgestellt werden. Die Funktionen heißen „Schiefe“ (Welche Seite der Verteilung ist länger?) und „Kurtosis“ (Wölbung; je größer die Wölbung, desto stärker konzentrieren sich die Werte an einer bestimmten Stelle). • Schiefe: rechtssteil < 0 < linkssteil • Kurtosis: flachgipflig < 0 < hochgipflig Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Lage und Streuungsparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 19 Statistische Auswertungsverfahren mit SPSS Lage- und Streuungsparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Streuungsparameter • Messung der Verteilung der Häufigkeitsverteilung um den Mittelwert • Präzisiert die Aussage der Lageparameter • Einfachste Streuungsparameter sind das Minimum (kleinste vorkommende Merkmalsausprägung) und das Maximum (größte vorkommende Merkmalsausprägung). Varianz • • • • Nur metrische Daten Bestimmung einer Art durchschnittliche Abweichung vom Mittelwert Je dichter die einzelnen Werte an dem Mittelwert liegen, desto kleiner ist die Varianz Die Varianz wird nicht in der Einheit der Variablenwerte gemessen Standardabweichung • • • • Nur metrische Daten Ermöglicht Vergleichbarkeit mit Mittelwerten Vergleichbarkeit bei Varianz nicht gegeben, da Einheit zum Quadrat Die Standardabweichung wird in der Einheit der Variablenwerte gemessen Spannweite • • • Mindestens ordinalskalierte Daten Differenz zwischen dem größten und dem kleinsten Wert der Stichprobe Kann durch Ausreißer stark beeinflusst werden Standardfehler • • 20 Nur metrische Daten Maß für die Streuung des Mittelwertes der Stichprobe bzw. verschiedener (potenzieller) Stichproben um den Mittelwert der Grundgesamtheit Statistische Auswertungsverfahren mit SPSS Lage- und Streuungsparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 21 Statistische Auswertungsverfahren mit SPSS Übungsblatt 2 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bitte bearbeiten Sie die Aufgabe 2 des Übungsblattes. 22 Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Häufigkeiten • Lage- und Streuparameter • Explorative Datenanalyse • Datenmodifikation 23 Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Explorative Datenanalyse • • • 24 Fehlerhaft erhobene oder eingegebene Daten bedeuten die Verzerrung der Ergebnisse, deshalb sollten Daten vor Beginn der Datenanalyse zunächst einer Plausibiltätsprüfung unterzogen werden • Stängel-Blatt-Diagramm • Histogramm Untersuchung und Begutachtung von Daten, von denen man nur geringes Wissen über deren Zusammenhänge hat • Perzentile Ziele der explorativen Datenanalyse • M-Schätzer 1. Überprüfung der Rohdaten und ggf. der Originalbelege • Ausreißer 2. Prüfung der Verteilung der Werte und Identifikation von Ausreißern • Schachtel-Diagramm • Normalverteilungstest 3. Bildung von Hypothesen über Gründe und Zusammenhänge, die vorher nicht erkennbar waren 4. Hilfe zur Wahl des passenden statistischen Werkzeuges Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Explorative Datenanalyse 1. Grafische Darstellung der Werteverteilung • • Stängel-Blatt-Diagramm (Stem-and-Leaf) Histogramm 2. Lage der Werte beschreiben Stängel-Blatt-Diagramm • Histogramm • Perzentile • Ausreißer • Perzentile • Schachtel-Diagramm • Ausreißer-Analyse • M-Schätzer • M-Schätzer • Normalverteilungstest 3. Test auf Normalverteilung 25 • Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Stem-and-Leaf Plot (Stängel-Blatt-Diagramm) Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Übersichtliche Darstellung von Variablen mit vielen unterschiedlichen Werten • Liefert einen grafischen Eindruck von der Verteilung der Werte • Erstellung per Hand – Die n Beobachtungswerte werden der Größe nach geordnet • 101, 103, 105, 111, 112, 112, 134 – Wahl der Blatteinheit (stem width) (Zahl mit der multipliziert werden muss, um zum ursprünglichen Wert zurückzukehren) • Üblicherweise … 0,1 bzw. 1 bzw. 10 bzw. 100 … • So wählen, dass beim Teilen eine Nachkommastelle stehen bleibt. Hier: 10 – Beobachtungswerte durch die Blatteinheit teilen • 10,1 ; 10,3 ; 10,5 ; 11,1 ; 11,2 ; 11,2 ; 13,4 – Den Modulus der Zahl (ohne Komma) bezeichnen wir als Stamm – Den Wert hinter dem Komma als Blatt Frequency 3,00 3,00 0,00 1,00 Stem & Leaf 10 . 135 11 . 122 12 . 13 . 4 Stem width: 10,00 Each leaf: 1 case(s) 26 Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Stem-and-Leaf Plot (Stängel-Blatt-Diagramm) ST8. Wie groß bist Du? (in cm) Größe Stem-and-Leaf Plot Frequency Gibt an, um welchen Faktor die Ursprungswerte von den im Diagramm angegebenen Werten abweichen Gibt die Anzahl der Werte an, die durch ein Blatt repräsentiert werden 27 1,00 15,00 20,00 29,00 23,00 19,00 10,00 3,00 2,00 Stem & Leaf 15 . 16 . 16 . 17 . 17 . 18 . 18 . 19 . 19 . Gibt den ganzzahligen Teil der Werte wieder 8 000000233344444 55555556677888888999 00000000000011222222333333344 55555666666777888889999 0000000112222233444 5556667889 034 56 Stem width: 10 Each leaf: 1 case(s) Gibt den Dezimalteil der Werte wieder Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Histogramm Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Das Histogramm vermittelt den gleichen Eindruck von der Werteverteilung wie das Stängel-BlattDiagramm, gibt aber keine Auskunft über die Verteilung der Werte innerhalb der einzelnen Klassen • Werte werden in gruppierter Form (Werteklassen) betrachtet und durch Säulen dargestellt (Bereiche haben gleiche Breite). Die Werteklassen werden von SPSS automatisch gebildet. • Nur metrische Daten * SPSS benötigt metrische Daten für die Darstellung eines Histogramms, in der Statistik gibt es Histogramme für ordinalskalierte Daten Wenig aussagekräftig, weil sich jeder einzelne Balken auf eine einzelne Kategorie bezieht. 28 Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Explorative Datenanalyse 1. Grafische Darstellung der Werteverteilung • • Stängel-Blatt-Diagramm (Stem-and-Leaf) Histogramm 2. Lage der Werte beschreiben Stängel-Blatt-Diagramm • Histogramm • Perzentile • Ausreißer • Perzentile • Schachtel-Diagramm • Ausreißer-Analyse • M-Schätzer • M-Schätzer • Normalverteilungstest 3. Test auf Normalverteilung 29 • Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Perzentile (auch Quantile, Fraktile) • Ordnet man die Beobachtungswerte eines Merkmals der Reihe nach, so bestimmt sich der Wert eines x%-Perzentils durch die Ausprägung des Falles an der x%ten Stelle. Das 40%-Perzentil dieser Verteilung hat den Wert 3 (0,4*15 = 6) Das 50%-Perzentil (Median) dieser Verteilung hat den Wert 4 (0,5*15 = 7,5 → 8) 30 Fallnummer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Ausprägung 1 1 2 2 2 3 3 4 5 6 6 7 8 13 26 Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Perzentile (auch Quantile, Fraktile) 31 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Perzentile (auch Quantile, Fraktile) • Die Explorative Datenanalyse gibt eine vorgegebene Auswahl an Perzentilen aus. Perze ntile Gew ichtetes Mittel (Def inition 1) A lter Tukey-A ngelpunkte A lter 5 10 19,00 19,00 25 Perz entile 50 75 21,00 22,00 25,00 21,00 22,00 25,00 90 27,00 95 29,00 • Mit Hilfe der Funktion „Häufigkeiten“ lassen sich benutzerdefinierte Perzentile ausgeben (Analysieren > Deskriptive Statistik > Häufigkeiten > Statistik) Statistiken Alter N Gültig Perzentile Fehlend 10 20 30 40 50 60 70 80 90 32 123 6 19,00 20,00 21,00 21,00 22,00 23,00 24,00 25,00 27,00 Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Ausreißeranalyse (Extremwerte) • Durch das Anzeigen der Extremwerte (kleinste und größte Werte) können Ausreißer entdeckt werden. Extr em w erte A lter Größte Werte 1 2 3 4 Kleinste Werte Fallnummer 96 Wert 71 77 33 31 51 30 5 1 50 106 29 a 18 2 104 124 18 19 119 19 114 19 b 3 4 5 a. Nur eine partielle Liste von Fällen mit dem Wert 29 w ird in der Tabelle der oberen Ex tremw erte angez eigt. b. Nur eine partielle Liste von Fällen mit dem Wert 19 w ird in der Tabelle der unteren Extremw erte angezeigt. 33 ** Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Schachtel-Diagramm (Box Plot) • Stellt die Lage der Werte und deren Streuung im Definitionsbereich dar • Ausreißer und Extremwerte werden sichtbar gemacht Ausreißer (°): Extremwerte (*): 34 Werte, die mehr als 1,5 Box-Längen vom 25%- oder 75%-Perzentil entfernt sind Werte, die mehr als 3 Box-Längen vom 25%- oder 75%-Perzentil entfernt sind Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Schachtel-Diagramm (Box Plot) • Stellt die Lage der Werte und deren Streuung im Definitionsbereich dar • Ausreißer und Extremwerte werden sichtbar gemacht Ausreißer höchster Wert, der kein Ausreißer ist 75% Perzentil 50% der Fälle Median 25% Perzentil niedrigster Wert, der kein Ausreißer ist Ausreißer (°): Extremwerte (*): 35 Werte, die mehr als 1,5 Box-Längen vom 25%- oder 75%-Perzentil entfernt sind Werte, die mehr als 3 Box-Längen vom 25%- oder 75%-Perzentil entfernt sind Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab M-Schätzer (Maximum-Likelihood-Schätzer) • Mittelwertberechnung unter Berücksichtigung von Extremwerten • Werte werden bei der Berechnung unterschiedlich stark gewichtet (je stärker ein Wert von den übrigen Werten abweicht, desto geringer ist das Gewicht) Datenbasis mit Fehleingaben Berichtigte Datenbasis Statistiken Statistiken Alter N Gültig Fehlend Mittelwert Alter N 123 6 24,41 Mittelwert M-Schätzer Alter M-Schätzer a nach Huber 22,48 Tukeyb Biweight 22,30 M-Schätzer c nach Hampel 22,47 a. Die Gewichtungskonstante ist 1,339. b. Die Gewichtungskonstante ist 4,685. c. Die Gewichtungskonstanten sind 1,700, 3,400 und 8,500 d. Die Gewichtungskonstante ist 1,340*pi. 36 Andrewsd Welle 22,29 Gültig Fehlend 123 6 22,79 Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Explorative Datenanalyse 1. Grafische Darstellung der Werteverteilung • • Stängel-Blatt-Diagramm (Stem-and-Leaf) Histogramm 2. Lage der Werte beschreiben Stängel-Blatt-Diagramm • Histogramm • Perzentile • Ausreißer • Perzentile • Schachtel-Diagramm • Ausreißer-Analyse • M-Schätzer • M-Schätzer • Normalverteilungstest 3. Test auf Normalverteilung 37 • Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Test auf Normalverteilung • Zahlreiche statistische Verfahren setzen voraus, dass die zu untersuchenden Daten annähernd normalverteilt sind • SPSS bietet mit der Prozedur „Explorative Datenanalyse“ folgende Möglichkeiten Daten auf Normalverteilung zu prüfen • Normalverteilungsplots Empirisch beobachtete Werte werden den erwarteten Werten bei einer Normalverteilung gegenübergestellt • Signifikanztests Errechnung einer Wahrscheinlichkeit, mit der das Zurückweisen der Hypothese, die Werte seien normalverteilt, fehlerhaft ist 38 Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Normalverteilungsplots Theoretische Werte einer Normalverteilung • Sind die empirischen Werte normalverteilt, müssen die einzelnen Punkte weitgehend dem Verlauf der Geraden folgen. • Gravierender ist die Stärke der Abweichung in deren Form. Folgen die Werte einem klaren Muster, weichen die Werte systematisch von der Normalverteilung ab. 39 • Diese Grafik ist geeignet um ein Muster in den Abweichungen zu erkennen • Wären die Stichprobenwerte normalverteilt, müssten die Punkte in der Grafik zufällig und nicht einem Muster folgend um die horizontale Linie streuen. • das Alter ist in der Grundgesamtheit nicht normalverteilt Statistische Auswertungsverfahren mit SPSS Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Signifikanztests • Der Kolmogorov-Smirnov- und der Shapiro-Wilk-Test überprüfen beide die Nullhypothese, die Werte der untersuchten Variablen seien in der Grundgesamtheit normalverteilt • Es wird eine Wahrscheinlichkeit errechnet, mit der das Zurückweisen dieser Hypothese falsch ist • Je größer die Irrtumswahrscheinlichkeit, desto eher kann davon ausgegangen werden, dass die Werte normalverteilt sind. • Kolmogorov-Smirnov: für große Stichproben geeignet • Shapiro-Wilk-Test: ergänzend für kleine Stichproben (etwa weniger als 50) Tests auf Normalv erteilung a Alter Kolmogorov-Smirnov Statistik df Signifikanz ,143 123 ,000 Statistik ,942 a. Signifikanzkorrektur nach Lilliefors Irrtumswahrscheinlichkeit • Annahme einer Normalverteilung ist zurückzuweisen 40 Shapiro-Wilk df Signifikanz 123 ,000 Statistische Auswertungsverfahren mit SPSS Übungsblatt 2 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bitte bearbeiten Sie die Aufgabe 3 des Übungsblattes. 41 Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Häufigkeiten • Lage- und Streuparameter • Explorative Datenanalyse • Datenmodifikation 42 Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Datenmodifikation und -filterung Umkodieren (Befehl: Transformieren → Umkodieren) Veränderung der Werte einer schon vorhandenen Variablen • in dieselbe Variable (alte Werte werden überschrieben) • in eine neue Variable (die alte Variable bleibt erhalten) • Sonderfall: Umkodierung in aufeinander folgende Zahlen Berechnen (Befehl: Transformieren → Berechnen) Ausführung von mathematischen Operationen mit den vorhandenen Datenwerten (z.B. Merkmalsausprägungen addieren, Index bilden) 43 Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Datenmodifikation und -filterung Untersuchungen anhand einer kategorialen (Gruppierungs-) Variablen (Befehl: Daten → Datei aufteilen) Analyse von unterschiedlichen Teildatenmengen Untersuchungen anhand von kontinuierlichen Variablen (Befehl: Daten → Fälle auswählen) Analyse von Daten, die anhand der Werte ihrer Variablen ausgewählt werden Gewichtung von Fällen (Befehl: Daten → Fälle gewichten) Zuweisung von Gewichten auf die unterschiedlichen Fälle der Datendatei, um die Repräsentativität der Ergebnisse zu gewährleisten (manche Daten sind über- oder unterrepräsentiert). Die Gewichtungsfaktoren werden bei den nachfolgenden statistischen Analysen berücksichtigt. 44 Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Datenmodifikation und -filterung • 45 Umkodieren Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Datenmodifikation und -filterung • 46 Berechnen Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Datenmodifikation und -filterung • 47 Untersuchungen anhand einer kategorialen (Gruppierungs-) Variablen Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Datenmodifikation und -filterung • 48 Untersuchungen anhand von kontinuierlichen Variablen Statistische Auswertungsverfahren mit SPSS Datenmodifikation und -filterung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Datenmodifikation und -filterung • 49 Gewichtung von Fällen Statistische Auswertungsverfahren mit SPSS Übungsblatt 2 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bitte bearbeiten Sie die restlichen Fragen des Übungsblattes. 50 Statistische Auswertungsverfahren mit SPSS Prof. Dr. Andrea Raab Fachhochschule Ingolstadt V3 Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 2 • Analyse von Mehrfachantworten • Kreuztabellen • Korrelationen • Regression Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Mehrfachantworten • Fragen, auf die Probanden mehrere Antworten gleichzeitig gegeben können • Beispiel: x x x • Unabhängig davon, wie viele Kreuze der Befragte setzt, gibt es jedoch in jedem Fall neun Antwortkategorien • Die Antworten können nicht in einer Variable gespeichert werden → die Gruppe von Antworten soll aber so ausgewertet werden, als wären die Informationen nur in einer Variablen gespeichert • SPSS bietet zwei verschiedene Methoden an: Methode multipler Kategorien Methode multipler Dichotomien 3 Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Mehrfachantworten zur Analyse aufbereiten • Methode multipler Kategorien: • Anzahl der zu ankreuzenden Antworten wurde beschränkt (z.B.: Bitte kreuzen Sie maximal 3 Antworten an) → Anzahl der Variablen entspricht der maximalen Anzahl an Antworten • Falls nicht angegeben wurde, wie viele Antworten angekreuzt werden sollen, kann die Anzahl der maximalen Antworten durch Schätzung oder Durchsicht der Fragebögen ermittelt werden • Die Kodierung erfolgt wie bei Einfachantworten 1 2 3 4 5 6 9 F3_99 4 F3_1 → 1,2,3,4,5,6,7,8,9 F3_2 → 1,2,3,4,5,6,7,8,9 F3_3 → 1,2,3,4,5,6,7,8,9 7 8 F3_s Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Mehrfachantworten zur Analyse aufbereiten • Methode multipler Dichotomien: • Keine Beschränkung bei der Anzahl der zu ankreuzenden Antworten → für jede Antwortmöglichkeit wird eine Variable erstellt • Häufig verwendete Codierung: „1 = wurde gewählt“, „0 = wurde nicht gewählt“ • Vorteil: klare Struktur der Kodierung • Nachteil: hohe Anzahl an Variablen 1 F3_1 /0 1 F3_2 1 F3_3 F3_99 1 /0 1 /0 1 /0 F3_4 /0 /0 F3_5 F3_6 F3_9 1 /0 /0 Um diese Frage noch eindeutiger zu stellen, müssten eigentlich zwei Fragen formuliert werden. (1. Treibst du Sport; 2. Welches Sportangebot an der Fachhochschule Ingolstadt nutzt Du?) 5 um F3_7 F3_8 F3_9s 1 n re e i kod 1 /0 1 /0 Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Häufigkeitsauswertung von Mehrfachantworten • Multiple Dichotomien • Häufigkeitsauswertung über jede einzelne Variable und Vergleich der einzelnen Analysen → sehr umständlich und weniger anschaulich • Multiple Kategorien • Häufigkeitsauswertung über jede Antwortvariable → wenig aussagekräftig, da eine bestimmte Antwort in jeder der in Frage kommenden Variablen gespeichert sein könnte Lösung: Variablen zu Sets zusammenfassen • Mehrfachantworten-Sets werden nicht mit der Datendatei gespeichert → Syntax (kein „Einfügen“ Button) • Zusammengehörende Variablen in Sets zusammenfassen • Analyse der Daten mit Prozeduren, die speziell für Mehrfachantworten entwickelt wurden • „Analysieren > Mehrfachantworten > Sets definieren“ • Sets für multiple Dichotomien Alle Variablen der Mehrfachantworten werden zu einer Gruppe zusammengefasst, dabei muss angegeben werden, welche Kodierung bei späteren Analysen von Interesse ist (z.B. 1 = wurde gewählt) → Analyse über alle Variablen, mit welcher Häufigkeit die angegebene Kodierung auftritt • Sets für multiple Kategorien Alle Antwortvariablen werden zu einer Gruppe zusammengefasst, dabei müssen alle Kodierungen angegeben sein, die bei der Analyse ausgezählt werden sollen (1 = Aerobic, 2 = Badminton etc.) → Analyse, mit welcher Häufigkeit die einzelnen Kodierungen im Set enthalten sind 6 Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Variablen zu Setz zusammenfassen F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich) 7 Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Häufigkeitsauswertung von Mehrfachantworten F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich) 8 Statistische Auswertungsverfahren mit SPSS Analyse von Mehrfachantworten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Häufigkeitsauswertung von Mehrfachantworten F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich) Häufigkeiten v on $Sportangebot_set Fallzusammenfassung Fälle $Sportangebot_set a Gültig N Prozent 59 45,7% Fehlend N Prozent 70 54,3% N Gesamt Prozent 129 100,0% a. Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1. • Von 129 Probanden nutzen 46% das Sportangebot an der FHI • Von allen angebotenen Sportarten wird Aerobic am meisten besucht (17%) • 25% der Studenten, die das Sportangebot an der FHI nutzen, nehmen an der Sportart Aerobic teil. • Die Kategorie „mache keinen Sport“ sowie die Spezifizierung der Kategorie „Sonstige“ müssen separat ausgewertet werden. Es kann jedoch die Schlussfolgerung gezogen werden, dass die 70 fehlenden Fälle keinen Sport treiben. Sportangebota Basketball Fechten Fitness Fußball Lauftreff Volleyball Sonstiges Gesamt a. Prozent der Fälle 25,4% 6 8 3 6,8% 9,1% 3,4% 10,2% 13,6% 5,1% 11 12,5% 18,6% 11 6 10 18 12,5% 6,8% 11,4% 20,5% 18,6% 10,2% 16,9% 30,5% 88 100,0% 149,2% Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1. • Fälle, bei denen keine Set-Variable den angegebenen Wert (1) annimmt, werden als fehlend bezeichnet 9 Aerobic Badminton Antworten N Prozent 15 17,0% Statistische Auswertungsverfahren mit SPSS Übungsblatt 3 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bitte bearbeiten Sie die Aufgabe 1 des Übungsblattes. 10 Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 11 • Analyse von Mehrfachantworten • Kreuztabellen • Korrelationen • Regression Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Kreuztabellen • Kreuztabellen dienen dazu, die gemeinsame Häufigkeitsverteilung zweier Variablen darzustellen. Es handelt sich um das Pendant zu einer Häufigkeitstabelle für den 2-Variablen-Fall. • Es werden Fallgruppen betrachtet, die sich durch die Kombination aus zwei Variablen zusammensetzen • Kreuztabellen sind zur Betrachtung nominal- oder ordinalskalierten Variablen geeignet • Die Prozedur Kreuztabellen beschränkt sich nicht nur auf die Verteilung von zwei Variablen, sondern bietet auch statistische Zusammenhangstests und Zusammenhangsmaße an Analysemöglichkeiten mit der Prozedur Kreuztabellen • Kreuztabellen (nominal- und ordinalskalierte Variablen) • Chi-Quadrat-Test (nominal- und ordinalskalierte Variablen) Untersucht, z.B. ob aus den Stichprobenbeobachtungen geschlossen werden kann, dass zwischen zwei kategorialen Variablen in der Grundgesamtheit ein Zusammenhang besteht • Zusammenhangsmaße (nominal-, ordinal- und intervallskalierte Variablen) Bringen durch eine Maßzahl die Stärke eines Zusammenhangs zwischen zwei Variablen zum Ausdruck 12 Statistische Auswertungsverfahren mit SPSS Kreuztabellen Kreuztabellen auswerten ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Erstellung einer Kreuztabelle und eines Balkendiagramms) 13 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Kreuztabellen auswerten ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Erstellung einer Kreuztabelle und eines Balkendiagramms) Raucher * Semester Kreuztabelle Anzahl Raucher Gesamt 14 Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig 1 20 3 7 30 3 14 2 9 Semester 5 14 5 11 25 30 7 13 7 11 31 9 4 3 1 Gesamt 65 20 39 8 124 Statistische Auswertungsverfahren mit SPSS Kreuztabellen Kreuztabellen auswerten Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Erwartete Häufigkeit: Häufigkeit, die vorliegen müsste, wenn kein statistischer Zusammenhang vorliegen würde (Zeilensumme * Spaltensumme / Gesamtsumme der Häufigkeit) • Relative Häufigkeit: absolute Häufigkeit dargestellt in Prozent • prozentuale Zeilenhäufigkeit: Prozentuierung auf den jeweiligen Zeilensummenwert • prozentuale Spaltenhäufigkeit: Prozentuierung auf den jeweiligen Spaltensummenwert • prozentuale Gesamthäufigkeit: Prozentuierung auf die Gesamtzahl der gültigen Fälle 15 Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Raucher * SemesterKreuztabelle 20 14 Semester 5 14 15,7 30,8% 66,7% 13,1 21,5% 56,0% 16,1% 3 1 Raucher Nein, ich rauche nicht bei Normalverteilung beider Merkmale Anzahl Erwartete Anzahl % von Raucher % von Semester % der Gesamtzahl Ja, hin und wieder Anzahl Erwartete Anzahl % von Raucher % von Semester Ja, regelmäßig % der Gesamtzahl Anzahl Erwartete Anzahl % von Raucher % von Semester Gesamt % der Gesamtzahl Anzahl Erwartete Anzahl % von Raucher % von Semester % der Gesamtzahl 16 3 7 9 13 4 Gesamt 65 15,7 21,5% 46,7% 16,3 20,0% 41,9% 4,2 6,2% 50,0% 65,0 100,0% 52,4% 11,3% 2 11,3% 5 10,5% 7 3,2% 3 52,4% 20 4,8 15,0% 10,0% 4,0 10,0% 8,0% 4,8 25,0% 16,7% 5,0 35,0% 22,6% 1,3 15,0% 37,5% 20,0 100,0% 16,1% 2,4% 7 1,6% 9 4,0% 11 5,6% 11 2,4% 1 16,1% 39 9,4 17,9% 7,9 23,1% 9,4 28,2% 9,8 28,2% 2,5 2,6% 39,0 100,0% 23,3% 5,6% 30 36,0% 7,3% 25 36,7% 8,9% 30 35,5% 8,9% 31 12,5% ,8% 8 31,5% 31,5% 124 30,0 24,2% 25,0 20,2% 30,0 24,2% 31,0 25,0% 8,0 6,5% 124,0 100,0% 100,0% 24,2% 100,0% 20,2% 100,0% 24,2% 100,0% 25,0% 100,0% 6,5% 100,0% 100,0% Statistische Auswertungsverfahren mit SPSS Kreuztabellen Einsatz von Gruppen – und Schichtenvariablen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Durch Schichtungsvariablen lassen sich mehrdimensionale Häufigkeitstabellen erstellen. ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Erstellung einer Kreuztabelle und eines Balkendiagramms mit der Schichtungsvariable Geschlecht.) 17 Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Einsatz von Gruppen – und Schichtenvariablen ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Erstellung einer Kreuztabelle und eines Balkendiagramms mit der Schichtungsvariable Geschlecht.) Raucher * Semester * Geschlecht Kreuztabelle Anzahl Geschlecht männlich Raucher weiblich Gesamt Raucher Gesamt 18 Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig 1 10 1 2 13 10 2 5 17 3 5 1 4 10 9 1 5 15 Semester 5 3 0 5 8 11 5 6 22 7 4 5 7 16 9 2 4 15 9 2 3 0 5 2 0 1 3 Gesamt 24 10 18 52 41 10 21 72 Statistische Auswertungsverfahren mit SPSS Kreuztabellen Chi-Quadrat-Test (Signifikanztest für mindestens nominalskalierte Daten) Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Zwei Variablen sind voneinander unabhängig (Annahme der Nullhypothese), wenn die beobachteten Häufigkeiten mit den erwarteten Häufigkeiten übereinstimmen → Beispielfragestellung: Besteht zwischen zwei Variablen ein Zusammenhang? • Nullhypothese: In der Grundgesamtheit liegt kein Zusammenhang zwischen den Variablen vor. • Alternativhypothese: In der Grundgesamtheit liegt ein Zusammenhang zwischen den Variablen vor. • Ein Signifikanzwert von „0,000“ sagt aus, dass man, wenn man die Nullhypothese ablehnt (es besteht kein Zusammenhang), mit einer Wahrscheinlichkeit von 0,0% einen Fehler begeht. • Drei verschiedenen Modelle: • Pearson-Test am häufigsten verwendeter Test • Likelihood-Test liefert bei großen Stichproben das gleiche Ergebnis wie der Person-Test • Linear mit linear misst den linearen Zusammenhang zwischen den Variablen (min. Ordinalskalierung) • Voraussetzung für Zuverlässigkeit des Tests • erwartete Häufigkeit von mindestens 5 in jeder Zelle • nach Möglichkeit Kreuztabelle mit mehr als 5 Felder • nominal- und ordinalskalierte Daten 19 Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Chi-Quadrat-Test (Signifikanztest für mindestens nominalskalierte Daten) ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Prüfung, ob ein Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semester besteht) Chi-Quadrat-Tests Chi-Quadrat nach Pearson Likelihood-Quotient Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert a Asymptotisch e Signifikanz (2-seitig) df 8 ,343 Über 0,05 8,895 8 ,351 Über 0,01 bis 0,05 1,436 1 ,231 Über 0,001 bis 0,01 8,991 124 a. 6 Zellen (40,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,29. • Es besteht kein signifikanter Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semesteranzahl, da p = 0,343. • Die Nullhypothese wird angenommen und die Alternativhypothese verworfen. 20 Irrtumswahrscheinlichkeit* Unter oder gleich 0,001 Bedeutung nicht signifikant signifikant sehr signifikant höchst signifikant *die mit einem Zurückweisen der Nullhypothese verbunden ist. Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Zusammenhangsmaße • Einschätzung der Stärke eines Zusammenhangs und Quantifizierung anhand einer Maßzahl. Eine präzise Aussage über die Stärke ist anhand der Zusammenhangsmaße nicht möglich. • Die Anwendbarkeit eines Zusammenhangsmaßes ist vom Skalenniveau der betrachteten Variablen abhängig • Ein Wert von 0 bedeutet völlige Unabhängigkeit und ein Wert von 1 bedeutet größte Abhängigkeit (für Zusammenhangsmaße, deren Ausgabe zwischen 0 und 1 liegt) Zusammenhangsmaß Nominalskalierte Variablen Besonderheiten Ausgabe Kontingenzkoeffizient Werte für Tabellen mit unterschiedlicher Feldanzahl sind nur bedingt vergleichbar Liefert nur für 2x2 Tabellen (Vierfeldertafel) verlässliche Ergebnisse und ist stark abhängig von der Anzahl der Fälle Unempfindlich gegen unterschiedliche Tabellenformate und Fallzahlen Lambda ist ein eher grobes Maß und kann auch 0 annehmen, wenn eine Abhängigkeit gegeben ist Wert zwischen 0 und 1 Phi Cramers V BEST E WAH L! Lambda, Unsicherheitskoeffizient Ordinalskalierte Variablen Gamma, Somers d Betrachtet eine der beiden Variablen als abhängig und eine als unabhängig Kendalls Tau-b Nur für quadratische Tabellen Kendalls Tau-c Unempfindlich gegen unterschiedliche Tabellenformate Wert zwischen -1 und +1 Intervallskalierte Variablen 21 Eta Abhängige Variable ist intervall- und unabhängige nominal- oder ordinalskaliert Wert zwischen 0 und 1 Pearsons Korrelationskoeffizient Abhängige und unabhängige Variable müssen min. intervallskaliert sein; Normalverteilung der Variablen Wert zwischen -1 und +1 Statistische Auswertungsverfahren mit SPSS Kreuztabellen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Zusammenhangsmaße ST2. Im wievielten Semester studierst Du? ST6. Rauchst Du? (Prüfung, wie stark der Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semester ist) Symmetrische Maße Nominal- bzgl. Nominalmaß Phi Cramer-V Kontingenzkoeffizient Anzahl der gültigen Fälle Wert ,269 ,190 ,260 124 a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. Zusammenhangsmaß 22 0 über 0 bis 0,2 0,2 bis 0,4 0,4 bis 0,6 0,6 bis 0,8 0,8 bis unter 1 1 Mögliche Interpretation Kein Zusammenhang Sehr schwacher Zusammenhang Schwacher Zusammenhang Mittlerer Zusammenhang Starker Zusammenhang Sehr starker Zusammenhang Perfekter Zusammenhang Orientierungshilfe; Brosius 2004, 525 Näherung sweise Signifikanz ,343 ,343 ,343 Statistische Auswertungsverfahren mit SPSS Übungsblatt 3 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bitte bearbeiten Sie die Aufgabe 2, 3, 4 und 5 des Übungsblattes. 23 Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 24 • Analyse von Mehrfachantworten • Kreuztabellen • Korrelationen • Regression Statistische Auswertungsverfahren mit SPSS Korrelationen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Korrelationen • Zielsetzung: Zusammenhänge zwischen zwei Variablen aufdecken, quantifizieren (und testen) • Beide Variablen sind „gleichberechtigt“ (keine abhängige und unabhängige Variable) • Der Korrelationskoeffizient (R) ist ein Maß für die Stärke und die Richtung des linearen Zusammenhangs zweier Variablen +1 → perfekt positiver Zusammenhang 0 → kein linearer Zusammenhang -1 → perfekt negativer Zusammenhang – Der Betrag ist umso größer, je stärker der lineare Zusammenhang zwischen den Variablen ist – Wird ein Korrelationskoeffizient von „0“ berechnet, kann dennoch ein perfekter nicht linearer Zusammenhang zwischen den Variablen bestehen → Streudiagramm Korrelationskoeffizient 0 über 0 bis 0,2 0,2 bis 0,4 0,4 bis 0,6 0,6 bis 0,8 0,8 bis unter 1 1 25 Mögliche Interpretation Keine Korrelation Sehr schwache Korrelation Schwache Korrelation Mittlere Korrelation Starke Korrelation Sehr starke Korrelation Perfekte Korrelation Orientierungshilfe; Brosius 2004, 525 Statistische Auswertungsverfahren mit SPSS Korrelationen Korrelationen 26 ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester) Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Korrelationen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Korrelationen • • In einem Streudiagramm werden die Werte von zwei Variablen gegeneinander abgetragen Jeder Fall wird durch einen Punkt im Diagramm dargestellt ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester) 1000 Variable 1 800 600 400 200 0 -10,00 -5,00 0,00 5,00 10,00 -5000,00 0,00 Variable 2 20000 Variable 1 15000 10000 5000 0 27 -20000,00 -15000,00 -10000,00 Variable 2 Statistische Auswertungsverfahren mit SPSS Korrelationen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Korrelationen • Wahl der Korrelationskoeffizienten hängt vom Skalenniveau der betreffenden Variablen ab Pearsons Korrelationskoeffizient – Die Variablen müssen mindestens intervallskaliert sein – Die Variablen müssen in der Grundgesamtheit annähernd normalverteilt sein Kendalls Tau-b, Spearmans Rho – Die Variablen müssen mindestens ordinalskaliert sein – Die Variablen müssen nicht normalverteilt sein Signifikanztest • Rückschlüsse über die Signifikanz eines linearen Zusammenhangs der Variablen von der Stichprobe auf die Grundgesamtheit können über einen Signifikanztest gezogen werden • Wahl des Signifikanztests hängt vom Skalenniveau der betreffenden Variablen ab (SPSS wählt auf Basis des Korrelationskoeffizienten den richtigen Signifikanztest) – Nominalskalenniveau, z.B. Chi-Quadrat Test – Ordinalskalenniveau, z.B. Mann-Whitney Test – Metrisches Skalenniveau, z.B. T-Test (Voraussetzung: Variablen normalverteilt) Irrtumswahrscheinlichkeit* Über 0,05 Über 0,01 bis 0,05 Über 0,001 bis 0,01 Unter oder gleich 0,001 28 Bedeutung nicht signifikant signifikant sehr signifikant höchst signifikant *die mit einem Zurückweisen der Nullhypothese verbunden ist. Statistische Auswertungsverfahren mit SPSS Korrelationen Korrelationen • 29 Analysieren > Korrelation > Bivariat ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester) Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Korrelationen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Korrelationsmaße • Pearsons Korrelationskoeffizient ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester) Tests auf Normalverteilung Kolmogorov-Smirnov Statistik ,164 ,143 Semester Alter df 123 123 a Signifikanz ,000 ,000 Da die Variablen nicht normalverteilt sind, kann Pearsons Korrelationskoeffizient nicht berechnet werden. In einem nächsten Schritt könnte man sich überlegen, ob trotz Test nicht doch eine Normalverteilung angenommen werden kann. Shapiro-Wilk Statistik ,890 ,942 df 123 123 Signifikanz ,000 ,000 a. Signifikanzkorrektur nachLilliefors Korrelationen Alter Semester Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N Korrelationen Alter Semester ,583** nt a d ,000 un 123red 123 ,583** 1 ,000 123 125 1 Alter Semester **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) Zweiseitiger Signifikanztest signifikant. • Es liegt eine mittlere Korrelation der beiden Variablen vor. Laut Signifikanztest kann der errechnete Korrelationskoeffizient mit einer Irrtumswahrscheinlichkeit von 0% auf die Grundgesamtheit übertragen werden (signifikant). 30 Korrelation nach Pearson Signifikanz (1-seitig) N Korrelation nach Pearson Signifikanz (1-seitig) N Alter 1 123 ,583** ,000 123 Semester ,583** ,000 123 1 125 **. Die Korrelation ist auf dem Niveau von 0,01 (1-seitig) Einseitiger Signifikanztest signifikant. Statistische Auswertungsverfahren mit SPSS Korrelationen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Korrelationsmaße • Pearsons Korrelationskoeffizient ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester) Korrelationen Kendall-Tau-b Semester Alter Spearman-Rho Semester Alter Korrelationskoeffizient Sig. (2-seitig) N Korrelationskoeffizient Sig. (2-seitig) N Korrelationskoeffizient Sig. (2-seitig) N Korrelationskoeffizient Sig. (2-seitig) N **. Die Korrelation istaufdem 0,01 Niveausignifikant(zweiseitig). • Es liegt eine mittlere Korrelation der beiden Variablen vor. Laut Signifikanztest kann der errechnete Korrelationskoeffizient mit einer Irrtumswahrscheinlichkeit von 0% auf die Grundgesamtheit übertragen werden (höchst signifikant). 31 Semester 1,000 . 125 ,517** ,000 123 1,000 . 125 Alter ,517** ,000 123 1,000 . 123 ,643** ,000 123 ,643** ,000 1,000 . 123 123 Statistische Auswertungsverfahren mit SPSS Übungsblatt 3 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bitte bearbeiten Sie die Aufgabe 6 des Übungsblattes. 32 Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 33 • Analyse von Mehrfachantworten • Kreuztabellen • Korrelationen • Regression Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Regressionsanalyse • – Beschreibung und Erklärung von Zusammenhängen – Durchführung von Prognosen • Bestimmung der Parameter (a und b) einer Regressionsgeraden, sodass die Summe der quadrierten Abstände zwischen den Schätzwerten (Regressionsgerade) und den realen Werten minimiert wird • Einfache lineare Regression • 34 Die Regressionsanalyse ist ein häufig verwendetes multivariates Analyseverfahren, da es vielseitig und flexibel eingesetzt werden kann – Untersuchung der Abhängigkeit einer Variablen von einer Zweiten – Voraussetzung: intervallskalierte, normalverteilte Variablen zwischen denen ein linearer Zusammenhang besteht – Beispiel: Wie verändert sich die Absatzmenge, wenn sich der Preis um 1€ erhöht? Multiple Regression – Untersuchung der Abhängigkeit einer Variablen von einer Kombination mehrerer anderer Variablen – Beispiel: Wie beeinflussen Qualität, Preis, Design und Verpackung eines Produktes die Kundenzufriedenheit? Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Einfache lineare Regression Regressionsgerade Y = a +b! X y = abhängige Variable (Abiturnote) a = Konstante (Schnittpunkt mit der Y-Achse) b = Steigungsparameter x = unabhängige Variable (Alter) Y = Abiturnote X = Alter 35 Abiturnote = a + b ! Alter Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Einfache lineare Regression Nicht erklärte Abweichung Gesamtabweichung Erklärte Abweichung Schätzgerade für die Abiturnote Y = Abiturnote X = Alter 36 Y = 0,449 + 0,073 ! X Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Einfache lineare Regression 37 Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Einfache lineare Regression Aufgenommene/Entfernte Variablen Modell 1 Aufgenomme ne Variablen Alter a Entfernte Variablen . b Modellzusammenfassung Methode Eingeben Modell 1 ← benutzte Variablen a. Alle gewünschten Variablen wurden aufgenommen. b. Abhängige Variable: Abiturnote Regression Residuen Gesamt Quadrats umme 5,532 17,445 22,977 df Mittelder Quadrate 5,532 ,150 1 116 117 F 36,781 Signifikanz ,000a T 1,632 6,065 Signifikanz ,105 ,000 a. Einflußvariablen :(Konstante),Alter b. Abhängige Variable:Abiturnote Koeffizienten a Modell 1 (Konstante) Alter Nichtstandardisierte Koeffizienten Standardf B ehler ,449 ,275 ,073 ,012 a. Abhängige Variable: Abiturnote 38 ,491a R-Quadrat ,241 a. Einflußvariablen : (Konstante), Alter ANOVAb Modell 1 R Standardisie rte Koeffizienten Beta ,491 Korrigiertes R-Quadrat ,234 Standardf ehler des Schätzers ,3878 Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Einfache lineare Regression Modellzusammenfassung Modell 1 R ,491a R-Quadrat ,241 Korrigiertes R-Quadrat ,234 Standardf ehler des Schätzers ,3878 a. Einflußvariablen : (Konstante), Alter ↑ Korrigiertes R-Quadrat R= Regression Residuen • Misst den Anteil der erklärten Streuung an der gesamten Streuung (Fit des Regressionsmodells) 39 • Misst, wie viel Varianz der abhängigen Variable sich durch die unabhängige Variable erklären lässt • Je größer der Wert, desto besser (Wert: 0 – 1) 23,4% der Varianz in der Abiturnote lassen sich durch das „Alter“ erklären (schlechtes Ergebnis) ← Standardfehler des Schätzers • Misst, wie nahe die durch die Regressionsgleichung prognostizierten Werte an den wahren Werten liegen Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Einfache lineare Regression • Varianzanalyse für das Regressionsmodell Gesamtabweichung = nicht erklärte Abweichung + erklärte Abweichung ANOVAb Modell 1 Regression Residuen Gesamt Quadrats umme 5,532 17,445 22,977 df 1 116 117 Mittelder Quadrate 5,532 ,150 a. Einflußvariablen :(Konstante),Alter b. Abhängige Variable:Abiturnote R= Regression Residuen Misst den Anteil der erklärten Streuung an der gesamten Streuung (Fit des Regressionsmodells) • Das Regressionsmodell wird so geschätzt, dass die nicht erklärte Abweichung, die als aggregiertes Fehlermaß interpretiert werden kann, minimiert wird. 40 F 36,781 Signifikanz ,000a Signifikanzwert sagt aus, ob die Variable Alter dazu geeignet ist, die Abiturnote vorherzusagen. Modell wäre geeignet, um die Abiturnote vorherzusagen (siehe auch korrigiertes R Quadrat) Statistische Auswertungsverfahren mit SPSS Regressionsanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Einfache lineare Regression • Schätzfunktion in der Koeffizienten-Tabelle Koeffizienten a Modell 1 (Konstante) Alter Nichtstandardisierte Koeffizienten Standardf B ehler ,449 ,275 ,073 ,012 Standardisie rte Koeffizienten Beta ,491 T 1,632 6,065 Signifikanz ,105 ,000 a. Abhängige Variable: Abiturnote Y = Abiturnote X = Alter Y = 0,449 + 0,073 ! X Steigung der Gerade 41 Achsenabschnitt Signifikanzwert sagt aus, ob die Variable „Alter“ einen signifikanten Zusammenhang mit der „Abiturnote“ aufweist. Weist die Stärke und Richtung des Zusammenhangs aus Statistische Auswertungsverfahren mit SPSS Übungsblatt 3 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bitte bearbeiten Sie die Aufgabe 7 des Übungsblattes. 42 Statistische Auswertungsverfahren mit SPSS Prof. Dr. Andrea Raab Fachhochschule Ingolstadt V4 Statistische Auswertungsverfahren mit SPSS Inhaltliche Übersicht Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 2 • Arbeiten mit dem Syntaxeditor • Mittelwertvergleiche • Nichtparametrische und parametrische Tests Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Der Syntaxeditor • Syntax ist eine Programmiersprache, die nicht nur Befehle zur Ausführung von Berechnungen, sondern auch Anweisungen zum Programmablauf enthält • Der Syntaxeditor wird verwendet, um SPSS Prozeduren mit Hilfe von Befehlscode zu speichern, um sie zu einem späteren Zeitpunkt wieder abrufen zu können • Er öffnet sich entweder automatisch indem man die Schaltfläche Einfügen in den jeweiligen Analysedialogfeldern betätigt oder manuell über das Menü Datei > Neu > Syntax • SPSS-Syntax kann im Syntaxeditor über das Menü Datei > Speichern unter der Dateiendung *.sps gespeichert werden Vorteile: 3 • Zeitersparnis bei wiederkehrenden Berechnungen • Schnellere Modifikationen von einzelnen Befehlen beim Testen von geeigneten Analyseverfahren • Verarbeitet Befehle, die über die grafische Benutzeroberfläche nicht erreichbar sind Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Formulieren eines Syntax Befehls 1. Ein Befehlsschlüsselwort (z.B. FREQUENCIES) leitet den Syntax Befehl ein Ein neuer Befehl beginnt in einer neuen Zeile, sprich unmittelbar am Zeilenanfang ohne Leerzeichen und wird durch ein Befehlsschlüsselwort eingeleitet Jeder Befehl muss mit einem Punkt abgeschlossen werden Eine Befehlszeile darf maximal 80 Zeichen (einschließlich Leerräume) enthalten Befehle dürfen auf beliebig vielen Befehlszeilen fortgesetzt werden, jede neue Zeile muss aber mit mindestens einem Leerraum eingerückt sein 2. Der Befehl wird durch ein oder mehrere Unterbefehle gesteuert (den Befehl spezifizierende Unterbefehle) Unterbefehle werden in der Regel mit einem Schrägstrich („/“) eingeleitet 3. Spezifikationen sind die Parameter von Befehlen bzw. Unterbefehlen (z.B. Variablennamen, Zahlen, Operatoren) 4 Variablennamen dürfen nicht abgekürzt werden Zahlenangaben in den Spezifikationen dürfen nur den Punkt als Dezimaltrennzeichen benutzen Zeichenketten, die mit Apostrophen notiert werden können, müssen auf der Zeile enden, auf der sie begonnen wurden (kein Zeilenumbruch) Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Beispiele für Syntax Befehle FREQUENCIES VARIABLES= st7 /PERCENTILES=25 50 75 /BARCHART . Häufigkeitsauswertung über die Variable st7 (Alter) mit Angabe der 25, 50 und 75% Perzentile und eines Säulendiagramms. *Bereichseinteiler. *st7. RECODE st7 ( MISSING = COPY ) ( LO THRU 21 =1 ) ( LO THRU 24 =2 ) ( LO THRU 27 =3 ) ( LO THRU 30 =4 ) ( LO THRU HI =5 ) ( ELSE = SYSMIS ) INTO st7kl. VARIABLE LABELS st7kl 'Alter (In Bereiche eingeteilt)'. FORMAT st7kl (F5.0). VALUE LABELS st7kl 1 '18 - 21' 2 '22 - 24' 3 '25 - 27' 4 '28 - 30' 5 '31+'. MISSING VALUES st7kl ( ). VARIABLE LEVEL st7kl ( ORDINAL ). EXECUTE. 5 Automatische Kategoriebildung über die Variable st7 (Alter) mit der Funktion Bereichseinteiler. • Im Syntaxeditor können Kommentare eingeflochten werden, die jedoch bei der Auswertung nicht berücksichtigt werden. • Sie beginnen mit einem „*“ und enden mit einem Punkt. Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Wichtige Befehle (verwendet im Syntaxeditor) 6 RECODE • Kodiert die Werte von Variablen um und schreibt die resultierenden Wert in die Zielvariable • Existierende gleichnamige Variablen werden automatisch überschrieben VARIABLE LABELS • Definiert für die Zielvariable ein Variablenlabel EXECUTE • Eine Reihe von SPSS Befehlen, z.B. das Einlesen von Daten, Datendefinitionen, Umkodieren, werden nicht sofort ausgeführt, sondern werden in der Schwebe gehalten, bis eine explizite Anweisung deren Ausführung erzwingt COMPUTE • Variable berechnen VALUE LABELS • Definiert für die Zielvariable Wertelabels FREQUENCIES • Erstellt Häufigkeitstabellen für eine Variable DESCRIPTIVES • Erstellt bestimmt Maßzahlen für eine Variable (z.B. Mittelwert, Spannweite) CROSSTABS • Erstellt eine Kreuztabelle über zwei Variablen EXAMINE • Führt eine explorative Datenanalyse über eine Variable durch DO IF • Wenn bestimmte Transformationen nur für eine bestimmte Auswahl an Fällen durchgeführt werden soll Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Ausführen von Syntaxbefehlen • Eine Syntaxdatei kann beliebig viele Syntaxbefehle enthalten • Folgende Möglichkeiten zur Ausführung stehen zur Verfügung: • Ausführen eines einzelnen Befehls Cursor an einer beliebigen Stelle im Syntaxbefehl positionieren Ausführen > Aktuellen Befehl • Ausführen mehrerer aufeinander folgender Befehle Auswahl markieren, von jedem auszuführenden Befehl muss mind. ein Zeichen markiert sein Ausführen > Auswahl • Alle Befehl bis zum Ende der Syntaxdatei ausführen Cursor an einer beliebigen stelle im Syntaxbefehl positionieren Ausführen > Bis Ende • Alle Befehle aus der Syntaxdatei ausführen Cursor an einer beliebigen Stelle innerhalb der Syntaxdatei positionieren Ausführen > Alles 7 Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Datenmodifikation mit dem Syntaxeditor Daten Transformieren • die Größe der Studenten soll von cm in Zoll umgerechnet werden, dabei sind 2,54 cm ein Zoll COMPUTE st8_inch = st8 / 2.54 . VARIABLE LABELS st8_inch 'Größe in Inch umgerechnet' . EXECUTE. Daten Umkodieren • Die fünfstelligen Postleitzahlen sollen in die Postleitzahlengebiete 0 bis 9 eingeteilt werden RECODE st_p (Lowest thru 09999=0) (10000 thru 19999=1) (20000 thru 29999=2) (30000 thru 39999=3) (40000 thru 49999=4) (50000 thru 59999=5) (60000 thru 69999=6) (70000 thru 79999=7) (80000 thru 89999=8) (90000 thru Highest=9) INTO st_p1zahlig . VARIABLE LABELS st_p1zahlig 'Postleitzahlengebiete einzahlig'. EXECUTE . 8 Statistische Auswertungsverfahren mit SPSS Arbeiten mit dem Syntaxeditor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bedingte Berechnungen mit If • Möchte man eine bestimmte Transformation nur für eine bestimmte Auswahl an Fällen durchführen kann man mithilfe von IF (…) Kriterien festlegen Einfache Berechnung einer Variablen IF (st7<=21) st7_kl=1 . EXECUTE . Folge von Anweisungen DO IF (st7>=18 AND st7<21) . COMPUTE st7=1 . ELSE IF (st7>=22 AND st7<25) . COMPUTE st7=2 . ELSE IF (st7>26) . COMPUTE st7=3 . END IF . EXECUTE . 9 Statistische Auswertungsverfahren mit SPSS Übungsblatt 4 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bitte bearbeiten Sie die Aufgaben 1 und 2 des Übungsblattes 4. 10 Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 11 • Arbeiten mit dem Syntaxeditor • Mittelwertvergleiche • Nichtparametrische und parametrische Tests Statistische Auswertungsverfahren mit SPSS Mittelwertvergleiche Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Mittelwertvergleich • Berechnung statistischer Maßzahlen (z.B. Mittelwerte) getrennt für verschiedene Fallgruppen • Geben erste Anhaltspunkte über mögliche Zusammenhänge der betrachteten Fallgruppen • Fallgruppen können durch jede beliebige Merkmalskombination definiert werden • Weichen die Mittelwerte der einzelnen Fallgruppen ab, lässt dies zunächst nur Aussagen über die betrachtete Stichprobe zu, nicht aber über die Grundgesamtheit → Signifikanztest (z.B. T-Test, Varianzanalyse (ANOVA)) Grundvoraussetzungen für den einfachen Mittelwertvergleich: • • Abhängige Variable – metrisch skalierte Daten – Normalverteilung der Variablen in der Grundgesamtheit Unabhängige Variable – 12 Nominal- oder ordinalskaliert (nicht metrisch) Statistische Auswertungsverfahren mit SPSS Mittelwertvergleiche Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Mittelwertvergleich 13 Mittelwertvergleich über die Variablen Geschlecht (unabhängig) und Körpergröße in cm (abhängig) Statistische Auswertungsverfahren mit SPSS Mittelwertvergleiche Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Mittelwertvergleich Mittelwertvergleich über die Variablen Geschlecht (st9) und Körpergröße in cm (st8) Verarbeitete Fälle Größe * Geschlecht Eingeschlossen N Prozent 122 94,6% Fälle Ausgeschlossen N Prozent 7 5,4% N Insgesamt Prozent 129 100,0% Bericht Größe Geschlecht männlich weiblich Insgesamt Mittelwert 180,9615 169,1286 174,1721 N 52 70 122 Vergleicht man die Männer mit den Frauen, kann man erkennen, dass Männer im Durchschnitt größer sind als Frauen. 14 Standardab weichung 6,72415 5,60518 8,45571 Wären die Standardabweichungen um ein Vielfaches größer als die Unterschiede zwischen den beiden Mittelwerten, würde das darauf hindeuten, dass aus den beobachteten Mittelwertunterschieden nicht auf entsprechende Unterschiede in der Grundgesamtheit geschlossen werden kann → Validierung durch den T-Test Statistische Auswertungsverfahren mit SPSS Übungsblatt 4 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bitte bearbeiten Sie die Aufgabe 3 des Übungsblattes 4. 15 Statistische Auswertungsverfahren mit SPSS Überblick Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 16 • Arbeiten mit dem Syntaxeditor • Mittelwertvergleiche • Nichtparametrische und parametrische Tests Statistische Auswertungsverfahren mit SPSS Nichtparametrische und parametrische Tests Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Signifikanztests • • Signifikanztests werden eingesetzt, um bestimmte Hypothesen oder Unterschiede über die Grundgesamtheit anhand einer Stichprobe zu validieren Sie können in parametrische und nicht parametrische Signifikanztests eingeteilt werden Ausgangsfrage: „Sind beobachtete Zusammenhänge oder Unterschiede in der Stichprobe möglicherweise nur durch die Zufälligkeiten der Stichprobenziehung zustande gekommen oder sind andere erklärbare Umstände in der Grundgesamtheit dafür verantwortlich?“ 17 1. Aufstellung der Hypothesen (Nullhypothese/Alternativhypothese) 2. Welche Merkmale sollen untersucht werden? 3. Welche statistische Kennzahl soll/kann dafür verwendet werden? 4. Wie hoch soll das Signifikanzniveau sein? Statistische Auswertungsverfahren mit SPSS Nichtparametrische und parametrische Tests Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Klassifizierung von Signifikanztests Nichtparametrische Tests Anhand der Stichprobe wird der Typ der Zufallsverteilung überprüft, sprich wie Werte in der Grundgesamtheit verteilt sind. Parametrische Tests Anhand der Stichprobe wird geprüft, ob konkrete Werte wie z.B. Varianzen oder Mittelwerte auch so für die Grundgesamtheit angenommen werden können. Unterschiede in den Anforderungen an die beobachteten Variablen • keine Annahmen über die Form der zugrunde liegenden Verteilung • Grundgesamtheit sollte annähern nomalverteilt sein • Variablen können auch nominal skaliert sein • Variablen müssen metrisch skaliert sein Parametrische Tests sind den nichtparametrischen Test generell vorzuziehen, weil diese eine höhere Aussagekraft besitzen. Nichtparametrische Tests können auch mit metrischen Variablen durchgeführt werden, allerdings nimmt man durch die Herabstufung Einbußen in der Aussagekraft in Kauf 18 Statistische Auswertungsverfahren mit SPSS Nichtparametrische und parametrische Tests Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Signifikanztests für eine Stichprobe Test Binomialtest Chi-Quadrat Anpassungstest Kolmogorov-Smirnov-Test T-Test bei einer Stichprobe 19 Skalenniveau Dichotom Nominal Ordinal Metrisch Voraussetzungen Beschreibung Keine Vorgabe • • Nichtparametrischer Test Prüft eine vorgegebene Eintrittswahrscheinlichkeit in der Grundgesamtheit (z.B. Männer und Frauen sind in der Grundgesamtheit zu gleichen Teilen vertreten) Keine Vorgabe • • Nichtparametrischer Test Prüft die Verteilung der Merkmalsausprägungen in der Grundgesamtheit (z.B. Familienstand [ledig, verheiratet, geschieden, verwitwet]) Keine Vorgabe • • Nichtparametrischer Test Prüft, ob die Werte in der Grundgesamtheit einer bestimmten Verteilung folgen (z.B. die Bewertung eines Produktes folgt in der Grundgesamtheit einer Standardnormalverteilung) • • Parametrischer Test Prüft, ob sich der Mittelwert in der Stichprobe von dem Mittelwert in der Grundgesamtheit signifikant unterscheidet (z.B. beträgt das durchschnittliche Alter in der Grundgesamtheit 35 Jahre?) Normalverteilung Statistische Auswertungsverfahren mit SPSS Nichtparametrische und parametrische Tests Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Chi-Quadrat Anpassungstest 20 • Testet, ob die empirisch gemessenen Häufigkeiten in der Stichprobe genauso auch in der Grundgesamtheit erwartet werden können Sind die Antworten über das Rauchverhalten (st6) in der Grundgesamtheit gleichverteilt? Statistische Auswertungsverfahren mit SPSS Nichtparametrische und parametrische Tests Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Chi-Quadrat Anpassungstest Sind die Antworten über das Rauchverhalten (st6) in der Grundgesamtheit gleichverteilt? Raucher Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig Gesamt Beobachtetes N 65 20 Erwartete Anzahl 41,7 41,7 Residuum 23,3 -21,7 40 125 41,7 -1,7 Statistik für Test Chi-Quadrat df a Raucher 24,400 2 Asymptotische Signifikanz ,000 a. Bei 0 Zellen (,0%) werden weniger als 5 Häufigkeiten erwartet. Die kleinste erwartete Zellenhäufigkeit ist 41,7. Mit einer Irrtumswahrscheinlichkeit von 0,0% muss die Nullhypothese (Gleichverteilung) abgelehnt werden. Die Antworten über das Rauchverhalten sind in der Grundgesamtheit nicht gleichverteilt. 21 Statistische Auswertungsverfahren mit SPSS Übungsblatt 4 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bitte bearbeiten Sie die Aufgaben 4 und 5 des Übungsblattes 4. 22 Statistische Auswertungsverfahren mit SPSS Prof. Dr. Andrea Raab Fachhochschule Ingolstadt V5 Statistische Auswertungsverfahren mit SPSS Inhaltliche Übersicht Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 2 • Faktorenanalyse • Clusteranalyse Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Die Faktorenanalyse • Dimensionsreduzierendes oder strukturentdeckendes Verfahren • Reduzierung einer großen Anzahl von Variablen (hohe Komplexität) auf wenige „Faktoren“ anhand deren Korrelationen untereinander • Ziel: • Skalenniveau: metrisch • Vier Schritte: Extraktion von möglichst wenigen Faktoren, die einen möglichst hohen Anteil der Beziehungen der gemessenen Variablen untereinander erklären sollen 1. Berechnung der Korrelationsmatrizen Korrelationsanalyse für jede Variablenkombination 2. Extraktion der Faktoren Bestimmung der Anzahl und Bildung der Faktoren 3. Rotation der Faktorladungen Verbesserung der Interpretationsfähigkeit der Faktoren (Faktorladungen) 4. Erstellung der Faktorwerte Berechnung eines Wertes, der die Ausprägung eines Faktors für einen Probanden ausdrückt. 3 Da jede Variable auch einen spezifischen Anteil enthält, kann immer nur ein Teil der Varianz aufgeklärt werden. Je größer dieser Teil ist, desto besser die Faktorenanalyse. Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Beispiel • PKW Nutzungsgewohnheiten (Wie nutzen Sie ihren aktuellen Pkw? – Pro Zeile eine Angabe) Statistiken N 4 • • • • Gültig Fehlend Ich fahre meistens alleine. 2373 64 Ich fahre meistens mitKindern. 2237 200 Ich befahre meistens mir unbekannte Strecken. 2301 136 2437 Datensätze Kodierung von 1 – 6 (entsprechend der Frage) keine Kodierung der fehlenden Werte Skalenniveau: ordinal / quasi metrisch Ich telefoniere vielim Fahrzeug. 2327 110 Ich fahre mit meinem Pkw regelmäig zum Arbeitsplatz. 2357 80 Ich fahre mit meinem Pkw häufig aufder Autobahn. 2360 77 Ich fahre mehrmals im Jahr mit meinem Fahrzeug insAusland. 2355 82 Ich fahre meistens mit meinem Pkw in den Urlaub. 2357 80 Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Faktorenanalyse 5 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Einstellungen der Faktorenanalyse 6 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 1. Berechnung der Korrelationsmatrizen Korrelationsmatrix cI h fahre meistens alleine. Korrelation Ich tele foniere viel im Fahrzeug. Ich fahre mit meinem Pkw häufig auf der Autobahn. Ich fahre meistens mit meinem Pkw in den Urla ub. 1,000 -,201 ,144 ,237 ,232 ,197 ,069 -,039 cI h fahre meistens mit Kindern. -,201 1,000 ,024 ,033 -,001 -,056 ,073 ,109 ,144 ,024 1,000 ,395 ,009 ,278 ,219 ,070 ,237 ,033 ,395 1,000 ,174 ,415 ,315 ,065 cI h fahre mit meinem Pkw regelmäig zum Arbeitsplatz. ,232 -,001 ,009 ,174 1,000 ,226 ,074 ,011 cI h fahre mit meinem Pkw häufig auf der Autobahn. ,197 -,056 ,278 ,415 ,226 1,000 ,327 ,117 cI h fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. ,069 ,073 ,219 ,315 ,074 ,327 1,000 ,378 cI h fahre meistens mit meinem Pkw in den Urla ub. -,039 ,109 ,070 ,065 ,011 ,117 ,378 1,000 ,000 ,000 ,000 ,000 ,000 ,001 ,035 ,138 ,065 ,488 ,005 ,000 ,000 ,000 ,334 ,000 ,000 ,001 ,000 ,000 ,000 ,001 ,000 ,000 ,312 ,000 ,000 cI h fahre meistens alleine. cI h fahre meistens mit Kindern. ,000 cI h befahre meistens mir unbekannte Strecken. ,000 ,138 cI h tele foniere vielim Fahrzeug. ,000 ,065 ,000 cI h fahre mit meinem Pkw regelmäig zum Arbeitsplatz. ,000 ,488 ,334 ,000 ,000 ,005 ,000 ,000 ,000 ,001 ,000 ,000 ,000 ,000 ,000 ,035 ,000 ,001 ,001 ,312 ,000 cI h fahre mit meinem Pkw häufig auf der Autobahn. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. 7 Ich befahre meistens mir unbekannte Strecken. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. cI h fahre meistens alleine. cI h befahre meistens mir unbekannte Strecken. Ich tele foniere vielim Fahrzeug. Signifikanz (1-seitig) cI h fahre meistens mit Kindern. cI h fahre mit meinem Pkw regelmäig zum Arbeitsplatz. cI h fahre meistens mit meinem Pkw in den Urla ub. ,000 ,000 Statistische Auswertungsverfahren mit SPSS Faktorenanalyse 1. Berechnung der Korrelationsmatrizen Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Können die errechneten Korrelationen auch für die Grundgesamtheit angenommen werden? • Zwei Möglichkeiten: – Signifikanztest für alle Variablen gesammelt (Bartlett Test) – Signifikanztest für jede Variablenkombination einzeln (siehe Korrelationsmatrix) Bartlett Test auf Sphärizität • Deckt die Korrelation aller Variablen mit einer Maßzahl ab • Nullhypothese: Es besteht kein Zusammenhang zwischen den beobachteten Variablen in der Grundgesamtheit KMO- und Bartlett-Test Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. ,674 Bartlett-Test auf Sphärizität Ungefähres Chi-Quadrat df Signifikanz nach Bartlett 2020,697 28 ,000 • Mit einer Irrtumswahrscheinlichkeit von 0,0% liegt die identifizierte Korrelation in der Stichprobe, zumindest bei einem Teil der beobachteten Variablen, auch in der Grundgesamtheit vor. 8 Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 1. Berechnung der Korrelationsmatrizen • Prüfung der Güte des Faktormodells – Anti-Image-Korrelationsmatrix Berechnet für jedes Variablenpaar den Teil der Varianz einer Variablen, der sich nicht durch die jeweils andere Variable erklären lässt (Residuum / Anti-Image) → je niedriger die Werte in der Matrix, desto stärker korrelieren die Variablen miteinander – Kaiser-Mayer-Olkin-Maß (KMO) Drückt die Ergebnisse der Anti-Image-Korrelationsmatrix in einer Maßzahl aus. → je näher der KMO-Wert an dem Wert 1 liegt, desto valider ist das Faktormodell KMO-Test Richtwerte KMO- und Bartlett-Test Wert Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. ,674 Bartlett-Test auf Sphärizität Ungefähres Chi-Quadrat df Signifikanz nach Bartlett 2020,697 28 ,000 Beurteilung 0,9 – 1,0 fabelhaft 0,8 bis unter 0,9 recht gut 0,7 bis unter 0,8 mittelprächtig 0,6 bis unter 0,7 mäßig 0,5 bis unter 0,6 schlecht unter 0,5 • Der KMO-Test schätzt die Güte des Faktormodells für mäßig ein. 9 inakzeptabel Statistische Auswertungsverfahren mit SPSS Anti-Image-Matrizen Faktorenanalyse I h fahre c meistens alleine. Ich befahre meistens mir unbekannte Strecken. I h fahre c meistens mit Kindern. Ich tele foniere viel im Fahrzeug. 1. Berechnung der Korrelationsmatrizen Anti-Image-Kovarianz • I h fahre meistens c alleine. ,854 ,187 I h fahre mit c meinem Pkw regelmäig zum Arbeitsplatz. -,057 -,111 Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausla nd. Ich fahre mit meinem Pkw häufig auf der Autobahn. -,170 -,047 Ich fahre meistens mit meinem Pkw in den Urla ub. Fachhochschule Ingolstadt Prof. Dr. Andrea Raab ,001 ,035 ,187 ,935 -,026 -,047 ,068 -,037 Anti-Image-Korrelationsmatrix und MSA-Werte (Measure of-,055Sampling Adequacy) -,071 I h fahre meistens mit c Kindern. – MSA-Werte I h befahre meistens mir c unbekannte Strecken. -,057 -,026 ,812 -,219 ,087 -,097 -,055 -,005 I h tele foniere vielim c Fahrzeug. -,111 -,055 -,219 ,693 -,065 -,185 -,128 ,043 -,047 ,068 Anti-Image-Matrizen -,097 -,185 -,135 ,739 -,145 -,022 ,001 -,037 -,055 -,128 -,145 Ich fahre -,071 meistens mit Kindern. I h befahre c meistens mir -,005 unbekannte Strecken. Ich tele foniere viel im ,043 Fahrzeug. ,005 I h fahre mit c meinem Pkw regelmäig zum ,004 Arbeitsplatz. I h fahre mit c meinem Pkw -,022 häufig auf der Autobahn. Ich fahre ,735 mehrmals im Jahr mit meinem -,282 Fahrzeug ins Ausla nd. I h fahre c meistens mit ,845 meinem Pkw in den Urla ub. ,187 ,209 -,057 -,068 -,111 -,144 -,170 -,194 -,047 -,059 ,001 ,035 ,042 -,026 -,030 -,055 -,069 -,047 -,051 ,068 ,082 -,037 -,044 -,071 -,080 -,219 -,293 ,087 ,102 -,097 -,126 -,055 -,071 -,005 -,007 -,185 -,258 -,128 -,179 ,043 ,056 ,005 ,007 ,004 ,004 -,022 -,027 Ähnliches Maß wie der KMO-Test mit dem Unterschied, dass für jede Variable ein eigener Testwert in der Ich fahre mit meinem Pkw regel m äig zum -,170 -,047 angezeigt ,087 -,065 Richtwertetabelle ,898 -,135KMO-Test ,005 ,004 Hauptdiagonalen derArbeitspl Anti-Image-Korrelationsmatrix wird → atz. I h fahre mit meinem Pkw c häufig auf der Autobahn. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. Anti-Image-Kovarianz I h fahre meistens mit c meinem Pkw in den Urla ub. Ich h fahre fahre meistens meistens Ic all alle eine. ine. Ich h fahre fahre meistens meistens mit mit Ic Kindern. Kindern. h befahre befahre meistens meistens mir mir IIch c unbekannte Strecken. Strecken. unbekannte Ich fahre ,035 meistens alleine. a ,854 ,659 ,187 ,209 -,057 -,068 a ,935 ,481 -,026 -,030 a ,812 ,716 h tel tele e foniere foniere viel vielim im IIch c Fahrzeug. Fahrzeug. -,111 -,144 -,055 -,069 -,219 -,293 ,693 ,702 -,065 -,082 h fahre fahre mit mit meinem meinem Pkw Pkw IIch c regelm mäig äig zum zum regel Arbeitspla atz. tz. Arbeitspl -,170 -,194 -,047 -,051 ,087 ,102 -,065 -,082 ,898 ,623 -,135 -,166 -,047 -,059 ,068 ,082 -,097 -,126 -,185 -,258 -,135 -,166 ,739 ,744 -,145 -,197 ,001 ,001 -,037 -,044 -,055 -,071 -,128 -,179 ,005 ,007 -,145 -,197 ,735 ,667 -,282 -,358 ,035 ,042 -,071 -,080 -,005 -,007 ,043 ,056 ,004 -,022 -,027 -,282 -,358 ,845 ,561 ,209 -,068 -,144 -,194 -,059 ,001 ,042 -,030 -,069 -,051 ,082 -,044 -,293 ,102 -,126 -,071 -,258 0,9 -,179 – 1,0 fabelhaft ,056 0,8 bis unter 0,9 recht gut h fahre fahre mit mit meinem meinem Pkw Pkw IIch c häufig auf der Autobahn. Ich h fahre fahre mehrmal mehrmals s im im Ic Jahr mit mit meinem meinem Jahr Fahrzeug ins ins Ausl Ausla and. nd. Fahrzeug I h fahre meistens mit c meinem Pkw Pkw in in den den meinem Urla a ub. ub. Url Ich fahre meistens a. Maßder Stichprobeneignung alleine. I h fahre meistens mit c Kindern. a ,659 ,209 a ,481 a I h befahre meistens mir c unbekannte Strecken. -,068 -,030 • Die Residualwerte der Anti-Image-Korrelationsmatrix sind ,716 Ich tele foniere vielim -,144 -,069 -,293 durchweg gering, was für eine hohe Korrelation steht Fahrzeug. c I h fahre mit meinem Pkw → das Ergebnis des KMO-Tests wird bestätigt. regelmäig zum -,194 -,051 ,102 a a a a ,702 -,082 -,082 ,623 -,166 -,258 -,166 ,744 -,179 ,007 -,197 a • Lediglich die Variable „Ich fahre meistens-,059 mit Kindern“ enthält Ich fahre mit meinem Pkw ,082 -,126 häufig auf der Autobahn. einen inakzeptablen MSA-Wert, weshalb ein Ausschluss dieser Ich fahre mehrmals im Jahr mit meinem ,001 -,044 -,071 Variable aus dem Faktormodell überlegt werden sollte. Fahrzeug ins Ausland. I h fahre meistens mit c meinem Pkw in den Urla ub. a. Maßder Stichprobeneignung ,042 -,080 -,007 a a ,007 ,004 -,027 -,007 Beurteilung ,004 0,7 bis unter 0,8 mittelprächtig -,197 0,7 0,6 bis unter -,027 mäßig a 0,6 0,5 bis unter schlecht ,667 unter 0,5 ,056 a MSA Richtwerte -,080 Wert Arbeitsplatz. 10 -,282 -,358 -,358 inakzeptabel a ,561 Statistische Auswertungsverfahren mit SPSS Faktorenanalyse 2. Extraktion der Faktoren Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Verschiedene Modelle zur Faktorextraktion • In der Praxis am häufigsten verwendetes Modell: Hauptkomponentenanalyse • Ziel: Extrahierte Faktoren sollen einen möglichst großen Teil der Gesamtstreuung abdecken (für einen Erklärungsgehalt von 100% müssten genauso viele Faktoren extrahiert werden, wie Variablen in der Faktorenanalyse → jeder Faktor erklärt die die Streuung der zughörigen Variable perfekt) • 11 Tradeoff zwischen Quantität (Wie viele Faktoren?) und Qualität (Erklärungsgehalt?) der Faktoren Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 2. Extraktion der Faktoren • Faktoren mit dem geringsten Erklärungsgehalt werden ausgeschlossen und die mit dem größten Erklärungsgehalt extrahiert Erklärte Gesamtvarianz Komponente 1 2 3 4 5 6 7 8 Gesamt 2,228 1,378 1,010 ,963 Anfängliche Eigenwerte % der Varianz Kumulierte % 27,847 27,847 17,223 45,070 12,624 57,694 12,040 69,734 ,730 ,623 ,553 9,121 7,792 6,907 78,855 86,647 93,554 ,516 6,446 100,000 Summenvon quadrierten Faktorladungen für Extraktion Gesamt % der Varianz Kumulierte % 2,228 27,847 27,847 1,378 17,223 45,070 1,010 12,624 57,694 Rotierte Summe der Gesamt quadriert 1,953 en1,465 Ladunge 1,467 a n Extraktionsmethode: Hauptkomponentenanalyse. a. WennKomponenten korreliertsind,könnendie Summen der quadriertenLadungen nichtaddiert werden,um eine Gesamtvarianzzu erhalten. Faktoren Eigenwert Gibt an, welcher Betrag der Gesamtstreuung aller beobachteten Variablen durch den jeweiligen Faktor erklärt wird 12 Faktor 1 erklärt 27,8% der Gesamtstreuung Extraktionsvorschlag • Nach dem Kaiser Kriterium (alle Faktoren mit einem Eigenwert > 1). • Eigenwert < 1 bedeutet, dass der Faktor einen geringeren Betrag der Gesamtstreuung erklärt als jede einzelne Variable selbst Gesamtstreuung Da die Variablen im Zuge der Faktorenanalyse standardisiert wurden, hat jede Variable nun ein Standardabweichung von 1 und einen Mittelwert von 0 → Gesamtstreuung = Anzahl der Variablen (8) Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 2. Extraktion der Faktoren • • Kommunalitäten zeigen an, in wieweit die Streuung der einzelnen Variablen durch die extrahierten Variablen erklärt wird Das Screeplot stellt die Faktoren und deren Eigenwerte absteigend sortiert in einer Funktion dar Kommunalitäten Ich fahre meistens alleine. Ich fahre meistens mit Kindern. Ich befahre meistens mir unbekannte Strecken. Ich telefoniere viel im Fahrzeug. Ich fahre mit meinem Pkw regelmäig zum Arbeitsplatz. Ich fahre mit meinem Pkw häufig auf der Autobahn. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. Ich fahre meistens mit meinem Pkw in den Urlaub. Anfänglich Extraktion 1,000 ,544 1,000 ,338 1,000 ,690 1,000 ,626 1,000 ,638 1,000 ,524 1,000 ,613 1,000 ,643 Extraktionsmethode: Hauptkomponentenanalyse. Bei Extraktion aller Faktoren wird die Streuung der einzelnen Variablen vollständig erklärt 13 Durch Extraktion der drei Faktoren wird nur noch ein Teil der Streuung der einzelnen Variablen erklärt Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 3. Faktorladungen • Faktorladungen beschreiben die Beziehung der Faktoren zu den beobachteten Variablen und werden bei der Interpretation der Faktoren verwendet • Sie beschreiben den Zusammenhang zwischen der Variable und dem Faktor – je höher die Faktorladung, desto stärker der Zusammenhang zwischen der Variable und dem Faktor • Faktorladungen können Werte von -1 bis +1 annehmen, es werden allerdings nur Werte zur Interpretation herangezogen, die mindestens +/- 0,5 oder sogar +/-0,7 überschreiten • Positive und negative Werte beschreiben die Richtung des Zusammenhangs Komponentenmatrix a Ich telefoniere viel im Fahrzeug. Ich fahre mit meinem Pkw häufig auf der Autobahn. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. Ich fahre meistens mit meinem Pkw in den Urlaub. Ich fahre meistens alleine. Ich fahre meistens mit Kindern. Ich fahre mit meinem Pkw regelmäig zum Arbeitsplatz. Ich befahre meistens mir unbekannte Strecken. 14 Komponente 2 1 3 ,743 ,718 ,632 ,616 -,585 ,581 ,624 ,586 Extraktionsmethode: Hauptkomponentenanalyse. a. 3 Komponenten extrahiert -,588 • Faktoren sind leicht zu interpretieren, wenn einige Variablen, die untereinander eine ähnliche homogene Bedeutung haben, hoch auf ihn laden und gleichzeitig die Ladungen der anderen Variablen auf diesen Faktor gering sind. Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 3. Rotation der Faktorladungen • Ziel: Interpretationsfähigkeit der Faktoren erleichtern • Zwei unterschiedliche Gruppen von Rotationsverfahren – Orthogonale Rotation (rechtwinklig) Unterstellt, dass die extrahierten Faktoren nicht miteinander korreliert sind (z.B. VARIMAX, EQUAMAX) – Oblique Rotation (schiefwinklig) Unterstellt, dass die extrahierten Faktoren miteinander korrelieren (z.B. Oblimin) Rotierte Komponentenmatrix a Ich befahre meistens mir unbekannte Strecken. Ich telefoniere viel im Fahrzeug. Ich fahre mit meinem Pkw häufig auf der Autobahn. Ich fahre meistens mit meinem Pkw in den Urlaub. Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. Ich fahre meistens mit Kindern. Komponente 2 1 ,818 ,756 ,570 ,801 ,667 Ich fahre mit meinem Pkw regelmäig zum Arbeitsplatz. Ich fahre meistens alleine. 15 3 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Equamax mit Kaiser-Normalisierung. a. Die Rotation ist in 5 Iterationen konvergiert. ,779 ,645 Statistische Auswertungsverfahren mit SPSS Faktorenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 3. Rotation der Faktorladungen Auslandsfahrer (fac2_1) Allein fahrender Berufspendler (fac3_1) • [+] Ich befahre meistens mir unbekannte Strecken. • [+] Ich fahre meistens mit meinem PKW in den Urlaub. • [+] Ich telefoniere viel im Fahrzeug. • [+] Ich fahre mehrmals im Jahr mit meinem Fahrzeug ins Ausland. • [+] Ich fahre mit meinem Pkw regelmäßig zum Arbeitsplatz. Berufsfahrer / Außendienst (fac1_1) • [+] Ich fahre mit meinem Pkw häufig auf der Autobahn. 16 • [+] Ich fahre meistens alleine. Statistische Auswertungsverfahren mit SPSS Faktorenanalyse 4. Erstellung der Faktorwerte • Faktorwerte drücken die Ausprägung eines Faktors für einen konkreten Fall aus – hoher positiver Wert = Faktor überdurchschnittlich hoch ausgeprägt – hoher negativer Wert = Faktor unterdurchschnittlich niedrig ausgeprägt • Werden verwendet um die Ergebnisse der Faktoranalyse in weiterführenden Analyen (z.B. Clusteranalyse) zu nutzen • SPSS bietet drei unterschiedliche Methoden, deren Unterscheidung bei Verwendung der Hauptkomponentenmethode nicht relevant ist, weil sie jeweils das gleiche Ergebnis liefern • Zur Interpretation von Faktorwerten werden die Faktorwerte (gedanklich) in Kategorien eingeteilt: • 17 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab – Zwei Kategorien: -9999 bis 0 / 0 bis 9999 – Drei Kategorien: -9999 bis -1 / -1 bis +1 / +1 bis 9999 – Vier Kategorien: -9999 bis -1 / -1 bis 0 / 0 bis +1 / +1 bis 9999 – etc. Interpretationsalternative: Runden der Faktorwerte in der Variablenansicht – 0 → durchschnittlich – <= -1 → unterdurchschnittlich – >= +1 → überdurchschnittlich Statistische Auswertungsverfahren mit SPSS Übungsblatt 5 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bitte bearbeiten Sie die Aufgaben 1 des 5. Übungsblattes. 18 Statistische Auswertungsverfahren mit SPSS Inhaltliche Übersicht Fachhochschule Ingolstadt Prof. Dr. Andrea Raab 19 • Faktorenanalyse • Clusteranalyse Statistische Auswertungsverfahren mit SPSS Clusteranalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Clusteranalyse • Dimensionsreduzierendes oder strukturentdeckendes Verfahren • Objekte werden aufgrund ihrer Ähnlichkeit bezüglich der beobachteten Variablen zu Gruppen (Cluster) zusammengefasst • Ziel: Bildung von Clustern, die in sich sehr homogene Merkmalsausprägungen aufweisen, aber zueinander möglichst heterogen sind • Skalenniveau: abhängig von dem verwendeten Clusterungsverfahren • Vier Schritte: 1. Auswahl der Merkmale Anhand welcher Merkmale soll die Gruppenbildung durchgeführt werden 2. Aufbereitung der Daten Daten müssen den Konventionen des jeweiligen Clusterungsverfahrens entsprechen 3. Durchführung der Clusteranalyse Umsetzung in SPSS 4. Interpretation der Ergebnisse Beschreibung der Cluster und Erstellung von Clusterprofilen 20 Statistische Auswertungsverfahren mit SPSS Clusteranalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Clusteranalyse • • • 21 Hierarchische Clusteranalyse Einzelne Objekte werden schrittweise zu Clustern zusammengefasst. Zunächst wird jedes Objekt als ein eigener Cluster aufgefasst, welche im weitern Verlauf immer stärker komprimiert werden. – Datenmenge: klein und groß – Skalierung: metrische und nicht-metrische Variablen – Vorteil: sehr differenzierte Steuerung möglich – Nachteil: rechenintensives Verfahren Clusterzentrenanalyse (Quick-Cluster) Clusterzuordnung ist bereits vorgegeben und optimale Zuordnung der Objekte soll ermittelt werden. – Datenmenge: groß – – Skalierung: Vorteil: metrische Variablen vertretbarer Rechenaufwand bei großen Datenmengen → schneller – Nachteil: Clusteranzahl muss bekannt sein; Anpassung des Verfahrens nur begrenzt möglich; Transparenz bei der Berechnung fehlt Two-Step-Clusteranalyse Symbiose aus den oben genannten Verfahren; 2-Schritt-Vorgehensweise: grobe Einteilung der Cluster im ersten Schritt und endgültige Clusterzuordnung mit einem hierarchischen Verfahren im zweiten Schritt – Datenmenge: klein und groß – Skalierung: metrisch und nicht metrische Variablen – Vorteil: automatische Berechnung der Clusteranzahl; spezielle Behandlung von Ausreißern – Nachteil: Anpassung des Verfahrens nur begrenzt möglich; Clusterbildung weniger präzise Statistische Auswertungsverfahren mit SPSS Clusteranalyse 1. Auswahl der Merkmale (Two-Step-Clusteranalyse) • Anhand welcher Merkmale/Variablen soll die Gruppenbildung vorgenommen werden? • Abhängig von der Problemstellung und den zur Verfügung stehenden Daten Problemstellung: • Analyse der Nutzung des Sportangebots an der Fachhochschule Ingolstadt → Gibt es Unterschiede im Nutzungsverhalten? Ausgewählte Merkmale: • Nutzung des Sportangebots an der Fachhochschule Ingolstadt (F3) • Geschlecht (ST9) • Alter (ST7) • Anzahl der in Anspruch genommenen Sportangebote *NEU* (Sport) • Eine Variable (Sport), welche die Anzahl der in Anspruch genommenen Sportangebote enthält, muss noch errechnet werden. 22 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Clusteranalyse 2. Aufbereitung der Daten (Two-Step-Clusteranalyse) • Variablen müssen den Konventionen des Clusterungsverfahrens entsprechen • Die Two-Step-Clusteranalyse stellt folgende Anforderungen an die Variablen – Standardisierte Werte Standardisierung mit Z-Transformation wird von SPSS automatisch durchgeführt → Mittelwert = 0; Standardabweichung = 1 – Zufällige Sortierung der Datendatei Sortierung nach einem bestimmten Muster hat Auswirkung auf das Ergebnis der Clusteranalyse, weil die Fälle sequenziell in die Clusterzuordnung einbezogen werden Syntax: SET SEED 1069800 COMPUTE zufall = UNIFORM (1) . SORT CASES BY zufall . DELETE VARIABLES zufall . – Bei der Verwendung des Distanzmaßes Log-Likelihood (metrische und nicht metrische Variablen) • Normalverteilung der stetigen Variablen (Kolmogorov-Smirnov-Test) • Multinomiale Verteilung der kategorialen Variablen (nichtparametrischer Chi-Quadrat Anpassungstest) • Unabhängigkeit der Variablen (Korrelation bzw. Kreuztabellenanalyse) • Die Two-Step-Clusteranalyse reagiert relativ robust gegenüber Verletzungen der Verteilungsanforderungen und der Unabhängigkeitsbedingung 23 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab • Fehlende Werte bewirken, dass der betroffene Fall von der Clusteranalyse ausgeschlossen wird → F3_1 – F3_8 Statistische Auswertungsverfahren mit SPSS Clusteranalyse 3. Durchführung der Clusteranalyse (Two-Step-Clusteranalyse) nur stetige Variablen → euklidische Distanz Distanzmaße stetige und kategoriale Variablen → Log-Likelihood 24 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Clusteranalyse 3. Durchführung der Clusteranalyse (Two-Step-Clusteranalyse) Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Sondert Ausreißer in der ersten Clusterstufe aus Je höher die Anzahl der Knoten desto sorgfältiger wird die Clusterbildung durchgeführt, aber desto rechenaufwändiger wird das Verfahren Gruppiertes Balkendiagramm für jede kategoriale Variable und ein Fehlerbalkendiagramm für jede stetige Variable Kreisdiagramm mit prozentualer Verteilung der Fälle auf die Cluster Maßzahlen für die Cluster Diagramme, welche die Bedeutung der einzelnen Variablen für die Cluster zum Ausdruck bringen. • Kategoriale Variablen: Prüft, ob sich die Häufigkeitsverteilung einer Variable signifikant von der Häufigkeitsverteilung aller Fälle unterscheidet • Stetige Variablen: Prüft, ob sich der Mittelwert der Variable für ein Cluster vom Mittelwert aller Probanden unterscheidet. • Die senkrechte Linie zeigt den kritischen Signifikanzwert 25 Statistische Auswertungsverfahren mit SPSS Clusteranalyse 4. Interpretation der Ergebnisse (Two-Step-Clusteranalyse) Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Clusterverteilung Cluster N 1 2 Kombiniert Ausgeschlossene Fälle Gesamtwert % der Kombination 52,8% 47,2% 100,0% 65 58 123 6 129 % der Gesamts umme 50,4% 45,0% 95,3% 4,7% 100,0% Zentroide Cluster 1 2 Kombiniert Alter Standardab Mittelwert weichung 24,38 2,827 21,00 1,835 22,79 2,940 Anzahl der in Anspruch genommenen Sportangebote Standardab Mittelwert weichung ,4769 ,68711 ,9138 1,41774 ,6829 1,11117 Semester 1 Cluster 26 1 2 Kombiniert 3 5 7 9 Häufigkeit 1 Prozent 3,3% Häufigkeit 0 Prozent ,0% Häufigkeit 27 Prozent 90,0% Häufigkeit 31 Prozent 100,0% Häufigkeit 6 Prozent 85,7% 29 30 96,7% 100,0% 25 25 100,0% 100,0% 3 30 10,0% 100,0% 0 31 ,0% 100,0% 1 7 14,3% 100,0% Statistische Auswertungsverfahren mit SPSS Clusteranalyse 4. Interpretation der Ergebnisse (Two-Step-Clusteranalyse) Mit einer Wahrscheinlichkeit von 95% liegt der Mittelwert der Grundgesamtheit in diesem Intervall 27 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Clusteranalyse 4. Interpretation der Ergebnisse (Two-Step-Clusteranalyse) Alter Geschlecht Semesteranzahl Anzahl der in Anspruch genommenen Sportangebote Cluster 1 Cluster 2 ø 24 Jahre ø 21 Jahre ca. gleichverteilt ca. gleichverteilt überwiegend Hauptstudium (5., 7. und 9. Semester) überwiegend Grundstudium (1. und 3. Semester) ø 0,5 pro Proband ø 0,9 pro Proband Prozent der Probanden im Cluster, die an der jeweiligen Sportart teilnehmen 28 Aerobic 15% 9% Badminton 0% 10% Basketball 0% 12% Fechten 0% 3% Fitness 11% 5% Fußball 2% 17% Lauftreff 3% 5% Volleyball 2% 16% Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Übungsblatt 5 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Bitte bearbeiten Sie die Aufgaben 2 des 5. Übungsblattes. 29 Statistische Auswertungsverfahren mit SPSS Prof. Dr. Andrea Raab Fachhochschule Ingolstadt V6 Statistische Auswertungsverfahren mit SPSS Review Skalenniveaus Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Nennen und erklären Sie die 3 in SPSS einstellbaren Skalenniveaus und nennen Sie jeweils ein Beispiel! 2 Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Skalenniveaus Nennen und erklären Sie die 3 in SPSS einstellbaren Skalenniveaus und nennen Sie jeweils ein Beispiel! • Nominal: Merkmalsausprägungen bilden nur Kategorien und können nicht in eine Rangordnung gebracht werden (z.B. Geschlecht) • Ordinal: Merkmalsausprägungen können in Relation interpretiert werden und stellen eine Rangfolge dar (z.B. Platzierung bei einem Wettkampf) • Metrisch: (Intervall- oder Verhältnisskaliert) Differenzen bzw. Quotienten der Merkmalsausprägungen sind interpretierbar. Mittelwerte können gebildet werden (z.B. Alter) 3 Statistische Auswertungsverfahren mit SPSS Review Datenkodierung, Variablendefinition Kodieren Sie die folgenden Fragen sinnvoll und erstellen Sie Variablendefinitionen: 4 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Review Datenkodierung, Variablendefinition Kodieren Sie die folgenden Fragen sinnvoll und erstellen Sie Variablendefinitionen: 1 0 9 5 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Review Häufigkeitsauswertung Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Erstellen Sie eine Häufigkeitsauswertung über die Frage M3: „Was würdest du zu einem Rauchverbot in der Cafeteria sagen?“ Beachten Sie dabei offensichtliche Eingabefehler und korrigieren Sie diese im Vorfeld mit Hilfe von passenden SPSS Funktionen. Erstellen Sie zusätzlich ein Kreisdiagramm über die Häufigkeitsauswertung mit prozentualen Angaben. 6 Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Häufigkeitsauswertung Erstellen Sie eine Häufigkeitsauswertung über die Frage M3: „Was würdest du zu einem Rauchverbot in der Cafeteria sagen?“ Beachten Sie dabei offensichtliche Eingabefehler und korrigieren Sie diese im Vorfeld mit Hilfe von passenden SPSS Funktionen. Erstellen Sie zusätzlich ein Kreisdiagramm über die Häufigkeitsauswertung mit prozentualen Angaben. Meinung zu Rauchverbot in der Cafeteria Ja, finde ich gut Nein, lehne ich ab Ist mir im Prinzip egal MeinungzuRauchverbot in der Cafeteria Gültig Fehlend Gesamt Ja,finde ich gut Nein,lehne ich ab Istmir im Prinzip egal Gesamt System Häufigkeit 37 Prozent 28,7 39 23 99 30 30,2 17,8 76,7 23,3 129 100,0 Gültige Prozente 37,4 Kumulierte Prozente 37,4 39,4 23,2 100,0 76,8 100,0 23,20% 37,40% 39,40% 7 Statistische Auswertungsverfahren mit SPSS Review Lage- und Streuparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, die Kurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnen Maße. 8 Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Lage- und Streuparameter Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, die Kurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnen Maße. Statistiken Alter N Mittelwert Modus Standardabweichung Varianz Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis Spannweite 9 Gültig Fehlend 123 6 22,79 21 2,940 8,643 ,821 ,218 ,611 ,433 15 Statistische Auswertungsverfahren mit SPSS Review Lage- und Streuparameter Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, die Kurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnen Maße. • Mittelwert Maßzahl zur zentralen Tendenz der Daten; ermittelt die durchschnittliche Merkmalsausprägung In te rp re ta ti on Erg e bn i s • Modalwert Messwert, der in einem Datensatz am häufigsten vorkommt In te rp re ta ti on Erg e bn i s • Varianz/ Standardabw. Ermitteln die (quadrierten) Abweichungen jedes Einzelwertes vom Mittelwert; ihr Ausmaß verringert sich, je näher die Werte um den Mittelwert liegen In te rp re ta ti on Erg e bn i s • Schiefe Maß für die Abweichung einer Zufallsvariablen von einer zum Mittelwert symmetrischen Verteilung Schiefe > 0: rechtsschief (linkssteil); < 0: linksschief (rechtssteil) In te rp re ta ti on Erg e bn i s • Kurtosis Maß für die Abweichung des Verlaufs einer gegebenen Wahrscheinlichkeitsverteilung vom Verlauf einer Normalverteilung Kurtosis > 0: hochgipflig; < 0: flachgipflig In te rp re ta ti on Erg e bn i s • Spannweite Differenz zwischen dem größten und dem kleinsten Wert der Stichprobe In te rp re ta ti on Erg e bn i s 10 Statistische Auswertungsverfahren mit SPSS Review Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Erstellen Sie ein Histogramm und ein Stängel-Blatt-Diagramm über die Variable „Größe.“ Welchen Vorteil haben die beiden Diagramme im Vergleich zur Darstellung in einem normalen Balkendiagramm? 11 Statistische Auswertungsverfahren mit SPSS Review Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Erstellen Sie ein Histogramm und ein Stängel-Blatt-Diagramm über die Variable „Größe.“ Welchen Vorteil haben die beiden Diagramme im Vergleich zur Darstellung in einem normalen Balkendiagramm? Größe Stem-and-Leaf Plot Frequency 1,00 15,00 20,00 29,00 23,00 19,00 10,00 3,00 2,00 Stem & Leaf 15 . 16 . 16 . 17 . 17 . 18 . 18 . 19 . 19 . 8 000000233344444 55555556677888888999 00000000000011222222333333344 55555666666777888889999 0000000112222233444 5556667889 034 56 Stem width: 10 Each leaf: 1 case(s) 12 Statistische Auswertungsverfahren mit SPSS Review Explorative Datenanalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Prüfen Sie die Variable „Körpergröße“ mit Hilfe eines Signifikanztests auf Normalverteilung und interpretieren Sie das Ergebnis. 13 Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Explorative Datenanalyse Prüfen Sie die Variable „Körpergröße“ mit Hilfe eines Signifikanztests auf Normalverteilung und interpretieren Sie das Ergebnis. Tests auf Normalverteilung a Größe Kolmogorov-Smirnov Statistik df Signifikanz ,083 122 ,040 a. Signifikanzkorrektur nachLilliefors 14 Statistik ,981 Shapiro-Wilk df 122 Signifikanz ,083 Statistische Auswertungsverfahren mit SPSS Review Datenmodifikation Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Erstellen Sie eine Häufigkeitsauswertung über die Variable „Größe“, jedoch nur über die weiblichen Teilnehmer der Untersuchung. Berechnen Sie zudem den Mittelwert. 15 Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Datenmodifikation Erstellen Sie eine Häufigkeitsauswertung über die Variable „Größe“, jedoch nur über die weiblichen Teilnehmer der Untersuchung. Berechnen Sie zudem den Mittelwert. Größe Gültig 158,00 160,00 162,00 163,00 164,00 165,00 166,00 167,00 168,00 169,00 170,00 171,00 172,00 173,00 174,00 175,00 176,00 177,00 Fehlend Gesamt 16 178,00 179,00 180,00 182,00 Gesamt System Häufigkeit 1 6 1 2 Prozent 1,4 8,3 1,4 2,8 Gültige Prozente 1,4 8,6 1,4 2,9 5 7 2 2 6 3 11 2 2 5 2 2 4 1 2 1 2 1 6,9 9,7 2,8 2,8 8,3 4,2 15,3 2,8 2,8 6,9 2,8 2,8 5,6 1,4 2,8 1,4 2,8 1,4 7,1 10,0 2,9 2,9 8,6 4,3 15,7 2,9 2,9 7,1 2,9 2,9 5,7 1,4 2,9 1,4 2,9 1,4 70 2 72 97,2 2,8 100,0 100,0 Kumulierte Prozente 1,4 10,0 11,4 14,3 21,4 31,4 34,3 37,1 45,7 50,0 65,7 68,6 71,4 78,6 81,4 84,3 90,0 91,4 94,3 95,7 98,6 100,0 Statistiken Größe N Gültig Fehlend Mittelwert 70 2 169,1286 Statistische Auswertungsverfahren mit SPSS Review Kreuztabelle Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Wie viel Prozent der befragten Studenten, die Nichtraucher sind, befinden das Rauchverbot in der Cafeteria für gut? Gibt es einen signifikanten Zusammenhang zwischen dem Rauchverhalten und der Meinung gegenüber dem Rauchverbot in der Cafeteria? Formulieren Sie die Null- und Alternativhypothese und legen Sie ein geeignetes Signifikanzniveau fest. Mit welcher Irrtumswahrscheinlichkeit kann von einem Zusammenhang gesprochen werden? 17 Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Kreuztabelle Wie viel Prozent der befragten Studenten, die Nichtraucher sind, beurteilen das Rauchverbot in der Cafeteria für gut? Gibt es einen signifikanten Zusammenhang zwischen dem Rauchverhalten und der Meinung gegenüber dem Rauchverbot in der Cafeteria? Formulieren Sie die Null- und Alternativhypothese und legen Sie ein geeignetes Signifikanzniveau fest. Mit welcher Irrtumswahrscheinlichkeit kann von einem Zusammenhang gesprochen werden? Chi-Quadrat-Tests MeinungzuRauchverbot inder Cafeteria * Raucher Kreuztabelle Meinung zu Rauchverbot in der Cafeteria Ja,finde ich gut Nein,lehne ich ab Istmir im Prinzip egal Gesamt 18 Anzahl %von Meinung zuRauchverbot in der Cafeteria %von Raucher Anzahl %von Meinung zuRauchverbot in der Cafeteria %von Raucher Anzahl %von Meinung zuRauchverbot in der Cafeteria %von Raucher Anzahl %von Meinung zuRauchverbot in der Cafeteria %von Raucher Nein,ich rauche nicht 30 Raucher Ja,hinund wieder Ja, regelmäßig 5 1 Gesamt 36 83,3% 13,9% 2,8% 100,0% 69,8% 3 29,4% 8 2,8% 28 37,5% 39 7,7% 20,5% 71,8% 100,0% 7,0% 10 47,1% 4 77,8% 7 40,6% 21 47,6% 19,0% 33,3% 100,0% 23,3% 43 23,5% 17 19,4% 36 21,9% 96 44,8% 17,7% 37,5% 100,0% 100,0% 100,0% 100,0% 100,0% Chi-Quadrat nach Pearson Likelihood-Quotient Zusammenhang linear-mit-linear Anzahl der gültigen Fälle Wert a Asymptotisch e Signifikanz (2-seitig) df 48,355 4 ,000 57,925 4 ,000 13,737 1 ,000 96 a. 1 Zellen (11,1%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 3,72. Statistische Auswertungsverfahren mit SPSS Review Zusammenhangsmaße Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Nennen Sie je ein Zusammenhangsmaß für jedes Skalenniveau (nominal, ordinal, metrisch). Berechnen Sie ein passendes Zusammenhangsmaß für die Variablen „Geschlecht“ und „Meinung zum Rauchverbot in der Cafeteria“ und interpretieren Sie das Ergebnis. 19 Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Zusammenhangsmaße Nennen Sie je ein Zusammenhangsmaß für jedes Skalenniveau (nominal, ordinal, metrisch). – Nominal: Cramers V – Ordinal: Kendalls Tau-b – Metrisch: Pearsons Korrelationskoeffizient Berechnen Sie ein passendes Zusammenhangsmaß für die Variablen „Geschlecht“ und „Meinung zum Rauchverbot in der Cafeteria“ und interpretieren Sie das Ergebnis. Symmetrische Maße Nominal- bzgl. Nominalmaß Phi Cramer-V Anzahl der gültigen Fälle Wert ,117 ,117 125 a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. 20 Näherung sweise Signifikanz ,428 ,428 Statistische Auswertungsverfahren mit SPSS Review Zusammenhangsmaße Erstellen Sie per Hand ein Streudiagramm, das eine perfekte positive Korrelation darstellt. 21 Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Statistische Auswertungsverfahren mit SPSS Review Syntax Editor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Der Präsident der Fachhochschule möchte eine separate Auswertung des Fragebogens über die Studenten im Hauptstudium (ab 5. Semester) veranlassen. Um die Studenten herauszufiltern, die bereits im Hauptstudium sind, soll eine Filtervariable erstellt werden, die für alle Studenten im Hauptstudium eine 1 beinhaltet und alle Studenten im Grundstudium (einschließlich 4. Semester) eine 2. Die fehlenden Werte sollen mit einer 9 gekennzeichnet werden. Führen Sie die Transformationen in SPSS durch und notieren Sie die SPSS Syntax. Markieren Sie das/die Befehlsschlüsselwort/-wörter. 22 Statistische Auswertungsverfahren mit SPSS Review Syntax Editor Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Der Präsident der Fachhochschule möchte eine separate Auswertung des Fragebogens über die Studenten im Hauptstudium (ab 5. Semester) veranlassen. Um die Studenten herauszufiltern, die bereits im Hauptstudium sind, soll eine Filtervariable erstellt werden, die für alle Studenten im Hauptstudium eine 1 beinhaltet und alle Studenten im Grundstudium (einschließlich 4. Semester) eine 2. Die fehlenden Werte sollen mit einer 9 gekennzeichnet werden. Führen Sie die Transformationen in SPSS durch und notieren Sie die SPSS Syntax. Markieren Sie das/die Befehlsschlüsselwort/-wörter. RECODE st2 (MISSING=9) (Lowest thru 4=2) (5 thru Highest=1) INTO Filter . VARIABLE LABELS Filter 'Filtervariable'. EXECUTE . 23 Statistische Auswertungsverfahren mit SPSS Review Mittelwertvergleich Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Untersuchen Sie über die SPSS Funktion Mittelwertvergleich, ob sich die Körpergröße von Männern und Frauen unterscheidet. Was wäre der passende Signifikanztest um zu prüfen, ob der untersuchte Zusammenhang signifikant ist? 24 Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Mittelwertvergleich Untersuchen Sie über die SPSS Funktion Mittelwertvergleich, ob sich die Körpergröße von Männern und Frauen unterscheidet. Was wäre der passende Signifikanztest um zu prüfen, ob der untersuchte Zusammenhang signifikant ist? Bericht Größe Geschlecht männlich weiblich Insgesamt Mittelwert 180,9615 N 169,1286 174,1721 52 Standardab weichung 6,72415 70 122 5,60518 8,45571 Test bei unabhängigenStichproben Levene-Testder Varianzgleichheit Größe 25 Varianzen sind gleich Varianzen sind nicht gleich F 1,170 Signifikanz ,281 T-Test für die Mittelwertgleichheit T 10,586 df 120 Sig. (2-seitig) ,000 Mittlere Differenz 11,83297 10,306 97,950 ,000 11,83297 Standardfehle r der Differenz 1,11783 1,14819 95% Konfidenzintervall der Differenz Untere Obere 9,61974 14,04619 9,55441 14,11152 Statistische Auswertungsverfahren mit SPSS Review Parametrische und nicht-parametrische Tests Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Nennen Sie einen nicht-parametrischen und einen parametrischen Test und definieren Sie, für welches Skalenniveau der Test eingesetzt werden kann, welche Voraussetzungen dafür nötig sind und was der Test untersucht. 26 Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Parametrische und nicht-parametrische Tests Nennen Sie einen nicht-parametrischen und einen parametrischen Test und definieren Sie, für welches Skalenniveau der Test eingesetzt werden kann, welche Voraussetzungen dafür nötig sind und was der Test untersucht. Test Binomialtest Chi-Quadrat Anpassungstest Kolmogorov-Smirnov-Test T-Test bei einer Stichprobe 27 Skalenniveau Dichotom Nominal Ordinal Metrisch Voraussetzungen Beschreibung Keine Vorgabe • • Nichtparametrischer Test Prüft eine vorgegebene Eintrittswahrscheinlichkeit in der Grundgesamtheit (z.B. Männer und Frauen sind in der Grundgesamtheit zu gleichen Teilen vertreten) Keine Vorgabe • • Nichtparametrischer Test Prüft die Verteilung der Merkmalsausprägungen in der Grundgesamtheit (z.B. Familienstand [ledig, verheiratet, geschieden, verwitwet]) Keine Vorgabe • • Nichtparametrischer Test Prüft, ob die Werte in der Grundgesamtheit einer bestimmten Verteilung folgen (z.B. die Bewertung eines Produktes folgt in der Grundgesamtheit einer Standardnormalverteilung) • • Parametrischer Test Prüft, ob sich der Mittelwert in der Stichprobe von dem Mittelwert in der Grundgesamtheit signifikant unterscheidet (z.B. beträgt das durchschnittliche Alter in der Grundgesamtheit 35 Jahre?) Normalverteilung Statistische Auswertungsverfahren mit SPSS Review Parametrische und nicht-parametrische Tests Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Mit welchem Test können nominale Variablen auf eine Gleichverteilung hin überprüft werden? Führen Sie diesen Test über die Variable „Rauchverhalten“ durch und interpretieren Sie das Ergebnis. 28 Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Parametrische und nicht-parametrische Tests Mit welchem Test können nominale Variablen auf eine Gleichverteilung hin überprüft werden? • Chi-Quadrat-Verteilungstest Führen Sie diesen Test über die Variable „Rauchverhalten“ durch und interpretieren Sie das Ergebnis. Statistik für Test Raucher Nein, ich rauche nicht Ja, hin und wieder Ja, regelmäßig Gesamt 29 Beobachtetes N 65 20 40 125 Erwartete Anzahl 41,7 41,7 41,7 Residuum 23,3 -21,7 -1,7 Chi-Quadrat df a Asymptotische Signifikanz Raucher 24,400 2 ,000 a. Bei 0 Zellen (,0%) werden weniger als 5 Häufigkeiten erwartet. Die kleinste erwartete Zellenhäufigkeit ist 41,7. Statistische Auswertungsverfahren mit SPSS Review Faktoren- und Clusteranalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Beschreiben Sie in kurzen Zügen den Ablauf einer Faktorenanalyse und erklären Sie den Zusammenhang zwischen Faktorladungen, Faktorwerten und Faktoren. 30 Statistische Auswertungsverfahren mit SPSS Review Faktoren- und Clusteranalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Beschreiben Sie in kurzen Zügen den Ablauf einer Faktorenanalyse und erklären Sie den Zusammenhang zwischen Faktorladungen, Faktorwerten und Faktoren. 1. Berechnung der Korrelationsmatrizen Korrelationsanalyse für jede Variablenkombination 2. Extraktion der Faktoren Bestimmung der Anzahl und Bildung der Faktoren 3. Rotation der Faktorladungen Verbesserung der Interpretationsfähigkeit der Faktoren (Faktorladungen) 4. Erstellung der Faktorwerte Berechnung eines Wertes, der die Ausprägung eines Faktors für einen Probanden ausdrückt. 31 Statistische Auswertungsverfahren mit SPSS Review Faktoren- und Clusteranalyse Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Welche Faktoren werden bei der Faktorenanalyse nach dem Kaiser-Kriterium extrahiert? Wie viele Faktoren würden nach diesem Kriterium in der folgenden Auswertung extrahiert werden? 32 Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Faktoren- und Clusteranalyse Welche Faktoren werden bei der Faktorenanalyse nach dem Kaiser-Kriterium extrahiert? Wie viele Faktoren würden nach diesem Kriterium in der folgenden Auswertung extrahiert werden? Erklärte Gesamtvarianz Komponente 1 2 3 4 5 6 7 8 Gesamt 2,228 1,378 1,010 ,963 ,730 ,623 ,553 ,516 Anfängliche Eigenwerte % der Varianz Kumulierte % 27,847 27,847 17,223 45,070 12,624 57,694 12,040 69,734 9,121 78,855 7,792 86,647 6,907 93,554 6,446 100,000 Summenvon quadrierten Faktorladungen für Extraktion Gesamt % der Varianz Kumulierte % 2,228 27,847 27,847 1,378 17,223 45,070 1,010 12,624 57,694 Extraktionsmethode: Hauptkomponentenanalyse. a. WennKomponenten korreliertsind,könnendie Summen der quadriertenLadungen nichtaddiert werden,um eine Gesamtvarianzzu erhalten. 33 Rotierte Summe der Gesamt quadriert 1,953 en1,465 Ladunge 1,467 a n Statistische Auswertungsverfahren mit SPSS Review Fachhochschule Ingolstadt Prof. Dr. Andrea Raab Skript: V1 • • • • Statistische Methoden / Begrifflichkeiten Skalenniveaus Datenkodierung Variablendefinition in SPSS Skript: V2 • • • • • • Häufigkeitsauswertungen Erstellung von Diagrammen (Kreisdiagramm, Säulendiagramm) Lageparameter (Median, Modus, Mittelwert, Schiefe, Kurtosis) Streuparameter (Varianz, Standardabweichung, Spannweite, Standardfehler) Explorative Datenanalyse (Stem-and-Leaf, Histogramm, Boxplot, Test auf Normalverteilung) Datenmodifikation (umkodieren, automatisch umkodieren, berechnen, filtern) Skript: V3 • • • Kodierung von Mehrfachantworten (2 Methoden) Kreuztabellen (Chi-Quadrat-Unabhängigkeitstest) Zusammenhangs- bzw. Korrelationsmaße (Streudiagramm) Skript: V4 • • • Syntax Editor Mittelwertvergleiche Unterscheidung parametrische und nicht-parametrische Tests (Chi-Quadrat-Anpassungstest) Skript: V5 • • 34 Grundkenntnisse Faktorenanalyse Grundkenntnisse Clusteranalyse