Matthias Gabriel Kurze Einführung in SPSS 11.5 2001 überarbeitet Oktober 2003 1 Matthias Gabriel Inhaltsverzeichnis 1 Datenaufbereitung 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11 1.12 4 Die SPSS-Matrix Variablen definieren Variablen verschieben, einfügen Fälle (Personen) einfügen Fälle, Variablen löschen Daten sortieren (sort) Dateien aufteilen (split) Fälle auswählen bzw. filtern (select) Variablen kategorisieren Zählen... Variablen umkodieren (recode) Der Befehl „Berechnen“ (compute) 2 Deskriptive Statistik 4 5 5 5 5 5 6 6 6 7 7 9 10 2.1 Tabellen 2.1.1 einfache Tabellen 2.1.2 Häufigkeitstabellen 2.1.3 allgemeine Tabellen 10 10 10 11 2.2 statistische Kennwerte (deskriptive Statistiken) 2.2.1 Mittelwert, Varianz, Median, Standardabweichung...+ Diagramme 13 13 2.3 14 Diagramme 3 Zusammenhangsmaße – Zusammenhangshypothesen 3.1 Arten von Korrelationen 3.2 Beispiele 16 16 17 4 Die einfache/multiple lineare Regression 4.1 Zweck der Regression: 4.2 Stichworte: 4.3 Theoretisches Beispiel 4.4 Praktisches Beispiel 21 21 21 23 23 5 Unterschiedshypothesen 27 5.1 Vergleich zweier Mittelwerte bzw. zentraler Tendenzen 5.1.1 t-Test (unabhängige Stichproben) 5.1.2 t-Test (abhängige Stichproben) 5.1.3 u-Test (2 unabhängige Stichproben, parameterfrei) 5.1.4 Wilcoxon-Vorzeichen-Rang-Test (2 abhängige Stichproben, parameterfrei) 27 28 30 33 34 5.2 Vergleich von mehr als zwei Mittelwerten bzw. zentraler Tendenzen 5.2.1 einfache Varianzanalyse (unabhängige Stichproben) 5.2.2 einfache Varianzanalyse (abhängige Stichproben) 35 36 43 2 Matthias Gabriel 6 7 5.2.3 mehrfache Varianzanalyse (unabhängige Stichproben) 5.1.3 Kruskal-Wallis-Test (mehr als 2 unabhängige Stichproben, parameterfrei) 5.1.4 Friedman-Test (mehr als 2 abhängige Stichproben, parameterfrei) 49 56 59 Die Reliabilitätsanalyse 62 6.1 Objektivität 62 6.2 Validität (Gültigkeit) 62 6.3 Reliabilität 6.3.1 Paralleltest-Reliabilität 6.3.2 Retest-Reliabilität (=Stabilität) 6.3.3 Innere Konsistenz 62 62 63 63 Die Faktorenanalyse 7.1 Grundidee 7.2 Stichworte 7.3 Bestimmung der Faktorenanzahl bzw. Abbruchkriterium 7.4 Voraussetzungen der FA 7.5 Probleme der FA 7.6 Berechnung der FA mittels SPSS 68 68 68 69 69 70 70 3 Matthias Gabriel Legende: Im folgenden Text entsprechen die Wörter zwischen Anführungszeichen den Befehlen bzw. Menüoptionen im SPSS z.B: „Berechnen“, „Zählen“, „Umkodieren“... 1 Datenaufbereitung 1.1 Die SPSS-Matrix Der SPSS Editor ist in eine Datenansicht und eine Variablenansicht geteilt (links unten am Bildschirm). Zwischen den beiden Ansichten kann beliebig gewechselt werden. 1) Die Datenansicht zeigt die vom Benutzer eingegeben Daten an, wobei die Personen (Fälle) senkrecht angereiht sind und die Variablen waagrecht. Jede Person i hat also eine ganze Zeile Zi in der ihre Ausprägungen in allen Variablen k sichtbar werden. Jede Variable j hat eine Spalte Sj in der die Ausprägungen aller Personen n in dieser Variable sichtbar werden. 2) Die Variablenansicht gibt Auskunft über die Definitionen und Merkmale der einzelnen Variablen Vj, wobei in dieser Ansicht die Variablen senkrecht aufgereiht sind (jede Zeile = eine Variable) und jedes Merkmal, jede Einstellung dieser Variable eine Spalte darstellt. Folgende Einstellungen (jede Spalte ist eine Einstellung) werden angeboten: a) Name: hier wird der Variablenname eingegeben (max. 8 Zeichen, der Name muss mit einem Buchstaben beginnen), der in der Datenansicht dann über der Spalte erscheint und somit die „Überschrift“ der Variable darstellt. b) Typ: Numerisch (für Zahlen), Währung (für Geld), Datum, String (für Zeichen, Buchstabenketten, alphanumerische Kombination)... c) Spaltenformat (benutzerdefiniert je nach Variable) d) Dezimalstellen e) Variablenlabel: Der hier eingeschriebene Name der Variable wird beim Output automatisch verwendet; z.B. bei Tabellen, Diagrammen, Tests...(der Name aus Punkt a) wird also nicht(!) beim Output verwendet) f) Wertelabels: Hier kann man Werte einer Variablen definieren (meist bei nominalskalierten bzw qualitiativen Variablen). z.B: Wert „0“ für „männlich“, Wert „1“ für „weiblich“ (bei Geschlecht), oder „16-20“ für „jung“ und „21-25“ für „mittel“... (bei Altersklassen). Erscheint ebenfalls im Output (wie das Variablenlabel). g) Fehlende Wert: Definition des „missing-Wertes“: Falls Personen in verschiedenen Zellen, Variablen keine Werte haben, wird diese Zelle nicht einfach ausgelassen! Der missing-Wert wird eingegeben. (z.B: „-1“ oder „99“ , damit er nicht mit anderen Werten leicht vertauscht werden kann). Diese Eingabe ist ebenfalls wichtig für die Auswertung. h) Spalten: für Spaltenbreite (benutzerdefiniert je nach Variable) i) Ausrichtung: wo die Werte in der Zelle angeordnet sein sollen (rechts, links...) j) Messniveau: Nominal (z.B: Geschlecht, Bildung, Hobby...) Ordinal (= Rangskala z.B: Noten, Dienstgrad...) Metrisch (= Verhältnisskala z.B: Größe, Gewicht, Längen und u.a. auch Rohwerte...) 4 Matthias Gabriel 1.2 Variablen definieren Definition: Die oben genannten Einstellungen (a bis j) für eine Variable modifizieren. Dies geschieht in der Regel gleich zu Beginn der Dateneingabe. Beispiel: Variable „Geschlecht“ defineren a) Name: „Gender“ b) Typ: „numerisch“ c) Spaltenformat: 8 d) Dezimalstellen: 0 e) Variablenlabel: Geschlecht f) Wertelabels: Wert „0“ hat Wertelabel „männlich“ und Wert „1“ hat Wertelabel „weiblich“ („hinzufügen“ nicht vergessen!) g) fehlende Wert „-1“ h) Spalten: 8 i) Ausrichtung: rechts j) Messniveau: „nominal“ 1.3 Variablen verschieben, einfügen Verschieben: Variable markieren (beim Variablennamen), mit linker Maustaste nochmals anklicken, Taste halten und dann weiterschieben. Erst wenn richtige Stelle erreicht ist, Mausknopf loslassen. (eine andere Möglichkeit besteht mit kopieren und einfügen) Einfügen: In der Datenansicht Variable rechts neben der neu einzufügenden Variable markieren (beim Variablennamen), dann rechter Mausklick und „Variable einfügen“. 1.4 Fälle (Personen) einfügen In der Datenansicht die Zeile unter der neu einzufügenden Zeile markieren (bei Fallnummer), dann rechter Mausklick und „Fälle einfügen“. 1.5 Fälle, Variablen löschen Zeile bzw. Spalte markieren (wie unter 1.3 bzw. 1.4) und „entfernen“ drücken. 1.6 Daten sortieren (sort) Definition: Sortiert alle Fälle nach einer bestimmten Variable auf- oder absteigend. Beispiel: Alle Personen nach Alter aufsteigend sortieren (also vom Jüngsten zum Ältesten) „Daten“ → „Fälle sortieren“ → In „sortieren nach“ die gewünschte Variable eingeben nach der sortiert werden soll (hier Alter) → „aufsteigend“ → „ok“ 5 Matthias Gabriel 1.7 Dateien aufteilen (split) Definition: Um den Datensatz (imaginär) in Untergruppen zu teilen, z.B: Frauen und Männer trennen, nach Altersklassen aufteilen... Anwendung: z.B. bei der Normalverteilungsprüfung, bei Diagrammen, Tabellen und anderen deskriptiven Auswertungen Beispiel: Die Daten bezüglich Geschlecht aufteilen „Daten“ → „Datei aufteilen“ → „Ausgabe nach Gruppen aufteilen“ anklicken und die gewünschte split-Variable eingeben (hier Geschlecht) → „ok“ Die Daten werden jetzt für alle Berechnungen immer als gesplittet angesehen, dementsprechend gibt es auch im Output immer getrennte Ergebnisse. Nicht vergessen die Aufteilung wieder aufzuheben, falls sie nicht mehr gebraucht wird. 1.8 Fälle auswählen bzw. filtern (select) Definition: Um nur bestimmte Fälle in die Berechnungen einzubeziehen 1) Fälle nach bestimmten Kriterien auswählen Beispiel: Es werden nur jene Fälle für die Auswertung benötigt, die älter als 35 Jahre sind. „Daten“ → „Fälle auswählen“ → „Falls Bedingung zutrifft“ anklicken → „Falls“ → Bedingungsvariable hinzufügen (hier Alter) und Bedingung festlegen (hier „>35“ dazuschreiben) →“weiter“ → „ok“ 2) Zufallsstichprobe Definition: um aus den Daten eine repräsentative Stichprobe auszuwählen (meist nur für große Datensätze) „Daten“ → „Fälle auswählen“ → „Zufallsstichprobe“ anklicken 3) Aufgrund einer Filtervariablen filtern Beispiel: Daten nach Geschlecht filtern „Daten“ → „Fälle auswählen“ → „Filtervariable verwenden“ anklicken → gewünschte Filtervariable hinzufügen (hier Geschlecht) → „nicht ausgewählte Fälle“: „löschen“ oder (besser) „filtern“ auswählen Die Daten werden jetzt für alle Berechnungen immer als gefiltert angesehen, daher nicht vergessen die Filterung wieder aufzuheben, falls sie nicht mehr gebraucht wird. 1.9 Variablen kategorisieren Definition: Kategorisiert eine gewünschte Variable in k (selbst wählbare) Klassen. Die Wahl der Klassengrößen erfolgt automatisch! 6 Matthias Gabriel Anmerkung: Falls die Klassengrößen selbst definiert werden wollen (besser): siehe unter 1.11 Variablen umkodieren Beispiel: Das Alter soll in 4 Klassen eingeteilt werden „Transformieren“ → „Variablen kategorisieren“ → In „Kategorien erstellen für“ gewünschte Variable hinzufügen (hier Alter) → die „Anzahl der Kategorien“ festlegen (hier 4) → „ok“ Ergebnis: Eine neue Variable (hier nalter) mit 4 Kategorien wird erzeugt. 1.10 Zählen... Definition: Zählt zeilenweise bestimmte Werte nach benutzerdefiniert aufgestellten Formeln. Das Ergebnis wird in einer neuen Variablen angegeben. Dieser Befehl kann sehr hilfreich sein, etwa bei der Frage: „Wie oft hat eine Person bei bestimmten Items/Variablen bestimmte Werte gewählt?“ oder „Wie oft hat eine Person bei den 20 Items die Antwortmöglichkeit A gewählt?“ Anwendungsbeispiele: • Darstellung des Antwortverhaltens der einzelnen Personen • Häufigkeiten von Werten in Zeilen (also pro Person) zählen Beispiel: Ein Persönlichkeitsfragebogen mit 10 Fragen, 5 kategorielles Antwortmuster. Wie oft hat eine Versuchsperson Antwort 1, 2, 3, 4, bzw. 5 angekreuzt? „Transformieren“ → „Zählen...“ → In „Zielvariable“ den Namen der neuen Variable eingeben (z.B: „Antw_1“ für Antwortmöglichkeit 1) → In „Label“ den Variablennamen eingeben (zB: „Häufigkeit Antwort 1“) (siehe auch 1.1) → In „Variablen“ jene Variablen eingeben, die für den Zählvorgang berücksichtigt werden sollen (hier: Item1 bis Item 10) → „Werte definieren“ → unter „Wert“ den gewünschten zu zählenden Wert eingeben (hier: „1“) → „hinzufügen“ → „weiter“ → „ok“ Ergebnis: Eine neue Variable (hier: „Antw_1“) wird erzeugt in der die Häufigkeiten der Antwortalternative „1“ in den 10 Items für jede Person dargestellt wird. → analog erfolgt die Darstellung der anderen 4 Antwortmöglichkeiten in 4 neuen Variablen. Im Alert-Fenster „Werte definieren“ besteht auch die Möglichkeit nicht nur konkrete einzelne Werte, sondern auch Wertbereiche und missing Werte, die zu zählen sind, anzugeben. 1.11 Variablen umkodieren (recode) Ein sehr wichtiger Befehl. Anwendungsbeispiele: • Das Alter in einer neuen Variable in Altersklassen einteilen, • Die Kodierung einzelner Items umdrehen (bei Rating- Likertskalen), also z.B: die Werte 1,2,3,4,5 in 5,4,3,2,1 umdrehen. 7 Matthias Gabriel • Bestehende Kodierungen umändern: zB: 4 Schulformkategorien (AHS, HTL, HBLA, HAK) in 2 umkodieren (AHS und „Andere“), sodass unter „Andere“ HTL, HBLA und HAK enthalten sind. Die Umkodierung wird in derselben Variablen durchgeführt, oder (besser) es wird eine neue Variable mit der neuen Kodierung erzeugt. Beispiel 1: Das Alter (stetige Variable) in die Altersklassen (qualitativ dreikategorielle Variable) „15-30“, „31-39“ und „40+“ umkodieren. Dafür soll eine neue Variable erzeugt werden. „Transformieren“ → „Umkodieren“ → „in andere Variablen“ → gewünschte umzukodierende Variable hinzufügen (hier Alter) → in „Ausgabevariable“ „Name“ den Namen der neuen Variablen eingeben (z.B: alter2) und „ändern“(!) drücken → „Label“ einschreiben (z.B: „Alter dreikategoriell“) (siehe auch 1.1) → „alte und neue Werte“ → „alter Wert“ „Bereich“ anklicken (weil ein Altersbereich angegeben werden muss) → die ersten Klassengrenzen eingeben (hier: 15 und 30) → unter „neuer Wert“ neuen „Wert“ angeben (hier: „1“ für 1.Altersklasse) → „hinzufügen“ → analog den zweiten Bereich (31 bis 39) eingeben und 2 für 2. Altersklasse als neuen Wert → für die letzte (offene!!) Klasse (40+) „Bereich“ „kleinster Wert bis“ anklicken und „40“ eingeben → als „neuen Wert“ „3“ (für 3. Klasse) „hinzufügen“ → „weiter“ → „ok“ Ergebnis: am Ende der Datenmatrix in der Datenansicht wird nun die neue Variable („alter2“) hinzugefügt, welche die Variable Alter in 3 Klassen einteilt. („1“ für 15-13, „2“ für 31-39 und „3“ für 40 und älter) Die neue Variable muss noch definiert werden (siehe 1.1) Beispiel 2: Die Werte des 5 kategoriellen Items 1 sollen umkodiert werden, in einer anderen Variable; also 5 zu 1, 4 zu 2, 3 zu 3, 2 zu 4 und 1 zu 5. „Transformieren“ → „Umkodieren“ → „in andere Variablen“ → gewünschte umzukodierende Variable hinzufügen (hier Item1) → in „Ausgabevariable“ „Name“ den Namen der neuen Variablen eingeben (z.B: Item1_a) und „ändern“(!) drücken → „Label“ einschreiben (z.B: „Item1 umkodiert“) → „alte und neue Werte“ → „alter Wert“ „1“ eingeben → „neuer Wert“ „5“ eingeben → “hinzufügen“ → analog für die anderen 4 Werte (2 zu 4; 3 zu 3; 4 zu 2 und 5 zu 1) → „weiter“ → ok“ Ergebnis: am Ende der Datenmatrix wird nun die neue Variable („Item1_a“) mit den umkodierten Werten hinzugefügt. Die neue Variable muss noch definiert werden (siehe 1.1) Automatisch umkodieren Das obige Beispiel 2 kann auch einfacher gelöst werden mit „automatisch umkodieren“ Fortsetzung Beispiel 2: „Transformieren“ → „automatisch umkodieren“ → gewünschte umzukodierende Variable hinzufügen (hier Item1) → in „Neuer Name“ den Namen der neuen Variablen eingeben (z.B: „Item1_a“) und „Neuer Name“(!) drücken → „Umkodieren beginnen bei „größtem Wert“ wählen → „ok“ Ergebnis: Am Ende der Datenmatrix wird nun die neue Variable („Item1_a“) hinzugefügt Die neue Variable muss noch definiert werden (siehe 1.1) 8 Matthias Gabriel 1.12 Der Befehl „Berechnen“ (compute) Der „Berechnen“-Befehl ist ebenfalls eine sehr hilfreiche Anwendung. Definition: (zumeist zeilenweise) Berechnung von bestimmten statistischen Kennwerten, Formeln, deren Ergebnis in einer neuen Variable aufscheint. Anwendungsbeispiele: • Welchen Rohscore haben die Personen in den k Items (Variablen) (also eine zeilenweise Summierung der Werte der k Items für jede Person, in einer neuen Variablen ausgegeben) • Welchen Mittelwert, welche Varianz, Standardabweichung... hat jeder Fall in den k Variablen • Viele weitere Berechnungen (z.B: Body-Maß-Index, relative Lösungshäufigkeiten, Summen, Wurzel, Potenzen, Logarithmen, Median, Modalwert...) Beispiel 1: Welche relative Lösungshäufigkeit weist jede Peson in den 10 Items auf? „Transformieren“ → „Berechnen“ → In „Zielvariable“ gewünschten Namen der neuen Variable einschreiben (z.B. relHfgkt) → im Feld „numerischer Ausdruck“ werden alle gewünschten Berechnungen eingetragen. Dafür muss man einfach die benötigten Variablen aus der Variablenliste einfügen und mit den erwünschten Rechenoperatoren verknüpfen. Dieses Beispiel verlangt die Anzahl der gelösten Items (Variable „rohscore“) dividiert durch die Anzahl aller n Items für jede Zeile: Man schreibt bzw. fügt ins Berechnungsfeld also folgendes ein: “rohscore / 10” → „ok“ Ergebnis: Eine neue Variable „relHfgkt“ wird nun erzeugt, die für jede Person die relative Lösungswahrscheinlichkeit angibt. Berechnen mittels Funktionen Verschiedene vorprogrammierte Berechnungen (wie Mittelwert, Median, Varianz, Standardabweichung...) sind den vorprogrammierten Funktionen zu entnehmen. Diese vereinfachen den Rechenprozess oft wesentlich. Beispiel 2: Mittelwertsberechnung mittels vorprogrammierter Funktion Die Funktionen sind im Feld „Funktionen“ ersichtlich und mit englischen Wörtern abgekürzt. Für eine Direkthilfe braucht man nur die gewünschte Funktion markieren und die rechte Maustaste klicken. Für unser Beispiel wäre es die Funktion unter „M“ wie „Mean“ (Mittelwert) also „Mean(numausdr, numausdr,...)“ Die gewünschten 10 Items müssen noch eingefügt und mit einem Beistrich getrennt(!) werden. Dies sieht so aus: “MEAN(item1,item2,item3,item4,item5,item6,item7,item8item9,item10)” → „ok“ Dies wäre die Berechnung des Mittelwertes mittels Funktion. Ergebnis: Eine neue Variable wird nun erzeugt, die für jeden Fall den Mittelwert der Werte der 10 Items angibt. 9 Matthias Gabriel 2 Deskriptive Statistik 2.1 Tabellen 2.1.1 einfache Tabellen Definition: zur einfachen, übersichtlichen Darstellung bzw. Zusammenfassung der Werte (Häufigkeiten) von Variablen nach ihren Ausprägungen (z.B.: Ja/Nein; Geschlecht; Alter...) Befehl: „Analysieren“ → „Tabellen“ → „einfache Tabellen“ → gewünschte Variable(n) in „Zeilen“ oder/und „Spalten“ geben → „ok“ Beispiel: Zeilen: Semester in denen sich die Vps befinden (1-9) Spalten: Unterteilung Geschlecht (dichotom) aktuelles Semester 1 2 3 4 5 6 7 9 Geschlecht männlich 42 12 6 4 1 2 weiblich 237 33 55 7 11 2 1 1 Variationen: • separate Tabellen (z.B.: je eine Tabelle für Männer/Frauen): → gewünschte Variable (z.B.: Geschlecht) in „separate Tabellen“ geben um 2 separate Tabellen für 1) Männer 2) Frauen zu erhalten • gestapelte/verschachtelte Tabellen • Zeilen/Spaltenprozente, Prozentangaben...: → „Statistik“ • die Anordnung der Zeilen/Spaltenprozente, Prozentangaben...innerhalb der Tabelle können geändert werden: → „Layout“ → „Beschriftung für Statistik“ wie gewünscht ändern • Werte sortieren: → „Statistik“ • Gesamtwerte (Gesamtergebnis für die Tabelle / Zeilen/Spaltensummen): → „Gesamt“ • Darstellung leerer Zellen (z.B.: mit Null): → „Format“ 2.1.2 Häufigkeitstabellen Definition: Häufigkeitstabellen sind den einfachen Tabellen sehr ähnlich. Sie eignen sich aber zusätzlich besonders zur Darstellung von Häufigkeiten mehrerer Variablen, welche gleiche Antwortmöglichkeiten/kategorien haben (z.B.: Ja/Nein/weiß nicht; Multiple Choice...) Beispiel: Spalten: Zufriedenheit und Lebenssituation (2 Variablen(!)) Zeilen: Antwortkategorien (bei beiden Variablen gleich(!)) Befehl: „Analysieren“ → „Tabellen“ → „Häufigkeitstabellen“ 10 Matthias Gabriel Allgemeine Zufriedenheit Anzahl Sehr zufrieden 467 Ziemlich zufrieden 872 Nicht sehr zufrieden 165 Ist das Leben aufregend oder langweilig? Anzahl 434 505 41 Variation: • Für jede Variable eine eigene Spalte: → alle gewünschten Variablen in „Häufigkeit für“ geben • Verschachtelte Tabellen (mehrdimensional): → zusätzliche Variable(n) in „In jeder Tabelle“ geben • Separate verschachtelte Tabellen: → zusätzliche Variable(n) in „separate Tabellen“ geben • Prozente, Gesamtwerte: → „Statistik“ 2.1.3 allgemeine Tabellen Definition: Mit allgemeinen Tabellen können Mehrfachantworten ausgewertet werden (mehrdimensionale Darstellungen, also viele Variablen in einer Tabelle). Weiters können auch verschiedene Stufen der Verschachtelung innerhalb der Tabellen festgelegt werden. Befehl: „Analysieren“ → „Tabellen“ → „allgemeine Tabellen“ Beispiel 1: (eine verschachtelte mehrdimensionale Tabelle) In den Zeilen: Beschreibung der Lebenssituation und (verschachteltes) Geschlecht In der Spalte: die Region (Lebensraum) Ist das Leben aufregend oder Aufregend Männlich langweilig? Weiblich Routine Männlich Weiblich Langweilig Männlich Weiblich Region Nordost 92 94 88 140 7 12 Südost 56 51 58 90 3 9 West 65 76 54 75 2 8 Beispiel 2: (eine unverschachtelte mehrdimensionale Tabelle) In den Zeilen: Beschreibung der Lebenssituation und (unverschachteltes) Geschlecht In der Spalte: die Region Region Nordost Ist das Leben aufregend oder langweilig? Aufregend 186 Routine 228 Langweilig 19 Geschlecht Männlich 281 Weiblich 398 11 Südost 107 148 12 177 238 West 141 129 10 178 245 Matthias Gabriel Variationen: • Verschachteln von einzelnen Variablen (z.B.: Geschlecht): → Variable markieren und „Verschachtelt“ wählen • Zellenstatistiken für einzelne Variablen (z.B.: nur Geschlecht hat Zeilenprozente alle anderen haben Absolutwerte): → Variable markieren und „Statistik bearbeiten“ wählen • Gesamtwerte einblenden: → Variable markieren und „Gesamtergebnis einfügen“ wählen. • Mittelwert, Varianz.... berechnen: → Variable markieren und „wird ausgewertet“ wählen: → dann „Statistik“ wählen und die gewünschten Statistiken (Mittelwert...) „hinzufügen“ (eventuell Mittelwert... markieren und „Format“ ändern für Dezimalzahlen) 12 Matthias Gabriel 2.2 statistische Kennwerte (deskriptive Statistiken) 2.2.1 Mittelwert, Varianz, Median, Standardabweichung...+ Diagramme 1. Möglichkeit: (mit Diagrammen) Befehl: „Analysieren“ → „deskriptive Statistiken“ → „Häufigkeiten“ → gewünschte Variable eingeben (z.B. Alter) → „Statistik“ → gewünschte Statistiken eingeben (z.B.7 Mittelwert, Varianz...) → „Diagramme“ → gewünschtes Diagramm eingeben Beispiel: Anzahl der Geschwister N Gültig Fehlend Mittelwert Median Standardabweichung Varianz 1505 12 3,93 3,00 3,05 9,28 2. Möglichkeit: (leichter und übersichtlicher Vergleich von Mittelwerten, Varianzen... bezüglich Kategorien) ohne Diagramme Beispiel: Welchen Mittelwert, welche Varianz... hat die Variable Alter separat dargestellt nach der Variable Geschlecht? Befehl: „Analysieren“ → „Mittelwerte vergleichen“ → “Mittelwerte...“ → in „unabgängige Variable“ kommt die Breakvariable (hier: Geschlecht) → in „abhängige Variable“ kommt jene Variable, deren Statistiken (Mittelwert...) ausgerechnet werden soll (hier Alter) → „Optionen“ → gewünschte statistische Kennwerte hinzufügen → „weiter“ → „ok“ Bericht alter Geschlecht männlich weiblich Insgesamt Mittelwert 24,15 21,65 22,04 Standardabweichung 6,14 3,97 4,46 Varianz 37,757 15,743 19,928 Median 22,00 20,00 21,00 3. Möglichkeit: (über Tabellen) Befehl: „Analysieren“ → „Tabellen“ → „einfache Tabellen“ → die gewünschte Variable(n) in das Feld „Auswerten“ geben → „Statistik“ → die gewünschten statistischen Kennwerte (zB: Mittelwert, Median, Varianz..) „hinzufügen“ (eventuell das „Format“ „ändern“, um Dezimalzahlen anzuzeigen). Beispiel: Mittelwert Median Standardabweichung Varianz Anzahl Geschwister 3,932 3,000 3,047 9,282 13 Matthias Gabriel 4. Möglichkeit: (eher für Intervallskalierte Daten, ohne Median, Modalwert...) Befehl: „Analysieren“ → „deskriptive Statistiken“ → „deskriptive Statistiken...“ → Variable(n) eingeben → „Optionen“ → gewünschte Statistiken auswählen Beispiel: N Mittelwert Standardabweichung Varianz Anzahl Geschwister 1505 3,93 3,05 9,282 Gültige Werte (Listenweise) 1505 2.3 Diagramme Definitionen: • Balkendiagramm: gibt pro Balken die Werte einer Ausprägung (z.B.: Mann/Frau) einer Variable (z.B.: Geschlecht) an. • Kreisdiagramm: ein „Kuchen“ dessen „Kuchenstücke“ die verschiedenen Ausprägungen darstellen (z.B.: Anzahl der Studiensemester). Desto mehr Personen in eine Kategorie fallen (z.B.: erstes Semester) desto größer ist dieses Kuchenstück. • Histogramm: (Vergleich: Häufigkeitsklassen) Verwendung: bei stetigen(!) Variablen, wenn die Variable in Klassen gegliedert ist oder in Klassen abgebildet werden soll (z.B.: Körpergröße, Klassen: 151-160cm, 161-170cm,...) • Streudiagramm: (XY-Diagramm) Jeder Punkt im Diagramm hat einen X und einen Y Koordinate. Dadurch ergibt sich eine Punktwolke. Verwendung: z.B.: Regression, Korrelation, Modellkontrolle Rasch Modell • Liniendiagramm: gibt eine Gerade/Kurve/Funktion an. Verwendung z.B.: bei Einkommen, Alter, Körpergröße, Konzentrationskoeffizienten... Befehl: → „Grafiken“ → gewünschten Diagrammtyp (Balken, Kreis...) auswählen Beispiel 1: Balkendiagramm Wie viele Kinder haben männliche bzw. weibliche befragte Personen im Durchschnitt? Lösung: Darstellung mittels Balkendiagramm mit a) Kategorienvariable: Geschlecht b) auszuwertende Variable: durchschnittliche Anzahl der Kinder (Mittelwert) Befehl: → „Grafiken“ → „Balken...“ → „einfach“ und „Auswertung über Kategorien einer Variable“ (weil hier nur Kategorien der einen Variable Geschlecht gefragt sind. Für die Abbildung mehrerer Variablen in einem Diagramm → „Auswertung über verschiedene Variablen“ wählen) → „definieren“ → in „Kategorienachse“ Geschlecht hinzufügen → bei „Bedeutung der Balken“ „andere Auswertefunktion“ wählen (weil der Mittelwert der Anzahl der Kinder gefragt ist und nicht die Häufigkeit bzw. Anzahl der Fälle) → gewünschte auszuwertende Variable hinzufügen (hier Anzahl der Kinder) → „Auswertefunktion“ → „Mittelwert“ wählen → „weiter“ → „ok“ 14 Matthias Gabriel Ergebnis: 2,2 2,1 2,0 Mittelwert Anzahl Kinder 1,9 1,8 1,7 1,6 1,5 Männlich Weiblich Geschlecht Die durchschnittliche Anzahl der Kinder überwiegt bei den Frauen (ca. 2,1) im Vergleich zu den Männern (ca 1,6). Variationen: • Häufigkeiten oder Prozente der Ausprägungen einer Variablen angeben (z.B.: Wie viele Männer/Frauen) → „Anzahl der Fälle“ oder „%der Fälle“ wählen statt „andere Auswertefunktion“ • Fehlende Werte anzeigen (als eigenen Balken) → „Optionen“ • Diagrammtitel → „Titel“ • Varianz, Median, Standardabweichung... → „andere Auswertefunktion“ (wie bei Mittelwert) Anmerkung: Die Darstellung von Kreis-, Linien-, Flächendiagramm erfolgt fast äquivalent. Beispiel 2: Histogramm Nur sinnvoll bei (quantitativen) Variablen, die eine Klassenbildung benötigen, um zusammengefasst zu werden (z.B: Alter, Körpergröße, Gewicht, (Punkte in einem Test)...) Nicht bei qualitativen Variablen! Frage: Wie sieht die Verteilung der Variable „Alter“ aus? Eine Abbildung des Alters mit jedem Alter (Jahr) als eigene Kategorie bei einer Stichprobe von z.B:15 bis 70 jährigen wäre nicht sinnvoll und überhaupt nicht überschaubar. Lösung: Altersklassen bilden und Histogramm erstellen Befehl: → „Grafiken“ → „Histogramm“ → in „Variable“ die gewünschte Variable einfügen (hier: Alter) → „ok“ 300 200 100 Std.abw. = 4,45 Mittel = 22,0 N = 419,00 0 20,0 25,0 22,5 30,0 27,5 35,0 32,5 40,0 37,5 45,0 42,5 47,5 alter Die Verteilung des Alters in diesem Beispiel ist nicht normalverteilt, die Klasse 19-21jährige beinhaltet den Großteil der Stichprobe. Variationen: • „Normalverteilungskurve (dazu) anzeigen“ Anmerkung: Die Klassen werden in der Regel automatisch gebildet. 15 Matthias Gabriel 3 Zusammenhangsmaße – Zusammenhangshypothesen Zusammenhänge (zwischen 2 Variablen) misst man mittels Korrelationen. Die Wahl der Korrelation hängt ab von: a) Skalenniveau der beiden Variablen: 1) intervallskaliert (Größe, Gewicht, Längen, Rohscore, Temperatur...) 2) rang- oder ordinalskaliert (Noten, Rangreihen, Dienstgrade, Beliebtheit von Personen...) 3) nominalskaliert (Geschlecht, Bildungsgrad, Haarfarbe, Beruf...) b) Art der Variable 1) Quantitativ I) stetig wenn sie (theoretisch) unendlich viele Ausprägungen/Intervalle annehmen kann (wie Größe, Gewicht, Längen,...) II) diskret, wenn sie nur eine bestimmte, endliche Anzahl aufweist (z.B: Anzahl der Personen in einem Raum, Testscore,...). 2) Qualitativ wenn sie nur beschränkte Ausprägungen oder in Klassen zusammengefasst ist. I) Dichotom: 2 Ausprägungen (z.B: Geschlecht, VersuchsKontrollgruppe, Psychologie vs. Nicht-PsychologiestudentInnen II) Polytom: mehr als 2 Ausprägungen (z.B: Bildung, Haarfarbe, Beruf...) Intervallskala Rangskala Nominalskala Quantitativ stetig, diskret Qualitativ dichotom, polytom 3.1 Arten von Korrelationen Definitionen: • Produktmomentkorrelation (Pearson) rxy: geht von –1 bis +1; Verwendung grundsätzlich bei intervallskalierten, quantitativen Variablen • Rangkorrelation (Spearman) r`: geht von –1 bis +1; Verwendung grundsätzlich bei rangskalierten Variablen • Kendall-Tau-Korrelation: ist der Spearmankorrelation sehr ähnlich, nützt aber die Ranginformation besser aus. (ebenfalls für rangskalierte Daten) • Vierfelderkorrelation (phi): geht von –1 bis +1; Verwendung bei 2 nominalskalierten dichotomen (qualitativen) Variablen (z.B.: Geschlecht und Raucher/Nichtraucher) • Partielle Korrelation: geht von –1 bis +1; Um den Einfluss einer möglichen dritten Variable (intervenierenden oder Störvariable) auszuschließen und die reine Korrelation zwischen den 2 gewünschten Variablen anzuzeigen. (Voraussetzung wie Pearson Korrelation) • Kontingenzkoeffizient (CC): geht von 0 bis 1; Verwendung bei 2 qualitativen Variablen, wobei mindestens eine polytom (mehrkategoriell) ist. • Cramer V: geht von 0 bis 1; ist dem CC sehr ähnlich und wird ebenfalls bei 2 qualitativen, dichotomen/polytomen Variablen verwendet. 16 Matthias Gabriel 3.2 Beispiele Beispiel 1: Pearson Korrelation zwischen Körpergröße (cm) und Gewicht (kg) Ein klassisches Beispiel: beide Variablen sind einerseits intervallskaliert (oder sogar verhältnisskaliert) und andererseits quantitativ (es gibt theoretisch unendlich viele Ausprägungen). Logischer Weise (wie aus der Praxis bekannt) sollten die beiden Variablen korrelieren. (Jemand der größer ist, ist in der Regel auch schwerer.) Befehl: → „Analysieren“ → „Korrelation“ → „Bivariat...“ → gewünschten 2 Variablen (hier Größe und Gewicht) hinzufügen → „Pearson“ wählen (=Produkt-Moment-Korrelation) → „signifikante Korrelationen markieren“ anklicken → „zweiseitig“ → „ok“ Ergebnis: Die Korrelation ergibt 0,635, das Bestimmtheitsmaß (Korrelation zum Quadrat; selbsterrechnet) beträgt r2 = 40%. Die zweiseitige Signifikanzprüfung ergibt eine Signifikanz von 0,000 bei einer Irrtumswahrscheinlichkeit von 0,01. Es besteht demnach ein mittelmäßiger signifikant positiver Zusammenhang zwischen Gewicht und Größe. Korrelationen CM KG Korrelation nach Pearson 1,000 ,635 Signifikanz (2-seitig) , ,000 N 446 446 KG Korrelation nach Pearson ,635 1,000 Signifikanz (2-seitig) ,000 , N 446 446 ** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. CM Beispiel 2: Spearman Korrelation und Kendall-Tau zwischen Deutsch und Englischnote. Deutsch und Englischnote sind beide rangskaliert, daher Spearman bzw. Kendall-Tau Befehl: → „Analysieren“ → „Korrelation“ → „Bivariat...“ → die 2 gewünschten Variablen eingeben → „Spearman“ und „Kendall-Tau“ wählen → „signifikante Korrelationen markieren“ anklicken → „zweiseitig“ → „ok“ Ergebnis: Die Korrelation r`= 0,436 (Spearman) sowie Kendall-Tau mit τ = 0,373 ist mit einem p-Wert von 0,000 signifikant bei α = 0,01. Es besteht also ein signifikanter positiver Zusammenhang zwischen Deutsch und Englischnote in beiden Korrelationen. Korrelationen Kendall-Tau-b DEUTSCH Korrelationskoeffizient Sig. (2-seitig) N ENGLISCH Korrelationskoeffizient Sig. (2-seitig) N 17 DEUTSCH ENGLISCH 1,000 ,373 , ,000 424 381 ,373 1,000 ,000 , 381 393 Matthias Gabriel 1,000 Spearman-Rho DEUTSCH Korrelationskoeffizient Sig. (2-seitig) , N 424 ENGLISCH Korrelationskoeffizient ,436 Sig. (2-seitig) ,000 N 381 ** Korrelation ist auf dem Niveau von 0,01 signifikant (2-seitig). ,436 ,000 381 1,000 , 393 Beispiel 3: Phi (Vierfelder)korrelation Frage: Besteht ein Zusammenhang zwischen Geschlecht und der besuchten Schulform (AHS und HTL) der Versuchspersonen Lösung: 2 dichotome Variablen und nominalskaliert, Frage nach Zusammenhang → Vierfelderkorrelation für unabhängige Daten. Befehl: → „Analysieren“ → „deskriptive Statistiken“ → „Kreuztabellen“ → eine dichotome Variable in die „Zeile“ und eine dichotome in die „Spalte“ → „Statistik“ → „Phi und Cramer-V“ wählen (ev. auch „Korrelationen“) → „weiter“ → ev. „Gruppierte Balkendiagramme anzeigen“ → „ok“ Ergebnis: Geschlecht * besuchte Schulform2 Kreuztabelle Anzahl besuchte Schulform Gesamt Ahs HTL Geschlecht männlich 46 21 67 weiblich 277 82 359 Gesamt 323 103 426 Symmetrische Maße Wert Nominal- bzgl. Nominalmaß Asymptotischer Näherungsweises Standardfehler T Phi -,072 Näherungsweise Signifikanz ,136 Cramer-V ,072 ,136 Der p-Wert der Phi-Korrelation beträgt 0,136 (nicht signifikant); es bestehen daher keine signifikanten Zusammenhänge zwischen Geschlecht und Schulform. Beispiel 4: Kontingenzkoeffizient CC bzw. Cramer V Frage: besteht ein Zusammenhang zwischen der besuchten Schulform (Ahs, Htl, Hbla, Andere) und dem aktuellen Studiensemester (1-9) der Personen? Lösung: 2 qualitative, polytome Variablen → CC bzw. Cramer V. Befehl: → „Analysieren“ → „deskriptive Statistiken“ → „Kreuztabellen“ → eine polytome Variable in die „Zeile“ und eine polytome in die „Spalte“ → „Statistik“ → „Kontingenzkoeffiezient“ und „Cramer-V“ wählen → „weiter“ → ev. „Gruppierte Balkendiagramme anzeigen“ → „ok“ 18 Matthias Gabriel Ergebnis: Symmetrische Maße Wert Näherungsweise Signifikanz Phi ,179 ,962 Cramer-V ,104 ,962 Kontingenzkoeffizient ,176 ,962 Anzahl der gültigen Fälle 412 a Die Null-Hyphothese wird nicht angenommen. b Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. Nominal- bzgl. Nominalmaß Interpretation: 1) CC: Der Kontingenzkoeffiezient wird nur unkorrigiert ausgegeben! Man muss daher händisch folgende Berechnung (Korrektur) durchführen (da CC von der Größe der Tabelle abhängig ist). Nach der Korrektur geht CC von 0 bis 1 und ist leichter interpretierbar: min(r , s ) − 1 1) Berechnung von Cmax: C max = wobei „r“ die Reihen und „s“ die Spalten der min(r , s ) Tabelle sind. In unserem Beispiel gibt es 9 Zeilen und 4 Spalten. Min(r,s) ist also 4. 3 C max = = 0,86 4 C 0,176 2) Berechnung des korrigierten CC: C korr = = = 0,204 C max 0,86 Der korrigierte CC beträgt 0,204, bei einem p-Wert von 0,962 (siehe Tabelle). Es besteht daher kein signifikanter Zusammenhang zwischen besuchter Schulform und Anzahl der Semester. 2) Cramer-V: Auch der Cramer-V Wert ist mit 0,104 und einem p-Wert von 0,962 nicht signifikant. Beispiel 5: Partielle Korrelation rxy.z Frage: Spielt das Alter eine Rolle in Bezug auf den Zusammenhang von Mathe- und Allgemeinwissen? Lösung: partielle Korrelation mit Alter als eventuelle Störvariable, welche eine „Scheinkorrelation“ zwischen den beiden Variablen Mathe und Allgemeinwissen verursachen könnte. Falls das Alter keinen Einfluss auf die beiden Variablen ausübt, entspricht die partielle Korrelation ungefähr der Produktmomentkorrelation! Befehl: → „Analysieren“ → „Korrelation“ → „Partiell“ → die zwei gewünschten Variablen in „Variablen“ einfügen (hier: Mathe und Allgemeinwissen) → Störvariable in „Kontrollvariable“ eingeben (hier: Alter) → „zweiseitig“ → „ok“ 19 Matthias Gabriel Ergebnis: - - - P A R T I A L Controlling for.. C O R R E L A T I O N AGE C O E F F I C I E N T S - - (=Alter) ALLGW MATHE ALLGW 1,0000 ( 0) P= , ,3613 ( 97) P= ,000 MATHE ,3613 ( 97) P= ,000 1,0000 ( 0) P= , Die partielle Korrelation ergibt eine Korrelation von rxy.z 0,3613 (B = 13%). Im Vergleich dazu ergibt die Produktmomentkorrelation rxy =336 (B = 11%) (Muss noch separat errechnet werden; siehe Beispiel 1!) Die beiden Korrelationen sind also numerisch fast gleich. Das Alter übt demnach keinen relevanten Einfluss auf den Zusammenhang der beiden Variablen mathematisches und allgemeines Wissen aus. Anmerkung: Würde beispielsweise nur das Alter verantwortlich für die Korrelation sein, müsste beim Konstanthalten der Variable Alter (also bei der partiellen Korrelation) der Zusammenhang verschwinden, also rxy.z gegen 0 gehen, während bei der Produktmomentkorrelation der „Scheinzusammenhang“ bestehen würde, da das Alter nicht berücksichtigt wird. 20 Matthias Gabriel 4 Die einfache/multiple lineare Regression (vgl. Bortz S.174, Statistik for you S. 16) 4.1 Zweck der Regression: 1. Funktionalen Zusammenhang zwischen einer oder mehreren unabhängigen Variablen (UV) oder X und der abhängigen (AV) bzw. Y Variablen untersuchen. (vgl. Korrelation) 2. Untersuchung, ob von bestimmten Prädiktoren (X) auf die Variable Y geschlossen werden kann. (Werte prognostizieren bzw. vorhersagen) z.B.: Prädiktoren X: Geschlecht, Gewicht, Ausdauer, Alter Frage: Kann aufgrund dieser Prädiktoren die AV Sauerstoffverbrauch gut geschätzt bzw. vorausgesagt werden? 4.2 Stichworte: 1. Residuen: sind die Schätzfehler. Also die Differenz der geschätzten AV ( ŷ ) und der wahren AV (y): yi − yˆi = ei = Re siduum wenn alle yi − yˆi = ei → 0 dann ist die Regression sehr gut ausgefallen und der Zusammenhang der Prädiktoren und der AV ist hoch. 2. Regressionsgleichung y = β 0 + β 1 x1 + β 2 x 2 + ...... + β k x k vgl. y = kx+d (lineare Funktion) wobei • β 0 ................Konstante (der Abstand vom Ursprung zur Regressionsgeraden auf der y-Achse; die Höhenlage der Regressionsgeraden (alternativ: „d“ oder ayx)) (unbekannt!) • β 1 , β 2 ,......β k ...die Regressionskoeffizienten (alternativ: „k“ oder byx) der Prädiktoren X (unbekannt!) • x1 , x 2 ,...., x k ......die Unabhängigen Variablen, Prädiktorvariablen oder UV • y......Kriteriumsvariable oder AV Merke: verschiedene Bezeichnungen für : Statistik 1 Regressionskoeffizienten der byx k Prädiktoren b = 1....k ayx Konstante (Höhenlage der Regressionsgeraden) Prädiktoren X Kriterium Y SPSS β 1 , β 2 ,......β k Lineare Funktion k (Steigung) β 0 , Intercept oder d (Konstante) Konstante Unabhängige bzw. X Einflussvariablen Abhängige Y = f(X) Variable X= 1....n 21 Matthias Gabriel 3. Regressionsgerade • • • Mit der Regressionsgeraden wird der Trend festgelegt, der die Punkte am besten beschreibt. Sie wird durch den Punkteschwarm so gelegt, dass die Abweichungen (Residuen) der einzelnen XY-Punkte zur Regressionsgerade ein Minimum werden. Da die Summe der positiven und negativen Residuen sich aber aufheben können, könnte es auch mehrere Regressionsgeraden geben (nicht eindeutig!). Daher soll die Summe der quadrierten Abweichungen (Residuen) ein Minimum ergeben. Schätzmethode: Ordinary least squares (Kleinste Quadrate Schätzung) Beispiel: 27 Personen, X-Achse: Gewicht (kg), Y-Achse: Körpergröße (cm) ayx: 124,563 byx: 0,723 Eine Person die 60 Kilo wiegt ist laut dieser Regressionsgleichung wie groß?...wir setzten ein Y = kX + d y = 124,563 + 0,723 ⋅ 60 y = 167,943 Die Person ist dem Regressionsmodell zufolge ca. 168 cm groß. Eine positive Steigung bedeutet, dass die y-Werte bei steigenden x-Werten ebenfalls größer werden. (bei negativer Steigung umgekehrt) 22 Matthias Gabriel 4.3 Theoretisches Beispiel Frage: Kann aufgrund Geschlecht, Gewicht, Alter, Ausdauer auf den Sauerstoffverbrauch einer Person geschlossen werden? AV: Sauerstoffverbrauch UV: Geschlecht, Alter, Gewicht, Ausdauer Regressionsgleichung: Sauerstoffverbr. y = β 0 + β 1 ⋅ Geschlecht + β 2 ⋅ Alter + β 3 ⋅ Gewicht + β 4 ⋅ Ausdauer Die Regressionskoeffizienten β̂ (=Schätzer) werden geschätzt und es wird überprüft, welche β̂ optimal sind d.h. welche β̂ signifikante Einflüsse auf AV haben. Durch Einsetzen der Schätzer in das Regressionsmodell erhält man schließlich die geschätzte AV: Yˆ (geschätzter Sauerstoffverbrauch) 4.4 Praktisches Beispiel Frage: Kann aufgrund der Variablen Körpergröße der Mutter bzw. Körpergröße des Vaters auf die Körpergröße der Kinder geschlossen werden? AV: Körpergröße (des Kindes) UV: Körpergröße Mutter, Körpergröße Vater Regressionsgleichung: Körpergröße (y) = β 0 + β1 iGröße _ Mutter + β 2 iGröße _ Vater Befehl: → „Analysieren“ → „Regression“ → „Linear...“ → in „abhängige Variable“ die gewünschten AV einfügen (hier: Körpergröße des Kindes) → in „unabhängige Variable(n)“ die gewünschte(n) UV einfügen (hier: Körpergröße Mutter bzw. Vater) → bei „Methode“ „schrittweise“ wählen → „Statistiken...“ → „Schätzer“ und „Anpassungsgüte des Modells“ anklicken → „ok“ Ergebnis: Tabelle 1: Modellzusammenfassung Modell R R-Quadrat Korrigiertes R-Quadrat 1 ,534 ,285 ,284 2 ,606 ,367 ,364 a Einflußvariablen : (Konstante), CM_M b Einflußvariablen : (Konstante), CM_M, CM_V Standardfehler des Schätzers 8,53 8,04 Tabelle 2: ANOVA Modell Quadratsumme df Mittel der Quadrate F Signifikanz 1 Regression 11914,140 1 11914,140 163,647 ,000 Residuen 29849,511 410 72,804 Gesamt 41763,650 411 2 Regression 15341,779 2 7670,889 118,742 ,000 Residuen 26421,872 409 64,601 Gesamt 41763,650 411 a Einflußvariablen : (Konstante), CM_M b Einflußvariablen : (Konstante), CM_M, CM_V c Abhängige Variable: CM 23 Matthias Gabriel Tabelle 3: Koeffizienten Nicht standardisierte Koeffizienten Modell B Standardfehler 1 (Konstante) 9,183 58,682 CM_M ,055 ,708 2 (Konstante) 10,017 21,889 CM_M ,059 ,512 CM_V ,054 ,393 a Abhängige Variable: CM Standardisierte Koeffizienten Beta T Signifikanz 6,390 ,534 12,792 2,185 ,386 8,725 ,322 7,284 ,000 ,000 ,029 ,000 ,000 Interpretation: Die Regression wurde „schrittweise“ gewählt, d.h. die Prädiktoren werden der Reihe nach zur Gleichung hinzugefügt. Zuerst wird die Gleichung mit Prädiktor 1 (Modell 1 in den Tabellen) aufgestellt, im Modell 2 kommt der 2. Prädiktor in die Gleichung hinzu. 1) Tabelle 1: Modellprüfung! korrigiertes R-Quadrat (korrigiertes Bestimmtheitsmaß): Wird zur Modellprüfung herangezogen (also wie gut ist die Regression, wie gut ist der Zusammenhang zwischen UV und AV; wie sinnvoll ist es, die Regression anzuwenden) Zeigt den Anteil der erklärten Varianz von Y (hier: Größe) durch die Prädiktoren an (hier: Größe Vater bzw. Mutter). Modell 1 (also nur die Größe der Mutter) erklärt 28,5% der Varianz Modell 2: kommt die Größe des Vaters als Prädiktor noch dazu wird 36,7% der Varianz erklärt. 100-36,7% = 63,3% unerklärte Varianz (Schätzfehler) bleiben jedoch noch offen. Das Modell ist daher nicht sehr gut! Es fehlen also noch weitere wichtige/relevante Prädiktoren. 2) Tabelle 2: Modellprüfung! F-Wert: wird ebenfalls zur Modellprüfung herangezogen Die Hypothesen lauten: H 0 : βˆ 0 = βˆ1 = .... = βˆ k = 0 (also alle Regressionskoeffizienten sind Null, sie sind also schlechte Prädiktoren bzw. Konstante) H 1 : βˆ j ≠ 0 (also mindestens ein β ist nicht 0; min. ein Prädiktor beschreibt die AV gut) Die F-Werte sind in beiden Modellen signifikant mit den p-Werten von 0,000. Die Alternativhypothese wird angenommen. Das Modell ist daher sinnvoll, weil die Körpergröße von Vater und Mutter einen Einfluss auf AV (Größe Person) hat. 3) Tabelle 3: Regressionskoeffizienten! (byx, ayx) Folgende 2 Hypothesen für jeden einzelnen Koeffizienten β̂ j : 24 Matthias Gabriel H 0 : βˆ j = 0 (also der Regressionskoeffizient ist Null) H 1 : βˆ j ≠ 0 (der Koeffizient ist ungleich Null) Wenn β̂ j signifikant ungleich von 0 ist dann ist der zugehörige Prädiktor X eine gute/sinnvolle Vorhersage für Y. (Gemessen mit der Prüfgröße t = β ) S tan dardfehler Folgende Koeffizienten sind aus der Tabelle ablesbar: Unter „Konstante“ wird das ayx dargestellt (also die Höhenlage der Regressionsgeraden) Unter „CM_M“ (Größe der Mutter) wird der Koeffizient by1 des ersten Prädiktors abgebildet. Unter „CM_V“ (Größe des Vaters) wird der Koeffizient by2 des zweiten Prädiktors abgebildet. Aus Tabelle 3 kann man entnehmen dass alle Koeffizienten der Prädiktoren signifikante pWerte aufweisen. (Konstante: p = 0,029; CM_M: p = 0,000; CM_V: p = 0,000) Die Prädiktoren Größe des Vaters bzw. der Mutter sind demnach sinnvolle Schätzer für die abhängige Variable Größe der Person. Händische Berechnung zur Veranschaulichung: Die Regressionsgleichung wird wie folgt aufgestellt: Körpergröße (y) = β 0 + β 1Größe _ Mutter + β 2 Größe _ Vater oder (wie in Statistik 1) Körpergröße (y) = a yx + b y1Größe _ Mutter + b y 2 Größe _ Vater Die Größe einer Person, dessen Mutter 162 cm und Vater 184 cm groß ist, kann aufgrund der Regressionsgleichung geschätzt werden. Eingesetzt werden folgende Werte aus Tabelle 3: β 0 = 21,889 (vgl. ayx) β 1 = 0,512 (vgl. by1) β 2 = 0,393 (vgl. by2) Körpergröße (y) = 21,889 + 162*0,512 + 184*0,393 Körpergröße = 177,145 Aufgrund der Regressionsgleichung ist die Person ca. 177 cm groß. Die wahre Größe dieser Person ist 178 (aus den Daten entnommen). Das Residuum y − yˆ („wahrer“ Wert minus Schätzer) ist demnach 178-177,145 = 0,855. (Die Regressionsgleichung ist umso besser, je kleiner die Residuen werden.) 25 Matthias Gabriel Variationen: • Speichern der vorhergesagten Werte ( ŷ ): „Speichern“ → „vorhergesagte Werte“ „nicht standardisiert“ anklicken → „weiter“ • Speichern der Residuen ( uˆ = y − yˆ ): „Speichern“ → „Residuen“ „nicht standardisiert“ anklicken → „weiter“ 26 Matthias Gabriel 5 Unterschiedshypothesen 5.1 Vergleich zweier Mittelwerte bzw. zentraler Tendenzen Sind die Daten intervallskaliert ist die Berechnung von Mittelwerten und Varianzen bzw. Standardabweichungen sinnvoll bzw. erlaubt. Unter diesen Voraussetzungen können auch Verteilungsannahmen der Daten gemacht werden. Verteilungen werden mit Parametern ( x , sx ...) charakterisiert, daher werden alle hypothesenprüfenden Verfahren, deren eine Verteilungstheorie unter Ho Zugrunde liegt, als „Parametertests“ bezeichnet. Ist das Skalenniveau der Daten lediglich rang- bzw. ordinalskaliert sind oben genannte Parameter nicht mehr zulässig, daher beruht die Grundlage der parameterfreien Tests auf Rangordnungen und Rangplätzen. 1) Parametertests sind die mächtigsten Tests zum Vergleich zweier Mittelwerte. Vorteil also die Macht/Power und Aussagekraft, Nachteil die strengen Voraussetzungen. a) t-Test für unabhängige Stichproben Voraussetzungen des T-Tests für unabhängige Stichproben • Intervallskala der Daten (siehe Kapitel 3) • Normalverteilung der Daten in beiden Gruppen • Homogenität der Varianzen der beiden Gruppen • Unabhängige Stichprobe b) t-Test für abhängige Stichproben Voraussetzungen des T-Tests für abhängige Stichproben (z.B: Messwiederholungen, Geschwister, Parallelisierung) • Intervallskala der Daten (siehe Kapitel 3) • Normalverteilung der Differenz der Daten • Abhängige Stichprobe 2) Parameterfreie Tests werden herangezogen, wenn die Voraussetzungen für einen Parametertest nicht gegeben sind. Vorteil: mildere Voraussetzungen; Nachteil: weniger Macht; aber trotzdem eine gute Alternative a) U-Test (unabhängige Stichproben) • Rangskalierte Daten b) Wilcoxon-Vorzeichen-Rang-Test (abhängige Stichproben) • Die Differenzenbildung der Messwerte muss sinnvoll erscheinen • Rangskalierte Daten (mit „Intervallskaleneigenschaft“) (=ordered metric scale) 27 Matthias Gabriel 5.1.1 t-Test (unabhängige Stichproben) Wie aus der Statistik bekannt ist der t-Test der mächtigste Test zum Vergleich 2er Mittelwerte; dementsprechend müssen auch seine Voraussetzungen erfüllt sein: a) Normalverteilung der Werte beider Gruppen b) Homogenität der Varianzen beider Gruppen c) Intervallskalierte Daten in beiden Gruppen Beispiel: Frage: Unterscheiden sich Männer und Frauen signifikant hinsichltich ihrer Testpunkte in einem Leistungstest? H0: Männer und Frauen unterscheiden sich nicht signifikant bezüglich ihrer Testpunkte. H1: Männer und Frauen unterscheiden sich signifikant bezüglich ihrer Testpunkte. Unabhängige Variable „Geschlecht“ (qualitativ, dichotom) Abhängige Variable „Anzahl der Punkte im Test“ (intervallskaliert, quantitativ diskret) Zuerst erfolgt die Prüfung der Voraussetzungen des t-Tests für unabhängige Stichproben. Ad a) Normalverteilungsprüfung: Die Normalverteilung wird mittels „Kolmogorov-Smirnov-Test (K+S-Test)“ übergeprüft. Die Hypothesen werden wie folgt formuliert: H0: Die Verteilung (der abhängigen Variable) ist eine Normalverteilung (in jeder Gruppe) bzw. die empirische Verteilung (aus den Daten) weicht nicht signifikant von der theoretischen (Normal)verteilung ab. H1: Die Verteilung ist nicht normalverteilt bzw. die empirische Verteilung (aus den Daten) weicht signifikant von der theoretischen (Normal)verteilung ab. Befehl: Jede Gruppe (hier: Männer/Frauen) der UV, deren Mittelwert verglichen werden soll, muss separat auf Normalverteilung geprüft werden. Dafür müssen die Fälle erst nach der betreffenden Variable (hier: Geschlecht) getrennt werden (siehe 1.7) „Daten“ → „Datei aufteilen...“ → „Ausgabe nach Gruppen aufteilen“ wählen und in „Gruppe basierend auf“ die gewünschte Variable (hier: Geschlecht) hinzufügen → „ok“ Die Fälle sind jetzt bezüglich Geschlecht imaginär getrennt, jede Berechnung wird jetzt separat für Männer und Frauen ausgegeben. Anmerkung: Zur Auflösung dieser Gruppierung: „Daten“ → „Datei aufteilen“ → „alle Fälle analysieren, keine Gruppen bilden“ → „ok“ Nun kann die Normalverteilung separat für Männer und Frauen überprüft werden: „Analysieren“ → „Nichtparametrische Tests“ → „K+S bei einer Stichprobe“ → „Normal“ (für Normalverteilung) → gewünschte zu testende (abhängige) Variable (hier: Anzahl der Punkte) eingeben → „ok“ Ergebnis: Kolmogorov-Smirnov-Anpassungstest N Parameter der Normalverteilung Anzahl der Punkte 70 Mittelwert 11,01 Standardabweichung 2,76 28 Matthias Gabriel Extremste Differenzen Absolut Positiv Negativ Kolmogorov-Smirnov-Z Asymptotische Signifikanz (2-seitig) a Die zu testende Verteilung ist eine Normalverteilung. b Aus den Daten berechnet. c Geschlecht = männlich ,131 ,131 -,100 1,093 ,183 Anmerkung: Die gleiche Tabelle wird auch für Frauen ausgegeben! Interpretation: Der p-Wert 0,183 ist bei α = 0,05 nicht signifikant. Die H0 bleibt beibehalten. Die Verteilung der Variable „Anzahl der Punkte“ entspricht bei der Gruppe „Männer“ einer Normalverteilung! (auch die Verteilung der Daten der Frauen muss einer Normalverteilung entsprechen, um die Voraussetzungen des t-Tests zu erfüllen) Anmerkung: Ein Histogramm der Daten zur visuellen Überprüfung der NV ist sehr sinnvoll. Ad b) Homogenität der Varianzen: Die Homogenität der Varianzen wird im Zuge des t-Tests automatisch durchgeführt (LeveneTest)! Ad c) Intervallskalierung: Wird Grundsätzlich nur durch studieren der Daten überprüft (sind die Daten quantitativ?..., gibt es Ausreißer?, ...ist es möglich bzw. sinnvoll die Differenzen von Werten zu vergleichen?...sind lineare Transformationen zulässig?...) t-Test: Anwendung nur bei Erfüllung aller oben genannten Voraussetzungen! (andernfalls u-Test) Befehl: Vorerst die Gruppierung nach Geschlecht für den K+S-Test aufheben! („Datei aufteilen...“) (siehe Punkt a) ) „Analysieren“ → „Mittelwerte vergleichen“ → „t-Test bei unabhängigen Stichproben“ → „Testvariable“ eingeben (hier: Anzahl der Punkte) → „Gruppenvariable“ eingeben (hier: Geschlecht) → „Gruppe def...“ (hier: 1 und 0 für Frauen bzw. Männer; je nach eigener Kodierung!) → „weiter“ → „Optionen“ → „Konfidenzintervall“ eingeben (95% für α = 0,05 und 99% für 0,01) → „weiter“ → „ok“ Ergebnis: Gruppenstatistiken Geschlecht N Anzahl Punkte weiblich männlich Mittelwert Standardabweichung Standardfehler Mittelwertes 361 10,91 2,76 ,15 70 11,01 2,76 ,33 29 des Matthias Gabriel Test bei unabhängigen Stichproben Levene F Anzahl d. Varianzen ,014 Punkte sind gleich Varianze nicht gleich T-Test Signifikan T z df ,907 -,286 429 -,285 97,492 ,776 Sig. (2- Mittlere Standardf 95% seitig) Differenz Konfidenzintervall Untere Obere ,775 -,10 ,36 -,81 ,60 -,10 ,36 -,82 ,61 Interpretation: Der Levene F-Test weist einen p-Wert von 0,907 auf. 0,907 ist weit größer als α = 0,05, die Varianzen sind demnach homogen! (Dies ist schon aus der 1. Tabelle ersichtlich; die Standardabweichungen sind identisch) Der t-Test ergibt einen p-Wert von 0,775. Männer und Frauen unterscheiden sich also nicht signifikant bezüglich der Anzahl der Testpunkte. H0 muss beibehalten werden. Anmerkung: Der geringe Unterschied zw. Männern und Frauen kann schon aus den Mittelwerten 10,91 und 11,01 (1. Tabelle) erkannt werden. Variationen: • t-Test bei einer Stichprobe: (vgl. split half, eine Variable (z.B.: Anzahl der Punkte) wird aufgrund eines splitting points in 2 Teile getrennt und diese beiden resultierenden Teile werden auf signifikante Unterschiede getestet) → „t-Test bei einer Stichprobe“ • Diagramme (z.B.: Mittelwerte vergleichen): siehe 2.3 • Einseitige Testung: gleicher Vorgang wie oben beschrieben, nur den p-Wert (Signifikanz 2-seitig) im SPSS-Output händisch durch 2 dividieren. Beispiel: 2-seitiger p-Wert: 0,08 → 1-seitiger p-Wert: 0.04 (einseitige Testung ist daher schneller signifikant, wenn das Ergebnis in die vermutete Richtung geht, da die Fläche von α = 0,05 nur auf einer Seite der Verteilung als Verwerfungsbereich definiert wird und nicht wie bei der zweiseitigen Testung 2,5% auf beiden Seiten.) 5.1.2 t-Test (abhängige Stichproben) Was sind abhängige Stichproben? Eine Stichprobe ist dann abhängig, wenn einer Person bzw. einem Objekt in der ersten Gruppe immer eine Person bzw. ein Objekt in der zweiten Gruppe zugewiesen wird. a) Messwiederholungen (z.B: die Messergebnisse zu zwei Zeitpunkten sind nicht unabhängig, da sie immer von der gleichen Person erzielt wurden; dem Wert von Zeitpunkt 1 wird der Wert des Zeitpunktes 2 zugewiesen) b) Parallelisierung: z.B: Jede Person in Gruppe A hat einen „Testzwilling“ in Gruppe B, mit ähnlichen, für die Untersuchung relevanten Merkmalen c) Zwillinge, Partner, Geschwister oder sonstige Paare. Voraussetzungen des t-Test (abhängig) a) Normalverteilung der Differenzen (der Werte) beider Gruppen. b) Intervallskalierte Daten in beiden Gruppen 30 Matthias Gabriel Beispiel Frage: Gibt es zu den Zeitpunkten 1 und 2 Unterschiede im Atmungsverhalten der Patienten? Hypothesen H0: Die Werte der Zeitpunkte 1 und 2 unterscheiden sich nicht signifikant bezüglich des Atmungsverhaltens der Patienten. H1: Die Werte der Zeitpunkte 1 und 2 unterscheiden sich signifikant bezüglich des Atmungsverhaltens der Patienten. Variablen Gruppenvariable: „Zeitpunkt“ mit 2 Gruppen (Zeitpunkt 1 und Zeitpunkt 2) Abhängige Variable „Atmungsverhalten“. Zuerst erfolgt die Prüfung der Voraussetzungen des t-Tests für abhängige Stichproben. Ad a) Normalverteilungsprüfung Die Normalverteilung der Differenzen wird mittels „Kolmogorov-Smirnov-Test (K+S-Test)“ geprüft. Befehl Da die Differenz der Werte der beiden Zeitpunkte auf Normalverteilung geprüft wird, muss sie erst berechnet werden. Unter „Berechnen“ generieren wir eine neue Variable (z.B: „Diff1_2“) die die Differenzen der Werte des ersten bzw. zweiten Zeitpunktes darstellen (siehe dazu 1.12!) Nun kann die Normalverteilung für die Differenz geprüft werden: „Analysieren“ → „Nichtparametrische Tests“ → „K+S bei einer Stichprobe“ → „Normal“ (für Normalverteilung) → gewünschte zu testende (abhängige) Variable (hier: „Diff1_2“) eingeben → „ok“ Ergebnis Kolmogorov-Smirnov-Anpassungstest Diff1_2 12 Mittelwert -1,6667E-02 Standardabweichung 7,177E-02 Extremste Differenzen Absolut ,258 Positiv ,242 Negativ -,258 Kolmogorov-Smirnov-Z ,895 Asymptotische Signifikanz (2-seitig) ,399 a Die zu testende Verteilung ist eine Normalverteilung. b Aus den Daten berechnet. N Parameter der Normalverteilung Interpretation Der p-Wert 0,399 ist bei α = 0,05 nicht signifikant. Die H0 bleibt beibehalten. Die Verteilung der Variable „Diff1_2“ entspricht einer Normalverteilung. Ad b) Intervallskalierung Wird Grundsätzlich nur durch studieren der Daten überprüft (sind die Daten quantitativ?..., gibt es Ausreißer?,... ist es möglich bzw. sinnvoll die Differenzen von Werten zu vergleichen?...sind lineare Transformationen der Daten zulässig?...) 31 Matthias Gabriel t-Test (abhängige Stichproben) Anwendung nur bei Erfüllung aller oben genannten Voraussetzungen! (andernfalls WilcoxonTest) Befehl „Analysieren“ → „Mittelwerte vergleichen“ → „t-Test bei gepaarten Stichproben“ → „gepaarte Variablen“ eingeben (hier: Zeitpunkt 1 bzw. Zeitpunkt 2) → „weiter“ → „Optionen“ → „Konfidenzintervall“ eingeben (95% für α = 0,05 und 99% für 0,01) → „weiter“ → „ok“ Ergebnis Statistik bei gepaarten Stichproben Mittelwert N Standardabweichung Standardfehler des Mittelwertes Paaren 1 Atmung, Zeitpunkt 1 3,292 12 7,930E-02 2,289E-02 Atmung, Zeitpunkt 2 3,308 12 7,930E-02 2,289E-02 Test bei gepaarten Stichproben Gepaarte T df Sig. (2Differenzen seitig) Mittelwert Standarda Standardfe 95% bweichung hler des Konfidenzi Mittelwerte ntervall der s Differenz Untere Obere Paaren Atmung, -1,667E-02 7,177E-02 2,072E-02 -6,227E-02 2,894E-02 -,804 11 ,438 1 Zeitpunkt 1 Atmung, Zeitpunkt 2 Interpretation: Der t-Test ergibt einen p-Wert von 0,438. Die Atmung der Patienten unterscheidet sich also nicht signifikant bezüglich der Zeitpunkte 1 und 2. H0 muss beibehalten werden. (Der geringe Unterschied zwischen den Zeitpunkten kann schon aus den Mittelwerten 3,292 und 3,308 erkannt werden.) 32 Matthias Gabriel 5.1.3 u-Test (2 unabhängige Stichproben, parameterfrei) Definition: Wenn die Voraussetzungen für einen t-Test nicht gegeben sind kann als gute Alternative der u-Test herangezogen werden. Er zählt zu den parameterfreien Tests (da die Formulierung der Hypothesen nicht auf Parametern µ , x , σ 2 ... beruhen) und hat viel mildere Voraussetzungen bei nur geringem Machtverlust im Vergleich zum t-Test. Voraussetzungen: • Rangskalierte Daten • Stetigkeit des Merkmale (keine qualtitativen bzw. nominalskalierten Variablen wie z.B: Geschlecht, Schulbildung...) Beispiel: Frage: Gibt es signifikante Unterschiede bezüglich des durchschnittlichen Alters der Teilnehmer in Übungsgruppe A bzw. B? Hypothesen H0: Es bestehen keine signifikanten Unterschiede in Übungsgruppe A bzw. B hinsichtlich des Alters. H1: Es bestehen signifikanten Unterschiede in Übungsgruppe A bzw. B hinsichtlich des Alters. Das Alter ist zwar eine verhätnisskalierte Variable (-> t-Test), war jedoch in der Voruntersuchung laut K+S-Test nicht normalverteilt daher wird der u-Test herangezogen. Befehl: „Analysieren“ → „Nichtparametrische Tests“ → „2 unabhängige Stichproben“ → „Testvariable“ eingeben (hier: Alter) → „Gruppenvariable“ eingeben (hier: Übungsgruppe A,B) → „Gruppe definieren“ (hier: A bzw. B)→ „weiter“ → „Mann-Whitney-u-Test“ wählen → „ok“ Ergebnis: Ränge GRUPPEA,B N Mittlerer Rang Rangsumme alter A 283 194,94 55167,00 B 136 241,35 32823,00 Gesamt 419 Statistik für Test Mann-Whitney-U Wilcoxon-W Z Asymptotische Signifikanz (2-seitig) a Gruppenvariable: GRUPPEA,B alter 14981,000 55167,000 -3,743 ,000 Interpretation: Es bestehen signifikante Unterschiede zwischen Gruppe A und B bezüglich Alter. Der pWert von 0,000 ist kleiner als 0,05. Aufgrund der mittleren Ränge (Rangsumme/nj) erkennt man, dass Gruppe B durchschnittlich ältere Personen aufweist als Gruppe A (hohe Werte stehen für ältere Personen). 33 Matthias Gabriel Aufgrund der mittleren Rangsummen kann man also beim u-Test die Richtung der Ergebnisse interpretieren (wie beim t-Test durch Mittelwerte). 5.1.4 Wilcoxon-Vorzeichen-Rang-Test (2 abhängige Stichproben, parameterfrei) Definition: Der Wilcoxon-Test dient als gute Alternative falls die Voraussetzungen für den tTest für abhängige Stichproben nicht gegeben sind. Voraussetzungen • Stetigkeit des Merkmals (nicht qualtitativ) • rangskalierte Daten (mit „Intervallskaleneigenschaft“) (=ordered metric scale) → die Differenzbildung der Werte der beiden Variablen muss also sinnvoll erscheinen Beispiel Frage: Gibt es signifikante Unterschiede in den Rohscores von mathematischem Wissen und allgemeinen Wissen der n=100 Personen einer Stichprobe? → abhängig, da jede Person den Mathematik- und Allgemeinwissenstest bearbeitet. Die Beiden Variablen sind laut K+S-Test nicht normalverteilt (daher kein t-Test erlaubt) → Wilcoxon Test als Alternative Befehl „Analysieren“ → „Nichtparametrische Tests“ → „zwei verbundene Stichproben“ → „Wilcoxon“ wählen → die „ausgewählten Variablenpaare“ eingeben (hier: MathematikRohscore, Allgemeinwissen-Rohscore)→ „ok“ Ergebnis: Ränge N mathematische kenntnisse - allgemeines wissen Negative Ränge Positive Ränge Bindungen Gesamt a mathematische kenntnisse < allgemeines wissen b mathematische kenntnisse > allgemeines wissen c allgemeines wissen = mathematische kenntnisse 90 a 6b 4c 100 Mittlerer Rang 51,01 10,92 Rangsumme 4590,50 65,50 Statistik für Test mathematische kenntnisse - allgemeines wissen Z -8,276 Asymptotische Signifikanz (2-seitig) ,000 Interpretation Der p-Wert (0,000) ist signifikant, es gibt daher signifikante Unterschiede in den Roscorewerten des Mathematik- bzw. Allgemeinwissens. Die Richtung des Ergebnisses interpretiert man mit den mittleren Rängen. Da der mittlere Rang von 51,01 bei den negativen Rängen (N = 90) größer ist als der mittlere Rang bei den positiven Rängen (10,92) und die mathematischen Kenntnisse bei den negativen Rängen kleiner sind als allgemeines Wissen (siehe Fußnote „a“), kann der Rohscore des allgemeinen Wissens der Befragten als signifikant höher eingestuft werden. 34 Matthias Gabriel 5.2 Vergleich von mehr als zwei Mittelwerten bzw. zentraler Tendenzen 1) Parametertests (siehe 5.1) sind die mächtigsten Tests zum Vergleich von Mittelwerten. Vorteil also die Macht/Power und Aussagekraft, Nachteil die strengen Voraussetzungen. a) einfache Varianzanalyse für unabhängige Stichproben Voraussetzungen der Varianzanalyse für unabhängige Stichproben • Intervallskala der Daten (siehe Kapitel 3) • Normalverteilung der Daten in allen k Gruppen • Homogenität der Varianzen aller k Gruppen • Unabhängige Stichprobe b) Varianzanalyse für abhängige Stichproben Voraussetzungen der Varianzanalyse für abhängige Stichproben (z.B: Messwiederholungen, Geschwister, Parallelisierung) • Intervallskala der Daten (siehe Kapitel 3) • Normalverteilung der Messwertdifferenzen • Zirkularität bzw. Homogenität der Varianzen der Messwertdifferenzen (Mauchly Test auf Sphärizität) • Abhängige Stichprobe c) mehrfache (zweifache) Varianzanalyse für unabhängige Stichproben Voraussetzungen der zweifachen Varianzanalyse für unabhängige Stichproben • Intervallskala der Daten (siehe Kapitel 3) • Normalverteilung der Daten in allen k*m Gruppen • Homogenität der Varianzen aller k*m Gruppen • Unabhängige Stichprobe 2) Parameterfreie Tests werden herangezogen, wenn die Voraussetzungen für einen Parametertest nicht gegeben sind. Vorteil: mildere Voraussetzungen; Nachteil: weniger Macht; aber trotzdem eine gute Alternative a) Kruskal-Wallis-Test (Rangvarianzanalyse) (unabhängige Stichproben) Voraussetzungen: • Mindestens Rangskalierte Daten • Stetigkeit des Merkmals (keine qualtitativen bzw. nominalskalierten Variablen wie z.B: Geschlecht, Schulbildung...) • Unabhängige Stichproben b) Friedman-Test (abhängige Stichproben) • Stetigkeit des Merkmals (keine qualtitativen bzw. nominalskalierten Variablen wie z.B: Geschlecht, Schulbildung...) • Mindestens Rangskalierte Daten • Abhängige Stichproben 35 Matthias Gabriel 5.2.1 einfache Varianzanalyse (unabhängige Stichproben) Wie aus der Statistik bekannt ist die Varianzanalyse der mächtigste Test zum Vergleich von mehr als 2 Mittelwerten; dementsprechend müssen auch ihre Voraussetzungen erfüllt sein: d) Normalverteilung der Werte in allen k Gruppen e) Homogenität der Varianzen aller k Gruppen f) Intervallskalierte Daten in allen Gruppen Das Modell der Varianzanalyse beruht auf einer Varianzzerlegung. QT = QZ + QI QT...Quadratsumme total; die gesamte Streuung der Daten ∑∑ i j ( xij − x.. ) 2 mit xij ...alle Messwerte x.. ...Gesamtmittelwert QZ...Quadratsumme zwischen; die Streuung zwischen den k Gruppen n∑ j ( x. j − x.. ) 2 mit x. j ....Gruppenmittelwert x.. ...Gesamtmittelwert QI...Quadratsumme Innen; die Streuung innnerhalb der k Gruppen ∑∑ i j ( xij − x. j ) 2 mit xij ...alle Messwerte x. j ...Gruppenmittelwert Die Annahme ist nun, dass unter H0 (keine signifikanten Gruppenunterschiede) das Verhältnis zwischen QZ und QI (mit ihren Freiheitsgraden) um den Wert 1 ist, da die Schwankungen innerhalb bzw. zwischen den Gruppen nur zufällig sind. Unter H1 (signifikante Unterschiede zwischen den Gruppen) müsste QZ wesentlich größer sein als QI und daher auch das Verhältnis QZ / QI wesentlich größer als 1. Die F-verteilte Prüfgröße F ist also das Verhältnis von QZ zu QI relativiert an den Freiheitsgraden, also QZ MQZ σˆ12 k − 1 F= = = QI MQI σˆ 02 N −k mit df1 = k-1 und df 2 = N-k k....Anzahl der (Faktor)Gruppen N...Gesamtstichprobe Der resultierende Wert wird mit dem kritischen Wert der F-Verteilung (einseitig) verglichen; ist der empirische Wert höher als der kritische ist das Ergebnis signifikant. 36 Matthias Gabriel Variablen: UV (Faktor): Die einfache Varianzanalyse benötigt als unabhängige (Gruppen)Variable eine qualitative bzw. eine zu Messwertklassen zusammengefasste quantitative Variable. AV: die abhängige Variable muss quantitativ und intervallskaliert sein. Beispiel: Gibt es signifikante Unterschiede zwischen in den 3 Altersklassen bezüglich den Punktescores im Raumvorstellungstest? Hypothesen H0: Die 3 Altersklassen unterscheiden sich nicht signifikant bezüglich ihrer Testpunkte. H1: Die 3 Altersklassen unterscheiden sich signifikant bezüglich ihrer Testpunkte. Variablen Unabhängige Variable (Faktor): 3 Altersklassen (=Messwertklassen) Abhängige Variable: „Punktescore“ (intervallskaliert, quantitativ diskret) Personen n 1 2 3 4 5 6 7 8 9 10 11 12 13 15-25 9 13 15 16 14 19 15 14 16 12 13 Altersklassen 26-35 36-45 20 29 24 33 22 35 26 36 28 38 23 33 19 31 28 29 29 28 30 35 29 35 34 QI QI QZ QI QZ QT Zuerst erfolgt die Prüfung der Voraussetzungen der Varianzanalyse für unabhängige Stichproben. Ad Normalverteilungsprüfung: Die Normalverteilung wird mittels „Kolmogorov-Smirnov-Test (K+S-Test)“ übergeprüft. Die Hypothesen werden wie folgt formuliert: H0: Die Verteilung (der abhängigen Variable) ist eine Normalverteilung (in jeder Gruppe) bzw. die empirische Verteilung (aus den Daten) weicht nicht signifikant von der theoretischen (Normal)verteilung ab. 37 Matthias Gabriel H1: Die Verteilung ist nicht normalverteilt bzw. die empirische Verteilung (aus den Daten) weicht signifikant von der theoretischen (Normal)verteilung ab. Befehl: Jede Gruppe (hier: 3 Altersklassen) der UV, deren Mittelwert verglichen werden soll, muss separat auf Normalverteilung geprüft werden. Dafür müssen die Fälle erst nach der betreffenden Variable (hier: Altersklasse) getrennt werden (siehe 1.7) „Daten“ → „Datei aufteilen...“ → „Ausgabe nach Gruppen aufteilen“ wählen und in „Gruppe basierend auf“ die gewünschte Variable (hier: Altersklassen) hinzufügen → „ok“ Die Fälle sind jetzt bezüglich Altersklasse imaginär getrennt, jede Berechnung wird jetzt separat für alle 3 Klassen ausgegeben. Anmerkung: Zur Auflösung dieser Gruppierung: „Daten“ → „Datei aufteilen“ → „alle Fälle analysieren, keine Gruppen bilden“ → „ok“ Nun kann die Normalverteilung separat für alle 3 Klassen überprüft werden: „Analysieren“ → „Nichtparametrische Tests“ → „K+S bei einer Stichprobe“ → „Normal“ (für Normalverteilung) → gewünschte zu testende (abhängige) Variable (hier: Punktescore) eingeben → „ok“ Ergebnis: Kolmogorov-Smirnov-Anpassungstest(c) 15-25 Punktescore 11 N Parameter der Normalverteilung(a,b) Mittelwert 14,18 26-35 Punktescore 10 24,90 36-45 Punktescore 13 32,69 Standardabweichung 2,562 3,872 3,199 Absolut ,148 ,148 -,140 ,188 ,184 ,097 -,188 ,184 Kolmogorov-Smirnov-Z ,491 ,596 -,154 ,662 Asymptotische Signifikanz (2-seitig) ,969 ,870 ,774 Extremste Differenzen Positiv Negativ a Die zu testende Verteilung ist eine Normalverteilung. b Aus den Daten berechnet. Interpretation: Die p-Werte 0,969; 0,870; 0,774 sind bei α = 0,05 nicht signifikant. Die H0 bleibt beibehalten. Die Verteilung der Variable „Punktescore“ entspricht in allen 3 Altersklassen einer Normalverteilung! Anmerkung: Ein Histogramm der Daten zur visuellen Überprüfung der NV ist sehr sinnvoll. Ad Homogenität der Varianzen: Die Homogenität der Varianzen wird im Zuge der Varianzanalyse automatisch durchgeführt (Levene-Test)! Ad Intervallskalierung: Wird Grundsätzlich nur durch studieren der Daten überprüft (sind die Daten quantitativ?..., gibt es Ausreißer?,... ist es möglich bzw. sinnvoll die Differenzen von Werten zu vergleichen?...sind lineare Transformationen zulässig?...) 38 Matthias Gabriel Varianzanalyse: Anwendung nur bei Erfüllung aller oben genannten Voraussetzungen! (andernfalls KruskalWallis-Test) Befehl: Vorerst die Gruppierung nach Altersklassen für den K+S-Test aufheben! („Datei aufteilen...“) (siehe Punkt Normalverteilungsprüfung) „Analysieren“ → „Mittelwerte vergleichen“ → „einfaktorielle ANOVA“ → unter „Faktor“ die UV eingeben (hier: Altersklassen) → unter „Abhängige Variablen“ die AV eingeben (hier: Punktescore) → „Optionen“ → „Deskriptive Statistik“ und „Test auf Homogenität der Varianzen“ anklicken → „weiter“ → „ok“ Ergebnis: Tabelle 1: ONEWAY deskriptive Statistiken Punktescore N Mittelwert Standardabw eichung Standardfe hler 95%-Konfidenzintervall für den Mittelwert 15-25 11 14,18 2,562 ,772 Untergrenze 12,46 26-35 10 24,90 3,872 1,224 22,13 36-45 13 32,69 3,199 ,887 30,76 Gesamt 34 24,41 8,471 1,453 21,46 Tabelle 2: Obergrenze 15,90 Minimum 9 19 27,67 19 30 34,63 28 38 27,37 9 38 Test der Homogenität der Varianzen Punktescore LeveneStatistik 2,121 Tabelle 3: df1 df2 2 31 Signifikanz ,137 ONEWAY ANOVA Punktescore Zwischen den Gruppen Quadratsu mme 2044,930 Innerhalb der Gruppen Gesamt 2 Mittel der Quadrate 1022,465 323,306 31 10,429 2368,235 33 df F 98,039 Signifikanz ,000 Interpretation: Tabelle 2 Der Levene F-Test weist einen p-Wert von 0,137 auf. 0,137 ist größer als α = 0,05, die Varianzen sind demnach homogen! 39 Maximum Matthias Gabriel Tabelle 3 Die Varianzanalyse ergibt einen p-Wert von 0,000. Die 3 Altersklassen unterscheiden sich also signifikant bezüglich ihres Punktescores im Raumvorstellungstest. H1 wird angenommen. Anmerkung: Der Unterschied zw. den Altersklassen kann schon aus den Mittelwerten in Tabelle 1 erkannt werden. Die Richtung des signifikanten Ergebnisses (welche Gruppe unterschiedet sich signifikant von welcher?) kann durch 2 Methoden ermittelt werden: 1) Lineare Kontraste 2) Post hoc Tests 5.2.1.1 Lineare Kontraste (a-priori-Verfahren): Vorgehensweise: a) Wird verwendet, wenn man schon vor der Hypothesenprüfung eine Vorahnung hat, welche Gruppen von welchen signifikant abweichen, und welche Gruppen eher ähnliche Werte aufweisen. b) Zuerst erstellt man ein Balkendiagramm mit den 3 Altersklassen als Kategorienachse und dem Mittelwert des Punktescores als Auswertungsvariable. (siehe 2.3) 40 Mittelwert Punktescore 30 20 10 15-25 26-35 36-45 Altersklassen c) Nachdem graphisch die Vorahnung überprüft wurde, definiert man die Koeffizienten der Kontraste. Vermutung in diesem Beispiel: Alle 3 Gruppen unterschieden sich signifikant voneinander, also Gruppe 1 mit 3, Gruppe 1 mit 2 und Gruppe 2 mit 3. Befehl: „Analysieren“ → „Mittelwerte vergleichen“ → „einfaktorielle ANOVA“ → „Kontraste“ → unter „Koeffizienten“ unsere Vermutung in Zahlen ausdrücken 40 Matthias Gabriel Die Koeffizientensumme muss immer 0 sein; wenn wie in diesem Beispiel alle 3 Gruppen gegeneinander getestet werden, müssen die Koeffizienten so gewählt werden, dass jede Gruppe einen eigenen Koeffizienten hat und die Summe der 3 Koeffizienten 0 ist. Die Reihenfolge der Eingabe der Koeffizienten bezieht sich auf die Kodierungsnummern der UV (hier: 3 Altersklassen); erster Koeffzient für erste Altersklasse, 2. Koeffizient für 2. Altersklasse... z.B.: → „-1“ (für 1. Altersklasse)→ „hinzufügen“ → „0“ (für 2. Altersklasse)→ „hinzufügen“ → „1“ (für 3. Altersklasse)→ „hinzufügen“ → die „Koeffizientensumme“ kontrollieren (muss 0 sein!)→ „weiter“ → „ok“ Ergebnis: Tabelle 1 Kontrast-Koeffizienten Altersklassen Kontrast 1 Tabelle 2 15-25 26-35 -1 36-45 0 1 Kontrast-Tests Punktescore Varianzen sind gleich Varianzen sind nicht gleich Kontrast 1 Kontrastwert 1 Standardfe hler T Signifikanz (2-seitig) df 18,51 1,323 13,991 31 ,000 18,51 1,176 15,736 21,952 ,000 Interpretaion: Tabelle 1: Gibt die Koeffizienten wieder Tabelle 2: Da die Varianzen homogen sind (vgl. Levene Test oben) wird der p-Wert der ersten Zeile entnommen; p=0,000, das Ergebnis ist signifikant, die Koeffizientenwahl in diesem Beispiel war gut, alle Gruppen unterscheiden sich signifikant voneinander. Anmerkung: Falls der Kontrast-Test nicht signifikant ausfällt müssen die Koeffizienten anders gewählt werden bzw. die Gruppen anders gegenübergestellt werden (zB: Gruppe 1 und 2 gegen Gruppe 3 -> Koeffizienten z.B.: -0,5; -0,5; +1), damit die signifikante Richtung erkannt wird. Anmerkung: Fällt die Varianzanalyse nicht signifikant aus ist ein Prüfung mittels Kontraste natürlich nicht notwendig, da keine signifikanten Unterschiede zwischen keiner der Gruppen vorliegen. 41 Matthias Gabriel 5.2.1.2 Post Hoc Tests Eine andere Methode sind Post Hoc Tests; sie zeigen auf Anhieb welche Gruppen mit welchen signifikante Unterschiede aufweisen. Eine Vorahnung der Ergebnisse ist nicht notwendig; Problem ist nur die Alpha-Kumulierung. Befehl: „Analysieren“ → „Mittelwerte vergleichen“ → „einfaktorielle ANOVA“ → „Post Hoc“ → „Scheffe“ wählen; „Signifikanzniveau“ festlegen (Alpha z.B. 5%) → „weiter“ → „ok“ Ergebnis: Tabelle 1: Mehrfachvergleiche Abhängige Variable: Punktescore Scheffé-Prozedur Standardfe hler 1,411 1,323 Signifikanz ,000 ,000 (I) Altersklassen 15-25 (J) Altersklassen 26-35 36-45 26-35 15-25 10,72(*) 1,411 36-45 -7,79(*) 18,51(*) 7,79(*) 1,358 1,323 1,358 36-45 15-25 26-35 95%-Konfidenzintervall Mittlere Differenz (I-J) -10,72(*) -18,51(*) Untergrenze -14,35 -21,91 Obergrenze -7,09 -15,11 ,000 7,09 14,35 ,000 ,000 ,000 -11,28 15,11 4,30 -4,30 21,91 11,28 * Die mittlere Differenz ist auf der Stufe .05 signifikant. Tabelle 2: Punktescore Scheffé-Prozedur Untergruppe für Alpha = .05. Altersklassen 15-25 N 11 26-35 10 36-45 13 Signifikanz 1 14,18 2 3 24,90 32,69 1,000 1,000 1,000 Die Mittelwerte für die in homogenen Untergruppen befindlichen Gruppen werden angezeigt. a Verwendet ein harmonisches Mittel für Stichprobengröße = 11,201. b Die Gruppengrößen sind nicht identisch. Es wird das harmonische Mittel der Gruppengrößen verwendet. Fehlerniveaus des Typs I sind nicht garantiert. Interpretation: Tabelle 1: Stellt jede (Faktor)Gruppe jeder gegenüber und markiert jene Gruppen, die signifikante Unterschiede aufweisen in der Spalte „mittlere Differenz“ mit einem Stern (auch unter der Spalte „Signifikanz“ ablesbar). In diesem Beispiel: 1. Zeile: Gruppe 15-25 sign. Unterschiede mit 26-35 und 36-45 2. Zeile: Gruppe 26-35 sign. Unterschiede mit 15-25 und 36-45 3. Zeile: Gruppe 36-45 sign. Unterschiede mit 15-25 und 26-35 42 Matthias Gabriel Tabelle 2: Zeigt - wie in den Kontrasten selbst eingeteilt wird – welche (Faktor)Gruppen zu einer homogenen Gruppe zugeordnet werden können und sich von anderen (Faktor)Gruppen eben signifikant unterschieden. In unserem Beispiel sind alle 3 Gruppen signifikant voneinander unterschiedlich, daher bildet jede Altersklasse eine homogene Gruppe. 5.2.2 einfache Varianzanalyse (abhängige Stichproben) Was sind abhängige Stichproben? Eine Stichprobe ist dann abhängig, wenn einer Person bzw. einem Objekt in der ersten Gruppe immer eine Person bzw. ein Objekt in der zweiten Gruppe zugewiesen wird. d) Messwiederholungen (z.B: die Messergebnisse zu zwei Zeitpunkten sind nicht unabhängig, da sie immer von der gleichen Person erzielt wurden; dem Wert von Zeitpunkt 1 wird der Wert des Zeitpunktes 2 zugewiesen) e) Parallelisierung: z.B: Jede Person in Gruppe A hat einen „Testzwilling“ in Gruppe B, mit ähnlichen, für die Untersuchung relevanten Merkmalen f) Zwillinge, Partner, Geschwister oder sonstige Paare. Das Modell der abhängigen Varianzanalyse beruht ebenfalls auf einer Varianzzerlegung. QT = QZVp + QZBed + QRes QT...Quadratsumme total; die gesamte Streuung der Daten ∑∑ i j ( xij − x.. ) 2 xij ....alle Messwerte x.. ...Gesamtmittelwert QZVP...Quadratsumme zwischen Versuchspersonen; die Streuung zwischen den n Personen (SPSS: Zwischensubjekteffekte) k ∑ i ( xi. − x.. ) 2 mit xi. ....Mittelwert Person i x.. ...Gesamtmittelwert QZBed...Quadratsumme zwischen Bedingungen; die Streuung zwischen den k Faktorenstufen (SPSS: Inneresubjekteffekte) n∑ j ( x. j − x.. ) 2 mit x. j ...Mittelwert Faktorgruppe j x.. ...Gesamtmittelwert QRes...Quadratsumme Rest(fehler), welche Interaktionseffekte (Vpn x Faktorgruppen ) und Fehlereffekte enthält, die nicht getrennt beobachtbar sind ∑∑ i j ( xij − xi. − x. j + x.. ) 2 43 Matthias Gabriel 2 Hypothesen können durch dieses Modell geprüft werden: 1. Hypothese HO1: Es gibt keine signifikanten Unterschiede zwischen den Faktorstufen H11: Es gibt signifikante Unterschiede zwischen den Faktorstufen Die Annahme ist nun, dass unter H0 (keine signifikanten Faktorunterschiede) das Verhältnis zwischen QZBed und QRes (dividiert durch ihre Freiheitsgrade) um den Wert 1 ist, da die Schwankungen zwischen Faktorstufen nur zufällig sind, so wie die Residuen. Unter H1 (signifikante Unterschiede zwischen den Faktorstufen) müsste QZBed wesentlich größer sein als QRes und daher auch das Verhältnis QZBed / QRes wesentlich größer als 1. Die F-verteilte Prüfgröße F ist also das Verhältnis von QZBed zu QRes relativiert an den Freiheitsgraden, also QZ Bed σˆ12 k − 1 F= = 2 QRes σˆ 0 (n − 1)(k − 1) mit df1 = k-1 und df 2 = (n-1)(k-1) k....Anzahl der Faktorstufen n....Anzahl der Personen Der resultierende Wert wird mit dem kritischen Wert der F-Verteilung (einseitig) verglichen; ist der empirische Wert höher als der kritische ist das Ergebnis signifikant. 2. Hypothese HO2:Es gibt keine signifikanten Unterschiede zwischen den Versuchspersonen. H12: Es gibt signifikante Unterschiede zwischen den Versuchspersonen. Die F-verteilte Prüfgröße F ist hier das Verhältnis von QZVp zu QRes relativiert an den Freiheitsgraden, also QZVp F= σˆ 2 n −1 = 22 QRes σˆ 0 (n − 1)(k − 1) mit df1 = n-1 und df 2 = (n-1)(k-1) k....Anzahl der Faktorstufen n....Anzahl der Personen Der resultierende Wert wird mit dem kritischen Wert der F-Verteilung (einseitig) verglichen; ist der empirische Wert höher als der kritische ist das Ergebnis signifikant. Diese Hypothesenprüfung zwischen den Versuchspersonen ist letztlich aber meist uninteressant. 44 Matthias Gabriel Variablen: Die einfache abhängige Varianzanalyse benötigt eine abhängige Stichprobe, wobei jede Versuchsperson mehrere Messwerte zu verschiedenen Zeitpunkten/Treatments/....hat. Beispiel: Gibt es signifikante Unterschiede zwischen den 3 Zeitpunkten der Testung und den Ergebnissen des Konditionstrainings? Hypothesen H01: Die Versuchspersonen unterscheiden sich nicht signifikant bezüglich der Ergebnisse im Konditionstraining. H11: Die Versuchspersonen unterscheiden sich signifikant bezüglich der Ergebnisse im Konditionstraining. H02: Die Ergebnisse im Konditionstraining unterscheiden sich nicht signifikant bezüglich der 3 Zeitpunkte H12: Die Ergebnisse im Konditionstraining unterscheiden sich signifikant bezüglich der 3 Zeitpunkte Variablen Faktorstufen: 3 Zeitpunkte Abhängige Variable: Ergebnisse im Konditionstraining (hohe Werte stehen für hohe Kondition) (intervallskaliert, quantitativ diskret) Personen n 1 2 3 4 5 6 7 8 9 10 Zeitpunkt (Faktorstufe) T1 T2 T3 9 20 29 13 24 33 15 22 35 16 26 36 14 28 38 19 23 33 15 19 31 14 28 29 16 29 28 12 30 35 Zuerst erfolgt die Prüfung der Voraussetzungen der Varianzanalyse für abhängige Stichproben. Ad Intervallskalierung: Wird Grundsätzlich nur durch studieren der Daten überprüft (sind die Daten quantitativ?..., gibt es Ausreißer?,... ist es möglich bzw. sinnvoll die Differenzen von Werten zu vergleichen?...sind lineare Transformationen zulässig?...) Ad Normalverteilungsprüfung der Messwertdifferenzen: Die Normalverteilung wird bei n>30 aufgrund des zentralen Grenzwertsatzes angenommen. (eventuelle Berechnung mittels K+S-Test für alle Messwertdifferenzen (siehe 5.1.2) ) 45 Matthias Gabriel Ad Zirkularität: Die Homogenität der Varianzen der Messwertdifferenzen wird im Zuge der Varianzanalyse automatisch durchgeführt (Mauchly-Test auf Sphärizität)! Varianzanalyse: Anwendung nur bei Erfüllung aller oben genannten Voraussetzungen! (andernfalls FriedmanTest) Befehl: „Analysieren“ → „allgemein lineares Modell“ → „Messwiederholung...“ → unter „Name des Innersubjektfaktors“ den Faktornamen eingeben (hier: Zeit) unter „Anzahl der Stufen“ die Faktorstufen eingeben (hier: 3) → „hinzufügen“ → „definieren“ → die Faktorstufen (hier 3 Zeitpunkte) in „Innersubjektvariablen“ “hinzufügen“ → „Diagramme...“ → Faktor (hier Zeit) in „horizontale Achse“ geben und „hinzufügen“ drücken→ „weiter“ → „Optionen“ → „Deskriptive Statistik“ anklicken → „weiter“ → „ok“ Ergebnis: Nach den Deskriptiven Statistiken und der Tabelle „Multivariate Tests“ (nicht relevant) werden folgende Tabellen ausgegeben: Tabelle 1 Mauchly-Test auf Sphärizität(b) Maß: MASS_1 Innersubjekteffekt Mauchly-W Approximiertes Chi-Quadrat df Signifikanz Epsilon(a) GreenhouseGeisser Huynh-Feldt ZEIT ,863 ,964 ,294 2 ,965 1,000 Prüft die Nullhypothese, daß sich die Fehlerkovarianz-Matrix der orthonormalisierten transformierten abhängigen Variablen proportional zur Einheitsmatrix verhält. a Kann zum Korrigieren der Freiheitsgrade für die gemittelten Signifikanztests verwendet werden. In der Tabelle mit den Tests der Effekte innerhalb der Subjekte werden korrigierte Tests angezeigt. b Design: Intercept Innersubjekt-Design: ZEIT Tabelle 2: Untergr enze ,500 Tests der Innersubjekteffekte Maß: MASS_1 Quelle ZEIT Quadratsumme vom Typ III Sphärizität angenommen GreenhouseGeisser Huynh-Feldt Untergrenze Fehler(ZEIT) Sphärizität angenommen GreenhouseGeisser Huynh-Feldt Untergrenze Mittel der Quadrate df F Signifikanz 1705,867 2 852,933 88,847 ,000 1705,867 1,930 883,725 88,847 ,000 1705,867 2,000 852,933 88,847 ,000 1705,867 1,000 1705,867 88,847 ,000 172,800 18 9,600 172,800 17,373 9,947 172,800 18,000 9,600 172,800 9,000 19,200 46 Matthias Gabriel Tabelle 3: Tests der Innersubjektkontraste Maß: MASS_1 Quelle ZEIT Fehler(ZEIT) Tabelle 4: Quadratsumme vom Typ III ZEIT Stufe 1 gegen Stufe 3 Stufe 2 gegen Stufe 3 Stufe 1 gegen Stufe 3 Stufe 2 gegen Stufe 3 Mittel der Quadrate df 1 3385,600 217,026 ,000 608,400 1 608,400 28,283 ,000 140,400 9 15,600 193,600 9 21,511 Tests der Zwischensubjekteffekte Quadratsumme vom Typ III 5744,011 Fehler 1 Mittel der Quadrate 5744,011 9 4,752 df 42,767 F 1208,794 Abbildung 1: Geschätztes Randmittel von MEASU 40 Geschätztes Randmittel 30 20 10 1 Signifikanz 3385,600 Maß: MASS_1 Transformierte Variable: Mittel Quelle Intercept F 2 3 ZEIT 47 Signifikanz ,000 Matthias Gabriel Interpretation: Tabelle1: Der Mauchly-Test auf Sphärizität fällt nicht signifikant aus. (p=0,863), die Sphärizität kann angenommen werden. Sollte der Test signifikant ausfallen, ist die Sphärizität nicht gegeben, was zu einer Erhöhung des Alpha-Fehlers führt: die Varianzanalyse wird folglich zu progressiv (fällt zu schnell signifikant aus). In solchen Fällen müssen die Freiheitsgrade korrigiert werden; in den Resultaten der Varianzanalyse müssen daher die Werte in den Zeilen „Greenhouse-Geisser“ oder „Huynh-Feldt“ abgelesen werden. Tabelle 2: Die Innersubjekteffekte sind signifikant (p=0,000); die Werte der Vesuchspersonen in den 3 Zeitpunkten unterschieden sich also signifikant. Die H12 kann also angenommen werden. Tabelle 3: Die Kontraste zeigen wie in der Varianzanalyse für unabhängige Stichproben die Richtung der Ergebnisse. „Stufe 1 gegen Stufe 3“ und „Stufe 2 gegen Stufe 3“ fallen jeweils signifikant aus. Die Messwerte des Konditionstrainings der Personen sind somit in allen 3 Zeitfaktorstufen signifikant unterschiedlich. Tabelle 4: Beantwortet die zweite Hypothese (Unterschiede zwischen den Personen). In diesem Beispiel unterscheiden sich die Personen signifikant hinsichtlich ihrer Messwerte. Auch hier darf die H11 angenommen werden, obwohl diese Fragestellung eher zu vernachlässigen ist. Abbildung 1: Gibt das Profildiagramm wieder, um die Interpretation zu erleichtern. Abgebildet sind die Mittelwerte der Messwerte in den 3 Zeitpunkten. Wie schon aus der Tabelle „deskriptive Statistiken“ ersichtlich steigen die Werte des Konditionstrainings im Mittel von Zeitpunkt 1 zu Zeitpunkt 3. 48 Matthias Gabriel 5.2.3 mehrfache Varianzanalyse (unabhängige Stichproben) Das Modell der zweifachen Varianzanalyse QT = QZA + QZB + QI + Q(AxB) QT...Quadratsumme total; die gesamte Streuung der Daten QZA...Quadratsumme zwischen den Faktorstufen des Faktors A QZB...Quadratsumme zwischen den Faktorstufen des Faktors B Q(AxB)...Quadratsumme der Wechselwirkungen von Faktor A und B QI...Quadratsumme Innen; die Streuung innnerhalb der Faktorgruppen A und B Variablen: UV 1 (Faktor A): Erste (Gruppen)Variable; qualitative bzw. eine zu Messwertklassen zusammengefasste quantitative Variable. UV 2 (Faktor B): Zweite (Gruppen)Variable; qualitative bzw. eine zu Messwertklassen zusammengefasste quantitative Variable. AV: die abhängige Variable; quantitativ, intervallskaliert Mit der 2-fachen Varianzanylse sind die Prüfung von 3 Hypothesen möglich : 1. Hypothese H01: Es gibt keinen signifikanten Unterschiede zwischen den Stufen des Faktors A H11: Es gibt signifikante Unterschiede zwischen den Stufen des Faktors A Die F-verteilte Prüfgröße F ist das Verhältnis von QZA zu QI relativiert an den Freiheitsgraden, also QZA σˆ 2 F = k − 1 = A2 QI σˆ 0 km(n − 1) mit df1 = k-1 und df 2 = km(n-1) k.....Anzahl der Faktorstufen Faktor A m... Anzahl der Faktorstufen Faktor B n....Anzahl der Personen Der resultierende Wert wird mit dem kritischen Wert der F-Verteilung (einseitig) verglichen; ist der empirische Wert höher als der kritische ist das Ergebnis signifikant. 2. Hypothese H02: Es gibt keinen signifikanten Unterschiede zwischen den Stufen des Faktors B H12: Es gibt signifikante Unterschiede zwischen den Stufen des Faktors B 49 Matthias Gabriel Die F-verteilte Prüfgröße F ist das Verhältnis von QZB zu QI relativiert an den Freiheitsgraden, also QZB σˆ 2 F = m − 1 = B2 QI σˆ 0 km(n − 1) mit df1 = m-1 und df 2 = km(n-1) k.....Anzahl der Faktorstufen Faktor A m... Anzahl der Faktorstufen Faktor B n....Anzahl der Personen Der resultierende Wert wird mit dem kritischen Wert der F-Verteilung (einseitig) verglichen; ist der empirische Wert höher als der kritische ist das Ergebnis signifikant. 3. Hypothese H03: Es gibt keine signifikanten Wechselwirkungen zwischen Faktor A und Faktor B H13: Es gibt signifikante Wechselwirkungen zwischen Faktor A und Faktor B Die F-verteilte Prüfgröße F ist das Verhältnis von Q(AxB) zu QI relativiert an den Freiheitsgraden, also Q( AxB) 2 (k − 1)(m − 1) σˆ AxB F= = 2 QI σˆ 0 km(n − 1) mit df1 = (k-1)(m-1) und df 2 = km(n-1) k.....Anzahl der Faktorstufen Faktor A m... Anzahl der Faktorstufen Faktor B n....Anzahl der Personen Der resultierende Wert wird mit dem kritischen Wert der F-Verteilung (einseitig) verglichen; ist der empirische Wert höher als der kritische ist das Ergebnis signifikant. Beispiel: In einer wirtschaftspsychologischen Studie wurden die Variablen Alter (jung, mittel, alt) IQ (niedrig, mittel, hoch) und Einstellung zur EU (hohe Werte stehen für positive Einstellung zur EU) erhoben. Variablen: UV 1 (Faktor A): Altersklassen UV 2 (Faktor B): Intelligenzstufe AV: Einstellung zur EU 50 Matthias Gabriel Personen n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 IQ niedrig mittel hoch 16-30 9 13 15 16 14 19 15 14 16 12 13 14 16 13 117 20 21 14 Altersklassen 31-45 46-60 20 29 24 33 22 35 26 36 28 38 23 33 19 31 28 29 29 28 30 35 24 29 26 35 28 34 21 30 22 33 21 31 29 29 25 29 Fragestellungen / Hypothesen: H01: Es gibt keine signifikanten Unterschiede zwischen den 3 Altersklassen bezüglich Einstellung zur EU. H11: Es gibt signifikante Unterschiede zwischen den 3 Altersklassen. H02: Es gibt keine signifikanten Unterschiede zwischen den 3 Stufen der Intelligenz bezüglich Einstellung zur EU. H12: Es gibt signifikante Unterschiede zwischen den 3 Stufen der Intelligenz. H03: Es gibt keine signifikanten Wechselwirkungen zwischen Intelligenz und Alter H13: Es gibt signifikante Wechselwirkungen zwischen Intelligenz und Alter Zuerst erfolgt die Prüfung der Voraussetzungen der zweifachen Varianzanalyse für unabhängige Stichproben. Ad Intervallskalierung: Wird Grundsätzlich nur durch studieren der Daten überprüft (sind die Daten quantitativ?..., gibt es Ausreißer?,... ist es möglich bzw. sinnvoll die Differenzen von Werten zu vergleichen?...sind lineare Transformationen zulässig?...) Ad Normalverteilungsprüfung: Die Normalverteilung wird mittels „Kolmogorov-Smirnov-Test (K+S-Test)“ übergeprüft. Die Hypothesen werden wie folgt formuliert: H0: Die Verteilung (der abhängigen Variable) ist eine Normalverteilung (in jeder Gruppe) bzw. die empirische Verteilung (aus den Daten) weicht nicht signifikant von der theoretischen (Normal)verteilung ab. 51 Matthias Gabriel H1: Die Verteilung ist nicht normalverteilt bzw. die empirische Verteilung (aus den Daten) weicht signifikant von der theoretischen (Normal)verteilung ab. Befehl: Jede k*m Gruppe (hier: 3 Altersklassen mal 3 IQ-Klassen = 9 Gruppen) der UVn, muss separat auf Normalverteilung geprüft werden. Dafür müssen die Fälle erst nach den betreffenden Variable (hier: Altersklasse und IQ-Klasse) getrennt werden (siehe 1.7) „Daten“ → „Datei aufteilen...“ → „Ausgabe nach Gruppen aufteilen“ wählen und in „Gruppe basierend auf“ die gewünschten Variablen (hier: Altersklassen und IQ-Klasse) hinzufügen → „ok“ Die Fälle sind jetzt bezüglich Altersklasse und IQ-Klasse imaginär getrennt, jede Berechnung wird jetzt separat für alle 9 Gruppen ausgegeben. Anmerkung: Zur Auflösung dieser Gruppierung: „Daten“ → „Datei aufteilen“ → „alle Fälle analysieren, keine Gruppen bilden“ → „ok“ Nun kann die Normalverteilung separat für alle 9 Gruppen überprüft werden: „Analysieren“ → „Nichtparametrische Tests“ → „K+S bei einer Stichprobe“ → „Normal“ (für Normalverteilung) → gewünschte zu testende (abhängige) Variable (hier: Einstellung zur EU) eingeben → „ok“ Ergebnis (Auswahl): Kolmogorov-Smirnov-Anpassungstest(c) Jung niedrig N Parameter der Normalverteilung(a,b) Mittelwert Jung mittel Jung hoch 6 6 6 14,33 14,00 33,5 Standardabweichung 3,327 1,414 41,03 Absolut ,178 ,142 -,178 ,167 ,167 -,167 ,453 -,309 Kolmogorov-Smirnov-Z ,435 ,408 1,11 Asymptotische Signifikanz (2-seitig) ,991 ,996 ,170 Extremste Differenzen Positiv Negativ ,453 a Die zu testende Verteilung ist eine Normalverteilung. b Aus den Daten berechnet. Interpretation: Die K+S-Tests für die Gruppen „jung, niedrig“, „jung, mittel“ „jung, hoch“ fallen alle nicht signifikant (p = 0,991; 0,996; 0,170) aus. Die H0 wird beibehalten. Die Normalverteilung in den 3 Gruppen ist gegeben. Anmerkung: Analog gibt SPSS die restliche 6 Gruppen aus (aus Platzgründen nicht angeführt), die ebenfalls alle nicht signifikant ausfallen müssen. Ad b) Homogenität der Varianzen: Die Homogenität der Varianzen wird im Zuge der Varianzanalyse durchgeführt (LeveneTest)! 52 Matthias Gabriel Varianzanalyse: Anwendung nur bei Erfüllung aller oben genannten Voraussetzungen! Befehl: Vorerst die Gruppierung nach Altersklassen für den K+S-Test aufheben! („Datei aufteilen...“) (siehe unter Punkt Normalverteilung) „Analysieren“ → „allgemeines linears Modell“ → „univariat“ → unter „abhängige Variable“ die AV eingeben (hier: Einstellung zur EU) → unter „feste Faktoren“ die UVn bzw. Faktoren eingeben (hier: Altersklassen und IQ-Klassen) → „Optionen“ → „Deskriptive Statistik“ und „Homogenitätstests“ anklicken → „weiter“ → „post hoc“ → unter „post hoc Test für“ beide Fakoteren (hier Altersklassen und IQ-Klassen) „hinzufügen“ und „Scheffe“ anklicken → „weiter“ → „Diagramme“ → unter „horizontale Achse“ einen Faktor eingeben (hier: Altersklasse) und unter „separate Linien“ den zweiten Faktor eingeben (hier IQ-Klasse) und „hinzufügen“ anklicken → „weiter“ → „ok“ Ergebnis: Tabelle 1: Levene-Test auf Gleichheit der Fehlervarianzen(a) Abhängige Variable: Einstellung zur EU F df1 df2 Signifikanz 5,090 8 45 ,000 Prüft die Nullhypothese, daß die Fehlervarianz der abhängigen Variablen über Gruppen hinweg gleich ist. a Design: Intercept+ALTER+IQ+ALTER * IQ Tabelle 2: Tests der Zwischensubjekteffekte Abhängige Variable: Einstellung zur EU Quelle Korrigiertes Modell Intercept ALTER IQ ALTER * IQ Fehler Quadratsumme vom Typ III 2754,926(a) 8 Mittel der Quadrate 344,366 35934,241 1 35934,241 184,009 ,000 1209,926 2 604,963 3,098 ,055 393,926 2 196,963 1,009 ,373 1151,074 4 287,769 1,474 ,226 195,285 df 8787,833 45 Gesamt 47477,000 54 Korrigierte Gesamtvariation 11542,759 53 a R-Quadrat = ,239 (korrigiertes R-Quadrat = ,103) 53 F 1,763 Signifikanz ,110 Matthias Gabriel Tabelle 3: Mehrfachvergleiche Abhängige Variable: Einstellung zur EU Scheffé (I) Intelligenzquotient niedrig (J) Intelligenzquotient mittel hoch mittel niedrig Standardfe hler 4,658 4,658 Signifikanz ,997 ,496 Untergrenze -11,46 -17,35 Obergrenze 12,13 6,24 -,33 4,658 ,997 -12,13 11,46 -5,89 5,56 5,89 4,658 4,658 4,658 ,456 ,496 ,456 -17,68 -6,24 -5,90 5,90 17,35 17,68 hoch hoch 95% Konfidenzintervall Mittlere Differenz (I-J) ,33 -5,56 niedrig mittel Basiert auf beobachteten Mittelwerten. Tabelle 4: Einstellung zur EU Scheffé Untergruppe Intelligenzquotient mittel N 1 18 23,72 niedrig 18 24,06 hoch 18 29,61 Signifikanz ,456 Die Mittelwerte für Gruppen in homogenen Untergruppen werden angezeigt. Basiert auf Typ III Quadratsumme Der Fehlerterm ist "Mittel der Quadrate (Fehler) = 195,285". a Verwendet Stichprobengrößen des harmonischen Mittels = 18,000 b Alpha = ,05 Tabelle 5: Mehrfachvergleiche Abhängige Variable: Einstellung zur EU Scheffé (I) Altersklassen jung (J) Altersklassen mittel alt mittel jung Standardfe hler 4,658 4,658 Signifikanz ,680 ,059 4,11 4,658 -7,33 11,44 7,33 4,658 4,658 4,658 alt alt 95% Konfidenzintervall Mittlere Differenz (I-J) -4,11 -11,44 jung mittel Untergrenze -15,90 -23,24 Obergrenze 7,68 ,35 ,680 -7,68 15,90 ,299 ,059 ,299 -19,13 -,35 -4,46 4,46 23,24 19,13 Basiert auf beobachteten Mittelwerten. Tabelle 6: Einstellung zur EU Scheffé Untergruppe Altersklassen jung N 1 18 20,61 mittel 18 24,72 alt 18 32,06 Signifikanz ,059 Die Mittelwerte für Gruppen in homogenen Untergruppen werden angezeigt. Basiert auf Typ III Quadratsumme Der Fehlerterm ist "Mittel der Quadrate (Fehler) = 195,285". a Verwendet Stichprobengrößen des harmonischen Mittels = 18,000 b Alpha = ,05 54 Matthias Gabriel Abbldung 1: Geschätztes Randmittel von Einstel 40 Geschätztes Randmittel 30 Intelligenzquotient 20 niedrig mittel hoch 10 jung mittel alt Altersklassen Interpretation: Nach den deskriptiven Statistiken werden folgende Tabellen ausgegeben: Tabelle 1: Der Levene F-Test weist einen p-Wert von 0,000 auf. Die Varianzen sind demnach nicht homogen! Die Ergebnisse der Varianzanalyse sind demnach mit Vorsicht zu geniesen(!), da eine Voraussetzung nicht erfüllt ist. Tabelle 2: Die Varianzanalyse ergibt für die 3 aufgestellten Hypothesen folgende Endresultate: Hypothese 1: Der p-Wert von 0,055 ist knapp nicht signifikant; zwischen den Altersklassen bestehen keine signifikanten Unterschiede bezüglich Einstellung zur EU. Die H01 wird beibehalten. Hypothese 2: Der p-Wert von 0,373 ist nicht signifikant; zwischen den IQ-Klassen bestehen keine signifikanten Unterschiede bezüglich Einstellung zur EU. Die H02 wird beibehalten. Hypothese 3: Der p-Wert von 0,226 ist nicht signifikant; es bestehen keine signifikanten Wechselwirkungen zwischen den Altersklassen und den IQ-Klassen. Die H03 wird beibehalten. 55 Matthias Gabriel Tabelle 3 und 4: Gibt den post hoc Scheffe Test wieder (vgl 5.2.1.2) für den Faktor IQ-Klasse. Da die Varianzanalyse für Faktor IQ-Klasse nicht signifikant ausgefallen ist, enthält auch der Scheffe Test keine signifikanten Ergebnisse. Tabelle 5 und 6: Gibt den Scheffe Tests für den Faktor Altersklassen wieder. Da die Varianzanalyse für Faktor Altersklasse ebenfalls nicht signifikant ausgefallen ist, ist auch hier der Scheffe Test sinnlos. Abildung 1: Gibt die Wechselwirkungen wieder. Da die Wechselwirkungen in der Varianzanalyse auch nicht signifikant ausgefallen sind, ist eine Interpretation von Wechselwirkungen des Faktors IQ und Alter nicht sinnvoll. Mögliche Interpretation: Junge Personen mit hohen IQ und ältere Personen unabhängig vom IQ sind positiver zur EU eingestellt als die anderen Gruppierungen. 5.1.3 Kruskal-Wallis-Test (mehr als 2 unabhängige Stichproben, parameterfrei) Definition: Wenn die Voraussetzungen für eine einfache Varianzanaylse nicht gegeben sind kann als gute Alternative der Kruskla-Wallis-Test herangezogen werden. Er zählt zu den parameterfreien Tests (da die Formulierung der Hypothesen nicht auf Parametern µ , x , σ 2 ... beruhen) und hat viel mildere Voraussetzungen bei nur geringem Machtverlust (ca. 95% der Macht der VA) . Im Unterschied zur einfachen Varianzanalyse wird hier nicht QT, QZ bzw. QI, sondern die mittleren Rangsummen der k Gruppen berechnet; dazu werden nicht die Messwerte herangezogen, sondern die Rangwerte aller Messwerte! (daher Rangvarianzanalyse) Beim Kruskal-Wallis-Test ist die Rangvarianz zwischen den Gruppen RZ = ∑ j n j (r. j − r.. ) 2 nj.....Stichprobenumfang der Gruppe j r. j ....mittlere Rangsumme der Gruppe j r.. ...mittlere Rangsumme gesamt k.....Anzahl der Gruppen ausreichend um Gruppenunterschiede zu testen. Die Prüfgröße H ist mit nj → ∞ asymptotisch χ 2 -verteilt 12 H= n (r − r.. ) 2 ∑ j j .j mit df = k-1 N ( N + 1) 56 Matthias Gabriel Voraussetzungen: • Mindestens rangskalierte Daten • Stetigkeit des Merkmals (keine qualtitativen bzw. nominalskalierten Variablen wie z.B: Geschlecht, Schulbildung...) • Unabhängige Stichproben Beispiel: Frage: Gibt es signifikante Unterschiede bezüglich der Bearbeitungszeit in einem Konzentrationstest in den Berufsgruppen A, B, C und D? Person 1 2 3 4 5 6 7 8 8 10 A 23 24 33 25 100 26 35 44 B 48 45 99 55 34 26 49 55 43 45 C 70 58 66 45 58 24 58 79 77 D 22 58 59 110 58 56 57 56 Variablen: UV: 4 Berufsgruppen AV: Bearbeitungszeit (quantitative Variable; aber Ausreißer(!), daher Intervallskala nicht gegeben) Da die Voraussetzung „Intervallskala“ der Varianzanalyse wegen der zahlreichen Ausreißer nicht gegeben ist, muss der Kruskal-Wallis-Test angewandt werden. Hypothesen: H0: Es bestehen keine signifikanten Unterschiede in den Berufsgruppen hinsichtlich der Bearbeitungszeit des Konzentrationstests. H1: Es bestehen signifikante Unterschiede in den Berufsgruppen hinsichtlich der Bearbeitungszeit des Konzentrationstests. Befehl: „Analysieren“ → „Nichtparametrische Tests“ → „K unabhängige Stichproben“ → „Gruppenvariable“ eingeben (hier: Berufsgruppe) → „Bereich definieren“ → „Minimum“ und „Maximum“ eingeben (hier 1 bzw. 4) → „weiter“ → unter „Testvariable“ die AV „hinzufügen“ (hier: Bearbeitungszeit) → „Kruskal-Wallis-H“ anklicken → „ok“ 57 Matthias Gabriel Ergebnis: Tabelle 1 Ränge Bearbeitungszeit Tabelle 2 Berufsgruppe Beruf 1 N 8 Mittlerer Rang 10,13 Beruf 2 10 15,75 Beruf 3 9 23,83 Beruf 4 8 22,13 Gesamt 35 Statistik für Test(a,b) Chi-Quadrat Bearbeitun gszeit 9,457 df Asymptotische Signifikanz 3 ,024 a Kruskal-Wallis-Test b Gruppenvariable: Berufsgruppe Interpretation: Tabelle 1 Gibt die mittleren Rangsummen der 4 Berufsgruppen bezüglich ihrer Bearbeitungszeit wieder. Wie ersichtlich weisen Gruppe 1 und 2 gegen Gruppe 3 und 4 deutlich Unterschiede in ihrer Bearbeitungszeit auf. Tabelle 2 Es bestehen signifikante Unterschiede zwischen Gruppe 1, 2, 3 und 4 bezüglich Bearbeitungszeit im Konzentrationstest. Der p-Wert von 0,024 ist kleiner als 0,05. Die H0 wird verworfen. Aufgrund der mittleren Ränge (Rangsumme/nj) erkennt man, dass Gruppe 1 und 2 durchschnittlich weniger Bearbeitungszeit benötigt als Gruppe 3 und 4. Da es beim Kruskal-Wallis-Test keine Kontraste bzw. post hoc Tests gibt, muss mittles der mittleren Rangsummen interpretiert werden. Anmerkung: eine Berechung der einfachen Varianzanalyse würde nicht signifikant ausfallen (p= 0,182, df1=3 df2=31), da die höhe der Ausreißer in die Mittelwerts- und Varianzberechnungen einfließen würde (weil mit den Messwerten selbst und nicht mit ihren Rangwerten gerechnet wird) und dadurch die Werte verzerrten! 58 Matthias Gabriel 5.1.4 Friedman-Test (mehr als 2 abhängige Stichproben, parameterfrei) Definition: Der Friedman-Test dient als Alternative falls die Voraussetzungen für die einfache Varianzanalyse für abhängige Stichproben nicht gegeben sind (Macht zur Varianzanalyse jedoch nur 64 - 95,5% je nach Gruppenanzahl). Der Friedman-Test rechnet im Gegensatz zur abhängigen Varianzanalyse nicht mit den Messwerten selbst, sondern mit den Rangzahlen der Messwerte in jeder der k Gruppen. Beim Friedman-Test ist ebenfalls die Rangvarianz zwischen den k Gruppen RZ = ∑ j (r. j − r.. ) 2 r. j ...mittlere Rangsumme der Gruppe j r.. ...mittlere Rangsumme gesamt k...Anzahl der Gruppen ausreichend um Gruppenunterschiede zu testen. Die Prüfgröße v ist mit n → ∞ asymptotisch χ 2 -verteilt 12 v= ∑ r. 2j − 3n(k + 1) mit df = k-1 nk (k + 1) j Voraussetzungen • Stetigkeit des Merkmals (nicht qualtitativ) • mindestens rangskalierte Daten • abhängige Stichproben Beispiel Frage: 16 Personen mussten 4 Politiker nach persönlicher Beliebtheit rangreihen (hohe Werte stehen für hohe Beliebtheit). Gibt es in dieser Stichprobe signifikante Unterschiede in der Beliebtheit der 4 Politiker? 59 Matthias Gabriel Politiker 1 2 3 4 5 6 7 8 9 11 12 13 14 15 16 Person A 1 3 4 2 3 2 3 2 1 2 1 2 3 2 3 B 3 2 3 3 2 3 2 3 4 3 2 1 2 3 2 C 4 4 2 4 4 4 4 1 3 4 3 3 4 4 1 D 2 1 1 1 1 1 1 4 2 1 4 4 1 1 4 Variablen: Faktorstufen: 4 Politiker Abhängige Variable: Rangwerte der Politiker Da die AV auf einer Rangreihung basiert (=Rangskala und keine Intervallskala), muss statt der Varianzanalyse der Friedman-Test herangezogen werden. Da jede Person jedem der 4 Politiker einen Rangwert zuornet, ist die Stichprobe abhängig. Befehl „Analysieren“ → „Nichtparametrische Tests“ → „K verbundene Stichproben“ → „Friedman“ wählen → unter „Testvariablen“ die k abhängigen Gruppen eingeben (hier: Politiker A, B, C, D)→ „ok“ Ergebnis: Tabelle 1 Ränge A Mittlerer Rang 2,27 B 2,53 C 3,27 D 1,93 Tabelle 2 Statistik für Test(a) N Chi-Quadrat df Asymptotische Signifikanz 15 8,680 3 ,034 a Friedman-Test 60 Matthias Gabriel Interpretation: Tabelle 1 Gibt die mittleren Rangsummen der Bewertung der 4 Politiker wieder. Wie ersichtlich weisen Politiker A und B ähnliche mittlere Rangwerte auf, während Politiker C besser und Politiker D schlechter bewertet wird. Tabelle 2 Es bestehen signifikante Unterschiede zwischen den Bewertungen der 4 Politiker. Der pWert von 0,034 ist kleiner als 0,05. Die H0 wird verworfen. Aufgrund der mittleren Ränge erkennt man, dass Politiker D am schlechtesten, Politker A und B durchschnittlich und Politiker C am besten bewertet wurde. 61 Matthias Gabriel 6 Die Reliabilitätsanalyse Tests bzw. Fragebögen müssen bestimmte Gütekriterien erfüllen. Die drei wichtigsten sind 6.1 Objektivität Objektivität beschreibt den Grad der Unabhängigkeit des Tests vom Versuchsleiter. Theoretisch bedeutet diese Annahme, dass alle Versuchsleiter zum gleichen Ergebnis kommen müssen. Dies ist aber aufgrund der Testwiederholungseffekte in der Psychologie nicht möglich. Die Objektivität ist abhängig von der Art bzw. Konstruktion der Items, von der Durchführung, der Auswertung und der Interpretation des Tests bzw. Fragebogens. 6.2 Validität (Gültigkeit) gibt den Grad der Genauigkeit an, mit dem ein Test das zu testende Merkmal tatsächlich misst. Sie ist das wichtigste Gütekriterium und gleichzeitig am schwierigsten zu prüfen. Mögliche Frage: „Misst der Test bzw. Fragebogen auch wirklich die Eigenschaft(en)/Fähigkeiten, die er angibt, messen zu können?“ • Inhaltliche Gültigkeit: wenn der Test quasi definitionsgemäß das optimale Kriterium des interessierenden Merkmals ist. Diese Annahme wird meist mittels „ExpertenRating“ überprüft: Jedes Item wird kontrolliert, ob es tatsächlich die gewünschte Eigenschaft, die der Test bzw. Fragebogen messen soll, misst. • Konstruktvalidität wenn ein Test nicht nur praktische sondern auch theoretische Vorstellungen, Kriterien erfüllt. (Modelle, Theorien, Konstrukte) Klassische Methode: Faktorenanalyse • Kriteriumsvalidität Diese Validität sollte den eigentlichen Grad der Genauigkeit auf statistischem Wege überprüfen; z.B. die Korrelation des Tests mit dem zu testenden Kriterium. 6.3 Reliabilität Die Reliabilität ist der Grad der Genauigkeit, Zuverlässigkeit mit der ein Test ein Merkmal misst. Unabhängig davon, was gemessen wird, sollten die Testwerte einer Person bei Messwiederholungen übereinstimmen. Diese theoretische Reproduzierbarkeit unter gleichen Bedingungen ist in der Praxis nicht 100%ig möglich. (Wiederholungseffekte) Die Reliabilität wird mit dem Reliabilitätskoeffizienten gemessen. Folgende Arten der Reliabilität werden unterschieden: 6.3.1 Paralleltest-Reliabilität Idee: Testwiederholung hat Wiederholungseffekte, aber die erneute Testung mit einem identen, äquivalenten Paralleltest würde diesen unerwünschten Effekt minimieren.. Die Korrelation des Tests mit seinem Paralleltest r(X, X`) ergibt die Reliabilität. X....Test 1 X`...zu Test 1 äquivalenter Test 2 62 Matthias Gabriel Problem: Die Konstruktion eines identen Paralleltests ist mittels klassischer Testtheorie problematisch, jedoch mit neuen Methoden / Ansätzen (probabilistische Testtheorie, ItemResponse-Theorie) durchaus möglich. 6.3.2 Retest-Reliabilität (=Stabilität) Idee: Eine Wiederholung des gleichen Tests nach einem bestimmten Zeitraum (z.B: 4 Wochen) und eine anschließende Korrelation r(X, X`) liefert relevante Informationen zur Stabilität des Tests und der gemessenen Eigenschaft. → „Stabilitätsgebung“ X....Test X zum Zeitpunkt 1 X`...Test X zum Zeitpunkt 2 6.3.3 Innere Konsistenz Definition: Die Homogenität (Gleichheit) der Items wird überprüft. Alle Items müssen zusammenpassen und eine gemeinsame Dimension/Eigenschaft messen. Beispiel: 20 Mathematikitems sollen eine Dimension messen: mathematische Fähigkeit. Um die Homogenität der Items zu überprüfen gibt es eine Reihe an Verfahren und Prüfgrößen. Faustregeln: Wenig Homogenität der Items → schlechte Reliabilität Je ähnlicher die Items und je länger der Test desto besser ist die Reliabilität (Die Reliabilität ist abhängig von der Anzahl der Items!) Eine Reliabilität > 0,8 kann als zufriedenstellend bezeichnet werden. 0,8-0,9...zufriedenstellend >0,9....hohe Reliabilität >0,5... ist für Gruppenvergleiche noch zulässig Methoden der Reliabilitätsmessung: 1) Split-Half-Methode Definition: Der Test wird aufgrund eines splitting points in 2 Teile geteilt (z.B: hoher/niedriger Rohscore) und korreliert. Die zugrundeliegende Idee ist, den Test intern in 2 Paralleltests zu teilen und die Ähnlichkeit (Korrelation) der beiden internen Tests zu berechnen. Anmerkung: Im SPSS wird die erste Testhälfte der zweiten gegenübergestellt. 2) Cronbach alpha Definition: Cronbach Alpha gibt die untere Schranke der Reliabilität an. Die wahre Reliabilität ist größer oder gleich dem Alpha-Wert. 63 Matthias Gabriel Anmerkung: Bei dichotomen Items wird automatisch die Kuder-Richardson-Formel benützt. 3) Guttman Der Guttman-Wert stellt die Korrektur des Cronbach-Alpha-Wertes dar. 4) Parallel Wird dann verwendet, wenn die Annahme besteht, dass die Items dieselbe Varianz besitzen. 5) Strikt parallel Unter der Annahme, dass die Items gleiche Varianz und gleichen Mittelwert besitzen. Beispiel 1: Reliabilität mittels (Cronbach) Alpha Zur Verfügung steht ein Allgemeinwissenstest mit 9 Kategorien (Geschichte, Geographie, Technik, Chemie, Biologie, Kunst, Kultur, Wirtschaft und Sport) mit je 3 Items; also insgesamt 27 Items. Das Antwortformat ist 4-kategoriell und eine Antwort ist richtig. Die Frage ist nun die Homogenität der Items, also die Reliabilität. Befehl „Analysieren“ → „Skalieren“ → „Reliabilitätsanalyse...“ → die gewünschten Items in das Feld „Items“ geben (hier: 27 Items) → bei „Modell“ „Alpha“ wählen → „Statistik“ → „Skala wenn Item gelöscht“ wählen und bei „ANOVA-Tabelle“ „Keine“ → „weiter“ → „ok“ 1. Ergebnis R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A) Item-total Statistics GESCHPO1 GESCHPO2 GESCHPO3 GEOREIS1 GEOREIS2 GEOREIS3 TECHWIS1 TECHWIS2 TECHWIS3 CHEMED1 CHEMED2 CHEMED3 NATBIO1 NATBIO2 NATBIO3 KUNST1 KUNST2 KUNST3 KULTUR1 KULTUR2 Scale Mean if Item Deleted Scale Variance if Item Deleted 14,2700 14,8500 14,5300 14,5800 14,9600 14,7100 14,3800 14,7600 14,8800 14,3500 14,4700 14,3100 14,4700 14,6400 14,4500 14,9300 14,4700 14,5200 14,5000 14,7100 15,3506 15,5631 14,0294 14,7309 15,7762 15,3999 14,9248 14,6489 14,7127 15,3813 15,6254 15,2868 14,4334 15,0610 14,3914 15,2173 14,8981 15,2016 14,6768 14,8140 Corrected ItemTotal Correlation ,2663 ,0543 ,4872 ,2718 ,0115 ,0867 ,2999 ,2881 ,2987 ,1650 ,0462 ,2351 ,3957 ,1759 ,4210 ,1693 ,2561 ,1544 ,3091 ,2400 64 Alpha if Item Deleted ,6730 ,6882 ,6497 ,6693 ,6898 ,6862 ,6682 ,6677 ,6671 ,6779 ,6881 ,6737 ,6590 ,6781 ,6572 ,6780 ,6709 ,6796 ,6662 ,6722 Matthias Gabriel KULTUR3 WIRTSCH1 WIRTSCH2 WIRTSCH3 SPORT1 SPORT2 SPORT3 14,6000 15,1200 14,6700 14,4600 14,8100 14,7400 14,8000 14,9697 16,0057 14,8092 14,9378 14,9029 14,1539 15,4343 ,2039 -,0378 ,2413 ,2485 ,2265 ,4226 ,0829 ,6755 ,6875 ,6721 ,6716 ,6734 ,6549 ,6862 Reliability Coefficients N of Cases = Alpha = 100,0 N of Items = 27 ,6819 Interpretation 1. Spalte: “Scale mean if item deleted” Gibt den Skalenmittelwert wieder, wenn das betroffene Item ausselektiert wird. 2. Spalte: „Scale variance if Item deleted“ Gibt die Skalenvarianz wieder, wenn das betroffene Item ausselektiert wird. 3. Spalte: „corrected Item-total correlation“ Bezeichnet die korrigierte Trennschärfe des Items. Die Trennschärfe ist die Korrelation des Items i mit dem Gesamttest X → r(i; X) Die korrigierte Trennschärfe ist die Korrelation des Items i mit dem Gesamttest X ohne dem Item i → r*(i; X*) mit X*=X ohne i. Eine hohe Trennschärfe weist darauf hin, dass das Item gut zu den anderen passt. Eine Trennschärfe von 1 bedeutet, dass das Item so gut misst wie der gesamte Test. Items mit niedrigen Trennschärfen (um 0) und vor allem negativen Trennschärfen werden ausselektiert, da sie nicht der Dimension der restlichen Items entsprechen! Im Beispiel: Item „Wirtsch1“ hat eine negative Trennschärfe und wird im nächsten Schritt auf jeden Fall ausselektiert. Einige andere Items weisen eine Trennschärfe um Null auf. 4. Spalte: „Alpha if Item deleted“ Gibt den Reliabilitätswert an, im Falle, dass das Item ausgeschlossen wird. Wenn Item „Wirtsch1“ ausselektiert wird, erhöht sich die Reliabilität minimal (auf: 0,6875). Reliability coefficients: Alpha: Alpha, der Reliabilitätskoeffizient stellt nun die Prüfgröße dar. Das Alpha von 0,6819 aus dem Beispiel liegt unter der erwünschten Schranke von 0,8. Die Reliabilität der 27 Items ist daher nur mäßig gut. Natürlich stellt sich in diesem Beispiel allgemein die Frage der Eindimensionalität der Items!!! Weiterer Vorgang Die Reliabilität wird erneut berechnet, jedoch ohne dem Item „Wirtsch1“. 65 Matthias Gabriel 2. Ergebnis R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A) Item-total Statistics GESCHPO1 GESCHPO2 GESCHPO3 GEOREIS1 GEOREIS2 GEOREIS3 TECHWIS1 TECHWIS2 TECHWIS3 CHEMED1 CHEMED2 CHEMED3 NATBIO1 NATBIO2 NATBIO3 KUNST1 KUNST2 KUNST3 KULTUR1 KULTUR2 KULTUR3 WIRTSCH2 WIRTSCH3 SPORT1 SPORT2 SPORT3 Scale Mean if Item Deleted Scale Variance if Item Deleted 14,2000 14,7800 14,4600 14,5100 14,8900 14,6400 14,3100 14,6900 14,8100 14,2800 14,4000 14,2400 14,4000 14,5700 14,3800 14,8600 14,4000 14,4500 14,4300 14,6400 14,5300 14,6000 14,3900 14,7400 14,6700 14,7300 15,3333 15,5875 14,0893 14,7373 15,7959 15,3438 14,9231 14,7009 14,7211 15,3754 15,6768 15,2954 14,4444 15,0355 14,3794 15,2125 14,8889 15,2197 14,6516 14,8388 14,9991 14,8485 14,9474 14,9014 14,1627 15,4516 Corrected ItemTotal Correlation ,2800 ,0509 ,4728 ,2732 ,0092 ,1042 ,3043 ,2771 ,2996 ,1712 ,0351 ,2363 ,3958 ,1857 ,4283 ,1741 ,2622 ,1526 ,3198 ,2365 ,1991 ,2339 ,2490 ,2300 ,4233 ,0814 Alpha if Item Deleted ,6781 ,6942 ,6573 ,6752 ,6957 ,6905 ,6738 ,6748 ,6730 ,6833 ,6947 ,6794 ,6651 ,6831 ,6627 ,6835 ,6763 ,6856 ,6713 ,6785 ,6818 ,6787 ,6774 ,6790 ,6610 ,6921 Reliability Coefficients N of Cases = Alpha = 100,0 N of Items = 26 ,6875 Interpretation Die verbleibenden 26 Items ergeben eine Reliabilität von Alpha = 0,6875, welches auch kleiner 0.8 ist. Einige Trennschärfen sind noch um 0 („fett“ markiert), negative Trennschärfen gibt es jedoch keine. Das Weglassen der Items mit niedriger Trennschärfe würde jedoch die Reliabilität nur unwesentlich steigern (z.B: eine Selektion des Items „Georeis2“ würde Alpha nur auf 0,6957 heben), daher ergibt sich folgendes Endresultat: 26 Items weisen eine Reliabilität von 0,6875 auf, der Grad der Homogenität der Items ist daher nur mäßig. 66 Matthias Gabriel Beispiel 2: Reliabilität mittels split half Methode Die Berechnungsschritte sind gleich wie im Beispiel 1; lediglich das „Modell“ ändert sich auf „Split half“. Ergebnis: R E L I A B I L I T Y A N A L Y S I S - S C A L E (S P L I T) Item-total Statistics Scale Mean if Item Deleted Scale Variance if Item Deleted Corrected ItemTotal Correlation Alpha if Item Deleted GESCHPO1 14,2000 15,3333 ,2800 ,6781 GESCHPO2 14,7800 15,5875 ,0509 ,6942 GESCHPO3 14,4600 14,0893 ,4728 ,6573 Usw-----------------usw------------------usw----------------usw--Reliability Coefficients N of Cases = 100,0 N of Items = 26 Correlation between forms = ,5457 Equal-length Spearman-Brown = ,7061 Guttman Split-half = Unequal-length Spearman-Brown =,7061 ,7014 13 Items in part 1 13 Items in part 2 Alpha for part 1 = ,4828 Alpha for part 2 = ,5440 Interpretation split half Reliabilität für die halbe • Correlation between forms = ,5457 Itemanzahl (n=13). Wie aus der Testtheorie bekannt muss die split half Reliabilität auf die doppelte Länge (n=26) aufgewertet werden. Dies geschieht durch... • Equal-length Spearman-Brown = ,7061 Unequal-length Spearman-Brown = ,7061 Aufwertung der split half Rel. Für a) gleiche Länge der beiden Testteile b) unterschiedliche Länge der beiden Testhälften • Guttman Split-half = ,7014 Noch eine andere Methode der Reliabilitätsberechnung. Das Ergebnis ist ähnlich dem Resultat aus Beispiel 1, die Berechnungsmethoden führen in der Regel auch zu ähnlichen Ergebnissen. 67 verschiedenen Matthias Gabriel 7 Die Faktorenanalyse 7.1 Grundidee Die Faktorenanalyse ist ein Verfahren zur Datenreduktion. Es wird versucht, die zwischen den Variablen/Items/Fragen bestehenden (Inter)Korrelationen zu erklären, indem latente Faktoren angenommen werden, welche den beobachteten Variablen zugrunde liegen. Ziel ist die Anzahl der resultierenden Faktoren wesentlich geringer zu halten, als die Anzahl der Variablen/Items; daher Datenreduktion, Informationszusammenfassung. Man versucht also Faktoren zu finden, welche die Korrelationen zwischen den Items erklären. Nach Extrahieren dieser Faktoren müssen die Interkorrelationen der Items/Variablen in der Korrelationsmatrix wesentlich niedriger werden (oder sogar um 0 sein, falls die Varianz bzw. Korrelationen zum Großteil durch die latenten Faktoren erklärt wird). Die Faktorenanalyse ist also ein datenreduzierendes, „klassifizierendes“ Verfahren. 7.2 Stichworte Beispiel Faktorenextraktion: Bei 5 Variablen resultieren in diesem Beispiel 3 latente Faktoren. Variablen i Faktorladung Faktor 2 a12 Faktorladung Faktor3 a13 Kommunalität hi2 Variable 1 Faktorladung Faktor 1 a11 Variable 2 a21 a22 a23 a212 + a22 2 + a232 Variable 3 a31 a32 a33 a312 + a32 2 + a332 Variable 4 a41 a42 a43 a412 + a42 2 + a432 Variable 5 a51 a52 a53 a512 + a52 2 + a532 Eigenwerte a112 + a212 + a312 a12 2 + a22 2 + a32 2 a132 + a232 + a332 + a412 + a512 + a42 2 + a52 2 + a432 + a532 a112 + a12 2 + a132 Faktorladung: ist die Korrelation der beobachteten Variable i mit dem Faktor j; aij = r ( X i ; F j ) 2 Quadrat der Faktorladung aij gibt den erklärten Varianzanteil einer Variable i an, der durch den einen Faktor j beschrieben wird. Kommunalität ist die Summe der Quadrate der Ladungen der k Faktoren in einer Variablen i, also jener Varianzanteil einer Variablen i, der durch alle k Faktoren erklärt wird k k 0 ≤ ∑ aij 2 ≤ 1 -> zeilenweise summiert! Weiters gilt: 0 ≤ ∑ aij 2 ≤ 1 j j 68 Matthias Gabriel Eigenwert λ j ist die Summe der Quadrate der Faktorenladungen eines Faktors j in allen m Variablen, also der erklärte Varianzanteil aller Variablen durch einen Faktor j. m ∑ aij 2 -> spaltenweise summiert! i Markervariablen werden zur Interpretation der Faktoren herangezogen. Das sind jene (manifeste) Variablen, in denen die Ladungen der (latenten) Faktoren (positiv oder negativ) hoch sind. Jede Variable hat einen Varianzanteil von 1. Ausgangspunkt der Faktorennanalyse ist die Interkorrelationsmatrix, also jede Variable mit jeder (auch mit sich selbst = Hauptkomponente) korreliert (siehe Abbildung 1 unten). 7.3 Bestimmung der Faktorenanzahl bzw. Abbruchkriterium 2) Restkorrelation: Wenn die Restkorrelationen nach der Faktorenextraktion um 0 schwanken, wird abgebrochen. 3) Eigenwerte (Kaiser-Guttman-Kriterium): In der Praxis werden meist jene Faktoren verwendet mit einem Eigenwert (erklärten Varianzanteil) > 1 (da ein Faktor mit einem Eigenwert < 1 weniger erklären würde als eine Variable) Nachteil: Bei großen Variablenanzahlen führt dies zu zu vielen Faktoren. 4) Eigenwertdiagramm (Screeplot): die Eigenwerte werden in einem Diagramm dargestellt. Wenn ein großer Abfall des Eigenwertes von einem zum nächstkleineren Faktor beobachtet wird, wird an dieser Stelle die Faktoranzahl festgelegt (also alle Faktoren vor dem „Knick“) (siehe Abbildung 2 unten). 7.4 Voraussetzungen der FA 1) Die FA setzt strenggenommen quantitative Daten voraus (dichotome bzw. polytome Daten führen zu artifiziellen Faktoren; also Schwierigkeitsfaktoren) 2) Idealer Weise sollte das Skalenniveau der Variablen mindestens Intervallskala aufweisen und die Korrelationen in Form von Produkt-Moment-Korrelationen berechnet werden. 3) Die manifesten, beobachteten Variablen müssen zusammenhängen (Interkorrelationsmatrix), sonst macht es keine Sinn latente Faktoren, die den Zusammenhang beschreiben sollen, zu extrahieren. Messung vor der FA mittels Bartlett-Test: Es wird überprüft, ob die Korrelationsmatrix signifikant von der Einheitsmatrix abweicht. 4) Die Stichprobe muss groß und repräsentativ sein. 69 Matthias Gabriel Abbildung 1: Interkorrelationsmatrix von 5 Variablen mit sehr hohen Korrelationen Korrelationsmatrix Korrelation ITEM1 ITEM1 1,000 ITEM2 ,807 ITEM3 ,928 ITEM4 ,948 ITEM5 ,992 ITEM2 ,807 1,000 ,923 ,789 ,812 ITEM3 ,928 ,923 1,000 ,886 ,941 ITEM4 ,948 ,789 ,886 1,000 ,964 ITEM5 ,992 ,812 ,941 ,964 1,000 7.5 Probleme der FA 1) 2) 3) 4) 5) Wie viele Faktoren sollen extrahiert werden? Wie benenne ich die Faktoren? (inhaltliche Begründungen) Die Faktorenanalyse ist stark stichprobenabhängig Das Modell der FA ist nicht prüfbar Wie sollen die Faktoren rotiert werden, um eine optimale Lösung zu erhalten? Trotzdem ist die FA ein wichtiges und häufig verwendetes Verfahren in der (klassischen) Testtheorie bzw. Testkonstruktion. 7.6 Berechnung der FA mittels SPSS Zur Verfügung steht ein Mathematiktest mit 20 Items. Befehl → „Analysieren“ → „Dimensionsreduktion“ → „Faktorenanalyse...“ → in „Variablen“ die gewünschten Variablen/Items hinzufügen (hier: 20 Items) → „deskriptive Statistik“ → unter „Korrelationsmatrix“ „Koeffizienten“ wählen und „Anfangslösung“ anklicken→ „weiter“ → „Extraktion“ → bei „Methode“ „Hauptkomponenten“ wählen; weiters „Korrelationsmatrix“, „nicht rotierte Faktorenlösung“, „Screeplot“ und „Eigenwerte größer als 1“ anklicken → „weiter“ → „Rotation“ → „Varimax“ und „rotierte Lösung“ anklicken → „weiter“ → „Optionen“ → „Listenweiser Fallausschluss“ und „sortiert nach Größe“ wählen → “weiter“ → „ok“ Ergebnis Nach der Interkorrelationsmatrix werden folgende Tabellen ausgegeben: Tabelle1 Kommunalitäten Anfänglich Extraktion Item 1 1,000 ,609 Item 2 1,000 ,526 Item 3 1,000 ,507 Item 4 1,000 ,461 Item 5 1,000 ,788 Item 6 1,000 ,634 Item 7 1,000 ,693 Item 8 1,000 ,643 Item 9 1,000 ,673 Item 10 1,000 ,544 Extraktionsmethode: Hauptkomponentenanalyse. 70 Matthias Gabriel Tabelle 2 Erklärte Gesamtvarianz Anfängliche Eigenwerte Summen von quadrierten Rotierte Summe Faktorladungen für Extraktion quadrierten Ladungen Kompone Gesamt % der Kumuliert Gesamt nte Varianz e % 1 1,494 14,939 14,939 1,494 2 1,256 12,557 27,497 1,256 3 1,175 11,749 39,245 1,175 4 1,091 10,912 50,157 1,091 5 1,061 10,614 60,771 1,061 6 ,938 9,378 70,149 7 ,851 8,513 78,662 8 ,779 7,795 86,457 9 ,705 7,052 93,509 10 ,649 6,491 100,000 Extraktionsmethode: Hauptkomponentenanalyse. % der Kumuliert Varianz e % 14,939 14,939 12,557 27,497 11,749 39,245 10,912 50,157 10,614 60,771 Abbildung 2 Screeplot 1,6 1,4 1,2 Eigenwert 1,0 ,8 ,6 1 2 3 4 5 6 7 8 9 10 Faktor Tabelle 3 Komponentenmatrix Komponente 1 2 3 4 Item 3 -,693 ,157 -4,256E-02 -7,959E-03 Item 2 ,614 ,295 ,101 6,304E-02 Item 6 -,465 ,406 ,175 ,438 Item 7 2,734E-02 -,659 5,151E-02 ,163 Item 9 8,000E-02 ,614 -,277 2,553E-02 Item 1 ,228 ,173 ,594 2,363E-02 Item 5 -7,245E-02 ,102 ,591 ,387 Item 4 ,318 ,249 -,489 ,240 Item 8 ,430 -,173 -3,403E-02 ,581 Item 10 -,265 -,186 -,334 ,569 Extraktionsmethode: Hauptkomponentenanalyse. a 5 Komponenten extrahiert 71 5 1,208E-02 ,219 -,173 ,478 ,460 -,417 ,523 -3,738E-02 -,299 -6,558E-02 Gesamt 1,411 1,231 1,179 1,139 1,117 der % der Kumuliert Varianz e % 14,112 14,112 12,308 26,420 11,787 38,207 11,391 49,598 11,173 60,771 Matthias Gabriel Tabelle 4 Rotierte Komponentenmatrix Komponente 1 2 3 4 5 Item 6 ,700 ,105 ,259 ,160 ,199 Item 3 ,650 -4,925E-02 -,131 -,254 -1,043E-02 Item 2 -,463 ,449 ,236 9,726E-02 ,211 Item 9 6,500E-02 ,788 -,100 -,168 ,100 Item 4 -8,754E-02 ,494 -7,510E-02 ,371 -,259 Item 1 -8,325E-02 -,195 ,734 7,337E-02 ,141 Item 7 -,280 -,325 -,578 ,102 ,404 Item 8 -,186 -4,302E-02 ,139 ,766 2,988E-02 Item 10 ,379 -3,857E-02 -,357 ,521 -1,521E-02 Item 5 9,099E-02 6,702E-02 5,523E-02 -1,967E-02 ,878 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Normalisierung. a Die Rotation ist in 29 Iterationen konvergiert. Varimax mit Kaiser- Interpretation 1) Tabelle 1 Gibt die Kommunalitäten wieder (siehe 7.2). Zeilenweise wird also angegeben, wieviel Varianz von jeder Variablen durch alle extrahierten Faktoren erklärt wird. 1) Tabelle 2 • Die Spalte „anfängliche Eigenwerte“ gibt unter „Gesamt“ die Eigenwerte (siehe 7.2) der Faktoren wieder. Die Faktoren werden sukzessiv extrahiert, d.h. nach ihrem Eigenwert bzw. Erklärungswert gerangreiht (beginnend mit dem größten). Wie zu erkennen ist, haben die ersten 5 Faktoren einen Eigenwert über 1, diese werden auch für die spätere Berechnung herangezogen. • In der Spalte „% der Varianz“ kann die erklärte Varianz des Faktors abgelesen werden. Da jede Variable einen Varianzanteil von 1 hat ist der Prozentsatz des Eigenwertes eines Faktors gleich seinem Eigenwert durch die Gesamtvarianz (hier bei 10 Items Gesamtvarianz = 10); beispielsweise beim ersten Faktor 1,494/10 = 14,94% der Gesamtvarianz. • In der Spalte „kumulierte %“ kann die von Faktor zu Faktor aufsummierte Gesamtvarianz abgelesen werden. In diesem Beispiel erklären alle 5 Faktoren mit einem Eigenwert >1 60,771% der Gesamtvarianz. • Die Spalte „Summen von quadrierten Faktorladungen für Extraktion“ gibt das gleiche wie die erste Spalte wieder, jedoch beschränkt auf die Faktoren mit einem Eigenwert über 1. • Die Spalte „Rotierte Summe der quadrierten Ladungen“ gibt die (optimale) Faktorenlösung nach der Varimax-Rotation wieder. In unserem Beispiel sind sie den Werten der unrotierten Lösung sehr ähnlich. 2) Abbildung 2 (Screeplot) Das Diagramm zeigt den Abfall der Eigenwerte der Faktoren. In unserem Beispiel ist ein großer Abfall nach Faktor 1 und ein weiterer beobachtbarer nach Faktor 5 zu erkennen. Wir beenden die Anzahl der Faktoren bei Faktor 5. 72 Matthias Gabriel 3) Tabelle 3 und 4 Diese beiden Tabellen geben die Faktorladungen (siehe 7.2) wieder. Alle 5 Faktoren laden in den 10 Variablen unterschiedlich. Tabelle 2 gibt die unrotierte, Tabelle 3 die rotierte Lösung wieder. Die rotierte Komponentenmatrix ist leichter interpretierbar, da die Ladungen extremisiert werden. Die Ladungen sind geordnet, d.h dass zuerst die Variablen (zeilenweise) dargestellt werde, die in Faktor 1 hoch laden, dann jene Variablen , die in Faktor 2 hoch laden... Die fette Zickzacklinie (nicht von SPSS ausgegeben!) veranschaulicht, welche Faktoren in welchen Markervariablen (siehe 7.2) hoch laden. Faktor 1 lädt in den (Marker)Variablen Item6 und Item3 Faktor 2 lädt in den (Marker)Variablen Items 2, 9, 4 Faktor 3 lädt in den Items 1 und 7 Faktor 4 lädt in den Items 8 und 10 Faktor 5 lädt im Item 5 Bei der Namensgebung bzw. Interpretation der Faktoren müssen die Variablen, die in den betreffenden Faktoren hoch laden berücksichtigt werden. Beispiel: Angenommen, die Items 6 und 3 wären Gleichungsaufgaben, dann könnte der Faktor 1 beispielsweise „lineare Gleichungen“ benannt werden. Variationen • Abbruchkriterium der Faktorenextraktion: statt Eigenvektor > 1 kann auch eine selbst definierte Anzahl an Faktoren gewählt werden (z.B: 3 Faktoren) → „Extraktion“ → „Anzahl der Faktoren“ wählen • Überprüfung, ob die Variablen überhaupt signifikant korrelieren: wenn nicht, ist eine FA sinnlos. → „deskriptive Statistik“ → „KMO und Bartlett Test auf Sphärizität“ wählen. Ist die Signifikanz nach Bartlett im Output kleiner als 0,05 ist das Ergebnis signifikant -> eine FA ist daher sinnvoll, weil die Variablen signifikant miteinander korrelieren und die beobachtete Korrelationsmatrix signifikant von der Einheitsmatrix abweicht. • In der Komponentenmatrix (vgl. Tabelle 3 und 4) können die Korrelationen/Ladungen um Null ausgeblendet werden, um einen besseren Überblick zu erhalten. → „Optionen“ → „Unterdrückung von Absolutwerten kleiner als ...0,1“ wählen • unter „Rotation“ können „Ladungsdiagramme“ erstellt werden, die die Variablen/Items im rotierten Faktorenraum darstellen . 73