Bitte gib dieses Skript weiter wenn es gebraucht wird und ergänze was fehlt oder unrichtig ist. Betrachte es als open source Projekt SPSS SS2013 (Leidlmeyer, Unterrainer) 1 Fragebogen ausfüllen ................................................................................................................................................ 2 2 Kodierschema erstellen ............................................................................................................................................ 2 3 Daten eingeben ......................................................................................................................................................... 2 4 Daten aus Excel eingeben ......................................................................................................................................... 3 5 Auf Fehler überprüfen .............................................................................................................................................. 3 6 Sortieren ................................................................................................................................................................... 4 7 Fälle und Variablen löschen oder kopieren .............................................................................................................. 4 8 Fälle(neue Versuchspersonen) hinzufügen ............................................................................................................... 4 9 Variablen hinzufügen ................................................................................................................................................ 4 10 Transformieren von Daten .................................................................................................................................... 5 11 Altersgruppen bilden ............................................................................................................................................ 5 12 Variablen umkodieren .......................................................................................................................................... 6 13 Automatisches Umkodieren ................................................................................................................................. 7 14 Bestimmte Fälle auswählen .................................................................................................................................. 8 15 Datei aufteilen....................................................................................................................................................... 9 16 Variablensets definieren ..................................................................................................................................... 10 17 Skalenbildung ...................................................................................................................................................... 12 18 Unterschiedshypothesen .................................................................................................................................... 13 19 Unterschiedshypothesen bei 2 abhängige Stichproben: T-Test ......................................................................... 19 20 Parameterfreie Verfahren für 2 abhängigen Stichproben .................................................................................. 20 21 Hypothesenübung ............................................................................................................................................... 22 22 Unterschiedsprüfung von mehr als 2 Stichproben: Varianzanalyse ................................................................... 24 23 Kruskal-Wallis-H-Test: ......................................................................................................................................... 32 24 Zusammenhangshypothesen .............................................................................................................................. 34 25 Einfache lineare Regression: ............................................................................................................................... 36 26 Spearman-Korrelationskoeffizent ....................................................................................................................... 38 27 Pearsons Produkt-Moment-Korrelation ............................................................................................................. 38 28 Explorative Faktorenanalyse ............................................................................................................................... 39 29 Multiple Regressionsanalyse............................................................................................................................... 39 30 Phi-Koeffizient und Chi-Quadrat ......................................................................................................................... 43 31 Mediatoren ......................................................................................................................................................... 44 1 Syntax wozu? Bei gewissen Funktionen ist es wichtig, Syntaxbefehle auszuführen, damit sie wiederholbar sind (Skalenbildung, Alter in Jahren u.ä.): Option mit Syntaxdatei (also mausgesteuert arbeiten und die Syntax speichern kann ich Syntaxdatei reinladen Mehrfachantworten: Variable ist eine Frage mit mehreren Antwortmöglichkeiten, die sich gegenseitig ausschließen. Es gibt auch Fragen, bei denen sich die Antworten nicht ggseitig ausschließen (z.B. abonnierte Zeitungen, 1,2,3, Pb hat 2 Zeitungen jede Antwortmöglichkeit ist eigene Variable, deren Antwortmöglichkeiten sind jeweils ja oder nein). 1 Fragebogen ausfüllen Fragebogen: Um die Zuordnung Messzeitpunkt 1+2 zu ermöglichen, wurde Geburtsdatum und Name der Mutter angegeben, außerdem gutes Anonymisierungsinstrument (gut merkbar und bleibt gleich) 2 Kodierschema erstellen Wichtig um Ergebnisse interpretieren zu können Codierten Fragebogen kreieren: Kurzbezeichnung für jedes Item in Zeile einfügen (so kann man schnell Variablen ansteuern) 3 Daten eingeben SPSS starten, DATEN EINGEBEN VARIABLENANSICHT: Langtext ist für Lesbarkeit 1. Variable ist immer die Versuchspersonennummer! Auf dem Fragebogen eine Nummer machen, identisch mit Nummer in Datensatz, dadurch kann ich den Datensatz anders sortieren und dennoch richtig zuordnen Variablenname und Variablenlabel: zweiteres ist die Beschreibung der Variable Wertelabel: Ausprägungen/ Werte der Variable Fehlende Werte: Welche Zahlen werden als Fehlwert interpretiert? Bei Typ numerisch wird immer bei fehlender Zahl Fehlwert eingetragen, bei Stringwerten z.B. Unterscheidung: Antwort verweigert oder übersehen – unterschiedliche Typen von fehlenden Werten! Dann: -99 sind alle Werte, WO DIE ANTWORT VERWEIGERT wurde, -77 heißt: ANTWORT NICHT MÖGLICH . Grundsätzlich: Bei Fragebogenkonstruktion aufpassen, dass wenig Werte fehlen Meßniveau: SKALA: Intervallskala Rolle: keine Ahnung 2. Variable ist das Geschlecht (Dezimal: 0, Name: ges, Wertelabel: 0=männlich, HINZUFÜGEN, 1=weiblich, HINZUFÜGEN) Geburtsdatum: Typ der Variable DATUM, Datumsformat angeben (so muss es auch eingegeben werden), Intervallskalenniveau Mehrfachantworten: Art der Zeitung eingeben, codieren: 0=nein 1=ja, diese eingabe kann über strg C in die nächste Zeile kopiert werden 19. März Leere Datenmatrix aus Olat ins SPSS kopieren 2 Anordnung im SPSS-Datensatz exakt die selbe wie im Fragebogen (erleichtert die Eingabe) Ausnahme im Beispiel: Motivation und Gewicht zum 2. MZP Variable verschieben Unter EXTRAS , VARIABLEN kann man die Kodierung nachsehen, BUTTON 1/A mit Pfeil gibt Wertelabels an 4 Daten aus Excel eingeben Variablen sind verkehrt transponieren (Fälle in Zeilen, Variablen in Spalten) Von vornherein Zeilen als Vpn und Spalten als Variablen: ganze Tabelle kopieren, mit Transponieren einfügen, dann sind Zeilen und Spalten vertauscht DATEI ÖFFNEN, Exceldatei suchen, einlesen (in diesem Fall transponierte Version), ÖFFNEN AUFPASSEN: In Variablenansicht prüfen ob Wertelabels und Variablenlabels übernommen wurden! Nötigenfalls noch nachtragen Rohdaten als Rohdaten abspeichern und nicht mehr anrühren das ist die Sicherung der Daten. 5 Auf Fehler überprüfen Tipfehler: Deskriptive Statistik ausgeben lassen, und Min-Max sowie N kontrollieren: DESKRIPTIVE STATISTIKEN, DESKRIPTIVE STATISTIK, alle Variablen reinnehmen, OK jetzt müssen wir im Datensatz nachsehen, welche Person den Fehler hat BEARBEITEN, SUCHEN, Wert eingeben Achtung! Suchfunktion beschränkt sich auf die aktuelle Spalte (Variable) Es kann auch passiert sein, dass man falsch kodiert hat: Deskriptive Statistik Standardabweic N Minimum Maximum Mittelwert hung VP-Nummer 16 1 16 8,50 4,761 Geschlecht 16 0 1 ,56 ,512 Wohnort 16 1 8 3,63 2,335 Gewicht vor der Diät 16 54,00 90,00 69,3125 9,76196 Gewicht nach der Diät 16 51,00 86,00 67,9063 9,31704 Geburtsdatum 16 07.7.1987 29.10.1990 09.3.1989 9523:23:03,381 Körpergröße 16 166,00 1777,00 273,9375 400,85317 Rauchen Sie? 16 0 1 ,38 ,500 Semesteranzahl 16 1 9 4,06 2,462 Schulnote Mathematik 16 1 4 1,94 ,929 Schulnote Deutsch 16 1 4 2,37 1,147 EDV-Kenntnisse 16 1 4 2,00 ,894 Motivation vor dem Seminar 16 1 33 3,69 7,855 Motivation nach dem 16 1 3 1,56 ,629 Lese Tiroler Tageszeitung 16 0 2 ,87 ,500 Lese Vorarlberger 16 0 1 ,87 ,342 16 0 1 ,25 ,447 Lese Kurier 16 0 2 ,19 ,544 Lese Krone 16 0 2 ,13 ,500 Seminar Nachrichten Lese Salzburger Nachrichten 3 Lese Presse 16 0 1 ,13 ,342 Lese Standard 16 0 2 ,13 ,500 Lese Profil 16 0 1 ,13 ,342 Gültige Werte (Listenweise) 16 6 Sortieren Daten, Fälle sortieren, Variable eingeben Hier merkt man wie wichtig die Versuchspersonennummer vom Anfang ist, weil sonst der Bezug zu den Originaldaten verloren geht! Man kann auch nach 2 Kriterien sortieren, etwa Körpergröße und Geschlecht – dann wird zunächst nach erstem und innerhalb von diesem nach Geschlecht sortiert. 7 Fälle und Variablen löschen oder kopieren Links markieren, rechter Mausklick, löschen; normalerweise wird gelöscht wenn viele Werte fehlen (bis 10% fehlende Werte sind tolerierbar! Kline, 1998 Dies hängt jedoch stark von der inhaltlichen Fragestellung ab; es kann aber auch fehlende Werte geben, die nicht zufällig fehlen (z.B. ganze Skala nicht beantwortet) Kopieren braucht man selten – am ehesten wenn man zu wenig Fälle hat Aber Variablen kopieren kann vorkommen Muster erkennen: Skalen, die ausfallen, Ausreißeranalysen: Bei Ausreißern grundsätzlich auf Plausibilität prüfen (Fragebogen betrachten, kann methodischer Fehler sein oder in der Realität vorhanden), Antworttendenzen sind schwer zu erkennen. Bei Fragebogenkonstruktion darauf achten, dass Antworttendenzen entgegengewirkt wird. Doppelte Fälle (versehentlich zweimal eingegeben): Daten, Doppelte Fälle ermitteln, über alle Variablen machen Ausgabe, in der Datenansicht doppelte Fälle ganz oben und mit neuer Variable (Primary Last) 8 Fälle(neue Versuchspersonen) hinzufügen Datei öffnen mit Doppelklick auf .sav Datei. Hier sind 10 Fälle enthalten und ich will noch 6 hinzufügen DATEN DATEIEN HINZUFÜGEN FÄLLE HINZUFÜGEN EXTERNE PASW DATENDATEI DATEI AUSWÄHLEN NICHT GEPAARTE… IGNORIEREN OK Nicht gepaarte Variablen heißt, dass gewisse Merkmale nicht identisch sind! Im Ausgabefenster erscheint die Syntax des Befehls. Nun sollten alle Fälle erscheinen. (Versuchspersonennummer ggf. ändern) 9 Variablen hinzufügen DATEN DATEIEN HINZUFÜGEN VARIABLEN HINZUF Unter Neue Arbeitsdatei sieht man Sterne (bereits vorhanden) und Plus (hinzugefügt). Angenommen bei t2 gibt’s nur noch 14 Pbn – die fehlenden würden am schluss einfach hinzugefügt. Fälle mittels Schlüsselvariable verbinden (in diesem Fall die Fallnummer) Bei fehlenden Werten: Bei Zusammenführung ohne Schlüsselvariable werden die fehlenden werte fiktiven Vpn zugeordnet! Schlüsselvariable muss immer etwas sein, das für alle Fälle individuell ist!! 4 10 Transformieren von Daten Transformieren Assistent für Datum und Uhrzeit Berechnen der Anzahl der Zeiteinheiten … Datum 1 = aktuelles Datum, Datum2=Gebdat Einheit =Jahre (monate, Tage, sek.) weiter Ergebnisvariable (Name eingeben: Alter) Variablenlabel (Alter in Jahren) (Syntax einfügen) Variable jetzt erstellen Bei Syntax: Syntaxfenster öffnen, Ausführen alle Dies hat folgenden Sinn: Syntaxdatei anzulegen bringts, weil man sie später aufrufen kann und Schritte wiederholen (zum Beispiel wenn man im Nachhinein noch FB erhält). Die Ausgabedatei protokolliert jeden Schritt, das heißt dort kann man sich auf Fehlersuche machen. 11 Altersgruppen bilden Transformieren visuelles Klassieren (hier wichtig: Bearbeiten OptionenAllgemeinNamen anzeigenok) klassierte Variable altkat 5 Diese Funktion ist z.B. für Mediansplit oder andere Gruppenbildungen wichtig. Dann Syntax ausführen (Ausführen alle), schwups schon gibt’s eine neue Variable. Hier Einfügen drücken, damit Syntaxdatei erstellt wird! Pro Datensatz am besten eine Syntaxdatei erstellen. 12 Variablen umkodieren Codierschema bereitlegen. Wir wollen alle Wohnorte, die Westösterreich sind Kategorie 1, (Kärnten, NÖ, STM, BGL und Wien) in Kat 2, Kat3 ist Nicht-Österreich Transformieren 6 ALTE UND NEUE WERTE: Dann WEITER, EINFÜGEN, SYNTAXANSICHT; AUSFÜHREN, ALLE Syntax ist praktisch falls man den Befehl wiederholen muss (nachgereichte Fragebögen). Dezimalstellen kann man in der Variablenansicht auf 0 stellen (übersichtlicher weil nominale Variable). Wertelabels versehen 13 Automatisches Umkodieren Items umpolen inhaltlich umdrehen, Beispiel Perspektivenübernahme 7 Damit die Items einer Skala in dieselbe Richtung gehen, müssen wir bestimmte Items umpolen (die negativ formuliert wurden) Einfacher ist es, hohe Werte bedeutet hohe Ausprägung (für Interpretation der Ergebnisse). Transformieren Automatisch Umkodieren Variablen auswählen wenn das Antwortformat für alle die Items das selbe ist, können diese auf einmal umkodiert werden. Dann Umkodierung beginnen bei größtem Wert, damit die Skala einfach umgedreht wird (5 wird eins, 4 wird 2 usw.) Bei kleinstem Wert beginnt SPSS bei eins zu zählen und nummeriert sie durch. Dann Einfügen Wichtig ist, dass alle Werte mindestens einmal angekreuzt wurden. Dazu die Ausgabedatei kontrollieren!! Vorallem bei kleinen Stichproben! Sollte dies der Fall sein, muss händisch umkodiert werden. 14 Bestimmte Fälle auswählen Bsp: Geschlecht=weiblich Daten FÄLLE AUSWÄHLEN FALLS Zufallsstichprobe kann nützlich sein, um etwa Scheinsignifikanzen aufgrund großer Stichprobengröße überprüfen. Bevor eine weitere Auswahl getroffen wird, lieber Zurücksetzen wählen Ich will auswählen wer TT oder VN liest logisches OR wählt aus wenn eines oder das andere oder beides erfüllt ist 8 Vorsicht: logisches AND ist & (nicht +)! Weder Standard noch Presse lesen? Also (ST NE 1) AND (PR NE1) Oder NOT (ST EQ1) AND NOT (PR EQ1) Oder St=0 & Pr=0 Ausschließendes Oder: Entweder die TT oder die Vorarlberger Nachrichten, aber nicht beides: 15 Datei aufteilen 9 Deskriptive Statistik Standardabweic Geschlecht männlich weiblich N Minimum Gewicht vor der Diät 7 Gültige Werte (Listenweise) 7 Gewicht vor der Diät 9 Gültige Werte (Listenweise) 9 Maximum Mittelwert hung 59,00 90,00 73,1429 10,54243 54,00 78,00 66,3333 8,51469 Wenn man es nach Gruppen aufteilen lässt, erhält man 2 Tabellen. Deskriptive Statistika Standardabweic N Minimum Gewicht vor der Diät 7 Gültige Werte (Listenweise) 7 59,00 Maximum Mittelwert 90,00 73,1429 hung 10,54243 a. Geschlecht = männlich Mehrfachantworten sollten vermieden werden 16 Variablensets definieren Mehrfachantworten-Sets Variablen im Set (alle Zeitungen) gezählter Wert 1 (wurde gelesen) Name Zeitungen, Beschriftung Hinzufügen, neue Variable erscheint nicht in der Datenmatrix! Häufigkeiten von $zeitungen Antworten 10 Prozent der N Zeitungen gelesena Prozent Fälle Lese Tiroler Tageszeitung 13 37,1% 81,3% Lese Vorarlberger 13 37,1% 81,3% 3 8,6% 18,8% Lese Kurier 2 5,7% 12,5% Lese Krone 1 2,9% 6,3% Lese Presse 1 2,9% 6,3% Lese Standard 1 2,9% 6,3% Lese Profil 1 2,9% 6,3% 35 100,0% 218,8% Nachrichten Lese Salzburger Nachrichten Gesamt a. Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1. Prozentwert kommt aufgrund der Mehrfachantworten zustande, Prozent der Fälle bezieht sich auf Stichprobe, Prozent bezieht sich auf Antworten Kreuztabelle $zeitungen*Ges Geschlecht männlich Zeitungen gelesena Lese Tiroler Tageszeitung Anzahl % vom Gesamtwert Lese Vorarlberger Anzahl Nachrichten % vom Gesamtwert Lese Salzburger Anzahl Nachrichten % vom Gesamtwert Lese Kurier Anzahl % vom Gesamtwert 11 weiblich Gesamt 6 7 13 37,5% 43,8% 81,3% 6 7 13 37,5% 43,8% 81,3% 1 2 3 6,3% 12,5% 18,8% 0 2 2 ,0% 12,5% 12,5% Lese Krone Anzahl % vom Gesamtwert Lese Presse Anzahl % vom Gesamtwert Lese Standard Anzahl % vom Gesamtwert Lese Profil Anzahl % vom Gesamtwert Gesamt Anzahl % vom Gesamtwert 0 1 1 ,0% 6,3% 6,3% 0 1 1 ,0% 6,3% 6,3% 0 1 1 ,0% 6,3% 6,3% 0 1 1 ,0% 6,3% 6,3% 7 9 16 43,8% 56,3% 100,0% Prozentsätze und Gesamtwerte beruhen auf den Befragten. a. Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1. 17 Skalenbildung Fragebogen ist codiert, Daten sind eingegeben, Gruppenbildungen (Alterskategorien aus Alter in Jahren), Kategorien für Branchen (14 Kat Einzelhandel nun 6 Gruppen), Items umcodiert; jetzt müssen Skalenwerte berechnet werden. Skalenwerte werden nur nach Anweisung berechnet (Summen, Mittelwerte, Prozentränge) wenn Vergleich mit Normtabellen ist notwendig, da Zusammenhänge zwischen erhobenen Variablen interessieren (Normstichproben brauchts nur in der Individualdiagnostik). Mittelwerte immer berechnen! (einfacher, wenn alle Skalen den gleichen Referenzrahmen haben) Autorenanweisung bei gewichteten Items! Subskalen: TRANSFORMIEREN VARIABLE BERECHNEN Für Mittelwerte: FUNKTIONSGRUPPE ALLE, MEAN, Fragezeichen entfernen (numerischer Ausdruck) und Variablen einfügen, mit Komma trennen, Fragezeichen entfernen. EINFÜGEN (Syntax machen!!) Syntax extrem wichtig weil dann wiederholbar, abspeichern. Subskalenmittelwerte pro Fall: 12 Skalen nicht aus Mittelwerten der Subskalen bilden (nicht Mittelwerte aus Mittelwerte rechnen). Stattdessen: Transformieren Variablen berechnen, gleiche Schritte wie oben aber alle Items der Gesamtskala nehmen. Über Syntax. Gesamtmittelwert Skala: Skalensyntax (alle) kopieren und unterhalb einfach einfügen. Alle Items zusammenführen in eine Klammer mittels löschen und zusammenfügen: Syntaxdatei speichern! Wenn man eine Syntax wieder braucht, einfach Datensatz öffnen, Datei, öffnen, Syntax Fehlt 1 termin 18 Unterschiedshypothesen Auf leidlmeyrs homepage gibt’s statistikunterlagen http://leidlmair.at/baum.html Unabhängige Stichproben Intervallskala: Unterscheiden sich 2 Gruppen in Bezug auf z.B. Gewicht? 2 unabhängige Stichproben (Männer/Frauen) Durchschnittsgewicht jeweils, Mittelwertsdifferenz (H0: Gewicht unterscheidet sich nicht, H1: es gibt einen Unterschied) wie wahrscheinlich ist es unter Geltung der H0 rein per Zufall eine Mittelwertsdifferenz zu bekommen? Kennwertverteilung der Mittelwertsdifferenzen, Überschreitungswahrscheinlichkeit will man herausfinden KWV muss bekannt sein T-Verteilung (immer dann, wenn Populationsvarianz aus Stichprobenvarianz geschätzt werden muss). T-Verteilung ist an Bedingungen geknüpft: Bei großer Stichprobe nähert sie sich an Normalverteilung, bei kleiner Stpr Voraussetzung: Daten in der Stichprobe müssen normalverteilt sein Voraussetzung: abhängige Variable normalverteilt? (also immer bei kleineren Stichproben prüfen!) Abhängige Stichproben: (Messwiederholung bspw.) H1, H0 wie oben Intervallskaliert? Ja normalverteilt? JaT-Test 13 Normalverteilungsüberprüfung: Differenz zw. Vorher und Nachherwert neue Variable, diese muss normalverteilt sein, wenn nicht wilcoxon-Test (nur bei intervallskalierten Daten!!) bildet Differenzen und macht Rangordnung (dies geht nur bei intervallskalierten Daten) kleine Stichproben normalverteilt Ordinalskalenniveau: Vorzeichentest T-Test: Intervallskalenniveau, Normalverteilung (oder mindestens 30 Personen pro Gruppe), man will parametrische Verfahren verwenden, weil die Tests stärker sind; Varianzhomogenität (Welch-Test wenn diese nicht gegeben) 1. Normalverteilungsprüfung (K-S-Test) (Shapiro-Wilk ist strenger!) 2. Hypothese: H1: M/F unterscheiden sich hinsichtlich ihrer Semesteranzahl ungerichtete Unterschiedshypothese (zweiseitig) (eigentlich Signifikanzniveau 0,025 weil p<0,025 weil p<als Alpha/2 H1, das heißt wir verdoppeln die Überschreitungswahrscheinlichkeit auf 0,5 weil es sich um eine 2-seitige Hypothese handelt (also Achtung bei einseitiger Hypothese, dann müssen wir diese wieder halbieren) Bei einseitiger Fragestellung ist Teststärke größer! Am besten Hypothesen bereits gerichtet formulieren! 3. Unabhängige variable: Geschlecht 4. Skalenniveau der abhängigen Variable?(Semesteranzahl) Intervallskaliert 5. Kleine Stichprobe, abhängige Variable auf Normalverteilung prüfen (und nur diese)1 Kolmogorov-Smirnov-Anpassungstest Semesteranzah l N 16 1 14 Kolmogorov hat die Axiome beschrieben, die Grundlagen der Inferenzstatistik sind! Parameter der Mittelwert Normalverteilunga,b 4,06 Standardabweichung Extremste Differenzen 2,462 Absolut ,229 Positiv ,229 Negativ -,139 Kolmogorov-Smirnov-Z ,918 Asymptotische Signifikanz (2-seitig) ,369 a. Die zu testende Verteilung ist eine Normalverteilung. b. Aus den Daten berechnet. Wenn wir an H0 interessiert sind, müssen wir uns gegen Beta-Fehler absichern (H0 = Normalverteilung!) daher muss das p auf 20% gehoben werden, erst wenn AS größer als 0,2 ist ist NV gegeben! (SPSS geht immer von 5% Sign. Aus, daher Fußnote ignorieren!) 0,369 > 0,2 T-Test rechnen Aus Gruppenstatistik kann man lesen, dass Männer höhere Semesterzahl haben, die Frage ist ob per Zufall oder nicht ist T-Test Levene-Test der Varianzgleichheit F T-Test für di Signifikanz Sig. (2-seitig) Mittle T Semesteranzahl Varianzen sind gleich ,353 Varianzen sind nicht gleich ,562 df Differe -,111 14 ,913 -,109 11,733 ,915 Wenn Varianzen gleich sind (F-Wert des Levene Test ablesen) F-Wert ist Quotient zwischen den Differenzen wenn 1 sind Varianzen gleich, wenn unterschiedlich wird Quotient kleiner. Wenn Überschreitungswahrscheinlichkeit größer als 0,2 ist (Fehlerminimierung weil wir an H0 interessiert sind! Daher gegen Betafehler absichern nicht gegen Alphafehler. (Alphaniveau 4-fach erhöht) Wir wollen dass Varianzen homogen sind. In diesem Fall gegeben (Signifikanz=Überschreitungswahrscheinlichkeit) Kennwerte in der ersten Zeile ablesen 15 Hier gegen Alphafehler absichern, also Signifikanz mit 0,05 vergleichen, in diesem Fall höher, also ist Unterschied nicht signifikant (kommt eher durch Zufall zustande), also müssen wir die H0 annehmen (kein Unterschied) Unterschiedshypothese, gerichtet: H1: Gewichtsm unterscheiden sich zw. Männern und Frauen, UND Männer sind schwerer als Frauen Kleine Stichprobe, abhängige Variable (Gewicht) auf NV prüfen Intervallskala (Gewicht, abh.V) Normalverteilung der abh.V. Kolmogorov-Smirnov-Anpassungstest Gewicht vor der Diät N 16 Parameter der Mittelwert 69,3125 Normalverteilunga,b Standardabweichung 9,76196 Extremste Differenzen Absolut ,124 Positiv ,124 Negativ -,097 Kolmogorov-Smirnov-Z ,497 Asymptotische Signifikanz (2-seitig) ,966 a. Die zu testende Verteilung ist eine Normalverteilung. b. Aus den Daten berechnet. Gewicht ist normalverteilt (größer als 0,2) (wir sind an H0 interessiert, weil sich Daten nicht von NV unterscheiden sollen) H0 ist immer, alles ist Zufall; wenn Wahrscheinlichkeit für Zufall klein ist, verwerfen wir den Zufall Beta: soll überprüfen ob es Zufall ist (NV, Varianzhomogenität), wir wollen also den Zufall möglichst oft verwerfen, also soll Schranke möglichst groß sein (alles bis zu 0,005 ist sehr viel, also 0,2 ist viel weniger!!) T-Test: 16 Dann: Varianzen homogen? 0,556 (ja weil Sig größer als 0,2!) Testkennwerte also in erster Zeile ablesen, Überschreitungswahrscheinlichkeit 0,174 aber 2-seitig! Wir müssen aber einseitig testen (gerichtete Hypothese) also haben wir 0,087 nicht signifikanter Unterschied (basiert auf Zufall) Bei Überschreitungswahrscheinlichkeit von 0,05-0,1 kann man von Tendenz sprechen!! (sollte man besonders bei kleinen Stichproben mitinterpretieren) Test bei unabhängigen Stichproben Levene-Test der Varianzgleichheit T-Test fü M F Gewicht vor der Diät Varianzen sind gleich Signifikanz ,365 ,556 Varianzen sind nicht gleich T df Sig. (2-seitig) -1,432 14 ,174 -1,392 11,427 ,190 Beim T-Test sind nur N, M und SD interessant, außerdem T-Wert, df und p (einseitig), so kann man das am besten darstellen: N M SD T df P(einseitig) Frauen 9 73,14 8,51 1,43 14 0,087 Männer 7 66,33 10,54 Wenn T-Test nicht gerechnet werden kann müssen wir ein verteilungsfreies Verfahren rechnen, anders gesagt: die ordinale Information aus den Daten herauslesen. Der U-Test bringt die Werte in eine Rangordnung. Die H1 besagt, dass die eine Stichprobe komplett vor der zweiten liegt, die H0 besagt, dass die Werte gemischt sind. U-Test wird gerechnet wenn die Daten ordinalskaliert sind oder die Stichprobe zu klein ist oder andere Voraussetzungen für T-Test nicht erfüllt sind. Der Alphafehler ist beim U-Test kleiner als beim T-Test!2 Hypothese: H0: Frauen und Männer unterscheiden sich nicht hinsichtlich ihrer Maturanote in Mathematik. (Die Note ist ordinalskaliert! (ungerichtete Hypothese wir sagen nur es gibt Unterschiede zweiseitige Hyp.th.prüfung) Wird beim U-Test exakter Test angewählt, wird die 2-seitige Überschreitungswahrscheinlichkeit ausgegeben! 2 Das heißt, dass signifikante Ergebnisse im U-Test im T-test erst recht signifikant wären!! 17 Di Rangsumme: die Rangplätze werden summiert. Mittlerer Rangplatz ist Summe durch Anzahl Indiz für Stellung der Gruppe Ränge Geschlecht Schulnote Mathematik N Mittlerer Rang Rangsumme männlich 7 6,71 47,00 weiblich 9 9,89 89,00 Gesamt 16 Deskriptive Statistik immer angeben Männer haben bessere Noten als die Frauen, basiert aber auf Zufall: Statistik für Testb Schulnote Mathematik Mann-Whitney-U 19,000 Wilcoxon-W 47,000 Z -1,402 Asymptotische Signifikanz ,161 (2-seitig) Exakte Signifikanz [2*(1- ,210a seitig Sig.)] Exakte Signifikanz (2-seitig) ,176 Exakte Signifikanz (1-seitig) ,108 Punkt-Wahrscheinlichkeit ,059 a. Nicht für Bindungen korrigiert. b. Gruppenvariable: Geschlecht Asymptotische Signifikanz darf nicht interpretiert werden (Stichprobe zu klein) Nicht für Bindungen korrigiert: gemeint sind verbundene Rangplätze (2mal die gleiche Schulnote z.B. bekommen den halbierten Rangplatz) Exakte Signifikanz 2-seitig die für Bindungen korrigert wurde 0,176, das Ergebnis ist nicht sig. (größer als 0,05) Gerichtete Hypothese: H1: Frauen haben eine bessere Mat.note in Deutsch als Männer. Interpretation der Rangplätze erfolgt inhaltlich (der Mensch muss wissen, ob hohe oder niedrige Werte besser sind) Statistik für Testb Schulnote Deutsch Mann-Whitney-U 18 26,000 Wilcoxon-W 71,000 Z -,604 Asymptotische Signifikanz ,546 (2-seitig) Exakte Signifikanz [2*(1- ,606a seitig Sig.)] Exakte Signifikanz (2-seitig) ,668 Exakte Signifikanz (1-seitig) ,354 Punkt-Wahrscheinlichkeit ,146 a. Nicht für Bindungen korrigiert. b. Gruppenvariable: Geschlecht 0,354 ist größer als 0,05 daher n.s. Signifikanzniveau: Verwerfungsbereich liegt auf beiden Seiten der Verteilung 0,025 auf beiden Seiten 2p <α/2 für alle Hypothesentestungen kann von 0,05 ausgegangen werden (kleiner als0,05 ist sign.! Immer) Signifikant heißt, dass die Nullhypothese nicht bewiesen werden kann sondern nur die H1 angenommen werden musste (nicht verworfen werden konnte) Die Wahrscheinlichkeit des Betafehlers kann nicht bestimmt werden. Ich darf mich nicht für die H1 entscheiden. Der Mittelwert unter Geltung der H1 ist nicht bekannt. 19 Unterschiedshypothesen bei 2 abhängige Stichproben: T-Test Abhängig sind Stichproben wo 2 MZP abgenommen wurden Messwiederholung bei den gleichen Pn. Oder andere Zuordnung (Mutter-Kind, Ehepaar, Geschwistervergleich, etc.) Intervallskala Kleine Stichprobe (N<30) verlangt Normalverteilungsüberprüfung der Differenzen zw. Den Messwertpaaren o Variable bilden (mit Differenzen) H1: Gewicht unterscheidet sich und es hat sich verringert. (meistens werden bei abhängigen Stichproben gerichtete Hypothesen formuliert) Jetzt findest du die Variable in der Variablenansicht: Damit der T-Test berechnet werden darf müssen wir schauen, ob die Werte der neuen Variable normalverteilt sind. (bei kleinen Stichproben) Kolmogorov-Smirnov-Anpassungstest Diff_Gew N 19 16 Parameter der Mittelwert Normalverteilunga,b 1,4063 Standardabweichung Extremste Differenzen Absolut ,138 Positiv ,112 Negativ -,138 1,68542 Kolmogorov-Smirnov-Z ,551 Asymptotische Signifikanz (2-seitig) ,922 a. Die zu testende Verteilung ist eine Normalverteilung. b. Aus den Daten berechnet. Bei der Normalverteilung müssen wir uns gegen den Betafehler absichern 0,2 Daten sind normalverteilt 0,922>0,2 Hier könnte man mehrere T-tests auf einmal machen. Der Mittelwert sagt mir, welche Richtung die Veränderung hat. Test bei gepaarten Stichproben Gepaarte Differenzen 95% Konfidenzintervall der Mittelwert Paaren 1 Gewicht vor der Diät - 1,40625 Standardabweic Standardfehler hung des Mittelwertes 1,68542 Differenz Untere ,42135 Obere ,50816 2,30434 Gewicht nach der Diät Der Mittelwert ist in diesem Fall die durchschnittliche Differenz, diese Verteilung ist eine T-Verteilung (normalverteilt). T-Wert: 3,33; 2-seitige Signifikanz: 0,004 diese muss halbiert werden 0,002 bedeutet, der TTest ist signifikant (es gibt einen Unterschied) 20 Parameterfreie3 Verfahren für 2 abhängigen Stichproben Intervallskalenniveau in beiden Stichproben, aber Normalverteilung ist nicht gegeben4: (also geht kein t-Test) Wilcoxon-Test: Intervallskalenniveau bei der Variable! Wilcoxon macht Differenzen und bringt diese in eine Rangordnung (da diese Abstände sind, müssen die Daten intervallskaliert sein) 3 4 Kleine Stichprobe, Intervallskalenniveau und Verteilungsfreie Verfahren (bei unabhängigen Stichproben müssen Daten normalverteilt und intervallskaliert sein für t-Test) 20 T 3,337 keine Normalverteilung Hypothese: H0: Gewichtsmittelwerte unterscheiden sich nicht zwischen MZP1 und MZP2. H1 der Gewichtsmittelwert vor der Diät ist höher als jener nach der Diät. EXAKT nicht vergessen! H1 aufgrund der Überschreitungswahrscheinlichkeit 0,004 angenommen, die Richtung lesen wir aus den Rängen ab. Negative Ränge und Fußnoten (12 Personen haben abgenommen). Positiv/negativ heißt ob die Differenzen positiv oder negativ sind. Für die Interpretation sind aber die Fußnoten wichtig. Ränge N Gewicht nach der Diät Gewicht vor der Diät Mittlerer Rang Rangsumme Negative Ränge 12a 7,79 93,50 Positive Ränge 2b 5,75 11,50 Bindungen 2c Gesamt 16 a. Gewicht nach der Diät < Gewicht vor der Diät b. Gewicht nach der Diät > Gewicht vor der Diät c. Gewicht nach der Diät = Gewicht vor der Diät Vorzeichentest: 2 abhängige Stichproben und ordinalskalierte Variablen (deshalb brauchen wir keine Normalverteilung) In welche Richtung haben sich die Werte der zweiten Variable verändert? Motivation ist ordinalskaliert (siehe Codierschema). H0: Motivation vorher/ nachher unterscheidet sich nicht. H1: nachher ist Motivation größer. Exakte Signifikanz anwählen!! (dann wird die exakte Überschreitungswahrscheinlichkeit einseitig angegeben) Statistik für Testb Motivation nach dem Seminar Motivation vor dem Seminar Exakte Signifikanz (2-seitig) 21 ,508a Exakte Signifikanz (1-seitig) ,254 Punkt-Wahrscheinlichkeit ,164 a. Verwendetete Binomialverteilung. b. Vorzeichentest Wir entscheiden uns also für die H0 (0,254 größer als 0,05) Niedriger Wert ist gut, hoher Wert ist schlecht aufpassen codierung! Bei 6 Personen hat sich Motivation erhöht, also verschlechtert (4=nicht vorhanden!! 1= sehr groß) AUFPASSEN AUF DIE CODIERUNG!! Entsprechende Wertung sollte in die gleiche Richtung gehen (hoher Wert bedeutet hohe Motivation) einfacher in alle folgende Arbeitsschritte. Bei Fragebogenerstellung schon darauf achten. 21 Hypothesenübung 1. Welche Variablen sind es? 2. Welche Stichproben sind es? Unabhängig/ abhängig? (in diesem Fall: 2 unabhängige Stichproben) 3. Welche ist die unabhängige/ abhängige Variable? (Welche ist die gruppenbildende Variable? In diesem Fall: Partner unabhängig, Überstunden abhängig) 4. Wir streben den t-Test für unabhängige Stichproben an (stärkstes Verfahren), hat Voraussetzungen: a. Intervallskaliert? (Überstunden: ja) b. Normalverteilung? (kleine Stichprobe!) K-S-Test rechnen Kolmogorov-Smirnov-Anpassungstest Überstunden pro Monat N 26 Parameter der Mittelwert 6,9615 Normalverteilunga,b Standardabweichung Extremste Differenzen Absolut ,266 Positiv ,266 Negativ -,245 10,10537 Kolmogorov-Smirnov-Z 1,359 Asymptotische Signifikanz (2-seitig) ,050 Daten sind nicht normalverteilt, da wir uns gegen den Betafehler absichern müssen (alles >0,2 ist dann normalverteilt) c. Wir müssen also den Mann-Whitney-U-Test verwenden (parameterfreies Verfahren, 2 unabhängige stichproben auch EXAKT dazunehmen. Die H1 kann zwar nicht angenommen werden, dennoch sollte man die deskriptive Statistik angeben und die Tendenz formulieren. Statistik für Testb Überstunden pro Monat Mann-Whitney-U Wilcoxon-W 22 77,500 155,500 Z -,028 Asymptotische Signifikanz ,978 (2-seitig) Exakte Signifikanz [2*(1- ,979a seitig Sig.)] Exakte Signifikanz (2-seitig) ,990 Exakte Signifikanz (1-seitig) ,495 Punkt-Wahrscheinlichkeit ,011 a. Nicht für Bindungen korrigiert. b. Gruppenvariable: Leben Sie gemeinsam mit Ehefrau/-mann bzw. Parnter/in? Übung2: Taetd 1. 2. 3. 4. Unabhängige Stichprobe Kinder Ja/Nein ist die gruppenbildende (unabhängige) Variable Die abhängige Variable hat intervallskalenniveau (Tätigkeitsdauer) Wir wollen t-Test: kleine stichprobe also: NV? Kolmogorov-Smirnov-Anpassungstest Wie lange arbeiten Sie in Ihrer jetzigen Tätigkeit (in Jahren)? N 28 Parameter der Mittelwert Normalverteilunga,b Standardabweichung Extremste Differenzen Absolut ,202 Positiv ,187 Negativ -,202 Kolmogorov-Smirnov-Z 5,6250 5,53545 1,067 Asymptotische Signifikanz (2-seitig) ,205 Exakte Signifikanz (2-seitig) ,178 Punkt-Wahrscheinlichkeit ,000 a. Die zu testende Verteilung ist eine Normalverteilung. b. Aus den Daten berechnet. Die Daten sind normalverteilt (Sig. Ist > 0,2), also ist der t-Test möglich! 5. Gruppenvariable Kinder (1&2) 6. Testvariable Tätigkeitsdauer taetd Varianzhomogenität muss mit einer Voraussetzungsprüfung geprüft werden H0 interessiert uns 0,2 ist unser Sig.niveau (>0,2) also erste Zeile ablesen Signifikanz 2seitig (0,026 < 0,05) 5 Wir entscheiden uns für die H1! 5 Eigentlich ist es dann ein Welch-Test 23 Falsch-negativ: Betafehler 0,2 Falsch-positiv: (Alternativhypothese) 0,05 Deskriptive ablesen für Interpretation! H0: intrinsische Arbeitszufriedenheit hat sich nicht erhöht Veränderung der AZ eine abhängige Stichprobe Bei einer Lickert-Skala mit Mittelwertsbildung (Diplomarbeit) kann man immer von Intervallskalenniveau ausgehen. N>30 NV-Test: Differenzwerte bilden, diese müssen normalverteilt sein, nicht die einzelnen Variablen! Und dann prüfen, ob diese neue Variable nv ist. Kolmogorov-Smirnov-Anpassungstest dif_AZint N 28 Parameter der Mittelwert ,4714 Normalverteilunga,b Standardabweichung Extremste Differenzen Absolut ,123 Positiv ,123 Negativ -,092 ,55568 Kolmogorov-Smirnov-Z ,653 Asymptotische Signifikanz (2-seitig) ,788 a. Die zu testende Verteilung ist eine Normalverteilung. b. Aus den Daten berechnet. NV ist gegeben da asymptotische Sig. Größer als 0,2! 22 Unterschiedsprüfung von mehr als 2 Stichproben: Varianzanalyse Varianzanalyse: t-Test hat man eine abhängige Variable (gemessen, erhoben), und unabhängige Variable (gruppenbildende Variable); Fragestellung: unterscheiden sich die beiden Gruppen in Bezug auf die abhängige Variable. 24 Einfaktorielle VA: mehr als 2 unabhängige Gruppen und eine AV (Bsp. Gewicht und 3 unabhängige Gruppen) Angenommen man hat 4 Gruppen: man vergleicht jede Gruppe extra miteinander, das geht aber nicht, weil die verschiedenen Hypothesen nicht voneinander unabhängig sind es kommt dann zu Scheinsignifikanzen6, da sich der Alphafehler erhöht. H0: Zwischen den unabhängigen Stichproben gibt es keine Mittelwertsunterschiede. H1: Es gibt irgendwo zwischen diesen unabhängigen Stichproben Unterschiede, und es sind mindestens zwei. Wo dieser Unterschied liegt sagt die Alternativhypothese aber nicht. Das heißt man muss aber Einzelvergleiche im Anschlluß an die VA durchführen. Eine AV ist aufgegliedert in Teilstichproben. Diese hat eine Streuung (Varianz), diese wird in 2 Teilvarianzen aufgespalten. 1. Indikator für Unterschiede zw. den Stichproben (treat), 2. Indikator für Zufallsschwankungen (fehler) VA arbeitet mit F-Test, Quotient zwischen 2 Varianzen δ2 (treat) und δ2 (fehler) Varianz 1 speist sich aus tatsächlichen Unterschieden und Zufall. (2 Quellen) Varianz 2 hat nur den Zufall Wenn treat sich aus Zufall speist (H0) und fehler sich aus Zufall speist, bekommen wir einen Quotienten Nahe 1. Voraussetzungen: 1. 2. 3. 4. 5. Intervallskalenniveau der AV AV muss in den einzelnen Stichproben nv sein (wird vor allem bei kleinen Stichproben wichtig) Mind 20 Vpn pro Stichprobe (Leonhard)7 keine NV-Verteilung prüfen Mind 10 Vpn pro Gruppe (Bortz) dann muss aber NV geprüft werden (bei >30 keine NV-Prüfung) Anzahl der Messungen pro Stichprobe sollte in jeder Stichprobe annähernd gleich sein (Unterschied nicht mehr als 1,5! Kleinste Größe 10 größte Gruppe max. 15) Gilt besonders bei kleinen Stichproben!! 6. Varianzhomogenität zwischen den einzelnen Gruppen (Streuung der AV muss in allen Teilstichproben ca. gleich groß sein) 7. Je größer die Stichprobe ist, desto weniger Bedeutung bekommen diese Voraussetzungen! (besonders bei der Varianzanalyse) Bortz: bei Stichproben kleiner als 10 und Zellenbesetzung ungleich jedenfalls verteilungsfreies Verfahren anwenden! (Beispielsweise: Kruskal-Wallis-H-Test) Hypothese: Unterschied beim Gewicht zwischen den Semestergruppen? (Kategorien aus der Semesteranzahl gebildet ordinalskalierte Variable gebildet) Also: 1. Voraussetzung erfüllt (Gewicht=nv), 2. Voraussetzung: NV der AV Datei aufteilen in Semestergruppen, dann wird das für jede Gruppe separat gemacht! JUHU 6 7 Die Nullhypothese wird verworfen obwohl sie richtig wäre Diplomarbeit: Finde einen Autor, zitiere ihn und übernimm dessen Voraussetzungen 25 26 Wir testen also das Gewicht t1 auf NV. Diese ist gegeben! Kolmogorov-Smirnov-Anpassungstest Gewicht vor der Semesteranzahl(Klassiert) <= 2 3-6 7+ Diät N 5 Parameter der Mittelwert 64,0000 Normalverteilunga,b Standardabweichung 6,78233 Extremste Differenzen Absolut ,241 Positiv ,241 Negativ -,188 Kolmogorov-Smirnov-Z ,540 Asymptotische Signifikanz (2-seitig) ,933 N 7 Parameter der Mittelwert 68,0000 Normalverteilunga,b Standardabweichung 9,20145 Extremste Differenzen Absolut ,214 Positiv ,170 Negativ -,214 Kolmogorov-Smirnov-Z ,567 Asymptotische Signifikanz (2-seitig) ,905 N 4 Parameter der Mittelwert 78,2500 Normalverteilunga,b Standardabweichung 9,39415 Extremste Differenzen Absolut ,261 Positiv ,261 Negativ -,239 Kolmogorov-Smirnov-Z ,521 Asymptotische Signifikanz (2-seitig) ,949 a. Die zu testende Verteilung ist eine Normalverteilung. b. Aus den Daten berechnet. 27 ACHTUNG! Wir haben die Datei aufgeteilt und dies müssen wir rückgängig machen!!!!!!!!! DATEI AUFTEILEN ZURÜCKSETZEN Ausgabe: split file off ONEWAY ANOVA Gewicht vor der Diät Mittel der Quadratsumme df Quadrate Zwischen den Gruppen 472,688 2 236,344 Innerhalb der Gruppen 956,750 13 73,596 1429,438 15 Gesamt F 3,211 Signifikanz ,074 Nur wenn das Ergebnis der ANOVA sig. Ist, kann man nachfragen, wo der Unterschied liegt! Wenn Varianzhomogenität angenommen wird Scheffe oder sonst Games-Howell. Zusätzlich: Deskriptive Statistik: Mittelwerte sind interessant, hier die Unterschiede recht groß, man kann mit einem sig. Ergebnis rechnen. Test der Homogenität der Varianzen Gewicht vor der Diät Levene-Statistik ,305 df1 df2 2 Signifikanz 13 ,742 Wir vergleichen die Signifikanz mit 0,2 weil es wir die H0 wollen (Varianzhomogenität) passt 28 ONEWAY ANOVA Gewicht vor der Diät Mittel der Quadratsumme df Quadrate Zwischen den Gruppen 472,688 2 236,344 Innerhalb der Gruppen 956,750 13 73,596 1429,438 15 Gesamt F 3,211 Signifikanz ,074 Sum within und Sum between sind die Indikatoren für die Varianzen Mittel der Quadrate ist die Quadratsumme dividiert durch die Freiheitsgrade ist δ2 (treat) bzw. δ2 (fehler) (innerhalb der Gruppen) Mittel der Quadrate wird dividiert und das ist der F-Wert (Quotient).Die Signifikanz ist nicht gegeben weil es >0,05 ist. (Kann an der kleinen n liegen, weil die Kilos ziemlich viele sind..) Es gibt also zwischen den Gruppen keinen signifikanten Mittelwertsunterschied. Post-hoc Tests können nur interpretiert werden, wenn die VA signifikant ist. Zu Übungszwecken: Varianzhomogenität also Scheffé8 interpretieren. Wenn die ANOVA kein signigikantes Ergebnis liefert, bestehen in allen Gruppen keine signifikanten Unterschiede. Arbeitsdatensatz: H0: Hinsichtlich der wahrgenommenen Stressoren unterscheiden sich die Altersgruppen nicht. H1: sagt, sie unterscheiden sich Die UV sind die Altersgruppen (gruppenbildende Variable) Die AV sind die Stressoren Mittelwerte wurden bereits gebildet Intervallskalenniveau (Lickert-Skala) (Bei 1-Item-Skalen darf nur von Ordinalskalenniveau ausgegangen werden) NV kann man sich sparen, weil n sehr groß ist; zur Sicherheit wird’s überprüft: Daten Datei aufteilen Danach die Aufteilung wieder zurücksetzen. Varianzanalyse: Analysieren, Mittelwerte vergleichen, Einfaktorielle Anova (Allgemeines Lineares Modell, Univariat hier wird aber Eta-Quadrat ausgegeben, das heißt man bekommt die Effektstärke dazu) 8 Scheffé korrigiert den Alphafehler automatisch die Überschreitungswahrscheinlichkeit kann direkt abgelesen werden. 29 Wir brauchen Statistiken und die Posthoc-Tests ONEWAY ANOVA Mittelwert_Stressoren Mittel der Quadratsumme df Quadrate Zwischen den Gruppen 18,533 2 9,267 Innerhalb der Gruppen 399,177 745 ,536 Gesamt 417,710 747 F Signifikanz 17,295 ,000 Wir entscheiden uns für die H1 weil die Signifikanz kleiner als 0,05 ist. (Es gibt einen Unterschied zwischen mindestens 2 Gruppen). Welche Gruppen sind das? Deskriptive Statistik: ONEWAY deskriptive Statistiken Mittelwert_Stressoren 95%-Konfidenzintervall für den Mittelwert Standardabweic N Mittelwert hung Standardfehler Untergrenze Obergrenze Minimum Maximum <= 25 230 3,6147 ,66027 ,04354 3,5289 3,7005 1,67 5,71 26 - 45 353 3,3331 ,74217 ,03950 3,2554 3,4108 1,29 5,71 46+ 165 3,2029 ,80189 ,06243 3,0796 3,3261 1,52 5,33 Gesamt 748 3,3909 ,74779 ,02734 3,3373 3,4446 1,29 5,71 Am meisten gestresst fühlen sich die jüngsten MA mit 3,61 30 Post hoc interpretieren: H1 sagt es gibt einen Unterschied zwischen den Varianzen, H0 sagt, die Homogenität ist gegeben wir wollen die H0 annehmen, daher Signifikanzniveau von 0,2 In diesem Fall ist die Signifikanz 0,021, daher zu niedrig und die Homogenität nicht gegeben. Daher wird GamesHowell interpretiert Mehrfachvergleiche Abhängige Variable:Mittelwert_Stressoren Scheffé-Prozedur (J) Alter in Jahren(Klassiert) Jahren(Klassiert) <= 25 26 - 45 ,28164* ,06203 ,000 ,1295 46+ ,41181* ,07468 ,000 ,2287 -,28164* ,06203 ,000 -,4338 ,13018 ,06903 ,170 -,0391 <= 25 -,41181* ,07468 ,000 -,5950 26 - 45 -,13018 ,06903 ,170 -,2995 26 - 45 ,28164* ,05879 ,000 ,1435 * ,07611 ,000 ,2326 -,28164* ,05879 ,000 -,4198 ,13018 ,07387 ,184 -,0438 <= 25 -,41181* ,07611 ,000 -,5911 26 - 45 -,13018 ,07387 ,184 -,3042 26 - 45 Mittlere Differenz (I-J) <= 25 46+ 46+ Games-Howell 95%-Konfidenzinterv (I) Alter in <= 25 46+ 26 - 45 <= 25 46+ 46+ ,41181 Standardfehler Signifikanz Untergrenze *. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant. Die Gruppen unter 25 und 26-45 J unterscheiden sich signifikant, sowie die Gruppen unter 25 und 46+ . P=0,184 bei 0,000 muss man schreiben p<0,001 (weil nicht alle Kommastellen angezeigt werden) Dann die Richtung der Signifikanten aus der deskriptiven Statistik ablesen. Die H1 kann nur teilweise bestätigt werden. 31 Obergr - - - - 23 Kruskal-Wallis-H-Test: AV ist mind. Ordinalskaliert, mehr als 2 unabhängige Stichproben Fragestellung: Arbeitszufriedenheit ist ordinalskaliert!!(AV) Unterscheiden sich die Altersgruppen hinsichtlich der Arbeitszufriedenheit? H0: Nein, sie unterscheiden sich nicht H1: ja die Gruppen unterscheiden sich UV (Faktor) Altersgruppen Bei mehr als 2 MZP muss man mit K verbundene Stichproben rechnen. 32 Aufgrund der Überschreitungswahrscheinlichkeit <0,001 entscheiden wir uns für die H1. Es gibt aber keine post hoc Tests für den H-Test, daher wissen wir nicht welche Gruppen sich sig. Unterscheiden. Der Mittlere Rang sagt uns, welche Gruppe die höchsten Werte hat. Um diese Unterschiede spezifizieren zu können darf man einzelne U-Tests rechnen. Wieviele U-Tests haben wir? 3 Tests: für alle Vergleiche. Warum sind die 3 Testungen voneinander abhängig? Wir müssen den Alphafehler korrigieren: Bonferroni-Korrektur (das Alphaniveau 0,05 wird durch die Anzahl der Tests dividiert: αadj.=0,05/3= 0,017 (erst wenn Signifikanz kleiner als 0,017 ist kann man von sig. Ergebnis sprechen) Die Bonferroni-Korrektur ist strenger als die von Bortz, jene ist ein wenig komplexer, die Bonf.Korrektur vermindert auch die Teststärke (was dann noch sig. Wird, ist ziemlich sicher wirklich signifikant) U-Tests: Jetzt müssen alle zu vergleichenden Tests einzeln gemacht werden. Statistik für Testa FAZ_Facetten Mann-Whitney-U 35474,500 Wilcoxon-W 62039,500 Z Asymptotische Signifikanz -2,577 ,010 (2-seitig) a. Gruppenvariable: Alter in Jahren(Klassiert) Wir entscheiden uns für die H1: 0,010<0,017 in diesem Fall dieser beiden Gruppen 33 24 Zusammenhangshypothesen Werte einer Variablen mit den Werten einer anderen V korrelieren (beide steigen positive Korrelation, eine steigt, eine sinkt negative Korrelation) Interpretation: Kausalzusammenhänge kann man nicht ableiten. Beide Variablen sollen: Intervallskaliert Normalverteilt Bivariate Normalverteilung (Koordinatensystem: x und y Werte, und auf z die Häufigkeiten auftragen Normalverteilung ergibt dann eine Glocke in 3D)9 Homoskedastizität: bei gleichen Werten der x Werte sollen die y-Werte gleiche Streuung haben10 Inferenzstatistik: Zusammenhang signifikant oder nicht? H0: es besteht kein Zusammenhang, H1: es gibt einen Zusammenhang Beispiel: Gerichtete H1: Es gibt einen positiven Zusammenhang zwischen Größe und Gewicht Normalverteilung NV ist gegeben (Signifikanz > 0,2) Die Korrelation ist signifikant (p<0,001) Die Korrelationsmatrix ist der Baustein für andere Verfahren. Effektstärke11 kann man direkt aus r ermitteln (bei psychologischen Variablen erhält man so gut wie nie r>0,8 – also vorsichtig sein) Streuungsdiagramm ausgeben lassen: 9 Kann man nicht überprüfen ebenso 11 Stärke des Zusammenhangs – wie relevant ist das Ergebnis? Also Riesenstichproben sind meistens signifikant, aufgrund der Größe, daher sollte man die Effektstärke berechnen (0,1-0,3 / 0,3-0,5 / r>0,5) 10 34 35 Tataaa! Fehlwerte Behandlung von fehlenden Werten: Bei paarweisen Fallausschluss kann passieren, dass man unterschiedliche Fallanzahlen bekommt. Listenweise: wenn der Wert irgendwo fehlt, nimmt er die Vpn raus. Dann sinkt zwar das N aber der Vergleich ist einfacher so. 25 Einfache lineare Regression: Hier muss angegeben werden, welche Kausalität das Ganze haben soll – also theoriegeleitet! X Prädiktorvariable (UV), Y ist Kriteriumsvariable (AV) (diese wird vorausgesagt), diese müssen intervallskaliert sein und normalverteilt 12 Homoskedastizität Residuen müssen nv sein Unabhängigkeit der Regressionsresiduen muss gegeben sein Minimum: (n=50) +8*m (m=Anzahl der Prädiktoren) H0: Körpergröße ist kein Prädiktor für Gewicht, H1: KG ist ein Prädiktor für Gewicht 12 Voraussetzungen vgl. Schedera 36 R2 Determinationskoeffizient: Gesamtstreuung der AV: ein Anteil ist vorausgesagt, Reststreuung die nicht vorausgesagt wird Modellzusammenfassung Modell R ,894a 1 R-Quadrat Korrigiertes R- Standardfehler Quadrat des Schätzers ,800 ,785 4,52382 a. Einflußvariablen : (Konstante), Körpergröße Am besten das korrigierte R2 angeben, weils meisten überschätzt wird. Koeffizientena Standardisierte Nicht standardisierte Koeffizienten Koeffizienten Regressionskoe Modell 1 ffizientB (Konstante) Körpergröße -208,217 37,154 1,596 ,214 a. Abhängige Variable: Gewicht vor der Diät Konstante ist -208,217 (a), b=1,596 37 Standardfehler Beta T ,894 Sig. -5,604 ,000 7,473 ,000 Z-transformierte Werte haben den Mittelwert 0, deshalb a=0 ; Signifikanz ist hoch i.d.F. Beta von 1 ist ein perfekter Zusammenhang, deshalb kann Beta interpretiert werden und als Effektstärke. 26 Spearman-Korrelationskoeffizent H0: es gibt keinen Zsg zw. Schulnote in Mathe und EDV-Kenntnissen Für Rangkorellation wäre eigentlich Kendalls Tau b super für ordinalskalierte Daten, weil er robuster gegenüber Ausreißern ist. Meist ist er jedoch nicht so bekanntund es wird trotzdem spearman genommen. Korrelationen Kendall-Tau-b EDV-Kenntnisse Korrelationskoeffizient Sig. (2-seitig) EDV-Kenntnisse Mathematik ,393 ,081 16 16 Korrelationskoeffizient ,393 1,000 Sig. (2-seitig) ,081 . Korrelationskoeffizient Sig. (2-seitig) N Schulnote Mathematik Kenntnisse . N Spearman-Rho Schulnote 1,000 N Schulnote Mathematik EDV- 16 16 1,000 ,395 . ,130 16 16 Korrelationskoeffizient ,395 1,000 Sig. (2-seitig) ,130 . N 16 Wie interpretiern? Positiver Zshg beide Variablen steigen an auf die Kodierung aufpassen!!! 27 Pearsons Produkt-Moment-Korrelation Beide Variablen intervallskaliert! Phi-Koeffizient Müssen nicht beide natürlich dichotom sein 38 16 28 Explorative Faktorenanalyse Findet sich im olat ein Excelblatt 29 Multiple Regressionsanalyse Vorhersage der AV wird aus mehreren UVs getroffen. Bsp: Alter und Semesteranzahl haben Einfluss auf das Gewicht. H0: Gewicht nach der Diät kann nicht durch Körpergröße, Alter und Semesteranzahl vorhergesagt werden H1: Gewicht t2 kann…vorhergesagt werden Skalenniveau und Normalverteilung prüfen: Prädiktoren sind intervallskaliert, Kriterium (Gewicht) auch NV: Kolmogarov-Smirnov , NV ist gegeben (asymptotische Signifikanz höher als 0,2) ANALYSIERENREGRESSIONLINEARE REGRESSION Methode: EINSCHLUSS immer wenn theoriegeleitet die Kausalität begründet wird (alle Prädiktoren werden auf einmal aufgenommen) SCHRITTWEISE: wenn explorative Fragestellung (wenn man nicht weiß welche Prädiktoren Vorhersagewert haben) Zunächst der Prädiktor, der am meisten Vorhersagewert hat, dann der mit weniger usw, herauskommt das sparsamste Modell. Vorsicht, weil sehr explorativ. Modellzusammenfassung Modell 1 R ,957a R-Quadrat ,915 Korrigiertes R- Standardfehler Quadrat des Schätzers ,894 3,03236 a. Einflußvariablen : (Konstante), Alter in Jahren, Körpergröße, Semesteranzahl R ist das Ausmaß der Korrelation zwischen den beobachteten und den durch das Modell vorhergesagten Werten je größer, desto größer der Zusammenhang. Korrigiertes R2 = Varianzaufklärung. Ca 10 % der Varianz wird durch Prädiktoren nicht aufgeklärt, wird also durch andere Faktoren beeinflusst (hier extrem hoch). Effektstärke (Varianzaufklärung) sehr hoch! 39 Koeffizientena Standardisierte Nicht standardisierte Koeffizienten Koeffizienten Regressionskoe Modell 1 ffizientB (Konstante) Standardfehler -191,033 31,323 Körpergröße 1,283 ,155 Semesteranzahl 1,127 Alter in Jahren 1,328 Beta T Sig. -6,099 ,000 ,753 8,268 ,000 ,361 ,298 3,121 ,009 ,715 ,165 1,858 ,088 a. Abhängige Variable: Gewicht nach der Diät Regressionsgleichung Gewicht t2= KöGrö *1,283 + Semanz*1,127+Alter*1,328-191,033 Betawerte sind die standardisierten B´s, bewegen sich zwischen -1 und +1. Also den größten Einfluss hat Körpergröße (signifikant 0,00) ebenso sig. ist Semanz, Alter in Jahren jedoch nicht, da 0,088 >0,05, daher Alter kein signifikanter Vorhersagewert. Wir konnten die H1 teilweise bestätigen. Alter in Jahren hat keinen sign. Vorhersagewert. Betas können auch negativ sein, also einen negativen Zusammenhang haben (Vorzeichen interpretieren). Jetzt zum Vergleich die schrittweise Methode: Arbeitsdatensatz: Mit welchen Prädiktoren kann die Arbeitszufriedenheit vorhergesagt werden? Arbeitsbedingungen (theoriegeleitet): Stressoren und Ressourcen H0: arbeitsbedingte Ressourcen und Stressoren haben keinen Vorhersagewert für die Arbeitszufriedenheit Voraussetzungen prüfen: Intervallskaliert? Die Items wurden mittels Lickertskala erhoben, es wurde ein Mittelwert gebildet also gibt’s eine Intervallskalierung. Normalverteilung ist gegeben (n=760) Analysieren Regression linear Modellzusammenfassung Modell 1 40 R ,727a R-Quadrat ,528 Korrigiertes R- Standardfehler Quadrat des Schätzers ,527 ,64088 Modellzusammenfassung Modell 1 R R-Quadrat ,727a Korrigiertes R- Standardfehler Quadrat des Schätzers ,528 ,527 ,64088 a. Einflußvariablen : (Konstante), Mittelwert_Stressoren, Mittelwert Ressourcen gesamt 52,7% der Gesamtvarianz kann durch Ressourcen und Stressoren aufgeklärt werden. (starker Effekt > 0,2613) Regressionsgleichung: AZ=Ress*0,796+Stress*(-0,303)+2,271 Koeffizientena Standardisierte Nicht standardisierte Koeffizienten Koeffizienten Regressionskoe Modell 1 ffizientB (Konstante) Mittelwert Ressourcen Standardfehler 2,271 ,178 ,796 ,031 -,303 ,032 Beta T Sig. 12,740 ,000 ,649 25,672 ,000 -,243 -9,613 ,000 gesamt Mittelwert_Stressoren a. Abhängige Variable: FAZ_Facetten m_res hat den größten Einfluss auf die AZ, beide Prädiktoren sind signifikant. Stressoren haben negativen Zusammenhang (die AZ sinkt wenn mehr Stressoren sind. Weitere Frage: Welche Ressourcen sind besonders wichtig für AZ? (Schauen bei Skalenbildung – Welche Subskala hat höchsten Einfluss? Hier wäre explorative Regressionsanalyse gut (SCHRITTWEISE) doppelklick in die Tabelle „aufgenommene Variablen“ und Tabelle größer machen, dann ist besser lesbar (Pivot-Tabelle ignorieren) Dann: 13 Bezieht sich nur auf multiple Korrelationen 41 Modellzusammenfassung Modell R R-Quadrat Korrigiertes R- Standardfehler Quadrat des Schätzers 1 ,649a ,421 ,421 ,70915 2 ,718b ,516 ,515 ,64903 3 ,728c ,530 ,528 ,64008 4 ,731d ,534 ,532 ,63745 a. Einflußvariablen : (Konstante), MIttelwert Entwicklungspotenzial b. Einflußvariablen : (Konstante), MIttelwert Entwicklungspotenzial, Mittelwert Partizipation c. Einflußvariablen : (Konstante), MIttelwert Entwicklungspotenzial, Mittelwert Partizipation, Mittelwert Soziale Unterstützung d. Einflußvariablen : (Konstante), MIttelwert Entwicklungspotenzial, Mittelwert Partizipation, Mittelwert Soziale Unterstützung, Mittelwert Freiheitsgrade Wir interpretieren nicht jedes einzelne Modell. Nach dem vierten bleibt keine Varianzaufklärung übrig, deshalb bleibt hier ein Prädiktor weg. Alle die übrig sind, sind auch signifikant. Wir brauchen das Modell mit der höchsten Varianzaufklärung. Nur dieses wird dann interpretiert. (mit dem 4. Modell wird 53,2% der Varianz aufgeklärt) Koeffizientena Standardisierte Nicht standardisierte Koeffizienten Koeffizienten Regressionskoe Modell 1 ffizientB (Konstante) Standardfehler 2,042 ,106 ,571 ,024 1,623 ,103 ,473 ,024 ,233 ,019 1,297 ,123 ,423 ,026 Mittelwert Partizipation ,225 Mittelwert Soziale MIttelwert Beta T Sig. 19,251 ,000 23,495 ,000 15,756 ,000 ,537 19,952 ,000 ,327 12,163 ,000 10,568 ,000 ,481 16,523 ,000 ,019 ,316 11,851 ,000 ,122 ,026 ,133 4,724 ,000 1,203 ,127 9,451 ,000 ,649 Entwicklungspotenzial 2 (Konstante) MIttelwert Entwicklungspotenzial Mittelwert Partizipation 3 (Konstante) MIttelwert Entwicklungspotenzial Unterstützung 4 42 (Konstante) MIttelwert ,409 ,026 ,464 15,680 ,000 Mittelwert Partizipation ,201 ,021 ,282 9,632 ,000 Mittelwert Soziale ,101 ,027 ,110 3,778 ,000 ,084 ,031 ,086 2,692 ,007 Entwicklungspotenzial Unterstützung Mittelwert Freiheitsgrade a. Abhängige Variable: FAZ_Facetten Bei ausgeschlossenen Variablen kann man Betain ablesen, das ist die Varianz wenn die Variable mit aufgenommen werden WÜRDE. (Partizipation 0,327 sig. Also wird’s ins nächste Modell aufgenommen.) Regressionsgleichung: AZ=EP*0,409+PA*0,201+SU*0,101+FG*0,084+1,203 Entwicklungspotenzial hat den größten Einfluss. 30 Phi-Koeffizient und Chi-Quadrat Zusammenhangsmaß wenn beide Variablen nominalskaliert und dichotom. Qui-Quadrat überprüft ob es sich um eine Gleichverteilung der Daten handelt oder ob bestimmte Merkmalskombinationen überproportional häufig vorkommen. Phi-Koeffizient: Gibt es Zusammenhang zwischen Rauchverhalten und Geschlecht? Chi-Quadrat: H0: Ist Merkmal Geschlecht in seiner Verteilung unabhängig vom Merkmal Rauchen? H1: Merkmale sind nicht unabhängig ANALYSIEREN DESKRIPTIVE KREUZTABELLEN Zeilen: Geschlecht, Spalten Rauchverhalten 43 Chi-Quadrat-Tests Wert Asymptotische Exakte Exakte Punkt- Signifikanz (2- Signifikanz (2- Signifikanz (1- Wahrscheinlich seitig) seitig) seitig) keit df ,423a 1 ,515 Kontinuitätskorrekturb ,017 1 ,896 Likelihood-Quotient ,429 1 ,513 Chi-Quadrat nach Pearson Exakter Test nach Fisher ,397c Zusammenhang linear-mit- 1 ,529 ,633 ,451 ,633 ,451 ,633 ,451 ,633 ,451 ,330 linear Anzahl der gültigen Fälle 16 a. 3 Zellen (75,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 2,63. b. Wird nur für eine 2x2-Tabelle berechnet c. Die standardisierte Statistik ist ,630. Wenn bei mehr als 20% aller Zellen die Erwartete Häufigkeit kleiner als 5 ist muss der exakte Test nach Fisher interpretiert werden. Phi-Koeffizient: WERT ablesen: 0,163 ist positiv, das heißt wir müssen in der Codierung nachlesen: niedrige Ausprägung (0=männlich, rauchen nein=0) geht mit niedriger Ausprägung in zweiter variable einher! Fragestellung kann mit beiden beantwortet werden. 0 ,633 ist nicht signifikant, genauso wie Chi-Quadrat. Symmetrische Maße Wert Nominal- bzgl. Nominalmaß Näherungsweis Exakte e Signifikanz Signifikanz Phi ,163 ,515 ,633 Cramer-V ,163 ,515 ,633 Anzahl der gültigen Fälle 16 31 Mediatoren UV hat Einfluß auf AV, Mediator interveniert die UV hat also Einfluß auf Mediator und AV, es gibt also eine dritte Variable, die Moderator hat keinen Zusammenhang mit AV sondern beeinflusst den Zusammenhang zw UV und AV. Ressourcen haben Einfluß auf psychosomatische Beschwerden. Dieser Zusammenhang wird aber über die Arbeitszufriedenheit mediiert (AZ ist also ein Mediator). Wie berechnen? Mediatorprüfung: mehrere Regressionen. 44 C: Gibt’s Zshg. Zw. Ress und psychosomat. Beschwerden? (also zw. UV und AV) Wenn dieser Zshg. Nicht existiert, kann nichts mediiert werden! Signifikantes Beta! 2. Regression UV hat Einfluß auf Mediatorvariable (diese wird zur AV), in diesem Fall Arbeitszufriedenheit; signifikantes Beta! (gibt’s nichts Signifikantes, kann nichts mediiert werden) B: 3. Regression: Gibt’s Zshg. Zwischen AZ (UV) und psychosom. B. (AV)? Signifikantes Beta! (keine Voraussetzung aber sinnvoll, dies trotzdem zu rechnen. Es sollte für jede Regression eine Hypothese formuliert werden. 4. Regression. Mediatorprüfung. Ressourcen (UV) und AZ (Mediator) [beides Prädiktoren], psychsom.B. (AV) Beta von erster Regression (c) muss kleiner sein als Beta von letzter (c´) Wenn Beta noch signifikant ist, spricht man von partieller Moderation. 1. Regression Koeffizientena Standardisierte Nicht standardisierte Koeffizienten Koeffizienten Regressionskoe Modell 1 ffizientB Standardfehler (Konstante) 2,204 ,103 Mittelwert Ressourcen -,145 ,025 Beta T -,205 Sig. 21,348 ,000 -5,777 ,000 gesamt a. Abhängige Variable: Beschwerden insgesamt Hoher Wert sind hohe Beschwerden: Beta ist signifikant also der Zshg. Ist je stärker die Ressourcen desto niedriger die psychosomatischen Beschwerden. 2. Regression: Hängt die UV mit dem Mediator zusammen? Koeffizientena Standardisierte Modell 45 Nicht standardisierte Koeffizienten Koeffizienten T Sig. Regressionskoe ffizientB 1 (Konstante) Mittelwert Ressourcen Standardfehler 1,059 ,133 ,841 ,032 Beta ,686 7,938 ,000 25,949 ,000 gesamt a. Abhängige Variable: FAZ_Facetten Beta ist wieder signifikant 3. Ob Mediator signifikant mit AV zusammenhängt? (AZ mit psychosom.) Beta ist negativ und signifikant, also je höher AZ desto weniger psychsom.B. 4. Regression Koeffizientena Standardisierte Nicht standardisierte Koeffizienten Koeffizienten Regressionskoe Modell 1 ffizientB (Konstante) Mittelwert Ressourcen Standardfehler 2,393 ,105 ,005 ,034 -,178 ,027 Beta T Sig. 22,871 ,000 ,007 ,153 ,879 -,310 -6,518 ,000 gesamt FAZ_Facetten a. Abhängige Variable: Beschwerden insgesamt Beta bei Ressourcen ist auf 0,007 gesunken, ist nicht mehr signifikant, daher spricht man von Der Zusammenhang zwischen Ressourcen und den psychosomatischen Beschwerden wird also vollständig von AZ mediiert. Sobel Test: www.quantpsy.org/sobel/sobel Hier findet man auch nochmal die Zusammenfassung für die Mediatoren. Im Formular muss man den Regressionskoeffizient B eingeben (unkorrigierte Werte), Achtung: Punkt statt Komma!! 46 p-Value kleiner als 0,05, dann ist Mediation gegeben. Klausur: alles was behandelt wurde, Deskriptive und Inferenzstatistik, bis multiple Regression Klausurbogen und Datensatz (Arbeitsdatensatz) und es müssen Hypothesen geprüft werden und am Antwortbogen eingetragen werden. 47