Thomas Lübbeke Am Galgenberg 52 (App.9/10/2) 97074 Würzburg [email protected] Stand: 10. September 2004 Forschungsmethoden der Psychologie Zusammenfassung auf der Grundlage des Scripts zur Vorlesung von I. Totzke Ein ganz besonderes Dankeschön an dieser Stelle an den Schöpfer, die Muse, die allumfassende Gestalt des gedanklichen Überbaus – C.B.L., ohne die dieses Script nie diese unendliche Perfektion erlangt hätte! DANKE! Außerdem danke ich den Ärzten (auuus Berlin), die mir den Glauben an das Gute im Menschen gegeben haben und dafür verantwortlich sind, dass dieses Script nun jedem zur Verfügung steht. Jedem, der nur vorhat, dieses Script auswendig zu lernen, ohne den gedanklichen Hintergrund verstehen zu wollen, dem sei gesagt: „Für dich ist es nicht gemacht :-)“ 0 Inhaltsverzeichnis FORSCHUNGS-METHODEN DER PSYCHOLOGIE ZUSAMMENFASSUNG AUF DER GRUNDLAGE DES SCRIPTS ZUR VORLESUNG VON I. TOTZKE 1 0 INHALTSVERZEICHNIS 2 1 ALLGEMEINES & DEFINITIONEN 8 1.1 Methodenanwendung 1.1.1 Definition Alltag vs. Wissenschaft 1.1.2 Eigenschaften von „Methoden“ 8 8 8 1.2 Die Hypothese 1.2.1 Kriterien für Hypothesen 1.2.2 Hypothesenarten 1.2.2.1 Inhaltliche Hypothesen: 1.2.2.2 Statistische Hypothesen: 1.2.3 5 Schritte eines empirischen Forschungsprozesses 1.2.3.1 Planungsphase 1.2.3.2 Operationalisierung 1.2.3.3 Messung 1.2.3.4 Datenanalyse 1.2.3.5 Interpretation der Daten 8 9 9 9 9 9 9 9 9 10 10 1.3 Das Experiment 1.3.1 Defintion Experiment 1.3.2 Hauptmerkmale des Experiments 1.3.3 Kontrolltechniken 1.3.3.1 Experimentelle (Instrumentelle) Kontrolltechniken 1.3.3.2 Versuchsplanerische Kontrolltechniken 1.3.3.3 Statistische Kontrolltechniken 1.3.4 Logik des Experiments 1.3.5 Problemkreise Experiment 11 11 11 12 12 12 12 12 12 1.4 Der Versuch 1.4.1 Übersicht „Versuchspläne“ 1.4.2 Versuchsleiter-Artefakte 1.4.3 Funktion des Signifikanztests 13 13 13 13 1.5 Deskriptive Statistik 1.5.1 Statistische Symbole 1.5.2 Kennwerte der zentralen Tendenz (Lage) 1.5.3 Kennwerte der Dispersion (Variabilität) 1.5.4 Kennwerte der Schiefe (Abweichung von der Symmetrie) 1.5.5 Kennwerte des Exzess (Steilheit, Gipflichkeit, Kurtosis) 13 13 14 15 15 15 1.6 Variablen der Psychologie 1.6.1 UV / AV 1.6.2 Weitere Variablentypen 1.6.3 Klassifikation von Variablen 15 15 16 16 2 16 GÜTEKRITERIEN 2.1 Gütekriterien einer Messung 2.1.1 Gütekriterium: Objektivität 16 16 2 2.1.2 2.1.3 Gütekriterium: Reliabilität Gütekriterium: Validität 17 17 2.2 Stichproben 2.2.1 Zufallsstichprobe 2.2.2 Klumpenstichprobe 2.2.3 Geschichtete (stratifizierte) Stichprobe 2.2.4 Zufallsgesteuerte Stichproben: Sonderfall 2.2.5 Nicht-zufallsgesteuerte Stichproben 2.2.6 Quoten-Stichproben 2.2.7 Stichproben und Repräsentativität 2.2.8 Konfidenzintervalle und Stichprobenumfänge 17 18 18 18 19 19 19 19 20 2.3 Faktor Zeit (beeinflusst interne Validität) 2.3.1 Geschichtlichkeit: 2.3.2 Entwicklung: 2.3.3 Selektion und Messeffekte: 2.3.4 Test- und Lerneffekte: 20 20 20 20 21 2.4 21 3 Gefährdung der externen Validität FORSCHUNGSFORMEN 22 3.1 Laborforschung 22 3.2 Feldforschung 22 3.3 Labor vs. Feld 22 3.4 Web-Experimente Merkmale 3.4.1 Webexperimente (Vor- / Nachteile) 3.4.2 Verweigerung von Informationen (Drop Outs) 3.4.3 Dropout Quote 3.4.3.1 Zur Bestimmung: 3.4.3.2 3 Techniken zur Verringerung 3.4.3.2.1 High-Hurdle Technique 3.4.3.2.2 Warm-Up Technique 3.4.3.2.3 Seriousness-Check 23 23 23 24 24 24 24 24 24 3.5 Einzelfallforschung 3.5.1 Allgemeine Definition: 3.5.2 Vorteile: 3.5.3 Nachteile: 24 24 24 25 3.6 Längsschnittstudien 3.6.1 Definition: (von Baltes 1967) 3.6.2 Vorteile: 3.6.3 Nachteile: 3.6.4 Panel Forschung 3.6.4.1 Panelforschung als Beispiel einer Längsschnittstudie 3.6.4.2 Testeffekte 3.6.4.3 Weitere Nachteile: 3.6.4.4 Lösungsvorschläge 3.6.4.5 Alternierendes Panel 3.6.4.6 Rotierendes Panel 3.6.4.7 Geteiltes Panel 25 25 25 25 26 26 26 26 26 26 27 27 3.7 Querschnittstudien 3.7.1 Vorteile: 3.7.2 Nachteile: 27 28 28 3 3.8 Sekundäranalysen 3.8.1 Primäranalysen: 3.8.2 Sekundäranalysen: 3.8.2.1 Vorteile: 3.8.2.2 Nachteile: 28 28 28 28 28 4 29 4.1 BEOBACHTUNG Definition Beobachtung 29 4.2 Beobachtungssysteme (Kodierung von Beobachtung) 4.2.1 Verbalsysteme: 4.2.2 Nominalsysteme: 4.2.2.1 Zeichensysteme 4.2.2.2 Kategoriensysteme 4.2.3 Quantifizierung der Beobachtung 29 29 29 30 30 30 4.3 Beobachtungseinheit: (Empfehlungen) 4.3.1 Time-Sampling: 4.3.2 Event-Sampling 4.3.3 Ratingverfahren: 30 30 30 31 4.4 Beobachterfehler 4.4.1 Beobachterfehler durch: 4.4.2 Beobachterreliabilität 4.4.3 Verbesserung der Beobachterleistung 4.4.4 Erwartungseffekte: generell vs. speziell 4.4.5 Kappa Maß 31 31 32 32 32 33 4.5 Aspekte des Beobachtungsprozesses 4.5.1 Selbstbeobachtung: Probleme 4.5.2 Fremdbeobachtung (Aspekte) 4.5.2.1 Natürlich und künstlich 4.5.2.2 wissentlich und unwissentlich (offen und verdeckt) 4.5.2.3 Teilnehmend und nicht-teilnehmend 4.5.2.4 Direkt und indirekt (direktes Beobachten oder mittels Rückschlüsse) 4.5.2.5 Vermittelt und unvermittelt 4.5.3 Reaktive Effekte 34 35 35 35 35 36 36 37 37 4.6 38 5 Problemkreise Beobachtung BEFRAGUNG 38 5.1 Definition Befragung 5.1.1 Alltagsverständnis: 5.1.2 Wissenschaftliches Verständnis: 5.1.3 Dem Befragten muss klar sein… 38 38 38 38 5.2 Klassifikation von Befragungen 5.2.1 Ausmaß der Standardisierung 5.2.2 Autoritätsanspruch des Interviewers 5.2.3 Art des Kontakts 5.2.4 Anzahl der befragten Personen 5.2.5 Anzahl der Interviewer 5.2.6 Funktion des Interviews (Klassifizierung einer Befragung) 39 39 39 39 40 40 40 5.3 Problemkreise der Befragung 5.3.1 Aspekte der Frage: 5.3.2 Merkmale des Befragten 5.3.3 Kontext der Befragungssituation 40 40 41 41 4 5.4 Neue Befragungstechniken 41 5.5 Skalen 41 5.5.1 Numeralskala 42 5.5.2 Verbalskala 42 5.5.3 Symbolskala 42 5.5.4 Graphische Skala (Visuelle Analogskala) 43 5.5.5 Standardskala (Durch Beispiele verankerte Skala) (z.B. Checklist-Verfahren, Forced ChoiceVerfahren) 43 5.6 Verweigerung 5.6.1 Item-Non-Response 5.6.2 Unit-Non-Response 5.6.3 Verweigerungsquoten 5.6.4 Rücklaufquoten 43 43 43 43 44 6 44 MESSUNGEN 6.1 Mess-Artefakte 6.1.1 Artefakte physiologischer Herkunft 6.1.2 Bewegungsartefakte 6.1.3 Artefakte durch externe elektrische Einstreuung 44 44 44 44 6.2 Spezifitätsproblematik 6.2.1 Individualspezifische Reaktion 6.2.2 Stimulusspezifische Reaktion 6.2.3 Motivationsspezifische Reaktion 45 45 45 45 6.3 Ausgangswertgesetz von Wilder (1931): 45 6.4 Messprobleme – innere und äußere Variablen 45 7 VERSUCHSPLANUNG 45 7.1 Idee der Versuchsplanung 7.1.1 Definitionen PV / SV / FV 7.1.2 Primärvarianz: 7.1.3 Sekundärvarianz 7.1.4 Fehlervarianz (Zufallsfehler): 7.1.5 Ein Beispiel 7.1.6 Logik der Bewertung 45 46 46 46 46 47 47 7.2 Idee der Varianzanalyse 7.2.1 Modell der Varianzanalyse: 7.2.2 Statistische Prüfgröße Quadratsummen (QS) 7.2.3 Interpretation der Wirkungen 47 48 48 49 7.3 Das MAX-KON-MIN Prinzip 7.3.1 MAXimiere die Primärvarianz: 7.3.2 KONtrolliere die Sekundärvarianz: 7.3.2.1 Experimentell 7.3.2.2 Individuelle Rohdatenanalyse 7.3.2.3 Kovarianzanalytische Kontrolle (“Kovarianzanalyse“) 7.3.3 MINimiere die Fehlervarianz: 7.3.3.1 Randomisierung 7.3.3.2 Blockbildung (Parallelisierung) 7.3.3.3 Wiederholungsmessung 7.3.4 Beurteilung von Kontrolltechniken 7.3.5 Überblick Kontrolltechniken 49 49 50 50 50 50 50 51 51 51 52 52 5 7.4 Vorexperimentelle Versuchspläne 7.4.1 One-Shot Case Study (Schrotschuss-Design) 7.4.2 Einfache Vorher-Nachher-Messung (Prä-Post) 7.4.3 Statischer Gruppenvergleich (z.B. Pisa Studie) 52 52 53 53 7.5 Experimentelle Versuchspläne 7.5.1 Randomisierungspläne (Versuchspläne mit Zufallsgruppenbildung) 7.5.1.1 Zweistichprobenpläne: Zufallsgruppenplan ohne Vortest 7.5.1.2 Zufallsgruppenplan mit Vortest 7.5.1.3 Zufallsgrppenplan mit teilweisem Vortest 7.5.1.4 Mehrstichprobenversuchspläne: einfaktorieller Plan ohne Vortest 7.5.1.5 Zweifaktorieller Zufallsgruppenplan 7.5.1.6 Mehrfaktorieller Zufallsgruppenplan 7.5.1.7 Vorteile / Nachteile Zufallsgruppenpläne 7.5.2 Messwiederholungspläne (Versuchspläne mit wiederholter Messung) 7.5.2.1 Messwiederholung: Beispiel 7.5.2.2 Vorteile / Nachteile: 7.5.2.3 Ausbalancierung der Reihenfolge 7.5.3 Blockversuchspläne 7.5.4 Mischversuchspläne 7.5.5 Zusammenfassung 54 55 55 55 55 56 56 57 57 58 58 58 58 59 60 61 7.6 Quasi-experimentelle Designs 7.6.1 Zeitreihenversuchspläne 7.6.2 Versuchspläne mit unvollständiger Ausbalancierung 7.6.3 Einzelfallversuchspläne 61 62 62 62 7.7 Ex post-facto-Designs 62 7.8 Übersicht: Versuchspläne 62 7.9 Zur Übung: Womit untersuche ich was? 63 8 PRÜFUNGSFRAGEN RAUSCHE / KRÜGER: (AUS DEN LETZEN 4 KLAUSUREN) 64 8.1 Verteilungen 64 8.2 Inferenzstatistik 64 8.3 Testen 66 8.4 Induktion 66 8.5 Deskriptive Statistik 67 8.6 Logik 68 8.7 Wahrscheinlichkeit 69 8.8 Forschungsformen 8.8.1 Wissenschaftstheorie 8.8.2 Messtheorie 71 71 73 8.9 Zufallsvariable 76 8.10 Korrelationen 77 8.11 Versuchsplanung 77 6 8.12 Diverses 77 7 1 Allgemeines & Definitionen 1.1 Methodenanwendung 1.1.1 Definition Alltag vs. Wissenschaft Alltagsverständnis: Zielgerichtetes Handeln (Erreichen eines Zieles) mit Hilfe von planmäßigem und systematischem Vorgehen Wissenschaftlich: aufgrund einer (Anwendungs-) Entscheidung erfolgende Steuerung des zielgerichteten Handelns durch ein Regelsystem, das im jeweiligen Handlungsplan der Akteure repräsentiert und verfügbar ist diese methodenspezifische Handlungssteuerung ist regulativ und weitgehend adaptiv (Methoden angepasst/angemessen) und reflexiv (Regeln gerechtfertigt) 1.1.2 Eigenschaften von „Methoden“ 1. Normativer und präskriptiver (vorschreibender) Charakter 2. Die Befolgung von Regeln wird erwartet, eine Verletzung sanktioniert 3. können in hierarchischem Verhältnis zueinander stehen 1.2 Die Hypothese Eine wissenschaftliche Hypothese formuliert eine Beziehung zwischen zwei oder mehr Variablen, die für eine bestimmte Population vergleichbarer Objekte gelten soll 8 1.2.1 Kriterien für Hypothesen 1. Generalisierbarkeit (All-Satz) - wiss. Hypothese als allgemeingültige, über den Einzelfall hinausgehende Behauptung 2. Konditionalsatz (Wenn-Dann / Je-Desto) - in einer Hypothese muss eine sinnvolle Wenn-Dann Behauptung impliziert sein 3. Falsifizierbarkeit - der Konditionalsatz muss falsifizierbar sein (es muss ein widersprüchliches Ereignis denkbar sein) (keine Formulierung von „kann“ und „es gibt“ Aussagen) 1.2.2 Hypothesenarten 1.2.2.1 Inhaltliche Hypothesen: - verbale Behauptungen über kausale/nicht-kausale Beziehungen zwischen Variablen - abgeleitet aus begründeten Vorannahmen, Modellen oder Theorien - dimensionale und semantische Analyse 1.2.2.2 Statistische Hypothesen: - Zuspitzung der inhaltlichen Hypothese zu einer empirischen Vorhersage des Untersuchungsergebnisses - Formulierung von statistischen Aussagen bezogen auf Maße, die eine inhaltliche Aussage am besten wiedergeben - Def.: Annahmen über die Verteilung einer oder mehrerer Zufallsvariablen oder eines oder mehrerer Parameter dieser Verteilung - Sind nicht deterministisch, sondern probabilistisch; Hypothesen sind Wahrscheinlichkeitsaussagen 1.2.3 5 Schritte eines empirischen Forschungsprozesses 1.2.3.1 Planungsphase - Ziel: Präzisierung der Forschungsfrage, Auswahl von zu erfassenden Variablen, Formulierung von Hypothesen 1.2.3.2 Operationalisierung - Übersetzung in Techniken bzw. Forschungsoperationen - beinhaltet Angaben zur Gestaltung des Messinstruments (z.B. Fragebogen), Angaben zur Handhabung des Messinstruments (z.B. Ort des Interviews, Reihenfolge der Fragen) - Entscheidung bezüglich des Versuchsplans, der Versuchsgruppen, etc. 1.2.3.3 Messung Möglichst sorgfältige Planung vor der Versuchsdurchführung - Abschätzung des zeitlichen Ablaufs - Planung des Einsatzes und der Verwendung von Hilfspersonal, Räumen, Apparaten und ggf. auch Finanzen Regeln für das Verhalten der Versuchsleiter zur Kontrolle von sog. VersuchsleiterArtefakten - Gefahr der Beeinflussung der Untersuchungsergebnisse durch den Versuchsleiter - Kontrollmöglichkeiten 9 o o Beobachtung des Versuchsleiters durch neutrale Beobachter Standardisierung der Versuchsdurchführung Mögliche Störfaktoren einer Messung: - Durchführung der Untersuchung und Datenerhebung Situation: • Untersuchungsort • Untersuchungszeit • Atmosphäre (Leistung vs. Erleben, Technik, Ordnung, weißer Mantel) Versuchsperson: • Motivation: "Intelligente Vp", soziale Erwünschtheit, Vp-Stunden, "Gute Vp", Bewertungsangst • Erwartung: Placebo (daher: mind. Einfachblindversuch) • Prozesse in der Vp: Aktivation, Ermüdung, Lernen, Übung Versuchsleiter: • Erwartung: Rosenthal-Effekt (daher: Doppelblindversuch) • Vp-Vl-Interaktion: Sicherheit, Nervosität, Mann-Frau 1.2.3.4 Datenanalyse - Auswahl und Durchführung von Datenanalysemethoden und –verfahren 1.2.3.5 Interpretation der Daten Interpretation = Erklärung der Ergebnisse (“Warum”-Klären) Bei unerwarteten Ergebnissen mögliche Ursachen diskutieren • theoretische Annahmen • Untersuchungsaufbau, -durchführung und -auswertung • möglicherweise weitere (exploratorische) Datenanalysen anschließen (sog. hypothesenerkundender Teil) 10 Probleme: - Enge Verzahnung der einzelnen Stufen - Notwendigkeit, die einzelnen Stufen des Entscheidungsprozesses simultan zu überblicken - Fehler in vorherigen Versuchsstadien bleiben unbemerkt bzw. unkorrigiert - Dateninterpretation konzentriert sich auf Perfektion bestimmter Versuchsstadien (z.B. statistische Datenanalyse) - Keine abschließende konzeptuelle Neubewertung der Operationalisierungen von UV und AV - Frage der externen Validität nicht erörtert bzw. nicht in Form hypothetischer Schlussfolgerungen für neue Studien diskutiert - Herleitung neuer Fragestellungen orientiert sich nicht bzw. zu wenig an vorhergehenden Versuchsstadien - Es erfolgt keine wissenschaftliche Kommunikation. 1.3 Das Experiment 1.3.1 Defintion Experiment - „Unter einem Experiment versteht man einen systematischen Beobachtungsvorgang, aufgrund dessen der Untersucher das jeweils interessierende Phänomen planmäßig erzeugt sowie variiert ('Manipulation') und dabei gleichzeitig systematische und/oder unsystematische Störfaktoren durch hierfür geeignete Techniken ausschaltet bzw. kontrolliert ('Kontrolle'). Sarris (1990, S. 129) 1.3.2 Hauptmerkmale des Experiments 1. Datengewinnung über systematische Beobachtung (abhängige Variable) 2. Experimenteller Eingriff: Manipulation einer unabhängigen Variablen 3. Ausschalten bzw. Kontrolle von Störvariablen: Sicherstellen, dass nur UV Veränderungen der AV bewirkt. 11 1.3.3 Kontrolltechniken 1.3.3.1 Experimentelle (Instrumentelle) Kontrolltechniken • Anwendung bereits vor der Datenerhebung • Anwendung apparativer Techniken • z.B. Abschirmung, Eliminierung, Konstanthaltung 1.3.3.2 Versuchsplanerische Kontrolltechniken • Anwendung vor der Datenerhebung • Anwendung bestimmter Versuchsplanungsstrategien • z.B. Randomisierung, Parallelisierung, Wiederholungsmessung 1.3.3.3 Statistische Kontrolltechniken • Anwendung erst nach der Datenerhebung • z.B. allgemeine statistische Kontrolle, kovarianzanalytische Kontrolle 1.3.4 Logik des Experiments Ziel: Verifizierung einer Kausalursache Die UV ist kausal verantwortlich für die Veränderung der AV, d.h. aus der UV folgt die AV. Wenn ich zum Zeitpunkt 1 die Stufe der UV setze, tritt bei Zeitpunkt 2 notwendig die Veränderung der AV auf. Zeitfolge des Experiments: o Ursache vor Wirkung o UV vor AV Problem: • In der Zeit geschehen viele Dinge. Wie kann ich sicher sein, dass es nur die UV ist, die wirkt? Lösung: • Ich stelle Situationen her, die sich nur durch die Ausprägung der UV unterscheiden. • Verändert sich dann die AV, dann können die Ursache hierfür nur die Unterschiede in der UV gewesen sein. Vorgehen: • Systematische Manipulation der UV • Kontrolle von Störvariablen 1.3.5 Problemkreise Experiment 1. Ist es wirklich die UV, die die Veränderungen der AV verursacht? Design des Experiments, Interne Validität 2. Sind die Veränderungen der AV bedeutsam, d.h. größer als "zufällige" Schwankungen? • Planung: Max-Kon-Min-Prinzip • Prüfung: Inferenzielle Statistik 3. Für wen gelten die Ergebnisse meines Versuchs, inwieweit kann ich die Ergebnisse verallgemeinern, übertragen auf andere Personen, Situationen, Variablen? • Operationalisierung, Externe Validität 12 1.4 Der Versuch 1.4.1 Übersicht „Versuchspläne“ 1. Experimentelle Designs - systematische Manipulation relevanter Variablen - Kontrolle von Störfaktoren, die die Interpretierbarkeit und Gültigkeit der Ergebnisse beeinträchtigen könnten 2. Quasi-experimentelle Designs - systematische Manipulation relevanter Variablen - keine Kontrolle von Störfaktoren 3. Ex post-fakto-Designs - Ableitung von Kausalzusammenhängen aus nicht-manipulierten Variablen 4. Korrelative Designs - Prüfung des korrelativen Zusammenhangs zwischen zwei oder mehr Variablen 1.4.2 Versuchsleiter-Artefakte Problem der Vp-Vl-Interaktion: Abweichung des Versuchsleiterverhaltens vom geplanten Verhalten Dadurch: Gefahr der Beeinflussung des Untersuchungsergebnisses durch Versuchsleiter Kontrollmöglichkeiten: Beobachtung des Versuchsleiters durch neutrale Beobachter Standardisierung der Versuchsdurchführung Regeln für das Verhalten der Versuchsleiter zur Kontrolle von sog. VersuchsleiterArtefakten Kontrolle von Versuchsleiter-Artefakten 1. standardisierte Instruktion 2. Konstante Untersuchungsbedingungen (z.B. Beleuchtung, Geräusche, Temperatur) 3. Selbstkontrolle des Versuchsleiters (z.B. auf eigene Stimmung achten und ggf. protokollieren) 4. Verwendung sog. blinder Versuchsleiter (sind selbst nicht eingeweiht) 5. Einhalten eines zeitlichen Ablaufs 6. Untersuchungsleiter soll Vorerhebung selbst durchführen 7. Nachbefragung nach Beendigung des Hauptteils des Versuchs 8. Aufzeichnung des gesamten Versuchs per Video 9. Abweichungen vom geplanten Ablauf in einem Untersuchungsprotokoll festhalten (z.B. mögliche Zwischenfragen der Probanden) 1.4.3 Funktion des Signifikanztests 1. Als Screening-Prozedur - wo lohnt es sich genauer hinzuschauen? 2. als zufallskritische Absicherung - Ist das Ergebnis auch bei zufälliger Zuweisung wahrscheinlich, oder ist es unwahrscheinlich? 1.5 Deskriptive Statistik 1.5.1 Statistische Symbole M= Mittelwert 13 SD = SE = df = Standardabweichung Standardfehler Zahl der Freiheitsgrade Bezeichnung für die Anzahl von Werten, die innerhalb der Begrenzungen eines Systems von Werten frei variieren oder gewählt werden können. Anders formuliert: Die Anzahl der Freiheitsgrade v ist definiert als die Differenz aus dem Stichprobenumfang n und der Anzahl k der aus den n Stichprobenmeßwerten berechneten Parameter v=n-k. Freiheitsgrade werden auch als explizite Parameter verwendet, so ist v der einzige explizite Parameter der Chi-Quadrat-Verteilungsfunktion. QS = Quadratsumme N= n= Anzahl der Pbn in Gesamtstichprobe Anzahl der Pbn in Teilstichprobe Graphische Darstellung eines Boxplots: 1.5.2 Kennwerte der zentralen Tendenz (Lage) Mittelwert (arithmetisch, geometrisch, harmonisch) • Voraussetzung: Intervallskalierte Daten • Empfehlung: Ø Berechnung anderer Kennwerte (z.B. Varianz) Ø symmetrische Verteilung (insb. bei NV-Annäherung) Ø Frage nach “Schwerpunkt” der Verteilung Medianwert 14 • Voraussetzung: Ordinalskalierte Daten • Empfehlung: Ø schiefe Verteilung (insb. falls Extremwerte auf einer Seite der Verteilung betrachtet werden sollen) Ø Untersuchung der “oberen” und “unteren” Hälfte der Messwertverteilung Ø nur unvollständige Verteilung liegt vor Modalwert • Voraussetzung: Nominalskalierte Daten • Empfehlung: Ø schnellstmögliche Kenntnis des zentralen Wertes Ø grobe Schätzung der zentralen Tendenz Ø “typischer Fall einer Verteilung wird benannt 1.5.3 Kennwerte der Dispersion (Variabilität) Standardabweichung (Varianz) • wichtigstes Maße zur Kennzeichnung der Dispersion • Voraussetzung: Intervallskalierte Daten • Empfehlung: Ø wenn alle Werte in Berechnung einbezogen werden sollen Bereichsmaße (Streubreite, Interquartilbereich etc.) • Voraussetzung: Ordinalskalierte Daten • Empfehlung: Ø zur ersten Orientierung hilfreich Ø starke Ausreißerempfindlichkeit (Lösung: gestutzte Streubreite) Informationsmaß h (Entropie) • Voraussetzung: Nominalskalierte Daten 1.5.4 Kennwerte der Schiefe (Abweichung von der Symmetrie) 1.5.5 Kennwerte des Exzess (Steilheit, Gipflichkeit, Kurtosis) 1.6 Variablen der Psychologie 1.6.1 UV / AV Unabhängige Variable (UV): - vom Versuchsleiter direkt oder indirekt verändert (durch Manipulation oder Selektion) - auch: sog. Reizvariable Abhängige Variable (AV): - Ereignis, das die Folgen der Manipulation der UV beobachtet - Einfluss von Störeinflüssen ist wahrscheinlich - Versuchsleiter hat auf AV keinen direkten Einfluss - auch: sog. Reaktionsvariable Behauptung: - Abstufungen der UV verändern systematisch die AV. - Aus der Veränderung der UV folgt die Veränderung der AV 15 Funktionale Beziehung: AV = f(UV) Bei: interne Validität = 100% => keine Störvariablen 1.6.2 Weitere Variablentypen Moderierende Variable: - Beeinflussung der Wirkung der UV auf die AV - AV = (f (UV, moderierende Variable) - Moderierende Variable ist z.B. eine Organismusvariable (z.B. Alter) Kontrollvariable: - moderierende Variablen werden zu Kontrollvariablen, wenn sie bei Untersuchungen miterhoben werden Störvariable (SV): - Moderierende Variablen werden zu Störvariablen, wenn sie nicht beachtet oder sogar übersehen werden - Kontrolle der Störvariablen mittels experimenteller Techniken 1.6.3 Klassifikation von Variablen Gemäß ihrer empirischen Zugänglichkeit - manifeste Variable (direkt beobachtbar; z.B. Anzahl gelöster Testaufgaben) - latente Variable (nicht beobachtbar, liegt einer manifesten Variable als hypothetisches Konstrukt zugrunde, z.B. Intelligenz) Klassifikation von Variablen Gemäß Art der Merkmalsausprägung - dichotom (2 Abstufungen) vs. polytom (mehr als 2 Abstufungen) - natürlich (z.B. Geschlecht) vs. künstlich (z.B. Alter: jung – mittel – alt) 2 Gütekriterien 2.1 Gütekriterien einer Messung Reliabilität - Grad der Genauigkeit, irgendetwas zu messen (Streuung um die Mitte eines Ziels) Validität - Grad der Genauigkeit, wirklich das zu messen, was ich messen möchte (Streuung um eine andere Stelle auf der Zielscheibe) Objektivität - Grad der Unabhängigkeit der Ergebnisse vom Untersucher 2.1.1 Gütekriterium: Objektivität Durchführungsobjektivität - Unabhängigkeit der Ergebnisse von zufälligen oder systematischen Verhaltensvariationen des Untersuchers während des Versuchs - z.B. Versuchsleitereffekte Auswertungsobjektivität - Unabhängigkeit der Ergebnisse von Variationen des Untersuchers während der Auswertung - insb. bedeutsam bei Verfahren mit vielen Freiheitsgraden (z.B. projektive Tests, freies Interview) Interpretationsobjektivität - Unabhängigkeit der Ergebnisse von interpretierender Person - Insb. wenn ein Ergebnis unterschiedliche Schlüsse zulässt 16 Bestimmung durch: - Korrelation zwischen Ergebnissen verschiedener Untersucher 2.1.2 Gütekriterium: Reliabilität Paralleltest-Reliabilität - vergleichbare Paralleltests werden identischen Stichproben vorgegeben und deren Ergebnisse miteinander korelliert Retest-Reliabilität - ein und derselbe Test werden einer Stichprobe mehrmals vorgegeben und die Ergebnisreihen miteinander korreliert Innere Konsistenz - ein Test wird in zwei gleichwertige Hälften geteilt und die Ergebnisse beider Testhälften miteinander korreliert (Testhalbierungsmethode) - Ein Test wird in beliebig viele Testelemente geteilt und die Reliabilität über Aufgabenschwierigkeit und Trennschärfekoeffizienten bestimmt (Methode der Konsistenzanalyse) (nach Lienert und Raatz) 2.1.3 Gütekriterium: Validität Inhaltliche Validität - Genauigkeit, mit der ein zu untersuchender Inhalt (z.B. Persönlichkeitsmerkmal, Verhaltensweise) gemessen wird - Verfahren ist optimale Möglichkeit, um Inhalte zu erfassen - Bestimmungsmaß: Rating von Experten Konstruktvalidität - Genauigkeit, mit der ein zu untersuchendes Konstrukt (z.B. Eigenschaft, Fähigkeit) gemessen wird - Bestimmungsmaß: Rating von Experten Kriterienbezogene Validität - Genauigkeit, mit der ein untersuchter Aspekt mit einem unabhängig vom Test erhobenen Außenkriterium übereinstimmt - Bestimmungsmaß: Korrelation des Testergebnisses mit Außenkriterium Interne Validität - die Veränderungen der AV sind „eindeutig“ auf die Variationen der UV zurückzuführen - Annahme: Manipulationen der UV bedingen Veränderungen der AV Externe Validität - Übertragbarkeit der Ergebnisse auf Nicht-Stichprobe (Generalisierbarkeit der Ergebnisse) - Problematisch insbesondere, wenn unter “realen Bedingungen” auch andere Faktoren als in der Untersuchung eine Rolle spielen. Interne Validität ist eine notwendige, jedoch keine hinreichende Bedingung für externe Validität. 2.2 Stichproben Annahme: • Auch eine sorgfältig gezogene Stichprobe kann die Merkmalsverteilung einer Grundgesamtheit niemals exakt wiedergeben. • Daher sind Unterschiede zwischen den an mehreren Stichproben ermittelten Verteilungskennwerten zu erwarten. 17 Grundgesamtheit (Population) • Alle potenziell untersuchbaren Einheiten, die ein gemeinsames Merkmal / eine gemeinsame Merkmalskombination aufweisen Stichprobe: • Teilmenge aller Untersuchungseinheiten, die die relevanten Eigenschaften der Grundgesamtheit möglichst gut abbildet. • Globale Repräsentativität (alle Merkmale repr.) vs. spezifische Repräsentativität (ein Merkmal repr.) • Je besser die Stichprobe die Population repräsentiert, desto präziser sind die Aussagen über die Grundgesamtheit. • Je größer die Stichprobe, desto präziser sind die Aussagen über die Grundgesamtheit. 2.2.1 Zufallsstichprobe Grundprinzip: • Jedes Element der Grundgesamtheit kann mit gleicher Wahrscheinlichkeit in Stichprobe aufgenommen werden • unabhängig von weiteren Elementen Vorgehen: • zufällige Auswahl von Untersuchungseinheiten aus einer Grundgesamtheit • Beispiel: Stichprobenauswahl über Einwohnermeldeamt Empfohlener Einsatz: • Wenn über relevantes Untersuchungsmerkmal praktisch nichts bekannt ist. Problem: • Mögliche systematische Fehler im Auswahlverfahren (z.B. Tageszeit der Befragung) 2.2.2 Klumpenstichprobe Vorgehen: • Zurückgreifen auf mehrere, zufällig ausgewählten Teilmengen, die bereits vorgruppiert sind • Untersuchung aller Einheiten dieser Teilmengen • Beispiele: Alkoholikern in verschiedenen Kliniken • Untersuchung eines einzelnen Klumpen (z.B. Schulklasse) ist eine Ad-hoc-Stichprobe Empfohlener Einsatz: • aus ökonomischen Zwängen Problem: • Generalisierbarkeit hängt ab von Ähnlichkeit der Einheiten in einem Klumpen 2.2.3 Geschichtete (stratifizierte) Stichprobe Vorgehen: • Stichproben zusammenstellen, die sich bezüglich einer das Untersuchungsmerkmal moderierenden Variable unterscheiden (eigene Einteilung nach relevantem Merkmal) • Innerhalb einer Schicht soll per Zufall oder nach dem Klumpenverfahren vorgegangen werden. • proportional geschichtet: Prozentuale Verteilung der Schichtungsmerkmale der Stichprobe stimmen mit Verteilung in Grundgesamtheit überein (40% Frauen und 60% Männer in einer Population) 18 • Beispiel: Berücksichtigung des Jahreseinkommens bei der Untersuchung von Konsumgewohnheiten Empfohlener Einsatz: • Wenn bereits Kenntnisse zu moderierenden Einflüssen auf das Untersuchungsmerkmal vorliegen. • Einsatz nur, wenn Schichtungsmerkmale nicht nur mit Untersuchungsmerkmal korrelieren, sondern zugleich erhebbar sind. Problem: • Nicht Anzahl der geschichteten Merkmale bestimmt Repräsentativität der Stichprobe, sondern die Relevanz der Merkmale. • Explosion der Schichtanzahl bei mehreren Schichtungsvariablen. 2.2.4 Zufallsgesteuerte Stichproben: Sonderfall Mehrstufige Stichprobe: Vorgehen • Es werden Klumpenstichproben oder geschichtete Stichproben ausgewählt. • Stichprobenartige Untersuchung mehrerer Klumpen bzw. Schichten Einsatz: • Falls zu untersuchende Klumpen oder Schichten zu groß 2.2.5 Nicht-zufallsgesteuerte Stichproben Auswahl der Stichprobe anhand definierter Kriterien • Befragung von fotogenen Passanten in “Rush-Hour” in Einkaufspassage willkürliche Auswahl anhand subjektiver Kriterien • Einbezug von “typischen” Konsumenten bei Produktentwicklung • Konzentration auf besonders dominante Elemente der Grundgesamtheit (z.B. Einkommensmillionäre) Auswahl nach Konzentrationsprinzip 2.2.6 Quoten-Stichproben Vorgehen: • Auswahl einer Stichprobe unter Berücksichtigung der prozentualen Verteilung der relevanten Merkmale in der Gesamtpopulation • Auswahl der Einheiten innerhalb dieser Quoten bleibt i.d.R. dem Untersucher überlassen Einsatz: v.a. in Umfrageforschung Probleme: • Nur prozentuale Aufteilung der Quotierungsmerkmale wird betrachtet, i.d.R. fehlende Betrachtung von Merkmalskombinationen • Interviewer erfüllt Quote nicht nach Zufallsprinzip, sondern häufig nach Verfügbarkeitsprinzip (z.B. Vernachlässigung höherer Stockwerke) 2.2.7 Stichproben und Repräsentativität Stichprobenkennwerte repräsentieren Populationsparameter mit bestimmter Wahrscheinlichkeit Aber: Eine “repräsentative” Stichprobe gibt es im Grunde genommen nicht !!! Frage: Sind die empirischen Kennwerte adäquate Schätzwerte für die Populationsparameter? 19 Lösung: • Schätzung des Konfidenzintervalls, um Aussagen über Repräsentativität der Ergebnisse zu erlauben 2.2.8 Konfidenzintervalle und Stichprobenumfänge - Bereich eines Merkmals, in dem sich z.B. 95% aller möglichen Populationsparameter befinden, die den Stichprobenkennwert erzeugt haben können. Je größer die Stichprobe, desto kleiner das Konfidenzintervall. Vor Durchführung einer Untersuchung sollte entschieden werden, wie viele Personen benötigt werden, um Aussagen mit der gewünschten Genauigkeit machen zu können. Eine Verkleinerung des Konfidenzintervalls geht mit einer Quadrierung des benötigten Stichprobenumfangs einher. Beispiel: Halbierung des KI 4facher Stichprobenumfang 2.3 Faktor Zeit (beeinflusst interne Validität) unabhängig abhängig generell Geschichtlichkeit Selektion u. Messeffekte speziell Entwicklung Test- und Lerneffekte 2.3.1 Geschichtlichkeit: - vom Untersucher unabhängig und genereller Effekt I. besonderes Jahr - über lange Zeiträume hinweg gibt es immer wieder „zufällig“ Schwankungen - Bsp: Verringerungen der Unfallzahlen durch Tempolimiteinführung II. Kohorteneffekte - Bsp: Abnahme der kognitiven Leistungsfähigkeit mit steigendem Alter aber: Folgen früherer Lebensbedingungen? (z.B.: Erleben von Hungerjahren) 2.3.2 Entwicklung: - von Untersucher unabhängig und spezieller Effekt Beispiel I: Regelung - Regressionseffekt B (negative Rückkopplung) - Ausgangslagegesetz von Wilder: „Negative Korrelation zwischen Ausgangswert und Veränderungswert“ je weiter der Ausgangswert vom Mittelwert abweicht, desto größer ist die Veränderung Beispiel: Regulation des Pulses: Stress vor dem Versuch (hoher Puls) kein Stress während des Versuchs (nied. Puls) Beispiel II: Entwicklungseffekte - Individualentwicklung: Spontanremission bei Therapie liegt bei 60%; Pbn werden müder, hungriger, lustloser - Mortalität: Stichprobe wird gesünder, je älter sie wird (die Kranken sterben) 2.3.3 Selektion und Messeffekte: - vom Untersucher abhängig und genereller Effekt Beispiel I: Regressionseffekt A 20 Ergebnisse von fehlerhaften Messinstrumenten tendieren bei erneuter Messung zur Mitte Beispiel II: Änderung der Messinstrumente - Messfühler verstellen sich - Beobachter ermüden - 2.3.4 Test- und Lerneffekte: - vom Untersucher abhängig und spezieller Effekt Beispiel I: Lernen aus vorhergehender Untersuchung Beispiel II: Residualeffekte im Cross Over - Wirkung einer Behandlung ist trotz „Cross Over“ stets durch personenbedingte Störeinflüsse „verunreinigt“ Beispiel III: Experimentelle Mortalität - 6-Monats-Katamnese von therapeutischen Interventionen: Klienten mit Nebenwirkungen, Rückfällen, etc. kommen nicht mehr. Folge: Entscheidung, welche Veränderungen auf Behandlung zurückzuführen sind, schwer möglich 2.4 Gefährdung der externen Validität durch mögliche: 1. Reaktive Effekte der Experimentalsituation - Veränderungen des Verhaltens durch Situation - Z.B. sozial erwünschte Antworten in Interviews, Reaktanz der Pbn (entgegen der Hypothese), Demand-Effekte (zugunsten der Hypothese) 2. Interaktion von Vortest und UV - durch Vortest kann Sensitivität der Pbn gegenüber UV beeinflusst (erhöht o. verringert) und somit das Verhalten im Haupttest verändert werden (Sensibilisierung verfälscht Messung) - z.B. Kurzinterview zur Vorauswahl einer Stichprobe, anschließend experimentelle Untersuchung 21 3. Einflüsse bei Mehrfachmessungen - z.B. sukzessive Einnahme verschiedener Medikamente 4. Interaktion von Selektionseffekten und UV - Fehler bei Selektion können zur Konfundierung (Überlagerung) der Ergebnisse mit den durch die UV bedingten Veränderungen der AV führen - Bsp: Bedeutung der Wirkung eines kognitiven Trainings auf Problemlösefähigkeit kann nur schwer eingeschätzt werden, wenn in der KG intelligentere Pbn sind - Bsp: Wirkung von Nikotin, kann nicht unabhängig vom Rauchverhalten betrachtet werden 3 Forschungsformen 3.1 Laborforschung Vorteile: 1. Situation und Verhalten leichter manipulierbar 2. Störvariablen können besser kontrolliert werden 3. Schaffung optimaler Bedingungen für die Untersuchung Nachteile: 1. Die Umgebung ist ungewohnt und unnatürlich ( Gewöhnungsphase) 2. Die Personen wissen, dass die untersucht werden und verändern so u.U. ihr Verhalten 3. Übertragbarkeit der Ergebnisse auf normales Verhalten (Externe Validität) in Frage gestellt 3.2 Feldforschung Vorteile: 1. Natürliche Umgebung 2. spontanes, „normales“ Verhalten 3. besser übertragbar auf natürliches Verhalten 4. keine oder geringe Verfälschung durch „Wissen um die Studie“ Nachteile: 1. Störvariablen schlecht zu kontrollieren 2. Manipulation von Situation und Verhalten schwierig 3. Das Verhalten ist schwer zugänglich 4. die Untersuchungsbedingungen sind nicht optimal 3.3 Labor vs. Feld Allgemeiner Konsens - Laborforschung Hohe interne Validität, geringe externe Validität - Feldforschung Geringe interne Validität, hohe externe Validität ABER: - keine systematischen Vergleiche von Labor- und Feldforschung - Konsens unterliegt einer Betrachtung der Pole möglicher Labor- vs. Feldforschung Wann was? Abhängig vom aktuellen Erkenntnisstand - liegen viele Laborstudien vor, die intern valide Methoden vorschlagen, dann Feldstudie 22 3.4 Web-Experimente Merkmale Ergänzung zu klassischer Feld- und Laborforschung Unterschiede zu klassischer Laborforschung - „Versuch kommt zum Probanden“ (inkl. den dort wirkenden Störvariablen keine Kontrolle - Pbn können jederzeit Versuch abbrechen - Abhängigkeit von technischer Ausstattung der Netzwerke und Computer (Geschwindigkeit, Auflösung, Darstellbarkeit) - Untersuchung von heterogener Population und z.T. sehr großen Stichproben (n > 1000) 3.4.1 Webexperimente (Vor- / Nachteile) Vorteile: - Untersuchung heterogener Populationen (demographische und soziale Merkmale) - Zugang zu spezifischen Populationen - Hohe externe Validität (Generalisierbarkeit auf Populationen, Settings und Situationen) - Keine organisatorischen Probleme - Pbn nehmen freiwillig teil - Pbn-Motivation ist bestimmbar - Sehr große Stichproben (hohe statistische Power) - Geringe Kosten (Raum, Zeit, Ausstattung, Durchführung) - Hoher Automatisierungsgrad (Kontrolle von Vp-VL-Effekten, Demand-Effekten, Einflüsse des VL) Nachteile: - Möglichkeit einer Mehrfachteilnahme des Pbn (Lösung: Personalisierungsitems, Überprüfung der innernen Konsistenz und Zeitkonsistenz der Antworten) - v.a. mit between-Faktoren umsetzbar - Auswahlfehler bei Stichprobenzusammensetzung (Lösung: Multiple Site-Entry Technique - Fehlende VL-Vp Interaktionen (Lösung: Vorversuche zu Instruktionen und Material) - Dropout-Quote - Interne Validität gefährdet (keine Kontrolle, was nebenbei passiert) 3.4.2 Verweigerung von Informationen (Drop Outs) Item-Non-Response - Verweigerung auf einzelne Items bezogen Lösung: - alle Fragen müssen beanwortet werden Unit-Non-Response - komplette Verweigerung der Auskunft Lösung: - finanzielle Anreize - persönliche Fragen zu Versuchsbeginn - keine ladeaufwändigen Inhalte verwenden (Sounds, Bilder, Filme) 23 3.4.3 Dropout Quote 3.4.3.1 Zur Bestimmung: - Verwendung von „One-Item-One-Screen“-Design (um Abbruch zu lokalisieren) oder mindestens Multipage-Design - Vermeidung von Single-Web-Pages - „weiss nicht/will nicht“ Optionen 3.4.3.2 3 Techniken zur Verringerung 3.4.3.2.1 High-Hurdle Technique - auf die Motivation negativ wirkende Informationen (zu lang, zu schwierig) werden möglichst konzentriert am Versuchsbeginn dargeboten - auf den folgenden Seiten werden Konzentration und Bedeutung kontinuierlich reduziert Ziel: nur motivierte Versuchspersonen nehmen teil 3.4.3.2.2 Warm-Up Technique - Dropouts treten zumeist nach einigen wenigen Seiten auf Pbn orientieren sich im Versuch & entscheiden dann, ob sie endgültig teilnehmen Hauptteil des Versuchs findet erst nach einigen Webseiten statt; zuvor Instruktion, Übungsseiten 3.4.3.2.3 Seriousness-Check - Abfrage der Involviertheit der teilnehmenden Pbn zu Versuchsbeginn Bei geringem Involviertheits-Scores: - Nicht -Zulassung des Pbn vor Versuchsbeginn - Nicht-Auswertung des Pbn in Auswertephase Allgemeines Problem der internen Validität: - fehlende Kontrolle, ob der Proband (überhaupt), angemessen (oder tatsächlich) auf den Stimulus reagiert - Aufzeichnung von Computermerkmalen (Browsertyp, Betriebszeiten, Bildschirmmerkmalen (Größe, Auflösung, Farbe, Ladezeiten) 3.5 Einzelfallforschung 3.5.1 Allgemeine Definition: Eine Untersuchungseinheit - eines einzelnen Individuums (z.B. bei seltenen Krankheiten) - einer Menge von Individuen, die als Kollektiv betrachtet werden (z.B. Vereine, Kulturen - häufig mittels nicht- oder wenig standardisierter Verfahren mit dem Ziel: - detaillierte und sorgfältige Beschreibung des Phänomens - Hypothesengenerierung 3.5.2 Vorteile: - seltene Phänomene sind beschreibbar 24 - Problem der Übertragbarkeit von statistischen Gruppenkennwerten auf Einzelfälle ergibt sich nicht Bei Auswahl von Einzelfällen sind Voraussetzungen z.B. einer Zufallsstichprobe nicht notwendig Annahme: Ergebnisse (z.B. bei Prä-Post-Messungen) werden häufig so behandelt, als wären sie unabhängig voneinander. Einzelfallforschung ist bei Mehrfacherhebung stets abhängig und kann durch spezielle Verfahren kontrolliert werden 3.5.3 Nachteile: Problem der Replizierbarkeit der Ergebnisse, um eine Gesetzmäßigkeit zu beschreiben - Replikation mittels Variation der Zeit- und Personenvariable - Replikation mittels Kombinationen von Setting-, Zeit-, Probanden-, Versuchsleiterund Störvariablen Zusammenfassung von Einzelergebnissen (sog. Aggregation) ist problematisch - Möglichkeit bei vielen Einfallanalysen: Varianzanalysen mit standardisierten Zeitreihenwerten (z.B. z-Werte) Geringe Verallgemeinerbarkeit der Ergebnisse auf nicht untersuchte Elemente 3.6 Längsschnittstudien 3.6.1 Definition: (von Baltes 1967) - Dieselbe Stichprobe von Individuen wird mehrmals zu verschiedenen Zeitpunkten mit demselben oder einem vergleichbaren Messinstrument untersucht. Beispiele: - Untersuchung der kognitiven Entwicklung über den Zeitraum des Kindesalters - Einstellungsänderung durch Interventionsprogramme (z.B. AIDS-Kampagne) 3.6.2 Vorteile: - Unterschiede in den Messwerten dürfen als intraindividuelle Veränderungen interpretiert werden (Veränderung innerhalb einer Person) Unterschiede innerhalb der Stichprobe dürfen als interindividuelle Unterschiede interpretiert werden Für Auswertung von abhängigen Stichproben stehen effizientere statistische Verfahren zur Verfügung. 3.6.3 Nachteile: 1. Geschichtlichkeit - Anwendbarkeit derselben Methode über längeren Zeitraum bzw. in verschiedenen Altersgruppen fraglich (IQ Tests in unterschiedlichem Alter) - Einfluss geänderter Umweltbedingungen 2. 3. 4. 5. Entwicklung: Mortalität und Alterung der Probanden Testeffeke: Lerneffekte (z.B. d-2-Test), reaktive Effekte Konzentration i.d.R. auf eine Stichprobe Untersuchungsverfahren sind im Verlauf der Studie nicht mehr veränderbar, ohne die Vergleichbarkeit der Ergebnisse zu gefährden. 25 3.6.4 Panel Forschung 3.6.4.1 Panelforschung als Beispiel einer Längsschnittstudie • In bestimmten zeitlichen Abständen werden bei denselben Untersuchungseinheiten dieselben Merkmale erhoben Ziel: Erforschung von Wandlungsprozessen • intraindividuelle Veränderungen im Zeitablauf • interindividuelle Veränderungen im Zeitablauf Beispiele: Sozioökonomisches Panel der BRD • ca. 6000 Haushalte (Angehörige > 16 Jahre) • Angaben zu Erwerbstätigkeit, demographischen Inhalten etc. 3.6.4.2 Testeffekte Lerneffekte • abhängig von Anzahl der Panel-Erhebungen (sog. Wellen) • abhängig von zeitlichem Abstand zwischen den einzelnen Panel-Erhebungen Reaktive Effekte • Veränderung bzw. Genese von Einstellungen und Verhaltensweisen • z.B. verändertes Kaufverhalten durch erhöhtes Preisbewusstsein 3.6.4.3 Weitere Nachteile: Mortalität: Ausfall von Erhebungseinheiten • bis zu 60% der Ausgangsstichprobe • zufällige Ausfälle (z.B. Tod, Krankheit, Umzug) • systematische Ausfälle (z.B. Untersuchungsmüdigkeit, Desinteresse) Ø können mit erhobenen Merkmalen zusammenhängen Ø “Effekt der positiven Selbstauswahl” Selektionseffekte: • Bereits in der Anwerbephase stellt sich das Problem der Verweigerungsquote (> 20%) Geschichtlichkeit • bei Langzeit-Panels kann sich Bedeutungsumfang und –inhalt verändert, so dass Vergleichbarkeit der Daten fraglich ist. 3.6.4.4 Lösungsvorschläge Bildung einer sehr großen Ausgangsstichprobe, so dass bis Ende der Panel-Studie hinreichend viele Einheiten erhalten bleiben • Problem der positiven Selbstauswahl bleibt erhalten Auffüllen der ausgefallenen Einheiten • Problem des Aufrechterhaltens der Repräsentativität der Untersuchungseinheiten Anwendung verschiedener Panel-Designs 3.6.4.5 Alternierendes Panel Bildung von Subgruppen, die abwechselnd bei den Wellen untersucht werden Vorteil: Verminderung der Lern- und Testeffekte Nachteil: Notwendigkeit eines relativ großen Stichprobenumfangs, da noch Mortalität zu berücksichtigen 26 3.6.4.6 Rotierendes Panel Bildung von Subgruppen, die bei ersten Welle alle erhoben werden Bei zweiter Welle scheidet eine Subgruppe aus und wird durch eine neue Subgruppe ersetzt etc.; Gruppe 3 und 5 werden nur einmal befragt (Ø Querschnittsstudie) Vorteil: Problem der positiven Selbstauswahl wird vermindert Nachteil: Design sehr aufwändig, da bei jeder Erhebung neue Subgruppe gebildet werden muss 3.6.4.7 Geteiltes Panel Bildung von 2 Subgruppen • Eine Subgruppe läuft alle Wellen durch • Zweite Subgruppe wird nach jeder Welle durch eine neue Subgruppe ersetzt Gruppen 2 bis 5 werden nur einmal befragt (Ø Querschnittsstudie, Kontrollgruppen für Gruppe 1) Nachteil: Design sehr aufwändig, da bei jeder Erhebung neue Subgruppe gebildet werden muss 3.7 Querschnittstudien Definition von Trautner (1978) - zu einem bestimmten Zeitpunkt werden mehrere Stichproben von Individuen mit demselben oder einem vergleichbaren Messinstrument jeweils einmal untersucht. Beispiel: - Untersuchung der kognitiven Entwicklung im Kindesalter: Vergleich verschiedener Altersstufen zu einem gegebenen Zeitpunkt 27 3.7.1 Vorteile: - Kurze Durchführungsdauer der Untersuchung Geringer Personalaufwand Umfang der Stichprobe bleibt im Erhebungszeitraum konstant 3.7.2 Nachteile: - Unterschiede in Versuchsgruppen können durch Unterschiede zwischen Gruppen oder zwischen Probanden bedingt sein Unabhängige Stichproben erlauben keine Aussagen zu intraindividuellen Unterschieden Für unabhängige Stichproben stehen weniger effiziente statistische Verfahren zur Verfügung Generalisierbarkeit der Befunde über den Zeitpunkt der Untersuchung hinaus ist streng genommen nicht erlaubt. 3.8 Sekundäranalysen 3.8.1 Primäranalysen: - selbstständige Datenerhebung als wesentlicher Bestandteil des Forschungsvorhabens 3.8.2 Sekundäranalysen: - Rückgriff auf bereits existierende Datenbestände Beispiele: - Wirtschaftsforschung (Bruttoinlandsprodukt…) - Metaanalysen zur Abschätzung der Wirksamkeit verschiedener Therapieformen - Literaturreview Einfluss von Mobiltelefonieren auf Fahrzeugführung 3.8.2.1 Vorteile: - Kosteneinsparung (z.B. keine Versuchsmaterialien) - Schnelle Verfügbarkeit - Geringer Aufwand - Nachkontrollierbarkeit 3.8.2.2 Nachteile: - Daten werden i.d.R. für anderen Zweck erhoben - Qualität der Daten hängt vom Vorgehen der Untersucher ab - Mögliche Abweichung der Grundgesamtheit, Auswahl der Erhebungs- und Untersuchungseinheiten, Begriffsdefinitionen und Operationalisierungen vom eigenen Projekt - Daten sind u.U. veraltet 28 4 Beobachtung 4.1 Definition Beobachtung 1. Beobachtung ist die grundlegende Methode der Datengewinnung in den empirischen Wissenschaften 2. Beobachtung: Sammeln von Erfahrung im nicht-kommunikativen Prozess mit Hilfe sämtlicher Wahrnehmungshilfen (Laatz, 1993) 3. „Beobachtung“ umfasst die verschiedensten Methoden: Ablesen von Skalen Auswerten von Fragebögen Beobachten von Verhalten Ablesen von Testergebnissen (z.B. Reaktionszeiten) Alltagsbeobachtung - unsystematisch, naiv, ohne Theorie, willkürlich Wissenschaftliche Beobachtung - zielgerichtet, methodisch kontrolliert Dazu: Zielgerichtet: - aufgrund beschränkter Informationsverarbeitungskapazität des Beobachters - Implikation: Beobachter hat Theorie über Beobachtungsgegenstand - nur relevante Merkmale werden beobachtet Methodische Kontrolle: - Kontext der Beobachtung: (Wo, wann, warum,…) - Beobachterverhalten: Wahrnehmung ist aktiver Prozess - Speichern der Beobachtung: Zugriff auf Ergebnisse muss jederzeit möglich sein (Forderung: Entwicklung von Kategoriensystemen) - Wahrnehmung per definitionem ist subjektiv - Nachvollziehbarkeit 4.2 Beobachtungssysteme (Kodierung von Beobachtung) 4.2.1 Verbalsysteme: - möglichst genaue verbale (freie) Beschreibung von Verhaltensweisen Vorteil: umfassend, nichts vorgegeben 4.2.2 Nominalsysteme: - Kodierung von Verhaltensweisen nach einem vorgegebenen Schema. (vgl. Tagebücher) Katalog möglicher Verhaltensweisen, die möglichst genau definiert und beschrieben sind. Ein Zeichen (Code) dafür festlegen. 29 4.2.2.1 Zeichensysteme a. Zeichen schließen sich nicht gegenseitig aus, d.h. mehrere Zeichen pro Beobachtungseinheit ( mehrere Codezeichen gleichzeitig möglich!) (Unterschiedliche Verhaltensweisen können mit demselben Zeichen bezeichnet werden) b. Nicht vollständig, d.h. für manche Beobachtungseinheiten auch keine Codierung möglich. Vorteil: geringe Zahl von Beobachterkategorien Nachteil: mögliche Überlastung des Beobachters 4.2.2.2 Kategoriensysteme c. Kategorien schließen sich gegenseitig aus, d.h. pro Beobachtungseinheit nur ein Zeichen (Kategorie) d. Jedes Verhalten ist kodierbar, d.h. pro Beobachtungseinheit eine Kategorie (u.U. Einführung einer Restkategorie) e. Max. 30 Kategorien ohne Video Nachteil: evtl. deutliche Erhöhung der Kategorienzahl 4.2.3 Quantifizierung der Beobachtung Frage: Wie bestimmt man die Ausprägung des beobachteten Verhaltens? Auswahl einer Beobachtungseinheit Time-Sampling (Zeitstichprobe) - Beobachtungseinheit ist ein festes Zeitintervall - Pro Zeitintervall wird kodiert, welches Verhalten aufgetreten ist. (das zu beobachtende Verhalten wird pro Zeiteinheit mit Ja oder Nein kodiert) - Ergebnis: annähernde Informationen über Häufigkeit und Dauer eines Verhaltens Event-Sampling (Ereignisstichprobe) - Beobachtungseinheit ist eine Verhaltensweise - Von dieser wird der Beginn und das Ende festgelegt - Ergebnis: exakte Informationen über Häufigkeit und Dauer eines Verhaltens 4.3 Beobachtungseinheit: (Empfehlungen) 4.3.1 Time-Sampling: - Ergebnis: annähernde Informationen über Häufigkeit und Dauer des Verhaltens Zeitintervall sinnvoll festlegen in Abhängigkeit von Dauer und Verhaltensweisen, die beobachtet werden sollen 4.3.2 Event-Sampling - Ergebnis: exakte Informationen über Häufigkeit und Dauer des Verhaltens (je nach dem wie gut apparativ unterstützt werden kann) Bei sehr kurzen Verhaltensweisen wird die Registrierung schwierig (Lösung: Beschränkung auf wenige Verhaltensweisen, Vermeidung von Event-Sampling) Erweiterung: 30 4.3.3 Ratingverfahren: Bisher: Angaben zu Häufigkeit und Dauer eines Verhaltens Zusätzliche Information: Stärke des Verhaltens (durch Ratingverfahren) (Beispiel: Lächeln – wenig, stark, übers ganze Gesicht) mit Hilfe von Rating-Skalen 4.4 Beobachterfehler 4.4.1 Beobachterfehler durch: 1. Überschreitung der Grenzen der Leistungsfähigkeit - Ermüdung, Langeweile, Aufmerksamkeitsschwankung, Überlastung 2. Unklarheit über Ziel der Beobachtung - Beobachter muss selbst Auswahl bezüglich zu beobachtendes Verhalten treffen 3. Unklare Definitionen der Kategorien - Beobachter muss individuell Kategorien präsentieren / präzisieren 31 4. Mangelndes Training der Beobachter - mangelnde Beherrschung des Kategoriensystems - Abweichung des Beobachterverhaltens vom geplanten Verhalten 4.4.2 Beobachterreliabilität Dazu: Um zu beurteilen, wie stark bestimmte Fehler die Güte einer Beobachtung einschränken, wird oft die Interrater-Reliabilität berechnet. Zur Erinnerung: Reliabilität: (Allg.) Grad der Genauigkeit, mit dem etwas gemessen wird (unabhängig davon, ob dies auch gemessen werden soll) Retest-Reliabilität (intraindividueller Vergleich) Prinzip: Übereinstimmung bei wiederholter Durchführung (Stabilität und Konsistenz) Interraterreliabilität (interindividueller Vergleich) Prinzip: Übereinstimmung verschiedener Beobachter Reliabilitätsschätzung einer Beobachtung als Güte der Übereinstimmung der Beobachter Aber: - 2 Beobachter beobachten und kodieren „perfekt“ hohe Beobachterreliabilität - 2 Beobachter beobachten perfekt, kodieren gleichermaßen „falsch“ hohe Beobachterreliabilität 4.4.3 Verbesserung der Beobachterleistung Genaues Nachvollziehen, wo die Probleme liegen Beispiel: Erwartungseffekte Beobachtertraining Verbesserung der Beobachterleistung (Feedback über Werte anderer Beobachter) Angleichung des Hintergrundwissens von Beobachtern Verbesserung der Ratertrainings (z.B. Übungsmaterial, Regelspezifikationen) Vereinfachung der Durchführung der Beobachtung Einfachere Informationsverarbeitung (keine Interpretationen) Veränderung der Skalenbeschreibung (Kombinierte Verbal-/Numeralskalen) Verwendung von Beispielen („ist gemeint“ vs. „ist nicht gemeint“) „Merkmal für Merkmal“ (anstelle eines Globalurteils) Kontrolle der Auswerteprozeduren Ausschluss von Beobachtern und/oder Beobachtungsgegenständen Verwendung von Mittelwerten über mehrere Rater (bei hinreichender Beobachterzahl) Verwendung von zusammengefassten Werten (anstelle Werten für Einzelkategorie) 4.4.4 Erwartungseffekte: generell vs. speziell Generell: Rosenthal- bzw. Pygmalion-Effekt 32 - Unbeabsichtigte Beeinflussung des Pbn durch verbales Verhalten des Beobachters (Proband in besonder schwieriger Bedingung Versuchsleiter ist besonders nett Lösung: Doppelblindversuch) Speziell: Zentrale Tendenz - häufigere Verwendung der mittleren Kategorien Milde-Tendenz - systematische Verzerrung der Kategorien in Richtung „geringerer Extremität“ Primacy-Recency-Effekt - v.a. bei Aufzeichnungen nach Ende der Beobachtungen Halo-Effekt - z.B. unzulässige Generalisierung von beobachteten Verhaltensweisen auf erwartete Persönlichkeitsmerkmale (Blondinen sind blöd) 4.4.5 Kappa Maß Definition: Es wird die beobachte Beobachter-Übereinstimmung berechnet und mit Hilfe der Kappa Formel an der zufälligen Übereinstimmung der Beobachter relativiert bzw. ins Verhältnis gesetzt. Wertebereich von: -1 bis 1 sollte größer als 0,7 sein (für gute Übereinstimmung) Berechnung: Angegeben sind meist entweder Rater X Beobachtung - Tabellen oder Kategorie X Beobachtung – Tabellen. Zunächst ist es sinnvoll die Übereinstimmung pro Beobachtungseinheit zu berechnen. Dazu ist zu überlegen, welche Anzahl von Rater – Pärchen es insgesamt gibt, und wie viele davon übereinstimmen. Die Anzahl der Pärchen insgesamt berechnet sich wie folgt: 3 Rater => 1 + 2 = 3 Pärchen 4 Rater => 1 + 2 + 3 = 6 Pärchen 5 Rater => 1 + 2 + 3 + 4 = 10 Pärchen (kommt in Aufgaben selten vor) n Rater => 1 + 2 + … + (n-1) = [n*(n-1)]:2 Pärchen (nur zur Vollständigkeit, für die Klausur nicht nötig!!!) (oder n über k mit dem Taschenrechner) Um nun eine relative Übereinstimmung zu berechnen muss man noch die Anzahl der übereinstimmenden Pärchen finden. Diese ergibt sich durch logische Überlegung. Geben z.B. von 5 Ratern 2 die Kategorie 0 an und 3 die Kategorie 1, so bilden die beiden „0 – Rater“ ein Pärchen und die 3 „1 – Rater“ bilden 3 Pärchen (1 + 2; siehe oben). Teilt man diese Zahl nun durch die Anzahl möglicher Pärchen insgesamt, so erhält man eine relative Übereinstimmung von 3 / 10 = 33.33 %. Extrembeispiel (das so sicher in keiner Klausur vorkommt): 33 10 Beobachter; 5 Kategorien Rater X Beobachtung – Tabelle: Rater 1 2 3 Beobachtung 3 1 2 4 0 5 4 Kategorie X Beobachtung – Tabelle: Kategorie 0 1 2 Beobachtung 2 4 1 3 2 4 1 6 1 7 3 8 1 9 0 10 1 1. Anzahl der Maximalen Pärchen: (10 * 9):2 = 45 2. Anzahl der Übereinstimmenden Pärchen: Kategorie 0 = 2 Rater => 1 Pärchen Kategorie 1 = 4 Rater => 6 Pärchen Kategorie 2 = 1 Rater => kein Pärchen Kategorie 3 = 2 Rater => 1 Pärchen Kategorie 4 = 1 Rater => kein Pärchen => Insgesamt stimmen 8 Pärchen überein 3. Relative Übereinstimmung berechnen: 8 : 45 = 17.77% Dieser Vorgang wird nun für jede einzelne Beobachtungseinheit durchgeführt. Am Ende berechnet man den Durchschnitt aus den einzelnen Werten und erhält somit PBeobachtet. Um nun noch PZufall zu berechnen, muss für jede Kategorie ausgezählt werden, wie oft sie von einem Rater angegeben wird (wenn dies nicht schon als Randsumme in der Kategorie X Beobachtung – Tabelle angegeben ist). Man berechne dann noch die Gesamtzahl von Einzelbeobachtungen (Anzahl der Beobachtungseinheiten * Anzahl der Rater). Nun lässt sich für jede Kategorie eine relative Häufigkeit pi = Anzahl der Nennungen der Kategorie i : Gesamtzahl der Einzelbeobachtungen berechnen. Dann ist PZufall = Summe aller pi². Beispiel: Kategorie Randsumme 0 12 1 21 2 7 - Gesamtzahl der Beobachtungen ist 12 + 21 + 7 = 40 - p0 = 12 : 40 = 0.3; p1 = 21 : 40 = 0.525; p2 = 7 : 40 = 0.175 => PZufall = (0.3)² + (0.525)² + (0.175)² = 39.625 % Die entsprechenden Werte sind nun nur noch in die Formel (s.o.) einzusetzen. 4.5 Aspekte des Beobachtungsprozesses 1. 2. 3. 4. 5. Objekt der Beobachtung (was wurde beobachtet?) Subjekt der Beobachtung (die zu beobachtende Person) Umstände der Beobachtung (Rahmen, Gruppe, einzeln, Feld, Labor, Kittel,…) Mittel der Beobachtung (Sinnesorgane, Geräte, Prozeduren) Impliziertes oder explizites theoretisches Wissen, mit dessen Hilfe die o.g. Aspekte aufeinander bezogen werden (welches Wissen hat man über die Umstände?) (nach Bunge, 1967) Beobachtungsgegenstand Selbst Fremd Beobachtungsinhalt äußeres Verhalten inneres Verhalten Erröten, Schweißausbruch Trauer, Freunde Erröten, Aktivität der Hände Trauer, Freude 34 4.5.1 Selbstbeobachtung: Probleme Der Beobachter weiß, was beobachtet werden soll. - Problem der Reaktivität, d.h. Veränderung des Beobachtergegenstandes durch die Beobachtung Der Beobachter führt gleichzeitig Tätigkeit und Beobachtung aus - Grenzen der Verarbeitungskapazität Durch Beobachtung selbst wird beobachteter Gegenstand verändert - keine Objektivität - online verändertes Verhalten - Demand-Effekt Bei retrospektiver Beobachtung: - nachträglich möglichst genau beschreiben, was während der Tätigkeit passiert ist - Beobachtungsergebnis kann durch Gedächtnisprozesse verändert werden (z.B. Verzerrungen, Auslassungen, Beeinflussung durch Emotionen) Nicht alle Phänomene beobachtbar. - z.B. automatische Prozesse, während des Schlafs Die Ergebnisse der Beobachtung sind nicht nachprüfbar. - Es ist keine Aussage über die Güte der Beobachtung möglich, sinnvoll zur Hypothesengenerierung 4.5.2 Fremdbeobachtung (Aspekte) 4.5.2.1 Natürlich und künstlich - wird das Verhalten in der natürlichen Umgebung beobachtet, wenn es spontan auftritt (Feldforschung hohe ext. Validität) - wird eine bestimmte Situation hergestellt, vielleicht sogar ein bestimmtes Verhalten provoziert? (Laborforschung hohe int. Validität) Beobachtung mit vs. ohne Instruktion (Natürlichkeit - weitere Aspekte) Problem - ohne Instruktion tritt Verhalten u.U. zufällig, erst sehr spät oder gar nicht auf - mit Instruktion tritt Verhalten unnatürlich auf Beobachtung mit vs. ohne Manipulation am beobachteten System - z.B. Markierungen von Tieren im Rudel, Blickbewegungskamera verändert Verhalten der anderen Autofahrer - Problem: Proband bemerkt nichts von Manipulation, das soziale Umfeld aber möglicherweise 4.5.2.2 wissentlich und unwissentlich (offen und verdeckt) - wissen Pbn, dass sie beobachtet werden? (Problem der Reaktivität) Lösung: Gewöhungsphase - wissen Pbn, was beobachtet wird? Täuschung, Einsatz von Videogeräten 35 Vor eigentlichem Versuch: • Warten mit zweiter Versuchsperson (Versuchsleiter hat etwas vergessen) In Wirklichkeit: • Beobachtung über Videokamera Ziel: • Untersuchung des Kennenlernprozesses Danach: • Aufklärung über Versuch, Einverständnis einholen. 4.5.2.3 Teilnehmend und nicht-teilnehmend - interagiert der Beobachter mit der Person, die er beobachtet? - kann er Einfluss nehmen auf das Verhalten der Person oder nicht? Problem in der Situation: Beobachter als Gruppenmitglied - Beobachter muss in Gruppe integriert werden - Beobachter selbst verändert aktiv den Beobachtungsgegenstand Grenzen der Verarbeitungskapazitäten - Beobachter muss sowohl Tätigkeit ausführen als auch beobachten 4.5.2.4 Direkt und indirekt (direktes Beobachten oder mittels Rückschlüsse) - wird das Verhalten selbst beobachtet (direkt) oder Spuren bzw. Auswirkungen des Verhaltens (indirekt = non-reaktiv) (z.B. leere Flaschen, abgetretende Teppiche) Non-reaktive Kennzeichen - nicht das Verhalten selbst, sondern die Spuren oder Auswirkungen des Verhaltens werden beobachtet. - häufig keine Individualzuweisung von Daten möglich - prozentuale Angaben, Personen nicht bekannt - der Zugriff auf die Daten verändert diese nicht (non-reaktiv) Beispiele: - physische Spuren, Ablagerungen, (z.B. Spuren im Schnee, Abnutzung von Stufen, abgetretene Teppiche) - Graphitti (momentaner Zustand der Jugend) - Schilder / Hinweistafeln / Hausordnungen - Archive / Verzeichnisse / Statistiken - Dokumente: privat (Tagebücher), öffentlich (Presse) - Provoziert: Wrong-number-Technik, Lost-Letter Technik Non-reaktiv: Probleme - Interpretation der Daten verlangt eine Verhaltenstheorie: welches Verhalten erzeugt die Daten? - Interpretation der Daten verlangt eine Stichprobentheorie: - wer kann die Daten erzeugt haben? Direktheit – Fehlende Verbindung 36 Echt non-reaktiv Spuren keine Individualzuweisung möglich "Aufgeweicht" non-reaktiv: • Vl hat Einfluss auf Vp • Diese weiß nicht, dass sie beobachtet wird Beispiele: • Einwegscheibe • Provozierte Daten (Lost Letter-Technik, Wrong-NumberTechnik) Versuch hat für Vp andere Bedeutung als für Vl: Cover-Stories Reaktive Messverfahren: Übliche Beobachtung 4.5.2.5 Vermittelt und unvermittelt - wird das Verhalten, das beobachtet werden soll, gespeichert (Audio/Video) oder nicht? - Ist es jederzeit zugänglich? Vermittelt (= Speicherung) Vorteile: - beliebige Abrufbarkeit des beobachteten Geschehens - unbegrenzte Speichermöglichkeiten - Wieder- bzw. Weiterverwendbarkeit der gespeicherten Daten Nachteile - ergeben sich aus Eigenschaften des Aufzeichnungsgeräts - jedes Gerät kann nur Untermenge der vorhandenen Variablen aufzeichnen (z.B. Tonband nur akustische Signale) 4.5.3 Reaktive Effekte Abschwächung reaktiver Effekte - Einführung einer Gewöhnungsphase - Täuschung der Pbn über die interessierenden Variablen des Verhaltens - Einsatz von Aufzeichnungsgeräten (z.B. Video) anstelle von menschlichen Beobachtern 37 - Coverstory (nur in der Sozialpsychologie) Versuchsperson weiß in der Regel nicht, dass sie Daten produziert (keine Interaktion Versuchsperson – Versuchsleiter) 4.6 Problemkreise Beobachtung 1. Definition des Beobachtungsgegenstandes - welches Verhalten ist interessant, entspricht der Fragestellung? 2. Erstellung und Überprüfung eines Beobachtungssystems - Übersetzung des Beobachtungsgegenstandes in ein Zeichen 3. Entscheidung für ein Quantifizierungsverfahren - Wie soll Häufigkeit, Dauer und Intensität bestimmt werden? 4. Auswahl der Beobachtungssituation 5. Training der Beobachter 6. Durchführung der Beobachtung 7. Überprüfung der Güte der Beobachtung (Reliabilität) 5 Befragung 5.1 Definition Befragung 5.1.1 Alltagsverständnis: - Befragung als verbale Kommunikation zwischen Personen 5.1.2 Wissenschaftliches Verständnis: - - - - Befragung als Informationsfluss zwischen Personen (ohne Fokussierung auf den verbalen Kanal) Systematische Vorbereitung und Durchführung Abhängigkeit des Ergebnisses von der Befragungssituation Sozialer Vorgang, d.h. Wechselwirkungen zwischen Personen Zielgerichtetheit der Befragung Verwendete Mittel (z.B. Telefoninterview) und Bedingungen der unmittelbaren räumlichen Umwelt (z.B. Ruhe vs. Stress) Normative Orientierung (d.h. Ausbildung von Verhaltenserwartungen, Soziale Erwünschtheit) Einsatz der Befragung zur Überprüfung theoretischer Zusammenhänge (UV/AV) Berücksichtigung von Merkmalen der befragten Person bei der Gestaltung des Befragungsinstruments z.B. Alter, Geschlecht, Bildungsstand, Schichtzugehörigkeit, Herkunft, ethnische Zugehörigkeit) Befragung einer Stichprobe aus der Gesamtpopulation Kontrolle der Kontextbedingungen (gleiche Befragungsinstrumente, Berücksichtigung der sozialen Beziehung zwischen Personen, Bedingungen der unmittelbaren räumlichen Umwelt Fazit: Kontrolliertheit jedes einzelnen Befragungsschritts 5.1.3 Dem Befragten muss klar sein… - über welchen Gegenstand er berichten soll - wie ist der Gegenstand beim Befragten repräsentiert? 38 - Welches Sprachsystem er verwenden soll - welche Eigenschaften besitzt die verwendete Skala? Mit welcher Intention (Urteilshaltung) er berichten soll - Bsp: sachorientierte Beschreibung vs. wertungsorientierte Stellungnahme (Fakten vs. pers. Meinung) 5.2 Klassifikation von Befragungen 5.2.1 Ausmaß der Standardisierung strukturiert – halb-stukturiert- unstrukturiert Standardisierung bedeutet: - Vorgabe der Abfolge der Fragen - Vorgabe der Wortlauts der Fragen - Stand. bedeutet NICHT Vorgabe von Antwortalternativen - Geschlossene Fragen: Vorgabe einer Reihe von Antwortmöglichkeiten - Offene Fragen: Befragter muss Frage sowohl inhaltlich beantworten als auch die Antwort selbstständig sprachlich formulieren Standardisierte Befragung v.a. geeignet - für umgrenzten Themenbereich - für Themenbereiche, für die bereits Vorwissen besteht Mittelweg: Halbstandardisierte Befragung Interviewer Leitfaden - schreibt dem Fragenden die Art und Inhalte der Befragung nicht vollkommen verbindlich vor - teilweise offene Fragen - teilweise geschlossene Fragen 5.2.2 Autoritätsanspruch des Interviewers weich – neutral – hart Weiches Interview (Beckmann) - basiert auf Prinzipien der Gesprächspsychotherapie (nicht-direktiv, empathisch, wertschätzend, selbstkongruent) - Ziel: Antworten ohne Hemmungen, reichhaltig und aufrichtig Hartes Interview (Friedmann) - autoritär-agressive Haltung des Fragenden: häufiges Anzweifeln der Antworten, schnelle Aufeinanderfolge von Fragen - Ziel: „Überrennen“ von Abwehrmechanismen Neutrales Interview (Christiansen) - Betonung der informationssuchenden Funktion der Befragung - Fragender und Befragter sind gleichwertige Partner 5.2.3 Art des Kontakts direkt/pers. – telefonisch – schriftlich Persönliche Befragung „Face-to-Face Interview“ - hoher Aufwand (z.B. Besuch in der Wohnung des Befragten) - persönliche oder Privatsphäre betreffende Inhalte können thematisiert werden Telefonische Befragung „Telefoninterview“ - schnell und preiswert 39 vom Befragten als anonymer und weniger bedrängend erlebt als persönliche Befragung - geringe Verweigerungsquote Schriftliche Befragung „Paper-and-Pencil“ - kostspielig, unkontrollierte Erhebungssituation - heterogene Rücklaufquote - 5.2.4 Anzahl der befragten Personen Einzelinterview – Gruppeninterview Einzelbefragung - bei Themenbereichen, die individuelles Eingreifen des Fragenden nötig machen (z.B. Gebiete ohne Vorwissen) - bei Themenbereichen, bei denen Gruppeneffekte auftreten können (z.B. Leistungsdruck, sozialer Druck) Gruppenbefragung - geringe Kosten, einheitliche Befragungssituation für jeweilige Gruppe - Befragte machen Angaben auf Antwortbogen 5.2.5 Anzahl der Interviewer ein Interviewer – Tandem – Hearing Ein Interviewer: - am ökonomischsten Tandem-Interview - sinnvoll bei anspruchsvollen Befragungssituationen (z.B. Erfragen des Wissens von Experten, 2. Person als Befrager, z.B. in Bewerbungsgepräch) Hearing / Board-Interviews - mehrere Personen befragen einen/mehrere Kandidaten - Möglichkeit zur gegenseitigen Ergänzung der Interviewer - Vom Befragten als belastend wahrgenommen - z.B. Personalkommissionen 5.2.6 Funktion des Interviews (Klassifizierung einer Befragung) ermittelnd – vermittelnd Informationsermittelnde Funktion - Erfassung von Fakten - Zeugeninterviews - Panel-Befragungen - Interview bei der Personalauswahl Informationsvermittelnde Funktion - Beratungsgespräche (z.B. Berufsberatung) 5.3 Problemkreise der Befragung 5.3.1 Aspekte der Frage: Zubeachten ist die Reihenfolge und Formulierung der Fragen, sowie die Formatierung der Antwortskala (Kategorienanzahl, Mittelkategorien, Verankerung, Balancierung, optische Gestaltung) 40 5.3.2 Merkmale des Befragten Motivation: - Proband will keine validen Angaben machen (“Self-Disclosure”) - Demand-Effekte - Motive zur Selbstdarstellung und Streben nach Konsistenz (“Impression Management”) - Soziale Erwünschtheit Kompetenz: - Proband kann keine validen Angaben machen (Lösung: zustäzlich ein „keine Ahnung“ Button) 5.3.3 Kontext der Befragungssituation - Art der Befragung Zweck der Befragung Merkmale des Interviewers 5.4 Neue Befragungstechniken 1. Computerunterstützte persönliche Befragung (“Computer Assisted Personal Interviewing”, CAPI) 2. Computerunterstützte telefonische Befragung (“Computer Assisted Telephone Interviewing”, CATI) 3. Computerunterstützte schriftliche Befragung • “Computer Assisted Self Interviewing”, CASI • „Computerized Self-Administered Questionnaire“, CSAQ Ø Electronic Mail Survey (EMS) Ø Disk by Mail (DBM) 4. Touchtone Data Entry (TDE) / Voice Recognition (VR) 5. Fax-Surveys 5.5 Skalen Polung der Skala • unipolar: schwach extravertiert – stark extravertiert • bipolar: extravertiert – introvertiert 41 Art der Skala: 5.5.1 Numeralskala Bewertung: - Verwendung negativer Skalenwerte umstritten - Können Urteile in Zahlen ausgedrückt werden? (Abstraktheit) - Anfälliger für Urteilseffekte als Verbalskalen + Durch verbale Verankerung der Pole präziser 5.5.2 Verbalskala Bewertung: - Durch verbale Bezeichnung u.U. unpräzise - Äquidistanz der Kategorien nicht immer sichergestellt + weniger anfällig für Urteilseffekte als Numeralskalen 5.5.3 Symbolskala z.B.: Kunin-Skala: 42 5.5.4 Graphische Skala (Visuelle Analogskala) Bewertung: - hoher Auswertungsaufwand (z.B. über künstliche Einführung von Kategorien) - Anfangs: Höhere Unsicherheit der Pbn + später: höhere Motivation der Befragten, Antwortabgabe leichter und schneller als bei Numeralskala + Feinere Abstufungen des Urteils möglich + entspricht Intervallniveau + geringe Erinnerungseffekte: Befragte können sich angegebene Position nur schwer merken 5.5.5 Standardskala (Durch Beispiele verankerte Skala) (z.B. Checklist-Verfahren, Forced Choice-Verfahren) 5.6 Verweigerung 5.6.1 Item-Non-Response - Verweigerung auf einzelne Inhalte bezogen Ursachen für Nicht-Auskunft bei einzelnen Items - Verweigerung der Auskunft - Nicht-Informiertheit - Meinungslosigkeit - Unentschlossenheit v.a. bei sehr persönlichen, intimen Fragen unsichere Personen, ältere Menschen, Personen mit geringem Sozialstatus 5.6.2 Unit-Non-Response komplette Verweigerung der Auskunft (Ablehnung der Teilnahme an Interview, keine Rücksendung des Fragebogens) Kontrollmöglichkeiten: - Auffüllen der Stichprobe - Anfangs hinreichend große Stichprobe wählen Aber: Non-Responder unterscheiden sich systematisch von Respondern - im Interview: alte Menschen, Frauen (45+), geringe Schulbildung, geringer Bildungsstatus - in schriftlicher Befragung: geringe Schulbildung, geringer Bildungsstatus, geringere Intelligenz, geringes Interesse am Forschungsthema, fehlende Beziehung zum Untersucher - 5.6.3 Verweigerungsquoten - Persönliche Befragung: 7 – 14 % (Esser, 1974) 43 Telefonische Befragung: 7 % (Downs et al. 1980) Schriftliche Befragung: 0 – 90 %(Wieken, 1974) Robinson & Agism (1950/51): Verweigerungsquote bei Freistemplung des Briefes 34%, bei Frankierung mit Briefmarke 26% - Später antwortende Personen sind zumeist in ihren Angaben unzuverlässiger Computerunterstützte Befragung: - keine Unterschiede zu o.g. Befragungsarten (Porst et al. 1994) - aber: teilweise höhere Rücklaufgeschwindigkeit (Swoboda et al (1997): Rücklaufquote bei Electronic Mail Survey 90% innerhalb von 4 Tagen - 5.6.4 Rücklaufquoten Hohe Rücklaufquoten - für Stichproben, die Umgang mit schriftlichen Texten gewohnt sind - für aktuelle, interessante Themen - für ansprechende Gestaltung (Frageformulierung, Layout, persönliches Anschreiben) - bei vorherigen Ankündigungsschreiben (2x so hoch) oder kurzen Anrufen (3x so hoch) - bei Angabe eines Rücksendedatums (Deadline): Erhöhung der Rücklaufquote und – geschwindigkeit Verwertbarkeit der Ergebnisse schriftlicher Befragung - hängt nicht von Höhe des Rücklaufs ab - entscheidend ist die Zusammensetzung der Stichprobe der Responder Möglichkeiten zur qualitativen Kontrolle von Rückläufern - Gewichtungsprozeduren bei Über-/Unterpräsentation einzelner Merkmale der Stichprobe im Vergleich zur Grundgesamtheit - Gezielte telefonische, schriftliche oder persönliche Nachbefragung der NonResponder 6 Messungen 6.1 Mess-Artefakte Def: Artefakt = aufgefangenes Signal, das anderen Ursprungs ist als das zu messende Biosignal 6.1.1 Artefakte physiologischer Herkunft - Potenzialschwankungen, Signalstörungen von begleitenden physiologischen Prozessen Lösung: bessere Elektroden, bessere elektronische Komponenten 6.1.2 Bewegungsartefakte - Lösung: optimale Platzierung der Elektroden 6.1.3 Artefakte durch externe elektrische Einstreuung - Lösung: bessere elektronische Komponenten, Verfahren der Filterung und Verstärkung 44 6.2 Spezifitätsproblematik 6.2.1 Individualspezifische Reaktion - Personen reagieren auf physiologischer Seite unabhängig vom Stimulus in einer für sie typischen Reaktionsweise 6.2.2 Stimulusspezifische Reaktion - Alle Individuen reagieren auf einen Stimulus in ähnlicher Weise 6.2.3 Motivationsspezifische Reaktion - unter einem bestimmten Motivationszustand reagieren alle Personen in ähnlicher Weise Bei biopsychologischen Untersuchungen sind diese Anteile zu berücksichtigen. 6.3 Ausgangswertgesetz von Wilder (1931): Je stärker vegetative Organe aktiviert sind, desto stärker ist ihre Ansprechbarkeit auf hemmende Reize und desto schwächer ist ihre Ansprechbarkeit auf aktivierende Reize. Statistisch: - negative Korrelation zwischen Ausgangswert und Veränderungswert ( Regressionseffekt B) - Veränderungswerte enthalten somit einen systematischen Fehler 6.4 Messprobleme – innere und äußere Variablen Äußere Variablen: - Tageszeit - Raumtemperatur (zu Versuchsbeginn) - Außentemperatur - Niedrigste rel. Luftfeuchtigkeit in den letzten 24 Stunden - Höchster Barometerstand in den letzten 24 Stunden Innere Variablen: - Motivation - Emotion, Stimmung - Lebensalter - Geschlecht - Rasse - Kulturzugehörigkeit - Intelligenz 7 Versuchsplanung 7.1 Idee der Versuchsplanung 45 7.1.1 Definitionen PV / SV / FV 7.1.2 Primärvarianz: - systematische Variation der Messwerte zurückzuführen auf die Variation der UV 7.1.3 Sekundärvarianz - systematische Variation der Messwerte Zurückzuführen auf die Variation identifizierbarer Störvariablen 7.1.4 Fehlervarianz (Zufallsfehler): - Unsystematische Variation der Messwerte Nicht auf den Einfluss der Variation der UV zurückzuführen Nicht auf den Einfluss der identifizierbaren Störvariablen zurückzuführen Varianzen addieren sich auf: PV+SV+FV = totale Varianz PV / FV > 1 - sonst kein Effekt Wenn die Primärvarianz der AV deutlich größer ist als die Fehlervarianz, dann hat die UV gewirkt 46 7.1.5 Ein Beispiel Als Zusammenhang formuliert: - Trommeln führt zu „nach Motorboot klingen“ - Sternzeichen verändern Kaufverhalten Frage: Wie prüfe ich Kausalzusammenhänge zwischen UV und AV? Antwort: - ich stelle Situationen her, die sich nur durch die Ausprägung der UV unterscheiden. - Verändert sich dann die AV, dann können die Ursache hierfür nur die Unterschiede in der UV gewesen sein 7.1.6 Logik der Bewertung Primärvarianz: - Unterschiede zwischen den beiden Gruppen aufgrund Trommelfrequenz (hohe vs. geringe Frequenz) Sekundärvarianz: - Unterschiede zwischen den beiden Untergruppen (kleiners vs. großes Lungenvolumen) in den beiden Versuchsgruppen Fehlervarianz: - Unterschiede innerhalb der vier Versuchsgruppen (unterschiedlicher Klang) 7.2 Idee der Varianzanalyse Gesucht wird ein Maß für die Veränderungen in der AV: - Differenz zwischen Versuchsgruppen geht nicht, wenn mehr als zwei Stufen der UV oder mehr als zwei UVn - Lösung: Quadratsummen als Maß der Unterschiedlichkeit Grundgedanke: Aufklärung, wie viel Variation der AV durch die UV erzeugt wird (Primärvarianz) - Gesamtvarianz wird aufgeteilt in Primärvarianz und Fehlervarianz 47 - Man vergleicht: Primärvarianz (PV) / Fehlervarianz (FV) Wenn PV „größer“ als FV, dann hat die UV gewirkt Statistisches Modell hilft bei der Entscheidung, ab wann „größer“ bedeutsam ist 7.2.1 Modell der Varianzanalyse: Statistisches Modell: (H0: PV=FV) - Erzeugen einer Verteilung von PV/FV unter der Nullhypothese - Nullhypothese: UV erzeugt keine große Variation der AV - Wenn empirisches Verhältnis PV/FV in der Verteilung unwahrscheinlich ist, dann ist das Modell der Nullhypothese nicht gut - Folge: Ablehnung der Nullhypothese, UV hat gewirkt - Was heißt unwahrscheinlich? Festlegung durch Alpha Risiko (sog. Ablehnungsbereich) Wie alle Entscheidungen kann auch eine statistische Entscheidung falsch sein: alpha-Fehler (Fehler 1. Art): H0 ablehnen, obwohl H0 gilt beta-Fehler (Fehler 2. Art): H0 beibehalten, obwohl H0 nicht gilt Konvention: alpha = 1%, alpha = 5%. Wenn das empirische Ergebnis zu den 1% / 5% unwahrscheinlichsten Ergebnisse unter dem Modell der Nullhypothese gehört, ist es unwahrscheinlich. Folge: Die Nullhypothese wird abgelehnt. Im zweifaktoriellen Beispiel: - Drei Arten von Primärvarianz: Erzeugt durch UV1 (HW1), UV2 (HW2) und Zusammenwirkung der UVn1 und 2 (WW) - Jeweils Vergleich mit Fehlervarianz - Damit drei Vergleiche, drei Entscheidungen, drei mögliche Wirkungen (PVHW1/FV, PVHW2/FV und PVWW/FV) 7.2.2 Statistische Prüfgröße Quadratsummen (QS) (Maß für die Unterschiedlichkeit): Wie unterschiedlich sind die Personen insgesamt, die ich untersucht habe? - QSTotal = QSHW1 + QSHW2 + QS WW + QS Fehler - QSHauptiwrkung / QSWechselwirkung Wie unterschiedlich sind die Gruppen unter den Stufen der UV? - QSFehler Wie unterschiedlich sind die Personen noch, wenn die Unterschiede, die durch die UVn entstanden sind, abgezogen wurden? Wert, den eine Person liefert setzt sich zusammen aus verschiedenen Einflussgrößen: Additives Modell der Varianzanalyse Im zweifaktoriellen Beispiel: Xijk = G... + Ai.. + B.j. + ABij. + Eijk Dabei bedeuten: Xijk: Messwert der Person k G...: Typischer Wert der untersuchten Stichprobe Ai..: Einfluss der Stufe i der ersten UV B.j.: Einfluss der Stufe j der zweiten UV ABij: Einfluss der Kombination UV1 und UV2 Eijk: Typischer Wert der Person: „Fehler“ 48 7.2.3 Interpretation der Wirkungen Problematisch; - Interpretation der HW bei Signifikanz der WW - Interpretation der HW hängt von der Art der WW ab Logik der Interpretation: Verändert die Wechselwirkung die Richtung der Hauptwirkung? - Wenn nein, darf die Hauptwirkung interpretiert werden - Wenn ja, darf die Hauptwirkung nicht interpretiert werden Interpretation ist damit nur möglich bei Veranschaulichung der Effekte, d.h. entweder graphisch oder in einer Tabelle Vorausgesetzt ist natürlich, dass die HW überhaupt signifikant werden. Ordinale Wechselwirkung: - beide Hauptwirkungen dürfen interpretiert werden. Die Reaktion auf die UVn ist unterschiedlich stark, aber in die gleiche Richtung Semi-disordinale oder hybride Wechselwirkung - Eine Hauptwirkung darf interpretiert werden, die andere nicht. Disordinale Wechselwirkung - nur die WW darf interpretiert werden. Bei Signifikanz: WW darf immer interpretiert werden, HW in Abhängigkeit der „Richtung“. Berechnung der Freiheitsgrade Bei Stichproben der Größe n können nur (n-1)-Abweichungen vom Gruppenmittelwert variiert werden. --- Zum weiteren Verständnis dieses Themenbereichs: s. Script der Vorlesung --S.26-42 im Script 7.3 Das MAX-KON-MIN Prinzip (Kerlinger, 1973) 7.3.1 MAXimiere die Primärvarianz: • Wähle die Stufen der UV so, dass möglichst große Unterschiede in der AV zwischen den Gruppen entstehen, die diese Stufen erhalten Kontrolltechniken • Wahl von mehreren experimentellen Bedingungen (> 2 Stufen) • Wahl von extremen experimentellen Bedingungen („Extremgruppenverfahren“) • Wahl von mehrfaktoriellen experimentellen Designs Ziel: • Effekte der UV durch die Versuchsplanung möglichst „maximal“ zum Vorschein bringen 49 7.3.2 KONtrolliere die Sekundärvarianz: • Sorge dafür, dass bekannte Störvariablen in allen Gruppen gleich wirken (interne Validität) und bestimme deren Einfluss, d.h. die Varianz, die sie erzeugen. Kontrolltechniken: 7.3.2.1 Experimentell (Abschirmung, Eliminierung, Konstanthaltung) 1. Abschirmung:• Beschränkung möglicher Störeffekte (z.B. Fenster zu) 2. Eliminierung:• Vollständige Abschirmung möglicher Störeffekte (z.B. schalltoter Raum) 3. Konstanthaltung: Gleichhaltung von Störvariablen unter verschiedenen Versuchsbedingungen (z.B. gleiches weißes Rauschen) Ziel: - Mögliche Störeffekte wirken unter verschiedenen Versuchsbedingungen gleich stark Statistisch: allgemeine statistische Kontrolle, kovarianzanalytische Kontrolle - Effekte von „Nicht-UVn“, die als Störvariablen einen systematischen Einfluss haben können, bestmöglich unter Kontrolle halten 7.3.2.2 Individuelle Rohdatenanalyse • Problem: Durchschnittswerte sind nicht die besten Repräsentanten einer Stichprobe Statistische Berechnung und graphische Veranschaulichung des Standardfehlers • Standardfehler (s/Wurzel n) sinnvoll zur Bestimmung der praktischen Signifikanz von Mittelwertsunterschieden) Überprüfung der statistischen Ausgangswerte bei Vorher-Nachher-Versuchsplänen 7.3.2.3 Kovarianzanalytische Kontrolle (“Kovarianzanalyse“) • Betrachtung von Effekten auf die AV, die nicht auf die UV zurückzuführen sind • Ziel: Bereinigung der Werte der AV bezüglich der Effekte der Störvariablen (z.B. Ausreißer eliminieren) 7.3.3 MINimiere die Fehlervarianz: • Vermeide Fehler auf Seiten der Versuchssituation (Konstanthalten der Bedingungen), der Datenerfassung (Beobachter: Reliabilität; Messinstrumente) und der Datenverarbeitung (doppelte Eingabe) Kontrolltechniken: Ziel: Auswirkungen von unbekannten Störvariablen so klein wie möglich halten 50 7.3.3.1 Randomisierung - Zufällige Zuweisung der Pbn zu den Versuchsbedingungen - Annahme: Gebildete Zufallsstichproben, die derselben Population entstammen, gleichen einander weitgehend - Prinzipielle Vergleichbarkeit der Ausgangsbedingungen und Ausgangsmesswerte Ziel: Erwartungswertgleichheit der Versuchsgruppen - Vermeidung systematischer Unterschiede bei Gruppenbildung, die einen systematischen Effekt auf die AV haben können - Kontrolle der interindividuellen Varianz (Fehlervarianz) Anwendung: - Wenn eine Vielzahl möglicher Störvariablen kontrolliert werden soll, über deren Effekt nichts Genaueres bekannt ist - Effektiv nur dann, wenn Stichproben hinreichend groß sind - bei kleinen Stichproben (mit Versuchsgruppen n <= 10) ist gleiche Zusammensetzung der Versuchsgruppen statistisch unwahrscheinlich - dann: besser Blockversuchspläne oder Wiederholungsmessungen 7.3.3.2 Blockbildung (Parallelisierung) Umwandlung möglicher Störvariablen, die einen Einfluss auf die AV haben (d.h. mit ihr korrelieren), in eine UV Beispiel: Organismusvariablen (z.B. Alter, Intelligenz) Ziel:Kontrolle der interindividuellen Varianz (Fehlervarianz) Anwendung: bei kleinen Stichproben Grundgedanke des Vorgehens: Zuordnung der Pbn zu den Versuchsbedingungen aufgrund der Merkmale, in denen man eine Einflussgröße auf die AV erwartet Vorgehen: 1. Auswahl von Pbn, die sich hinsichtlich Parallelisierungsmerkmal gleichen 2. Aufstellen einer Rangreihe (bezogen auf Ausprägung des Parallelisierungsmerkmals) 3. Bildung von “Blöcken” von Pbn mit jeweils benachbarten Rangplätzen Gedanke: Pbn eines Blocks sind sich hinsichtlich Parallelisierungsmerkmal ähnlicher als Pbn aus unterschiedlichen Blöcken - „Statistische Zwillinge“ 4. Zuordnung der Pbn eines “Blocks” zu Versuchsbedingung erfolgt dann per Zufall (“Randomisierung”) 7.3.3.3 Wiederholungsmessung Eliminierung von interindividuellen Unterschieden zwischen Bedingungen aufgrund Mehrfachmessung Ziel: Kontrolle der interindividuellen Varianz (Fehlervarianz) Vorgehen: Alle Pbn werden unter sämtlichen Versuchsbedingungen untersucht Vorteile: explizite Kenntnis über Personenvariablen, die mit AV korrelieren, nicht nötig Versuchsdurchführung sehr ökonomisch Nachteile: 51 Pbn sind keine “statischen” Einheiten, die von Messung zu Messung konstant bleiben (z.B. Lernfähigkeit) 7.3.4 Beurteilung von Kontrolltechniken 7.3.5 Überblick Kontrolltechniken Experimentelle (Instrumentelle) Kontrolltechniken • Anwendung bereits vor der Datenerhebung • Anwendung apparativer Techniken • z.B. Abschirmung, Eliminierung, Konstanthaltung Versuchsplanerische Kontrolltechniken • Anwendung vor der Datenerhebung • Anwendung bestimmter Versuchsplanungsstrategien • z.B. Randomisierung, Parallelisierung, Wiederholungsmessung Statistische Kontrolltechniken • Anwendung erst nach der Datenerhebung • z.B. allgemeine statistische Kontrolle, kovarianzanalytische Kontrolle 7.4 Vorexperimentelle Versuchspläne 7.4.1 One-Shot Case Study (Schrotschuss-Design) einmalige Nachhermessung an einer einzelnen Versuchsgruppe In Fachliteratur findet man keine ernstzunehmende Arbeit, die auf diesem Design basiert Vorteile: - 52 - gerinstmöglicher Aufwand Nachteile - fehlende experimentelle Kontrolle - keine Vergleichsmöglichkeiten der Untersuchungsbedingungen - aufgrund irreführender Plausibilität der Ergebnisse: Gefahr der missbräuchlichen Anerkennung dieses Designs - starke Gefährdung der internen Validität 7.4.2 Einfache Vorher-Nachher-Messung (Prä-Post) Zusätzliche Einführung einer Ausgangsmessung (Vorher-Messung) In der Psychologie können Vorher-Nachher-Differenzen nicht eindeutig auf die Behandlung zurückgeführt werden Vorteile: - Interindividuelle Verhaltensvariablen untersuchbar / Vielfältigkeit des Verhaltens - Zumindest Vergleich möglich, d.h. Frage nach Veränderung der AV zu untersuchen Nachteile: - Müdigkeits- oder Gewöhnungseffekte können für Ergebnis verantwortlich sein - Testeffekte aufgrund zweimaliger Testung - Fehlen eines Doppelblindversuchs, d.h. reaktive Verhaltensweisen von Pb und VL nicht kontrolliert - 7.4.3 Statischer Gruppenvergleich (z.B. Pisa Studie) Vergleich von zwei oder mehreren experimentell behandelten Gruppen Nicht mittels einer Zufallsbildung zusammengestellt, d.h. bereits existierende, vorgegebene Gruppen Vorteile: - zumindest Vergleich zwischen verschiedenen Versuchsbedingungen möglich, d.h. Frage nach Veränderung der AV zu untersuchen Nachteile: - Gleichheit der Versuchsgruppen ist nicht gewährleistet - „Reifungseffekte“ werden nicht kontrolliert Einsatz empfehlenswert, wenn Zufallsgruppenbildung nicht möglich. - 53 Bewertung vorexperimenteller Designs Vorgehen: - explizite Einführung einer experimentellen Bedingung - keine Kontrolle von Störfaktoren Ergebnisse solcher Versuche sind prinzipiell mehrdeutig - Möglichkeit von Alternativerklärungen, über die nicht entschieden werden kann Untersuchungsbefunde können durch Störvariablen verzerrt sein - Untersucher kann über Ausmaß und Richtung solcher Datenverzerrungen keine Aussagen machen Eignung - v.a. für Pilotstudien (Erkundungsexperimente) mit Ziel der Hypothesengenerierung und Entwicklung eines adäquaten Versuchsdesigns Schemata des Experiments 7.5 Experimentelle Versuchspläne Klassifikation von Versuchsplänen Anzahl der untersuchten Versuchsgruppen Ein-, Zwei-Stichproben- vs. Mehrstichproben-Plan Placebo vs. Alkohol; Placebo, wenig, viel Alkohol Anzahl der unabhängigen Variablen (UV) Einfaktorieller vs. Mehrfaktorieller Plan UV 1: Alkohol, UV 2: Geschlecht Anzahl der abhängigen Variablen (AV) Univariater vs. Multivariater Plan Alkoholwirkungen auf Sprechverhalten, Blickkontakt, Befinden Werden dieselben Pbn unter den Stufen der UV untersucht oder ähnliche Vpn oder verschiedene Vpn? Abhängige Gruppen vs. Blockplan vs. Unabhängige Gruppen Alkohol vs. Placebo: Zwei Sitzungen an zwei Abenden, Reihenfolge zufällig 54 Experimentelle Designs kausaltheoretische Vorhersage vorhanden systematische Manipulation relevanter Variablen Kontrolle von Störfaktoren, die die Interpretierbarkeit und Gültigkeit der Ergebnisse beeinträchtigen könnten. 7.5.1 Randomisierungspläne (Versuchspläne mit Zufallsgruppenbildung) • Zufällige Zuweisung der Pbn zu Versuchsgruppen, danach zufällige Zuweisung der Versuchsgruppen zu den Bedingungen • Prinzipielle Vergleichbarkeit der Ausgangsbedingungen und Ausgangsmesswerte 7.5.1.1 Zweistichprobenpläne: Zufallsgruppenplan ohne Vortest Sehr einfacher und ökonomischer Versuchsplan 7.5.1.2 Zufallsgruppenplan mit Vortest Zusätzliche Informationen durch Vorher-Messung Kontrolle von interindividuellen Messwertdifferenzen 7.5.1.3 Zufallsgrppenplan mit teilweisem Vortest Hauptvorteil gegenüber Zufallsgruppenplan mit Vortest: Abschätzbarkeit möglicher Effekte des Vortests auf Wirkung des Treatments „Solomon-Dreigruppen-Versuchsplan“ relativ selten verwendet 55 7.5.1.4 Mehrstichprobenversuchspläne: einfaktorieller Plan ohne Vortest Variation nur einer UV („Faktor“): einfaktorieller Plan Verallgemeinerung der Zweistichprobenversuchspläne auf drei der mehr Versuchsgruppen 7.5.1.5 Zweifaktorieller Zufallsgruppenplan 56 7.5.1.6 Mehrfaktorieller Zufallsgruppenplan 7.5.1.7 Vorteile / Nachteile Zufallsgruppenpläne Vorteile: Erwartete Gleichheit der Merkmale in Versuchsgruppen Vortest: Kontrolle von interindividuellen Messwertdifferenzen möglich Mehrstichproben- vs. Zweistichprobenpläne: • höhere interne Validität (breitere Analyse möglich: Max-Prinzip) • höhere externe Validität (sachrepräsentativere Analyse möglich) Multifaktorielle vs. einfaktorielle Versuchspläne: • erlauben Aussagen über Hauptwirkungen und Wechselwirkungen (Interaktionen) zwischen untersuchten Variablen Nachteile: bei kleinen Stichproben (je Gruppe n <= 10) ist gleiche Zusammensetzung der Versuchsgruppen statistisch unwahrscheinlich • dann: Blockversuchspläne oder Wiederholungsmessungen bei Mehrstichprobenversuchsplänen steigt Anzahl der Versuchsgruppen mit Anzahl der Faktoren stark an • Beispiel: Ø 3 Stufen UV 1 x 2 Stufen UV 2 = 6 Gruppen Ø 3 Stufen UV 1 x 2 Stufen UV 2 x 3 Stufen UV 3 = 18 Gruppen Interaktionen bei drei- und mehrfaktoriellen Plänen sind kaum interpretierbar 57 7.5.2 Messwiederholungspläne (Versuchspläne mit wiederholter Messung) • Untersuchung einer Versuchsgruppe zu verschiedenen Messzeitpunkten Unterscheidung von Zweistichproben- vs. Mehrstichprobenversuchsplänen Untersuchung unter zwei oder mehreren Bedingungen Beispiel: Vorhersage der Leidensfähigkeit über Leistung in 2 Statistik-Klausuren (“Zweistichproben”) vs. Leistung in 8 Vordiplom-Prüfungen (“Mehrstichproben”) Einfaktorielle, zweifaktorielle vs. mehrfaktorielle Versuchspläne einfaktoriell: Untersuchung bei einer UV mit mindestens 2 Stufen zweifaktoriell: Untersuchung bei Variation von 2 UV mit je mindestens 2 Stufen 7.5.2.1 Messwiederholung: Beispiel 7.5.2.2 Vorteile / Nachteile: Vorteile: • ökonomische Designs aufgrund geringer Probandenzahl • geringere interindividuelle Varianz als bei Einfachmessungen Ø Wirksamkeit der experimentellen Effekte leichter nachweisbar Nachteile: • Problem von sog. Carry-over-Effekten • Lösung: Ø Wahl eines hinreichend großen Zeitabstandes Ø Ausbalancierung der Reihenfolge der Versuchsbedingungen 7.5.2.3 Ausbalancierung der Reihenfolge Beispiel: 2 Versuchsgruppen mit n = 15 Pbn, 3 Bedingungen (a, b, c) Mögliche Kombinationen der Reihenfolge: • abc • acb • bac • bca • cab • cba 58 7.5.3 Blockversuchspläne • auch: Versuchspläne mit parallelisierten Gruppen • Kombination aus Designs der Zufallsgruppenbildung und der Wiederholungsmessung 1. Auswahl von Pbn, die sich hinsichtlich Parallelisierungsmerkmal gleichen 2. Aufstellen einer Rangreihe (bezogen auf Ausprägung des Parallelisierungsmerkmals) 3. Bildung von “Blöcken” von Pbn mit jeweils benachbarten Rangplätzen Gedanke: Pbn eines Blocks sind sich hinsichtlich Parallelisierungsmerkmal ähnlicher als Pbn aus unterschiedlichen Blöcken 4. Zuordnung der Pbn eines “Blocks” zu Versuchsbedingung erfolgt dann per Zufall (“Randomisierung”) “Statistische Zwillinge” Bildung statistischer Zwillinge: 59 Unterscheidung von • Zweistichproben- vs. Mehrstichprobenversuchsplänen: • Untersuchung von zwei oder mehreren parallelisierten Versuchsgruppen • Einfaktorielle, zweifaktorielle vs. mehrfaktorielle Versuchspläne: • einfaktoriell: Untersuchung bei einer UV mit mindestens 2 Stufen • zweifaktoriell: Untersuchung bei Variation von 2 UV mit je mindestens 2 Stufen Vorteil: - Erhöhung der Erwartungswertgleicheit durch Parallelisierung Nachteil: - Mehrfachmessung: Übertragungseffekte zwischen Messzeitpunkten nicht auszuschließen - Vortestvariablen, die hoch mit AV korrelieren, sind schwer aufzufinden. - Höherer Versuchsaufwand 7.5.4 Mischversuchspläne Zwei- oder mehrfaktorielle Designs, bei dem die Faktoren verschiedenen Design-Haupttypen entsprechen • Zufallsgruppenfaktor (“R” Randomisierung) • Faktor mit wiederholter Messung (“W” Wiederholung) • Blockfaktor (“O” Block) Symbolabfolge zur Charakterisierung des Versuchsplans • RO-Mischdesign, RW-Mischdesign, RWO-Mischdesign Lassen alle möglichen Faktorenkombinationen zu und sins somit äußerst flexibel für die jeweilige inhaltliche Fragestellung Beispiel: 60 7.5.5 Zusammenfassung Mit welchem Plan untersuche ich? Versuchspläne mit Zufallsgruppenbildung • Zufällige Zuweisung der Pbn zu Versuchsgruppen, danach zufällige Zuweisung der Versuchsgruppen zu den Bedingungen Versuchspläne mit wiederholter Messung • Untersuchung einer Versuchsgruppe zu verschiedenen Messzeitpunkten Blockversuchspläne • Kombination aus Designs der Zufallsgruppenbildung und der Wiederholungsmessung Mischversuchspläne • Kombination aus o.g. Designs Empfehlungen: Wenn der Zeitverlauf interessiert: • Mischversuchsplan (z.B. Alkohol und Sprechen) Wenn Patienten untersucht werden, die alle behandelt werden müssen: • abhängiger Plan im Cross-Over (z.B. Psychotherapieklienten) Wenn hoher Aufwand bei der Probandengewinnung: • Abhängiger Plan (z.B. Training auf Fahrsimulator) Wenn Testeffekte zu erwarten sind: • Unabhängiger Plan (z.B. Problemlösen und Lernerfahrungen) Wenn Wirkungen in versch. Verhaltens- und Erlebensbereichen erwartet werden: • Multivariater Plan (Therapiekontrolle) 7.6 Quasi-experimentelle Designs • systematische Manipulation relevanter Variablen • keine Kontrolle von Störfaktoren • Beispiele: Ø Zeitreihenversuchspläne mit einer Gruppe oder mit statischen Gruppen Ø Versuchspläne mit unvollständiger Ausbalancierung Ø Einzelfallversuchspläne 61 7.6.1 Zeitreihenversuchspläne Eingruppen-Zeitreihendesign Beispiel: ABAB-Plan Einfachste Lösung: Vorher- und Nachher-Messungen an einer einzelnen Gruppe unter einer Bedingung Erweiterung auf mehrere verschiedene Gruppen: MehrgruppenZeitreihendesign (mit vorgegebenen “statischen” Gruppen) Abgrenzung von Mehrgruppen-Zeitreihendesign mit Zufallsgruppenbildung als experimenteller Versuchsplan 7.6.2 Versuchspläne mit unvollständiger Ausbalancierung Annahme: Konfundierung zwischen den UVn und der gewählten Darbietungsabfolge der Bedingungen Quasi-experimentell: Versuchspläne mit unvollständigem faktoriellem Design bei der Wiederholungsmessung Methoden: • Vollständige Permutation Ø Herstellung und Durchführung aller möglichen Behandlungskombinationen • Unvollständige Permutation Ø Herstellung aller möglichen Behandlungskombinationen Ø Zufällige Auswahl einzelner Kombinationen Ø Jede Behandlungsform kommt gleich häufig vor. • Lateinisches Quadrat ( s. Krüger) Vorteile: Zeitreihenversuchspläne: Untersuchung von Prozessen Einzelfallversuchspläne: Brückenschlag zwischen Allgemeiner und Differentieller Psychologie Ausbalancierungspläne: Bestmögliche Kontrolle der Bedingungsabfolge Nachteile: Generell: Probleme des Faktors „Zeit“ (geringe interne Validität) Einzelfallversuchspläne: z.T. fehlende inferenzstatistische Verfahren, Problem der Verallgemeinerbarkeit 7.6.3 Einzelfallversuchspläne 7.7 Ex post-facto-Designs Ableitung von Kausalzusammenhängen aus nicht-manipulierten bzw. nichtmanipulierbaren Variablen Bewertung: Keine Manipulation durch den Untersucher Probandengruppen unterscheiden sich höchstwahrscheinlich nicht nur hinsichtlich UV „Handynutzung“. Ergebnisse sind streng genommen nur „korrelativ“ zu interpretieren. 7.8 Übersicht: Versuchspläne 1. Vorexperimentelle (“ungültige”) Designs 62 explizite Einführung einer experimentellen Bedingung keine Kontrolle von Störfaktoren 2. Experimentelle Designs kausaltheoretische Vorhersage vorhanden systematische Manipulation relevanter Variablen Kontrolle von Störfaktoren, die die Interpretierbarkeit und Gültigkeit der Ergebnisse beeinträchtigen könnten. 3. Quasi-experimentelle Designs systematische Manipulation relevanter Variablen keine Kontrolle von Störfaktoren 4. Ex post-facto-Designs Ableitung von Kausalzusammenhängen aus nicht-manipulierten Variablen 7.9 Zur Übung: Womit untersuche ich was? Wahrnehmungslernen: Störungen der visuellen Entwicklung innerhalb kritischer Periode führen zu dauerhafter Beeinträchtigung des Wahrnehmungslernens. Emmertsches Gesetz: Das Nachbild wird umso größer, je weiter die Vorlage, auf der man das Nachbild sieht, entfernt ist (G = R x D). Sexualsymbolismus von Freud: Runde Formen sind eher weiblich, längliche und spitze eher männlich. Geschlechter bevorzugen ihre eigene Symbolik. Gruppendruck: In einer Gruppensituation wird der Gruppendruck umso stärker, je größer die andersdenkende Gruppe ist. Dieser Effekt ist am deutlichsten bei mittlerer Diskrepanz der Urteile. Isolation: Wenn Menschen in Angst versetzt werden, tendieren sie zu mehr Sozialkontakten mit fremden Personen als wenn sie angstfrei sind. Konfundierung: Führen bestimmte physische Behandlungen von Jungtieren direkt zu Veränderungen oder ist die unterschiedliche Behandlung durch die Mutter verantwortlich? Lernen: Ist Lernen mit Verständnis besser als Lernen ohne Verständnis? Soziales Modellernen von Hilfsbereitschaft: Ähnliche Modelle führen dann zur Nachahmung, wenn diese gute Erfahrungen machen (und umgekehrt), unähnliche Modelle haben keinen Einfluss. 63 8 Prüfungsfragen Rausche / Krüger: (aus den letzen 4 Klausuren) 8.1 Verteilungen Parameter einer Normalverteilung - eindeutig bestimmt durch die Parameter und . Die Normalverteilung hat folgende Eigenschaften: arithm. Mittel, Modus und Median fallen zusammen die Kurve hat bei x=µ ihr einziges Maximum die beiden Äste der Kurve nähern sich asymptotisch der Abzisse De Fläche unter der Kurve muß natürlich gleich 1 sein Parameter einer Standardnormalverteilung Jede beliebige Zufallsvariable X mit dem Mittelwert und der Streuung lässt sich durch eine Standardisierung (z-Transformation) in eine Zufallsvariable z mit =0 und der Streuung =1 überführen. Geben Sie Schiefe und Modalität einer Normalverteilung an: Schiefe = 0; Modalität = unimodal (eingipflig) 8.2 Inferenzstatistik Bezüglich welcher Annahmen unterscheiden sich t-Test und z-Test. Beim z-Test ist die wahre Varianz bekannt. Beim t-test ist die wahre Varianz unbekannt. Wann ist eine Varianzanalyse im Gegensatz zu einem t-Test zu verwenden? t-test ist ein 2-Stichprobentest. Varianzanalyse ist die Verallgemeinerung des t-Tests auf mehr als 2 Stichproben. Nennen Sie für t-Test und Varianzanalyse je ein non-parametrisches Verfahren. H-Test für die Varianzanalyse Wilcoxon-Rangsummentest für den t-Test In einem Versuch zur Wirkung von Alkohol auf die Reaktionsgeschwindigkeit werden drei unabhängige Versuchsgruppen (eine Kontrollgruppe und zwei Experimentalgruppen) untersucht. Eine Kontrollgruppe erhält ein Placebo, in Experimentalgruppe 1 werden 0.5 Promille Blutalkohol angesteuert, in Experimentalgruppe 2 eine Blutalkoholkonzentration von 0.8 Promille. a. Stellen Sie die statistische Nullhypothese sowie je eine gerichtete bzw. ungerichtete Alternativhypothese dieses Versuchs auf. 64 H0: mtk=mt1=mt2 H1c: mtk ≠ mt1 oder/und ≠ mt2 H1c: mtk < mt1 < mt2 b. Welches inferenzstatistische Verfahren würden Sie empfehlen, um zu prüfen, ob sich die drei Versuchsgruppen „statistisch signifikant“ unterscheiden? Einfaktorielle Varianzanalyse c. Welches inferenzstatistische Verfahren würden Sie empfehlen, um zu prüfen, ob sich nur die zwei Experimentalgruppen „statistisch signifikant“ voneinander unterscheiden? t-test zwecks Mittelwertsvergleich Bei der Auswahl eines inferenzstatistischen Verfahrens müssen verschiedene Fragen gestellt werden. Nennen Sie diese Fragen. - Skaltenniveau - Anzahl der Stichproben - Unabhängige / abhängige Stichprobe Es werden der Fehler 1. Art und der Fehler 2. Art unterschieden. Definieren Sie kurz deren Bedeutung. Wie verhalten sich diese Fehler zueinander? Fehler 1. Art (): H0 Hypothese wird abgelehnt, obwohl H0 richtig ist. Fehler 2. Art (): H0 wird beibehalten, obwohl H1 richtig ist. Verhalten sich antiproportional zueinander Die inferenzstatistische Überprüfung, ob sich zwei Versuchsgruppen „statistisch signifikant“ unterscheiden, folgt einer typischen Folge von Auswertungsschritten. Beantworten Sie für jeden der Auswertungsschritte die entsprechende Frage: (a) Es wird eine Nullhypothese aufgestellt. Was wird in dieser formuliert? (1P) Die inhaltliche Frage „Hat eine Behandlung einen Einfluss?“ wird methodisch dargestellt als „Ist der Unterschied zwischen Behandlungen bedeutsam?“ Besondere Hinweise: • Bei mehreren Stichproben überprüft die ANOVA die Hypothese, ob sich mindestens zwei der k Stichproben unterscheiden • Ein signifikantes Ergebnis sagt nicht, wo der Unterschied liegt. Dies kann erst durch nachgeschaltete Einzelvergleiche überprüft werden. (b) Mit Hilfe der Nullhypothese wird eine Verteilung erstellt. Wie kommt diese Verteilung zustande? (1P) Wahrscheinlichkeitsfunktion X-Achse: mögliche Brüche PV/FV Y-Achse: Wahrscheinlichkeit dieser Brüche Eine Zufallsvariable X hat endlich oder abzählbar unendlich viele Werte, d.h. der Wertebereich hat die Gestalt {x1, x2, x3...}. Diese Zufallsvariable und auch deren Verteilung heißen diskret. Die Wahrscheinlichkeitsfunktion P(X=xi)=P(xi) ordnet jeder reellen Zahl X die Wahrscheinlichkeit zu, mit der sie von X angenommen wird. Die Wahrscheinlichkeitsfunktion sagt also aus, mit welcher Wahrscheinlichkeit eine bestimmte Ausprägung einer Zufallsvariablen bei einem Zufallsexperiment auftritt. 65 Verteilungsfunktion: Kumuliert man die Werte der Wahrscheinlichkeitsfunktion für die Werte xi, so erhält man die Verteilungsfunktion: F(t)=P(X<=xt)= P(xi) (c) Das empirische Ereignis wird in Beziehung gesetzt zur Verteilung unter (b). Auf welche Weise geschieht dies? (1P) # (d) Schließlich wird eine Entscheidung getroffen. Was wird entschieden und wie geschieht dies in der Regel? (2P) Wenn mein empirisches Ergebnis unter dem Modell der H0-Hypothese zu den 5% bzw. 1% der unwahrscheinlichsten Ergebnisse zählt, ist das Modell der H0Hypothese abzulehnen. = wir haben einen Effekt 8.3 Testen Was bedeutet „Signifikanz“ (2 P)? In der Statistik heißen Unterschiede signifikant, wenn sie mit einer bestimmten Wahrscheinlichkeit nicht durch Zufall zustande gekommen sind. Die Überprüfung der statistischen Signifikanz geschieht mit Hilfe einer Nullhypothese, die verworfen wird, wenn das zufällige Zustandekommen des Unterschiedes sehr unwahrscheinlich ist. Der Grad der zu überprüfenden Unwahrscheinlichkeit wird vorher festgelegt und mit α bezeichnet, beispielsweise α = 0.05 für 5% Irrtumswahrscheinlichkeit. 8.4 Induktion Was bedeutet eine „induktive Schlussweise“? Induktion (lat. Hinführung) bedeutet in der Logik das Verfahren, vom besonderen Einzelfall auf das Allgemeine, Gesetzmäßige zu schließen, im Gegensatz zum umgekehrten Vorgang, der Deduktion. Der Induktion liegt die Annahme zugrunde, daß, wenn sich etwas bei einer Reihe von beobachteten Ereignissen als wahr erweist, es sich bei allen gleichartigen Ereignissen als wahr erweisen wird. Die Wahrscheinlichkeit der Richtigkeit hängt dabei von der Anzahl der beobachteten Ereignisse ab. Eines der einfachsten Beispiele für ein induktives Vorgehen ist die Auswertung von Meinungsumfragen, bei denen die Antworten eines relativ geringen Prozentsatzes der Gesamtbevölkerung auf diese hochgerechnet werden. Diese Gegenüberstellung von Induktion und Deduktion geht auf den Begriff der "epagoge" bei Aristoteles zurück. http://arbeitsblaetter.stangl-taller.at/DENKENTWICKLUNG/Induktion.shtml […] Letztendlich läuft das Verifikationverfahren auf einen Induktionsschluss hinaus, bei dem vonn einer begrenzten Anzahl spezieller Ereignisse unzulässigerweise auf die Allgemeingültigkeit der Theorie geschlossen wird. 66 Welches Ziel verfolgt der „Canon of induction“ von J.St. Mill? Benötigt werden Regeln der Induktion, die möglichst hohe Plausibilität gewährleisten. Was ist die Grundfrage der Canon of Induction? (1P) Die Grundfrage des induktiven Schließens: - darf man aus der Beobachtung von Einzelfällen verallgemeinern? Nennen Sie drei Canon of Induction und geben Sie jeweils eine empirische Technik an, die sich das entsprechende Prinzip zu Eigen macht. (3P) 1. First Canon: Method of Agreement Maximieren der Begleitvarianz 2. Second Canon: Method of Difference Minimieren der Begleitvarianz 3. Third Canon: Joint Method of agreement and Prinzip der Randomisierung difference 4. Fouth Canon: Method of residues Isolation bekannter Ursachen aus den Ergebnissen 5. Fifth Canon: Method of concomitant variation Untersuchung von Funktionalitäten 8.5 Deskriptive Statistik Im Rahmen der deskriptiven Datenanalyse werden seitens der auswertenden Personen immer wieder Fehler gemacht, die typischen Fehlerklassen zugewiesen werden können. Nennen Sie zwei dieser typischen Fehler und die entsprechende Möglichkeit, wie diese Fehler kontrolliert werden können (2 P). Fehler 1. Art Alpha: möglichst klein halten Fehler 2. Art Beta: große Stichprobe nehmen und 2 (Fehlervarianz)möglichst gering halten Ein Lehrling hat in drei verschiedenen Eignungstests folgende Testwerte erhalten: x1 = 60, x2 = 30 und x3 = 110. Diese drei Tests wurden in vorherigen Untersuchungen mit folgenden Mittelwerten und Standardabweichungen gekennzeichnet: m1 = 42, s1 = 12, m2 = 40, s2 = 5, m3 = 80, s3 = 15. In welchem Eignungstest hat der Lehrling am besten abgeschnitten? Geben Sie die Formel der entsprechenden Berechnung an und führen Sie diese Berechnung durch (2.5 P). Formel: (x – m) / s = z 1)1,5 2)-2 3)2 (am besten!) Nennen Sie je ein Maß für Lage und Variabilität einer Stichprobe, das von Ausreißerwerten minimal abhängig ist. Lage: Modus / Median 67 Variabilität: Bereichsmaße (Interquartilbereich, etc.) Nennen Sie je ein Maß für Lage und Variabilität einer Stichprobe, das von Ausreißerwerten sehr stark abhängig ist. Lage: Mittelwert Variabilität: Varianz Wie verändert sich das Konfidenzintervall des Mittelwerts bei Vergrößerung des Stichprobenumfangs? Begründen Sie ihre Antwort kurz? Wird kleiner, weil durch die Vergrößerung der Stichprobe die Chance größer wird den wahren Mittelwert zu treffen. Der Mittelwert einer größeren Stichprobe ist repräsentativer. Wie verändert sich das Konfidenzintervall des Mittelwerts bei Vergrößerung der Populationsstreuung? Begründen Sie ihre Antwort kurz? Wird größer, da die die große Varianz die Treffsicherheit verringert. 8.6 Logik Definition Modus Tollens: Grundregel der Logik: Wenn gilt "aus A folgt B" und "B ist falsch", dann gilt auch "A ist falsch". Warum beruht ein Signifikanztest auf dieser Tautologie? Weil er auch die Gesetze der Logik anwendet: - Bezug zur Entscheidungsregel: o Jedes empirische Ergebnis, das in den Ablehnungbereich von H0 fällt, führt dazu, dass das durch H0 spezifizierte Modell als „Erklärung“ für das empirische Ergebnis abgelehnt wird. Beschreiben Sie kurz, was unter einer „Tautologie“ bzw. einer „Kontradiktion“ verstanden wird. Geben Sie jeweils ein aussagenlogisches Beispiel an. (2P) Eine Tautologie ist eine Aussage der Aussagenlogik, die immer wahr ist. Mit anderen Worten, eine Tautologie ist eine Aussage, die immer den Wahrheitswert wahr annimmt, unabhängig davon, wie die Variablen in der Aussage belegt sind. "Eine ungerade natürliche Zahl ist nicht durch zwei teilbar." ist als Aussage eine Tautologie, denn eine "ungerade Zahl" wird dadurch definiert, dass sie nicht durch zwei teilbar ist Laut Krüger Script: Ein aussagenlogischer Ausdruck ist eine Tautologie, wenn er bei jeder möglichen Kombination von Wahrheitswerten der beteiligten Aussagen zu einer wahren Aussage führt. Eine Kontradiktion oder auch Widerspruch ist eine Aussage der Aussagenlogik, die immer falsch ist. Mit anderen Worten, eine Kontradiktion ist eine Aussage, die immer den Wahrheitswert falsch annimmt, unabhängig davon, wie die Variablen in der Aussage belegt sind. 68 Die Aussage B:=„A und nicht A“ ist eine Kontradiktion, da B unabhängig von der Belegung von A immer den Wahrheitswert nicht wahr annimmt. Ich bin ein Lügner ist eine kontradikte Aussage, denn wenn die Aussage des Lügners wahr ist, ist sie gelogen. Laut Krüger Script: Ein aussagenlogischer Ausdruck ist eine Kontradiktion, wenn er bei jeder möglichen Kombination von Wahrheitswerten der beteiligten Aussagen zu einer falschen Aussage führt. Stellen Sie die Wahrheitstafel dar. ". Geben Sie kurz an, was in der Aussagenlogik unter den Junktoren „Konjunktion“, „Disjunktion“, „Implikation“ und „Äquivalenz“ verstanden wird. (2P) „Konjunktion“ = und „Disjunktion“ = oder „Implikation“ = wenn, dann „Äquivalenz“ = genau wenn, dann 8.7 Wahrscheinlichkeit a. Welche unterschiedlichen Definitionen der Wahrscheinlichkeit kennen Sie? Induktive Wahrscheinlichkeit Deduktive Wahrscheinlichkeit - Klassische - Axiomatische Wie werden in den unterschiedlichen Ansätzen Wahrscheinlichkeiten berechnet? 69 Worin unterscheiden sie sich? Induktiv: vom Einzelfall zum Allgemeinen Deduktiv. Vom Allgemeinen zum Einzelfall Welche Gemeinsamkeiten haben die Definitionen? # Was bedeutet das Prinzip der „Indifferenz“? Wenn wir keine hinreichenden Gründe für die Annahme haben, dass etwas wahr oder falsch ist, weisen wir den beiden Wahrheitswerten die gleiche Wahrscheinlichkeit zu. (Beispiel aus dem Script: Gibt es irgendeine Form von Leben auf dem TITAN?) Wie hängt dieses Prinzip mit der Definition von Wahrscheinlichkeit zusammen? Die Vorraussetzung für das Rechnen mit Wahrscheinlichkeiten ist auch: alle Ereignisse sind gleichwahrscheinlich. (abgeleitet aus dem Prinzip des Zufalls) Wie heißt der klassische Wahrscheinlichkeitsbegriff nach PASCAL? Deduktive Wahrscheinlichkeit: klassissch: 1. Aufzählen aller möglichen Fälle (Enumeration) = m 2. Bilden der Menge der günstigen Fälle = g 3. Bilden des Bruchs p = g/m Welche Wahrscheinlichkeiten haben bei dieser Definition die Elementarereignisse? Alle Elementarereignisse sind gleichwahrscheinlich und abzählbar. Alle haben die Wahrscheinlichkeit (px * 1-p)n-x Warum ist dieser Wahrscheinlichkeitsbegriff bei unedlichen Ereignissmengen nicht anwendbar? Weil die Trefferzahl x (und N = die Anzahl der Versuche) vorgegeben sein muss, um Pascal anzuwenden. Bei x = unendlich ist keine Rechnung möglich. weil die Menge der Ereignisse nicht abzählbar ist 70 (a) Die Wahrscheinlichkeit, in 20 Jahren noch zu leben, möge für Herrn M. p = 0.60 und für Frau M. p = 0.70 betragen. Wie groß ist die Wahrscheinlichkeit, dass Herr und Frau M. in 20 Jahren beide noch leben werden? Geben Sie die Formel an und führen Sie die Berechnung durch (2 P). 0,6*0,7=0,42 8.8 Forschungsformen 8.8.1 Wissenschaftstheorie Was versteht man unter der „ceteris paribus“-Bedingung? (1P) ceteris paribus = „alle übrigen gleich“ Alle übrigen Versuchsbedingungen lasse ich gleich Durch welches versuchsplanerische Prinzip wird diese Bedingung umgesetzt? (1P) Dies fürhrt zu den experimentellen Techniken der: o Konstanthaltung o Kontrolle der Sekundärvarianz o Randomisierung o und insbesondere der Kontrollgruppe Schreiben Sie in logischer Schreibweise, wie nach HEMPEL & OPPENHEIMER die wissenschaftliche Erklärung aufgebaut ist. Geben Sie an, wie in diesem Schema eine ex-post-Erklärung dargestellt werden kann. - Es liegt eine Consecutio (Wirkung) vor - Ein Allgemeines Gesetz (Ursache führt zur Wirkung) gilt - Also muss die Prämisse (Ursache) gelten Geben sie ein psychologisches Beispiel für eine solche ex-post-Erklärung. - MacMahon et al. (1981): Führt Kaffeekonsum zu erhöhtem Auftreten von Pankreaskarzinom? - Ex post: Korrelation zwischen erhobenem Kaffeekonsum und Krebserkrankung Nach Hempel & Oppenheimer wird bei der wissenschaftlichen Erklärung aus einer Prämisse über ein Gesetz eine Folgerung abgeleitet. Je nach Lesart dieses Schemas entstehen vier Forschungstypen, die sich auf zwei Dimensionen unterscheiden. Was ist mit der Unterscheidung „deduktiv – reduktiv“ gemeint? Deduktiv: Das allgemeine Gesetz ist bekannt → Angewandte Forschung Deduktiv: Vom Allgemeinen zum Besonderen 71 Reduktiv (induktiv): Das allgemeine Gesetz wird gesucht → Grundlagenforschung Reduktiv: Vom Besonderen zum Allgemeinen Was ist mit der Unterscheidung „progressiv – regressiv“ gemeint? Progressiv: Die Ursache wird gesetzt, der Effekt abgewartet → ex ante-Forschung Progressiv: von der Prämisse zur Consecutio Regressiv: Die Wirkung wird festgestellt, die Ursache wird gesucht → Ex post factoForschung Regressiv: von der Consecutio zur Prämisse Welchem Forschungstyp können Labor- und Feldexperimente bzw. die Ex post-facto Forschung zugeordnet werden. Welche Problematik ergibt sich bei progressiven bzw. regressiven Forschungstypen? 1. Die Problematik des reduktiven (induktiven) Schlusses Darf man aus der Beobachtung von Einzelfällen verallgemeinern? Das Problem der Induktion 2. Die Problematik des regressiven Schlusses Darf man auf zeitlich frühere Ursachen schließen? Das Problem der ex post factoForschung Forschungstypen Man unterscheidet zwischen progressiven und regressiven Ansätzen. (a) Warum sind Experimente Beispiele für progressives Vorgehen? (1P) Weil ich die Ursache setze (UV) und die Wirkung (AV) abwarte. (b) Beschreiben Sie kurz an einem Beispiel, wie man bei einem regressiven Ansatz versuchsplanerisch vorgeht. (2P) Viele Autounfälle, mögliche Ursache Telefonieren während der Fahrt (Korrelation – dazu müssen beide Variablen erhoben worden sein) (c) Wie bewerten Sie regressive Ansätze hinsichtlich ihrer internen Validität? (1P) 72 Es gibt keine Manipulation der UV, somit ist die AV nicht eindeutig auf die Veränderung der UV zurückzuführen (Kausalitätsproblem) (d) Warum setzt man dennoch regressive Ansätze ein? Geben Sie zwei Gründe an. (2P) Die behauptete Consecutio ist so negativ, dass sie nicht experimentell erzeugt werden darf. (z.b. Krebsforschung) Die Ursache für die Consecutio ist noch so wenig bekannt, dass eine experimentelle Manipulation noch nicht möglich ist. 8.8.2 Messtheorie Wie wird Messen in der mathematischen Messtheorie definiert? Messen ist die homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ Gegeben sind die Mengen A = {2,3} und B = {4,5}. Stellen Sie das kartesische Produkt A x B dar und definieren Sie darauf die Relation „größer als“. # In der Messtheorie werden vier Problemkreise diskutiert. Nennen Sie diese Probleme und geben Sie die damit verbundene Frage an. Welches Problem tritt bei Abbildungen von Relativen auf? Siehe unten! Wird ein Relativ auf ein anderes strukturgleich abgebildet, stellt sich die Frage, ob zugleich eine Abbildung der Relation stattfindet. (muss gewährleistet sein) Beim Vergleich zwischen Objekten sind zwei psychische Relationen möglich: Ununterscheidbarkeit und Ordnung. Gehen Sie von einer Menge A und drei Objekten a, b und c aus. Welche Relationen muss das Urteil „ununterscheidbar“ erfüllen (1.5 P)? A ~ A (reflexiv), A ~ B → B ~ A (symmetrisch), A ~ B und B ~ C → A ~ C (transitiv) psychische R1 ist ~ (ununterscheidbar): a R1 b genau dann, wenn f(a) = f(b) für alle a,b Є A Welche Relationen muss das Urteil „größer“ erfüllen? (1.5 P)? psychische R2 ist > (vorrangig): a R2 b genau dann, wenn f(a) > f(b) für alle a,b ~ A für alle a,b Є A - Eigenschaften: Transitivität & Konnexivität Es wird zwischen algebraischen und probabilistischen Messmodellen unterschieden. (a) Stellen Sie die Grundstruktur eines algebraischen Messmodells mit Angaben zu den beteiligten Mengen, Relationen, Relativen und Abbildungen kurz dar (3.5 P). Mengen: - Auswahl eines Gegenstandsbereichs Relativen: - Auswahl einer empirischen Anordnung, die es erlaubt, die Eigenschaften der Relationen zu prüfen (z.B. Paarvergleich) Relationen: - Aufsuchen eines numerischen Relativs mit den gleichen Struktureigenschaften Abbildungen: - Zuordnung von Funktionswerten zu den Elementen des Gegenstandsbereichs Hierbei ist es wichtig, die Klassifikationssysteme zu beherrschen. Äquivalenzrelation: kann der Mensch gleiches gleich bezeichnen? 73 Ordnungsrelation: kann er Elemente ordnen? Art des Relativs, das er abbildet (b) Stellen Sie die Grundstruktur eines probabilistischen Messmodells am Beispiel des „Law of Comparative Judgement“ kurz dar. 1. Welche Datenmatrix liegt vor (1 P)? Graphische Darstellung der Normalverteilungshypothese (repräsentierende Relationen) über den Zusammenhang zwischen der Differenz der subjektiven Skalenwerte zweier Objekte und der Wahrscheinlichkeit, dass das Subjekt b über a dominiert. # 2. Welche Annahmen werden gemacht (1 P)? - Die Psychophysik unterscheidet zwischen der Abbildung des Reizes auf das Sensorium (Empfindung) und der Abbildung der Empfindung auf das Urteil. - Die Annahme normalverteilter Fehler (Bestimmung der Absolutschwelle und der Unterschiedsschwelle) - die Normalverteilung der Urteilsverteilung und der Fehler 3. Was resultiert als Ergebnis der Analyse (1 P)? Bestimmung der Unterschiedsschwelle (c) Was ist der Unterschied zwischen beiden Ansätzen (2 P)? Repräsentationstheorem (algebraisches Modell) vs. Theorie über die Verteilung von Fehlern (probabilistisches Modell) (Die deterministischen Messmodelle sind algebraischer Natur. Hier wird geprüft, ob ein numerisches Relativ ein empirisches Relativ repräsentieren kann. Weiter prüfbar sind die Zahl der Verletzungen des Messmodells, ohne dass eine eigene Theorie der Fehler besteht. Demgegenüber zeichnen sich probabilistische Messmodelle dadurch aus, dass sie Annahmen über die Verteilung von Fehlern machen. Daraus resultiert auch, dass für die gemessenen Objekte oder Items Messwerte geschätzt werden müssen (sie sind ja wegen der Fehler nicht mehr eindeutig), wobei die Schätzung auf der Basis des Fehlermodells geschehen müssen. Probabilistische Messmodelle gehen davon aus, dass eine Messung sich immer aus einem wahren Wert und einem Fehler zusammen setzt. Prinzipiell haben probabilistische Messmodelle die gleiche Aufgabe wie die algebraischen: Untersuchung der beiden psychischen Relationen „Gleich - ungleich“ Psychometrie der Unterscheidbarkeit „größer als“ Psychometrie der Dominanz) In der folgenden Tabelle sei das Ergebnis eines Leistungstests erfasst. N Probanden bearbeiten jeweils k Aufgaben und lösen diese (= 1) oder nicht (= 0). 74 (a) Um welchen Typ eines Cartesischen Produkts handelt es sich (2 P)? Binäre A x B Relation (linkstotal und rechtseindeutig) (b) Wie heißt die empirische Relation, die hier dargestellt wird (1 P)? Aufgabe gelöst vs. Aufgabe nicht gelöst (a) Was ist unter einer homomorpher bzw. isomorpher Abbildung zu verstehen? Beschreiben Sie diese Begriffe kurz und veranschaulichen Sie graphisch den Unterschied. (2P) . Ist die Abbildung injektiv, spricht man von homomorpher Abbildung. Injektive Abbildung: Verschiedene a aus A liefern verschiedene b aus B. Abbildung ist linkstotal und eineindeutig. Ist die Abbildung bijektiv, spricht man von isomorpher Abbildung. Bijektive Abbildung: Jedem a aus A ist ein b aus B zugeordnet. Abbildung ist bitotal und eineindeutig. (b) Geben Sie je ein Beispiel für eine zulässige bzw. nicht-zulässige Transformation auf Intervallniveau. (2P) Zulässig: Jede positiv lineare Funktion y = bx + c mit b>0 Nicht zulässig: Quadrieren und Wurzel ziehen (wegen des Vorzeichenverlusts): y = x² 75 (c) Geben Sie je ein Beispiel für ein zulässiges bzw. nicht-zulässiges Lagemaß auf Ordinalniveau. (2P) Zulässig: Modus/Median Nicht zulässig: Mittelwert (d) Im Rahmen der mathematischen Messtheorie treten unterschiedliche Probleme auf, die zu lösen sind. Geben Sie für die vorherigen Teilaufgaben (a) bis (c) an, welches Problem jeweils angesprochen wird und definieren Sie dieses Problem kurz. (3P) a) Eindeutigkeitsproblem Welche anderen numerischen Relative sind ebenfalls in der Lage, diese Abbildung zu leisten? b) Bedeutsamkeitsproblem - Eine Aussage ist bedeutsam, wenn sich ihr Wahrheitswert bei einer zulässigen Transformation der Werte nicht ändert - welche Rechenoperationen dürfen mit den erhaltenen Zahlen ausgeführt werden? c) Skalierungsproblem - welche statistischen Kennwerte eine sinnvolle Aussage über die Objekte und ihre Relationen erlauben? 8.9 Zufallsvariable Führen Sie einen dreimaligen Münzwurf aus. Was ist ein „Ergebnis“, was ein „Ereignis“? Ereignis: Kopf oder Zahl ist gefallen Ergebnis: z.B. in 3 Versuchen ist 2 mal Kopf gefallen Definieren Sie eine Zufallsvariable. Eine Zufallsvariable ist eine solche Variable, die ihre Werte in Abhängigkeit vom Zufall d.h. mit einer gewissen Wahrscheinlichkeit annimmt. Die Wahrscheinlichkeiten und damit die Zufallsvariable können oft durch eine Verteilung eindeutig charakterisiert werden. Man unterscheidet diskrete und stetige Zufallsvariable . Man benutzt Zufallsvariable u.a. zur Entscheidung beim statistischen Test . Solche Zufallsvariablen heißen Teststatistik. Den Wert, den sie im konkreten Fall annimmt, nennt man Prüfgröße. Jede Regel (oder Funktion) X, die jedem Elementarereignis eines Ereignisraumes eine reelle Zahl und gleichzeitig die zu dem Elementarereignis gehörende Wahrscheinlichkeit der reellen Zahl zuordnet, heißt Zufallsvariable. Eine diskrete Zufallsvariable X liegt dann vor, wenn jedem möglichen Ereignis eines endlichen Ereignisraumes eine Zahl xi aus der Menge der Zahlen {x1, x2, x3...xk} zugeordnet wird. Eine stetige Zufallsvariable X liegt dann vor, wenn jedem möglichen Ereignis eines endlichen Ereignisraumes eine Zahl x aus einem Intervall I: a<=x<=b zugeordnet wird. 76 8.10 Korrelationen Veranschaulichen Sie grafisch (z.B. in Form eines Streudiagramms) folgende Korrelationen zwischen zwei Variablen X und Y (3 P): (a) Nullkorrelation (r = 0.0) (b) Mittelhohe positive Korrelation (r = 0.5) (c) Perfekte positive Korrelation (r = 1.0) Was prüft eine Korrelation? Die Korrelation entspricht dem mittleren Kreuzprodukt aus standardisierten Werten und ist damit unempfindlich gegen lineare Transformationen der Messwerte. Das gilt z. B. für Merkmale wie Alter und Geschlecht (organismische Variable;). 8.11 Versuchsplanung Sind experimentelle oder versuchsplanerische Kontrolltechniken bedeutsamer für die Versuchsplanung? gleichbedeutsam Bei welcher versuchsplanerischen Kontrolltechnik ist die Chance, vorhandene Effekte zu entdecken, am größten bzw. bei welcher Kontrolltechnik am kleinsten? Begründen Sie ihre Antwort kurz? Bei der Wiederholungsmessund am größten Bei der Randomisierung am kleinsten Ein Forscher möchte den Einfluss der kogntiven Leistungsgeschwindigkeit auf Lernund Gedächtnisleistungen untersuchen. Zu Beginn der Studie steht er vor der Frage, welches Versuchsdesign er wählen soll. a) Welches experimentelle Design ist zu empfehlen? Wiederholungsmessung b) Welches quasi-experimentelle Design ist zu empfehlen? Mehrgruppenzeitreihendesign? c) Welches vorexperimentelle Design ist zu empfehlen? Statischer Gruppenvergleich? 8.12 Diverses Organismische Variable - Definition: - eine spezielle, physiologische Eigenschaften (z.B. Alter, Intelligenz) betreffende, moderierende Variable, die einen Einfluss auf die AV haben könnte. Das Randomisieren als Voraussetzung für das Labor- und Feldexperiment ist nicht immer möglich. Einschränkungen ergeben sich in erster Linie aus folgendem Grund: - nicht jede interessierende UV erlaubt eine Zufallszuteilung. THE END Anregungen zur Verbesserung, Ergänzungen und Antworten auf noch offene Fragen werden gerne entgegengenommen. [email protected] 77