Universität Koblenz-Landau Campus Landau Fachbereich 8: Psychologie BDI-II-V: Ein Vorschlag zur Vereinfachung der zweiten Auflage des Beck Depressionsinventars (BDI-II) und die Frage, ob BDI, BDI-V, BDI-II und BDI-II-V das Gleiche messen Diplomarbeit vorgelegt von Katharina Christine Fischer Gutachter: Prof. Dr. Manfred Schmitt Dr. Christine Altstötter-Gleich Neustadt an der Weinstraße, im Januar 2012 „Wenn Du vor mir stehst und mich ansiehst, was weißt Du von den Schmerzen, die in mir sind und was weiß ich von den Deinen. Und wenn ich mich vor Dir niederwerfen würde und weinen und erzählen, was wüsstest Du von mir mehr als von der Hölle, wenn Dir jemand erzählt, sie ist heiß und fürchterlich. Schon darum sollten wir Menschen voreinander so ehrfürchtig, so nachdenklich, so liebend stehn wie vor dem Eingang zur Hölle.“ Franz Kafka Danksagung 2 Danksagung Ich möchte mich bei Herrn Prof. Dr. Schmitt für die äußerst unterstützende und motivierende Betreuung dieser Arbeit bedanken. Seine außerordentlich schnelle Antwort auf jede Art von Frage haben das Arbeiten sehr erleichtert. Außerdem gilt ihm besonderer Dank für das zur Verfügung Stellen der Gutscheine zur Verlosung unter den Teilnehmern der Studie. Ebenso möchte ich mich bei Frau Dr. Altstötter-Gleich für entscheidende Hinweise zur Literatur und zur Behandlung der Daten bedanken sowie dafür, dass sie sich so viel Zeit genommen hat. Besonders dankbar bin ich Anna Halmburger, Christine Rieß und Isabell Kahl, die mit wertvollen Rückmeldungen entscheidend zu dieser Arbeit beigetragen haben. Für die Korrektur auf Rechtschreibfehler und unlesbare Monstersätze danke ich meiner Mutter und Matthias. Ihm gebührt außerdem Dank für die Unterstützung bei der Erstellung der Graphiken. Dank gilt auch den Teilnehmern des Kolloquiums der Arbeitseinheit Diagnostik, Differentielle- und Persönlichkeitspsychologie, Methodik und Evaluation des Fachbereichs Psychologie der Universität Koblenz-Landau für ihren Beitrag zur Gestaltung der Items. Diese Arbeit wäre nicht entstanden ohne all jene, die bereit waren, eines der Fragebogenpakete auszufüllen. Deswegen möchte ich mich bei all meinen Probanden bedanken. Besonderer Dank gebührt den vielen „Multiplikatoren“, ohne die nicht 630 Fragebögen hätten verteilt werden können. Ich danke für das Austeilen von Fragebögen Nadine Kissel & Tim Langbein, meiner Oma Friedel, meiner Oma Gerda, Mama, Papa, Elisabeth, meiner Cousine Julia, Matthias, Melanie Kotremba & Jan Wiss, Christine Rieß & Jens Dietmann, Sabrina Lambert & Sandro Klepsch, Johanna Loschky, Christina Bürger, Julia Ledulé, Anja Häuser & Christian Koop, Carsten Kroll, Christian Schneider, Verena Allmacher, Marcel Kempeni, Anja & Adina Berneck, Christin & Steffen Lutze, Familie Seidel, Christine & Jürgen Gerhartz, Jürgen Winter, Jasmin Lambert & Adrian Filipkowski, Familie Jäger, Familie Steiniger, Familie Weiß-Wipprecht, Frau Dagmar Eichmann, Isabell Kahl, Ulrike Hettich, Bianca Alt, Maria Geißert, Sonja & Jochen Danksagung 3 Bähr, Manfred Klohr, Familie Ost, Martina Prajitno, Gabriela Schwensen, Sonja Ledebrink, Britta Jansen, Stefanie Buchert, Alexander Blankenburg, Julia Hauß, Richard Städtler, Rigobert Müller, Wolfgang Medard, Bernd Riede, Frau Gabriela Falke, Dorit Benoit, Ramona Wildt, Martin Buchheim, Mona Lisa Seithel und all denen, deren Namen hier fehlen, ebenso wie allen „Multiplikator-Multiplikatoren“! Bedanken möchte ich mich auch bei jenen, die es mir ermöglicht haben, bei privaten oder offiziellen Anlässen in größerem Rahmen für die Teilnahme an der Studie zu werben. Dank geht hierfür an meine Cousine Sandra und Markus Meßner, an Herrn Fritz Wiedemann, Vorsitzender des Fördervereins „Freunde der Feuerwehr Mußbach e.V.“, und an Frau Christine Harms, damals Leiterin des Kirchenchors Mußbach. Hinweis 4 Hinweis Im Text wird aus Gründen der Lesbarkeit durchgehend die männliche Form (Probanden, Patienten, Autoren, …) verwendet. Genauso gemeint sind an jeder Stelle natürlich auch Probandinnen, Patientinnen und Autorinnen. Inhaltsverzeichnis 5 Inhaltsverzeichnis Danksagung ...................................................................................................................... 2 Hinweis ............................................................................................................................. 4 Inhaltsverzeichnis ............................................................................................................. 5 Zusammenfassung ............................................................................................................ 9 1 Einleitung ................................................................................................................ 13 2 Theorie .................................................................................................................... 17 2.1 Depression ........................................................................................................ 17 2.1.1 Symptome ................................................................................................... 17 2.1.2 Diagnostische Klassifikation ...................................................................... 18 2.1.3 Differentialdiagnostik ................................................................................. 23 2.1.4 Komorbidität ............................................................................................... 24 2.1.5 Epidemiologie und gesellschaftliche Bedeutung ........................................ 25 2.2 Depression und Persönlichkeit ......................................................................... 27 2.2.1 Methodische Fragen und Modelle............................................................... 28 2.2.2 Neurotizismus ............................................................................................. 31 2.2.3 Extraversion ................................................................................................ 33 2.2.4 Offenheit für Erfahrung .............................................................................. 34 2.2.5 Verträglichkeit ............................................................................................ 35 2.2.6 Gewissenhaftigkeit ...................................................................................... 36 2.2.7 Zusammenfassung....................................................................................... 38 2.3 Das Beck Depressionsinventar (BDI) .............................................................. 38 2.3.1 Die Entstehung des Beck Depressionsinventars (BDI)............................... 38 2.3.2 Ein Vorschlag zur Vereinfachung des Beck Depressionsinventars (BDI-V) ....................................................................................................... 41 2.3.3 BDI und BDI-V im Vergleich ..................................................................... 44 Inhaltsverzeichnis 6 2.3.4 Die Entstehung der zweiten Ausgabe des Beck Depressionsinventars (BDI-II) ....................................................................................................... 46 2.3.5 BDI und BDI-II im Vergleich ..................................................................... 49 2.3.6 Ein Vorschlag zur Vereinfachung der zweiten Ausgabe des Beck Depressionsinventars (BDI-II-V) ................................................................ 50 2.4 Messäquivalenz ................................................................................................ 55 2.4.1 Die Klassische Testtheorie .......................................................................... 56 2.4.2 Die Messmodelle der Klassischen Testtheorie ........................................... 57 2.4.3 Nutzen der Messmodelle ............................................................................. 66 2.4.4 Überprüfung der Messäquivalenz ............................................................... 67 3 Fragestellungen und Hypothesen ............................................................................ 69 4 Methode .................................................................................................................. 78 4.1 Instrumente ....................................................................................................... 78 4.1.1 Das Beck Depressionsinventar (BDI) ......................................................... 78 4.1.2 Das NEO-Fünf-Faktoren-Inventar (NEO-FFI) ........................................... 80 4.2 Durchführung der Erhebung ............................................................................ 83 4.3 Modelle ............................................................................................................ 85 4.3.1 Modelle zur Überprüfung der Messäquivalenz von BDI-II und BDI-II-V (Hypothese III.b) ......................................................................... 86 4.3.2 Vergleich der Messäquivalenz von BDI-II-V.1 und BDI-II mit der Messäquivalenz von BDI-II-V.2 und BDI-II (Hypothese IV.b) ................. 89 4.3.3 Modelle zur Überprüfung der Messäquivalenz von BDI, BDI-V, BDI-II und BDI-II-V (Hypothese V.b) ....................................................... 90 4.4 Auswertungssoftware ....................................................................................... 96 4.5 Schätzmethode für die Modelle ....................................................................... 96 4.6 Beurteilung der Modellgüte ............................................................................. 98 4.6.1 Deskriptive Modellgüteindizes ................................................................... 99 4.6.2 Modellvergleich ........................................................................................ 102 Inhaltsverzeichnis 4.7 7 Aufbereitung der Rohdaten ............................................................................ 103 4.7.1 Skalenwerte des NEO-FFI ........................................................................ 103 4.7.2 Summenwerte des BDI ............................................................................. 103 4.7.3 Reskalieren der Werte der verkürzten BDI-Varianten .............................. 106 4.7.4 Logarithmieren der Werte ......................................................................... 107 4.7.5 Erstellen von Itemparcels .......................................................................... 108 5 Ergebnisse ............................................................................................................. 112 5.1 Datenbereinigung und Beschreibung der Stichprobe ..................................... 112 5.1.1 Verständnisschwierigkeiten oder mangelnde Sorgfalt beim Ausfüllen .... 113 5.1.2 Ausreißer und Extremwerte ...................................................................... 113 5.1.3 Fehlende Werte ......................................................................................... 114 5.1.4 Beschreibung der Stichprobe .................................................................... 115 5.2 Ergebnisse zur internen Konsistenz und Homogenität des BDI-II-V (Hypothese I)................................................................................................. 120 5.3 Weitere Ergebnisse zu psychometrischen Eigenschaften des BDI-II-V ........ 122 5.4 Ergebnisse zur Konstruktvalidität des BDI-II-V (Hypothese II) ................... 128 5.5 Ergebnisse zur Entsprechung von BDI-II-V und BDI-II (Hypothese III) ..... 129 5.6 Ergebnisse zum Vergleich von BDI-II-V.1 und BDI-II-V.2 (Hypothese IV) ................................................................................................................. 135 5.6.1 Überprüfung der Voraussetzungen ........................................................... 135 5.6.2 Ergebnisse der Analysen ........................................................................... 136 5.7 Ergebnisse zur Entsprechung von BDI, BDI-V, BDI-II und BDI-II-V (Hypothese V) ............................................................................................... 142 6 Diskussion ............................................................................................................. 151 6.1 Interpretation der Ergebnisse ......................................................................... 151 6.1.1 Reliabilität und Validität des BDI-II-V .................................................... 151 6.1.2 BDI-II-V und BDI-II im Vergleich ........................................................... 154 6.1.3 BDI-II.V.1 und BDI-II-V.2 im Vergleich ................................................. 156 Inhaltsverzeichnis 8 6.1.4 BDI, BDI-V, BDI-II und BDI-II-V im Vergleich ..................................... 161 6.2 Einschränkungen und Kritik .......................................................................... 164 6.2.1 Stichprobe ................................................................................................. 164 6.2.2 Datenaufbereitung ..................................................................................... 166 6.2.3 Aussagekraft der Untersuchungen zum BDI-II-V in der Gesamtstichprobe ...................................................................................... 166 6.2.4 Interpretierbarkeit der konfirmatorischen Faktorenanalysen .................... 167 6.2.5 Vergleich von BDI-II-V.1 und BDI-II-V.2............................................... 167 6.2.6 Modellgütebeurteilung und Interpretation der Modelle ............................ 168 6.3 Fazit und Anregungen für weiterführende Untersuchungen .......................... 169 Abbildungsverzeichnis.................................................................................................. 174 Tabellenverzeichnis ...................................................................................................... 176 Literaturverzeichnis ...................................................................................................... 179 Eidesstattliche Erklärung .............................................................................................. 188 Anhang .......................................................................................................................... 189 Zusammenfassung 9 Zusammenfassung Analog der Ergänzung des Beck Depressionsinventars (BDI, Hautzinger, Bailer, Worall & Keller, 1994) durch eine vereinfachte Variante (BDI-V) durch Schmitt und Maes (2000) unterbreitet diese Diplomarbeit einen Vorschlag für eine vereinfachte Version der zweiten Auflage des Beck Depressionsinventars (BDI-II, Hautzinger, Keller & Kühner, 2006). Im Unterschied zur ersten Auflage des BDI sind die Items der Revision explizit auf die Symptomkriterien einer depressiven Episode der vierten Auflage des Diagnostischen und Statistischen Manuals Psychischer Störungen (DSM-IV) der American Psychiatric Association (APA, 1994) abgestimmt. Das BDI-II zeichnet sich durch sehr gute psychometrische Eigenschaften und insbesondere durch eine hohe Reliabilität und Validität aus. Der Vorschlag einer vereinfachten Variante (BDI-II-V) hatte zum Ziel, daneben die Ökonomie des Verfahrens zu optimieren. Die vier Statements, aus denen jedes Item des Originals besteht, wurden zu je einer Aussage zusammengefasst, die auf einer Häufigkeitsskala bewertet wird. Für die komplex formulierten Items zu den Symptomen Appetit und Schlaf wurden zunächst zwei Alternativen vorgeschlagen, deren Eignung im Rahmen der Auswertungen miteinander verglichen werden sollte. Alternative 1 formulierte die Items zu Schlaf und Appetit global (BDI-II-V.1), Alternative 2 fragte spezifisch sowohl nach außergewöhnlich hohen als auch nach außergewöhnlich niedrigen Ausprägungen der beiden Phänomene (BDI-II-V.2). Die Untersuchung setzte das BDI (Hautzinger et al., 1994), das BDI-V (Schmitt & Maes, 2000), das BDI-II (Hautzinger et al., 2006) und das vorgeschlagene BDI-II-V an einer heterogenen Bevölkerungsstichprobe (N = 325) ein und untersuchte die Konvergenz der Inventare. Jeweils etwa die Hälfte der Probanden hatten das BDI-II-V in der Variante BDI-II-V.1 respektive BDI-II-V.2 erhalten. Zu Zwecken der Validierung des BDI-II-V kam zudem das NEO-FFI (Borkenau & Ostendorf, 2008) zum Einsatz. Für das BDI-II-V erfolgten die Auswertungen sowohl in der Gesamtstichprobe, indem die Varianten 1 und 2 zusammengefasst wurden, als auch in den Teilstichproben, in denen BDI-II-V.1 und BDI-II-V.2 getrennt ausgewertet und im Anschluss ihre Eigenschaften verglichen werden konnten. Zusammenfassung 10 Die Analysen bescheinigten dem BDI-II-V (in der Gesamtstichprobe) eine sehr hohe interne Konsistenz (Cronbach’s α = .95), eine hohe Homogenität (M (rii) = .50) und sehr gute Itemtrennschärfen (M (rit) = .69). Eine Hauptachsenanalyse konnte so interpretiert werden, dass die Items durch einen starken Faktor oder zwei hoch korrelierende Faktoren repräsentiert werden. Die Zwei-Faktoren-Lösung entsprach sehr gut bisherigen Befunden für das Original (BDI-II) und konnte als Hinweis auf die faktorielle Validität des BDI-II-V gewertet werden. Erste Belege der Konstruktvalidität ergaben sich aus hohen positiven Korrelationen des Summenwertes mit Neurotizismus und niedrigeren Korrelationen mit den weiteren Dimensionen des Fünf-Faktoren-Modells der Persönlichkeit. Das BDI-II-V war etwas leichter als das BDI-II. Die Summenwerte von BDI-II und BDI-II-V korrelierten hoch (r = .86), die mittlere Korrelation auf der Ebene der einzelnen Items war respektabel (r = .65). Die Beziehung, die ein bestimmtes Item zum Summenwert der anderen Items aufweist, entsprach sich zwischen den Inventaren sehr gut (Rangkorrelationen der Trennschärfen = .86). Im direkten Vergleich erwies sich das BDI-II-V als etwas konsistenter als das BDI-II und seine Items waren etwas trennschärfer als die des Originals. In konfirmatorischen Faktorenanalysen ergab sich zwischen den beiden latenten Faktoren, die das BDI-II und das BDI-II-V repräsentierten, eine sehr hohe Korrelation von .92. In den Auswertungen der beiden Alternativen in den Teilstichproben zeigte sich die Variante BDI-II-V.1 der Variante BDI-II-V.2 deutlich überlegen. Sowohl ihre psychometrischen Kennwerte im Allgemeinen, als auch ihre Konvergenz mit dem Original im Speziellen waren besser als jene der Variante 2 und damit auch besser als jene der zusammengefassten Auswertung beider Alternativen in der Gesamtstichprobe. So belief sich in den konfirmatorischen Faktorenanalysen die latente Korrelation zwischen den Faktoren für BDI-II-V.1 und BDI-II auf .94. Es werden potenzielle Gründe für die Überlegenheit des BDI-II-V.1 diskutiert. Die Ergebnisse bedürfen weiterführender Absicherung, bevor endgültige Schlüsse gezogen werden sollten. Das BDI-II war etwas schwerer, etwas konsistenter und etwas trennschärfer als das BDI. Die Berechnung bivariater Zusammenhänge zwischen BDI, BDI-V, BDI-II und BDI-II-V ergab sehr hohe Korrelationen jeweils zwischen den beiden gleich skalierten Originalversionen (r = .94) und zwischen den verkürzten Versionen (r = .93). Die vier weiteren Koeffizienten jeweils zwischen einem Original und einer verkürzten Version Zusammenfassung 11 fielen niedriger, aber dennoch hoch aus (.85 ≤ r ≤ .86), wobei es unerheblich war, ob die Korrelation zwischen einem Original und der zugehörigen Verkürzung oder zwischen einem Original und der nicht-zugehörigen Verkürzung bestimmt wurde. Übereinstimmung der Skalierung schlug sich damit wesentlich deutlicher im Zusammenhangsmuster der Fragebögen nieder als inhaltliche Übereinstimmung. Führt man in konfirmatorischen Faktorenanalysen die Zusammenhänge zwischen den Inventaren auf eine latente Dimension Depressivität zurück, ließen sich daher weder ein Modell essentiell τparalleler, noch ein Modell essentiell τ-äquivalenter und auch nicht ein minimales Modell τ-kongenerischer Variablen fitten. Erst ein Modell, das die beiden unterschiedlichen Skalierungen in Form eines Methodenfaktors berücksichtigte, erzielte perfekten Fit. Es ergab sich, dass die Abbildung der Depressivität durch die verkürzten BDI-Versionen gut, aber nicht perfekt durch die Werte der Originalformen vorhergesagt werden konnte. Die wahren Depressionswerte, die ein Original-BDI misst, unterschieden sich mäßig von den wahren Depressionswerten, die ein verkürztes BDI misst. Die Konvergenz von Originalen und Verkürzungen überstieg die Spezifität der verkürzten Versionen um mehr als das Vierfache. (77 resp. 78% der Varianz vs. 17 resp. 14% der Varianz von BDI-V resp. BDI-II-V). Einschränkungen der Interpretierbarkeit der Ergebnisse ergeben sich aus der größtenteils explorativen Natur der konfirmatorischen Faktorenanalysen und aus der Untersuchung einer überwiegend gesunden Bevölkerungsstichprobe mit stark rechtsschief verteilter, niedriger durchschnittlicher Depressivität. Als nächste Schritte werden die Bestätigung der exploratorischen Befunde, die Untersuchung klinischer Stichproben und die Fortsetzung der Suche nach geeigneten Formulierungen zur Abbildung der OriginalItems, die Schlaf und Appetit betreffen, angeregt. Mit dem BDI-II-V als vereinfachter Version des BDI-II steht damit ersten Erkenntnissen zufolge ein reliables, valides und ökonomisches Instrument zur Erfassung von Depressivität in Anlehnung an die Kriterien der (Textrevision der) vierten Auflage des Diagnostischen und Statistischen Manuals Psychischer Störungen (DSM-IV(-TR)) der American Psychiatric Association (1994/2000) zur Verfügung. Es steht dem Original in den Messeigenschaften nicht nach, deskriptive Ergebnisse sprechen für eine gute Konvergenz der beiden Instrumente. Vollständige Messäquivalenz konnte bislang nicht belegt werden, weshalb es weiterer Analysen bedarf, bevor das BDI-II-V dem Original als Zusammenfassung 12 Alternative für Verwendungszusammenhänge, in denen es besonders auf Messökonomie ankommt, zur Seite gestellt werden könnte. Schlüsselwörter: Beck Depressionsinventar, Messäquivalenz, Messökonomie, Methodenfaktor. Einleitung 13 1 Einleitung Ein Aspekt, von dem die Qualität einer wissenschaftlichen Studie entscheidend abhängt, ist die Sicherstellung der internen Validität. Dazu bedarf es der Möglichkeit, alternative Erklärungen für die eigenen Befunde neben den Bedingungen, deren Auswirkungen man untersuchen möchte, so weit wie möglich auszuschließen. Aspekte, von denen man schon weiß oder vermutet, dass sie einen Einfluss auf die abhängige Variable ausüben, können kontrolliert werden. Handelt es sich um zum Beispiel um Einflussgrößen, die mittels Fragebögen erfasst werden können, ist es eine einfach umzusetzende Kontrolltechnik, die Konstrukte zu erheben und damit statistisch konstantzuhalten (Gollwitzer & Jäger, 2007). In vielen Fällen sind Theorien und Modelle sehr komplex und umfassen zahlreiche Einflussgrößen auf ein Konstrukt, direkte Beziehungen, moderierende Bedingungen und Mediatoren. Alle diese Variablen müssen in Überprüfungen der Modelle und Theorien erfasst werden. Eine Möglichkeit, die Reliabilität, mit der ein Konstrukt gemessen wird, zu erhöhen, besteht darin, mehrere Variablen, die Indikatoren für dieses Konstrukt darstellen, zu erheben und zu aggregieren (Gollwitzer & Jäger, 2007). Dies sind nur drei sehr allgemeine Beispiele dafür, dass im Rahmen einer wissenschaftlichen Untersuchung häufig eine umfangreiche Anzahl an Variablen berücksichtigt werden muss, um zu möglichst hochwertigen Erkenntnissen zu gelangen. Ist man darauf angewiesen, Freiwillige für die Teilnahme an der eigenen Studie zu gewinnen und hat dabei nicht die Möglichkeit, attraktive Anreize zum Beispiel finanzieller Art zu bieten, kann ein großer Umfang der Untersuchung(smaterialien), wie etwa eine große Anzahl zu bearbeitender Fragebögen, allerdings zu einem Nachteil geraten: Zeit ist ein hohes Gut. Je länger die Teilnahme an einer Studie dauert, desto schwieriger ist es für die meisten, sich darauf einzulassen. Daraus entsteht ein Interessenkonflikt für den Forschenden. Die Anzahl benötigter Variablen ergibt sich aus der theoretischen Fragestellung. Eine Reduktion der wünschenswerten Parameter wirkt sich notwendigerweise auf die Qualität der Ergebnisse aus. Doch umfangreiche Untersuchungsmaterialien erschweren das Gewinnen von großen Stichproben, wenn man nicht auf Studenten, die Versuchspersonenstunden abzuleisten Einleitung 14 haben, zurückgreifen kann oder möchte und auch keine Möglichkeiten hat, die Probanden (finanziell) zu entschädigen. Im klinischen Kontext sind die begrenzenden Faktoren andere. Auch hier ist der Umfang der „Fragebogenbatterien“, die Patienten mindestens zur Eingangs- und Entlassdiagnostik, häufig auch an zusätzlichen Zeitpunkten im Verlauf einer Behandlung ausfüllen sollen, oft sehr hoch. Die Notwendigkeit einer möglichst guten Erfassung der Beschwerden eines Patienten, aber auch ihrer Besserung zu Zwecken der Therapieplanung und -evaluation macht die Umfänge erforderlich. Gleichzeitig sind solche Untersuchungen in vielen Fällen wiederum mit wissenschaftlichen Zielen der Erforschung klinischer Fragestellungen verbunden. Hier geht es weniger darum, „Unbeteiligte“ zu einer freiwilligen Teilnahme zu bewegen. Bei der Menge an und Komplexität der Instrumente ist viel mehr die Belastungsgrenze von Patienten zu berücksichtigen. Je länger und komplexer die Fragebögen ausfallen, desto eher befürchten Patienten, dem nicht gewachsen zu sein. So lange Papierund-Bleistift-Verfahren zum Einsatz kommen, spielt zudem der Verbrauch finanzieller Ressourcen von Kliniken eine Rolle, denn es fallen sowohl Druckkosten wie auch Personalkosten durch das Eingeben oder –lesen der Fragebögen an. Wie können die Interessenkonflikte entschärft werden? Ein Ansatz besteht darin, die einzelnen Instrumente möglichst ökonomisch zu gestalten. Die Ökonomie ist ein Gütekriterium psychometrischer Verfahren. Ein ökonomischer Test oder Fragebogen beansprucht gemessen am diagnostischen Erkenntnisgewinn relativ wenige Ressourcen (Schermelleh-Engel, Kelava & Moosbrugger, 2006). Instrumente müssen objektiv, reliabel und valide sein. Je ökonomische sie dabei sind, umso besser ist es. Diese Arbeit beschäftigt sich mit der Gestaltung eines ökonomischen Fragebogens. Sie unterbreitet einen Vorschlag für eine vereinfachte Variante eines der wichtigsten Instrumente zur Bestimmung des Schwergrads depressiver Symptome, die zweite Auflage des Beck Depressionsinventars (BDI-II, in der deutschen Ausgabe von Hautzinger, Keller & Kühner, 2006). Das Ziel ist, einen verkürzten Fragebogen zur Verfügung zu stellen, der in Verwendungszusammenhängen, in denen es auf Testökonomie ankommt, eine Alternative zum Original darstellen könnte. Einleitung 15 Das BDI-II weist hervorragende psychometrische Eigenschaften sowie eine sehr hohe Validität auf. Doch obwohl es aus einer überschaubaren Anzahl von 21 Items besteht, müssen beim Ausfüllen 90 Aussagen gelesen und abgewogen werden. Dieses Verhältnis sollte optimiert werden. Ein solches Vorhaben gelang bereits für die deutsche Übersetzung der erste Auflage des Inventars (BDI, Hautzinger, Bailer, Worall & Keller, 1994) für die Schmitt und Maes (2000) eine Vereinfachung vorschlugen, welche die Anzahl der Aussagen, die in den 21 Items enthalten waren, von damals 85 auf 20 reduzierten, ohne die Güte der psychometrischen Eigenschaften des Inventars zu schmälern. Kapitel 2 stellt zunächst das Krankheitsbild der Depression dar, damit ein Eindruck entsteht, welche Symptome dieses ausmachen und von Instrumenten zur Beurteilung einer Depression erfasst werden müssen. Die Zusammenhänge zwischen Depression und Persönlichkeit spielen eine Rolle in der Validierung der vorgeschlagenen Vereinfachung des BDI-II und werden daher anschließend beleuchtet. Entstehung und Geschichte des Beck Depressionsinventars werden im Folgenden beschrieben und schließen mit der Vorstellung des Vorschlags für ein verkürztes BDI-II. Damit dieser Vorschlag tatsächlich eine Alternative zum Original darstellen kann, muss nachgewiesen werden, dass er dem Original äquivalent ist. Die Messäquivalenz und ihre Überprüfung werden daher im letzten Abschnitt des zweiten Kapitels behandelt. Kapitel 3 konkretisiert die Fragestellungen und Hypothesen dieser Arbeit. Kapitel 4 ergänzt Informationen zu den eingesetzten Instrumenten, die in Kapitel 1 noch nicht dargestellt wurden, und beschreibt die Durchführung der Untersuchung. Im Anschluss werden die Modelle konfirmatorischer Faktorenanalysen veranschaulicht, die zur Testung der Messäquivalenzhypothesen spezifiziert wurden. Es folgen spezifische Informationen zur verwendeten Software sowie zur Testung und Beurteilung der Modelle. Das Kapitel schließt mit der Darstellung der Aufbereitung der Rohdaten vor den Analysen. Kapitel 5 berichtet die Ergebnisse zu den einzelnen Hypothesen. Kapitel 6 fasst die Ergebnisse zusammen, vergleicht sie mit den Befunden bisheriger Studien und versucht eine Interpretation. Anschließend werden Durchführung und Einleitung 16 Auswertung der Arbeit kritisch reflektiert. Im letzten Abschnitt wird nach einem kurzen Fazit zusammengestellt, welche Schritte sich an diese Arbeit anschließen könnten. Theorie 17 2 Theorie Der erste Abschnitt des Theorieteils beschreibt das Krankheitsbild der Depression und seine gesellschaftliche Bedeutung. Im Anschluss werden Befunde dazu dargestellt, wie Depression mit Persönlichkeitseigenschaften zusammenhängt. Der nächste Abschnitt ist dem Beck Depressionsinventar (Beck, Ward, Mendelson, Mock & Erbaugh, 1961) gewidmet. Er beschreibt die Geschichte seiner Entstehung und Veränderung bis heute und schließt mit der Vorstellung eines Vorschlags zur Vereinfachung der aktuellen deutschen Auflage dieses Inventars (Hautzinger et al., 2006). Der letzte Teil des Theoriekapitels widmet sich dem Konzept der Messäquivalenz. 2.1 Depression Dieser Abschnitt widmet sich dem Störungsbild der Depression. Auf eine Schilderung der Symptome folgt die diagnostische Klassifikation depressiver Erkrankungen. Im Anschluss wird darauf eingegangen, von welchen Störungsbildern die Depression abzugrenzen ist (Differentialdiagnostik) und welche Erkrankungen häufig mit Depressionen auftreten (Komorbidität). Um der Bedeutung des Themas Ausdruck zu verleihen, schließen nationale und internationale Befunde zu Prävalenz und gesellschaftlichen Auswirkungen sowie einige Beispiele für volkswirtschaftliche Konsequenzen, bezogen auf die Bundesrepublik Deutschland, den Abschnitt ab. 2.1.1 Symptome Schwermütigkeit, Freudlosigkeit, emotionale Leere, Antriebslosigkeit, Hoffnungslosigkeit, Ängste, Selbstzweifel, Schuldgefühle, Reizbarkeit, Schlafstörungen oder körperliche Beschwerden wie zum Beispiel Schmerzen sind nur einige der Anzeichen depressiver Erkrankungen (Hautzinger, 2010; Saß, Wittchen, Zaudig & Houben, 2003). Viele der Gefühlszustände und Beschwerden treten bei allen Menschen als normale, gesunde Reaktion auf negative Erfahrungen wie Verlust, Misserfolg, Belastung oder Erschöpfung auf (Hautzinger, 2010). In bestimmten Situationen wäre daher das Ausbleiben der Anzeichen von Niedergeschlagenheit oder Traurigkeit ungewöhnlicher als ihr Vorhandensein. Selbst das vorübergehende Erleben einzelner depressiver Symptome Theorie 18 auch ohne erkennbaren Grund rechtfertigt nicht automatisch die Annahme einer depressiven Erkrankung. Wird jedoch eine bestimmte Intensität und/oder Dauer der Symptome überschritten, kann nicht mehr von einer normalen Reaktion, sondern muss von einem klinisch auffälligen Zustand gesprochen werden (Hautzinger, 2010). „Wann und wodurch die Grenze (…) überschritten wird, gehört unverändert zu den ungelösten Fragen im Zusammenhang mit depressiven Störungen“ (Hautzinger, 2010, S. 1) Die Symptome eines akuten depressiven Syndroms betreffen Gefühlsleben, Motivation, Denken, körperliches Empfinden, Verhalten, Motorik und Interaktion (Hautzinger, 2010). Dass jeder Mensch, der an einer Depression leidet, ein individuelles Muster an Symptomen zeigt, stellt hohe Ansprüche an die Diagnostik depressiver Störungen (vgl. Hautzinger, 2010). Die Intensität der Depressivität reicht von leicht gedrückter Stimmung bis hin zu tiefer, auswegloser Verzweiflung, in der jede Emotion verloren geht, so dass die Betroffenen sich innerlich wie versteinert fühlen (Laux, 2009). Das große Leid, das eine Depression bedeutet, geht einher mit der Unfähigkeit, Hoffnung auf Besserung zu empfinden. Häufig treten lebensmüde Gedanken auf. Von denjenigen, die von einer schweren Depression betroffen sind, nehmen sich 15% das Leben (Saß et al., 2003). 2.1.2 Diagnostische Klassifikation Depressive Störungen gehören zu den affektiven Störungen, psychische Erkrankungen, bei welchen das herausragende Merkmal eine krankhafte Veränderung der Stimmung darstellt (Laux, 2009). Das Diagnostische und Statistische Manual Psychischer Störungen (Textrevision der vierten Auflage, DSM-IV-TR) der American Psychiatric Association (APA, 2000; verwendet in der deutschen Übersetzung von Saß et al., 2003) klassifiziert zu den affektiven Störungen neben den depressiven Störungen die bipolaren Störungen sowie andere affektive Störungen. Die depressiven Störungen (Monopolare Depressionen) werden im DSM-IV-TR untergliedert in die Major Depression, die dysthyme Störung sowie die nicht näher bezeichnete depressive Störung. Zu den bipolaren Störungen zählen in dem Klassifikationssystem die bipolar I Störung, die bipolar II Störung, die zyklothyme Störung sowie die nicht näher bezeichnete bipolare Störung. Die anderen affektiven Störungen umfassen die affektive Störung aufgrund eines medizinischen Krankheitsfaktors, die substanzinduzierte affektive Störung und die nicht nä- Theorie 19 her bezeichnete affektive Störung. Abbildung 1 veranschaulicht die Klassifikation der Affektiven Störungen nach DSM-IV-TR (Saß et al., 2003). Affektive Störungen Depressive Störungen Major Depression Dysthyme Störung Nicht Näher Bezeichnete Depressive Störung Bipolar I Störung Abbildung 1 Andere Affektive Störungen Bipolare Störungen Affektive Störung Aufgrund eines Medizinischen Krankheitsfaktors Bipolar II Störung Zyklothyme Störung Substanzinduzierte Affektive Störung Nicht Näher Bezeichnete Affektive Störung Nicht Näher Bezeichnete Bipolare Störung Klassifikation der Affektiven Störungen nach DSM-IV-TR Da die vorliegende Arbeit sich mit Instrumenten zur Erfassung der Depressivität beschäftigt, soll im Folgenden vornehmlich auf die Gruppe depressiver Störungen und dabei insbesondere auf die Merkmale einer Major Depression eingegangen werden. Symptome oder Episoden einer Major Depression treten jedoch auch im Rahmen der bipolaren Störungen und der anderen affektiven Störungen auf und müssen auch dort erkannt und diagnostiziert werden. Gleichzeitig ist es wichtig, die verschiedenen affektiven Störungen voneinander abgrenzen zu können. Daher wird an geeigneter Stelle im Text sowie am Ende des Abschnitts kurz auf diese Störungen Bezug genommen, um zu schildern, in welchem Verhältnis Symptome der Depression zu diesen weiteren Erkrankungen aus der Gruppe der affektiven Störungen stehen. Eine Depressive Episode nach DSM-IV-TR (Saß et al., 2003, vgl. S. 398 ff. und S. 406 f.) liegt vor, wenn von den folgenden Symptomkriterien (A-Kriterien) mindestens eines der beiden ersten Kriterien (A1/A2), daneben mindestens vier der weiteren Kriterien (A3 bis A9) über mindestens zwei aufeinander folgende Wochen „an fast jedem Tag die meiste Zeit des Tages“ (S. 398) bestehen. Die Symptome müssen dabei „in klinisch Theorie 20 bedeutsamer Weise“ (S. 406) zu Leiden oder Beeinträchtigungen in sozialen, beruflichen oder anderen wichtigen Funktionsbereichen führen. Kriterium A1: Depressive Verstimmung, d. h. die Betroffenen geben an, sich „depressiv, traurig, hoffnungslos, entmutigt oder niedergeschlagen“ (S. 398) zu fühlen; in einigen Fällen werden vorrangig oder ausschließlich körperliche Beschwerden geschildert oder die Betroffenen fühlen sich eher gereizt und verärgert als traurig Kriterium A2: Verlust von Interesse oder Freude an Aktivitäten, an denen früher Freude empfunden wurde, z. B. Hobbys, bis hin zu einem generellen Desinteresse oder der vollkommenen Unfähigkeit, Freude zu empfinden; die Interessenminderung oder Interesselosigkeit kann auch das sexuelle Verlangen betreffen Kriterium A3: Verminderter Appetit bis hin zur Appetitlosigkeit, was sich in unbeabsichtigter Gewichtsabnahme niederschlagen kann bzw. bei Kindern in einem Ausbleiben der erwarteten Gewichtszunahme; auch der umgekehrte Fall, gesteigerter Appetit oder Heißhunger mit Gewichtszunahme in der Folge, ist möglich Kriterium A4: Schlafstörungen, meist in Form von Ein- oder Durchschlafstörungen oder frühmorgendlichem Erwachen; seltener auch der umgekehrte Fall, Hypersomnie mit vermehrtem Nachtschlaf oder Schlafen während des Tages Kriterium A5: Psychomotorische Symptome, entweder in Form von Unruhe und Agitiertheit oder in Form von psychomotorischer Verlangsamung (z. B. Verlangsamung der Sprache, des Denkens und der Bewegungen); die Symptome dürfen nicht nur subjektiv empfunden werden, sondern müssen von anderen beobachtbar sein Kriterium A6: Müdigkeit oder Energieverlust, die Betroffenen fühlen sich matt oder empfinden schon kleinste alltägliche Verrichtungen als außergewöhnliche Anstrengung Kriterium A7: Gefühle von Wertlosigkeit oder auch übermäßige oder inadäquate Schuldgefühle, die sich z. B. in unverhältnismäßigen Selbstvorwürfen bei kleineren Versäumnissen manifestieren können; die Wertlosigkeits- oder Schuldgefühle können so weit gesteigert sein, dass die Wahnkriterien erfüllt werden Kriterium A8: Verminderte Denk- oder Konzentrationsfähigkeit, Gedächtnisprobleme und/oder Schwierigkeiten, Entscheidungen zu treffen. Kriterium A9: Gedanken an den Tod oder Suizid, Suizidabsichten, -planung und -versuche bis hin zum vollendeten Suizid Theorie 21 Das Vorliegen einer solchen Episode einer Major Depression ist die Voraussetzung für die Diagnose einer Major Depression. Weitere Bedingungen, die nach DSM-IV-TR (Saß et al., 2003) erfüllt sein müssen, bevor eine Episode einer Major Depression angenommen oder die Diagnose einer Major Depression vergeben werden darf, betreffen die Differentialdiagnostik. In diesem Abschnitt soll dabei nur auf die Abgrenzung der verschiedenen affektiven Störungen voneinander eingegangen werden. Andere differentialdiagnostische Notwendigkeiten, die das DSM-IV-TR in seinen Kriterien herausstellt, werden im folgenden Abschnitt (2.1.3) gemeinsam mit weiteren Hinweisen zur Differentialdiagnostik dargestellt. Vor allen Dingen muss ausgeschlossen werden, dass die Symptome als direkte körperliche Folge eines medizinischen Krankheitsfaktors erklärt werden können oder lediglich der direkten körperlichen Wirkung einer Droge, eines Medikaments oder der Exposition gegenüber einem Toxin zuzurechnen sind. In diesem Falle wäre eine affektive Störung aufgrund eines medizinischen Krankheitsfaktors respektive eine substanzinduzierte affektive Störung zu diagnostizieren (Saß et al., 2003). Außerdem muss gesichert werden, dass keine gemischte Episode (also eine Mischung der depressiven Symptomatik mit Symptomen der Manie) vorliegt. Ebenso müssen manische, gemischte oder hypomane Episoden in der Vergangenheit, die nicht der Wirkung von Substanzen wie beispielsweise Drogen oder Medikamenten oder einem somatischen Krankheitsfaktor zugeschrieben werden können, ausgeschlossen werden (Saß et al., 2003). Manische Episoden sind dabei Phasen abnorm gehobener oder auch reizbarer Stimmung, bis hin zu Größenwahn oder anderen wahnhaften Überzeugungen, wie zum Beispiel dem Glauben, fliegen zu können. Die Merkmale einer hypomanen Episode entsprechen im Prinzip denen einer manischen Episode, jedoch dürfen keine Wahnideen oder Halluzinationen auftreten. Die Major Depression kann dann weiter klassifiziert werden als einzelne Episode oder rezidivierend, d. h. wiederkehrend, was bedeutet, dass es sich um mindestens das zweite Auftreten einer depressive Episode im Laufe des Lebens handelt (Saß et al., 2003). Darüber hinaus kann eine Major Depression nach DSM-IV-TR (Saß et al., 2003) eingestuft werden als leicht, mittelschwer oder schwer. Die Einstufung geschieht in Abhängigkeit von der Anzahl der erfüllten Kriterien, dem Schweregrad der Symptome und dem Ausmaß der Beeinträchtigung in der Ausübung der beruflichen und/oder sozialen Verpflichtungen beziehungsweise des subjektiven Leidens, das der Patient berichtet Theorie 22 (vgl. Saß et al., 2003). Bei einer schweren Episode wird zudem danach unterschieden, ob psychotische Symptome vorliegen oder nicht. Psychotische Merkmale im Rahmen einer Major Depression sind in aller Regel stimmungskongruent, d. h. der Inhalt des Wahns oder der Halluzinationen „passt“ zur depressiven Stimmung des Patienten und dreht sich zum Beispiel um Themen wie Schuld (Schuldwahn), Bestrafung (Bestrafungswahn), Verarmung (Verarmungswahn), Krankheit (hypochondrischer Wahn) oder das Gefühl, nicht zu existieren (nihilistischer Wahn); bei Halluzinationen kann es sich z. B. um Stimmen handeln, die die Person beschimpfen (Laux, 2009; Saß et al., 2003). Im Unterschied zur Major Depression handelt es sich bei der dysthymen Störung um eine depressive Erkrankung, die durch besonders lange Dauer (Chronizität), gleichzeitig aber durch eine etwas mildere Ausprägung der Symptomatik gekennzeichnet ist (Saß et al., 2003). Unter die nicht näher bezeichnete depressive Störung werden im DSM-IV-TR (Saß et al., 2003) solche Fälle subsummiert, in denen zwar depressive Symptome vorliegen, die aber nicht eindeutig einer anderen, spezifischen Störungskategorie des Manuals zugeordnet werden können. Episoden oder Symptome einer Major Depression können bei Patienten, die an einer bipolaren Störung (bipolar I Störung, bipolar II Störung, zyklothyme Störung oder nicht näher bezeichnete bipolare Störung) leiden, im Wechsel oder gleichzeitig mit manischen oder hypomanen Episoden oder Symptomen auftreten (Laux, 2009; Saß et al., 2003). Die genaue Beschreibung der bipolaren Störungen und des Zusammenspiels von depressiven und (hypo)manischen Episoden bei diesen Erkrankungen soll hier nicht vorgenommen werden. Entscheidend ist, dass in der Diagnostik affektiver Erkrankungen schon eine einzige manische, hypomane oder gemischte Episode im Laufe des Lebens die Diagnose einer depressiven Störung unmöglich macht bzw. das Abändern einer zuvor gültigen Diagnose einer depressiven Störung in die jeweilige Kategorie einer bipolaren Störung erfordert (Dilling, Mombour & Schmidt, 2010; Saß et al., 2003). Während der Darstellung in diesem Kapitel mit dem DSM-IV-TR das in den USA gültige diagnostische Manual der American Psychiatric Association zugrunde gelegt wurde, das darüber hinaus weltweit standardmäßig in der wissenschaftlichen Forschung Theorie 23 Verwendung findet, ist die Basis von Diagnostik und Kostenabrechnung im deutschen Gesundheitssystem das Klassifikationssystem der Weltgesundheitsorganisation (World Health Organization, WHO; aktuelle Version ist die ICD-10; deutsche Übersetzung von Dilling et al., 2010). Zur Orientierung wurde hier das DSM-IV-TR (Saß et al., 2003) gewählt, weil die Items der Revision des Beck Depressionsinventars (BDI-II; Beck, Steer & Brown, 1996; deutschsprachige Version von Hautzinger et al., 2006), welches Gegenstand dieser Arbeit ist, explizit auf die diagnostischen Kriterien für die Episode einer Major Depression dieses Diagnosemanuals abgestimmt wurden. Die Geschichte des Beck Depressionsinventars und die Hintergründe der Abstimmung der Revision dieses Selbstbeurteilungsfragbogens zur Beurteilung der Schwere einer depressiven Symptomatik auf die DSM-Kriterien der Major Depression werden in Abschnitt 2.3 dargestellt. Tabelle 15 und Tabelle 16 in Anhang A ordnen den oben aufgeführten diagnostischen Kriterien des DSM-IV-TR einer depressiven Episode die einzelnen Items des Beck Depressionsinventars zu. Die Unterschiede zwischen den Klassifikationssystemen DSM-IV-TR (Saß et al., 2003) und ICD-10 (Dilling et al., 2010) in der Beschreibung und Diagnostik depressiver Störungen sind nicht von grundlegender Natur und spielen für die vorliegende Arbeit keine Rolle. 2.1.3 Differentialdiagnostik Es soll nun kurz geschildert werden, von welchen Erkrankungen die akute Depression (Major Depression nach DSM-IV-TR, Saß et al., 2003; depressive Episode nach ICD-10, Dilling et al., 2010) differenzialdiagnostisch abzugrenzen ist. Die Differenzierung innerhalb der affektiven Störungen wurde im vorangegangenen Kapitel bereits dargestellt. Betont werden soll noch einmal die Notwendigkeit, vor der Diagnose einer Major Depression oder depressiven Episode organische Ursachen einschließlich der Verursachung durch Medikamente oder Drogen mit den zu Gebote stehenden medizinisch-diagnostischen Verfahren auszuschließen (Laux, 2009). Als schwierig erweist sich dabei bei älteren Patienten oft die differentialdiagnostische Abgrenzung zu einer (beginnenden) Demenz (Laux, 2009). Weiterhin muss gesichert werden, dass es sich nicht um eine vorübergehende Stimmungsschwankung handelt, welche nicht die Dauer, die Schwere oder vorgegebene(n) Theorie 24 Symptome(anzahl) einer depressiven Episode erreicht (Laux, 2009). Ebenso darf eine normale Trauerreaktion nach dem Verlust einer nahestehenden Person nicht zu der Fehldiagnose einer depressiven Erkrankung führen (Dilling et al., 2010; Saß et al., 2003). Nicht leicht fällt die Differentialdiagnose der Depression gegenüber Angsterkrankungen, somatoformen Störungen, der (depressiven) Anpassungsstörung, der (posttraumatischen) Belastungsstörung und der pathologischen Trauer (Laux, 2009). Auszuschließen sind ferner psychotische Erkrankungen (schizoaffektive Störung, Schizophrenie, schizophrenieforme Störung, wahnhafte Störung oder psychotische Störung) als Ursache der Symptome (Saß et al., 2003). 2.1.4 Komorbidität Depressive Patienten sind häufig von mindestens einer weiteren körperlichen oder psychischen Erkrankung betroffen. Hautzinger (2010) gibt an, dass 77% der depressiven Patienten an mindestens einer weiteren psychischen Erkrankung, darunter am häufigsten eine Angststörung, somatoforme Störung oder Substanzabhängigkeit, leiden. Doch auch Substanzmissbrauch, Zwangsstörungen, Posttraumatische Belastungsstörungen, Essstörungen, Schlafstörungen, Sexuelle Störungen, schizophrene Störungen und bestimmte Persönlichkeitsstörungen sind häufig mit Depressionen assoziiert (Hautzinger, 2010). Weitere psychiatrische Diagnosen, mit denen eine Komorbidität besteht, sind Demenz, Parkinson und Schlaganfall (Laux, 2009). Zu den somatischen Erkrankungen, für die bei depressiven Patienten ein erhöhtes Risiko besteht, zählen Diabetes, koronare Herzerkrankung, COPD (Chronisch Obstruktive Lungenerkrankung) und Arthritis (Laux, 2009). Zwischen der Depression und komorbiden Krankheiten bestehen dabei höchst komplexe Beziehungen und (negative) wechselseitige Beeinflussungen. So verschlechtert körperliche und psychiatrische Komorbidität die Prognose depressiver Erkrankungen, umgekehrt verschlechtert sich der Zustand körperlich erkrankter Menschen, wenn eine Depression hinzutritt (Gastpar, 2006; Laux, 2009; Lederbogen, 2006). Dabei kann die Depression „primäre“ Erkrankung sein oder in der Folge zum Beispiel als Reaktion auf Theorie 25 eine belastende körperliche oder seelische Erkrankung entstehen (vgl. Hautzinger, 2010). 2.1.5 Epidemiologie und gesellschaftliche Bedeutung In Deutschland sind zu jedem Zeitpunkt etwa 5.6% der Menschen von einer unipolaren depressiven Erkrankung1 betroffen (Vier-Wochen-Punktprävalenz nach Ergebnissen des repräsentativen Bundesgesundheitssurvey (BGS) 1998/99, Zusatzsurvey Psychische Störungen; Jacobi et al., 2004). Innerhalb eines Jahres erkranken 10.7% der Deutschen an einer depressiven Störung2. Das Risiko, im Laufe seines Lebens mindestens einmal an einer an einer unipolaren depressiven Erkrankung zu leiden beträgt 17.1%3. Frauen sind dabei – unabhängig davon, welche Prävalenzraten man betrachtet – etwa doppelt so häufig von Depressionen betroffen wie Männer. So liegt zum Beispiel das Morbiditätsrisiko bezogen auf die Lebenszeit für Frauen bei 23.3%, jenes für Männer bei 11.1% (Jacobi et al., 2004). Aktuelle Zahlen für Europa zeichnen ein ähnliches Bild. Auf europäischer Ebene leiden nach einer Auswertung von über 20 populationsbasierten, nach 1990 veröffentlichten Studien innerhalb eines Jahres durchschnittlich 18.4 Millionen Menschen (6.9% der europäischen Bevölkerung) an einer Major Depression4, wobei das Risiko für Frauen zweimal so hoch ist wie jedes für Männer (Wittchen & Jacobi, 2005). Dabei handelt es sich bei beiden Untersuchungen noch um konservative Schätzungen, da nur die Bevölkerung zwischen 18 und 65 Jahren erfasst wurde (Wittchen & Jacobi, 2005). Während das Vollbild depressiver Erkrankungen bei Kindern selten ist, sind Jugendliche jedoch in zunehmendem Maße von Depressionen betroffen (Wittchen & Jacobi, 2006). Bei älteren Menschen sind Depressionen wie bei Erwachsenen mittleren Alters die häufigste psychische Erkrankung, die Prävalenz bei den über 65-Jährigen wird auf mindestens 10% geschätzt (Bramesfeld & Stoppe, 2006; Laux, 2009). Weltweit lagen die uniploraren depressiven Erkrankungen bereits im Jahre 2000 auf dem vierten Rang der bedeutendsten Gründe für durch Behinderung verlorene Lebens1 Episode einer Major Depression oder Dysthymie, ohne depressive Episoden im Rahmen bipolarer Erkrankungen; bezogen auf alle affektiven Störungen (alle Episoden uni- und bipolarer Erkrankungen) liegt der Prozentsatz bei 6.3% 2 bezogen auf alle affektiven Störungen: 11.9% 3 bezogen auf alle affektiven Störungen: 18.6% 4 bezogen auf alle affektiven Störungen: 20.8 Millionen (7.8%) Theorie 26 jahre (Diability Adjusted Life Years, DALY). Damit waren sie für 4.4% der durch Erkrankung beeinträchtigten oder verlorenen Lebenszeit verantwortlich und die vierthäufigste Todesursache (Organisation mondiale de la Santé, OMS-WHO, 2001). Betrachtet man nur die mit Beeinträchtigung gelebten Jahre des Lebens (ohne vorzeitige krankheitsbedingte Mortalität; Years Lived With Disability, YLD) so belegte die Depression im Jahr 2000 den ersten Rang, war also für die meiste (11.9%) durch Behinderung beeinträchtigten Lebenszeit verantwortlich. Die Weltgesundheitsorganisation (OMSWHO, 2001) geht in ihrer Prognose für das Jahr 2020 davon aus, dass die Depression hinter den kardiovaskulären ischämischen Erkrankungen auf Rang zwei der wichtigsten Gründe für durch Behinderung verlorene Lebensjahre (DALY) liegen und 5.7% der „globalen Krankheitslast“ (global burden of disease) ausmachen wird. Affektive Erkrankungen bedeuten dabei nicht nur erhebliches Leid für die Betroffenen und ihr direktes Umfeld, sie gehen auch mit immensen volkswirtschaftlichen Kosten einher (Stamm & Salize, 2006). Die Kosten für die Behandlung affektiver Störungen belaufen sich in Deutschland auf jährlich 4,03 Milliarden Euro (Stamm & Salize, 2006). Hinzu kommen kaum abschätzbare Kosten aufgrund (häufig sehr langer Phasen von) Fehlbehandlungen (Stamm & Salize, 2006; Zielke & Limbacher, 2004). Menschen, die an einer Depression oder dysthymen Störung leiden, haben im Mittel übers Jahr etwa doppelt so viele Krankheitstage wie Menschen, die nicht an einer depressiven Störung leiden (24.9 Ausfalltage vs. 11.5 Ausfalltage; Zahlen des BGS 1998/99; Wittchen & Jacobi, 2006). Im Jahre 2003 waren depressive Erkrankungen für 2.8% aller Arbeitsunfähigkeitstage verantwortlich und stellten damit die vierthäufigste Ursache für eine Krankschreibung dar (Zahlen der Deutsche Angestellten-Krankenkasse (DAK); Zielke & Limbacher, 2004). Depressionen waren im Jahre 2003 außerdem die häufigste Ursache für Berentung wegen verminderter Erwerbsfähigkeit (VDR-Verband Deutscher Rentenversicherungsträger, 2004, zitiert nach Bramesfeld & Stoppe, 2006, S. 1). Viele Betroffene suchen wegen ihrer Beschwerden jedoch nie einen Arzt auf oder ihre depressive Erkrankung wird nicht erkannt (Laux, 2009). So gaben im Bundesgesundheitssurvey (BGS) nur gut 50% aller an einer depressiven Störung Erkrankten an, je aufgrund dieser Beschwerden eine Behandlung aufgesucht zu haben oder dies von einem Arzt empfohlen bekommen zu haben (Jacobi et al., 2004). Somit dürfte der tatsächliche Umfang des Produktivitätsverlustes in Folge von Depressionen noch höher liegen als es diese Zahlen dokumentieren. Theorie 27 Das Statistische Bundesamt (2004, zitiert nach Stamm & Salize, 2006, S. 112) schätzt, dass für das Jahr 2002 aufgrund von Arbeitsunfähigkeit, Invalidität und vorzeitigem Tod im Zusammenhang mit affektiven Erkrankungen (für die Gruppe der Berufstätigen) 185.000 Erwerbstätigkeitsjahre beziehungsweise (bezogen auf die Gesamtbevölkerung) 528.000 Lebensjahre verloren gingen. 2.2 Depression und Persönlichkeit Persönlichkeitsmerkmale stehen „in systematischen Beziehungen zum Verhalten und Erleben und haben gravierende Konsequenzen, z. B. für Berufserfolg, Lebenserwartung und Lebenszufriedenheit“ (Borkenau & Ostendorf, 2008, S. 27). Die Zusammenhänge zwischen Depression und Persönlichkeit gehören zu den am besten untersuchten Bereichen innerhalb der Depressionsforschung (Kronmüller & Mundt, 2006). Die aus der intensiven Beforschung des Feldes resultierenden Befunde sollen hier zu Zwecken der Validierung einer im Rahmen dieser Arbeit vorgeschlagenen Vereinfachung eines etablierten Inventars zur Erfassung von Depressivität genutzt werden. Daher soll in diesem Kapitel auf die Beziehungen zwischen Persönlichkeitseigenschaften und dem Auftreten von Depressionen eingegangen werden. Die Ausführungen werden sich auf die Beziehungen zwischen Depressivität und jenen fünf Merkmalen der Persönlichkeit konzentrieren, welche sich in unzähligen Untersuchungen (Übersicht siehe z. B. bei Borkenau & Ostendorf, 2008) als stabile Dimensionen zur Beschreibung von Menschen und den Unterschieden zwischen ihnen herausgestellt haben: Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit. Die fünf Faktoren werden auch als Big Five bezeichnet und im Fünf-Faktoren-Modell der Persönlichkeit zusammengefasst (Allport und Odbert, 1936; Cattell, 1943, zit. nach Borkenau und Ostendorf, 2008, S. 7). Die Eigenschaftsdimensionen können auf Ebene der fünf Domänen (Borkenau & Ostendorf, 2008) oder etwas detaillierter zusätzlich auf der Ebene der je sechs Facetten, die jede der fünf Domänen ausmachen (Ostendorf & Angleitner, 2004), erfasst werden. Für eine ausführliche Beschreibung der Merkmalsbereiche Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit wird auf die Beschreibung des zur Erfassung eingesetzten Instrumentes in Abschnitt 4.1.2 verwiesen. Theorie 28 Im Folgenden werden Befunde zur Verbindung von Depressivität und den fünf Faktoren der Persönlichkeit geschildert, wobei jedem Persönlichkeitsfaktor ein eigenes Unterkapitel gewidmet ist. Vorausgeschickt wird ein Abschnitt zu methodischen Herausforderungen bei der Erhebung und Interpretation der Zusammenhänge und ein kurzer Überblick, welche Modelle zur Beziehung zwischen Persönlichkeitsmerkmalen und Depression diskutiert werden. 2.2.1 Methodische Fragen und Modelle In der Beforschung der Beziehung zwischen Depression und Persönlichkeitsmerkmalen existieren methodische Schwierigkeiten, die bei der Interpretation der Befunde berücksichtigt werden müssen. Zwei Herausforderungen heben Kronmüller und Mundt (2006) als besonders bedeutsam hervor. Zum einen die notwendige Unterscheidung zwischen prä-, intra-, inter- und postmorbider Persönlichkeit, das heißt, die sorgfältige Klärung, ob Persönlichkeitsmerkmale, die sich in Studien als mit Depressionen assoziiert darstellen, einer Erkrankung vorausgegangen sind, mit ihr vorübergehend auftreten oder mehr oder weniger dauerhaft aus ihr resultieren. Diese Frage des zeitlichen Vor- oder Nachgeordnetseins kann nur in Längsschnittdesigns angegangen werden. Dabei muss beton werden, dass jedoch auch Ergebnisse, die eine bestimmte zeitliche Abfolge nahelegen, zum Beispiel, dass eine Erkrankung durch bestimmte Persönlichkeitszüge vorhergesagt wird, nicht per se kausale Schlussfolgerungen, beispielsweise zu gemeinsamen Ursachen, erlauben (Bienvenu et al., 2004). Zum Zweiten betonen Kronmüller und Mundt (2006), dass die Konfundierung von aktuellen Depressionssymptomen und Persönlichkeitsparametern berücksichtigt werden muss. Es ist bekannt, dass das akute Vorliegen einer Depression die Werte auf einigen Persönlichkeitstraits beeinflusst (Costa, Bagby, Herbst & McCrae, 2005). Die Gründe dafür liegen Costa et al. (2005) zufolge darin, dass „personality traits are defined not by temporal stability but by their biological bases, and that the stability normally seen in traits is a consequence of the stability of the biological bases“ (S. 52). Ändern sich jedoch die biologischen Grundlagen, zu denen insbesondere genetische Einflüsse zählen, zum Beispiel durch eine Erkrankung, wie etwa eine Depression, oder therapeutische Eingriffe als Reaktion auf eine Erkrankung, ändern sich auch Gedanken, Gefühle und Handlungen. Die Wahrnehmung dieser Veränderungen durch das Individuum schlägt sich dann in einem veränderten Selbstkonzept nieder. Dies führt dazu, dass sich Trait Levels verändern, wie sie eben zum Beispiel in Theorie 29 Persönlichkeitsfragebögen erfasst werden. Bessert sich das Befinden nach einer Erkrankung, verändern sich die Werte auf den Persönlichkeitsdimensionen erneut. Dies bedeutet nicht, dass unter diesen Bedingungen erhobene Befunde als nicht reliabel oder valide zu betrachten sind, wie Costa et al. (2005) betonen. Es muss lediglich bei der Interpretation in Betracht gezogen werden, unter welchen Umständen die Ergebnisse zu Stande gekommen sind. Sie dürfen so lange als reliable und valide Abbildung der Persönlichkeitsmerkmale eines Menschen betrachtet werden, wie auch die Umstände bei der Messung vorliegen. Dieser Umstand stellt eine Herausforderung für die Forschung zu den Zusammenhängen zwischen Persönlichkeit und Depression (bzw. psychischer Erkrankung ganz allgemein) dar. Es gilt, durch geschickte Designs zwischen der akuten Assoziation und darüber hinausgehenden, längerfristigen Zusammenhängen zu trennen (Duggan, Sham, Lee, Minne & Murray, 1995; Kronmüller & Mundt, 2006; Trull & Sher, 1994). Zu den Methoden, die dabei eingesetzt werden können, zählt die Untersuchung von Menschen, die in ihrem Leben bereits Depressionen durchlitten haben, zum Zeitpunkt der Erhebung jedoch nicht unbedingt akut betroffen sind (das heißt, die Verwendung von so genannten Lifetime-Diagnosen). Alternativ oder parallel kann die statistische Kontrolle aktueller Symptombelastung erfolgen. Diese Maßnahmen schwächen die Problematik etwas ab, ermöglichen aber dennoch keine kausalen Schlussfolgerungen, für die Längsschnittstudien erforderlich sind (Trull & Sher, 1994). Außerdem kann das Auswählen nicht akut depressiver Patienten und/oder das statistische Herausrechnen der aktuellen Depressionsschwere die Problematik nicht vollständig beseitigen. Es bleibt die Konfundierung auf Ebene der Erfassungsinstrumente, welche darin besteht, dass (vor allem Selbstbeurteilungs-)Fragebögen zur Depressionsmessung auch Persönlichkeit, insbesondere das Persönlichkeitsmerkmal Neurotizismus, messen und umgekehrt, die Items von Neurotizismusskalen sich mit denen von Depressionsfragebögen überschneiden (Kronmüller & Mundt, 2006). Wie Persönlichkeitsmerkmale und Depression zusammenhängen, dafür gibt es verschiedene, sich nicht grundsätzlich ausschließende, sondern teilweise ergänzende Erklärungsmodelle (Klein, Wonderlich & Shea, 1993), die sich nach Kronmüller und Mundt (2006) wie folgt zusammenfassen lassen: Das Prädispositionsmodell geht davon aus, dass Persönlichkeitsmerkmale gemeinsam mit konstitutionellen und Umgebungsmerk- Theorie 30 malen die Vulnerabilität für eine depressive Störung bestimmen. Im Spektrummodell wird angenommen, dass bestimmte Persönlichkeitsauffälligkeiten als „subklinische Manifestation der Depression“ (Kronmüller & Mundt, 2006, S.865) betrachtet werden können. Das pathoplastische Modell vermutet, dass Persönlichkeitsmerkmale sich nicht auf das Risiko für eine depressive Erkrankung, sondern auf das klinische Bild, den Verlauf und das Ansprechen auf bestimmte Behandlungen auswirken. Während das Komplikationsmodell annimmt, dass sich die Persönlichkeit in Folge einer Depression vorübergehend verändert, glaubt das Scar-Modell (Scar = engl. Narbe) an dauerhafte Veränderungen. Dass Persönlichkeitsmerkmale und Depression eine gemeinsame genetische Grundlage besitzen, davon geht schließlich das Gemeinsame-Ursachen-Modell aus. Die Erforschung, welches Modell zu welchen Anteilen für die Beziehung zwischen Depression und bestimmten Persönlichkeitsmerkmalen gelten könnte, hängt eng mit den oben angesprochenen methodischen Herausforderungen zusammen. Nur Designs, die diese Probleme berücksichtigen, können zur Klärung der zeitlichen und kausalen Zusammenhänge beitragen (Bienvenu et al., 2004; Duggan et al., 1995; Rosellini & Brown, 2011; Trull & Sher, 1994). Wie beschrieben, sind dies insbesondere Längsschnittdesigns. Die folgenden Abschnitte werden einige Befunde zum Zusammenhang zwischen Depressivität und Persönlichkeit zusammenstellen. Hauptsächlich werden Ergebnisse referiert, die in Studien gewonnen wurden, welche ein Querschnittdesign nutzten und zusätzlich das Konzept der Life-Time-Diagnosen anwandten oder die aktuelle Depressivität kontrollierten. Auch Korrelationsstudien werden berichtet. Diese Studien genügen damit nicht den Ansprüchen, die man an wissenschaftliche Arbeiten zur Beforschung von ursächlichen Strukturen stellen würde. Für die Zwecke dieser Arbeit sind sie jedoch sehr gut geeignet, da aus den Befunden Ansprüche abgeleitet werden sollen, die innerhalb eines Querschnittdesigns an die Korrelationen eines validen Inventars zur Erfassung von Depressivität mit Persönlichkeitsvariablen zu stellen sind. Mit Blick auf die Forderungen der Konstruktvalidität, die in Kapitel 3 genauer erläutert werden, gehen die Ausführungen dennoch auf einige theoretische Erklärungen und mögliche Gründe ein, die für die gefundenen Assoziationen vorgeschlagen wurden und teilweise über den querschnittlichen Zusammenhang hinausweisen. In einigen Fällen fließen auch längsschnittliche Befunde ein. Theorie 31 2.2.2 Neurotizismus Neurotizismus gilt neben zwanghaftem Perfektionismus und sozialer Abhängigkeit als „zentrales Persönlichkeitsmerkmal für Depression“ (Hautzinger, 2010, S. 26). Unzählige Male repliziert ist der Befund, dass die Neurotizismuswerte von Patienten, die akut an einer Depression leiden, bedeutsam höher sind als jene von gesunden Probanden (Kronmüller & Mundt, 2006). Aufgrund der oben angesprochenen Überschneidung der Messinstrumente für beide Konstrukte ist jedoch entscheidender, dass der Zusammenhang sich auch dann immer wieder fand, wenn diese Konfundierung statistisch kontrolliert wurde (Kronmüller & Mundt, 2006). Signifikant höhere Werte für Neurotizismus bei Verwandten von an einer Major Depression erkrankten Patienten, die selbst schon ein- oder mehrmals im Leben eine depressive Episode erlebt hatten, im Vergleich zu solchen Verwandten dieser Patienten, die selbst noch nie im Leben an einer Depression gelitten hatten, fanden Wissenschaftler in einer britischen Studie (Duggan et al., 1995). Die signifikanten Unterschiede blieben bestehen, wenn die aktuellen Depressionswerte auspartialisiert wurden, was die Autoren als Anhaltspunkt dafür werten, dass „high N[euroticism] is more than a state effect of being depressed“ (S. 142). Sie schlussfolgern: „Our data indicate, that, while there is an overlap between depressive symptoms and neuroticism, they are also separate in their effects“ (S. 142). Bienvenu et al. (2004) und Trull und Sher (1994) verglichen in US-amerikanischen Bevölkerungsstichproben die Persönlichkeitsprofile von Menschen, die in ihrem Leben mindestens einmal an einer von verschiedenen psychischen Störungen, darunter auch depressive Störungen, erkrankt waren, mit den Persönlichkeitsprofilen von Menschen, die bislang in ihrem Leben keine der betrachteten psychischen Erkrankungen erlebt hatten. Es zeigten sich signifikant höhere Neurotizismuswerte für die Gruppe derer mit einer Lifetime-Diagnose Depression oder Dysthymia im Vergleich mit der Gruppe der bislang nie Erkrankten. Bienvenu et al. (2004) erfassten dabei die Persönlichkeit mit einem Instrument, das neben den globalen fünf Domänen auch die jeweils sechs Domänenfacetten misst, die Persönlichkeit also etwas differenzierter erfasst. Entsprechende Analysen auf Ebene der Facetten ergaben, dass in der Gruppe der (ehemals oder aktuell) Depressiven alle sechs Facetten des Neurotizismus, in der Gruppe der (ehemals oder aktuell) an Dysthymia Erkrankten drei Facetten des Neurotizismus im Vergleich zur Theorie 32 Gruppe der bislang Gesunden signifikant erhöht waren. Bienvenu et al. (2004) verglichen auch die Persönlichkeitstraits innerhalb der Depressions-Substichprobe zwischen den Probanden, die aktuell Symptome aufwiesen und den Probanden, die gegenwärtig voll remittiert waren. Es ergab sich, dass die akute Symptomatik auf Ebene der Faktoren assoziiert war mit dem mittleren Neurotizismuswert und auf Ebene der Facetten mit dem Ergebnis auf zwei Facetten des Neurotizismus. Trull & Sher (1994) fanden ebenfalls, dass die Persönlichkeitsfaktoren einen signifikanten Beitrag zur Aufklärung der Varianz der verschiedenen DSM-II-R-Diagnosen (American Psychiatric Association, 1987, zit. nach Trull & Sher, 1994, S. 351) ihrer Probanden über das Geschlecht und aktuelle Symptombelastung hinaus leisten. Für die Diagnose der Depression zählte der Neurotizismus zu den signifikanten (positiven) Prädiktoren. An einer großen klinischen Stichprobe ambulant behandelter Patienten untersuchten Rosellini & Brown (2011) ebenfalls in den USA in einem Strukturmodell die latenten, messfehlerbereinigten Beziehungen zwischen den Dimensionen des Fünf-FaktorenModells und verschiedenen psychischen Erkrankungen. Auch in diesem Ansatz ergaben sich hoch positive, signifikante Assoziation zwischen dem Faktor Neurotizismus und der Dimension Depression auf verschiedenen Ebenen. Es existieren zudem Längsschnittstudien, die nahelegen, dass impulsive und labile Persönlichkeitszüge einen Prädiktor für spätere depressive Erkrankungen darstellen, Neurotizismus also als prämorbides Persönlichkeitsmerkmal einer depressiven Erkrankung vorausgehen kann (Hautzinger, 2010). Neurotizismus und Major Depression scheinen eine gemeinsame genetische Grundlage zu haben (Kendler & Myers, 2010). Gut gesichert ist zudem der Befund, dass Neurotizismus den Langzeitverlauf depressiver Erkrankungen ungünstig beeinflusst (Kronmüller & Mundt, 2006). Entsprechend dieser Befunde korrelierte auch das deutsche BDI-II (Hautzinger et al., 2006) in einer mittelgroßen Gemeindestichprobe hoch und signifikant positiv (r = .70) mit der Skala Neurotizismus des NEO-FFI (Borkenau & Ostendorf, 1993). Niedrigere, aber ebenso signifikante Korrelationen (r = .32) zwischen Neurotizismus, gemessen mit dem NEO-FFI (Borkenau & Ostendorf, 1993) und einer anderen Depressionsskala, der deutschen Version der CES-D (Center for Epidemiological Studies – Depression; Theorie 33 Radloff, 1977, zit. nach Meyer, 2002; deutsch von Hautzinger & Bailer, 1993) ergaben sich in einer deutschen Studie mit studentischer Stichprobe (Meyer, 2002). 2.2.3 Extraversion Die Extraversion ist in Untersuchungen bei depressiven Patienten häufig geringer ausgeprägt als bei gesunden Kontrollprobanden, ohne dass sich jedoch durchgehend Normabweichungen im Vergleich zur Kontrollpopulation zeigen würden (Kronmüller & Mundt, 2006). Auch Trull und Sher (1994) sowie Bienvenu et al (2004) fanden in ihren Vergleichen der Persönlichkeitstraits von Probanden aus der Normalbevölkerung mit einer bestimmten Störung in der Lebensgeschichte und Probanden, die in ihrem Leben bislang keine solche Störung erlebt hatten, eine signifikante Verknüpfung zwischen depressiven Störungen in der Vergangenheit und niedrigerer Extraversion. In der Studie von Bienvenu et al. (2004) zeigte sich der Zusammenhang allerdings nur für die (ehemals oder aktuell) Dysthymie-Erkrankten auf der Ebene der Faktoren und der Facetten, in der Gruppe der (ehemals oder aktuell) depressiven Probanden ließ sich nur in den Analysen auf Ebene der Facetten ein Unterschied zu den Gesunden in Form einer signifikant niedriger gemessenen Facette finden. (Niedrigere) Extraversion leistete wie Neurotizismus zusätzlich zum Geschlecht und zur aktuellen Symptombelastung einen signifikanten Beitrag zur Vorhersage, ob ein Proband die Lifetime-Diagnose ,Depression‘ erhalten hatte oder nicht (Trull & Sher, 1994). Auch im Strukturmodell von Rosellini und Brown (2011; s.o.) waren Depressionen in einer klinischen Stichprobe signifikant negativ mit Extraversion verknüpft. Mit dem deutschen BDI-II (Hautzinger et al., 2006) korrelierte die Extraversionsskala des NEO-FFI (Borkenau & Ostendorf, 1993) in einer Bevölkerungsstichprobe in mittlerer Höhe negativ und hoch signifikant (r = -.36). Etwas niedriger, dennoch signifikant negativ fiel die Korrelation zwischen der deutschen Version eines anderen Depressionsmaßes, der CES-D (Radloff, 1977, zit. nach Meyer, 2002; deutsch von Hautzinger & Bailer, 1993), und Extraversion in einer Untersuchung von Meyer (2002) aus (r = -.19). Extraversion könnte einen positiven Einfluss auf den Langzeitverlauf von Depressionen ausüben (Enns und Cox, 1997, zit. nach Kronmüller & Mundt, 2006, S. 874). Theorie 34 2.2.4 Offenheit für Erfahrung Im Vergleich zu Menschen, die bislang nicht an einer Depression, einer Angst- oder einer Abhängigkeitserkrankung gelitten hatten, hatten Menschen, die mindestens einmal in ihrem Leben an einer Major Depression erkrankten, signifikant höhere Offenheitswerte in der Studie von Trull & Sher (1994). Nach Kontrolle für die Komorbidität in der Stichprobe der Probanden mit einer Lifetime-Diagnose für eine oder mehrere der untersuchten Störungen blieb dabei zumindest ein Trend zur einer schwach positiven Verknüpfung der Depression mit Offenheit für Erfahrung bestehen. Offenheit gehörte außerdem neben Neurotizismus und Extraversion zu den (positiven) Prädiktoren, die über Geschlecht und akute Symptome hinausgehend Varianz in der Frage aufklärten, ob ein Proband an einer Depression gelitten hatte bzw. aktuell litt, oder nicht (Trull & Sher, 1994). Allerdings waren die Autoren von ihren Befunden überrascht, hatten sie doch einen negativen Zusammenhang erwartet: „The positive relationship between openness and major depression seems somewhat counterintuitive“ (Trull & Sher, 1994, S. 358). Eine mögliche Erklärung sei jedoch, dass die Erfahrung einer depressiven Episode zu einem insgesamt höheren Maß an Offenheit (zum Beispiel erhöhter Sensibilität, Offenheit für neue Ideen) führen könnte. Bienvenu et al (2004) hatten in ihrer Untersuchung lediglich in den Analysen auf Ebene der Facetten, nicht jedoch auf der Ebene der Faktoren, einen signifikanten Unterschied zwischen Probanden mit der Lifetime-Diagnose Depression und Probanden, die bislang keine depressive, Angst- oder Zwangserkrankung erlebt hatten, gefunden. Die teilweise remittierten, teilweise jedoch auch akut depressiven Probanden erzielten nur auf einer Facette signifikant höhere Werte als die bislang gesunden Probanden. In der Dysthymia-Substichprobe hatten sich keine signifikanten Unterschiede in der Offenheit im Vergleich zu Gesunden ergeben, weder auf Ebene der globalen Domänen, noch auf einer der Domänenfacetten. In der klinischen Stichprobe hatten Rosellini & Brown (2011) in ihren Analysen auf latenter Ebene keine signifikante Verknüpfung zwischen dem Depressivitätsfaktor und der Offenheitsdimension gefunden. Die entsprechende Korrelation lag nahe Null (jedoch im positiven Bereich) und war nicht signifikant. Theorie 35 Die Korrelation zwischen dem BDI-II (Hautzinger et al., 2006) und der Offenheitsdomäne des NEO-FFI (Borkenau & Ostendorf, 1993) war in der Normalbevölkerung niedrig positiv (r = .09), wurde jedoch nicht signifikant (Hautzinger et al., 2006). In der Studie von Meyer (2002) korrelierte Depressivität, gemessen mit der deutschen Version der CES-D (Center for Epidemiological Studies – Depression; Radloff, 1977, zit. nach Meyer, 2002; deutsch von Hautzinger & Bailer, 1993) ebenfalls niedrig positiv (r = .14) mit der Offenheit, erfasst über das NEO-FFI (Borkenau & Ostendorf, 1993), wobei der Koeffizient signifikant wurde. 2.2.5 Verträglichkeit In der Studie von Trull und Sher (1994) lag die Verträglichkeit in der Stichprobe der zum Großteil remittierten depressiven Probanden zwar unter derjenigen in der Stichprobe der bislang nicht Erkrankten, der Unterschied wurde aber nicht signifikant. Bienvenu et al. (2004) konnten keinerlei eindeutige Zusammenhänge zwischen der LifetimeDepression beziehungsweise -Dysthymia und dem Faktor oder den Faktorfacetten der Verträglichkeit finden. Genauso wenig leistete die Verträglichkeit einen Beitrag zur Unterscheidung zwischen Menschen, die in ihrem Leben depressive Episoden durchlebt hatten und bislang Gesunden (Trull & Sher, 1994) und war auch im Modell von Rosellini und Brown (2011; s.o.) nicht signifikant mit depressiver Symptomatik verknüpft. Die von Hautzinger et al. (2006) im Manual des BDI-II berichteten Werte für die Korrelation mit dem Persönlichkeitstrait Verträglichkeit fallen mittelhoch signifikant negativ aus (r = -.25). In der Studentenstichprobe von Meyer (2002) war die Depressivität jedoch nicht mit Verträglichkeit assoziiert, der Koeffizient lag nur knapp unter Null (r = -.05) und wurde nicht signifikant. Entgegen den bisher berichteten Untersuchungsergebnissen negativer, häufig jedoch nicht signifikanter Beziehungen zwischen Depressivität und Verträglichkeit, schreiben Kronmüller und Mundt (2006), die Befundlage zum Zusammenhang zwischen Depression und Verträglichkeit sei heterogen, die bisherigen Ergebnisse würden jedoch eher auf höhere Verträglichkeitswerte und damit verminderte Aggressivität bei Depressiven hinweisen. DeNeve und Cooper (1998) fanden in einer Metaanalyse jedoch eine positive Beziehung zwischen Verträglichkeit und verschiedenen Komponenten des subjektiven Wohlbefindens (Lebenszufriedenheit, Happiness und positver Affekt) sowie eine Theorie 36 negative Assoziation zwischen Verträglichkeit und negativem Affekt. Dies passt wiederum eher zu den oben berichteten Ergebnissen eines negativen Zusammenhangs zwischen Depressivität und Verträglichkeit (oder Verträglichkeit als einem protektiven Faktor), wenngleich diese Schlussfolgerung natürlich nur sehr zurückhaltend zu interpretieren ist, da Depressivität nicht gleichgesetzt werden darf mit negativem Affekt und auch nicht als das Gegenteil von subjektivem Wohlbefinden definiert ist. 2.2.6 Gewissenhaftigkeit In der von Trull und Sher (1994) untersuchten Bevölkerungsstichprobe war eine etwas niedrigere Gewissenhaftigkeit signifikant verknüpft mit der Lifetime-Diagnose Major Depression. Die durchschnittlichen Werte auf der Skala Gewissenhaftigkeit und ihren Facetten lagen auch bei Bienvenu et al. (2004) für die Stichproben der im Laufe ihres Lebens an einer Depression oder Dysthymie Erkrankten durchgehend unter denen von Probanden, die bislang keine Depression, Angststörung oder Zwangserkrankung erlebt hatten. Signifikant wurde dabei aber nur ein Unterschied auf einer einzigen Facette. Wie beschrieben, konnten Neurotizismus, Extraversion und Offenheit dazu beitragen, (ehemals) Depressive von (bislang) Gesunden oder Menschen, die an anderen Störungen (ge)litten (hatten), zu trennen – auch Gewissenhaftigkeit fügte sich in dieser Analyse in die Reihe der signifikanten (negativen) Prädiktoren ein (Trull & Sher, 1994). Ebenso waren bei den ambulanten depressiven Patienten von Rosellini und Brown (2011) aktuelle Schwere von Depression und Gewissenhaftigkeit signifikant negativ, jedoch nur in niedrigem bis mittelmäßigem Maße, verknüpft. Die Assoziation von Gewissenhaftigkeit mit Major Depression weist nach Rosellini und Brown (2011) darauf hin, dass ein Defizit an Selbstkontrolle bei Organisation und Planung mit ernsthaften depressiven Symptomen verbunden sein könnte. Der Zusammenhang könnte den Autoren zufolge dergestalt sein, dass eine niedrige Gewissenhaftigkeit über die unterschiedlichsten Wege (zum Beispiel schwache Leistungen in Schule oder Beruf oder Schwierigkeiten in Beziehungen) zu Stress führt, was zur Verstärkung oder Aufrechterhaltung von Symptomen der Depression beitragen könnte. Darüber hinaus passt die negative Beziehung zwischen Depression und Gewissenhaftigkeit zu Befunden Kendlers und Myers (2010), die in den von ihnen ermittelten negativen genetischen Korrelationen zwischen Gewissenhaftigkeit und Major Depression einen Hinweis da- Theorie 37 rauf sahen, dass „a modest proportion of genes which influence C[onscientiousness] might also impact on risk for M[ajor] D[epression]“ (S. 804). Die Korrelation des BDI-II mit der Gewissenhaftigkeit, die Hautzinger et al. (2006) im Manual berichten, fiel signifikant mittelmäßig negativ aus (r = -.25). Meyer (2002) berichtet zwar ebenfalls negative, jedoch im Betrag noch deutlich niedrigere und nicht signifikante Korrelationen zwischen der Gewissenhaftigkeit und dem Ausmaß der Depressivität (r = -.08). Diesen Ergebnissen steht die Einschätzung der Befundlage durch Kronmüller und Mundt (2006) entgegen, denen zufolge sich bei Patienten, die von einer Depression betroffen sind, in den meisten Studien erhöhte Werte auf der Skala Gewissenhaftigkeit finden, die allerdings nicht in allen Untersuchungen statistisch signifikant werden. Ähnliches gelte für der Gewissenhaftigkeit nahestehende Konstrukte wie Rigidität, Ordentlichkeit und Zwanghaftigkeit. Dazu passt auch eher, dass (wie in Abschnitt 2.2.2 bereits angesprochen) zwanghafter Perfektionismus neben emotionaler Labilität und starker Anlehnungsbedürftigkeit zu charakteristischen Merkmalen im Zusammenhang mit Depression zählt (Hautzinger, 2010). Hinsichtlich der Betrachtung von Persönlichkeitsmustern lassen sich zwei „Depressionstypen“ ausmachen. Sowohl sozial abhängige Menschen mit Verlustängsten im zwischenmenschlichen Bereich („,soziotrope […]‘ Depressionspersönlichkeit“ (Hautzinger, 2010, S. 26)) weisen ein gewisses Risiko auf, als auch Menschen mit einem ausgeprägten Streben nach Autonomie, Unabhängigkeit, Leistung und Kontrolle. Sehr leistungsbezogene, perfektionistische Menschen mit einem ausgeprägten Kontrollbedürfnis sind gefährdet, eine Depression zu entwickeln, da für sie leistungsbezogene Misserfolge, Scheitern oder erlebter Kontrollverlust eine Bedrohung darstellen, die über die Zwischenstufe Reaktanz und Aggression zu resignativen, depressiven Reaktionen führen kann (Hautzinger, 2010). Inwiefern die zunächst widersprüchlich scheinenden Einschätzungen und Befunde zur Beziehung von Gewissenhaftigkeit und Depressivität zusammengebracht werden können, wird sich im Rahmen dieser Arbeit nicht erörtern lassen. Möglicherweise können sowohl mangelnde Gewissenhaftigkeit über daraus resultierenden Misserfolg als auch erhöhte Gewissenhaftigkeit, verbunden mit einem (perfektionistisch) hohen Anspruch an eigene Leistungen und Erfolge bei Nichterreichen dieser Ansprüche (was ebenso ein Erleben von „Misserfolg“ darstellt) für Depression prädisponieren oder Depressivität Theorie 38 aufrechterhalten. Ein gesundes Maß an Gewissenhaftigkeit könnte dagegen ein protektiver Faktor sein, ist die Persönlichkeitseigenschaft doch positiv mit Lebenszufriedenheit assoziiert (DeNeve & Cooper, 1998). 2.2.7 Zusammenfassung Akute Depression respektive Depressivität scheint mit deutlich erhöhtem Neurotizismus und mittelmäßig niedrigerer Extraversion einherzugehen. Bezüglich Offenheit für Erfahrung kann nach den hier berichteten Erkenntnissen nicht sicher von einer signifikanten Verknüpfung mit Depressivität ausgegangen werden, entsprechende Koeffizienten lagen jedoch immer im niedrig positiven Bereich. Ebenso scheint Verträglichkeit eher nicht signifikant mit Depression zusammenzuhängen, Korrelationen waren in den aufgeführten Studien jedoch durchgängig schwach bis mittelmäßig negativ, wenngleich Einschätzungen vorliegen, die dem widersprechen und eher von einer positiven Beziehung ausgehen. Die Erkenntnisse zu Gewissenhaftigkeit sind vorerst widersprüchlich. Während zumindest in den zitierten (Korrelations)studien eine schwach bis mittelmäßig negative Verknüpfung mit Depressivität gefunden wurde, sprechen anderen Befunde und theoretische Annahmen eher für einen positiven Zusammenhang. 2.3 Das Beck Depressionsinventar (BDI) Das Depressionsinventar von Beck (BDI; erste Fassung von Beck et al., 1961; aktuelle englischsprachige Originalauflage von Beck et al., 1996) ist das weltweit am häufigsten eingesetzte Selbstbeurteilungsinstrument zur Beschreibung der Schwere einer depressiven Episode (Hautzinger & Meyer, 2002). Im Rahmen der vorliegenden Arbeit wird ein Vorschlag für eine vereinfachte Variante der aktuellen deutschen Auflage des BDI (BDI-II; Hautzinger et al., 2006) unterbreitet. Vor diesem Hintergrund sollen in diesem Kapitel das Verfahren selbst, die in dieser Untersuchung verwendeten Versionen sowie die Erstellung des neuen Vorschlags und die Gründe für diesen Schritt erläutert werden. 2.3.1 Die Entstehung des Beck Depressionsinventars (BDI) Die erste Fassung des Beck Depressionsinventars (BDI) entstand vor etwa 50 Jahren (Beck et al., 1961). Die 21 Items reflektierten „characteristic attitudes and symptoms of depressed patients“ (Beck et al., 1961, S. 562), welche diese im Verlauf von Therapie- Theorie 39 sitzungen geäußert hatten. Die Itemkategorien des Inventars sind damit also rein klinisch entstanden und basieren nicht auf einer Theorie zur Ätiologie der Depression oder zu der Depression zugrundeliegenden psychologischen Prozessen (Beck et al., 1961). Schon diese Version beinhaltete den bis heute für das BDI charakteristischen Aufbau jedes Items aus – damals noch je vier bis fünf – der Intensität nach ansteigend gestaffelten selbstbeschreibenden Statements. Auf dieses Itemformat wird später noch genauer eingegangen. Konzipiert war das Verfahren als klinisches Interview. Bereits damals wiesen die Autoren nachdrücklich darauf hin, dass das Inventar mit dem Ziel entwickelt wurde, den Grad der Depressivität zu quantifizieren. Es ist nicht dafür geeignet, Diagnosen zu stellen oder zwischen standardisierten Diagnosekategorien zu differenzieren (Beck et al., 1961). Das Instrument erfasst depressive Symptome, gleich, in welchem Zusammenhang sie auftreten, ob im Rahmen einer Depression oder im Verlauf oder der Folge anderer Erkrankungen oder Ereignisse (vgl. Abschnitte 2.1.2 und 2.1.3). Dies gilt bis heute (Hautzinger et al., 2006) beziehungsweise es gilt heute umso mehr, da sich die ursprüngliche Konzeption als standardisiertes Interview nicht durchsetzte und das Verfahren mittlerweile als Selbstbeurteilungsfragebogen eingesetzt wird. Selbstbeurteilungsverfahren sind eine sehr gute Methode, um den Schweregrad der Depressivität und Veränderungen im Grad der Belastung oder im Ausmaß bestimmter Symptome zu beurteilen, ersetzen aber keinesfalls eine klinische Störungsdiagnostik sondern sind dieser als Ergänzung nachgeordnet (vgl. Hautzinger & Meyer, 2002). Seit der ersten Veröffentlichung hat das BDI viele Überarbeitungen und Neuveröffentlichungen erfahren, wurde in alle Kultursprachen der Welt übersetzt und avancierte zu einem der am häufigsten eingesetzten klinischen Verfahren weltweit (Hautzinger et al., 2006). Die erste veröffentlichte deutsche Übersetzung stammt von Blaser, Löw und Schäublin aus dem Jahre 1968. Im angloamerikanischen Sprachraum veröffentlichten Beck, Rush, Shaw & Emery 1979 eine überarbeitete Version des Originalfragebogens, zu der 1987 (Beck & Steer) ein Manual herausgegeben wurde. Seit dieser Version besteht jedes Item des BDI einheitlich aus genau vier selbstbeschreibenden Statements ansteigender Schwierigkeit. Auf dieser Ausgabe basiert die erste „verbindliche“ (Hautzinger et al., 2006, S. 5) Form der Veröffentlichung des BDI in Deutschland von Hautzinger et al. im Jahre 1994 (welche identisch, aber mit erweitertem Manual 1995 neu aufgelegt wurde; diese Version wird in der vorliegenden Arbeit eingesetzt und findet sich in Anhang B.2.1). Die in den Items Theorie 40 abgefragten Kategorien depressiver Symptomatik betreffen seit der Einführung 1961 unverändert traurige Stimmung, Pessimismus, Versagen, Unzufriedenheit, Schuldgefühle, Strafbedürfnis, Selbsthass, Selbstanklagen, Selbstmordimpulse, Weinen, Reizbarkeit, sozialer Rückzug und Isolierung, Entschlussunfähigkeit, negatives Körperbild, Arbeitsunfähigkeit, Schlafstörungen, Ermüdbarkeit, Appetitverlust, Gewichtsverlust, Hypochondrie und Libidoverlust. Tabelle 1 (linke Spalte) gibt Beispiele für Items des Fragbogens. Die beschriebene Skalierung über je vier Aussagen pro Item lässt sich erkennen. Jedes Item erfragt eines der Symptome depressiver Stimmung und erfasst dessen Ausprägung vierfach gestuft, beginnend mit einer Aussage, die für Symptomfreiheit steht (z. B. „Ich sehe nicht besonders mutlos in die Zukunft“) bis hin zu einer Aussage maximaler Intensität (z. B. „Ich habe das Gefühl, dass die Zukunft hoffnungslos ist und dass die Situation nicht besser werden kann“). Jeder Aussage ist dabei eine Ziffer von 0 (niedrigste Intensität) bis 3 (maximale Intensität) zugewiesen; die Beträge des vom Probanden in jedem Item gewählten Statements werden zum Gesamtwert aufsummiert. Tabelle 1 Beispiele für Items des BDI und entsprechende Items des BDI-V BDI♠ BDI-V♣ Item B (Pessimismus) Item 2 0 Ich sehe nicht besonders mutlos in die Zukunft 1 Ich sehe mutlos in die Zukunft 2 Ich habe nichts, worauf ich mich freuen kann 3 Ich habe das Gefühl, dass die Zukunft hoffnungslos ist und dass die Situation nicht besser werden kann Ich sehe mutlos in die Zukunft (nie … fast immer) Item M (Entschlussunfähigkeit) Item 13 0 Ich bin so entschlussfreudig wie immer 1 Ich schiebe Entscheidungen jetzt öfter als früher auf 2 Es fällt mir jetzt schwerer als früher, Entscheidungen zu treffen 3 Ich kann überhaupt keine Entscheidungen mehr treffen Ich schiebe Entscheidungen vor mir her (nie … fast immer) Anmerkungen. ♠ (Hautzinger, Bailer, Worall & Keller, 1995). ♣ (Schmitt & Maes, 2000). Theorie 41 Viele Untersuchungen bescheinigen diesen ersten Formen des BDI eine gute Reliabilität und Validität (z. B. Beck et al., 1961; Hautzinger et al., 1995; Übersicht z. B. bei Richter, 1991). Cronbachs α bewegte sich nach Angaben des Testmanuals des in der vorliegenden Untersuchung eingesetzten deutschen BDI (Hautzinger et al., 1995) in klinischen Stichproben zwischen .79 und .92 und lag in einer Stichprobe Gesunder bei .74. Die Trennschärfen sind nicht für alle Items zufriedenstellend. Hautzinger et al. (1995) berichten für Stichproben depressiver Patienten Trennschärfen zwischen .31 und .67, wenn man das Item Gewichtsverlust ausnimmt, dessen Trennschärfe sich – je nach Stichprobe – zwischen .06 und .24 bewegte; auch die Trennschärfe des Items Hypochondrie lag in einer Untersuchung nur bei .19. Bei gesunden Kontrollpersonen ergaben sich für den Großteil der Items Trennschärfen von .31 bis .53, darunter lag erneut das Item Gewichtsverlust (rit = .10), zudem die Items Appetitverlust (rit = .23) und Libidoverlust (rit = .07). Nach der Zusammenstellung Richters (1991) erzielten andere Untersuchungen ähnliche, insgesamt jedoch etwas bessere Resultate ohne „Ausreißer“ in Form von Trennschärfen unter .20. Das BDI bildet Veränderungen der Depressivität, z. B. im Therapieverlauf, gut ab und diskriminiert gut zwischen depressiven und nicht depressiven Probanden (Hautzinger et al., 1995). Die Items sind relativ schwer. 2.3.2 Ein Vorschlag zur Vereinfachung des Beck Depressionsinventars (BDI-V) Das Format der Items war es, das Schmitt und Maes veranlasste, im Jahr 2000 einen Vorschlag zur Vereinfachung des BDI basierend auf der Version von Hautzinger et al (1994) zu unterbreiten, da ihnen die „Schwierigkeitsskalierung (…) unökonomisch“ (Schmitt & Maes, 2000, S. 38) schien. Sie sahen darin eine möglicherweise unnötig hohe Belastung von Probanden, die insbesondere bei schwer depressiven Patienten einen Abbruch der Bearbeitung begünstigen könnte (Schmitt et al., 2003). Zumindest soweit Papier-und-Bleistift-Verfahren Einsatz finden, bestand zudem Potential, mit einer Vereinfachung des Verfahrens Kosten in nicht unerheblichem Umfange zu sparen, zum einen materielle Aufwendungen für den Druck sowie zum anderen personelle Kosten durch die Reduktion der zeitlichen Beanspruchung des wissenschaftlichen Personals Theorie 42 für das Eingeben oder Einlesen der einzelnen Fragebögen (vgl. Schmitt et al., 2003; Schmitt & Maes, 2000). In jedem Falle aber lassen sich umso mehr relevante Konstrukte in einer Untersuchung erheben und die Zusammenhänge zwischen ihnen eruieren, je kürzer oder einfacher die einzelnen Instrumente und je geringer damit die kognitive und zeitliche Beanspruchung der Probanden sind (Schmitt et al., 2003). Während Schmitt und Maes (2000) sowie Schmitt et al. (2003) zwar darauf hinweisen, dass Fragen der Ökonomie im Zuge groß angelegter wissenschaftlicher Untersuchungen oder epidemiologischer Screenings eher eine Rolle spielen als in der Einzelfalldiagnostik, so soll hier dennoch zu bedenken gegeben werden, dass die Anzahl an Verfahren, die in der „Einzelfalldiagnostik“, beispielsweise in psychiatrischen Kliniken, eingesetzt werden, teilweise ebenfalls beträchtlich ist (ob zur „reinen“ Einzelfalldiagnostik in der Therapieplanung und -evaluation des einzelnen Patienten oder in Kombination mit wissenschaftlichen Zielen). Somit sind auch hier Länge und Komplexität der einzelnen Fragebögen von Bedeutung im Hinblick auf die Belastung der Probanden, aber auch des untersuchungsleitenden und -auswertenden Personals und damit die finanziellen Ressourcen von Kliniken. Zwar existier(t)en bereits ökonomische Instrumente zur Erfassung von Depressivität, welche den weiteren Gütekriterien der Reliabilität und Validität ebenso entsprechen (zum Beispiel die Depressivitäts-Skala (D-S/D-S'; von Zerssen, 1976, zit. nach CIPS, 1996, S. 91 f.), die Self-Rating Depression Scale (SDS; Zung, 1965, zit. nach CIPS, 1996, S. 103) oder die Allgemeine Depressionsskala (ADS; Hautzinger & Bailer, 1993)). Dennoch war und ist, wie Schmitt et al. (2003) feststellen, die Bearbeitung des BDI gerechtfertigt, handelt es sich doch um das weltweit am häufigsten eingesetzte Selbstbeurteilungsinstrument zur Erfassung von Depressivität (Hautzinger & Meyer, 2002), für das eine vereinfachte und damit optimierte Entsprechung zur Verfügung zu haben sich lohnen würde. Nach Schmitt et al. (2003) sprachen zudem weitere Argumente für die Ergänzung des bestehenden Repertoires an depressionserfassenden Instrumenten um ein ökonomisiertes BDI: Die Verfügbarkeit verschiedener Instrumente zur Messung eines Konstrukts ermöglicht die Auswahl eines für den jeweiligen Verwendungszusammenhang am besten geeigneten Instrumentes (vorstellbar ist zum Beispiel, dass das Anbieten mehrerer ausformulierter Sätze unterschiedlicher Intensität pro Item in einem Interview ange- Theorie 43 nehmer zu handhaben ist als eine Intensitätsabstufung mittels eines Häufigkeitsformates, welches wiederum beim Ankreuzen im Selbstrating komfortabler ist). Mehrere Messverfahren für ein Konstrukt können unter bestimmten Umständen die Konstruktdifferenzierung voranbringen. Durch den Einsatz verschiedener Verfahren bei wiederholter Messung eines Konstrukts kann Testwiederholungseffekten entgegengewirkt werden. Mehrere Möglichkeiten zur Erfassung eines Konstruktes ermöglichen die Untersuchung von Methodenvarianz (Eid & Diener, 2006, zit. nach Schmitt et al., 2003, S. 148). Während die gut belegte Reliabilität und Validität des BDI nicht zur Debatte standen, ging es Schmitt und Maes (2000) also um die Verbesserung der Ökonomie und Nützlichkeit des Verfahrens. Das Gütekriterium der Ökonomie verlangt, dass ein Verfahren möglichst wenige Ressourcen beanspruchen sollte, womit insbesondere zeitliche und finanzielle Aufwendungen gemeint sind. Jeder Aufwand sollte durch den diagnostischen Erkenntnisgewinn gerechtfertigt sein (Schermelleh-Engel et al., 2006). Ein Verfahren erfüllt das Gütekriterium der Nützlichkeit zunächst dann, wenn es praktische Relevanz besitzt und zu nutzbringenden Entscheidungen führt (Schermelleh-Engel et al., 2006). Dies stand (und steht) für das wohletablierte BDI nicht in Frage. Die Forderung wird darüber hinaus jedoch dahingehend erweitert, als für die Beurteilung der Nützlichkeit und damit praktischen Relevanz auch eine Rolle spielt, ob andere Verfahren existieren, welche eine diagnostische Fragestellung – bei übereinstimmender Erfüllung der anderen Gütekriterien – zu geringeren Kosten beantworten (Kubinger, 2003; Schermelleh-Engel et al., 2006). Beide Gütekriterien fordern also eine ganz bestimmte Relation zwischen Nutzen und Kosten (verstanden im weiteren Sinne nicht nur finanzieller Aufwendungen). Das Ziel der Vereinfachung war es demnach, eine Version des Fragebogens zu entwickeln, die den unumstritten hohen Nutzen mit geringeren Kosten verbindet. Von den 21 Symptomen des Originals wurden im verkürzten BDI (im Folgenden BDI-V; Schmitt & Maes, 2000) alle bis auf das Symptom des Gewichtsverlustes beibehalten, da dies in Untersuchungen grundsätzlich die geringste Trennschärfe aufwies (siehe z. B. Beck et al., 1961; Hautzinger et al., 1995; Schmitt & Maes, 2000). Die entscheidende Vereinfachung geschah dadurch, dass jedes Symptom nur noch über eine Theorie 44 Aussage, statt wie im Original durch vier Aussagen, operationalisiert wurde. Die Intensitätsskalierung fand nun über das Antwortformat statt, eine sechsstufige Häufigkeitsskala, deren Stufen durch die Ziffern 0, 1, 2, 3, 4 und 5 bezeichnet waren, die Endpunkte 0 bzw. 5 wurden zusätzlich sprachlich verankert durch die Begriffe „nie“ bzw. „fast immer“ (Schmitt & Maes, 2000). Statt 85 Aussagen (21 Items mit je vier Aussagen + eine Zusatzfrage das Item „Gewichtsverlust“ betreffend) müssen also nur noch 20 Aussagen gelesen und beurteilt werden (Schmitt et al., 2003). Tabelle 1 zeigt Beispiele, wie Items des BDI (linke Spalte) in Items des BDI-V (rechte Spalte) umgewandelt wurden. Das BDI-V findet Verwendung in der vorliegenden Untersuchung und ist deshalb in Anhang B.2.2 abgedruckt. 2.3.3 BDI und BDI-V im Vergleich Wie im Original sind die Items rechtsschief verteilt, sie bleiben also schwierig (Schmitt & Maes, 2000). Schmitt & Maes (2000) wiesen eine sehr hohe Reliabilität des neuen Verfahrens nach. Die interne Konsistenz α betrug .90, eine Latent-State-Trait-Analyse ergab eine Reliabilität von .95 für den Summenwert. Nach diesen Ergebnissen und im direkten Vergleich (Schmitt et al., 2003) war das BDI-V etwas reliabler als das Original. Die mittlere Itemtrennschärfe des BDI-V belief sich in einer klinisch unauffälligen Stichprobe (N = 200) auf .60 (minimale Itemtrennschärfe .35, maximale Itemtrennschärfe .79), in einer kleinen Stichprobe depressiver Patienten (N = 60) auf .42 (Minimum .16, Maximum .64); und in einer aus diesen beiden und weiteren klinischen Stichproben zusammengesetzten Gesamtstichprobe (N = 310) auf .67 (Minimum .46, Maximum .80). Stellt man diesen Werten die mittleren Itemtrennschärfen gegenüber, die sich in denselben Stichproben für das BDI ergaben, so erwiesen sich die Items des BDI-V in jedem Falle als trennschärfer (Schmitt et al., 2003). Im direkten Vergleich zeigte sich auch eine etwas höhere Homogenität des BDI-V; so betrug die durchschnittliche Interkorrelation der Items des BDI-V in der eben erwähnten klinisch unauffälligen Stichprobe .39, die mittlere Interkorrelation der Items des BDI lag in der gleichen Stichprobe bei .21 (Schmitt et al., 2003). Korrelationen des BDI-V mit weiteren Skalen, wie beispielsweise solche zur Erfassung der Seelischen Gesundheit, des Selbstwertgefühls, verschiedener Aspekte der Lebenszufriedenheit oder von Kontrollierbarkeitsüberzeugungen entsprachen den Erwartungen und ließen sich daher als Indikatoren der konvergenten Konstruktvalidität werten; eben- Theorie 45 so fielen Zusammenhänge mit demographischen Variablen erwartungsgemäß aus (Schmitt & Maes, 2000). Von besonderer Wichtigkeit für den Nachweis der Validität des veränderten Verfahrens waren die sehr hohen Korrelationen mit anderen Depressionsskalen und – in klinischen Stichproben – einem Expertenrating der Depressivität (Schmitt et al., 2003). Hinweise auf die Entsprechung der Messeigenschaften des etablierten Verfahrens und der verkürzten Version ergaben sich sowohl auf deskriptiver Ebene, wie auch in konfirmatorischen Faktorenanalysen (Schmitt et al., 2003). Die Korrelationen zwischen den Gesamtscores des BDI und BDI-V fielen in einer Bevölkerungs- wie in einer klinischen Stichprobe depressiver Patienten hoch aus (r = .82 resp., r = .88), noch höher in einer aus Bevölkerungs- und verschiedenen klinischen Stichproben zusammengesetzten Gesamtstichprobe (r = .91). Selbst auf Ebene der einzelnen Items ergaben sich im Mittel Korrelationen, deren Höhe die Autoren in Anbetracht der Tatsache, dass einzelne Items korreliert wurden, als „beträchtlich“ (Schmitt et al., 2003, S. 152) bewerten. Zudem fielen die Korrelationen des BDI und des BDI-V mit anderen Selbst- bzw. Fremdbeurteilungsinstrumenten für Depressivität jeweils nahezu identisch aus. Eine Überprüfung, ob „beide BDI-Versionen die einzelnen Symptome in ähnlicher Weise verorten, dem jeweiligen Symptom also eine eher zentrale oder eine eher periphere Bedeutung zuweisen“ (Schmitt et al., 2003, S. 151) über einen Vergleich der Trennschärfeprofile zeigte zufriedenstellende Ergebnisse (Spearman Rangkorrelationen der Trennschärfen: ϱp = .65 in der Bevölkerungsstichprobe, .61 in der Stichprobe depressiver Patienten bzw. .85 in der zusammengesetzten Stichprobe). Bezüglich des Vergleichs der differentialdiagnostischen Trennschärfe der beiden Versionen waren die Befunde nicht vollkommen eindeutig interpretierbar. Beide Verfahren trennten verschiedene klinische und nicht klinische Gruppen den Hypothesen entsprechend, unterschieden sich dabei aber leicht (und nicht statistisch signifikant). Der Nachweis hoher Konvergenz der Verfahren auf deskriptiver Ebene wurde um die inferenzstatistische Überprüfung der Messäquivalenz mittels konfirmatorischer Faktorenanalysen ergänzt. In der Gesamtstichprobe konnte ein Modell angenommen werden, in dem BDI und BDI-V auf latenter Ebene perfekt korrelierten, was dafür spricht, dass beide Versionen identisch sind (Schmitt et al., 2003). In der Bevölkerungsstichprobe ergab sich mit .95 eine Korrelation zwischen den beiden latenten Faktoren, welche BDI und BDI-V repräsentierten, die einer perfekten Korrelation sehr nahekam; ein Modell, Theorie 46 das die Korrelation auf 1 festlegte, ließ sich in dieser etwas kleineren Stichprobe mit geringerer Varianz nicht annehmen. Wenn auch keine absolute Messäquivalenz nachgewiesen werden konnte, so veranlassten die Ergebnisse die Autoren dennoch zu dem Schluss, „dass mit dem vereinfachten BDI ein Instrument zur Verfügung steht, welches in seiner Messqualität dem Original gleichwertig ist, dieses im Bereich der Messökonomie aber übertrifft“ (Schmitt et al., 2003, S. 155). 2.3.4 Die Entstehung der zweiten Ausgabe des Beck Depressionsinventars (BDI-II) Da das BDI rein klinisch entstanden war (Beck et al., 1961), lehnte es sich bislang nicht explizit an diagnostische Kriterien der Depression an. Mit der Veröffentlichung der dritten Revision des Diagnostischen und Statistischen Manuals Psychischer Störungen (DSM-III) der American Psychiatric Association (1980) wurde diese Diskrepanz zwischen den offiziellen Diagnosekriterien für depressive Erkrankungen und den in den Items des BDI abgebildeten Symptomen zunehmend Gegenstand von Diskussionen (Hautzinger et al., 2006). So fehlten zum Beispiel manche Symptome aus dem offiziellen Kriterienkatalog, andere Items bildeten Symptome ab, die nicht im Manual enthalten waren oder fragten ein Symptom nur unvollständig ab. Obwohl das BDI in keiner seiner Formen ein diagnostisches Instrument darstellt (Beck et al., 1961; Hautzinger et al., 2006), schien eine Übereinstimmung zwischen den diagnostischen Kriterien des Manuals und den Kriterien zur Bestimmung der Schwere einer depressiven Symptomatik mittels des BDI dennoch wünschenswert. Die 1996 von Beck et al. veröffentlichte Neuauflage des BDI als „BDI-II“, für die seit 2006 eine verbindliche, manualisierte deutsche Übersetzung von Hautzinger et al. vorliegt, zielte genau darauf ab. In Abstimmung auf die Diagnosekriterien für eine depressive Episode des zum Zeitpunkt der Revision vorliegenden DSM-IV5 (American Psychiatric Association, 1994) wurden, wie Hautzinger et al. (2006) berichten, … 5 Eine deutsche Übersetzung des DSM-IV liegt vor von Saß, Wittchen und Zaudig (1996). Die Kriterien für die Episode einer Major Depression, Diagnose einer Major Depression und Diagnose einer dysthymen Störung des DSM-IV sind identisch mit denen der Textrevision der vierten Auflage (DSM-IV-TR; American Psychiatric Association, 2000; deutsche Übersetzung von Saß et al., 2003), welche in Abschnitt 2.1.2 beschrieben sind. Theorie 47 … der in den Instruktionen abgefragte Bezugszeitraum von einer Woche im BDI („ …, wie Sie sich in dieser Woche einschließlich heute gefühlt haben …“ (Hautzinger et al., 1995)) auf zwei Wochen im BDI-II („…, wie Sie sich in den letzten zwei Wochen, einschließlich heute, gefühlt haben“ (Hautzinger et al., 2006)) erweitert … vier Items des BDI, die Symptome abbilden, welche nicht Gegenstand des offiziellen Kriterienkataloges des DSM sind, eliminiert; dies betraf die Items negatives Körperbild, Arbeitsunfähigkeit und Hypochondrie sowie außerdem das nicht aussagekräftige Item Gewichtsverlust … vier Items, die Symptome abbilden, welche Gegenstand des offiziellen Kriterienkataloges sind, jedoch bislang nicht im BDI enthalten waren, hinzugefügt; dies waren die Items Unruhe, Gefühl der Wertlosigkeit, Konzentrationsschwierigkeiten und Energieverlust … die Items Schlafstörungen und Appetitverlust jeweils dahingehend verändert bzw. erweitert, dass sie nicht mehr nur die Abnahme/Verschlechterung von Schlaf bzw. Appetit, sondern auch eine Zunahme von Schlaf bzw. Appetit abbilden können; dies wurde realisiert durch die Hinzunahme jeweils dreier Antwortalternativen … das Item sozialer Rückzug und Isolierung des BDI, durch Ausweiten der Frage zu nachlassendem Interesse auf Tätigkeiten und Dinge im Allgemeinen (zusätzlich zu Menschen) im BDI-II zum Item Interessenverlust erweitert Die weiteren Items wurden teilweise sprachlich mehr oder weniger stark überarbeitet, um die Verständlichkeit weiter zu erhöhen, z. B: durch Umformulierung einiger oder aller Antwortalternativen. Einige Items erhielten zudem eine neue Bezeichnung. Das Itemformat blieb unberührt. Das revidierte BDI (BDI-II) umfasst wie das ursprüngliche BDI 21 Items, welche nun die Symptomkategorien Traurigkeit, Pessimismus, Versagensgefühle, Verlust von Freude, Schuldgefühle, Bestrafungsgefühle, Selbstablehnung, Selbstvorwürfe, Selbstmordgedanken, Weinen, Unruhe, Interessenverlust, Entschlussunfähigkeit, Wertlosigkeit, Energieverlust, Veränderungen der Schlafgewohnheiten, Reizbarkeit, Veränderungen des Appetits, Konzentrationsschwierigkeiten, Ermüdung oder Erschöpfung und Verlust an sexuellem Interesse abfragten. Einen detaillierten Überblick über die Veränderungen der einzelnen Items des deutschsprachigen BDI-II gegenüber den Items des deutschsprachigen BDI sowie die Zuord- Theorie 48 nung der Items zu den Symptomkriterien (A-Kriterien) der Major Depression nach DSM-IV (American Psychiatric Association, 1994) beziehungsweise DSM-IV-TR (American Psychiatric Association, 2000)6, wie sie in Abschnitt 2.1.2 dargestellt wurden, ermöglicht Tabelle 15 in Anhang A7. Da das BDI-II in der vorliegenden Studie eingesetzt wird, findet es sich zudem vollständig in Anhang B.2.3. Wie für das BDI werden auch für das BDI-II sowohl für das englischsprachige Original, als auch für die deutsche Adaptation sehr gute psychometrische Eigenschaften berichtet (Übersichten siehe bei Hautzinger et al., 2006). Nach den Angaben im Manual (Hautzinger et al., 2006), die sich auf Untersuchgen des deutschen BDI-II beziehen, variierte Cronbach’s α zwischen .89 und .93, womit eine hohe interne Konsistenz bzw. Homogenität belegt ist. Die korrigierten Trennschärfen lagen in einer Stichprobe depressiver Patienten zwischen .43 und .77 (Durchschnitt .61), in einer Stichprobe gesunder Probanden etwas niedriger, zwischen .43 und .59 (Durchschnitt .52). Die Testwiederholungsreliabilität in nichtklinischen Stichproben über drei Wochen und über fünf Monate bewerten die Autoren als sehr zufriedenstellend. Korrelationen mit weiteren Skalen zur Selbst- oder Fremdbeurteilung der Depressivität fallen hoch aus, über erwartungsgemäße Korrelationen mit konstruktnahen und –fernen Skalen (wie zum Beispiel dem Selbstwertgefühl oder verschiedene Facetten der Selbstaufmerksamkeit) werden weitere Bestätigungen der konvergenten und wie auch der diskriminanten Validität erbracht. Eine Hauptkomponentenanalyse mit anschließender Promax-Rotation führte in einer Stichprobe depressiver Patienten sowie in einer Stichprobe Gesunder zur Annahme zweier hoch korrelierter Faktoren (Patientenstichprobe r = .68, gesunde Stichprobe r = .60), die sich Hautzinger et al. (2006) zufolge in beiden Stichproben als somatischaffektive und kognitive Dimensionen darstellten. Das einzige Item, das nicht in beiden Stichproben demselben Faktor zugeordnet werden konnte, ist das Item Traurigkeit. Es lädt in der Stichprobe der Patienten zusammen mit den anderen affektiven Items höher auf dem somatisch-affektiven Faktor, in der Stichprobe Gesunder jedoch auf dem kognitiven Faktor. Von einer klaren Einfachstruktur kann jedoch nicht gesprochen werden. Insbesondere einige Items, die der somatisch-affektiven Dimension zugeordnet sind, 6 Die beiden Auflagen unterscheiden sich wie beschrieben nicht in den Kriterien der Major Depression Eine entsprechende Aufstellung der Änderungen der Items des BDI-II im Vergleich mit den Items des BDI für die englischsprachige Originalversion findet sich bei Interesse in Hautzinger et al., 2006, S. 9 7 Theorie 49 weisen beträchtliche Nebenladungen auf der kognitiven Dimension auf, so auch das genannte Item Traurigkeit in der Patientenstichprobe (umgekehrt besteht eine Nebenladung dieses Items auf dem somatisch-affektiven Faktor in der Lösung für die gesunde Stichprobe). Hautzinger et al (2006) stellen zahlreiche internationale Untersuchungen der Faktorstruktur des BDI-II zusammen. Ähnlich ihren Befunden in den deutschen Stichproben werden die Zusammenhänge der Items auch in der Mehrzahl internationaler Studien am besten durch zwei hoch korrelierende Faktoren abgebildet, die sich in psychiatrischen Stichproben grundsätzlich als somatisch-affektiver und kognitiver Faktor interpretieren lassen, während in nicht-psychiatrischen Stichproben (vorwiegend studentische Stichproben) das Ladungsmuster eher einen kognitiv-affektiven und einen somatischen Faktor ergibt. 2.3.5 BDI und BDI-II im Vergleich Die amerikanischen Originalausgaben von BDI und BDI-II korrelieren sehr hoch (z. B. zu .93 in einer Untersuchung von Dozois, Dobson & Ahnberg, 1998; etwas niedrigere Korrelationen berichten Beck et al., 1996, zit. nach Hautzinger et al., 2006, S. 10)8. Der Summenwert des BDI-II scheint im Durchschnitt leicht (etwa 1 – 3 Punkte) über dem des BDI zu liegen (Beck et al., 1996, zit. nach Hautzinger et al., S. 10; Dozois et al., 1998). Dozois et al. (1998) kommen in ihrer Untersuchung, die die beiden Versionen des Inventars einer sehr großen studentischen Stichprobe vorlegte, zu dem Schluss, dass „in general, (…) the psychometric characteristics of the BDI-II are highly congruent with the BDI“ (S. 87). Beide Inventare wiesen in der Studie ähnlich hohe interne Konsistenzen auf (BDI: α = .89, BDI-II α = .91) und die korrelativen Zusammenhänge zwischen den Items wurden in beiden Versionen am besten durch eine zwei-Faktor-Lösung mit obliquen Faktoren beschrieben, wenn auch die Faktorstruktur des BDI-II klarer ausgeprägt war und die Revision somit in dieser Hinsicht ein stärkeres Instrument als die Erstauflage darstellt. Für die deutschen Ausgaben des BDI sind der Autorin keine Untersuchungen, die das BDI und das BDI-II parallel eingesetzt hätten, bekannt. 8 Das Manual zur amerikanischen Originalauflage (Beck et al., 1996) ließ sich trotz intensivster Bemühungen nicht beschaffen Theorie 50 2.3.6 Ein Vorschlag zur Vereinfachung der zweiten Ausgabe des Beck Depressionsinventars (BDI-II-V) Unbesehen der sehr guten messtheoretischen Eigenschaften des BDI-II (Hautzinger et al., 2006), kann man – entsprechend der Kritik am BDI (Schmitt et al., 2003; Schmitt & Maes, 2000) – die Frage stellen, ob sich die Ökonomie des Verfahrens im Hinblick auf zeitliche und kognitive Belastung der Patienten oder Probanden beim Ausfüllen (sowie der mit der Auswertung betrauten Mitarbeiter von Kliniken oder Forschungsinstitutionen) noch optimieren ließe. So hat diese Arbeit sich den Versuch zum Ziel gesetzt, analog der Ergänzung des BDI (Hautzinger et al., 1994) durch eine ökonomischere Variante durch Schmitt und Maes (2000), auch dem BDI-II (Hautzinger et al., 2006) eine verkürzte Version zur Seite zu stellen. Neben den zahlreichen im Zusammenhang mit der Darstellung der Verkürzung des BDI in Abschnitt 2.3.2 bereits ausgeführten Vorteilen, die mit der Existenz einer Kurzversion des weltweit geschätzten und vielfach eingesetzten BDI verbunden sind, spricht ein weiteres Argument für die analoge Erstellung einer Kurzversion des BDI-II: Mit einer vereinfachten Version dieses Instruments stünde ein sehr ökonomisches Verfahren zur Verfügung, welches Depressivität wie das BDI-II in enger Abstimmung mit den diagnostischen Kriterien der Depression nach DSM-IV (American Psychiatric Association, 1994) beziehungsweise DSM-IV-TR (American Psychiatric Association, 2000) abbilden würde. Dieser Umstand würde auch einen Unterschied zu bereits verfügbaren und ebenfalls ökonomischen Verfahren zur Erfassung von Depressivität (Beispiele siehe Abschnitt 2.3.2) darstellen, die nicht explizit an offizielle diagnostische Kriterien der Depression angelehnt sind. Die Entwicklung des Vorschlages für eine vereinfachte Variante des BDI-II, basierend auf der deutschen Übersetzung des Verfahrens von Hautzinger et al. (2006), für die die Bezeichnung BDI-II-V (V für verkürzt oder vereinfacht) gewählt werden soll, erfolgte entsprechend dem Vorgehen von Schmitt und Maes (2000) bei der Erstellung des BDI-V und wird nachfolgend beschrieben. Die vier Aussagen eines jeden Items wurden in einem Statement zusammengefasst, zu dem auf einer sechsstufigen Häufigkeitsskala von 0 (nie) bis 5 (fast immer) Stellung bezogen werden kann. Dieses Antwortformat bildet damit anstelle der sich steigernden Formulierungen die Intensität des jeweiligen Symptoms ab. Alle Items wurden mög- Theorie 51 lichst prägnant und kurz formuliert und in Richtung des Symptoms gepolt. In Anpassung an das Häufigkeitsformat der Antwortskala wurden die Items zur Vermeidung doppelter Verneinung positiv formuliert, zudem wurde im Unterschied zum Original auf die Verwendung des Perfekts sowie auf zeitliche Adverbien (oft, ständig, …) verzichtet. Insbesondere zeitliche Vergleiche (als früher, als sonst, …), wie sie in den Statements des BDI-II häufig vorkommen, sollten ebenso vermieden werden, was bis auf einen Fall, in dem sich die Formulierungsfindung sehr schwierig gestaltete (s.u.), gelang. Insgesamt orientierte sich die Umwandlung an dem Prinzip, die Items so weit abzuwandeln, wie es nötig erschien, um sie in das neue Format zu bringen, dabei jedoch so nah wie möglich an Inhalt und Formulierung der Original-Items zu bleiben. Hatten sich zwischen den Items des deutschen BDI und des deutschen BDI-II keine oder nur minimale Veränderungen ergeben, wurde in den meisten Fällen die Formulierung des auf dem BDI beruhenden BDI-V übernommen. Tabelle 2 veranschaulicht an zwei Beispielen, wie die Items des BDI-II (linke Spalte) zu Items des BDI-II-V (rechte Spalte) umformuliert wurden. Alle 21 Items des BDI-II wurden beibehalten. Tabelle 2 Beispiele für Items des BDI-II und entsprechende Items des BDI-II-V BDI-II♠ BDI-II-V Item 14 (Wertlosigkeit) Item 14 0 Ich fühle mich nicht wertlos 1 Ich halte mich für weniger nützlich als sonst 2 Verglichen mit anderen Menschen fühle ich mich viel weniger wert 3 Ich fühle mich völlig wertlos Ich fühle mich wertlos (nie … fast immer) Item 19 (Konzentrationsschwierigkeiten) Item 19 0 Ich kann mich so gut konzentrieren wie immer 1 Ich kann mich nicht mehr so gut konzentrieren wie sonst 2 Es fällt mir schwer, mich längere Zeit auf irgend etwas zu konzentrieren 3 Ich kann mich überhaupt nicht mehr konzentrieren Es fällt mir schwer, mich zu konzentrieren (nie … fast immer) Anmerkungen. ♠ (Hautzinger et al., 2006) Theorie 52 Für die sieben Items Weinen, Interessenverlust, Energieverlust, Veränderungen der Schlafgewohnheiten, Veränderungen des Appetits, Konzentrationsschwierigkeiten und Verlust an sexuellem Interesse (zur Formulierung der Items im Original BDI-II siehe Anhang B.2.3) gestaltete sich die Suche nach geeigneten Formulierungen am schwierigsten, weshalb zur Entscheidungsfindung ein Gremium aus Fachleuten hinzugezogen wurde. Im Kolloquium der Arbeitseinheit Diagnostik, Differentielle- und Persönlichkeitspsychologie, Methodik und Evaluation des Fachbereichs Psychologie der Universität Koblenz-Landau, an welchem Mitarbeiter sowie Diplomanden des Arbeitsbereiches teilnahmen, wurden für jedes der Items verschiedene Alternativen diskutiert und im Hinblick auf die Verbindung von intuitiver Verständlichkeit mit maximaler Nähe zur Originalformulierung des BDI-II bewertet. Auf diesem Wege fiel die Entscheidung für eine Formulierung. Besondere Schwierigkeiten bereiteten dabei weiterhin die Items zu Veränderungen der Schlafgewohnheiten und Veränderungen des Appetits. Wie oben dargelegt, wurden diese im BDI-II um jeweils drei Aussagen erweitert, die – um den Kriterien des DSM-IV gerecht zu werden – neben der Abnahme von Schlaf respektive Appetit auch eine Zunahme von Schlaf respektive Appetit abfragten (siehe Tabelle 3, linke Spalte). Die Instruktion des BDI-II verlangt dabei von den Probanden, pro Item wie üblich nur ein Kreuz zu setzen (Näheres zur Instruktion des Beck Depressionsinventars im Allgemeinen in Abschnitt 4.1.1; Spezielles zur Auswertung dieser beiden Items in Abschnitt 4.7.2). Die Umsetzung dieser Itemform im BDI-II-V fiel deswegen schwer, weil sich kaum eine passend anmutende Formulierung finden ließ, die jeweils Zu- und Abnahme von Schlaf beziehungsweise Appetit in einem Statement – wie es dem Aufbau des BDI-II-V gerecht geworden wäre – abfragte. Die Kolloquiumsteilnehmer sprachen sich dabei zwar für die Formulierungen „Ich leide unter Schlafstörungen“ respektive „Mein Appetit ist anders als früher“ (siehe Tabelle 3, mittlere Spalte) aus, man war sich jedoch nicht sicher, ob es sich bei diesen Varianten um eine zufriedenstellende Lösung handelte. Insbesondere wurde zu dem Begriff „Schlafstörungen“ eingewandt, dass diese Formulierung bei den meisten Menschen möglicherweise viel mehr mit Ein- und Durchschlafstörungen assoziiert sein könnte, als mit einer Zunahme von Schlaf. Aus diesem Grunde wurden Möglichkeiten eruiert, die Items zu Schlaf und Appetit im BDI-II-V jeweils über zwei getrennte Aussagen abzufragen, von denen beide von den Probanden beantwortet werden sollten. Auch dazu wurden Alternativvorschläge innerhalb des Kreises der Kolloquiumsteilnehmer abgestimmt; das Ergebnis ist in Tabelle 3, rechte Spalte abgetragen. Theorie Tabelle 3 53 Die Items Veränderungen der Schlafgewohnheiten und Veränderungen des Appetits des BDI-II und entsprechende Items des BDI-II-V BDI-II♠ BDI-II-V.1 BDI-II-V.2 Item 16 Item 16 Item 16 & 17 0 Meine Schlafgewohnheiten haben sich nicht verändert 1a Ich schlafe etwas mehr als sonst 1b Ich schlafe etwas weniger als sonst 2a Ich schlafe viel mehr als sonst 2b Ich schlafe viel weniger als sonst 3a Ich schlafe fast den ganzen Tag 3b Ich wache 1-2 Stunden früher auf als gewöhnlich und kann nicht mehr einschlafen Ich leide unter Schlafstörungen (nie … fast immer) Ich schlafe außergewöhnlich wenig (nie … fast immer) Item 18 Item 18 (Veränderungen der Schlafgewohnheiten) Ich schlafe außergewöhnlich viel (nie … fast immer) Item 19 & 20 (Veränderungen des Appetits) 0 Mein Appetit hat sich nicht Mein Appetit ist anders verändert als früher 1a Mein Appetit ist etwas (nie … fast immer) schlechter als sonst 1b Mein Appetit ist etwas größer als sonst 2a Mein Appetit ist viel schlechter als sonst 2b Mein Appetit ist viel größer als sonst 3a Ich habe überhaupt keinen Appetit 3b Ich habe ständig Heißhunger Ich habe außergewöhnlich wenig Appetit (nie … fast immer) Ich habe außergewöhnlich viel Appetit (nie … fast immer) Anmerkungen. ♠ (Hautzinger et al., 2006) Schließlich wurde entschieden, zunächst zwei Versionen des BDI-II-V zu entwerfen, eine Version, in der die Items zu Schlaf und Appetit in einem Statement abgefragt wurden (BDI-II-V.1, siehe Tabelle 3, mittlere Spalte) und eine Version, in der die Items in Theorie 54 je zwei Statements abgefragt wurden (BDI-II-V.2, siehe Tabelle 3, rechte Spalte). Alle anderen Items waren zwischen den beiden Versionen des BDI-II-V (1 und 2) identisch. Die Instruktionen des neuen Fragebogens wurden – in Anlehnung an den BDI-V sowie den BDI-II – eingeleitet mit der Beschreibung „In diesem Fragebogen geht es um Ihr gegenwärtiges Lebensgefühl. Bitte geben Sie zu jeder Frage an, wie häufig Sie die genannte Stimmung oder Sichtweise in den letzten zwei Wochen, einschließlich heute, erlebt haben. (…)“. Die vollständigen Instruktionen, das Layout und alle Items der Fragebögen BDI-II-V.1 und BDI-II-V.2 können Anhang B.2.4 und B.2.5 entnommen werden. Entsprechend dem BDI, dem BDI-V und dem BDI-II erfolgt die Berechnung eines Gesamtwertes für das BDI-II-V.1 und BDI-II-V.2 durch Aufsummieren der angekreuzten Ziffern aller Items. Alles zu Auswertung und Wertebereich des BDI-II-V.1 und .2 sowie der weiteren verwendeten BDI-Formen findet sich in Abschnitt 4.7.2. Dort wird auch erläutert, wie neben einer getrennten Auswertung und Untersuchung des BDI-II-V.1 und des BDI-II-V.2 in den jeweiligen Teilstichproben auch eine gemeinsame Auswertung in der Gesamtstichprobe durch Zusammenfassung der beiden Unterformen zum BDI-II-V erfolgen kann. Tabelle 16 in Anhang A stellt den Bezug zwischen den Symptomkategorien des Beck Depressionsinventars und den in Abschnitt 2.1.2 dargestellten Symptomkriterien (AKriterien) der Major Depression nach DSM-V beziehungsweise DSM-V-TR her und bietet zudem die Möglichkeit des direkten Vergleichs der Items aller vier in der vorliegenden Untersuchung eingesetzten Versionen des Beck Depressionsinventars zu jeder Symptomkategorie. Damit die Möglichkeit besteht, ein verkürztes BDI-II in Verwendungszusammenhängen, in denen dies nützlich scheint, an Stelle des BDI-II einzusetzen, muss nachgewiesen werden, dass es dem Original messtheoretisch äquivalent ist. Der Messäquivalenz in der Klassischen Testtheorie und ihrem inferenzstatistischen Nachweis widmet sich der folgende Abschnitt. Theorie 55 2.4 Messäquivalenz Messäquivalenz bedeutet, dass Variablen (zum Beispiel Tests oder Subtests) das Gleiche messen. Der Begriff besitzt dabei keine allgemeingültige Definition. Messäquivalenz (auch Messinvarianz) kann in den unterschiedlichsten Verwendungszusammenhängen, auf verschiedenen Ebenen und unter Berücksichtigung unterschiedlicher Aspekte definiert und überprüft werden. Sehr häufig wird die Frage untersucht, ob ein und derselbe Fragebogen in verschiedenen Subgruppen, zum Beispiel bei Männern und Frauen, das Gleiche misst oder ob verschiedene Versionen eines Fragebogens in verschiedenen Subgruppen das Gleiche messen, zum Beispiel ob Übersetzungen eines Fragebogens in verschiedenen Kulturen Vergleichbares messen (wie Byrne, Stewart, Kennard & Lee, 2007) oder ob Resultate, die sich mit einer Selbstrating-Form und einer Fremdrating-Form erzielen lassen, übereinstimmen (wie Han, Burns, Weed, Hatchett & Kurokawa, 2009). Dabei kann die Entsprechung struktureller Aspekte der Fragebögen im Vordergrund stehen oder auch die Entsprechung konkreter Ergebnisse, die Probanden in den Fragebögen erreichen (Brown, 2006). Diese Arbeit wird der Frage nachgehen, ob die verschiedenen Versionen des im vorangegangenen Kapitel vorgestellten Beck Depressionsinventars das Gleiche messen, d.h. messäquivalent sind. Dabei wird jedoch nicht verglichen, ob die Inventare in verschiedenen Subgruppen Äquivalentes erfassen, sondern ob das diagnostische Ergebnis, das Probanden gemäß einem der Inventare erzielen, mit dem vergleichbar ist, das sich für diese Probanden gemäß anderen Versionen des Inventars ergibt. Eine theoretische Schule, die exakte Definitionen verschiedener Stufen von Messäquivalenz, denen Variablen (zum Beispiel Fragebögen) genügen können, vorgenommen hat, ist die Klassische Testtheorie (KTT; Gulliksen, 1950; Lord & Novick, 1968). Eine Ergänzung und Alternative zur Klassischen Testtheorie stellt die Item Response Theorie (IRT; siehe z. B. Moosbrugger, 2007a) dar, in deren Rahmen die Messäquivalenz auf anderen Wegen ermittelt werden kann (Differential Option, Test und Item Functioning; z. B. Nye, Newman & Joseph, 2010). Die Analysen dieser Arbeit werden jedoch auf die Konzepte der Klassischen Testtheorie Bezug nehmen, weswegen sie im Folgenden vorgestellt werden soll. Dazu wird zunächst ein Überblick über die Klassische Testtheorie und ihre Grundprinzipien gegeben, um dann die in Messmodellen festgeschriebenen, verschieden strengen Stufen der Ähn- Theorie 56 lichkeit oder Äquivalenz von Variablen darzustellen. Schließlich wird die Möglichkeit der Überprüfung dieser Messmodelle und damit der Äquivalenz von Variablen erläutert. Der Leser möge darauf hingewiesen sein, dass der Begriff der Messäquivalenz im weiteren Verlauf dieser Arbeit grundsätzlich als theoretisch nicht verankerter Überbegriff für die (psychometrische) Gleichwertigkeit oder Entsprechung von Variablen verwendet wird. Ist dagegen von Messäquivalenz im Sinnes eines der Modelle der Klassischen Testtheorie, wie sie im Folgenden eingeführt werden, die Rede, wird der entsprechende Fachterminus (zum Beispiel essentielle τ-Äquivalenz) verwendet. 2.4.1 Die Klassische Testtheorie Die Klassische Testtheorie, auch Messfehlertheorie, bildet seit mehr als 50 Jahren eine theoretische Grundlage für die Konstruktion und Interpretation von Testverfahren (Moosbrugger, 2007b). Auch wenn sie mittlerweile durch die Item-Response-Theorie ergänzt wurde und auch teilweise ersetzt werden kann (Moosbrugger, 2007a), ist sie weiterhin von hoher Bedeutung. Ein Großteil der aktuell eingesetzten psychodiagnostischen Verfahren basiert auf den Konstruktionsprinzipien der Klassischen Testtheorie (Moosbrugger, 2007b). Die zentrale Grundannahme der Klassischen Testtheorie lautet, dass jeder Testwert einer Person, z. B. eine Antwort auf ein Testitem, zusammengesetzt ist aus einem wahren Anteil, dem wahren Wert oder englisch „True Score“, und einem zufälligen Messfehleranteil (Moosbrugger, 2007b). Der wahre Wert entspricht der tatsächlichen Merkmalsausprägung der Person auf der in Frage stehenden Dimension, z. B. ihrer wahren Intelligenz. Das entscheidende Charakteristikum des Messfehlers ist seine Definition als unsystematischer und zufälliger Einfluss auf das Messergebnis, welcher vom wahren Wert unabhängig sein muss. Aus diesen Konzeptionen des wahren Wertes und des Messfehlers folgt zum einen, dass der bedingte und der unbedingte Erwartungswert des Messfehlers Null sind (Steyer & Eid, 2001). Zum anderen folgt, dass der Messfehler nicht nur (wie oben schon in der Definition enthalten) unkorreliert ist mit dem TrueScore-Anteil der gemessenen Variable, sagen wir: Variable Yi, sondern ebenfalls nicht korreliert mit dem True Score einer anderen, ebenfalls gemessenen Variable, nennen wir sie Variable Yj (Steyer & Eid, 2001). Die Annahme der Unkorreliertheit der Messfehler untereinander, also die Voraussetzung, dass der Messefehler einer Variable Yi Theorie 57 nicht mit dem Messfehler einer Variablen Yj korrelieren darf, gilt dagegen – wie Steyer und Eid (2001) betonen – nicht unbedingt, auch wenn dies ursprünglich in der Literatur zur Klassischen Testtheorie (z. B. Gulliksen, 1950; Lord & Novick, 1968) angenommen wurde. Sie ist lediglich eine Zusatzannahme, die einen Bestandteil der Modelle der Klassischen Testtheorie, welche im Folgenden beschrieben werden, und eine Voraussetzung zur Bestimmung der Reliabilität in der Klassischen Testtheorie darstellt (Moosbrugger, 2007b; Steyer & Eid, 2001), aber keine unbedingte Folge der Definitionen von wahrem Wert und Fehler. Sie kann in der Realität daher unerfüllt sein und muss bei bestimmten Formen der Modellprüfung und vor der Bestimmung der Reliabilität überprüft werden (Steyer & Eid, 2001). Die zentrale Grundannahme der Klassischen Testtheorie von der additiven Zusammensetzung eines jeden Testwertes (hier: Ymi für den Wert einer Person m auf dem Item i) aus den zwei Komponenten wahrer Wert (τ, tau für „True Score“) und Messfehler (ε, epsilon für „error score“) kann als mathematische Gleichung formuliert werden (Eid, Gollwitzer & Schmitt, 2010, S.818): (F1) Über mehrere Personen hinweg lautet die Grundgleichung (Eid et al., 2010, S. 818): (F2) Die Varianz einer an mehreren Personen beobachteten Variable Yi speist sich gemäß der Grundannahme der Klassischen Testtheorie damit aus den beiden Quellen wahre Unterschiede zwischen Personen und messfehlerbedingte Unterschiede zwischen Personen (Eid et al., 2010). In diese beiden Bestandteile, Varianz der True-Score-Variablen und Varianz der Messfehlervariablen, kann die Gesamtvarianz einer Variablen demnach additiv zerlegt werden (Eid et al., 2010, S. 819): ( ) ( ) ( ) (F3) 2.4.2 Die Messmodelle der Klassischen Testtheorie Die Messmodelle der Klassischen Testtheorie formulieren unterschiedlich strenge Homogenitätsanforderungen, welchen ein Instrument, oder etwas allgemeiner, ein Satz an Variablen, von denen ich annehme, dass sie das gleiche Merkmal messen, genügen Theorie 58 kann, aber nicht muss (Eid et al., 2010). Variablen steht hier und im Folgenden also für einzelne Messungen desselben Merkmals. Es kann sich dabei zum Beispiel um mehrere Subskalen eines Tests handeln, welche jeweils eine Summe aus mehreren Items darstellen. Ebenso kann es sich um Summenwerte von vollständigen Fragebögen oder Tests handeln, die vorgeben, dasselbe Merkmal zu messen. Theoretisch könnten die Variablen eben auch einzelne Items eines Tests sein. Dies kann allerdings insofern problematisch sein, als die Modelle der Klassischen Testtheorie metrische Variablen voraussetzen (Eid et al., 2010), eine Bedingung, die beispielsweise nur dreifach gestufte Items nicht im strengen Sinne erfüllen. Folgende fünf Messmodelle werden in der Klassischen Testtheorie unterschieden (Eid et al., 2010): das Modell τ-kongenerischer Variablen das Modell essentiell τ-äquivalenter Variablen das Modell essentiell τ-paralleler Variablen das Modell τ-äquivalenter Variablen das Modell τ-paralleler Variablen Jedes dieser Modelle macht unterschiedlich strenge Annahmen bzw. Vorschriften, welche erfüllt sein müssen, um von hinreichender Ähnlichkeit oder Messäquivalenz der Variablen im Sinne des jeweiligen Modells sprechen zu dürfen. In Bezug auf die (Menge an) Anforderungen, die an die Variablen hinsichtlich ihrer Gleichwertigkeit gestellt werden, stehen die Modelle in einer hierarchischen Beziehung zueinander (Eid et al., 2010): Das Modell τ-kongenerischer Variablen stellt das Grundmodell dar, auf dem alle weiteren Modelle basieren. Es ist ein minimales Modell, welches am wenigsten Voraussetzungen formuliert, und wird somit am leichtesten erfüllt. Damit ist es aber auch das am wenigsten strenge Modell, dessen Variablen nur die niedrigste Stufe der Gleichwertigkeit erfüllen. Die zweite Stufe stellt das Modell essentiell τ-äquivalenter Variablen dar. Das Modell essentiell τ-paralleler Variablen und das Modell τ-äquivalenter Variablen teilen sich die dritte Stufe der Hierarchie; unter dem Gesichtspunkt der Menge an Voraussetzungen, die an die Variablen gestellt werden, können sie als gleichwertig gelten. Das Modell τ-paralleler Variablen schließlich ist das höchste in der Hierarchie, welches die meisten und strengsten Voraussetzungen an die Gleichwertigkeit von Vari- Theorie 59 ablen stellt. Modelle, die in der Hierarchie höher stehen, erfüllen auch die Voraussetzungen von Modellen niedrigeren Niveaus. Diese Annahmen und damit das Vorliegen von unterschiedlich differenzierten Niveaus der Messäquivalenz können überprüft werden, wie später erläutert wird. 2.4.2.1 τ-Kongenerität (Das Modell τ-kongenerischer Variablen) Wie beschrieben, handelt es sich hier um das Basismodell der Klassischen Testtheorie. Die Modelle der Klassischen Testtheorie bilden die Beziehungen von Variablen, die dasselbe Merkmal messen, sparsam und übersichtlich ab, indem dieses eine Merkmal als gemeinsame latente Variable modelliert wird, mit dem alle Variablen verknüpft werden (Eid et al., 2010). Diese wird auch latente Dimension oder Faktor genannt und mit η bezeichnet. In aller Regel wird dabei angenommen, dass die latente Dimension den True-ScoreAnteil der beobachteten Werte auf den manifesten Variablen, auch Indikatoren genannt, „verursacht“ (Eid et al., 2010), dass diese Werte also von der Ausprägung des Faktors abhängen9. Dem Modell der Klassischen Testtheorie entsprechend setzt sich jede beobachtete Variable additiv aus dem True-Score-Anteil und dem Messefehler-Anteil zusammen (s.o.). Der True-Score-Anteil ist der Teil, der von der latenten Variablen verursacht wird. Der Messfehleranteil – oder, etwas allgemeiner, Residualanteil – ist der Teil, der nicht von der in Frage stehenden latenten Variablen, sondern von anderen Einflüssen abhängt, die in den Modellen der Klassischen Testtheorie als unsystematische Messfehler konzipiert sind10. 9 Man spricht in diesem Falle von reflektiven Indikatoren. Manchmal ist jedoch die umgekehrte Konzeption sinnvoller. In diesem Falle, wenn das Modell also davon ausgeht, dass die Indikatoren der „Grund“ für die latente Variable sind, wie bspw. beim Konzept des „Sozioökonomischen Status“, spricht man von formativen Indikatoren (Brown, 2006). Dieser Spezialfall wird in dieser Arbeit jedoch keine Rolle spielen. 10 Dies gilt für die hier beschriebenen True-Score-Modelle. Mehrdimensionale Faktorenanalytische Modelle nehmen häufig an, dass der nicht durch eine latente Variable bestimmte Anteil der Varianz einer manifesten Variablen ebenfalls wieder aus zwei Anteilen zusammengesetzt ist, dem Messfehler und darüber hinaus einen indikatorspezifischen weiteren True-Score-Anteil, der aber nicht mit anderen Variablen im Modell geteilt wird. Messfehler und indikatorspezifischer True-Score-Anteil werden unter dem Begriff der uniqueness zusammengefasst, lassen sich jedoch ohne die Hinzunahme weiterer Indikatoren, mit denen die entsprechende manifeste Variable Varianz teilt, nicht voneinander trennen (Eid et al., 2010). Theorie 60 Die zentrale Annahme des Modells τ-kongenerischer Variablen betrifft die Messfehler: Diese variablenspezifischen Messfehler müssen voneinander unabhängig sein (Eid et al., 2010). Es darf keine Korrelation geben zwischen dem Fehleranteil der Variablen Yi und dem Fehleranteil der Variablen Yj oder Yk oder Yl (das heißt, diese Vorschrift gilt für alle Messfehlerpaare). Die Annahme der Unkorreliertheit der Messfehler ist ebenso die Grundvoraussetzung aller anderen Modelle, wird dort aber jeweils um weitere Bedingungen ergänzt, wie unten beschrieben wird. In der inhaltlichen Betrachtung der Modelle bedeutet dies, dass die Zusammenhänge zwischen den Variablen (Yi, Yj, Yk und Yl) im Modell vollständig durch die latente Variable η erklärt werden müssen, wenn das Modell τ-kongenerischer Variablen (oder irgendein anderes der Modelle der Klassischen Testtheorie) gelten soll (Eid et al., 2010). „Dass die beobachteten Variablen (…) miteinander korrelieren, darf – dem Modell zufolge – nur daran liegen, dass sie das gleiche Merkmal messen, und nicht daran, dass es gemeinsame Messfehlereinflüsse gibt“ (Eid et al., 2010, S. 827). Die True-ScoreVariablen sind dann lineare Transformationen voneinander und von der latenten Variablen (Eid et al., 2010). Die unterste Homogenitätsanforderung, die für alle Modelle der Klassischen Testtheorie gilt, ist damit die der Eindimensionalität. Alle Variablen dürfen nur einen einzigen True-Score messen. Lässt sich die Annahme unkorrelierter Messfehler nicht halten, muss davon ausgegangen werden, dass die Variablen im Modell, die korrelierte Messfehler aufweisen, mehr als eine gemeinsame latente Dimension erfassen (Eid et al., 2010). Das Modell wäre dann nicht mehr unidimensional, sondern multidimensional (Eid et al., 2010). Dabei können multidimensionale Modelle wiederum aus unidimensionalen Modellen aufgebaut sein – dann, wenn jeder Indikator (manifeste Variable) im Modell nur einer der latenten Variablen im Modell „zugeordnet“ ist, also keine Doppelladungen aufweist11 (Brown, 2006). Ein Indikator (Item, Variable) wird immer dann als kongenerisch bezeichnet, wenn er in einem Modell auf nur einem Faktor lädt (Brown, 2006). 11 Jedenfalls entsprechend moderner Auffassungen; früher wurde der Begriff „kongenerisch“ tatsächlich nur für 1-Faktor-Messmodelle verwendet (Brown, 2006). Theorie 61 Dabei dürfen sich die einzelnen Variablen jedoch in bestimmten Parametern unterscheiden, und zwar je nach Modell in unterschiedlichen und unterschiedlich vielen Parametern. Im τ-kongenerischen Modell dürfen sich die beobachteten Variablen in drei Belangen voneinander unterscheiden. Zwei Unterschiede beziehen sich auf den True-Score-Anteil: Die Variablen dürfen unterschiedlich schwierig sein (Eid et al., 2010), das heißt, sie erfassen zwar das gleiche Merkmal, doch kann man manchen Items eher zustimmen (bzw. sie leichter lösen) als andere(n), wobei sich diese Differenz bei allen Personen, die dieses Item bearbeiten, zeigt (siehe dazu ausführlicher unten). Dazu wird in die Gleichung (siehe Tabelle 4) der Leichtigkeitsparameter α eingeführt. Außerdem dürfen bei τ-kongenerischen Variablen „die linearen Abhängigkeiten der True-Score-Variablen von der latenten Variablen η durch unterschiedliche Steigungskoeffizienten gekennzeichnet“ sein (Eid et al., 2010, S. 835). Dies kann unterschiedliche Ursachen haben. Zum einen kann es aus unterschiedlichen Maßeinheiten (Metrik) der verschiedenen manifesten Variablen resultieren (Eid et al., 2010), zum Beispiel wenn ein Indikator auf einer vierstufigen Likert-Skala gemessen wurde, der andere aber auf einer stufenlosen visuellen Analogskala, deren Enden bei 0 und 100 verankert sind. Zum anderen kann dies eine unterschiedliche Diskriminationsfähigkeit der Variablen bedeuten (Eid et al., 2010), die sich zum Beispiel ergibt, wenn zwei Variablen „das zu messende Merkmal in unterschiedlicher Stärke ansprechen“ (S. 836). Dann unterscheiden sich die wahren Werte zweier Personen auf dem in Frage stehenden Merkmal in unterschiedlichem Ausmaß, je nachdem, welche Variable (Item, Subtest, Test, …) zur Messung dieses Merkmals verwendet wird (Eid et al., 2010). So zeigt sich „der Unterschied zwischen [zwei] Personen (…) bei dem Verfahren mit höherer Diskriminationsfähigkeit deutlicher“ (S. 836). In jedem Falle muss in die Gleichung (siehe Tabelle 4) ein Steigungs- oder Ladungsparameter λ, auch Diskriminationsparameter genannt, eingeführt werden. Der dritte Unterschied betrifft den Residualanteil. Die beobachteten Variablen unterscheiden sich in dem Anteil ihrer Varianz, der durch Messfehlereinflüsse zustande kommt (Eid et al., 2010). Demnach dürfen sich die True-Score-Variablen in ihren Leichtigkeitsparametern (und damit in ihren Erwartungs- bzw. Mittelwerten) sowie in ihren Diskriminationsparametern (und damit ihren Varianzen und Kovarianzen) unterscheiden; die beobachteten Va- Theorie 62 riablen weisen unterschiedliche Mittelwerte, unterschiedliche Varianzen und unterschiedliche Kovarianzen auf und sind unterschiedlich reliable Indikatoren des erfassten Konstrukts (vgl. Eid et al., 2010). Erfüllt ein Set an Variablen, die dasselbe Merkmal erfassen sollen, also die Anforderungen des Modells τ-kongenerischer Variablen, jedoch keine der Anforderungen höherwertiger Modelle, erfassen sie zwar das gleiche Merkmal, tun dies aber unterschiedlich differenziert und sind nicht völlig gleichwertig oder austauschbar. Wenn man die Unterschiede zweier Personen auf diesem Merkmal messen will, ist es nicht gleichgültig, welche der Variablen (Items, Subskalen oder Tests/Messinstrumente) ich verwende, denn das Ergebnis des Vergleichs der Personen wird sich unterscheiden (Eid et al., 2010). Auch wenn man umgekehrt die Variablen selbst miteinander vergleichen, zum Beispiel ihre Schwierigkeit bewerten möchte, ist das Ergebnis nicht unabhängig davon, welche Personen die Items bearbeiten respektive welche Merkmalsausprägungen diese Personen aufweisen (Eid et al., 2010). 2.4.2.2 Essentielle τ-Äquivalenz (Das Modell essentiell τ-äquivalenter Variablen) Das Modell essentiell τ-äquivalenter Variablen fügt dem Modell τ-kongenerischer Variablen die strenge Annahme hinzu, dass alle True-Score-Variablen perfekt von der latenten Variablen η abhängen (Eid et al., 2010). Damit sind auch alle True-Score-Variablen untereinander perfekt korreliert (Eid et al., 2010). Dies gilt nicht in gleicher Weise für die beobachteten Werte, die neben dem True-Score-Anteil noch einen Residualanteil beinhalten, der nicht von der latenten Variablen beeinflusst wird. Dieser unsystematische Messfehleranteil darf sich zwischen den Variablen im Modell essentiell τäquivalenter Variablen weiterhin unterscheiden und sorgt so dafür, dass die beobachteten Werte (im Gegensatz zu den wahren Werten) nicht perfekt miteinander korreliert sind (Eid et al., 2010). Man kann sich vorstellen, dass es sich beim Modell essentiell τäquivalenter Variablen um ein Modell τ-kongenerischer Variablen handelt, in dem die Parameter λ aller Variablen den gleichen Wert, zum Beispiel „1“, aufweisen, und alle True-Score-Variablen so den Faktor so mit gleicher Diskrimination erfassen (Brown, 2006; Eid et al., 2010). Alle Indikatoren haben eine äquivalente Beziehung zum latenten Konstrukt und messen dieses in der gleichen Metrik (Brown, 2006). Theorie 63 Auch wenn die wahren Werte perfekt miteinander korrelieren, dürfen sich diese Werte selbst weiterhin unterscheiden, wie dies im Modell τ-kongenerischer Variablen der Fall war. Eine Person darf also beispielsweise auf einer Variablen Yi einen höheren wahren Wert haben als auf einer Variablen Yj. Anders als im Modell τ-kongenerischer Variablen muss dieser Unterschied nun jedoch über alle Personen hinweg gleich sein (Eid et al., 2010). Alle Personen müssten dann auf der Variablen Yi einen um den gleichen Betrag höheren Wert als auf einer Variablen Yj haben. Das bedeutet, der Unterschied darf lediglich daraus resultieren, dass zwei Variablen unterschiedlich schwer (das heißt, unterschiedlich leicht zu bejahen bzw. lösen) sind, und zwar für alle Personen in gleicher Weise. Der Unterschied darf also nur noch in einer additiven Konstante bestehen, welche die Leichtigkeit oder Schwierigkeit einer Variablen abbildet (Eid et al., 2010). Die Differenz in den wahren Werten von Variablen darf nicht mehr (zusätzlich) – wie im Modell τ-kongenerischer Variablen – in einer multiplikativen Konstante bestehen, wie sie aus unterschiedlichen Maßeinheiten oder Diskriminationsfähigkeiten resultiert (vgl. Eid et al., 2010). Die True-Score-Variablen sind im Modell essentiell τ-äquivalenter Variablen Translationen voneinander (Eid et al., 2010). Genügen Variablen den Ansprüchen des Modells essentiell τ-äquivalenter Variablen, so ist demnach der Vergleich zweier Variablen unabhängig von der Merkmalsausprägung der Personen, die sie ausfüllen. Umgekehrt kann zum Vergleich zweier Personen hinsichtlich ihrer Merkmalsausprägung jedes der Variablenpaare verwendet werden, ohne dass dies das Ergebnis beeinflussen würde, da die Differenz der wahren Werte zweier Personen auf der in Frage stehenden Eigenschaft immer gleich sein muss, unabhängig davon, welche der Variablen (also Items, Subskalen oder Skalen) ich verwende (Eid et al., 2010). Für die Messfehler gilt weiterhin die Forderung der Unkorreliertheit untereinander. Somit dürfen im Modell essentiell τ-äquivalenter Variablen nur noch zwei Unterschiede bestehen. Ein Unterschied in der Leichtigkeit und damit den Mittelwerten – nicht jedoch der Varianz und den Kovarianzen – der True-Score-Variablen sowie ein Unterschied in der Fehlervarianz der beobachteten Variablen (vgl. Eid et al., 2010). Die Mittelwerte der beobachteten Variablen sind ebenso unterschiedlich. Da sich die Varianzen der beobachteten Variablen zu gleichen Anteilen aus True-Score-Varianz, aber zu unterschiedlichen Anteilen aus Fehlervarianz zusammensetzen, unterscheiden sich die Varianzen Theorie 64 und die Reliabilitäten der beobachteten Variablen (Eid et al., 2010). Die Kovarianzen zwischen den beobachteten Variablen sollten dennoch näherungsweise gleich sein. Die Hypothese gleicher Kovarianzen bezieht sich zwar auf die Kovarianzen der wahren Werte, nicht jedoch der beobachteten Werte, sollte jedoch annähernd auf diese übertragen werden können (Steyer & Eid, 2001). 2.4.2.3 Essentielle τ-Parallelität (Das Modell essentiell τ-paralleler Variablen) Während sich die Varianzen der beobachteten Variablen im Modell essentiell τäquivalenter Variablen aufgrund unterschiedlich großer Messfehlereinflüsse unterscheiden dürfen, setzt das Modell essentiell τ-paralleler Variablen voraus, dass sich die Variablen weder in den Anteilen der True-Score-Varianz, noch in den Anteilen der Residualvarianz unterschieden dürfen und damit gleiche Reliabilitäten aufweisen (Eid et al., 2010). Die True-Score-Variablen unterscheiden sich damit wie im Modell essentiell τäquivalenter Variablen zwar in der Schwierigkeit, nicht jedoch in der Varianz und sie korrelieren perfekt. Die beobachteten Variablen weisen gleiche Varianzen und Kovarianzen auf, dürfen sich aber in ihren Mittelwerten unterscheiden (Eid et al., 2010). Im Modell essentiell τ-paralleler Variablen messen damit alle Indikatoren das latente Konstrukt nicht nur in den gleichen Maßeinheiten sondern auch mit gleicher Präzision (Brown, 2006). 2.4.2.4 τ-Äquivalenz (Das Modell τ-äquivalenter Variablen) In diesem Modell wird die Restriktion gleicher (Fehler-)Varianzen der beobachteten Variablen wieder gelöst. Dafür müssen hier alle Variablen die gleiche Schwierigkeit aufweisen (Eid et al., 2010). Alle beobachteten Variablen haben einen identischen Erwartungswert, der zudem den Erwartungswert der latenten Variablen η darstellt (Eid et al., 2010). Der Anteil wahrer Varianz an den beobachteten Variablen muss – wie im Modell essentiell τ-äquivalenter Variablen – gleich sein. Die Kovarianzen der True-Score-Variablen und der beobachteten Variablen sollten jeweils identisch sein. Theorie 65 In einem Modell τ-äquivalenter Variablen sind alle Variablen gleich schwierig und diskriminieren gleich gut zwischen verschiedenen Personen. Die Variablen können aber unterschiedlich reliabel sein. (Eid et al., 2010). 2.4.2.5 τ-Parallelität (Das Modell τ-paralleler Variablen) Dieses Modell stellt die höchsten Ansprüche an die Gleichwertigkeit von Variablen, indem es verlangt, dass alle Variablen „dasselbe eindimensionale Merkmal mit gleicher Leichtigkeit, Diskriminationsfähigkeit und Reliabilität“ (Eid et al., 2010, S. 841) messen. τ-parallele Testverfahren weisen gleiche wahre Werte und gleiche Streuungen auf (Moosbrugger, 2007b; Schermelleh-Engel & Werner, 2007) und sind daher vollständig identische, austauschbare Indikatoren eines latenten Konstrukts (vgl. Brown, 2006). Weder die True-Score-Variablen, noch die beobachteten Variablen dürfen sich in ihren Mittelwerten, Varianzen oder Kovarianzen unterscheiden (vgl. Brown, 2006; Eid et al., 2010). 2.4.2.6 Zusammenfassung der Messmodelle τ-kongenerische Variablen messen dasselbe latente Merkmal, sind jedoch unterschiedlich schwer, unterschiedlich eng mit dem erfassten Konstrukt verknüpft und unterscheiden sich in ihrer Reliabilität. Sie sind „homogen im Sinne eines eindimensionalen Modells“ (Eid et al., 2010, S. 842). Diese Mindestanforderung erfüllen auch die Variablen aller weiteren Modelle: Essentiell τ-äquivalente Variablen erfassen dasselbe Merkmal mit gleicher Diskriminationsfähigkeit, aber unterschiedlicher Schwierigkeit. Auch sie weisen keine identischen Reliabilitäten auf. Variablen dürfen als essentiell τ-parallel gelten, wenn sie neben identischen Faktorladungen gleiche Reliabilitäten aufweisen. Die Schwierigkeiten unterscheiden sich weiterhin zwischen den Variablen. Variablen, die τ-äquivalent sind, weisen gleiche Beziehungen zum latenten Konstrukt und gleiche Schwierigkeiten auf, unterscheiden sich aber in der Reliabilität. Theorie 66 τ-parallele Variablen sind gleich schwierige, gleich gut diskriminierende und gleich reliable Indikatoren ein und desselben Merkmals und damit quasi austauschbare Indikatoren dieses Konstrukts. Tabelle 4 gibt einen Überblick über die zu den jeweiligen Modellen gehörigen Gleichungen. Tabelle 4 Übersicht über die Modellgleichungen der Klassischen Testtheorie Grundgleichung der Klassischen Testtheorie Yi = τi + εi♠ Modell τ-kongenerischer Variablen Yi = αi + λi * η + εi♣ Modell essentiell τ-äquivalenter Variablen Yi = η + αi + εi♥ Modell essentiell τ-paralleler Variablen Yi = η + αi + εi, Var(εi) = Var (εj) = Var (ε), i ≠ j ♦ Modell τ-äquivalenter Variablen Yi = η + εi● Modell τ-paralleler Variablen Yi = η + εi, Var(εi) = Var (εj) = Var (ε), i ≠ j♦ Anmerkungen. αi Achsenabschnitt. λi Steigung einer Variablen. Grau hinterlegt ist jeweils die Modellierung des True-Scores τ. ♠ (Eid et al., 2010, S. 818). ♣ (Eid et al., 2010, S. 835). ♥ (Eid et al., 2010, S. 825). ♦ (Eid et al., 2010, S. 830). ● (Eid et al., 2010, S. 831). 2.4.3 Nutzen der Messmodelle Die Option, im Rahmen der Modelle der Klassischen Testtheorie die Eindimensionalität und weitere Homogenitätsstufen von Variablen zu überprüfen, macht man sich klassischerweise in der Konstruktion von Fragebögen zunutze. So können für einen eindimensionalen Fragebogen homogene Items ausgewählt werden oder – sollte dies empirisch nicht möglich und/oder theoretisch nicht gewünscht sein – Items zusammengestellt werden, die in einem mehrdimensionalen Fragebogen jeweils bestimmte Subdimensionen homogen erfassen (Eid et al., 2010). Die Frage, ob eine Menge an Variablen den jeweiligen Kriterien eines Modells entspricht, ist in der Klassischen Testtheorie zudem dafür relevant, ob und mit welchen Methoden die Reliabilität der einzelnen Messungen (z. B. Items eines Tests) und der Gesamtheit der Variablen (z. B. Gesamtscore des Tests) rechnerisch bestimmt werden darf (Eid et al., 2010; Moosbrugger, 2007b). Theorie 67 Außerdem können mit Hilfe der vorgestellten Modelle individuelle wahre Merkmalsausprägungen als Wert einer Person auf der latenten Variablen η geschätzt werden (Eid et al., 2010). Da der Fokus der vorliegenden Arbeit jedoch auf den Messmodellen selbst und den Bedingungen ihrer Gültigkeit und damit der Frage des Vorliegens bestimmter Niveaus von Messäquivalenz liegt, wurden und werden die Themen der Reliabilität(sbestimmung) und der Messung wahrer Merkmalsausprägungen nicht vertieft. Der Leser findet Informationen zu beiden Aspekten zum Beispiel in Eid et al. (2010) oder (zur Reliabilität) in Moosbrugger (2007b) sowie Schermelleh-Engel und Werner (2007). 2.4.4 Überprüfung der Messäquivalenz Mit Hilfe des statistischen Verfahrens der konfirmatorischen Faktorenanalyse (CFA) kann für ein gegebenes Set an Variablen inferenzstatistisch überprüft werden, welchen Anforderungen bezüglich ihrer Gleichwertigkeit sie mindestens genügen (Modellgeltungstest; Eid et al., 2010). Konfirmatorische Faktorenanalysen überprüfen, ob eine postulierte Struktur in einem Set von Daten vorhanden ist oder besser gesagt, wie wahrscheinlich es ist, dass eine postulierte Struktur die Zusammenhänge in den Daten zufriedenstellend beschreibt. Die Anforderungen der jeweiligen Modelle werden durch bestimmte Restriktionen umgesetzt, die der Anwender in die Spezifikation der Modellstruktur einfügt (siehe z .B. Brown, 2006). Im Modell τ-kongenerischer Variablen ist die einzige umzusetzende Einschränkung die unkorrelierter Fehler, die Faktorladungen und Fehlervarianzen dürfen frei variieren (Brown, 2006). Die Residualkorrelationen zwischen den Variablen müssen also auf Null fixiert werden, denn die Partialkorrelation zwischen den beobachteten Variablen müssen Null sein, wenn die latente Variable η auspartialisiert wird (Eid et al., 2010). In der praktischen Anwendung von CFAs wird das Modell essentiell τ-äquivalenter Variablen umgesetzt, indem zusätzlich zu der Einschränkung, dass Fehlervarianzen nicht korrelieren dürfen, die Ladungsparameter aller Indikatoren eines Faktors gleichgesetzt werden (engl. „equality constraints“); die Fehlervarianzen dürfen weiter frei variieren (Brown, 2006). Theorie 68 Um in einem Modell essentielle τ-Parallelität der Variablen zu testen, wird die Restriktion identischer Fehlervarianzen der Indikatoren eines Faktors zur Restriktion identischer Faktorladungen und fehlender Residualkorrelationen hinzugefügt (Brown, 2006). Wird ein Modell τ-äquivalenter Variablen angenommen, wird die Restriktion identischer (Fehler)varianzen der manifesten Variablen wieder gelockert, der Modellbeschreibung jedoch die Einschränkung gleicher Indikator-Intercepts hinzugefügt (vgl. Brown, 2006). Die Vorschrift gleicher Intercepts setzt die Forderung gleicher Mittelwerte der Indikatoren um. Die Vorschriften gleicher Faktorladungen und Nullkorrelationen zwischen den Fehlern bleiben erhalten. Ab diesem Modell wird also neben der Kovarianzstruktur auch die Erwartungswertstruktur in die Überprüfung mit einbezogen. Alle Einschränkungen werden formuliert für die Überprüfung des strengsten aller Modelle, des Modells τ-paralleler Variablen. Die Indikatoren eines latenten Konstrukts müssen identische Ladungsparameter, identische Fehlervarianzen und identische Intercepts aufweisen, die Fehlervariablen dürfen nicht korrelieren (vgl. Brown, 2006). Das Prinzip des Modelltest und wie die Passung eines Modells beurteilt werden kann werden in den Abschnitten 4.5 und 4.6 näher erläutert. Fragestellungen und Hypothesen 69 3 Fragestellungen und Hypothesen Der im Rahmen dieser Arbeit vorgestellte Vorschlag für eine vereinfachte Variante der zweiten Auflage des Beck Depressionsinventars (BDI-II; Hautzinger et al., 2006), BDI-II-V, soll auf seine psychometrischen Eigenschaften untersucht und hinsichtlich dieser mit dem Original (BDI-II) verglichen werden. Zugleich soll der direkte Vergleich aller eingesetzten Versionen des Beck Depressionsinventars (das BDI von Hautzinger et al. (1995), das BDI-V von Schmitt und Maes (2000), das BDI-II von Hautzinger et al. (2006) und das vorgeschlagene BDI-II-V) erfolgen. Das BDI-II-V findet dabei in zwei Ausführungen (BDI-II-V.1 und BDI-II-V.2) Anwendung, die hinsichtlich ihrer Nähe zum Original gegeneinander abgewogen werden sollen. Gleichzeitig ermöglicht eine Zusammenfassung der beiden Ausführungen zum BDI-II-V die Untersuchung des Fragebogens in einer größeren Gesamtstichprobe. Erste Hinweise auf die Konstruktvalidität des BDI-II-V sollen Zusammenhänge mit depressionsnahen und –ferneren Persönlichkeitsvariablen erbringen. Hypothese I: Zur internen Konsistenz und Homogenität des BDI-II-V Da für das Original in Form des BDI-II sehr gute psychometrische Eigenschaften nachgewiesen sind (Hautzinger et al., 2006) und entsprechend den Ergebnissen von Schmitt und Maes (2000), deren BDI-V dem BDI-II-V in Inhalt und Aufbau sehr ähnlich ist, wird postuliert, dass für das BDI-II-V gute Kennwerte der internen Konsistenz und der Homogenität sowie zufriedenstellende korrigierte Trennschärfen nachzuweisen sind: α (BDI-II-V) ≥ .85 M rii (BDI-II-V) ≥ .30 .30 ≤ niedrigste rit (BDI-II-V), höchste rit (BDI-II-V) ≥ .60; M rit (BDI-II-V) ≥ .50 Hypothese II: Zur Konstruktvalidität des BDI-II-V Zu den drei Hauptgütekriterien, auf deren Basis diagnostischen Verfahren bewertet werden, zählt neben der Objektivität und der Reliabilität auch die Validität. Kennwerte der Validität geben im Allgemeinen an, in wie weit ein Instrument das Merkmal erfasst, das es zu erfassen vorgibt. Besonders umfassende Überprüfungen werden dabei im Rahmen der Konstruktvalidität vorgenommen, die fordert, dass die von einem Messin- Fragestellungen und Hypothesen 70 strument generierten Daten mit diversen Kriterien in der Höhe korrelieren, wie begründete Theorien es erwarten lassen (z. B.Campbell & Fiske, 1959; Cronbach & Meehl, 1955). Weit verbreitet ist eine darauf basierende, vereinfachte Definition der Konstruktvalidität. Danach sollten die von einem Messinstrument generierten Daten den Erwartungen aus bisherigen Befunden entsprechend hoch mit Verfahren – oder allgemeiner Variablen – korrelieren, die dieselben oder zumindest verwandte Konstrukte erfassen (konvergente Validität) und den Erwartungen entsprechend niedrig(er) oder sogar gar nicht mit Verfahren respektive Variablen, die entfernte Konstrukte erfassen (diskriminante Validität) (z. B. Campbell & Fiske, 1959; Gollwitzer & Jäger, 2007; SchermellehEngel & Schweizer, 2007). Auf dieser Basis sollen erste Hinweise auf die Konstruktvalidität des BDI-II-V gewonnen werden, indem seine Zusammenhänge mit depressionsnahen und –ferneren Persönlichkeitsvariablen verglichen werden mit bisherigen Befunden zur Assoziation von Depressivität und Persönlichkeit. Solche bisherigen Befunde und einige theoretische Erklärungsansätze wurden in Abschnitt 2.2 dargestellt. Der Bewertung des Ausmaßes des Zusammenhangs wird im Folgenden die grobe Klassifikation von Cohen (1988) zugrunde gelegt, wonach eine Korrelation ab dem Betrag von r = .1 einen schwachen Zusammenhang bedeutet, ein Betrag von r = .3 kennzeichnet einen mittleren Zusammenhang und ab einem Betrag von r = .5 darf von einem starken Zusammenhang gesprochen werden. Entsprechend den Befunden, die in der Literatur berichtet werden, und dabei insbesondere unter Bezugnahme auf die Ergebnisse, welche die querschnittliche Korrelation zwischen aktueller Depressivität und Persönlichkeitseigenschaften betreffen, würde man für die Korrelation eines validen Instrumentes zur Erfassung der Depressivität eine positive Korrelation mit Neurotizismus erwarten, die im Betrag r = .5 nicht unterschreiten sollte, was einem deutlichen Zusammenhang entspricht. Mit der Extraversion sollte ein solches Instrument etwa mittelmäßig negativ korrelieren, im Bereich von r = .3 oder .4. Der Zusammenhang mit Offenheit sollte niedrig positiv (etwa bei r = .1 oder .2) sein, mit Verträglichkeit wäre am ehesten eine negative Assoziation niedrigen oder mittleren Ausmaßes zu erwarten, zwischen r = .1 und .3. Zwischen der Gewissenhaftigkeit und Depressivität sollte ebenso eine schwach bis mittelmäßig (r = .1 bis .3) negative Beziehung bestehen: Fragestellungen und Hypothesen ϱ (BDI-II-V, Neurotizismus) ≥ .5 -.3 ≤ ϱ (BDI-II-V, Extraversion) ≤ -.4 .1 ≤ ϱ (BDI-II-V, Offenheit für Erfahrung) ≤ .2 -.1 ≤ ϱ (BDI-II-V, Verträglichkeit) ≤ -.3 -.1 ≤ ϱ (BDI-II-V, Gewissenhaftigkeit) ≤ -.3 71 Hypothesen III.a.1 bis III.a.5 und III.b: Zur Entsprechung von BDI-II-V und BDI-II Das Kapitel 2.3.4 beschreibt, dass die Entwicklung des BDI-II-V das Ziel verfolgte, inhaltlich so nah wie möglich am Original zu bleiben, um so eine ebenbürtige Alternative für das BDI-II darzustellen. Ob dieses Vorhaben geglückt ist, soll durch die Untersuchung der Äquivalenz der Messeigenschaften von Original (BDI-II) und Verkürzung (BDI-II-V) überprüft werden. Hypothesen III.a.1 bis III.a.5: Zur Konvergenz von BDI-II-V und BDI-II auf deskriptiver Ebene Hypothese III.a.1: Zur Korrelation auf Item- und Summenwertebene Die Summenwerte von BDI-II-V und BDI-II sollen hoch korrelieren: ϱ (BDI-II-V, BDI-II) ≥ .8 Auch die Korrelationen zwischen den Werten auf Ebene der Items, die in den Fragebögen jeweils dasselbe Symptom erfassen, sollten deutlich ausgeprägt sein. Die Koeffizienten können im Betrag allerdings nicht die Werte von Korrelationen zwischen aggregierten Maßen erreichen (vgl. Schmitt & Maes, 2000): M ϱ (Items BDI-II-V, Items BDI-II) ≥ .5 Hypothese III.a.2: Zum Vergleich der Summenwerte Die mittleren Summenwerte von BDI-II-V und BDI-II sollen sich nicht signifikant unterscheiden: μ (BDI-II-V) = μ (BDI-II) Fragestellungen und Hypothesen 72 Hypothese III.a.3: Zum Vergleich der internen Konsistenzen Die interne Konsistenz des BDI-II-V soll die interne Konsistenz des BDI-II nicht unterschreiten: α (BDI-II-V) ≥ α (BDI-II) Hypothese III.a.4: Zum Vergleich der Trennschärfen Die part-whole-korrigierten Trennschärfen der Items des BDI-II-V sollen die partwhole-korrigierten Trennschärfen der Items des BDI-II nicht unterschreiten. Für jedes Item gilt: rit (BDI-II-V) ≥ rit (BDI-II) Korrigierte Trennschärfen geben an, wie gut ein Item die aus allen anderen Items gebildete Gesamtskala repräsentiert und damit, wie „prototypisch“ (Bühner, 2006, S. 95; Hervorhebung durch die Verfasserin) ein Item für eine Skala ist. Wenn BDI-II-V und BDI-II einander entsprechen, sollte ein bestimmtes Item in beiden Instrumenten in der gleichen Beziehung zu den anderen Items und damit zum Gesamtwert stehen, also die Gesamtskala gleich gut repräsentieren. Dies würde eine Entsprechung der Position des Items in einer Rangreihe der Trennschärfen bedeuten und damit hätte ein Item in beiden Inventaren den gleichen relativen Bezug zum Summenwert. Eine Übereinstimmung der Trennschärfeprofile würde sich in einer hohen Spearman-Rangkorrelation zwischen den Trennschärfen ausdrücken (Schmitt et al., 2003; Schmitt, Maes & Seiler, 2001): ϱp (Trennschärfen BDI-II-V, Trennschärfen BDI-II) ≥ .5 Hypothese III.a.5: Zum Vergleich der Zusammenhänge mit anderen Variablen Als Hinweis auf ähnliche Messeigenschaften zweier Instrumente kann auch gelten, wenn sie ähnlich hoch mit anderen Variablen korrelieren (Schmitt et al., 2003). Es wird erwartet, dass die Korrelationen des BDI-II-V mit den Persönlichkeitsvariablen Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit ähnlich hoch und gleich gerichtet ausfallen wie jene des BDI-II mit diesen Persönlichkeitsvariablen: Fragestellungen und Hypothesen ϱ (BDI-II-V, Neurotizismus) ≈ ϱ (BDI-II, Neurotizismus) ϱ (BDI-II-V, Extraversion) ≈ ϱ (BDI-II, Extraversion) ϱ (BDI-II-V, Offenheit für Erfahrung) ≈ ϱ (BDI-II, Offenheit für Erfahrung) ϱ (BDI-II-V, Verträglichkeit) ≈ ϱ (BDI-II, Verträglichkeit) ϱ (BDI-II-V, Gewissenhaftigkeit) ≈ ϱ (BDI-II, Gewissenhaftigkeit) 73 Hypothese III.b: Zur inferenzstatistischen Überprüfung der Messäquivalenz von BDI-II-V und BDI-II Es wird postuliert, dass das BDI-II-V und das BDI-II entsprechend dem Modell essentiell τ-paralleler Variablen der klassischen Testtheorie parallele Indikatoren eines latenten Konstrukts, das mit „Depressivität“ bezeichnet werden soll, darstellen. Beide Variablen sollen dieses latente Konstrukt mit gleicher Diskrimination und gleicher Reliabilität erfassen und das latente Konstrukt soll die Korrelation zwischen dem BDI-II und dem BDI-II-V vollständig erklären. Hypothesen IV.a.1 bis IV.a.3 und IV.b: Zum Vergleich von BDI-II-V.1 und BDI-II-V.2 Das BDI-II-V wurde in zwei Ausführungen vorgeschlagen, die bezüglich ihrer Nähe zum Original miteinander verglichen werden sollen. Da Aufbau und Inhalt der infrage stehenden Items zu „Schlaf“ und „Appetit“ im BDI-II-V.2 näher am BDI-II sind, als dies im BDI-II-V.1 der Fall ist, wird postuliert, dass die vorgeschlagenen Maße der Ähnlichkeit zwischen BDI-II und BDI-II-V in getrennten Untersuchungen der Konvergenz von BDI-II und BDI-II-V.1 sowie der Konvergenz von BDI-II und BDI-II-V.2 für das BDI-II-V.2 höher ausfallen als für das BDI-II-V.1. Hypothesen IV.a.1 bis IV.a.3: Zur Konvergenz von BDI-II-V und BDI-II auf deskriptiver Ebene Hypothese VI.a.1: Zur Korrelation auf Item- und Summenwertebene Der Summenwert des BDI-II-korreliert höher mit dem Summenwert des BDI-II-V.2 als mit dem Summenwert des BDI-II-V.1: ϱ (BDI-II-V.2, BDI-II) > ϱ (BDI-II-V.1, BDI-II) Fragestellungen und Hypothesen 74 Insbesondere korrelieren die Werte auf der Ebene der Items zu „Schlaf“ und „Appetit“ höher zwischen BDI-II-V.2 und BDI-II als zwischen BDI-II-V.1 und BDI-II: ϱ (Schlafitem BDI-II-V.2, Schlafitem BDI-II) > ϱ (Schlafitem BDI-II-V.1, Schlafitem BDI-II) ϱ (Appetititem BDI-II-V.2, Appetititem BDI-II) > ϱ (Appetititem BDI-II-V.1, Appetititem BDI-II) Hypothese IV.a.2: Zum Vergleich der Summenwerte Der mittlere Summenwert des BDI-II liegt näher am mittleren Summenwert des BDI-II-V.2 als am mittleren Summenwert des BDI-II-V.1: Δ (μ (BDI-II-V.2), μ (BDI-II)) < Δ (μ (BDI-II-V.1), μ (BDI-II)) Hypothese IV.a.3: Zum Vergleich der Trennschärfen Die Rangkorrelation der Itemtrennschärfen fällt höher aus zwischen dem BDI-II-V.2 und dem BDI-II als zwischen dem BDI-II-V.1 und dem BDI-II: ϱp (Trennschärfen BDI-II-V.2, Trennschärfen BDI-II) > ϱp (Trennschärfen BDI-II-V.1, Trennschärfen BDI-II) Hypothese IV.b: Vergleich der Messäquivalenz von BDI-II-V.1 und BDI-II mit der Messäquivalenz von BDI-II-V.2 und BDI-II Es wird postuliert, dass ein Modell essentiell τ-paralleler Variablen im Sinne der klassischen Testtheorie besser auf ein Modell passt, das die manifesten Variablen BDI-II-V.2 und BDI-II auf eine latente Variable „Depressivität“ zurückführt als auf ein Modell, das die manifesten Variablen BDI-II-V.1 und BDI-II auf eine solche latente Variable zurückführt. Hypothesen V.a.1 bis V.a.5 und V.b: Zur Entsprechung von BDI, BDI-V, BDI-II und BDI-II-V Eine interessante Frage ist, ob die im BDI-II realisierte, auf eine Verbesserung der Inhaltsvalidität zielende (Kühner, Bürger, Keller & Hautzinger, 2007) Anpassung der in den Items repräsentierten Symptome an die diagnostischen Kriterien der Major Depression nach DSM-IV (American Psychiatric Association, 1994) Auswirkungen auf die psychometrischen Eigenschaften des Inventars hatte. In diese Analysen sollen auch die Fragestellungen und Hypothesen 75 verkürzten Versionen der beiden Inventare einbezogen werden, um einen abgerundeten Gesamteindruck zu erhalten, in welchem Verhältnis die Messeigenschaften aller Inventare zueinander stehen. Zum einen lassen sich deskriptive Maße vergleichen. Hier wäre festzustellen, ob sich die Ergebnisse des direkten Vergleichs der amerikanischen Originalausgaben von BDI und BDI-II (z. B. Dozois et al., 1998) auch für die deutschen Übersetzungen zeigen. Dies würde sehr hohe Korrelationen zwischen den Summenwerten von BDI und BDI-II bedeuten, einen gegenüber dem BDI etwas erhöhten mittleren Summenwert des BDI-II, und ähnlich hohe interne Konsistenzen. Zum anderen kann analysiert werden, ob BDI und BDI-II die Intensität depressiver Symptome mit gleicher Diskrimination und Reliabilität erfassen. Nach den Ergebnissen von Dozois et al. (1998) könnte man dies zunächst einmal annehmen. Bezieht man gleichzeitig die von Schmitt und Maes (2000) zumindest in einer großen Stichprobe klinischer und nicht-klinischer Probanden nachgewiesene Messäquivalenz von BDI und BDI-V ein und setzt voraus, dass sich die in Hypothese III.b postulierte Parallelität von BDI-II und BDI-II-V bestätigt, so könnte man vorläufig postulieren, dass sich alle vier Inventare als parallele Indikatoren eines latenten Konstrukts „Depressivität“ erweisen. Die Korrelationen zwischen den Summenwerten der vier Inventare ließen sich dann vollständig durch eine zugrunde liegende latente Dimension „Depressivität“ erklären und alle vier Inventare wären gleich gut diskriminierende, gleich reliable Indikatoren der Depressionsschwere. Hypothesen V.a.1 bis V.a.5: Zur Konvergenz von BDI, BDI-V, BDI-II und BDI-II-V auf deskriptiver Ebene Hypothese V.a.1: Zur Korrelation auf Ebene der Summenwerte Es wird erwartet, dass die Summenwerte aller vier Varianten des Inventars hoch untereinander korrelieren. Keiner der sechs Koeffizienten wird einen Wert von ϱ = .8 unterschreiten: Fragestellungen und Hypothesen ϱ (BDI, BDI-II) ≥ .8 ϱ (BDI-V, BDI-II-V) ≥ .8 ϱ (BDI, BDI-V) ≥ .8 ϱ (BDI-II, BDI-II-V) ≥ .8 (Wiederholung der Hypothese III.a.1) ϱ (BDI, BDI-II-V) ≥ .8 ϱ (BDI-II, BDI-V) ≥ .8 76 Hypothese V.a.2: Zum Vergleich der Summenwerte Die mittleren Summenwerte von BDI und BDI-V sollen sich nicht signifikant unterscheiden, ebenso nicht die Summenwerte von BDI-II und BDI-II-V (s.o., Hypothese III.a.2). Entsprechend den Befunden für die amerikanischen Originalausgaben (Dozois et al., 1998) wird erwartet, dass der Summenwert des BDI-II im Durchschnitt etwas höher ausfällt als jener des BDI: μ (BDI-II) > μ (BDI) μ (BDI-V) = μ (BDI) μ (BDI-II-V) = μ (BDI-II) (Wiederholung der Hypothese III.a.2) Hypothese V.a.3: Zum Vergleich der internen Konsistenzen Die internen Konsistenzen von BDI und BDI-II sollen einander ähnlich sein. Die interne Konsistenz des BDI-V soll jene des BDI nicht unterschreiten. Die interne Konsistenz des BDI-II-V soll jene des BDI-II nicht unterschreiten (s.o., Hypothese III.a.3): α (BDI-II) ≈ α (BDI) α (BDI-V) ≥ α (BDI) α (BDI-II-V) ≥ α (BDI-II) (Wiederholung der Hypothese III.a.3) Hypothese V.a.4: Zum Vergleich der Trennschärfen Nach den berichteten Ergebnissen (Hautzinger et al., 1995; Hautzinger et al., 2006; Richter, 1991) scheinen die Itemtrennschärfen des BDI unter denen des BDI-II zu liegen. Für den Vergleich der Itemtrennschärfen zwischen den Original-BDIs und ihrer jeweiligen verkürzten Version wird angenommen, dass die mittleren Trennschärfen für Fragestellungen und Hypothesen 77 die verkürzten Versionen etwas höher sind als jene der Original-Versionen (vgl. Schmitt et al., 2003): M (rit (BDI-II)) > M (rit (BDI)) M (rit (BDI-V)) > M (rit (BDI)) M (rit (BDI-II-V)) > M (rit (BDI-II)) Hypothese V.a.5: Zum Vergleich der Zusammenhänge mit anderen Variablen Die Zusammenhänge aller vier Inventare mit den Persönlichkeitsvariablen Neurotizismus (N), Extraversion (E), Offenheit für Erfahrung (O), Verträglichkeit (V) und Gewissenhaftigkeit (G) werden ähnlich ausfallen (vgl. Hypothese III.a.5): ϱ (BDI, N) ≈ ϱ (BDI-II, N) ≈ ϱ (BDI-II-V, N) ≈ ϱ (BDI-V, N) ϱ (BDI, E) ≈ ϱ (BDI-II, E) ≈ ϱ (BDI-II-V, E) ≈ ϱ (BDI-V, E) ϱ (BDI, O) ≈ ϱ (BDI-II, O) ≈ ϱ (BDI-II-V, O) ≈ ϱ (BDI-V, O) ϱ (BDI, V) ≈ ϱ (BDI-II, V) ≈ ϱ (BDI-II-V, V) ≈ ϱ (BDI-V, V) ϱ (BDI, G) ≈ ϱ (BDI-II, G) ≈ ϱ (BDI-II-V, G) ≈ ϱ (BDI-V, G) Hypothese V.b: Zur inferenzstatistischen Überprüfung der Messäquivalenz von BDI, BDI-V, BDI-II und BDI-II-V Alle vier Varianten des Beck Depressionsinventars erweisen sich als gleich gut diskriminierende, gleich reliable Indikatoren der Depressivität und das Konstrukt der Depressivität erklärt vollständig die Zusammenhänge zwischen den vier Indikatoren. Methode 78 4 Methode Das Methodenkapitel geht zunächst auf die eingesetzten Instrumente ein und beschreibt im Anschluss die Durchführung der Untersuchung. Darauf folgt die Darstellung der in konfirmatorischen Faktorenanalysen getesteten Modelle. Die verwendete Auswertungssoftware findet sodann Erwähnung. Danach wird auf den in den konfirmatorischen Faktorenanalysen gewählten Schätzalgorithmus eingegangen. Der darauf folgende Abschnitt beschreibt, wie die Güte der Modelle konfirmatorischer Faktorenanalysen beurteilt wird. Das Methodenkapitel schließt mit der Darstellung der Aufbereitung der Rohdaten für die Analysen. 4.1 Instrumente In diesem Abschnitt wird auf die eingesetzten Instrumente eingegangen, wobei nur das NEO-Fünf-Faktoren-Inventar (NEO FFI; Borkenau & Ostendorf, 2008) ausführlich dargestellt wird, während für das Beck Depressionsinventar ein Großteil der Beschreibung bereits im Theorieteil erfolgte, so dass hier neben einem kurzen Überblick über die verwendeten Versionen des Inventars und ihren Bezug zueinander nur noch eine Besonderheit bezüglich der Instruktionen Erwähnung findet. Alle Instrumente befinden sich in Anhang B.2. 4.1.1 Das Beck Depressionsinventar (BDI) Diese Arbeit unterbreitet einen Vorschlag zur Vereinfachung der zweiten Auflage des deutschen Beck Depressionsinventars (BDI‑II; Hautzinger et al., 2006), der dem etablierten Inventar als Ergänzung für bestimmte Verwendungszusammenhänge zur Seite gestellt werden könnte. Diese neue Version (BDI-II-V) wurde in zwei Ausführen entworfen (BDI-II-V.1 und BDI-II-V.2), die sich in zwei Items unterscheiden. Beide sollen auf ihre Messeigenschaften untersucht und hinsichtlich dieser mit dem Original verglichen werden. Neben dem BDI-II und dem BDI-II-V (in den Ausführungen 1 und 2) kommen die erste Auflage des BDI (Hautzinger et al., 1995) und das BDI-V (Schmitt & Maes, 2000), eine vereinfachte Variante des BDI, zum Einsatz. Alle drei existierenden Inventare und die Gestaltung des neuen Vorschlags wurden bereits in Abschnitt 2.3 ausführlich vorgestellt, so dass hier auf weitere Beschreibungen zu den Instrumenten selbst verzichtet wird. Methode 79 Jeder Teilnehmer füllte vier verschiedene Versionen des BDIs aus (siehe dazu ausführlicher Abschnitt 4.2). Um keine irrelevanten Unterschiede zwischen den Antworten einer Person auf die Items verschiedener BDI-Versionen zu provozieren, welche sich verfälschend auf die Bestimmung der Messäquivalenz ausgewirkt hätten, wurden die Instruktionen für alle vier BDI-Versionen einheitlich gestaltet, was insbesondere für das BDI ein Abrücken von den Original-Instruktionen bedeutete. Dies betraf zum einen den zeitlichen Bezugsrahmen, den die Probanden bei ihrer Beantwortung zu Grunde legen sollen. Dieser variiert in den Originalinstruktionen zwischen den Fragebögen (während das BDI darum bittet, die Angaben auf die letzte Woche, einschließlich des heutigen Tages, zu beziehen, fragt das BDI-V ohne weitere zeitliche Eingrenzung nach dem gegenwärtigen Lebensgefühl, das BDI-II gibt schließlich einen Zeitraum von zwei Wochen einschließlich des heutigen Tages vor). Die Auswirkungen des zeitlichen Bezugsrahmens auf die Antworten der Probanden sind eine gesonderte Fragestellung, die für das BDI-V kürzlich untersucht wurde (FabianKrause, 2011; Heckmann, 2008). Im Vergleich zweier Gruppen, die das BDI-V im Abstand von 14 Tagen zwei Mal beantworteten, wobei eine Gruppe ihre Angaben jeweils auf die letzten zwei Wochen, die andere jeweils auf die letzten drei Monate bezog, fand Heckmann (2008), dass Effekte zeitlicher Instruktionen zwar feststellbar waren, aber gering ausfielen. Die Traitkonsistenz war in der drei-Monats-Gruppe nur geringfügig höher als in der zwei-Wochen-Gruppe und insgesamt in beiden Gruppen sehr hoch. Die Situationsspezifität lag in der zwei-Wochen-Gruppe nur geringfügig unter der der dreiMonats-Gruppe und war in beiden Gruppen insgesamt gering. Dennoch war davon auszugehen, dass bei der Verwendung unterschiedlicher zeitlicher Instruktionen für sehr ähnliche Fragebögen innerhalb einer Befragung, die Probanden auf diesen Unterschied aufmerksam werden. Es hätte nicht ausgeschlossen werden können, dass Teilnehmer dabei implizit die Theorie entwickeln, dass sich die Antworten in Abhängigkeit vom abgefragten Zeitraum zwischen den Fragebögen unterscheiden sollen. In der Folge hätten sie sich möglicherweise darum bemüht, bewusst Unterschiede zu berichten. So entstandene Unterschiede hätten zu einer Unterschätzung der wahren Messäquivalenz geführt und sollten deshalb durch Konstanthalten des zeitlichen Bezugsrahmens ausgeschlossen werden. Die hier verwendeten Instruktionen orientierten Methode 80 sich deshalb für alle BDI-Varianten an der Vorgabe des Zweiwochenzeitraumes der Instruktionen des BDI-II. Zum anderen wurde – ebenfalls entsprechend den Instruktionen des BDI-II – für alle Fragebögen vorgegeben, dass pro Item nur ein Kreuz gesetzt werden darf. Die Originalinstruktionen des BDI hätten dagegen explizit die Auswahl mehrerer Aussagen pro Item zugelassen. Die Abwandlung der Instruktion des BDI wirkt sich dabei nicht auf die Auswertung aus, die im BDI wie im BDI-II lediglich die Verrechnung einer Ziffer (und zwar der höchstangekreuzten) pro Item erlaubt, unabhängig davon, wie viele Aussagen (und damit Ziffern) pro Item angekreuzt wurden. Der genaue Wortlaut der Instruktionen für jede der BDI-Varianten kann jeweils dem entsprechenden Fragebogen in Anhang B.2.1 bis B.2.5 entnommen werden. 4.1.2 Das NEO-Fünf-Faktoren-Inventar (NEO-FFI) Das NEO-Fünf-Faktoren-Inventar (NEO FFI; zweite Auflage, Costa & McCrae, 1992; verwendet in der deutschen Version von Borkenau & Ostendorf, 2008)12 ist ein Selbstbeurteilungsinstrument zur Erfassung der fünf Merkmalsbereiche Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit. Der Fragebogen umfasst 60 Items, so dass auf jede Persönlichkeitsdimension 12 Fragen entfallen. Jede dieser Aussagen wird auf einer fünfstufigen Ratingskala beurteilt, die mit den Kategorien „Starke Ablehnung“, „Ablehnung“ „Neutral“, „Zustimmung“ und „Starke Zustimmung“ überschrieben sind. Der vollständige Fragebogen befindet sich in Anhang B.2.6. Borkenau & Ostendorf (2008) beschreiben die einzelnen Skalen (in Anlehnung an Costa & McCrae, 1992) wie folgt: Hohe Werte auf der Skala Neurotizismus weisen emotional labile Personen auf, die häufig nervös, ängstlich, traurig, unsicher, beschämt oder verlegen sind und sich oft Sorgen machen. Sie neigen auch zu unrealistischen Ideen, können ihre Bedürfnisse schlecht kontrollieren und haben Schwierigkeiten, mit Stresssituationen angemessen 12 Die Daten, die in dieser Arbeit mit der zweiten Auflage des NEO-FFI erhoben wurden, sind vollständig vergleichbar mit Daten, die mit der ersten Auflage des NEO-FFI (deutsche Ausgabe von Borkenau und Ostendorf, 1993) erhoben wurden, wie sie Studien verwendeten, die im Theorieteil dieser Arbeit zitiert werden, da Auswahl oder Formulierung der Items zwischen der ersten und zweiten Auflage des NEO-FFI nicht verändert wurden Methode 81 umzugehen. Niedrige Werte kennzeichnen Personen, die emotional stabil und seelisch ausgeglichen sind, sich wenig oder selten Sorgen machen, und sich durch Stress und Anforderungen nicht leicht aus der Ruhe bringen lassen. Hohe Werte auf der Skala Extraversion sind typisch für Personen, die gesellig, selbstsicher, aktiv, gesprächig, personenorientiert, herzlich, optimistisch und heiter sind und gerne anregenden oder aufregenden Aktivitäten nachgehen. Introvertierte Personen sind eher zurückhaltend, zurückgezogen, sie sind gerne für sich und eher von unabhängigem Naturell. Hohe Werte auf der Skala Offenheit für Erfahrung sind kennzeichnend für wissbegierige, vielseitig interessierte, kreative, phantasievolle, in ihrem Urteil unabhängige und häufig unkonventionelle Menschen, die neue Erfahrungen hoch schätzen und Abwechslung lieben. Sie setzen sich mit sich selbst auseinander, nehmen ihre Gefühle bewusst wahr und sind zu kritischer Auseinandersetzung mit bewährten Normen, Regeln und Systemen bereit. Personen mit niedrigen Werten auf dieser Skala sind eher konservativ eingestellt, Neuem gegenüber kritisch und emotional zurückhaltender. Hohe Werte auf der Skala Verträglichkeit erzielen Personen, die altruistisch, empathisch, verständnisvoll, wohlwollend, kooperativ, nachgiebig und harmoniebedürftig sind und ihren Mitmenschen Vertrauen entgegenbringen. Wenngleich Personen mit niedrigeren Werten zu antagonistischen und egozentrischen Zügen neigen, so sollte bedacht werden, dass ein gewisses Ausmaß an Misstrauen und Wettbewerbsorientierung auch eine notwendige und gesunde Eigenschaft in Bezug auf (berufliches) Vorankommen, Erfolg und Verteidigung der eigenen Person gegen Angriffe von außen darstellt. Hohe Werte auf der Skala Gewissenhaftigkeit zeichnen Personen aus, die sich als ordentlich, zuverlässig, diszipliniert, pünktlich, penibel und ehrgeizig beschreiben, ihrer Selbstbeschreibung nach hart arbeiten und ein systematisches Vorgehen bevorzugen. Die Skala korreliert positiv mit akademischen und beruflichen Leistungen, andererseits können sehr hohe Werte auch mit ungünstig hohen, perfektionistischen Ansprüchen, zwanghaften Zügen oder „Arbeitssucht“ einhergehen. Das Inventar erhebt damit die Big Five, also jene fünf Merkmale, welche sich in einer Vielzahl bedeutsamer Untersuchungen als stabile Dimensionen zur Beschreibung von Personen und Unterschieden zwischen ihnen erwiesen hatten und daher zum Methode 82 Fünf-Faktoren-Modell der Persönlichkeit zusammengefasst wurden (Übersicht über den historischen Entstehungsprozess z. B. bei Borkenau und Ostendorf, 2008). Für die Zwecke dieser Arbeit, in der es um die Prüfung von Zusammenhängen zwischen Depressivität und den Persönlichkeitsvariablen der Big Five, geht, ist das Instrument bestens geeignet, da es die Merkmalsbereiche „zugleich umfassend und sparsam“ (Borkenau & Ostendorf, 2008, S. 25) erfasst, so dass hinreichende Genauigkeit mit einer vertretbaren zeitlichen und kognitiven Belastung der Probanden verbunden werden konnte. Der zeitliche Umfang der Bearbeitung musste insofern bei der Auswahl der Instrumente streng berücksichtigt werden, als die Motivation zur freiwilligen Teilnahme von möglichst vielen Personen Grundvoraussetzung für die Arbeit war. Somit kam zum Beispiel das zwar in der Erfassung der Persönlichkeitsdimensionen umfassendere, jedoch damit auch wesentlich umfangreichere NEO-PI-R (Ostendorf & Angleitner, 2004) nicht in Betracht. Für das NEO-FFI berichten Borkenau und Ostendorf (2008) gute Reliabilitäts- und Homogenitätskennwerte. Die interne Konsistenz (Cronbachs α) der Skalen liegt im Durchschnitt bei .80, genauer für die Skala Neurotizismus bei .87, für die Skala Extraversion bei .81, für die Skala Offenheit für Erfahrung bei .75, für die Skala Verträglichkeit bei .72 und für die Skala Gewissenhaftigkeit bei .84. Über die Messwiederholungsmethode ergaben sich für die Skalenwerte Reliabilitätskoeffizienten von .65 bis .81 (zwei-Jahres-Intervall) respektive .71 bis .82 (fünf-Jahres-Intervall), was in dem Sinne interpretiert werden kann, dass das NEO-FFI stabile Persönlichkeitseigenschaften misst (Borkenau & Ostendorf, 2008). Die Autoren berichten jeweils über die Items einer Skala gemittelte korrigierte Trennschärfen von rit = .55 (Skala Neurotizismus), rit = .46 (Skala Extraversion), rit = .39 (Skala Offenheit für Erfahrung), rit = .35 (Skala Verträglichkeit), rit = .51 (Skala Gewissenhaftigkeit); der Gesamtdurchschnitt der Trennschärfen aller 60 Items wird mit rit = .46. angegeben. Die Autoren belegen eine den Erwartungen entsprechende, zufriedenstellende faktorielle Validität und berichten verschiedenartige Analysen, die die Konstruktvalidität des Verfahrens nachweisen. Methode 83 4.2 Durchführung der Erhebung Jeder Proband erhielt vier Versionen des Beck Depressionsinventars, und zwar das BDI, das BDI-V, das BDI-II und entweder das BDI-II-V.1 oder das BDI-II-V.2 sowie einen NEO-FFI. Entsprechend den Angaben der Autoren in den Manualia wurde die voraussichtliche Bearbeitungsdauer mit 25 – 30 Minuten veranschlagt. Allerdings ist davon auszugehen, dass Probanden, die bislang wenig Erfahrung im Ausfüllen von Fragebögen gesammelt hatten, mehr Zeit benötigten. Die Fragebögen waren in einer bestimmten Reihenfolge geheftet, wobei die Probanden in den Instruktionen gebeten wurden, die vorgegebene Reihenfolge der Bögen beim Ausfüllen zu berücksichtigen. Zu Beginn befanden sich immer die BDI-Versionen, deren Reihenfolge wie folgt variiert wurde, um mögliche Reihenfolgeeffekte auszubalancieren: Jede Version (BDI, BDI-V, BDI-II, BDI-II-V) sollte gleich häufig jede der vier möglichen Positionen innehaben Eine bestimmte Version sollte nicht immer von derselben anderen Version gefolgt werden (auf das BDI sollte also zum Beispiel nicht immer das BDI-V folgen) Die Variationsmöglichkeiten wurden jedoch dadurch eingeschränkt, dass nicht zwei Fragebögen des gleichen Formats aufeinander folgen durften (also nicht BDI-II-V auf BDI-V oder umgekehrt und nicht BDI auf BDI-II oder umgekehrt), um Ermüdung oder Irritationen beim Ausfüllen so gering wie möglich zu halten. Somit wurden die in Tabelle 5 aufgelisteten acht möglichen BDI-Reihenfolgen (Rotationen) realisiert. In Kombination mit der Variation der Ausführung des BDI-II-V (1 oder 2) ergaben sich so 16 verschiedenen Fragebogenoptionen für den ersten Abschnitt mit den BDIs. Der NEO-FFI folgte grundsätzlich auf das letzte BDI. Den Abschluss bildete eine Seite mit Fragen zu den soziodemographischen Variablen Alter, Geschlecht, Schulabschluss, berufsqualifizierender Abschluss, aktuelle Berufstätigkeit, Familienstand und aktuelle Partnerschaft (siehe Anhang B.3). Methode Tabelle 5 84 Mögliche Reihenfolgen (Rotationen) der BDI-Versionen in den Untersuchungsmaterialien Reihenfolge 1 I.O – I.V – II.O – II.V Reihenfolge 2 I.V – II.O – II.V – I.O Reihenfolge 3 II.O – II.V – I.O – I.V Reihenfolge 4 II.V – I.O – I.V – II.O Reihenfolge 5 II.O – I.V – I.O – II.V Reihenfolge 6 I.V – I.O – II.V – II.O Reihenfolge 7 I.O – II.V – II.O – I.V Reihenfolge 8 II.V – II.O – I.V – I.O Anmerkungen. I = BDI. II = BDI-II. O = Original. V = Verkürzung Dem Fragebogen waren ausführliche Instruktionen, ein adressierter und mit dem Frankierungsvermerk „Entgelt bezahlt Empfänger“ versehener Rückumschlag zum Zurücksenden des ausgefüllten Fragebogens direkt an die Universität Landau sowie eine ebenfalls adressierte und vorfrankierte Gewinnspielpostkarte beigelegt. Die Postkarte ermöglichte die Teilnahme an einer Verlosung (s.u.) sowie die Mitteilung, ob nach Abschluss der Studie Informationen über die Ergebnisse gewünscht würden. Da die Postkarte notwendigerweise Angaben zur Person wie insbesondere Name und Adresse enthalten musste, wurden die Teilnehmer darum gebeten, die Karte nicht in den Umschlag mit dem Fragebogen zu stecken, sondern sie getrennt zu versenden. Den Teilnehmern wurde mitgeteilt, dass keinerlei Verpflichtung zur Versendung einer Gewinnspielkarte bestünde und eine Teilnahme an der Studie auch ohne das Versenden der Gewinnspielkarte möglich sei. Eine Zuordnung von eingegangenen Umschlägen beziehungsweise Fragebögen zu eingegangenen Postkarten war selbstverständlich nicht möglich13. Die Instruktionen, die unter anderem die notwendigen Informationen zum Rahmen der Studie, die Zusicherung von Anonymität, die Beschreibung des Vorgehens und genaue Hinweise zum Ausfüllen der Fragbögen enthielten, bereiteten auch auf die Ähnlichkeit 13 Theoretisch wäre damit natürlich auch die Versendung einer Gewinnspielpostkarte ohne die Teilnahme an der Studie möglich gewesen. Da jede Möglichkeit der Überprüfung, ob zu einer eingesandten Postkarte auch ein Fragebogen vorlag, jedoch die Anonymität der Teilnehmer aufgehoben hätte, verbot sich eine solche Option, so dass die Möglichkeit des Missbrauchs in Kauf genommen werden musste. Methode 85 der Fragebögen im ersten Abschnitt vor und baten die Teilnehmer, sich dadurch nicht irritieren zu lassen. Zudem wurden die Teilnehmer explizit darauf hingewiesen, dass aufgrund der anonymen Teilnahme keine Rückmeldung individueller Ergebnisse erfolgen konnte. Es wurde entschieden, zu Zweck und Inhalt der Studie vorab so wenig Angaben wie möglich zu machen, so dass die Probanden aus den Instruktionen lediglich erfuhren, dass die Diplomarbeit sich mit „diagnostischen Verfahren in der Psychologie“ beschäftige. Über das Ankreuzen der entsprechenden Option auf der Gewinnspielpostkarte bestand jedoch für alle Teilnehmer die Möglichkeit, nach Abschluss der Untersuchung genauer informiert zu werden. Die Instruktionen finden sich in Anhang B.1, Postkarte und Umschlag in Anhang B.4. Die zusammengesteckten und in eine Sichthülle gelegten Unterlagen, bestehend aus den Instruktionen, dem gehefteten Fragebogenpaket, der Gewinnspielpostkarte und dem Rücksendeumschlag, wurden jedem Interessenten entweder persönlich übergeben oder postalisch zugesandt. Die Rekrutierung der Teilnehmer erfolgte im Bekanntenkreis der Autorin nach dem Schneeballsystem, das bedeutet, entweder die Autorin selbst trat an mögliche Teilnehmer heran oder Bekannte der Autorin trugen das Anliegen weiter in ihren Bekanntenkreis. Somit wurde eine Gelegenheitsstichprobe realisiert. Die Teilnahme an der Studie wurde durch die Möglichkeit, an einer Verlosung teilzunehmen, attraktiv gemacht. Verlost wurden 5 Gutscheine à 50 Euro (ja nach Wahl vom Elektromarkt Media Markt, der Buchhandlung Thalia, der Tankstellenkette Shell oder dem Warenhaus Galeria Kaufhof). Auf der oben bereits beschriebenen Gewinnspielpostkarte konnte ausgewählt werden, welcher Gutschein im Gewinnfalle gewünscht würde. Neben dem Motiv, die Autorin der Arbeit oder die Wissenschaft im Allgemeinen unterstützen zu wollen, dürfte die Gewinnmöglichkeit eine entscheidende Motivation zur Teilnahme dargestellt haben. 4.3 Modelle Dieser Abschnitt soll die theoretische Beschreibung der Modelle der klassischen Testtheorie (Abschnitt 2.4.2) einschließlich ihrer Überprüfung (Abschnitt 2.4.4) und die Hypothesen zur Messäquivalenz verschiedener Versionen des Beck Depressionsinventars (Kapitel 3) zusammenführen in einer Veranschaulichung der mittels konfirmatori- Methode 86 scher Faktorenanalysen konkret getesteten Modelle. Da sich die postulierten Strukturen nicht zufriedenstellend nachweisen ließen, werden zusätzlich alternative Modelle aufgestellt, die exploratorisch überprüft werden. Die Zuweisung der Metrik latenter Variablen erfolgt grundsätzlich durch Fixierung der Varianz der latenten Variable auf 1.0. 4.3.1 Modelle zur Überprüfung der Messäquivalenz von BDI-II und BDI-II-V (Hypothese III.b) Es wird zunächst das hypothetisierte Modell essentiell τ-paralleler Variablen des BDI-II und BDI-II-V vorgestellt. Im Anschluss daran wird ein alternatives Modell beschrieben, das eine perfekte latente Korrelation zwischen Faktoren des BDI-II und des BDI-II-V postuliert. Dieses Modell wurde exploratorisch überprüft, da das erwartete Modell keinen zufriedenstellenden Fit erzielte. 4.3.1.1 Modell essentiell τ-paralleler Variablen BDI-II (Y1) und BDI-II-V (Y2) sollen Indikatoren der latenten Variablen η1 sein, welche die Bezeichnung Depressivität erhält. Zwischen den Residualvariablen ε1 und ε2 wird keine Korrelation spezifiziert (Minimalmodell τ-kongenerischer Variablen). Die Ladungsparameter λ11 und λ21 sollen gleich hoch sein und werden daher mit Equality Constraints (etwa „Gleichheitsrestriktionen“) belegt (Modell essentiell τ-äquivalenter Variablen). Ebenso sollen die Residualvariablen ε1 und ε2 identisch sein und werden daher gleich gesetzt (hypothetisiertes Modell essentiell τ-paralleler Variablen). Abbildung 2 zeigt das Modell. Methode 87 Depressivität η1 λ11 = BDI-II y1 BDI-II-V y2 ε1 Abbildung 2 λ21 = ε2 Modell essentiell τ-paralleler Variablen des BDI-II und BDI-II-V 4.3.1.2 Alternatives Modell: Modell mit perfekter latenter Korrelation Wie im Ergebnisteil darzulegen sein wird, fiel die Überprüfung des Modells nicht zur vollsten Zufriedenheit aus, so dass exploratorisch eine alternative Modellspezifikation getestet wurde. Der logisch nächste Schritt wäre die Testung der nächst niedrigeren Stufe der Messäquivalenz gewesen. Dies hätte bedeutet, zu überprüfen, ob BDI-II und BDI-II-V als essentiell τ-äquivalente Variablen gelten können, Depressivität also mit gleicher Diskrimination erfassen, ohne gleich reliabel zu sein. Das dazu notwendige Entfernen der Gleichheitsrestriktion der Fehlervariablen hätte bei fortgesetzter Verwendung der beiden Summenwerte als manifeste Indikatoren jedoch zu einem Modell mit null Freiheitsgraden geführt, das nicht testbar gewesen wäre. Eine Möglichkeit, die Freiheitsgrade zu erhöhen, ist die Vergrößerung der Anzahl bekannter Informationen durch das Hinzufügen manifester Indikatoren. Hierzu bot es sich an, statt der zwei Gesamtsummenwerte von BDI-II und BDI-II-V Itemparcels („Itempäckchen“) zu verwenden, also nicht alle Items eines Inventars zu einem Wert aufzusummieren, sondern nur jeweils eine bestimmte Menge an Items eines Inventars zu einem Summenwert, einem Parcel, zusammenzufassen. Methode 88 Das Bilden von Itemparcels ist eine übliche, jedoch auch kontrovers diskutierte, Methode zur Erstellung von Indikatoren für konfirmatorische Faktorenanalysen zur Überprüfung von Messinvarianz (Meade & Kroustalis, 2006). Im vorliegenden Fall war es die einzige Option, weitere Überprüfungen der Messäquivalenz der beiden Inventare vorzunehmen. Die Verwendung einzelner Items schied aus, da sie die Voraussetzung metrischer Indikatoren, die für die eingesetzte Variante konfirmatorischen Faktorenanalysen gilt (Eid et al., 2010), nicht erfüllt hätten; dies kann dagegen für Summenwerte angenommen werden. Jedes BDI wurde in zwei Parcels aufgeteilt (zum Vorgehen bei der Erstellung der Parcels siehe Abschnitt 4.7.5), so dass nun vier manifeste Variablen in die Analysen eingehen konnten. Abbildung 3 veranschaulicht das getestete Modell. BDI-II und BDI-II-V werden zu latenten Variablen (η1 und η2), deren Indikatoren jeweils ihre zwei Itemparcels konstituieren. Ein Modell essentiell τ-äquivalenter Variablen in seiner ursprünglichen Konzeption kann so jedoch nicht mehr getestet werden, da die Restriktion identischer Ladungsparameter der verschiedenen Itemparcels inhaltlich keinen Sinn ergibt. Stattdessen wird angenommen, dass die latente (messfehlerbereinigte) Korrelation zwischen dem BDI-II und dem BDI-II-V perfekt ist, was so interpretiert werden darf, dass die beiden Inventare identisch sind (vgl. Schmitt et al., 2003). Das Modell weist damit insofern Elemente eines Modells essentiell τ-äquivalenter Variablen auf, als es dessen Postulat der perfekten Korrelation der True-Score-Variablen umsetzt. Während sich die manifesten Indikatoren (die Itemparcels) aus dem True-Score-Anteil und einem zufälligen Fehleranteil zusammensetzen, repräsentieren die latenten Variablen den True-Score der Konstrukte, in diesem Falle des BDI-II und des BDI-II-V. Die Korrelation der wahren Werte (der Parameter ψ12) wird auf den Wert 1 restringiert. Methode 89 Ψ12 = 1 BDI-II η1 BDI-II-V η2 λ11 λ21 λ32 λ42 BDI-II: Parcel 1 y1 BDI-II: Parcel 2 y2 BDI-II-V: Parcel 1 y3 BDI-II-V: Parcel 2 y4 ε1 ε2 ε3 ε4 Abbildung 3 Modell mit perfekter latenter Korrelation zwischen BDI-II und BDI-II-V 4.3.2 Vergleich der Messäquivalenz von BDI-II-V.1 und BDI-II mit der Messäquivalenz von BDI-II-V.2 und BDI-II (Hypothese IV.b) Um zu überprüfen, ob die Entsprechung zwischen BDI-II und BDI-II-V.1 oder zwischen BDI-II und BDI-II-V.2 enger ist, wird die Analyse der Modelle, die in Kapitel 4.3.1 für die Gesamtstichprobe (BDI-II und BDI-II-V) beschrieben wurden, getrennt wiederholt in der Substichprobe, in der das BDI-II-V.1 ausgefüllt wurde, und in der Substichprobe, in der das BDI-II-V.2 Anwendung fand. Es soll dadurch eine Einschätzung ermöglicht werden, ob ein Modell jeweils in einer der Teilstichproben einen besseren Fit aufweist. Zur Veranschaulichung können erneut die Abbildungen 2 respektive 3 dienen. In Abbildung 2 steht die manifeste Variable Y2 nun für das BDI-II-V.1 beziehungsweise das BDI-II-V.2; in Abbildung 3 muss die latente Variable η2 nun mit BDI-II-V.1 beziehungsweise BDI-II-V.2 bezeichnet werden; entsprechend muss man sich die Variablen Y3 und Y4 als Parcels des BDI-II-V.1 beziehungsweise BDI-II-V.2 vorstellen. Methode 90 4.3.3 Modelle zur Überprüfung der Messäquivalenz von BDI, BDI-V, BDI-II und BDI-II-V (Hypothese V.b) Zuerst soll das in den Hypothesen postulierte Modell veranschaulicht werden, das BDI, BDI-V, BDI-II und BDI-II-V als essentiell τ-parallele Variablen konzipiert. Da dieses in den Analysen nicht bestätigt werden konnte, wie im Ergebnisteil berichtet wird, wurden Alternativen exploriert, die im Anschluss beschrieben werden. Dabei handelt es sich zum einen um ein Modell mit perfekten latenten Korrelationen zwischen Faktoren, welche die BDIs repräsentieren, zum anderen um ein Modell mit Methodenfaktor. 4.3.3.1 Modell essentiell τ-paralleler Variablen Analog dem Vorgehen für das Modell von BDI-II und BDI-II-V (Abschnitt 4.3.1.1), wird ein Modell spezifiziert, das BDI, BDI-V, BDI-II und BDI-II-V als essentiell τparallele Indikatoren einer latenten Variable Depressivität modelliert (siehe Abbildung 4). Depressivität η1 λ11 = BDI y1 ε1 Abbildung 4 λ21 BDI-V y2 = ε2 λ31 = = BDI-II y3 = ε3 λ41 BDI-II-V y4 = ε4 Modell essentiell τ-paralleler Variablen des BDI, BDI-V, BDI-II und BDI-II-V Die Korrelationen zwischen BDI, BDI-V, BDI-II und BDI-II-V (Y1bis Y4) sollen vollständig durch diese latente Variable (η1) erklärt werden. Die Ladungskoeffizienten λ11 bis λ41 werden mit Equality Constraints belegt, ebenso die Residualvariablen ε1 bis ε4. Methode 91 4.3.3.2 Alternatives Modell 1: Modell mit perfekten latenten Korrelationen Wie sich im Verlauf der Analysen herausstellte, gelang es weder, einen durchgängig akzeptablen Fit für das spezifizierte Modell essentiell τ-paralleler Variablen zu erzielen, noch für Modellstufen darunter (exploratorische Überprüfung eines Modells essentiell τ-äquivalenter Variablen und eines Modells τ-kongenerischer Variablen). Es wurde in einem nächsten Schritt überprüft, welchen Fit ein Modell erzielen konnte, das perfekte latente Korrelationen zwischen den vier Inventaren annimmt (vgl. das alternative Modell zur Messäquivalenzuntersuchung von BDI-II und BDI-II, Abschnitt 4.3.1.2). Abbildung 5 veranschaulicht dieses Modell. ψ14 = 1 ψ24 = 1 ψ13 = 1 ψ12 = 1 ψ23 = 1 BDI η1 λ11 ψ34 = 1 BDI-II η3 BDI-V η2 λ21 λ32 λ42 BDI-II-V η4 λ53 λ63 λ74 λ84 BDI: Parcel 1 y1 BDI: Parcel 2 y2 BDI-V: Parcel 1 y3 BDI-V: Parcel 2 y4 BDI-II: Parcel 1 y5 BDI-II: Parcel 2 y6 BDI-II-V: Parcel 1 y7 BDI-II-V: Parcel 2 y8 ε1 ε2 ε3 ε4 ε5 ε6 ε7 ε8 Abbildung 5 Modell mit perfekter latenter Korrelation zwischen BDI, BDI-V, BDI-II und BDI-II-V Jedes BDI ist als latente Variable (η1 bis η4) modelliert, welche durch zwei Itemparcels gemessen wird. Die Korrelationen zwischen diesen latenten Variablen (ψ12 bis ψ34) sind auf 1 festgesetzt. Mittels dieser Modellspezifikation können zudem bei Lockerung der Restriktion perfekter Faktorinterkorrelationen die messfehlerbereinigten Zusammenhänge zwischen den BDI-Formen bestimmt werden. Methode 92 4.3.3.3 Alternatives Modell 2: Modell mit Methodenfaktor Auch die Modellspezifikationen mit und ohne perfekte latente Korrelationen ließen sich nicht problemlos fitten. Aus diesem Grund wurde weiter exploriert und ein Modell überprüft, welches der unterschiedlichen Intensitätsskalierung der Originale und der Verkürzungen Rechnung trägt, indem es die den verschiedenen Skalierungsmethoden geschuldeten Unterschiede zwischen den Variablen in einem Methodenfaktor abzubilden sucht. Bevor das Modell vorgestellt wird, soll ein kurzer Exkurs das Konzept des Methodenfaktors und seine Modellierung darstellen. 4.3.3.3.1 Exkurs: Methodenfaktoren und ihre Modellierung Der Aspekt des Methodenfaktors wurde in einer richtungsweisenden Veröffentlichung von Campbell und Fiske (1959) in den Fokus der fachlichen Öffentlichkeit gerückt. Methodeneffekte waren zuvor zwar bereits thematisiert worden (z. B. Cronbach, 1946, zit. nach Campbell & Fiske, 1959, S. 85), erfuhren aber erst in der Folge des Artikels von Campbell und Fiske (1959) verstärkt Aufmerksamkeit (Schermelleh-Engel & Schweizer, 2007). Nach Campbell und Fiske (1959) stellt jede Messung eine TraitMethoden-Einheit (trait-method unit) dar: In any given psychological measuring device, there are certain features or stimuli introduced specifically to represent the trait that it is intended to measure. There are other features which are characteristic of the method being employed, features which could also be present in efforts to measure other quite different traits. (S. 84) Dabei ist das Ausmaß des Einflusses von Methodenfaktoren auf Messungen in der Psychologie Campbell und Fiske (1959) zufolge erheblich und (irrelevante) Methodeneffekte können, solange sie nicht erkannt und berücksichtigt werden, die Validität von Messungen einschränken. Würden zum Beispiel die Leistungsfähigkeit und die Kreativität von Personen selbst und von ihren Vorgesetzen beurteilt, so ist anzunehmen, dass die Korrelation der beiden Merkmale anders ausfällt, je nachdem, innerhalb welcher Beurteilergruppe man den Zusammenhang berechnet (angelehnt an Schermelleh-Engel & Schweizer, 2007). Würden die Eltern und die Freunde einer Person jeweils auf mehreren Variablen (z. B. Items Methode 93 oder Fragebogenskalen) die Depressivität dieser Person beurteilen, so ist es wahrscheinlich, dass die Korrelationen zwischen den Variablen innerhalb der Beurteilergruppen jeweils zumindest etwas höher ausfällt als dazwischen (angelehnt an Eid et al., 2010). Methodeneffekte können damit „alternative Erklärungen für beobachtete Zusammenhänge zwischen Konstrukten liefern“ (Schermelleh-Engel & Schweizer, 2007, S. 327). Dabei ist der Begriff „Methodeneffekt“ nicht beschränkt auf verschiedene Beurteiler, wie in den Beispielen, die eben zur Veranschaulichung gewählt wurden. Es ist ein „Sammelbegriff für verschiedene systematische Varianzquellen, die sich über den Trait hinausgehend auf die Validität der Messung auswirken können“ (Schermelleh-Engel & Schweizer, 2007, S. 327). Als weitere mögliche Ursachen für Methodenvarianz neben Charakteristika von Beurteilern („Informant“) nennen die Autoren Eigenschaften von Messinstrumenten („Method“) oder Merkmale der Situation, in der eine Messung stattfindet (Kontext, „Occasion“). Campbell und Fiske (1959) brachten die Vorschläge, Validität parallel über Konvergenz und Distinktion nachzuweisen und gleichzeitig eine Abschätzung der Varianzbeiträge von Trait und Methode vorzunehmen, zusammen im Konzept der MultitraitMultimethod-Matrizen (MTMM-Matrizen). Diese basierten darauf, mehrere (mindestens zwei, besser drei) Traits jeweils mit mehreren (mindestens zwei, besser drei) Methoden zu messen und anhand des Musters der Interkorrelationen zwischen den so entstandenen Trait-Methoden-Einheiten Reliabilität, konvergente und diskriminante Validität sowie Methodeneffekte zu beurteilen (Campbell & Fiske, 1959; SchermellehEngel & Schweizer, 2007). Heute werden die Korrelationen in MTMM-Matrizen in der Regel mittels Strukturgleichungsanalysen oder konfirmatorischer Faktorenanalysen analysiert (Eid, Lieschetzke & Nussbeck, 2006; Schermelleh-Engel & Schweizer, 2007). Zu ihrer Analyse stehen – Theorie und Ziel der eigenen Untersuchung entsprechend – eine Vielzahl denkbarer Modelle zur Verfügung, welche die angenommene Anzahl an Trait- und Methodenfaktoren, auf die die Korrelationen der Indikatoren zurückgeführt werden, variieren und gleichzeitig unterschiedliche Annahmen dazu machen, ob die Trait- und Methodenfaktoren jeweils untereinander korrelieren oder nicht (siehe z. B. Eid et al., 2006; Schermelleh-Engel & Schweizer, 2007; Widaman, 1985). Eines der „klassischen“ Modelle ist das sogenannte Correlated Trait/Correlated Method Modell (CTCM-Modell), welches für jeden im Modell angenommenen Trait („klassischerweise“ drei) und für jede im Modell angenommene Methode („klassischerweise“ eben- Methode 94 so drei) einen Faktor spezifiziert, wobei die Traitfaktoren und die Methodenfaktoren jeweils untereinander, aber nicht miteinander, korrelieren. Ein solches Modell ist nicht frei von (Schätz-)Problemen (siehe z. B. Eid et al., 2006). Dies veranlasste Eid (2000), ein Modell vorzuschlagen, in dem ein Methodenfaktor weniger spezifiziert wird, als Methoden verwendet wurden, das sogenannte Correlated Trait/Correlated Method minus one Modell (CTC(M-1)-Modell), welches die Identifikations- und Interpretationsschwierigkeiten des CTCM-Modells überwinden kann. Eid (2000) weist nach, dass in diesem CTC(M-1)-Modell Trait- und Methodenfaktoren nicht korrelieren können. Die Varianz kann zerlegt werden in traitspezifische, methodenspezifische und Fehlervarianz. Die Methode, die nicht modelliert wird, hat die Funktion einer Standardmethode, mit der alle anderen Methoden kontrastiert werden. Ein latenter Traitfaktor ist in diesem Modell der wahre Wert eines Indikators, der mit der Standard-Methode erfasst wurde (Eid et al., 2006). Ein latenter Methodenfaktor repräsentiert die Abweichungen der wahren Werte, die mit dieser Methode erfasst wurden, von der Vorhersage dieser Werte durch die Standardmethode (Nussbeck, Eid, Geiser, Courvoisier & Cole, 2007). Der Vergleichsstandard muss auf der Grundlage theoretischer Überlegungen gewählt werden. Dabei muss bedacht werden, dass das Modell nicht symmetrisch ist, was zur Folge hat, dass die Modellgüte im gleichen Datensatz unterschiedlich sein kann, je nachdem, welche Methode die Standardmethode ist (Eid, 2000). Es sollte die Methode zur Standardmethode gemacht werden, von der zu erwarten ist, dass sie das in Frage stehende Merkmal am besten erfasst (Nussbeck et al., 2007). 4.3.3.3.2 Das Modell Obwohl nach inhaltlichen Kriterien davon auszugehen war, dass die vier BDI-Formen das gleiche Konstrukt erfassen, bildete selbst das minimale Modell τ-kongenerischer Variablen die Beziehungen zwischen den BDIs nicht gut ab. Es war also anzunehmen, dass die Zusammenhänge zwischen den Variablen durch einen weiteren Aspekt geprägt waren, der im Modell bislang keine Berücksichtigung gefunden hatte (vgl. Eid et al., 2010). Die Ergebnisse der deskriptiven Analysen sowie die Resultate der Versuche, eines der zuvor beschriebenen Modell zu fitten, das alle BDI-Formen vereinte, legten nahe, dass es sich dabei um einen Methodenfaktor handelte, der den Einfluss der Skalierungsunterschiede zwischen Original-BDIs und verkürzten BDIs repräsentierte (Abschnitt 5.7 wird die entsprechenden Befunde näher erläutern). Methode 95 Im Unterschied zu der Konzeption der MTMM-Modelle, in deren Tradition auch das CTC(M-1)-Modell von Eid (2000) steht, wird in der vorliegenden Arbeit von den Indikatoren nur ein Trait (Depressivität) mit zwei Methoden erfasst, nicht mehrere Traits. Dennoch soll das Prinzip des Eid‘schen Modells angewandt werden, indem nur ein Methodenfaktor spezifiziert wird, was zu einem sparsameren und besser interpretierbaren Modell führt als die Modellierung zweier Methodenfaktoren. Naheliegend ist, die Original-Skalierung als Standardmethode zu wählen und daher einen Methodenfaktor zu modellieren, der die Abweichung der neu geschaffenen, verkürzten BDIs von der mit den Originalen gemessenen Depressivität einzuschätzen erlaubt. Abbildung 6 zeigt das Modell. Alle BDI-Formen (Y1 bis Y4) sind weiterhin Indikatoren einer gemeinsamen latenten Variablen (η1), die Depressivität zum Ausdruck bringt. Sie sollen entsprechend der ursprünglichen Annahmen in der Erfassung der Depressivität gleich gut diskriminieren, was durch Equality Constraints auf die Ladungsparameter λ11 bis λ41 umgesetzt wird. Zudem werden BDI-V (Y2) und BDI-II-V (Y4) auf einen latenten Methodenfaktor (η2) zurückgeführt, der die spezifischen Einflüsse der neuen Skalierung auf die Messung der Depressivität repräsentiert. Da die Skalierung von BDI-V und BDI-II-V identisch ist, gibt es keinen Grund anzunehmen, dass ihr Einfluss auf die beiden Inventare unterschiedlich ausfiele, so dass auch die Ladungsparameter λ22 und λ42 gleichgesetzt werden14. Entsprechend des Nachweises von Eid (2000) wird die Korrelation zwischen η1 und η2 auf Null fixiert. 14 Abgesehen davon war die Restriktion von λ22 und λ42 erforderlich, da die Modellspezifikation ansonsten zu Fehlermeldungen führte. Zum einen konnten dann keine Standardfehler berechnet werden, zum zweiten traten Heywood Cases in Form von negativen Residualvarianzen des BDI-Indikators auf. Die Lockerung der Restriktionen auf λ11 bis λ41, wie sie im Verlauf der Analysen ebenfalls durchgeführt werden wird, erfordert ebenso ein Beibehalten der Restriktion von λ22 und λ42, da das Modell ansonsten keine Freiheitsgrade aufweist. Methode 96 Methode η2 Depressivität η1 λ22 λ11 = λ21 = λ42 = λ31 = λ41 BDI y1 BDI-V y2 BDI-II y3 BDI-II-V y4 ε1 ε2 ε3 ε4 Abbildung 6 Modell des BDI, BDI-V, BDI-II und BDI-II-V mit Methodenfaktor 4.4 Auswertungssoftware Die deskriptiven Analysen (Maße der zentralen Tendenz, Streuung, Verteilung, Itemtrennschärfen), Hauptachsenanalysen, Korrelationsanalysen, t-Tests und χ2-Tests wurden mit der Software IBM SPSS Statistics in der Version 19 (SPSS Inc., 1989, 2010) vorgenommen. Die konfirmatorischen Faktorenanalysen wurden mit dem Programm Mplus (Muthén & Muthén, 1998-2010) in der Version 6 gerechnet. Zur Erstellung der Itemparcels und einigen Berechnungen, zum Beispiel von Durchschnittwerten, wurden außerdem die Funktionen von Microsoft Office Excel 2010 in Anspruch genommen. 4.5 Schätzmethode für die Modelle Das Ziel der konfirmatorischen Faktorenanalyse ist es, Schätzer für die Modellparameter (Faktorladungen, Faktorvarianzen und Kovarianzen, Indikator-Fehlervarianzen etc.) des spezifizierten Modells zu finden, die eine modellimplizierte Varianz-KovarianzMatrix (Σ) generieren, die der empirisch gefundenen (beobachteten) VarianzKovarianz-Matrix (S) so nahe wie möglich kommt (Brown, 2006). Das Schätzen der Methode 97 Modellparameter und der von ihnen implizierten Matrix geschieht in einem iterativen Prozess, der dann stoppt, wenn sich der Unterschied zwischen der beobachteten Varianz-Kovarianz-Matrix und der modellimplizierten Varianz-Kovarianz-Matrix nicht mehr wesentlich verringern lässt (Bühner, 2006). Genau genommen wird dabei eine Diskrepanzfunktion (fitting function) minimiert, welche die Unterschiede zwischen den beiden Matrizen S und Σ repräsentiert. Das Schätzverfahren, das dabei am häufigsten verwendet wird, ist die Maximum Likelihood Schätzung (ML). Dieses setzt jedoch neben einer großen Stichprobe und Intervallskalenniveau der Indikatoren auch die multivariate Normalverteilung der Indikatoren voraus (Brown, 2006). Die Stichprobengröße kann mit 163 ≤ N ≤ 325 in der vorliegenden Analyse als ausreichend für eine konfirmatorische Faktorenanalyse betrachtet werden (Bühner, 2006). Das Intervallskalenniveau der einzelnen Items, insbesondere der Items der Original-BDIs, kann in Frage gestellt werden, da diese lediglich vierfach gestuft sind und vor allem nicht als gesichert gelten kann, dass benachbarte Skalenpunkte äquidistant bzw. ihre Distanzen sinnvoll interpretierbar sind (vgl. die Analysen zur Ordinalität der Antwortkategorien von Hautzinger et al., 2006), wie es für eine Intervallskala gefordert wird (Wirtz & Nachtigall, 2002). In die Analysen gingen daher aggregierte Daten in Form von Summenscores (Gesamtsummenscores beziehungsweise durch Aufsummierung einzelner Items gebildete Itemparcels) ein, für die metrische Skaleneigenschaften angenommen werden können. Erwartungsgemäß waren jedoch weder die einzelnen Items, noch die Parcels oder Summenwerte univariat normalverteilt (im Ergebnisteil wird jeweils an geeigneter Stelle auf die entsprechenden Tabellen in Anhang C verwiesen, die Schiefe und Kurtosis der Indikatoren der jeweiligen Modellanalyse wiedergeben). Die Frage einer multivariaten Normalverteilung stellte sich somit erst gar nicht, da eine multivariate Normalverteilung von Variablen die univariate Normalverteilung der Variablen als notwendige (jedoch keineswegs hinreichende) Bedingung voraussetzt (Stevens, 2002). Zwar sind die Werte der Parameterschätzer durch die Verletzung der Normalverteilungsannahme in der Regel nicht betroffen, sofern die Daten nicht extrem schief verteilt beziehungsweise extrem flach- oder spitzgipfelig sind; jedoch können deutlich nicht-normale Ausgangsdaten zu verzerrten Standardfehlern der Parameterschätzer und einem verzerrten χ2, welches zur Bewertung der Modellgüte (siehe Abschnitt 4.6) herangezogen wird, führen (Brown, 2006). Durch die Überschätzung von χ2 wird der darauf beruhende Modellgütetest zu konservativ (Curran, West & Finch, 1996), durch die Unterschätzung der Standardfehler fällt die Bewertung der Signifikanz der Parameterschätzer zu liberal aus Methode 98 (West, Finch & Curran, 1995). Darüber hinaus resultiert eine Verzerrung von Modellgüteindizes (siehe Abschnitt 4.6), die eine zu strenge Bewertung des Modells nach sich zieht (siehe z. B. Brown, 2006). Diese Auswirkungen kommen umso deutlicher zum Tragen, je kleiner die Stichprobe ist. Einen alternativen Schätzalgorithmus stellt der Maximum-Likelihood-Schätzer mit robusten Standardfehlern und robustem χ2 (MLM) dar, der das Satorra-Bentler-skalierte χ2 (SB χ2, Satorra & Bentler, 1994) ausgibt. Auch wenn ML gegenüber kleineren Verletzungen der Normalverteilung relativ robust ist, so zeigt sich dennoch grundsätzlich eine Vergrößerung von χ2 mit zunehmender Abweichung der Verteilung von der Normalverteilung (Curran et al., 1996). Daher wurde entschieden, für die Analysen dieser Arbeit den MLM-Schätzer zu verwenden. Das SB χ2 hat darüber hinaus den bestechenden Vorteil, dass es sich – wenn multivariate Normalverteilung gegeben ist – zum gewöhnlichen ML χ2 vereinfacht (CWF, 1996). Der Nachteil ist, dass das SB χ2 mit zunehmender Schiefe und Kurtosis der Daten insbesondere in kleinen Stichproben an Teststärke zur Entdeckung von Modellfehlspezifikationen verliert. Der Verlust an Power war jedoch in den Monte Carlo Simulationen von Curran et al. (1996) selbst unter moderater Verletzung der Normalverteilungsannahme (Schiefe = 2, Kurtosis = 7, d. h. Werten, die weit über denen lagen, wie sie in den Daten dieser Analyse vorlagen) nur in Stichproben mit einem Umfang von N = 100, nicht mehr jedoch in Stichproben mit N ≥ 200 zu finden (wobei der Stichprobenumfang bei den meisten Analysen in dieser Arbeit jenseits von N = 300 liegt, einige jedoch eine Stichprobe von N = 163 – 169 verwenden, also genau zwischen den Umfängen, die die Autoren untersucht hatten). Insgesamt kommen Curran et al. (1996) zu dem Schluss, dass das „SB χ2 behaved extremely well in nearly every condition across sample size, distribution, and model specification“ (S. 27). Entsprechend ihrer Empfehlungen, dennoch sowohl SB χ2 als auch ML χ2 zu berücksichtigen, wenn die Normalverteilung der Daten in Frage gestellt ist, werden Analysen unter Schätzung mit ML wiederholt, wenn die MLM-Schätzung einen guten Fit nahelegt, um diesen im strengeren Lichte einer höheren Teststärke zu überprüfen. 4.6 Beurteilung der Modellgüte Die Beurteilung, ob das spezifizierte Modell zu den Daten passt, sollte nach Brown (2006) auf drei Wegen erfolgen. Zum einen über die Bewertung des globalen Modellfits mithilfe deskriptiver Modelgüteindizes. Zum zweiten sollte untersucht werden, ob das Methode 99 Modell „localized areas of strain“ (S. 113) aufweist, also Beziehungen, die das Modell nicht angemessen reproduzieren kann. Dazu können die Residuen sowie die von den Programmen ausgegebenen Modifikationsindizes genutzt werden. Zum dritten sind die Parameterschätzer zu betrachten im Hinblick auf ihre Signifikanz, Interpretierbarkeit, mögliche Heywood-Cases und darauf, ob sie in Stärke und Richtung den Erwartungen entsprechen. Die deskriptiven Modellgüteindizes, auf die sich die Beurteilung der Modelle in der vorliegenden Arbeit stützen wird, sollen im Folgenden beschrieben werden. Im Anschluss wird auf die Möglichkeit, den Fit zweier ineinander verschachtelter Modelle zu vergleichen, eingegangen. 4.6.1 Deskriptive Modellgüteindizes Das Modell passt umso besser auf die Daten, je geringer die Diskrepanz zwischen der beobachteten Varianz-Kovarianz-Matrix (S) und der bestmöglichen modellimplizierten Varianz-Kovarianz-Matrix (Σ) und damit die Diskrepanzfunktion ausfällt (Brown, 2006). Direkt auf dieser Diskrepanzfunktion beruht der klassische Modellgüteindex χ2. Der Index wird ausgegeben mit einem p-Wert, welcher angibt, wie wahrscheinlich das gefundene χ2 ist, wenn die beiden Matrizen gleich wären. Je geringer diese Wahrscheinlichkeit, desto schlechter passt das Modell zu den Daten. Es handelt sich um einen klassischen Signifikanztest: Überschreitet χ2 den kritischen Wert, kann von signifikanten Unterschieden zwischen S und Σ ausgegangen werden. Da die Nullhypothese (keine Unterschiede zwischen S und Σ) die Wunschhypothese ist, sollte – zumindest „bei kleinen Stichproben“ (Bühner, 2006, S. 253) – ein alpha-Niveau von .20 gewählt werden. Bei nicht-signifikantem χ2 darf von exaktem Modell-Fit gesprochen werden (Bühner, 2006). Unter anderem dafür, dass die sehr strenge Annahme getestet wird, dass die beiden Matrizen identisch sind sowie dafür, dass χ2 umso größer (und eine Ablehnung des Modells umso wahrscheinlicher) wird, je größer die Stichprobe ist, wird der Index jedoch kritisiert (Brown, 2006). Die Bewertung des Modells sollte daher zusätzlich auf der Basis weiterer Güteindizes erfolgen, die unterschiedlichen Aspekten der Modellgüte Gewicht verleihen. Welche Indizes unter welchen Umständen und mit welchen Grenzwerten Anwendung finden sollen, ist umstritten. Die vorliegende Arbeit orientiert sich in der Methode 100 Frage der zu berücksichtigenden Indizes weitestgehend an den Empfehlungen von Brown (2006). Modellgüteindizes können grob drei Kategorien zugewiesen werden: Absolute Fitindizes, Fitindizes mit Sparsamkeitskorrektur sowie komparative (oder inkrementelle) Fitindizes, wobei aus jeder Kategorie mindestens ein Index berücksichtigt werden sollte (Brown, 2006). Absolute Fitindizes berücksichtigen – in absoluter Art und Weise – nichts außer der Übereinstimmung der beobachteten und der modellimplizierten Matrix. Somit gehört auch χ2 in diese Kategorie. Ein weiterer Index ist der SRMR (Standardized Root Mean Square Residual). Sein Wertebereich liegt zwischen 0 und 1, wobei kleinere Werte besseren Modellfit anzeigen und ein Wert von Null für perfekten Fit steht. Hu und Bentler (1999) empfehlen für eine vernünftige Relation von alpha- und beta-Fehler einen SRMR ≤ .08. Fitindizes mit Sparsamkeitskorrektur belohnen – neben der Bewertung der Abweichung zwischen beobachteter und modellimplizierter Matrix – Sparsamkeit im Modell, so zum Beispiel der RMSEA (Root Mean Square Error Of Approximation, Steiger & Lind, 1980, zit. nach Brown, 2006, S. 83). Der RMSEA ist nach oben nicht begrenzt und sollte so klein wie möglich sein, idealerweise wird er Null (in diesem Fall darf von perfektem Fit gesprochen werden). Hu und Bentler (1999) empfehlen einen Cutoff von RMSEA ≤ .06. Der RMSEA ist zwar deutlich weniger empfindlich gegenüber der Stichprobengröße als χ2, fällt aber dennoch größer aus bei kleineren Stichproben (Hu & Bentler, 1999), so dass Bühner (2006) empfiehlt, den Cutoff RMSEA ≤ .06 für N > 250 anzuwenden und bei einem N ≤ 250 auf einen liberaleren Cutoff von RMSEA ≤ .08 zu setzen. Browne und Cudeck (1993) sind der Ansicht, dass ein RMSEA ≤ .05 einen ausreichend guten Fit eines Modells bedeutet, ein RMSEA ≤ .08 noch immer ein „reasonnable error of approximation“ (S. 144) sei und ein Modell ab einem RMSEA von ≥ .10 abzulehnen sei. MacCallum, Browne und Sugawara (1996) halten einen RMSEA zwischen .08 und .1 für ein Anzeichen immerhin noch mittelmäßigen („mediocre“, S. 134) Fits. Auf ihrer Bewertung, dass ein RMSEA ≤ .05 einen ausreichend guten Modellfit darstellt, basiert die von Browne und Cudeck (1993) vorgeschlagene Fitstatistik CFit (Test Methode 101 of Close Fit)15. Diese besteht in einem p-Wert, der die Wahrscheinlichkeit darstellt, mit der der RMSEA ≤ .05 ist. Für akzeptablen Modellfit sollte diese Wahrscheinlichkeit > .05, betragen. Um den RMSEA kann zudem ein Konfidenzintervall (CI) gebildet werden15, dessen Berücksichtigung zum Beispiel von MacCallum et al. (1996) empfohlen wird. Schließt es Null ein, darf von exaktem Modellfit gesprochen werden (Bühner, 2006). Bühner (2006) gruppiert sowohl den SRMR als auch den RMSEA zur Kategorie der Absoluten Fitindizes, denn beiden ist gemeinsam, dass sie die Abweichung des spezifizierten Modells von einem perfekten, saturierten Modell, das die beobachtete VarianzKovarianz-Matrix exakt repliziert, ausdrücken. Im Gegensatz dazu vergleichen komparative (inkrementelle) Fit-Indizes den Fit des spezifizierten Modells mit dem Fit eines Nullmodells, also einem Modells, in dem die Indikatoren unkorreliert sind. Dadurch resultiert zwar ein eher wohlwollender Blick auf das Modell, jedoch weisen einige solcher Indikatoren äußerst gute Eigenschaften auf (Brown, 2006). Einer dieser Indizes ist der CFI (Comparative Fit Index, Bentler, 1990). Sein Wertebereich liegt zwischen 0 und 1, wobei ein höherer Wert einen besseren Fit ausdrückt. Ein weiterer Index ist der TFI (Tucker-Lewis Index, Tucker & Lewis, 1973, zit. nach Brown, S. 85), auch NonNormed Fit Index genannt. Im Unterschied zum CFI bestraft er – wie der RMSEA – das unnötige Hinzufügen frei geschätzter Parameter. Zwar ist der TLI nicht normiert (hat also keinen strengen Wertebereich zwischen 0 und 1), wird aber dennoch interpretiert wie der CFI, das heißt, Werte nahe bei 1 zeigen einen guten Modellfit an. Der Cutoff für CFI und TLI für vernünftigen Fit liegt nach Vorschlag von Hu & Bentler (1999) nahe bei .95 oder darüber. Tabelle 6 fasst die Modellgüteindizes und die empfohlenen Grenzwerte zusammen. 15 CFit und Vertrauensintervall werden von der in dieser Untersuchung verwendeten Statistik-Software Mplus (Muthén & Muthén, 1998 – 2010) nur für den ML-Schätzer ausgegeben und werden daher nur in den Fällen berichtet, in denen nach den Modelschätzungen mit dem MLM-Schätzalgorithmus alle Indizes auf guten Fit hinweisen, der dann mit dem „strengeren“ ML-Schätzer überprüft wird. Methode 102 Tabelle 6 Indizes zur Beurteilung der Modellgüte und Grenzwerte, wie sie der Modellgütebeurteilung in dieser Arbeit zu Grunde gelegt wurden Index♠ Approximativer Modellfit♠ Perfekter Modellfit♠ χ2 und p-Wert nicht definiert kleine Stichproben: p ≥ .20 große Stichproben: p ≥ .05 SRMR SRMR ≤ .08 SRMR = 0.0 RMSEA N > 250: RMSEA ≤ .06 RMSEA = 0.0 N ≤ 250: RMSEA ≤ .08 .08 ≤ RMSEA ≤ .10 = mittelmäßiger Fit Cfit p > .05 nicht definiert 90% CI des nicht definiert CI umfasst 0.0 CFI CFI ≥ .95 nicht definiert TLI TLI ≥ .95 nicht definiert RMSEA Anmerkungen. ♠ (Brown, 2006; Browne & Cudeck, 1993; Bühner, 2006; Hu & Bentler, 1999; MacCallum et al., 1996) 4.6.2 Modellvergleich Sollen zwei ineinander verschachtelte Modelle (d. h. Modelle, bei denen sich eines (comparison model) aus dem anderen (nested model) durch Lockerung von Restriktionen ergibt) hinsichtlich ihres Modellfits miteinander verglichen werden, kann dazu die χ2-Statsitik verwendet werden (χ2-Differenzentest). Die Differenz zweier χ2-Werte folgt ebenso einer χ2-Verteilung und kann auf Signifikanz getestet werden; die Differenz der Freiheitsgrade beider Modelle stellen die Freiheitsgrade des Differenztests dar. Findet, wie in der vorliegenden Arbeit, das SB- χ2 Verwendung, kann als Teststatistik allerdings nicht die einfache Differenz der χ2-Werte eingesetzt werden, da sie nicht χ2verteilt ist. Die Berechnung einer entsprechend korrigierten Teststatistik (χ2s genannt, Satorra & Bentler, 1994) ist zum Beispiel bei Brown (2006) beschrieben. Methode 103 4.7 Aufbereitung der Rohdaten Dieses Kapitel legt dar, wie die Rohdaten behandelt wurden, bevor sie in die Analysen eingingen. Die Items des NEO-FFI wurden in Skalenwerten zusammengefasst. Zur Auswertung der BDI-Varianten wurden Summenwerte der Items gebildet. Die Items respektive Summenwerte der verkürzten BDIs wurden reskaliert, um sie in Bezug auf ihren Werteberich vergleichbar zu machen und so direkte Gegenüberstellungen zwischen Summenwerten von originalen und verkürzten BDI-Versionen zu ermöglichen. Logarithmische Transformationen der Daten sollten die Verteilungseigenschaften verbessern. Zur Testung verschiedener Modelle war die Aufteilung der Items auf Testhälften (Itemparcels) erforderlich. 4.7.1 Skalenwerte des NEO-FFI Entsprechend den Anweisungen des Manuals (Borkenau & Ostendorf, 2008) wurden die invers codierten Items rekodiert (umgepolt) und für jede der fünf Skalen (Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit) ein Skalenwert errechnet. 4.7.2 Summenwerte des BDI Für jedes BDI wurde durch Aufaddieren der angekreuzten Ziffern ein Summenwert gebildet. In den Original-BDIs (BDI und BDI-II) geht jedes der 21 Items mit einem Punktwert von 0 – 3 in die Bildung des Gesamtscores ein, so dass der Wertebereich des Summenwertes jeweils zwischen 0 und 63 Punkte liegt. Hatten Probanden entgegen der Instruktion Kreuzchen bei mehreren Aussagen pro Item gesetzt, wurde entsprechend den Auswertungsvorschriften für das BDI (Hautzinger et al., 1995) sowie das BDI-II (Hautzinger et al., 2006) nur die höchste angekreuzte Ziffer gezählt. Die Auswertungsvorschrift eine Ziffer pro Item gilt auch für die Items 16 („Veränderungen der Schlafgewohnheiten“) und 18 („Veränderungen des Appetits“) des BDI-II, wobei ein Proband hier bei einem Wert > 0 gleichzeitig angibt, ob eine Zunahme oder eine Abnahme/Verschlechterung des Schlafes bzw. Appetits vorliegt, indem auf den Stufen 1 – 3 zwischen a(Zunahme)- und b(Abnahme)-Aussagen gewählt werden muss. Beides kann nicht gleichzeitig ausgewählt werden beziehungsweise es würde, wenn ein Proband entgegen der Instruktion doch beides angibt, nur eines der Kreuzchen gezählt Methode 104 werden, und zwar das bei der höchsten Ziffer. (Wenn also beispielsweise 2a („Ich schlafe viel weniger als sonst“) und 3b („Ich schlafe fast den ganzen Tag“) angekreuzt wären, würde das Item mit drei Punkten gewertet, sofern man davon ausgehen kann, dass das Item ernsthaft ausgefüllt wurde). Die inhaltliche Unterscheidung (a/Zunahme oder b/Abnahme oder die Angabe beider Phänomene) wird bei der Bildung des Summenwertes nicht berücksichtigt und ist im Gesamtscore daher nicht repräsentiert.16 Für die verkürzten BDIs (BDI-V, BDI-II-V.1 und BDI-II-V.2) lag der Skalenbereich jedes Items zwischen 0 und 5, so dass für das BDI-V (20 Items) ein Summenwert zwischen 0 und 100 möglich war, für das BDI-II-V.1 (21 Items) ein Summenwert zwischen 0 und 105 und für das BDI-II-V.2 (23 Items) ein Summenwert zwischen 0 und 115. Für das BDI-II-V.2 wurde zudem eine zweite Auswertung durchgeführt, in der die je zwei Items zu Schlaf und Appetit zu je einem Item zusammengefasst wurden. Dies geschah, indem jeweils die höhere der Ziffern beider Items verwendet wurde – analog der Auswertung der Items im BDI-II, in welchem auch nur je eine Ausprägungsrichtung der Symptome angegeben beziehungsweise bei Angabe von Schwierigkeiten in beiden Richtungen nur eine Aussage gezählt werden kann (s.o.). Hatte ein Proband beispielsweise in Item 16 des BDI-II-V.2 („Ich schlafe außergewöhnlich wenig“) eine 1 angekreuzt und in Item 17 („Ich schlafe außergewöhnlich viel“) eine 3, so wurde für das zusammengefasste Item (neues Item 16) die 3 übernommen. Analog war das Vorgehen bei der Zusammenfassung der Items zu Appetit: Hatte ein Proband zum Beispiel in Item 19 („Ich habe außergewöhnlich wenig Appetit“ eine 4 angekreuzt und in Item 20 („Ich habe außergewöhnlich viel Appetit“) eine 2, so wurde für das zusammengefasste Item (neues Item 18) die 4 gewertet. Die Angabe von Werten ungleich Null in beiden Ausprägungen des Symptoms kam sehr häufig vor und ist – da das Antwortformat in den verkürzten BDIs ein Häufigkeitsformat ist – nicht so abwegig, wie es auf den ersten Blick vielleicht scheinen mag. Es ist schließlich gut möglich, dass in den letzten zwei Wochen beispielsweise selten außergewöhnlich wenig geschlafen wurde (1 in Item 16) und oft außergewöhnlich viel geschlafen wurde (3 in Item 17) oder analog zum Beispiel sehr oft außergewöhnlich wenig Appetit vorkam (4 in Item 19) und manchmal außergewöhnlich viel Appetit vorkam (2 in Item 20). 16 Im klinischen Kontext müssen die beiden Items daher neben dem Summenwert gesondert betrachtet werden, um eine differenzierte Einschätzung der Symptome eines Patienten vornehmen zu können (Hautzinger et al., 2006). Methode 105 Diese Auswertung des BDI-II-V.2 wurde mit BDI-II-V.2.Z bezeichnet (Z für zusammengefasst). Sie umfasst wie das BDI-II-V.1 21 Items (Wertebereich des Summenwertes daher 0 – 105), wobei das Item 16 zu Schlaf aus den vormaligen Items 16 („Ich schlafe außergewöhnlich wenig“ und 17 („Ich schlafe außergewöhnlich viel“) hervorging und das Item 18 zu Appetit eine Zusammenfassung der vormaligen Items 19 („Ich habe außergewöhnlich wenig Appetit“ und 20 („Ich habe außergewöhnlich viel Appetit“) darstellt. Das BDI-II-V.2.Z ist aufgrund der gleichen Anzahl an sich jeweils entsprechender Items besser direkt mit dem Original (BDI-II) und mit dem BDI-II-V.1 vergleichbar als das BDI-II-V.2 mit seinen 23 Items. Das BDI-II-V.2.Z ermöglichte außerdem – was noch viel entscheidender war – eine Zusammenfassung der Teilstichprobe, die das BDI-II-V.1 ausgefüllt hatte, und der Teilstichprobe, die das BDI-II-V.2 ausgefüllt hatte, zu einer Gesamtstichprobe. Auch dies war möglich, da nun in beiden Versionen dieselbe Anzahl sich entsprechender Items vorhanden war (denn auch im BDI-II-V.1 war das Item 16 jenes zu Schlaf und das Item 18 jenes zu Appetit, die anderen Items entsprachen sich ohnehin.). Zur Bezeichnung der gemeinsamen Version in der Gesamtstichprobe wurde schlicht BDI-II-V gewählt. Wenn also im Folgenden vom BDI-II-V die Rede ist, wird auf Auswertungen Bezug genommen, die in dieser Gesamtstichprobe vorgenommen wurden. BDI, BDI-V und BDI-II waren generell allen Probanden in der gleichen Form vorgelegt worden. Mit der Zusammenfassung von BDI-II-V.1 und BDI-II-V.2.Z zum BDI-II-V lag nun auch für diesen Fragebogen ein Datensatz vor, der alle Probanden umfasste, so dass alle vier Fragebögen im kompletten Datensatz verglichen werden konnten. Gleichzeitig konnten in den jeweiligen Teilstichproben das BDI-II mit dem BDI-II-V.1 und das BDI-II mit dem BDI-II-V.2 respektive dem BDI-II-V.2.Z vergleichen werden. In diesen beiden Fällen wird natürlich auch für das BDI-II auf die jeweilige Teilstichprobe Bezug genommen (Bezeichnungen dann: BDI-II.1 für das BDI-II in der Teilstichprobe derer, die das BDI-II-.1 erhalten hatten und BDI-II.2 für das BDI-II in der Teilstichprobe derer, die das BDI-II-V.2 erhalten hatten) Außerdem konnte zwischen den Teilstichproben das BDI-II-V.1 mit dem BDI-II-V.2 verglichen werden. Tabelle 7 fasst die in dieser Arbeit verwendeten Versionen bzw. Auswertungsvarianten des BDI und ihre Bezeichnung zusammen. Auf die mittlere Spalte „Reskalierte Version“ wird im folgenden Abschnitt (4.7.3) eingegangen. Methode Tabelle 7 106 Alle verwendeten Versionen und Auswertungen des BDI im Überblick Version Reskalierte Version Erläuterung BDI - Original des BDI von Hautzinger et al. (1994) in der Gesamtstichprobe BDI-V BDI-V.R Verkürzung des BDI von Schmitt und Maes (2000) in der Gesamtstichprobe BDI-II - Original des BDI-II von Hautzinger et al. (2006) in der Gesamtstichprobe BDI-II.1 - Original des BDI-II von Hautzinger et al. (2006) in der Substichprobe 1, die den BDI-II-V.1 (s.u.) erhalten hatten BDI-II.2 - Original des BDI-II von Hautzinger et al. (2006) in der Substichprobe 2, die den BDI-II-V.2 (s.u.) erhalten hatten BDI-II-V.1 BDI-II-V.1.R Verkürzung des BDI-II, wie sie diese Arbeit vorschlägt mit je einem Item zu Schlaf und Appetit (Substichprobe 1) BDI-II-V.2 BDI-II-V.2.R Verkürzung des BDI-II, wie sie diese Arbeit vorschlägt mit je zwei Items zu Schlaf und Appetit (Substichprobe 2) BDI-II-V.2.Z BDI-II-V.2.Z.R BDI-II-V.2, in dem die je zwei Items zu Schlaf und Appetit zu je einem Item zusammengefasst wurden (Substichprobe 2) BDI-II-V BDI-II-V.R Zusammenfassung von BDI-II-V.1 und BDI-II-V.2.Z (Gesamtstichprobe). 4.7.3 Reskalieren der Werte der verkürzten BDI-Varianten Um die Summenwerte zwischen den Original-BDIs mit ihrer Itemskalierung von 0 – 3 und den verkürzten Versionen mit ihrer Itemskalierung von 0 – 5 direkt vergleichen zu können, wurde für alle verkürzten Versionen eine reskalierte Variante erstellt, indem Methode 107 die Itemantworten mit 0.6 (= ) multipliziert wurden. Die Bezugnahme auf eine reskalierte Variante ist erkennbar an der Erweiterung der Fragebogen-Bezeichnung durch ein .R (R für reskaliert) am Ende, zum Beispiel BDI-V.R (statt BDI-V) (siehe Tabelle 7, mittlere Spalte). Die Reskalierung ist zudem eine notwendige Voraussetzung zur Testung der Modelle, in denen zwei oder mehr BDI-Formen als gleich diskriminierende Indikatoren der latenten Variablen Depressivität spezifiziert wurden. Indikatoren, deren Ladungsparameter sich gleichen sollen, sollten die gleiche Metrik besitzen, da die unstandardisierten Ladungen (die mit den Restriktionen belegt werden) sich sonst schon inhärent unterscheiden würden (Brown, 2006; siehe auch Kapitel 2.4.2.1 & 2.4.2.2). In konfirmatorischen Faktorenanalysen, in denen Equality Constraits für Ladungsparameter definiert wurden, und bei Vergleichen der Mittelwerte zwischen Original und Verkürzung mittels t-Tests, wird daher immer mit reskalierten Versionen der verkürzten BDIs gerechnet17. In konfirmatorischen Faktorenanalysen, in denen keine Equality Constraints auf Ladungsparameter bestanden, und in allen anderen Auswertungen, die von Lineartransformationen nicht berührt werden, spielt die Frage der Reskalierung keine Rolle. 4.7.4 Logarithmieren der Werte Wie erwähnt waren Item- und Summenwerte nicht normal verteilt. Da – trotz der Verwendung eines robusten Schätzalgorithmus – Schwierigkeiten bestanden, einen guten Fit für die hypothetisierten Modelle zu erzielen, wurden mittels logarithmischer Transformation der Daten Versuche unternommen, die deutliche Rechtsschiefe der Item- und Summenwerte zu reduzieren und die Verteilungsform näher an eine Normalverteilung heranzuführen. So sollten Erkenntnisse dazu ermöglicht werden, ob der Modellfit durch eine Annährung der Verteilung an die Normalverteilung verbessert werden konnte und somit die Verletzung der Normalverteilung zum unbefriedigenden Modellfit beigetragen haben könnte. 17 Die einzige Ausnahme bilden konfirmatorische Faktorenanalysen, in denen logarithmierte Summenwerte Verwendung finden (s.u.). In diesen Fällen wird probehalber mit reskalierten und nicht-reskalierten Summenwerten gerechnet; die Ergebnisse dieser Analysen sind jedoch ohnehin nur sehr eingeschränkt interpretierbar Methode 108 Logarithmiert wurden zum einen die Werte der einzelnen Items, die in dieser Form in eine Variante der Itemparcelbildung (siehe Abschnitt 4.7.5) eingingen. Zum anderen wurden die Summenwerte der BDIs einer logarithmischen Transformation unterzogen, um in dieser Form als Indikatorvariablen der konfirmatorischen Faktorenanalysen zu dienen, die auf Summenscores basierten. Die Summenwerte wurden deswegen unabhängig von den Items logarithmiert, weil sich durch eine direkte logarithmische Transformation der Summenwerte im Vergleich zu einer Summenbildung aus logarithmierten Items eine stärkere Angleichung der Verteilungsform an die Normalverteilung erzielen ließ. Vor dem Logarithmieren mussten die Daten durch die Addition von 1 linear transformiert werden, da der mögliche und auch der tatsächliche Wertebereich bei Item- und Summenwerten Null einschloss, der Logarithmus für Null jedoch nicht definiert ist. 4.7.5 Erstellen von Itemparcels In konfirmatorischen Faktorenanalysen, in denen die manifesten Indikatoren in Itemparcels bestehen, hängt der Modellfit unter anderem davon ab, wie diese Parcels zusammengesetzt sind (siehe z. B. Fabian-Krause, 2011). Dies zeigte sich auch in den Analysen der vorliegenden Arbeit. Modelle, in denen Itemparcels in Form von BDI-Testhälften als manifeste Indikatoren von latenten BDI-Variablen dienten, wiesen mehr oder weniger große Abweichungen von einem zufriedenstellenden Fit auf, je nachdem, wie sich die Items auf die Parcels verteilten. Die Strategien, die eingesetzt wurden, um Parcels zu generieren, werden im Folgenden beschrieben. Der Abschnitt schließt mit dem Fazit, welche Zusammensetzung der Itempäckchen für die verschiedenen Modelle jeweils zum besten Modellfit führte. Nur die Ergebnisse, die mit den optimalen Parcels erzielt wurden, werden in der Darlegung der Analysen im Ergebnisteil berichtet. Variante 1. Zunächst wurden entsprechend dem Vorgehen von Schmitt et al. (2003) für jede der BDI-Formen zwei Parcels mit dem Ziel gebildet, dass die Aufteilung der Items auf die Parcels sich zwischen den Formen maximal unterscheiden sollte. Dies sollte die Wahrscheinlichkeit von Fehlerkorrelationen minimieren (Schmitt et al., 2003). Dazu wurde das BDI nach Item 10 in eine erste (Item 1 – 10) und eine zweite (Item 11 – 21) Hälfte geteilt. Das BDI-V wurde nach der Odd-Even Methode unterteilt (d. h., die gera- Methode 109 den Items gelangten in Parcel 1, die ungeraden in Parcel 2). Beim BDI-II wurde so verfahren, dass jeweils zwei Items in das erste Parcel gelangten, die nächsten zwei in das zweite Parcel, dann wieder zwei in das erste Parcel und so weiter. Ähnliche Strategien wurden verfolgt für das BDI-II- V und das BDI-II-V.1, bei denen jeweils18 drei Items in das erste Päckchen gelangten, die nächsten drei in das zweite Päckchen und so weiter. Beim BDI-II-V.2 gelangten entsprechend Vierergruppen in die beiden Parcels. Variante 2a – f. Es wurde sodann die Strategie verfolgt, die Korrelationen zwischen allen Parcels parallel so ähnlich wie möglich zu gestalten. Je gleichmäßiger die Zusammenhänge zwischen den Indikatoren der latenten BDI-Variablen sein würden, desto ähnlicher könnten auch die latenten Korrelationen ausfallen, so die Annahme. Variante 3. Während die bisherigen Techniken weitestgehend auf logischen Überlegungen sowie Trial and Error basierten, orientierte sich das Vorgehen nun enger an im Vorfeld der erkennbaren psychometrischen Charakteristika der Items. Mit dem Ziel, dass jeweils beide Parcels eines BDIs eine möglichst identische Beziehung zum latenten Konstrukt haben mögen, wurden zum Erstellen der Parcels die Trennschärfen genutzt. Getrennt für jedes Inventar wurde dem ersten Parcel jeweils das Item mit der höchsten Trennschärfe zugewiesen, das Item mit der zweithöchsten Trennschärfe gelangte in das zweite Parcel. Dann wurde das Item mit der dritthöchsten Trennschärfe wiederum dem zweiten Parcel zugewiesen und das Item mit der vierthöchsten Trennschärfe in das erste Parcel eingefügt. Das Item mit der fünfthöchsten Trennschärfe gehörte wieder zum ersten Parcel und so weiter. Variante 4. Schließlich wurden die Strategien des Logarithmierens und der Berücksichtigung der Beziehung der Items untereinander (vgl. Variante 3) kombiniert. Um die Verteilungseigenschaften der Itens und damit der aus ihnen generierten Parcels zu verbessern, wurden logarithmierte Items verwendet. Die so veränderten Items wurden für jede Version des BDIs Hauptachsenanalysen unterzogen. (Extrahiert wurden jeweils so viele Faktoren, wie eine Parallelanalyse nahelegte. Das Generieren der dazu benötigten zufälligen Eigenwerte erfolgte unter Verwendung einer Syntax von O’Connor (2000).) In Anlehnung an die Empfehlungen von Little, Cunningham, Shahar und Widaman (2002) wurden die zwei Itempäckchen jedes BDI erstellt, indem der Betrag der Ladun- 18 Da das BDI-II-V und das BDI-II-V.1 niemals gemeinsam in eine Analyse eingehen konnten, durften die Items in gleicher Weise verteilt werden Methode 110 gen der Items auf dem ersten unrotierten Faktor und – in gewissem Maße – ihr Mittelwert zugrunde gelegt wurde. Das Ziel war, Parcels zu bilden, die in Bezug auf ihre Relation zum Konstrukt (Diskrimination) sowie in Bezug auf ihre Schwierigkeit ausbalanciert sein sollten (Little et al., 2002). Das Item mit der höchsten Ladung auf dem ersten unrotierten Faktor gelangte in das erste Parcel, das Item mit der zweithöchsten Ladung auf dem ersten unrotierten Faktor in das zweite Parcel, das Item mit der dritthöchsten Ladung wieder in das zweite Parcel und so weiter (s.o.; diese Strategie entspricht weitgehend der Berücksichtigung der Trennschärfen in Variante 3). War die Zuordnung der Items zu Päckchen auf Basis der Ladung erfolgt, wurde überprüft, ob die Verteilung der Items mit hohen, mäßig hohen, mäßig niedrigen und niedrigen Mittelwerten zwischen den beiden Parcels in etwa ausgeglichen war. Gegebenenfalls wurde korrigiert, indem Items zwischen den Parcels getauscht wurden. Das gewählte Vorgehen konnte die Schwierigkeiten zwischen den Parcels nicht exakt ausgleichen, schien aber der beste Kompromiss zwischen einem im Rahmen dieser Arbeit zu komplexen Verfahren, das parallel Faktorladung und Mittelwert exakt berücksichtigt hätte, und dem vollständigen Verzicht auf die Beachtung der Schwierigkeiten. Fazit. Bei der Verfolgung der Ziele der jeweiligen Strategien wurden während der Analysen alle BDI-Formen parallel berücksichtigt. Für die Modelle, die nur zwei der BDI-Formen einbezogen, ergab sich dadurch ein überraschender Schluss: In den Analysen, die lediglich BDI-II und entweder BDI-II-V, BDI-II-V.1 oder BDI-II-V.2 enthielten, ließ sich der beste Modellfit jeweils mit Parcels erzielen, die auf der Suche nach Indikatoren möglichst ähnlicher manifester Korrelationen entstanden waren (Variante 2e). Interessanterweise wiesen diese jeweils vier Parcels jedoch bei weitem nicht die ähnlichsten Korrelationen auf. Der Range von der niedrigsten Interparcelkorrelation zur höchsten Interparcelkorrelation betrug (je nach Stichprobe) zwischen 0.158 und 0.163 Punkten. Für andere Varianten belief sich dieser Range auf geringere Werte, bis zu zwischen 0.108 und 0.134 Punkte. Viel mehr war es so, dass die Itempäckchen der Variante 2e exakt den Parcels entsprachen, wie sie Schmitt et al. (2003) für BDI und BDI-V gebildet hatten (siehe Variante 1, maximale Unähnlichkeit zwischen den Parcels). Die Anwendung der Strategie der maximalen Unähnlichkeit zwischen den Parcels in Bezug auf alle Formen parallel hatte nicht zum Erfolg geführt, wenn ein Modell mit allen Formen gefittet wurde (s.u.). Für BDI-II und BDI-II-V einzeln betrachtet hatten sich dabei auch nicht maximal unähnliche Parcels ergeben, da alle Methode 111 Formen parallel einbezogen worden waren. Bezieht man diese Strategie auf nur zwei Inventare, lässt sie sich am effektivsten umsetzen und war in dieser Untersuchung die erfolgreichste. In den Analysen, in denen alle vier BDI-Formen modelliert wurden, erwiesen sich die nach der Variante 3 (Ausgleich der Trennschärfen zwischen den Parcels) erstellten Indikatoren als optimal. (Gleichzeitig wiesen diese Parcels die höchste Ähnlichkeit der Koeffizienten der Interkorrelationen der acht Indikatoren auf; Range: 0.169). Die Verteilung der Items auf die Parcels, die sich als optimal erwiesen hatten und in den im Ergebnisteil berichteten Analysen zum Einsatz kamen, wird in Anhang C dargestellt. Tabelle 19 zeigt die nach Variante 2e gebildeten Parcels für die Modelle zur Analyse von BDI-II und BDI-II-V in der Gesamt- und den Teilstichproben. Tabelle 20 zeigt die nach Variante 3 gebildeten Parcels für die Modelle zur Analyse von BDI, BDI-V, BDI-II und BDI-II-V in der Gesamtstichprobe. Ergebnisse 112 5 Ergebnisse Dieses Kapitel stellt die Ergebnisse der statistischen Analysen dar. Die Struktur des Abschnitts spiegelt die Struktur der Fragestellungen und Hypothesen wieder. Der Bericht beginnt mit den psychometrischen Charakteristika und den Ergebnissen zur Validität des BDI-II-V (zur Erinnerung: dabei handelt es sich um die aus der Zusammenfassung von BDI-II-V.1 und BDI-II-V.2 hervorgegangene Version des vorgeschlagenen Inventars in der Gesamtstichprobe). Darauf folgt der Vergleich des BDI-II-V mit dem Original (BDI-II). Der nächste Abschnitt analysiert Unterschiede zwischen den Subformen 1 und 2 des BDI-II-V. Schließlich werden BDI, BDI-V, BDI-II und BDI-II-V einem parallelen Vergleich unterzogen. Bevor der Einstieg in die statistischen Ergebnisse erfolgt, werden das Vorgehen bei der Datenbereinigung und die resultierende Analysestichprobe dargestellt. Alle im Text angegebenen p-Werte sind zweiseitig. 5.1 Datenbereinigung und Beschreibung der Stichprobe Wie in Abschnitt 4.2 dargelegt, handelt es sich um eine Gelegenheitsstichprobe, die nach dem Schneeballsystem im Bekanntenkreis der Autorin rekrutiert wurde. Die Bemühungen gingen dabei in die Richtung, eine soziodemographisch möglichst heterogene Bevölkerungsstichprobe zu verwirklichen. Der Zeitraum der Datenerhebung lag zwischen Februar und Juli 2011. Es wurden 630 Bögen an Interessenten ausgegeben, von denen 361 ausgefüllt zurückgesendet wurden, was einer Rücklaufquote von 57% entspricht. Im Folgenden wird zunächst auf die drei Problembereiche der Identifikation nicht ernsthaft ausgefüllter Fragebögen, des Umgangs mit Extremwerten und Ausreißern sowie des Verfahrens bei fehlenden Werten eingegangen, um dann die Analysestichprobe zu beschreiben. Ergebnisse 113 5.1.1 Verständnisschwierigkeiten oder mangelnde Sorgfalt beim Ausfüllen Um Verfälschungen der Ergebnisse durch nicht sorgfältig ausgefüllte Fragebögen oder Verständnisschwierigkeiten bei Teilnehmenden zu verhindern, wurden die Fragebögen von Probanden mit Extremwerten oder Ausreißern in einem der BDI-Summenwerte, von Probanden mit fehlenden Werten (Missings) in einem der Fragebögen sowie von Probanden, deren Ankreuzverhalten auffällige „Muster“ produziert hatte oder deren Bögen Hinweise auf Verständnisschwierigkeiten enthalten hatten, genauer inspiziert. 14 Probanden mussten nach diesen Analysen vollständig ausgeschlossen werden, da eindeutige Hinweise auf fehlende Ernsthaftigkeit oder mangelndes Verständnis vorlagen. Für zwei Probanden mussten einzelne Fragebögen aus dem Datensatz entfernt werden. Unter den 14 vollständig ausgeschlossenen Probanden befanden sich überproportional viele Teilnehmer unter 20 Jahren (5 Teilnehmende, also 36%), was dazu führte, dass diese Altersgruppe in der Gesamtstichprobe nun noch stärker unterrepräsentiert war, als dies bereits vor den erforderlichen Ausschlüssen der Fall gewesen war (s.u.). 5.1.2 Ausreißer und Extremwerte Als Ausreißer gelten solche Werte, die innerhalb des anderthalb- bis dreifachen Interquartilsabstandes liegen; von Extremwerten spricht man bei Werten, die sich außerhalb des dreifachen Interquartilsabstandes befinden (Bühl, 2010; Gollwitzer & Jäger, 2007). Ausreißer und Extremwerte können mittels Boxplots identifiziert werden (Bühl, 2010). In dem um unverständig oder boykottierend ausgefüllte Fragebögen bereinigten Datensatz fand sich in keinem der BDIs ein Extremwert, jedoch einige Ausreißer. Es gibt keine allgemeingültige Empfehlung, wie mit ihnen umzugehen ist (Schendera, 2007). Sie dürfen im Datensatz belassen werden, sofern davon ausgegangen werden kann, dass es sich „um ‚reale‘ Ausreißer handelt“ (Schendera, 2007, S. 199). Dies war für die verbliebenen Ausreißer wahrscheinlich, da „irreale“ Ausreißer, die aus fehlerhaften Eingaben, mangelnder Motivation oder Verständnisschwierigkeiten resultierten, in den vorangegangenen Analysen zu identifizieren versucht worden waren. So wurde entschieden, sie nicht zu löschen. Damit wurde der entscheidende Nachteil der Eliminierung von Ausreißerwerten, die Reduktion der Power (Schendera, 2007), vermieden. Ergebnisse 114 5.1.3 Fehlende Werte Durch das Auslassen eines einzigen Items in einem BDI kann für diesen Fragebogen kein Gesamtscore gebildet werden kann, da es sich um Summen-, nicht um Durchschnittswerte handelt. Die Gesamtscores der Skalen des NEO-FFI (Borkenau & Ostendorf, 2008) dagegen stellen Durchschnittswerte dar, so dass auch bei einzelnen Missings ein Skalenwert berechnet werden kann19. Einige Probanden wiesen fehlende Werte in einzelnen Items einer der BDI-Formen und damit im jeweiligen Summenwert auf (BDI: 2 Probanden, BDI-V: 10 Probanden, BDI-II: 5 Probanden, BDI-II-V: 8 Probanden; BDI-II-V.1: 2 Probanden, BDI-II-V.2: 8 Probanden/BDI-II-V.2.Z: 6 Probanden20). Für 3 Probanden fehlt der NEO-FFI. Zunächst wurde entschieden, Probanden, für die nur der Summenwert eines BDI fehlte, in den Analysen zu belassen, um die Power nicht unnötig zu reduzieren. Damit stand eine Stichprobe von insgesamt 347 Personen zur Verfügung. Für die einzelnen Inventare lag der Umfang entsprechend der fehlenden Werte leicht darunter. Nach Abschluss der Datenaufbereitung und Voranalysen wurde der Autorin bewusst, dass zur Berechnung der endgültigen Ergebnisse immer dann Personen mit fehlenden Werten in einzelnen der Depressionsinventare ausgeschlossen werden mussten, wenn Werte direkt zwischen den Inventaren verglichen werden sollten, damit die Statistiken für alle BDI-Formen auf einer(m) identischen Stichprobe(numfang) fußten. Zudem wurden auch für die konfirmatorischen Faktorenanalysen Stichproben ohne einzelne fehlende Werte benötigt, da der verwendete MLM-Schätzer keine Missings toleriert21. 19 Borkenau & Ostendorf (2008) empfehlen in ihrer Handanweisung, dass Skalenwerte ab 10 von 12 beantworteten Items pro Skala interpretiert werden dürfen, auch wenn die Autoren durchaus kritisch darauf hinweisen, dass jede Art solcher Grenzen nicht einer gewissen Willkür entbehrt. 20 Für 8 Probanden kann kein Summenwert berechnet werden, wenn alle 23 Items in den Summenwert einfließen (BDI-II-V.2), für den Summenwert von 21 Items nach Zusammenfassung jeweils der Items für Appetit und für Schlaf (BDI-II-V.2.Z), fehlen nur noch 6 Werte. Dies liegt daran, dass für zwei Probanden ein fehlender Wert wegfiel, weil er sich auf einem der Items zu Schlaf oder Appetit befand, und hier (siehe Abschnitt 4.7.2) jeweils lediglich der höchste Wert das zusammengefasste Item bildete. Die Anzahl fehlender Summenwerte im BDI-II-V stimmt deswegen auch nur dann mit der Summe der fehlenden Summenwerte aus BDI-II-V.1 und BDI-II-V.2 überein, wenn für das BDI-II-V.2 die zusammengefasste 21-Item-Version (BDI-II-V.2.Z) betrachtet wird, da das BDI-II-V (siehe Abschnitt 4.7.2) auf der Basis des BDI-II-V.1 und des BDI-II-V.2.Z gebildet wurde. 21 Zur Analyse nicht normalverteilter Daten hätte zwar mit dem MLR-Schätzer ein alternativer robuster Schätzalgorithmus zur Verfügung gestanden, der mit fehlenden Werten umgehen kann und in Voranalysen zum Einsatz kam. Für den MLR-Schätzer ist der Autorin jedoch keine Korrekturformel zur Durchführung des (für den ML-Schätzer konzipierten) χ2-Differenzentests bekannt (siehe Kapitel 4.6.2). Ergebnisse 115 Dort, wo bereits Analysen durchgeführt worden waren, wurden diese soweit möglich wiederholt. Teilweise wurden Stichproben neu gebildet, teilweise wurde, um Zeit einzusparen, die Option des listenweisen Fallausschlusses eingesetzt. Die Bildung der Itempäckchen (siehe Abschnitt 4.7.5) und die Hauptachsenanalyse des BDI-II-V konnten aus Zeitgründen nicht wiederholt werden. Aus den beschriebenen Umständen heraus ergeben sich für die einzelnen Analysen nicht in allen Fällen identische Stichprobenumfänge. Letztendlich basieren die Analysen, die alle vier Formen des BDI parallel vergleichen, auf einer Stichprobe von N = 325 Personen. Auf diese Stichprobe beziehen sich außerdem alle Berechnungen, die den aus der Zusammenfassung von BDI-II-V.1 und BDI-II-V.2 hervorgegangenen BDI-II-V in der Gesamtstichprobe beschreiben, außer der Hauptachsenanalyse, die eine Stichprobe vom Umfang N = 339 zur Grundlage hat. Die konfirmatorischen Faktorenanalysen, die BDI-II und BDI-II-V modellieren, greifen auf eine Stichprobe von N = 334 Teilnehmenden zu. Die Vergleiche zwischen BDI-II und den zwei Unterformen des BDI-II-V (1 und 2) konnten naturgemäß nur in den jeweiligen Substichproben stattfinden, die wiederum aus der Gesamtheit der 347 Teilnehmer jeweils durch den Ausschluss von Probanden mit fehlenden Werten in einem der Fragebögen gebildet wurden. Der Umfang der Substichprobe zum Vergleich von BDI-II und BDI-II-V.1 belief sich auf N = 169 Probanden. Zwischen dem BDI-II und dem BDI-II-V.2 (bzw. BDI-II-V.2.Z) erfolgte der Vergleich in einer Stichprobe mit dem Umfang von N = 163 (bzw. 165) Personen. Die Trennschärfeanalysen und die Hauptachsenanalysen der logarithmierten Items, auf deren Basis Entscheidungen zur Verteilung der Items auf die Päckchen getroffen wurden, griffen auf die ursprüngliche Gesamtstichprobe von 347 Personen (+/- Missings für die einzelnen Fragebögen) zu. Alle Angaben zu Trennschärfen von Items, die im Folgenden berichtet werden, beruhen dagegen auf erneut ausgeführten Berechnungen und somit auf identischen Stichprobenumfängen für alle Inventare. 5.1.4 Beschreibung der Stichprobe In Anbetracht der Tatsache, dass der Großteil der endgültigen Analysen auf der Stichprobe mit dem Umfang von N = 325 Personen beruht, soll diese im Folgenden beschrie- Ergebnisse 116 ben werden. Es wird zudem berichtet, mit welcher Häufigkeit die verschiedenen realisierten Rotationen der BDIs in der Stichprobe vorkamen. Die Substichproben zur Betrachtung des BDI-II-V.1 und BDI-II-V.2 werden nicht in aller Ausführlichkeit beschrieben, sondern es wird im Anschluss an die Beschreibung der Gesamtstichprobe lediglich auf Unterschiede zwischen diesen Substichproben, die soziodemographischen Merkmale betreffend, eingegangen. Die genaue Verteilung der soziodemographischen Variablen in der BDI-II-V.1-Substichprobe (N = 169), BDI-II-V.2 -Substichprobe (N = 165), der hier beschriebenen Gesamtstichprobe (N = 325) sowie der ursprünglichen Gesamtstichprobe (N = 347), aus der alle anderen Analysestichproben durch den Ausschluss jeweils so vieler Fragebögen wie nötig hervorgingen, kann jedoch im direkten Vergleich Tabelle 17 in Anhang C entnommen werden. 5.1.4.1 Beschreibung der Gesamtstichprobe In der Analysestichprobe von 325 Teilnehmern waren 132 Probanden (40.6%) männlich, 192 (59.1%) weiblich, eine Person hatte keine Angaben zum Geschlecht gemacht. Der jüngste Proband war 16 Jahre alt, der älteste 84, der Altersschnitt lag bei 44.26 Jahren (SD = 17.40). Eine Person hatte ihr Alter nicht angegeben. Abbildung 7 zeigt, wie sich die Probanden auf verschiedenen Altersgruppen verteilen (die Verteilung der Probanden auf die Kategorien in präzisen Zahlen findet sich bei Bedarf in Tabelle 17 in Anhang C). Die Angaben zum höchsten erreichten Schulabschluss ergaben folgendes Bild: 1.5% der Teilnehmenden besuchten aktuell noch die Schule. Von den weiteren Probanden hatten 0.6% keinen Schulabschluss erworben, 20.9% hatten die Haupt- oder Volksschule abgeschlossen, die mittlere Reife besaßen 20.0% und 56.9% hatten Abitur oder Fachabitur gemacht. Auf die Frage nach einem berufsqualifizierenden Abschluss antworteten 18.2% der Probanden, keine abgeschlossene Berufsausbildung zu haben. Hierunter fallen sowohl und insbesondere jene Teilnehmenden, die sich noch in Schule, Erstausbildung oder Erst- Ergebnisse 117 studium befanden (zusammen 12.9%)22, als auch jene, welche auf ihrem Lebensweg bislang keinen berufsqualifizierenden Abschluss erworben hatten, ohne sich aktuell auf dem Ausbildungsweg zu befinden (5.3%). 43.7% der Teilnehmenden hatten eine Berufsausbildung absolviert, 38.2% ein Fachhochschul- oder Hochschulstudium abgeschlossen. Abbildung 7 Verteilung der Probanden der Analysestichprobe mit dem Umfang N = 325 auf verschiedene Altersgruppen Gefragt nach der aktuellen Berufstätigkeit gaben 1.5% an, Schüler zu sein (s.o.), 2.5% waren Auszubildende, 15.1% studierten aktuell an einer Universität oder Fachhochschule, 6.8% waren Hausfrau oder Hausmann, 1.2% waren auf Arbeitssuche, 57.5% waren erwerbstätig und 15.4% gaben an, Rentner oder Pensionär zu sein. 22 Wie im Folgenden zu sehen sein wird, liegt der Anteil der Schüler, Auszubildenden und Studenten in der Stichprobe bei zusammen 19.1%. Die Differenz zu 12.9% ergibt sich aus der Tatsache, dass 25% der Auszubildenden und 36.7% der Studenten bereits eine erste Ausbildung oder ein erstes Studium abgeschlossen hatten. Ergebnisse 118 Die Angaben zum legalen Familienstand ergaben, dass 38.2% der Teilnehmenden ledig waren, 52.0% waren verheiratet, 6.2% geschieden und 3.7% verwitwet. Befragt nach der aktuellen Partnerschaft gaben 16.6% an, ohne Partnerbeziehung zu sein, 67.1% lebten in fester Partnerschaft oder Ehe mit einem Partner zusammen, 12.6% hatten einen festen Partner oder Ehepartner, mit dem sie nicht zusammenlebten. 3.7% wählten die Kategorie „weder noch“, wollten oder konnten sich also nicht festlegen, ob eine feste Partnerschaft bestand oder nicht. 5.1.4.1.1 Kontrolle der ausbalancierten Reihenfolge Bei exakter Gleichverteilung hätte jede der acht möglichen BDI-Rotationen bei 12.5% der Fragebögen vorkommen müssen, was bei 325 Probanden etwa 41 Bögen entspricht. Erwartungsgemäß schwanken die tatsächlichen Zahlen um diesen Wert und liegen zwischen 27 Bögen (8.3%) und 51 Bögen (15.7%) pro möglicher Reihenfolge. 5.1.4.2 Vergleich der Stichprobencharakteristika der Substichproben Im Folgenden werden die Substichproben, welche das BDI-II-V.1 und das BDI-II-V.2 erhalten haben, hinsichtlich der Stichprobencharakteristika verglichen. Geht man von dem üblichen α-Niveau von 0.05 aus, so unterscheidet sich das Verhältnis von Frauen zu Männern nicht signifikant zwischen den Substichproben (χ2 (1) = 1.80, p = .18; N = 333). Allerdings könnte man, da in dieser Überprüfung die Nullhypothese die „Wunschhypothese“ darstellt, etwas strengere Maßstäbe anlegen und einen p-Wert ≥ .20 verlangen. Dann müsste man die Geschlechtsdifferenzen (Substichprobe BDI-II-V.1 56.2% Frauen; Substichprobe BDI-II-V.2 63.0% Frauen) als „signifikant“ bezeichnen. Die Teilnehmer sind in beiden Stichproben im Mittel gleich alt (t (328.281) = .82, p = .41)23. Ein Vergleich der Verteilung auf die ursprünglichen Altersgruppen (16 – 19, 20 – 29, …; siehe Tabelle 17 in Anhang C) wäre aufgrund mehrerer Zellen mit erwarteten Häufigkeiten unter 5 schwierig umzusetzen gewesen. Die Verletzung der Voraussetzung für χ2-Tests von erwarteten Häufigkeiten über 5 in allen Zellen (Bortz, 2005) bzw. nicht mehr als 20% der Zellen mit erwarteten Häufigkeiten unter 5 (Bühl, 2010) wird im 23 Aufgrund ungleicher Varianzen wurde die korrigierte Statistik interpretiert. Ergebnisse 119 verwendeten Statistikprogramm IBM SPSS (Version 19) nur dann durch die Ausgabe einer alternativen Statistik ausgeglichen, wenn es sich um eine Vier-Felder-Tafel handelt (Bühl, 2010). Dies war bei acht Altersgruppen nicht der Fall. Daher wurden stattdessen alternative Altersgruppen (16 – 25, 26 – 35, 36 – 45, 46 – 55, 56 – 65, 66 – 75, 76 – 85) gebildet und verglichen. Die Analyse bestätigte das Ergebnis des Mittelwertvergleiches. Es ergaben sich keine signifikanten Unterschiede (χ2 (6) = 4.29, p = .64; N = 333). Bezüglich des höchsten Schulabschlusses wurde zunächst der Anteil an Probanden mit Volks- oder Hauptschulabschluss, mittlerer Reife und (Fach)Abitur verglichen, wobei sich keine signifikanten Unterschiede zeigten (χ2 (2) = 2.83, p = .24; N = 327). Im Anschluss wurden die gering besetzten Kategorien Schüler und kein Schulabschluss in einer gesonderten Analyse ausgewertet und die alternative Signifikanz-Statistik für Vier-Felder-Tafeln mit erwarteten Häufigkeiten kleiner als 5, der exakte Test nach Fisher, interpretiert. Die Differenzen zwischen den Stichproben wurden nicht signifikant (χ2 (1) = .63, p = 1.00; N = 7). Einerseits ist zwar zu bedenken, dass der geringe Stichprobenumfang dieser Analyse ein nicht-signifikantes Ergebnis begünstigt, andererseits dürften jedoch Unterschiede in so minimalem Umfang, d. h. auf der Basis von 7 Personen, für die Vergleichbarkeit der Substichproben tatsächlich nur eine geringe Rolle spielen. Ebenso sind die Stichproben vergleichbar in Bezug auf den Anteil an Probanden ohne abgeschlossene Berufsausbildung, mit abgeschlossener Berufsausbildung und abgeschlossenem Studium (χ2 (2) = 2.01, p = .37; N = 334). Zur Feststellung von Unterschieden in der aktuellen Berufstätigkeit mussten erneut getrennte Analysen für verschiedene Kategorien vorgenommen werden, weil sonst zu viele Zellen mit erwarteten Häufigkeiten unter 5 vorgelegen hätten, was nur in Vier-FelderTafeln durch die Interpretation einer alternativen Statistik ausgeglichen werden kann. In den Anteilen an Studenten, Hausfrauen/Hausmännern, Erwerbstätigen und Rentnern/Pensionären wurden keine signifikanten Unterschiede gefunden (χ2 (3) = 1.67, p = .64; N = 317). In jeder der Teilstichproben befanden sich 2 Personen auf Arbeitssuche, was jeweils 1.2% entsprach. In der Vier-Felder-Analyse wurden außerdem Unterschiede zwischen der Anzahl an Schülern und Auszubildenden nicht signifikant (χ2 (1) = 2.24, p = .27; N = 13; exakter Test nach Fisher). Allerdings gelten für diese Ergebnisse 120 letzte Berechnung dieselben Bedenken wie für die Analyse der kleinen Stichprobe der Schüler und Personen ohne Schulabschluss. Auch ledige, verheiratete, geschiedene oder verwitwete Personen fanden sich nicht in einer der Substichproben signifikant häufiger als in der anderen (χ2 (3) = 4.28, p = .23; N = 334). Im χ2-Test zum Vergleich der Verteilung der Probanden auf unterschiedliche Partnerschaftssituationen wurde ein marginal signifikantes Ergebnis erzielt. Der p-Wert betrug .08 (χ2 (3) = 6.80; N = 333), was üblicherweise nicht als statistische Signifikanz interpretiert wird, jedoch als signifikant gelten kann, wenn aufgrund der Tatsache, dass keine Unterschiede gefunden werden sollen, strenger bewertet wird (s.o.). Zusammenfassend lässt sich konstatieren, dass die beiden Teilstichproben bezüglich ihrer Zusammensetzung vergleichbar sind. Die Unterschiede in den Anteilen an Probanden in verschiedenen Partnerschaftssituationen sind nur marginal signifikant, jene im Verhältnis von Frauen zu Männern noch weniger deutlich ausgeprägt. 5.2 Ergebnisse zur internen Konsistenz und Homogenität des BDI-II-V (Hypothese I) Die interne Konsistenz Cronbach’s α für das BDI-II-V beträgt .95 und liegt damit entsprechend der Erwartung jenseits von .85. Die Items des BDI-II-V korrelieren im Mittel zu .50 (Minimum .10, Maximum .79), so dass sich auch die Erwartungen an die mittlere Inter-Item-Korrelation (M rii ≥ .30) erfüllt haben. Die korrigierten Trennschärfen der Items betragen im Mittel .69; die niedrigste Trennschärfe weist mit .37 das Item Libidoverlust auf, am engsten hängt mit einer korrigierten Trennschärfe von .83 das Item Energieverlust mit dem Summenwert aller anderen Items zusammen. Das BDI-II-V weist damit den Erwartungen entsprechend sehr hohe Homogenitätswerte auf. Tabelle 8 sind zum direkten Vergleich die Itemtrennschärfen und internen Konsistenzen aller eingesetzten BDI-Varianten in den unterschiedlichen Stichproben zu entnehmen. Auf die Werte der verschiedenen Inventare wird im Laufe des Kapitels sukzessive Bezug genommen. Ergebnisse BDI-V BDI-II BDI-II-V BDI-II.1 BDI-II-V.1 BDI-II.2 BDI-II-V.2.Z BDI-II-V.2 Korrigierte Trennschärfen und Cronbach’s α für alle eingesetzten Varianten des BDI in der Gesamtstichprobe und den beiden Teilstichproben BDI Tabelle 8 121 Item rit rit rit rit rit rit rit rit rit Traurigkeit .58 .78 .66 .74 .64 .76 .70 .73 .73 Pessimismus .60 .76 .65 .78 .63 .79 .70 .77 .77 Versagensgefühle .57 .75 .61 .75 .61 .76 .68 .74 .74 Verlust von Freude .69 .70 .62 .76 .70 .83 .59 .64 .63 Schuldgefühle .59 .74 .55 .67 .58 .71 .55 .65 .66 Bestrafungsgefühle .46 .62 .48 .64 .50 .67 .52 .63 .64 Selbstablehnung .60 .77 .57 .75 .62 .78 .57 .73 .73 Selbstvorwürfe .53 .75 .66 .73 .67 .77 .67 .69 .69 Selbstmordgedanken .53 .54 .50 .44 .50 .47 .48 .39 .40 Weinen .52 .57 .49 .71 .52 .72 .49 .71 .71 Unruhe - - .65 .78 .70 .81 .62 .74 .74 Interessenverlust .50 .65 .59 .71 .59 .73 .67 .71 .72 Entschlussunfähigkeit .61 .64 .62 .71 .68 .74 .57 .69 .70 Wertlosigkeit - - .70 .78 .73 .83 .70 .73 .74 Energieverlust - - .69 .83 .66 .85 .73 .79 .79 Schlafveränderungen .47 .56 .49 .61 .54 .68 .45 .53 - Schlafveränderungen - - - - - - - - - .37 Schlafveränderungen + - - - - - - - - .38 Reizbarkeit .47 .75 .58 .72 .57 .72 .62 .71 .71 Appetitveränderungen .30 .48 .36 .48 .36 .61 .35 .41 - Appetitveränderungen - - - - - - - - - .48 Appetitveränderungen + - - - - - - - - .31 Konzentrationsschwierigkeiten - - .62 .73 .61 .76 .62 .71 .72 Ermüdbarkeit .61 .80 .64 .78 .65 .80 .64 .76 .76 Libidoverlust .32 .38 .32 .37 .35 .42 .33 .35 .36 negatives Körperbild .40 .60 - - - - - - - Arbeitsunfähigkeit .61 .73 - - - - - - - Hypochondrie .45 .57 - - - - - - - BDI-V BDI-II BDI-II-V BDI-II.1 BDI-II-V.1 BDI-II.2 BDI-II-V.2.Z BDI-II-V.2 122 BDI Ergebnisse Gewichtsverlust .07 - - - - - - - - M (rit) .50 .66 .57 .69 .59 .73 .58 .66 .63 α .89 .94 .92 .95 .92 .96 .92 .94 .94 Anmerkungen. N (BDI, BDI-V, BDI-II, BDI-II-V) = 325. N (BDI-II.1, BDI-II-V.1) = 169. N (BDI-II.2, BDI-II-V.2.Z) = 165. N (BDI-II-V.2) = 163. rit = korrigierte Itemtrennschärfe. M (rit) = mittlere korrigierte Itemtrennschärfe. α = Cronbach’s α. Die niedrigste und höchste Itemtrennschärfe jedes Inventars ist jeweils grau hinterlegt. 5.3 Weitere Ergebnisse zu psychometrischen Eigenschaften des BDI-II-V Der mittlere Summenwert des BDI-II-V beläuft sich auf 21.8 Punkte (SD = 18.1), der Median liegt bei 17 Punkten, der Modalwert beträgt 9 Punkte. Das erste Quartil ist 9, das zweite 17 und das dritte 32. Der minimale vorkommende Wert sind 0 Punkte; 13 Personen hatten angegeben, in den letzten zwei Wochen niemals unter einem der Symptome gelitten zu haben. Das Maximum liegt bei 81 Punkten. Die Summenwerte sind mit einer Schiefe von 1.09 und einer Kurtosis von 0.57 rechtsschief und etwas spitzgipfelig verteilt. Die in der positiven Schiefe zum Ausdruck kommende hohe Schwierigkeit ist dem Umstand geschuldet, dass es sich um ein Depressionsinventar handelt, das in einer aus überwiegend Gesunden bestehenden Bevölkerungsstichprobe zum Einsatz kam. Abbildung 8 veranschaulicht die Schiefe der Verteilung sehr deutlich. Ergebnisse Abbildung 8 123 Häufigkeitsverteilung der Summenwerte des BDI-II-V (N = 325) Die Itemmittelwerte des BDI-II-V liegen zwischen 0.18 (Item Selbstmordgedanken) und 1.75 (Item Ermüdbarkeit), der mittlere Itemmittelwert beträgt1.04 (SD 0.37). Bei einem Wertebereich von 0 bis 5 lassen diese Ergebnisse auch eine deutliche Rechtsschiefe respektive eine hohe Schwierigkeit der Items erkennen, was erneut mit der Stichprobenziehung zusammenhängt. Die mittlere Standardabweichung der Items beträgt 1.19, wobei abgesehen von den Items Selbstmordgedanken und Bestrafungsgefühle alle Standardabweichungen über 1 liegen. Tabelle 9 gibt die Itemmittelwerte und ihre Standardabweichungen für das BDI-II-V wieder. Zu Vergleichszwecken sind auch die Ergebnisse in den Substichproben enthalten. Auf diese soll jedoch im Weiteren nicht explizit eingegangen werden. Ergebnisse BDI-II-V.2.Z Schlafveränderungen - M (SD) 1.12 (1.10) 0.85 (1.10) 0.72 (1.10) 0.99 (1.17) 0.80 (1.13) 0.44 (0.96) 0.90 (1.23) 1.22 (1.23) 0.18 (0.59) 0.90 (1.20) 1.39 (1.25) 0.90 (1.08) 1.23 (1.25) 0.59 (1.07) 1.30 (1.34) 1.54 (1.55) - M (SD) 1.10 (1.13) 0.91 (1.15) 0.71 (1.10) 1.04 (1.22) 0.78 (1.18) 0.48 (0.97) 0.93 (1.31) 1.21 (1.25) 0.21 (0.67) 0.95 (1.27) 1.47 (1.35) 0.97 (1.18) 1.23 (1.26) 0.65 (1.16) 1.37 (1.40) 1.34 (1.55) - M (SD) 1.15 (1.07) 0.80 (1.05) 0.72 (1.09) 0.93 (1.09) 0.85 (1.10) 0.42 (0.96) 0.87 (1.17) 1.25 (1.23) 0.15 (0.46) 0.87 (1.14) 1.32 (1.14) 0.87 (1.02) 1.25 (1.27) 0.55 (1.00) 1.24 (1.26) 1.75 (1.52) - Schlafveränderungen + - - - Item Traurigkeit Pessimismus Versagensgefühle Verlust von Freude Schuldgefühle Bestrafungsgefühle Selbstablehnung Selbstvorwürfe Selbstmordgedanken Weinen Unruhe Interessenverlust Entschlussunfähigkeit Wertlosigkeit Energieverlust Schlafveränderungen BDI-II-V.2 BDI-II-V.1 Itemmittelwerte und Itemstandardabweichungen für das BDI-II-V, BDI-II-V.1, BDI-II-V.2.Z und BDI-II-V.2 BDI-II-V Tabelle 9 124 M (SD) 1.15 (1.07) 0.80 (1.05) 0.72 (1.09) 0.93 (1.09) 0.85 (1.10) 0.42 (0.96) 0.87 (1.17) 1.25 (1.23) 0.15 (0.46) 0.87 (1.14) 1.32 (1.14) 0.87 (1.02) 1.25 (1.27) 0.55 (1.00) 1.24 (1.26) 1.04 (1.35) 1.02 (1.39) BDI-II-V.2.Z Appetitveränderungen - 1.30 (1.22) 1.13 (1.38) - 1.33 (1.30) 0.83 (1.22) - 1.30 (1.15) 1.47 (1.49) - Appetitveränderungen + - - - 1.32 (1.18) 1.75 (1.42) 1.26 (1.38) 1.04 (0.37) 1.19 1.38 (1.30) 1.72 (1.44) 1.23 (1.44) 1.04 (0.36) 1.23 1.27 (1.08) 1.82 (1.41) 1.31 (1.35) 1.05 (0.41) 1.15 Reizbarkeit Appetitveränderungen Konzentrationsschwierigkeiten Ermüdbarkeit Libidoverlust mittlerer Itemmittelwert (SD) mittlere Itemstandardabw. BDI-II-V.2 BDI-II-V.1 125 BDI-II-V Ergebnisse 1.30 (1.15) 0.47 (0.92) 1.29 (1.46) 1.27 (1.08) 1.82 (1.41) 1.31 (1.35) 0.99 (0.38) 1.14 Anmerkungen. N (BDI-II-V) = 325. N (BDI-II-V.1) = 169. N (BDI-II-V.2.Z) = 165. 163 ≤ N (BDI-II-V.2) ≤ 165. M = mittlerer Itemwert. SD = Standardabweichung. Um die faktorielle Struktur des neuen Instruments zu explorieren, wurden die Items des BDI-II-V einer Hauptachsenanalyse (N = 339) unterzogen. Eine Parallelanalyse nach Horn legte knapp die Extraktion eines Faktors nahe (anfänglicher Eigenwert des ersten Faktors 11.32, zugehöriger zufälliger Eigenwert 1.74; anfänglicher Eigenwert des zweiten Faktors 1.49, zugehöriger zufälliger Eigenwert 1.58; zur Erzeugung des zufälligen Eigenwerteverlaufs wurde eine von O’Connor (2000) bereitgestellte Syntax verwendet). Das Kriterium der Eigenwerte größer 1 ist nur auf Hauptkomponentenanalysen anwendbar (Bühner, 2006), hätte aber die Extraktion zweier (hoch korrelierter, r = .76) Faktoren ergeben. Der Screeplot (Abbildung 9) kann so interpretiert werden, dass es einen ersten starken Faktor gibt, wobei ein zweiter kleiner Knick auch die Interpretation erlaubt, dass zwei Faktoren extrahiert werden dürfen. Ergebnisse Abbildung 9 126 Screeplot der Faktoreigenwerte einer Hauptachsenanalyse der Items des BDI-II-V In Anbetracht des nicht vollständig eindeutigen Ergebnisses wurden beide Lösungen (Extraktion eines und zweier Faktoren) durchgeführt. Wird eine Hauptachsenanalyse gerechnet, in der ein Faktor extrahiert wird, erklärt dieser .51.8% der Varianz. Die Items korrelieren zwischen .84 und .39 (im Durchschnitt .71) mit dem Faktor, so dass dieser entsprechend zwischen 71% und 15% der Varianz eines Items erklärt (durchschnittlich 51.8%, s.o.). Extrahiert man zwei Faktoren, können diese zusammen natürlich etwas mehr Varianz aufklären (57.3%; erster Faktor 52.1%, zweiter Faktor 5.2%). Von der Varianz eines Items werden durch beide Faktoren zwischen 78% und 20% erklärt (durchschnittlich 57.3%, s.o.). Die hohe Faktorinterkorrelation legte eine oblique Rotation nahe (es wurde die Promax-Technik eingesetzt). Auf dem ersten Faktor laden die Items Traurigkeit, Pessimismus, Versagensgefühle, Schuldgefühle, Bestrafungsgefühle, Selbstablehnung, Selbstvorwürfe, Selbstmordgedanken, Weinen und Wertlosigkeit höher, so dass er hauptsächlich kognitive, mit Traurigkeit und Weinen aber auch affektive Symptome enthält (vgl. Hautzinger et al., 2006). Auf dem zweiten Faktor weisen die Items Verlust Ergebnisse von 127 Freude, Unruhe, Interessenverlust, Entschlussunfähigkeit, Energieverlust, Schlafveränderungen, Reizbarkeit, Appetitveränderungen, Konzentrationsschwierigkeiten, Ermüdbarkeit und Libidoverlust den höheren Ladungsbetrag auf, so dass er somatische, aber auch weitere affektive Aspekte abbildet (vgl. Hautzinger et al., 2006). Eine perfekte Einfachstruktur mit durchgängig hohen Haupt- und geringen Nebenladungen lässt sich jedoch nicht erzielen. Tabelle 10 gibt die Mustermatrix (partielle standardisierte Regressionsgewichte der Items mit den beiden Faktoren) wieder. Tabelle 10 Partielle standardisierte Regressionsgewichte der Items des BDI-II-V mit den beiden extrahierten Faktoren einer Hauptachsenanalyse nach Promax-Rotation. Item Traurigkeit Faktor 1 .55 Faktor 2 .27 Pessimismus .52 .33 Versagensgefühle .99 -.14 .32 .49 Schuldgefühle .87 -.11 Bestrafungsgefühle .61 .10 Selbstablehnung .92 -.07 Selbstvorwürfe .87 -.06 Selbstmordgedanken .34 .14 Weinen .48 .29 .18 .67 Unruhe .05 .74 Interessenverlust .22 .57 Entschlussunfähigkeit .78 .10 .23 .67 Energieverlust -.23 .88 Schlafveränderungen .21 .57 Reizbarkeit .09 .42 Appetitveränderungen .05 .76 .04 .81 Konzentrationsschwierigkeiten Ermüdbarkeit -.11 .53 Libidoverlust Wertlosigkeit Item Verlust von Freude ↓ ↓ kognitiv/affektiv somatisch/affektiv Anmerkungen. N = 339. Ergebnisse 128 Es lässt sich erkennen, dass etwa die Hälfte der Items eindeutig einem Faktor zugeordnet werden kann, während die andere Hälfte der Items kein zufriedenstellendes Verhältnis von Haupt- zu Nebenladung aufweist. 5.4 Ergebnisse zur Konstruktvalidität des BDI-II-V (Hypothese II) Um Hinweise auf die Konstruktvalidität des BDI-II-V zu erhalten, sollen die Korrelationen nach Pearson zwischen dem Summenwert des Inventars und den Skalen des NEOFünf-Faktoren Inventars (Borkenau & Ostendorf, 2008) mit den Erwartungen verglichen werden. Die Koeffizienten sind in Tabelle 11 (rechte äußere Spalte; alle anderen Spalten werden in Abschnitt 5.7 besprochen) abgetragen. Mit der Skala Neurotizismus korreliert das BDI-II-V erwartungsgemäß hoch positiv (r = .79, p = .00). Der Zusammenhang mit der Skala Extraversion beträgt -.50 (p = .00), was den Erwartungen (-.3 ≤ ϱ ≤ -.4) sehr nahe kommt. Überraschend negativ fällt die Korrelation mit Offenheit für Erfahrung aus. Erwartet wurde ein schwach positiver Zusammenhang. Jedoch wird der Koeffizient trotz der großen Stichprobe nur marginal signifikant (r = -.11, p = .052). Wie erwartet besteht mit Verträglichkeit eine mäßig negative Assoziation (r = -.25, p = .00). Der Zusammenhang zwischen dem BDI-II-V und Gewissenhaftigkeit fällt mit -.41. (p = .00) im Betrag ein wenig höher aus als erwartet (-.1 ≤ ϱ ≤ -.3), die Richtung des Zusammenhanges stimmt jedoch mit den Erwartungen überein. Tabelle 11 Produkt-Moment-Korrelationen verschiedener BDI-Formen mit den Skalen des NEO-FFI BDI ** BDI-V ** BDI-II ** BDI-II-V Neurotizismus .75 .78 .77 .79** Extraversion -.53** -.51** -.55** -.50** Offenheit -.16** -.12* -.14* -.11 Verträglichkeit -.33** -.29** -.31** -.25** Gewissenhaftigkeit -.36** -.39** -.37** -.41** Anmerkungen. N = 323. ** signifikant auf dem Niveau von 0.01 (zweiseitig). * signifikant auf dem Niveau von 0.05 (zweiseitig). Ergebnisse 129 5.5 Ergebnisse zur Entsprechung von BDI-II-V und BDI-II (Hypothese III) Es werden zunächst die Ergebnisse zur Konvergenz von BDI-II-V und BDI-II auf deskriptiver Ebene (Hypothesen III.a.1 bis III.a.5) dargestellt und im Anschluss die Resultate der Durchführung konfirmatorischer Faktorenanalysen (Hypothese III.b) präsentiert. Ergebnisse zur Korrelation auf Item- und Summenwertebene (Hypothese III.a.1). Die Summenwerte von BDI-II und BDI-II-V korrelieren in Höhe von .86 (p = .00) und erreichen damit die Erwartungen. Die durchschnittliche Korrelation zwischen einem Item des Originals und dem entsprechenden Item in der verkürzten Version beträgt .65, was ebenfalls den Erwartungen entspricht. Die einzelnen Koeffizienten liegen im Bereich zwischen .51 (Item Appetitveränderungen) und .76 (Item Selbstmordgedanken; alle p = .00). Tabelle 12 listet die Korrelationen auf der Ebene der Items und auf der Ebene der Summenwerte zwischen Original und Verkürzung in der Gesamtstichprobe sowie in den Teilstichproben 1 und 2 auf. Auf die Ergebnisse in den Teilstichproben wird im weiteren Verlauf der Analysen Bezug genommen. Ergebnisse zum Vergleich der Summenwerte (Hypothese III.a.2). Der mittlere Summenwert des BDI-II liegt bei 9.0 Punkten (SD = 8.0), im BDI-II-V erreichen die Probanden durchschnittlich einen Wert von 21.8 Punkten (SD = 18.1; s.o.). Diese Werte sind nicht direkt vergleichbar, da die beiden Inventare unterschiedlich skaliert sind (vgl. Abschnitt 4.7.3 zur Reskalierung der verkürzten BDIs). Der mittlere Summenscore des reskalierten BDI-II-V beträgt 13.1 Punkte (SD = 10.8). Vergleicht man die durchschnittlichen Werte der Probanden im BDI-II mit denen im BDI-II-V.R mittels t-Test, ergibt sich entgegen der Vorhersage ein signifikanter Unterschied (t (324) = -6.87, p = .00). (Tabelle 18 in Anhang C stellt zur Übersicht die mittleren Summenwerte aller Inventare zusammen.) Ergebnisse Tabelle 12 130 Korrelation zwischen BDI-II und BDI-II-V, zwischen BDI-II.1 und BDI-II-V.1 sowie zwischen BDI-II.2 und BDI-II-V.2/.Z auf der Ebene der Items und der Summenwerte r(BDI-II,BDI-II-V) .70 r(BDI-II.1,BDI-II-V.1) .75 r(BDI-II.2,BDI-II-V.2/.Z) .67 Pessimismus .70 .69 .74 Versagensgefühle .64 .58 .70 Verlust von Freude .60 .66 .52 Schuldgefühle .65 .70 .60 Bestrafungsgefühle .70 .59 .78 Selbstablehnung .65 .64 .66 Selbstvorwürfe .55 .60 .50 Selbstmordgedanken .76 .75 .78 Weinen .62 .59 .65 Unruhe .60 .65 .52 Interessenverlust .53 .55 .56 Entschlussunfähigkeit .65 .71 .60 Wertlosigkeit .74 .81 .65 Energieverlust .64 .65 .63 Schlafveränderungen SchlafveränderungenSchlafveränderungen+ Reizbarkeit .56 .62 .64 .68 .49 .47 .22 .59 Appetitveränderungen AppetitveränderungenAppetitveränderungen+ Konzentrationsschwierigkeiten .51 .66 .75 .76 .41 .40 .24 .72 Ermüdbarkeit .66 .69 .63 Libidoverlust .74 .76 .76 M (r) auf Itemebene .65 .67 .64 r auf Summenwertebene .86 .87 .84♠ .83♣ Traurigkeit Anmerkungen. ♠ BDI-II-V.2.Z. ♣ BDI-II-V.2. N r(BDI-II, BDI-II-V) = 325. N r(BDI-II.1, BDI-II-V.1) = 169. 163 ≤ N r(BDI-II.2, BDI-II-V.2./Z) ≤ 165. Alle Koeffizienten sind signifikant auf dem Niveau von 0.01 (zweiseitig). Die niedrigste und höchste Korrelation auf Itemebene ist für jedes Inventar grau hinterlegt (ausgenommen die Koeffizienten der Items zu Schlafabnahme und –zunahme respektive Appetitabnahme und –zunahme des BDI-II-V.2). r = Pearsons Produkt-Moment-Korrelation. M (r)= mittlere Korrelation. Ergebnisse zum Vergleich der internen Konsistenzen (Hypothese III.a.3). Den Erwartungen entsprechend besitzt das BDI-II-V keine geringere interne Konsistenz als das BDI-II (α = .95 für ersteres bzw. 92 für letzteres; siehe Tabelle 8). Ergebnisse 131 Ergebnisse zum Vergleich der Trennschärfen (Hypothese III.a.4). Bis auf ein Item (Selbstmordgedanken; vgl. Tabelle 8) liegen die part-whole-korrigierten Trennschärfen der Items des BDI-II-V wie vorhergesagt jeweils über denen der entsprechenden Items des BDI-II. Um zu untersuchen, ob die Items in beiden Inventaren den gleichen relativen Bezug zum Summenwert aufweisen, wurden Spearman-Rangkorrelationen zwischen den Trennschärfen berechnet. Das Ergebnis belegt mit einem Koeffizienten von .86 (p = .00), dass die Trennschärfeprofile von BDI-II-V und BDI-II eine hohe Ähnlichkeit aufweisen und bestätigt so die Erwartungen (ϱp ≥ .5) sehr deutlich. Ergebnisse zum Vergleich der Zusammenhänge mit anderen Variablen (Hypothese III.a.5) Tabelle 11 lässt gut erkennen, dass BDI-II-V und BDI-II wie vorhergesagt ähnlich hoch mit den Persönlichkeitseigenschaften Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit korrelieren. Die Differenzen sind sehr gering und schwanken zwischen .02 Punkten für Neurotizismus und .06 Punkten für Gewissenhaftigkeit. Ergebnisse zur inferenzstatistischen Überprüfung der Messäquivalenz von BDI-II-V und BDI-II (Hypothese III.b)24. Bei der Überprüfung, ob ein Modell essentiell τ-paralleler Variablen die Zusammenhänge zwischen dem BDI-II und dem BDI-II-V beschreiben kann (siehe Abbildung 2 in Abschnitt 4.3.1.1), zeigen die Modellgüteindizes keinen zufriedenstellenden Fit an (Mittelwerte, Standardabweichungen, Schiefe und Kurtosis der als Indikatoren dienenden Summenwerte finden sich in Tabelle 21 A in Anhang C). Der Unterschied zwischen der modellimplizierten und der empirisch gefundenen Varianz-Kovarianz-Matrix wird hochsignifikant (χ2 (1) = 70.42, p = .00), RMSEA und SRMR liegen mit .46 beziehungsweise .19 deutlich über den akzeptablen Grenzwerten (≤.10 bzw. ≤.08); ebenso unterschreiten CFI und TLI (jeweils .78) den gewünschten Wert (≥.95). Für alle Parameter (Ladungsparameter sowie Fehlervarianzen) weisen auch hohe Modifikationsindizes auf die inakzeptable Modellspezifikation hin. Abbildung 10 gibt zur Orientierung dennoch die errechneten vollständig standardisierten Modellparameter wieder, die alle signifikant werden (p = .00). 24 Die in diesem Abschnitt berichteten Analysen beruhen auf einem Stichprobenumfang von N = 334. Ergebnisse 132 Depressivität η1 1.00 λ11 .91 = BDI-II y1 BDI-II-V y2 ε1 .18 Abbildung 10 λ21 .91 = ε2 .18 Vollständig standardisierte Modellparameter für das Modell essentiell τparalleler Variablen des BDI-II und BDI-II-V. Der Modellfit ist nicht zufriedenstellend. Um die deutliche Rechtsschiefe der Indikatorvariablen zu reduzieren, wurde die Analyse unter Verwendung logarithmierter Summenwerte wiederholt (sowohl für reskalierte, als auch für nicht-reskalierten Summenwert des BDI-II-V). Die logarithmische Transformation der Summenwerte verringerte tatsächlich den Betrag ihrer Schiefe und Kurtosis (siehe Tabelle 21 B in Anhang C). Allerdings indizierten sowohl KolmogorovSmirnov-Test als auch Shapiro-Wilk-Test wie schon für die Rohsummenwerte auch für die transformierten Werte weiterhin signifikante Abweichungen von einer Normalverteilung (p = .00). Werden logarithmierte (jedoch nicht reskalierte) Summenwerte eingesetzt, kann ein perfekter Modellfit erzielt werden (χ2 (1) = 0.001, p = .98; RMSEA und SRMR = .00, CFI und TLT = 1.00). Der Fit bei logarithmierten und (für das BDI-II-V) reskalierten Indikatoren ist nur teilweise zufriedenstellend (χ2 (1) = 8.48, p = .004; RMSEA = .15; jedoch: SRMR = .06, CFI und TLI = .98). Der perfekte Fit eines Modells essentiell τ-paralleler Variablen bei logarithmierten Summenscores könnte ein Hinweis sein auf mögliche Ursachen für die schlechte Passung des postulierten Modells bei den nicht transformierten Daten. Allerdings ist damit Ergebnisse 133 nicht die Frage nach der Stufe der Äquivalenz von BDI-II und BDI-II-V beantwortet. Um dieser weiter nachzugehen, wurde explorativ überprüft, ob die Annahme einer perfekten latenten Korrelation zwischen BDI-II und BDI-II-V haltbar ist, wenn diese jeweils als ein Faktor modelliert werden (siehe Abbildung 3 in Abschnitt 4.3.1.2)25. Wie bereits behandelt (Abschnitt 4.7.5), unterscheiden sich die Resultate für ein solches Modell in Abhängigkeit von der Verteilung der Items auf die als Indikatoren dienenden Testhälften. Die letztendlich verwendeten Itempäckchen, die Mittelwerte, Standardabweichungen, Schiefe und Kurtosis dieser Summenwerte sowie die manifesten InterIndikator-Korrelationen können den Tabellen 19, 21 C und 22 in Anhang C entnommen werden. Die Fitstatistiken ergeben ein gemischtes Bild. Der strenge Maßstab des χ2 –Tests wird nicht erfüllt (χ2 (2) = 23.33, p = .00), ebenso liegt der RMSEA (.18) eindeutig jenseits der akzeptablen Grenze (≤.10). Der SRMR dagegen bleibt mit .03 unter dem Cutoff (≤.08), ebenso fallen CFI (.98) und TLI (.93) erfreulich hoch aus, wenn auch der TLI minimal hinter dem eigentlichen Ziel von ≥.95 zurückbleibt. Erwartungsgemäß lässt sich der Fit verbessern, wenn die Festlegung der Faktorinterkorrelation auf 1 gelockert wird. Alle Güteindizes zeigen dann perfekten Fit an (χ2 (1) = 0.00, p = .98; RMSEA und SRMR = .00, CFI = 1.00, TLI = 1.01). Der Unterschied im Fit ist signifikant (χ2s (1) = 18.76, p < .01). Der RMSEA beträgt auch bei Verwendung des ML-Schätzers, der keine begünstigende Anpassung für die Verteilungseigenschaften der Daten vornimmt und zudem Vertrauensintervall und Close FitStatistik für den Index ausgibt, .00; das 90%-Konfidenzintervall für den RMSEA liegt „zwischen“ .00 und .00, die Wahrscheinlichkeit, dass der RMSEA kleiner oder gleich .05 ist (Close Fit), beläuft sich auf .98. Auch im Falle der Schätzung mit ML fällt der χ2Test vollkommen zufriedenstellend aus (χ2 (1) = 0.00, p = .97). 25 Genau genommen wurde die Korrelation zwischen η1 und η2 in der Programmsyntax von Mplus (Muthén und Muthén, 1998 – 2010) nicht, wie in Abschnitt 4.3.1.2 beschrieben, auf 1.0, sondern auf 0.9999 festgesetzt, um die Warnmeldung des Programms zu unterdrücken, die auf eine nicht positiv definite Kovarianzmatrix der latenten Variablen in Folge der Korrelation von 1.0 hinwies. Der Unterschied in den ausgegebenen Güteindizes zwischen einer Syntax, welche die Korrelation auf 1.0 fixierte, und einer Syntax, welche die Korrelation auf 0.9999 setzte, betraf ausschließlich die zweite und dritte Nachkommastelle des χ2-Wertes (p-Wert und alle anderen Güteindizes blieben unberührt) und war demnach zu vernachlässigen. Die Unterschiede in den vollständig standardisierten sowie unstandardisierten Parameterschätzern waren mit einem Unterschied von maximal 0.01 Punkten ebenso irrelevant. Die Korrelation wird in der Ausgabe in jedem Fall auf 1.000 gerundet angegeben. Ergebnisse 134 Die Modifikationsindizes bilden die Differenzen im Fit der beiden Modelle mit und ohne Fixierung der Faktorinterkorrelation auf 1.0 entsprechend ab. So legen sie für das Modell mit fixierter latenter Korrelation eine Aufhebung derselben sowie Fehlerkorrelationen jeweils zwischen den beiden Parcels sowohl des BDI-II als auch des BDI-II-V nahe, betragen aber 0.00 im Modell mit frei geschätzter latenter Korrelation. Abbildung 11 veranschaulicht die geschätzten, vollständig standardisierten Modellparameter für beide Modelle. Alle Parameter werden signifikant (p = .00). Mit einem Wert von .92 liegt die messfehlerbereinigte Korrelation zwischen BDI-II und BDI-II-V dennoch sehr hoch, wenn sie auch nicht perfekt ist. Ψ12 1.00 0.92 BDI-II η1 1.00 1.00 λ11 .85 .90 BDI-II-V η2 1.00 1.00 λ21 .82 .87 λ32 .96 .96 λ42 .97 .97 BDI-II: Parcel 1 y1 BDI-II: Parcel 2 y2 BDI-II-V: Parcel 1 y3 BDI-II-V: Parcel 2 y4 ε1 .29 .19 ε2 .33 .24 ε3 .08 .07 ε4 .06 .06 Abbildung 11 Vollständig standardisierte Modellparameter für die Modelle mit fixierter perfekter Korrelation (obere Werte) und mit frei geschätzter Korrelation (untere Werte) zwischen den latenten Variablen des BDI-II und BDI-II-V. Das Modell mit fixierter Korrelation weist keinen vollständig zufriedenstellenden Fit auf. Das Modell mit frei geschätzter Korrelation fittet perfekt. Ergebnisse 135 5.6 Ergebnisse zum Vergleich von BDI-II-V.1 und BDI-II-V.2 (Hypothese IV) In diesem Abschnitt sollen die Hypothesen überprüft werden, die sich auf die Fragestellung beziehen, welche der beiden Subformen des BDI-II-V näher an das Original herankommt. Bevor die statistischen Ergebnisse dazu dargelegt werden, werden die zwei Teilstichproben, in denen die beiden Inventare BDI-II-V.1 und BDI-II-V.2 zum Einsatz kamen, auf Unterschiede in der Depressivität untersucht, um diese gegebenenfalls bei der Interpretation der Ergebnisse der Hypothesenprüfung berücksichtigen zu können. 5.6.1 Überprüfung der Voraussetzungen Voraussetzung für die vorgesehenen Vergleiche ist die Vergleichbarkeit der Substichproben. Hinsichtlich soziodemographischer Charakteristika wurde diese weitestgehend belegt (Abschnitt 5.1.4.2). Ob sich auch das durchschnittliche Niveau der Depressivität in beiden Substichproben entspricht, ist nicht mit letzter Sicherheit zu sagen. Der durchschnittliche Summenwert des BDI-II liegt in der Stichprobe mit BDI-II-V.1 bei 9.9 Punkten (SD = 8.7), in der Stichprobe mit BDI-II-V.2 bei 8.3 Punkten (SD = 7.7). Der tTest für unabhängige Stichproben wird – nach üblichen Maßstäben – gerade nicht mehr signifikant (t (328.955) = 1.76, p = .08); bei einem angestrebten p-Wert ≥ .2 müsste man jedoch von überzufälligen Unterschieden in der Depressivität sprechen, wenn auch eingewandt werden darf, dass aufgrund der recht großen Stichprobe auch ein wenig bedeutsamer Unterschied Signifikanz erlangt haben könnte. Der Test auf Varianzhomogenität fällt negativ aus (F (1; 332) = 4.65; p = .03) (weswegen die korrigierte Statistik zu interpretieren war). Dagegen weisen die Resultate des BDI-II-V nicht auf unterschiedliche Depressivität beider Stichproben hin. Der durchschnittliche Summenwert des BDI-II-V.1 beläuft sich auf 21.8 Punkte (SD = 19.6), jener des BDI-II-V.2.Z auf 22.1 Punkte (SD = 16.8), der t-Test ist klar nicht signifikant (t (326.594) = -.15, p = .88), allerdings muss auch hier von nicht homogenen Varianzen ausgegangen werden (F (1; 332) = 5.21, p = .02). Die Summenwerte des BDI-II-V.1 und des BDI-II-V.2.Z können aufgrund des unterschiedlichen Wertebereiches nicht verglichen werden. Da es sich beim BDI-II um das etablierte Inventar handelt, wohingegen sich beide Formen des BDI-II-V in den gegenwärtigen Analysen erst bewähren müssen, ist dem BDI-II in der vorliegenden Frage etwas mehr Gewicht zu geben. Dies bedeutet, dass bei Ergebnisse 136 den folgenden Auswertungen zu bedenken ist, dass der Vergleich von BDI-II-V.1 und BDI-II-V.2 im Hinblick auf ihre Ähnlichkeit zum BDI-II auf der Basis nicht vollständig identischer Bedingungen stattfindet, was die Verteilung depressiver Merkmale anbetrifft. Gleichwohl kann davon ausgegangen werden, dass es sich nur um sehr geringe Unterschiede handelt. 5.6.2 Ergebnisse der Analysen Den Resultaten zur Konvergenz von BDI-II und BDI-II-V.1, BDI-II-V.2 sowie BDI-II-V.2.Z auf deskriptiver Ebene (Hypothesen IV.a.1 bis IV.a.3) folgen die Ergebnisse der konfirmatorischen Faktorenanalysen (Hypothese IV.b). Ergebnisse zur Korrelation auf Item- und Summenwertebene (Hypothese IV.a.1). Die Annahme, dass der Summenwert des BDI-II höher mit dem Summenwert des BDI-II-V zusammenhängt in der Teilstichprobe von Probanden, die das BDI-II-V.2 vorgelegt bekamen, als in der Teilstichprobe, in der das BDI-II-V.1 ausgefüllt wurde, bestätigt sich nicht. Die Korrelation fällt umgekehrt mit .87 (p = .00) etwas höher aus zwischen BDI-II.1 und BDI-II-V.1 als zwischen BDI-II.2 und BDI-II-V.2 beziehungsweise BDI-II.2 und BDI-II-V.2.Z (r = .83 bzw. .84, p = .00; vgl. Tabelle 12), wobei die Differenzen minimal sind und nicht auf Signifikanz überprüft wurden, so dass sie für sich genommen nicht interpretiert werden dürfen. Der äußerst geringe Unterschied der Korrelation mit dem Original zwischen beiden Teilstichproben überrascht nicht in Anbetracht der Tatsache, dass 19 von 23 Items der beiden Fragebögen BDI-II-V.1 und BDI-II-V.2 respektive 19 von 21 Items der beiden Fragebögen BDI-II-V.1 und BDI-II-V.2.Z identisch sind. Interessanter ist also der Vergleich der Korrelationen auf Ebene jener Items, welche sich zwischen den Fragebögen unterscheiden. Es sind dies die Items zu Veränderungen des Schlafs und des Appetits. Die Resultate (in Tabelle 12 durch Einrahmung hervorgehoben) fallen eindeutiger aus als für die Korrelation auf Ebene der Summenwerte. Es ergibt sich – ebenfalls hypothesenkonträr –, dass das Item des BDI-II, das nach Veränderungen des Schlafs fragt, zu .62 (p = .00) mit dem Item zu Schlafveränderungen des BDI-II-V.1 korreliert, jedoch nur zu .49 (p = .00) mit dem zusammengefassten Schlaf-Item des BDI-II-V.2.Z. Die Korrelation mit dem Item des BDI-II-V.2, das eine Verringerung des Schlafes abfragt, liegt bei .47 (p = .00), die Korrelation mit dem Item des BDI-II-V.2, das eine Zunahme Ergebnisse 137 des Schlafes abfragt, bei nur .22 (p = .004). Auch beim Abbild der Veränderungen des Appetits scheint das BDI-II-V.1 entgegen den Erwartungen das entsprechende Item des BDI-II-V besser widerzuspiegeln als das BDI-II-V.2 respektive das BDI-II-V.2.Z, wobei die Differenzen noch höher ausfallen als bei den Items zum Schlaf: Die entsprechenden Korrelationen liegen bei .66 (BDI-II.1, BDI-II-V.1; p = .00) und .41 (BDI-II.2, BDI-II-V.2.Z; p = .00; für das Item zur Verringerung des Appetits des BDI-II-V.2 bei .40 (p = .00), für das Item zur Zunahme des Appetits des BDI-II-V.2 bei .24 (p = .002)). Die Korrelationen zwischen den Items zu Schlaf und Appetit sind mit .49 respektive .41 die niedrigsten Korrelationen überhaupt zwischen den Items des BDI-II.2 und den Items des BDI-II-V.2.Z und liegen noch unter der niedrigsten Korrelation, die sich zwischen den Items des BDI-II.1 und den Items des BDI-II-V.1 ergibt (r = .55 für die Items zum Interessenverlust, vgl. Tabelle 12). Ohne dass eine Hypothese dazu formuliert worden wäre, fiel des Weiteren auf, dass die mittlere Inter-Item-Korrelation für das BDI-II-V.1 mit .55 (SD = 0.13) höher ausfiel als für das BDI-II-V.2.Z, dessen Items im Durchschnitt zu .46 (SD = 0.15) miteinander korrelierten respektive als für das BDI-II-V.2, in dem sich der mittlere Zusammenhang zwischen den Items auf .42 (SD = .17) belief. Ergebnisse zum Vergleich der Summenwerte (Hypothese IV.a.2). Zunächst ist erneut zu beachten, dass die Summenwerte zwischen Original und Verkürzung erst nach der Reskalierung der verkürzten Version direkt verglichen werden können. Außerdem erübrigt sich ein Vergleich zwischen dem BDI-II und dem BDI-II-V.2, da letzterer aufgrund einer höheren Zahl an Items schon natürlich einen höheren Summenwert haben muss (es kann also nur das BDI-II-V.2.Z berücksichtigt werden). Stellt man die mittleren Summenwerte von BDI-II.1 und BDI-II-V.1.R einander gegenüber, ergibt sich eine mittlere Differenz von -3.17, die im t-Test signifikant wird (t (168) = -6.93, p = .00). Die mittlere Differenz der Summenwerte von BDI-II.2 und BDI-II-V.2.R fällt mit -4.94 höher aus (t (164) = -11.40, p = .00). Dies widerspricht der Vorannahme, dass die Ähnlichkeit auf Ebene der Summenwerte zwischen dem BDI-II und dem BDI-II-V.2 höher sein würde als zwischen dem BDI-II und dem BDI-II-V.1. (Tabelle 18 in Anhang C gibt alle mittleren Summenwerte wieder.) Ergebnisse zum Vergleich der Trennschärfen (Hypothese IV.a.3). Die Beziehungen, die die einzelnen Items zum Summenwert aller anderen Items aufweisen, sollten sich zwi- Ergebnisse 138 schen BDI-II und BDI-II-V.2.Z besser entsprechen als zwischen BDI-II und BDI-II-V.1 (erneut ist ein direkter Vergleich zwischen BDI-II und BDI-II-V.2 aufgrund der unterschiedlichen Anzahl von Items nicht sinnvoll). Überraschend ergibt sich ein umgekehrtes Bild: Die Spearman-Rangkorrelationen der Trennschärfen fällt für die Items des BDI-II und des BDI-II-V.2.Z mit .80 (p = .00) niedriger aus als für die Items des BDI-II und des BDI-II-V.1 mit .89 (p = .00). Es erstaunt allerdings der Befund, dass die Itemtrennschärfen der Items des BDI-II-V.2.Z durchgängig unter denen des BDI-II-V.1 liegen, und zwar im Durchschnitt um 0.07 Punkte (vgl. Tabelle 8). Die niedrigeren Trennschärfen gelten zwar in besonderem Maße für die Items zu Schlaf (.20 Punkte Unterschied) und Appetit (.15 Punkte Unterschied); doch auch, wenn man nur die Differenzen im Betrag der Trennschärfen der anderen 19 Items, die zwischen den Fragebögen identisch sind, berücksichtigt, ergibt sich noch immer eine mittlere Differenz von -0.06 Punkten (zwischen -0.01 z. B. für das Item Reizbarkeit und -0.19 für das Item Verlust von Freude). Auch zwischen BDI-II.1 und BDI-II.2 unterscheiden sich naturgemäß die Trennschärfen der identischen Items (um durchschnittlich 0.04 Punkte) – allerdings in unterschiedlichen Richtungen für verschiedene Items, so dass sich nahezu identische durchschnittliche Itemtrennschärfen des BDI-II in den Teilstichproben ergeben. Es verwundern also nicht so sehr die betraglichen Differenzen zwischen BDI-II-V.1 und BDI-II-V.2.Z an sich, sondern dass sie alle in gleicher Richtung ausfallen, so dass im BDI-II-V.2.Z eine um 0.07 Punkte niedrigere durchschnittliche Itemtrennschärfe resultiert als im BDI-II-V.1, obwohl beide Fragebögen bis auf die Items zu Schlaf und Appetit identisch sind. Es ist zumindest fraglich, ob die niedrigeren Itemtrennschärfen lediglich daraus resultieren, dass sich die Formulierung dieser Items zu Schlaf und Appetit so ungünstig auf den Gesamtsummenwert ausgewirkt haben könnte, dass daraus durchgängig niedrigere Zusammenhänge aller anderen Items mit diesem Gesamtsummenwert resultieren. Es ist nicht auszuschließen, dass die Befunde lediglich auf zufällige Unterschiede im Antwortverhalten der Probanden der beiden Stichproben hindeuten. Somit scheint offen, wie bedeutsam vor diesem Hintergrund die Unterschiede in den Rangkorrelationen der Itemtrennschärfen sind. Ergebnisse zum Vergleich der Messäquivalenz von BDI-II-V.1 und BDI-II mit der Messäquivalenz von BDI-II-V.2 und BDI-II mittels konfirmatorischer Faktorenanalysen (Hypothese IV.b). Die essentielle τ-Parallelität der Fragebögen BDI-II und BDI-II-V Ergebnisse 139 hatte sich in der Gesamtstichprobe nicht nachweisen lassen. Die Wahrscheinlichkeit war hoch, dass dies für beide Formen des BDI-II-V galt und nicht nur aus der mangelnden Übereinstimmung zwischen einer der beiden Formen und dem Original resultierte. Ein Modell essentiell τ-paralleler Variablen passt tatsächlich in keiner der beiden Substichproben, sofern die Ausgangsdaten nicht logarithmiert werden. Da fraglich ist, welche Schlüsse aus einem Vergleich des Modellfits gezogen werden können, wenn die Daten in ihrer Verteilung so wesentlich verändert wurden, wie dies durch eine logarithmische Transformation der Fall ist, soll nicht weiter auf die Resultate eingegangen werden. Die folgenden Ausführungen widmen sich daher direkt den exploratorischen Modellen zur Überprüfung, ob die Fragebögen in einer der Substichproben nach Maßgabe einer perfekten latenten Korrelation als identisch angesehen werden können (siehe Abbildung 3 in Abschnitt 4.3.1.2). Vorgestellt werden der Modellfit in der Teilstichprobe, die das BDI-II-V.1 ausfüllte (N = 169) sowie der Modellfit in der Teilstichprobe, die das BDI-II-V.2 ausfüllte; dabei wird in dieser zweiten Teilstichprobe der Modellfit zum einen für die Auswertungsvariante BDI-II-V.2 (N = 163) und zum anderen für die Auswertungsvariante BDI-II-V.2.Z (N = 165) berichtet. Die Zusammensetzung der als Indikatoren eingesetzten Testhälften ist in Tabelle 19 in Anhang C dargestellt; die Mittelwerte, Standardabweichungen, Schiefe und Kurtosis der einzelnen Indikatoren und ihre Interkorrelationen finden sich in den Tabellen 23 bis 28 desselben Anhangs. In allen drei Modellen (BDI-II-V.1, BDI-II-V.2 und BDI-II-V.2.Z) verteilen sich die Items identisch auf die Testhälften des BDI-II; ebenso sind Parcel 1 und 2 der verkürzten Versionen zwischen den Modellen jeweils nicht unterschiedlich zusammengesetzt, abgesehen davon, dass das Parcel 2 des BDI-II-V.2 unumgänglich statt einem Item zum Schlaf und einem Item zum Appetit je zwei Items zu Schlaf und Appetit enthält. Die manifesten Korrelationen der Testhälften des BDI-II fallen in allen drei Modellen identisch aus, die manifesten Korrelationen der Testhälften des BDI-II-V liegen für das BDI-II-V.1 etwas über den Zusammenhängen im BDI-II-V.2(.Z). Mit Koeffizienten zwischen .80 und.84 bewegen sich die manifesten Korrelationen zwischen den Parcels des BDI-II.1 und den Parcels des BDI-II-V.1 etwas über den Werten, die sich für die Zusammenhänge zwischen den Testhälften des BDI-II.2 und den Testhälften des BDI-II-V.2(.Z) ergeben (.76 – .78 und .76 – .79). Ergebnisse 140 Wird die latente Korrelation zwischen BDI-II und BDI-II-V auf 1 festgesetzt26, muss das Modell in jeder Stichprobe nach Maßgabe des χ2-Tests verworfen werden. Weder BDI-II.2 und BDI-II-V.2 oder BDI-II-V.2.Z (χ2 (2) = 17.09, p = .00 bzw. χ2 (2) = 16.77, p = .00), noch BDI-II.1 und BDI-II-V.1 (χ2 (2) = 7.43, p = .024) dürfen nach diesem strengen Kriterium als identisch angesehen werden. Eine sehr schwache Tendenz lässt sich in der Stichprobe mit BDI-II-V.1 jedoch erkennen, der p-Wert tendiert in Richtung der in großen Stichproben zu überschreitenden kritischen Grenze von .05. Allerdings ist ein Stichprobenumfang von N = 169 als kleine Stichprobe zu betrachten, in der ein pWert von mindestens .20 zu verlangen ist, bevor von einem fittenden Modell gesprochen werden darf. Der RMSEA fällt in keiner der Stichproben zufriedenstellend aus, nimmt aber den kleinsten Wert bei der Überprüfung des Modells in der Stichprobe mit BDI-II-V.1 an (RMSEA = .13). Der SRMR jedoch weist in allen Stichproben einen guten Fit aus, liegt er doch für die Überprüfung der Messäquivalenz von BDI-II.2 und BDI-II-V.2 bei .03, für die Überprüfung der Messäquivalenz von BDI-II.2 und BDI-II-V.2.Z ebenfalls bei .03 und für die Überprüfung der Messäquivalenz von BDI-II.1 und BDI-II-V.1 bei .02. Auch der CFI zeigt grundsätzlich einen guten Fit an (BDI-II.2 und BDI-II-V.2 sowie BDI-II.2 und BDI-II-V.2.Z je .96; BDI-II.1 und BDI-II-V.1 .99). Der TLI fällt nur in der Stichprobe mit BDI-II-V.1 zufriedenstellend aus (.97). Tabelle 13 stellt die Fitstatistiken dieser (und der im Weiteren spezifizierten) Modelle zusammen. Nachdem sich kein guter Modellfit erzielen ließ, wurde weiter explorierend die Fixierung der latenten Korrelation auf 1 in allen Analysen gelockert, um die messfehlerbereinigte Korrelation von BDI-II.2 und BDI-II-V.2, BDI-II.2 und BDI-II-V.2.Z sowie BDI-II.1 und BDI-II-V.1 zu bestimmen. Die Fitstatistiken deuten allesamt auf perfekten Fit hin (siehe Tabelle 13). Die Verbesserung des Fits durch die Entfernung der Restriktion ist in jedem der drei Fälle signifikant (BDI-II-V.2: χ2s (1) = 15.49, p < .01; BDI-II-V.2.Z: χ2s (1) = 17.04, p < .01; BDI-II-V.1: χ2s (1) = 5.36, p < .05). 26 Erneut erfolgte tatsächlich eine Fixierung auf 0.9999 (s.o.). Unterschiede in den Fitstatistiken im Vergleich zur Fixierung auf 1.0 betrafen lediglich Nachkommastellen des χ2-Wertes und in einem Fall die 4. Nachkommastelle des p-Wertes. Ergebnisse df RMSEA 0.07 .79 1 0.00 2 2Z ML 0.08 .77 0.9999 MLM 7.43 .02 2 frei MLM ML 0.79 1.07 .38 .30 1 0.9999 MLM 17.09 .00 2 frei MLM ML 0.24 0.34 .62 .56 1 MLM 16.77 .00 2 0.9999 0.00 1.00 1,01 0.13 0.02 0.99 0.97 0.00 0.02 0.00 1.00 1.00 0.22 0.03 0.96 0.88 0.00 0.00 0.00 1.00 1.00 0.03 0.96 0.89 0.00 0.21 CFit TLI p MLM CFI χ2 frei SRMR Schätzalgorithmus 1 90%CI des RMSEA♠ Spezifikation für ψ12 Fitstatistiken für Modelle mit frei geschätzter latenter Korrelation sowie auf 1.0 fixierter latenter Korrelation zwischen BDI-II und BDI-II-V.1, BDI-II-V.2Z sowie BDI-II-V.2 BDI-II-V-Form Tabelle 13 141 0.00, 0.82 0.14 0.00, 0.39 0.21 0.00, 0.63 0.17 Anmerkungen. ♠ (untere Grenze, obere Grenze). Akzeptable Fitstatistiken grau hinterlegt. Die latente Korrelation zwischen Original und verkürzter Version wird im Modell des BDI-II-V.1 auf .94 geschätzt; mit .91 liegt der latente Zusammenhang mit dem Original in der Modellierung von BDI-II-V.2 beziehungsweise BDI-II-V.2.Z ganz leicht darunter. Abbildung 12 veranschaulicht die Ergebnisse (vollständig standardisierte Parameter) für alle drei Versionen bei frei geschätzter Korrelation. Alle Parameterschätzer im Modell sind signifikant (.00 ≤ p ≤.01). Die Werte sind sich zwischen den Modellen (also zwischen den Formen des BDI-II-V) jeweils äußerst ähnlich, für BDI-II-V.2 und BDI-II-V.2.Z nahezu identisch. Ergebnisse 142 Ψ12 0.94 0.91 0.91 BDI-II η1 1.00 1.00 1.00 λ11 .90 .89 .89 λ21 .87 .88 .88 λ32 .97 .95 .95 BDI-II-V η2 1.00 1.00 1.00 λ42 .98 .97 .97 BDI-II: Parcel 1 y1 BDI-II: Parcel 2 y2 BDI-II-V: Parcel 1 y3 BDI-II-V: Parcel 2 y4 ε1 .18 .20 .21 ε2 .24 .23 .22 ε3 .06 .11 .10 ε4 .04 .06 .07 Abbildung 12 Vollständig standardisierte Modellparameter für die Modelle mit frei geschätzter Korrelation zwischen BDI-II und BDI-II-V.1 (obere Werte), BDI-II-V.2Z (mittlere Werte) sowie BDI-II-V.2 (untere Werte). Die Modelle fitten perfekt. 5.7 Ergebnisse zur Entsprechung von BDI, BDI-V, BDI-II und BDI-II-V (Hypothese V) Dem Aufbau der vorangegangenen Ergebniskapitel folgend werden zuerst deskriptive Analysen geschildert (Hypothesen V.a.1 bis V.a.5), bevor die Ergebnisse der konfirmatorischen Faktorenanalysen (Hypothese V.b) dargelegt werden. Ergebnisse zur Korrelation der Summenwerte (Hypothese V.a.1). Erwartungsgemäß unterschreitet keiner der sechs Korrelationskoeffizienten zwischen den Inventaren BDI, BDI-V, BDI-II und BDI-II-V einen Wert von .80 (alle p = .00). Tabelle 14 gibt die Korrelationen wieder. Am engsten hängen jeweils die beiden Original-Versionen untereinander und die beiden verkürzten Versionen untereinander zusammen (r = .94 und .93); niedriger, aber nahezu in identischer Höhe korrelieren jeweils BDI und BDI-V, BDI-II und BDI-II-V, BDI und BDI-II-V sowie BDI-II und BDI-V (r = .85 bzw. .86, s. a. o.). Ergebnisse 143 Tabelle 14 Korrelation der Summenwerte von BDI, BDI-V, BDI-II und BDI-II-V BDI BDI BDI-V 1 BDI-V BDI-II .85 ** .94 ** .86** 1 .86** .93** 1 .86** BDI-II BDI-II-V BDI-II-V 1 Anmerkungen. N = 325. ** signifikant auf dem Niveau von 0.01 (zweiseitig). Ergebnisse zum Vergleich der Summenwerte (Hypothese V.a.2). Es wurde bereits dargelegt, dass sich die mittleren Summenwerte von BDI-II und BDI-II-V.R signifikant unterscheiden. Dies gilt – bei einer mittleren Differenz von 3.72 – auch für die Summenwerte von BDI und BDI-V.R (t (324) = -12.794, p = .00), was nicht erwartet worden war. Den Erwartungen dagegen entspricht, dass der mittlere Summenwert des BDI-II mit 9.0 (SD = 8.0) etwas über dem mittleren Summenwert des BDI (M = 7.8, SD = 6.9) liegt. Auch diese Differenz wird signifikant (t(324) = -7.520, p = .00). (Den direkten Vergleich aller Summenwerte ermöglicht auch Tabelle 18 in Anhang C). Ergebnisse zum Vergleich der internen Konsistenzen (Hypothese V.a.3). Hypothesengemäß zeigt sich, dass sich die internen Konsistenzen von BDI und BDI-II kaum unterscheiden (α = .89 bzw. .92). Das BDI-V (α = .94) ist leicht konsistenter als das BDI, das BDI-II-V (α = .95) liegt mit seiner internen Konsistenz ebenfalls minimal über der internen Konsistenz des BDI-II, wie oben bereits dargelegt. Ergebnisse zum Vergleich der Trennschärfen (Hypothese V.a.4). Die durchschnittliche Itemtrennschärfe des BDI liegt bei .50, jene des BDI-II ist mit .57 erwartungsgemäß etwas höher. Den Annahmen entsprechend liegen die mittleren Itemtrennschärfen der verkürzten Versionen über jenen der Originalversionen (BDI-V: M (rit) = .66, BDI-II-V: M (rit) = .69; vgl. Tabelle 8). Ergebnisse zum Vergleich der Zusammenhänge mit anderen Variablen (Hypothese V.a.5). Tabelle 11 lässt erkennen, dass sich die Hypothese zu ähnlichen Zusammenhängen der vier BDI-Varianten mit Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit bestätigt: Durchschnittlich weichen die Koeffizienten (bezogen auf die Korrelation mit jeweils einer der fünf Eigenschaften) um .03 Ergebnisse 144 Einheiten voneinander ab, die maximale Abweichung zwischen zwei Werten beträgt .08 Einheiten zwischen der Korrelation des BDI und des BDI-II-V mit Verträglichkeit. Ergebnisse zur inferenzstatistischen Überprüfung der Messäquivalenz von BDI, BDI-V, BDI-II und BDI-II-V (Hypothese V.b)27. Die Modellgüteindizes, die für das vorgeschlagene Modell essentiell τ-paralleler Variablen (siehe Abbildung 4 in Abschnitt 4.3.3.1) erzielt wurden, liegen nicht im zufriedenstellenden Bereich. χ2 ist mit 382.79 (df = 8) sehr hoch, der zugehörige p-Wert beträgt dementsprechend .000. Der RMSEA beläuft sich auf .38 und liegt damit eindeutig jenseits eines gerade noch akzeptablen Modellfits von .10. Ebenso befindet sich der SRMR von .24 sehr klar außerhalb des gewünschten Bereichs zwischen 0.0 und .08. CFI (.74) und TLI (.81) unterschreiten ihren individuellen Grenzwert von .95 gleichfalls. Dies überrascht nicht, nachdem sich bereits für die „Teilmodelle“, die die Parallelität von BDI-II und BDI-II-V prüften, kein guter Modellfit hatte erzielen lassen, was in der Hypothese als Voraussetzung für die essentielle τParallelität aller BDIs formuliert worden war. Wie in diesen vorangegangenen Analysen lässt sich auch hier der Modellfit durch eine logarithmische Transformation der Daten verbessern, doch er bleibt schwach (χ2 (8) = 86.51, p = .00; lediglich der SRMR (.05) zeigt einen passablen Fit an, CFI (.92) und TLI (.94) liegen näher am erwünschten Grenzwert bei Verwendung logarithmierter und nicht reskalierten Daten). Mittelwerte, Standardabweichungen, Schiefe und Kurtosis der nicht-logarithmierten und logarithmierten Indikatoren sind Tabelle 29 A und B in Anhang C zu entnehmen. Die logarithmische Transformation hatte erwartungsgemäß Schiefe und Kurtosis im Betrag reduziert, jedoch nicht die signifikante Abweichung der Summenwerte von einer Normalverteilung beseitigen können (hochsignifikante Kolmorogrov-Smirnov-Tests sowie Shapiro-Wilk-Tests). Exploratorisch wurde weiter eruiert, welches Modell die Beziehungen der Inventare optimal beschreiben könnte. Zunächst wurde überprüft, ob die Annahmen des Modells essentiell τ-paralleler Variablen zu streng waren. Löst man die Restriktion gleicher Fehlervarianzen und testet so ein Modell essentiell τ-äquivalenter Variablen, erreicht jedoch auch dieses keinen befriedigenden Fit, kein Modellgüteindex liegt im akzeptablen Bereich (χ2 (5) = 274.77, p = .00; RMSEA = .41, SRMR = .17, CFI = .81, TLI = .78). Unter Verwendung logarithmierter Summenwerte als manifeste Variablen zeigt zumindest 27 Alle folgenden Analysen beruhen auf einer Stichprobe mit dem Umfang von N = 325. Ergebnisse 145 der SRMR (.05) einen passablen Fit an, CFI (.93) und TLI (.92) kommen näher an ihren Zielbereich. Nur minimal besser wird der Fit bei zusätzlicher Aufhebung der Restriktion identischer Faktorladungen zur Überprüfung des minimalen Modells τ-kongenerischer Variablen. Der χ2-Test fällt weiterhin unbefriedigend aus (χ2 (2) = 164.68, p = .00), der RMSEA verschlechtert sich wegen der niedrigeren Sparsamkeit des Modells weiter (.50). Lediglich der SRMR (.03) fällt gut aus; CFI (.89) und TLI (.66) sind nicht akzeptabel. Abbildung 13 lässt die geschätzten vollständig standardisierten Parameter (alle p = .00) erkennen. Deutlich wird, dass alle Formen des BDI eng mit der gemeinsamen latenten Variablen verbunden sind (.91 ≤ λ ≤ .97) und die Fehlervarianzen gering ausfallen (.07 ≤ ε ≤ .18), wobei die Parameter wegen des schlechten Modellfits nur sehr bedingt aussagekräftig sind. Logarithmieren der Summenscores führt nur dazu, dass (neben dem bereits akzeptablen SRMR) noch der CFI (.96) in einen zufriedenstellenden Bereich vordringt, alle anderen Indizes zeigen weiter Missfit an (χ2 (2) = 43.36, p = .00; RMSEA = .25, TLI = .87 für logarithmierte und nicht-reskalierten Daten). Depressivität η1 1.00 λ11 .96 λ21 .91 λ31 .97 λ41 .91 BDI y1 BDI-V y2 BDI-II y3 BDI-II-V y4 ε1 .08 ε2 .17 ε3 .07 ε4 .18 Abbildung 13 Vollständig standardisierte Modellparameter für das Modell τkongenerischer Variablen des BDI, BDI-V, BDI-II und BDI-II-V. Der Modellfit ist nicht zufriedenstellend. Ergebnisse 146 Die Exploration, ob sich perfekte Zusammenhänge28 zwischen BDI, BDI-V und BDI-II-V finden ließen, wenn sie jeweils als latente Variable modelliert werden (siehe Abbildung 5 in Abschnitt 4.3.3.2), war nicht erfolgreich. (Die Zusammensetzung der verwendeten Itemparcels der Inventare ist in Tabelle 20 in Anhang C aufgeführt; Mittelwerte, Standardabweichungen, Schiefe und Kurtosis der Indikatoren sowie manifeste Inter-Indikator-Korrelationen finden sich im selben Anhang in Tabelle 29 C und Tabelle 30.) Nachdem sich dieses Modell bereits zwischen BDI-II und BDI-II-V nicht hatte fitten lassen, war dies zu erwarten. Der χ2-Test weist auf signifikante Unterschiede zwischen der postulierten Struktur und den Zusammenhängen in den empirischen Daten hin (χ2 (20) = 272.56, p = .00); der RMSEA fällt mit einem Wert von .20 inakzeptabel aus, ebenso weist der TLI (.87) nicht auf einen guten Fit hin; der CFI (.91) kann maximal als mäßig bezeichnet werden, lediglich der SRMR (.03) zeigte guten Fit an. Lockert man die Restriktion perfekter Korrelationen zwischen den latenten BDI-Variablen, um die messfehlerbereinigten Korrelationen der Inventare zu schätzen, bleibt das Modell – anders als bei der Modellierung von BDI-II und BDI-II-V – nach dem strengen χ2-Test inakzeptabel (χ2 (14) = 43.96, p = .00). Die deskriptiven Güteindizes fallen zwar allesamt mittelmäßig gut (RMSEA = .08) bis sehr gut (SRMR = .01, CFI = .99, TLI = .98) aus, das Problem ist jedoch, dass die interessierenden Parameterschätzer der Korrelationen zwischen den latenten Variablen Heywood Cases aufweisen: Der Koeffizient für den Zusammenhang von BDI und BDI-II liegt mit 1.04 außerhalb des möglichen Wertebereiches und veranlasst das Programm dementsprechend zu der Warnmeldung einer nicht positiv definiten Kovarianzmatrix der latenten Variablen. BDI-V und BDI-II-V weisen eine latente Korrelation von .98 auf, BDI und BDI-V korrelieren zu .93, BDI-II und BDI-II-V zu .91, BDI und BDI-II-V sowie BDI-II und BDI-V jeweils zu .92 (alle p = .00). Da kein Modell nach den Kriterien des χ2-Tests oder des RMSEA akzeptiert werden konnte (beziehungsweise das einzige Modell, das einen akzeptablen RMSEA aufwies, in Folge von Heywood Cases nur bedingt interpretierbar war), wurde das Modell weiter modifiziert. Verschiedene Anzeichen legten die Erweiterung um einen Methodenfaktor nahe. Zum einen wies das manifeste Korrelationsmuster darauf hin, dass sich der Unterschied zwischen der Skalierung von Originalen und Verkürzungen in den Zusammen28 Spezifiziert wurde erneut eine latente Korrelation von .9999 zwischen den Faktoren statt einer Korrelation von 1.0, was den Modellfit gegenüber der Spezifikation einer Korrelation von 1.0 jedoch nicht berührte (s.o.). Ergebnisse 147 hängen der Variablen niederschlägt und neben dem Trait (Depressivität) einen systematischen Einfluss auf das Ergebnis einer Person ausübt (vgl. Eid et al., 2010). Wie dargelegt betrug die manifeste Korrelation zwischen den beiden Original-Versionen .94 (p = .00) und zwischen den beiden verkürzten Versionen .93 (p = .00), dagegen aber „nur“ .85 oder .86 (p jeweils = .00), wenn eine Original-Version mit einer Verkürzung korreliert wurde. Dieses Muster liegt prinzipiell auch in den latenten Korrelationen vor, wenn diese auch in Anbetracht des unmöglichen Wertes der Korrelation zwischen BDI und BDI-II zurückhaltend interpretiert werden müssen. Zum Zweiten legen die Modifikationsindizes des nicht fittenden Modells τ-kongenerischer Variablen Residualkorrelationen zwischen BDI und BDI-II respektive zwischen BDI-V und BDI-II-V nahe, weisen also auch darauf hin, dass die beiden Inventare jeweils untereinander etwas mehr gemeinsam haben als miteinander. Zum Dritten spiegeln die zu diesem Modell in Abbildung 13 abgetragenen Ladungsparameter dieses Bild wieder. Die Ladungen auf der gemeinsamen latenten Variablen Depressivität entsprechen sich für die Originalversionen und die Verkürzungen jeweils wesentlich stärker als zwischen einem Original und einer Verkürzung. So wird ein Methodenfaktor spezifiziert, der die Abweichung der wahren Depressivitätswerte, wie sie sich entsprechend der Messung mit einer verkürzten Version ergeben, von den wahren Depressivitätswerten, wie sie bei einer Messung mit einem OriginalBDI erwartet worden wären, repräsentiert (siehe Abbildung 6 in Abschnitt 4.3.3.3.2). Es wird angenommen, dass BDI-V und BDI-II-V als Indikatoren dieses Methodenfaktors jeweils gleich stark mit ihm verbunden sind. Behält man die Festlegung identischer Ladungsparameter der BDI-Formen auf dem Depressivitätsfaktor bei, gibt das Modell die Zusammenhangsstruktur der Daten nicht korrekt wieder (χ2 (4) = 86.74, p = .00). Bis auf den CFI, der mit .94 den Sollwert nahezu erfüllt, liegt keiner der Modellgüteindizes im akzeptablen Bereich (RMSEA = .25, SRMR = .16, TLI = .92). Also wird überprüft, ob die Beziehungen der BDI-Formen durch das Modell mit Methodenfaktor beschrieben werden, wenn die Bedingung gleicher Ladungen der vier BDI-Variablen auf der latenten Variable Depressivität gelockert wird (nicht jedoch die Vorgabe gleicher Ladungsparameter von BDI-V und BDI-II-V auf der Methodenvariable). Dieses Modell weist perfekten Fit auf (χ2 (1) = 0.41, p = .52; RMSEA und SRMR = .00, CFI und TLI = 1.00), der sich unter Verwendung des MLSchätzers bestätigt (RMSEA ebenfalls .00, das 90%-Vertrauensintervall um den Ergebnisse 148 RMSEA schließt den Wert Null ein (0.00 bis 0.13), Close Fit = .65; χ2 (1) = 0.46, p = .50). Die Verbesserung der Modellgüte im Vergleich zu einem Modell mit identischen Ladungen der BDI-Summenwerte auf dem Depressivitätsfaktor ist signifikant (χ2s (3) = 83.42, p ≤ .01). Die vollständig standardisierten Modellparameter sind in Abbildung 14 wiedergegeben. Mit Koeffizienten zwischen .88 und .98 laden alle BDIFormen hoch auf der Traitvariablen; dabei sind die Ladungen der verkürzten BDIs geringer als die der Original-BDIs. Weiterhin ähnelt sich die Verbindung der Originale mit dem Traitfaktor und der verkürzten Versionen mit dem Traitfaktor wesentlich stärker als die Verbindung von Original und (zugehöriger) Verkürzung mit dem Trait. Die Ladungsparameter der verkürzten BDI-Formen auf dem Methodenfaktor fallen wesentlich geringer aus, sind mit .42 und .37 aber dennoch deutlich ausgeprägt. Die Residualvariablen sind mit Werten zwischen .10 und .05 sehr gering. Methode η2 1.00 Depressivität η1 1.00 λ22 .42 λ11 .96 λ42 .37 λ31 .98 λ21 .88 λ41 .88 BDI y1 BDI-V y2 BDI-II y3 BDI-II-V y4 ε1 .07 ε2 .05 ε3 .05 ε4 .10 Abbildung 14 Vollständig standardisierte Modellparameter für ein Modell des BDI, BDI-V, BDI-II und BDI-II-V mit Methodenfaktor. λ22 und λ42 wurden in der unstandardisierten Lösung gleichgesetzt. Das Modell fittet perfekt. Die Varianz jeder manifesten Variablen lässt sich zerlegen in den Anteil, der durch die Traitvariable (Depressivität) erklärt wird, den Anteil, der durch den Methodenfaktor zu Ergebnisse 149 Stande kommt (sofern eine Variable mit diesem Faktor verbunden ist) und die Residualvarianz. Mit Hilfe dieser Varianzkomponenten lassen sich die Reliabilität, die konvergente Validität beziehungsweise der Konsistenzkoeffizient und die Methodenspezifität bestimmen (Eid et al., 2010). Die Reliabilitäten liegen sehr hoch (BDI .93, BDI-V .95, BDI-II .95 und BDI-II-V .92). Für BDI und BDI-II entspricht die Reliabilität der Konsistenz. BDI-V und BDI-II-V weisen Konsistenzkoeffizienten von .78 und .77 auf, die Methodenspezifitätskoeffizienten belaufen sich auf .17 und .14. Die hohe Konsistenz im Vergleich zu der geringeren Methodenspezifität bedeutet, dass die wahren Depressivitätswerte der verkürzten Versionen gut, aber dennoch nicht perfekt durch die wahren Depressivitätswerte der Original-Versionen vorhergesagt werden können. Ein Modell mit nur einem Methodenfaktor bei zwei verwendeten Methoden ist nicht symmetrisch. Je nach Modellspezifikation kann sich der Modellfit unterscheiden (Eid, 2000). Die Analysen sollen daher abgerundet werden mit einer Überprüfung der Unterschiede, die sich ergeben, wenn statt der Originalskalierung die Skalierung der vereinfachten Versionen zur Standardmethode gemacht wird. In Abbildung 6 (Abschnitt 4.3.3.3.2) werden dann die manifesten Variablen BDI und BDI-II statt der manifesten Variablen BDI-V und BDI-II-V auf den Methodenfaktor zurückgeführt. Ansonsten wird nichts an der Modellspezifikation geändert. Alle Fitstatistiken, einschließlich des χ2-Tests, fallen exakt identisch aus. Die Modellparameter und damit die Schätzungen von Reliabilitäten, Konsistenzen und Methodenspezifität „verschieben“ sich erwartungsgemäß. Die vollständig standardisierten Ladungen der vier Inventare auf der latenten Variablen Depressivität liegen mit Werten zwischen .88 und .97 nahezu im selben Bereich wie für das vorherige Modell, mit dem Unterschied, dass es nun die verkürzten BDIs sind, die eine höhere Ladung aufweisen (.97 bzw. .96) als die Originale (.88 bzw. .89). BDI und BDI-II weisen mit Parametern von .43 und .37 nahezu dieselbe Verbindung zum Methodenfaktor auf wie zuvor BDI-V und BDI-II-V. Die Residualvariablen fallen noch ein wenig geringer aus als zuvor (.04 bis .08). Nun ist es die Methodenspezifität der Originalskalierung, die im Vergleich zur „Standardmethode“ der verkürzten Skalierung bestimmt wird und die sich auf – den Werten des obigen Modells nahezu identische – .18 (BDI) und .13 (BDI-II) beläuft; entsprechend ist es nun die Konsistenz von BDI und BDI-II, die mit .77 und .80 angegeben werden kann. Die Interpretation lautet parallel zur obigen, dass die Methodenspezifität als mäßig einzuschätzen ist, aber dennoch messbare Unterschiede zwischen den Ergebnisse 150 wahren Werten existieren, je nachdem, welche Methode zur Messung verwendet wird. Die geschätzten Reliabilitäten ändern sich um maximal .02 Punkte (BDI .95, BDI-V .94, BDI-II .93 und BDI-II-V .92). Diskussion 151 6 Diskussion Der erste Abschnitt des Diskussionsteils stellt die Ergebnisse der Analysen in den Zusammenhang bisheriger Resultate und versucht eine Interpretation der Befunde. Der zweite Abschnitt reflektiert, was die Interpretierbarkeit der Resultate einschränkt und kritisiert verbesserungsfähige Vorgehensweisen in der Durchführung und Auswertung der Studie. Der dritte und letzte Abschnitt zieht ein Fazit, welche Erkenntnisse aus der Untersuchung gewonnen wurden und welche Fragen offen blieben oder im Laufe der Analysen aufgeworfen wurden. Diese bieten Anregungen für die nächsten Schritte in der Weiterentwicklung und Evaluation des BDI-II-V. 6.1 Interpretation der Ergebnisse Die folgenden Abschnitte fassen die Ergebnisse zusammen. Gleichzeitig werden die Resultate durch den Vergleich mit den Befunden anderer Autoren genauer eingeordnet. Einige Erklärungsversuche für nicht hypothesenkonforme Ergebnisse werden erörtert. 6.1.1 Reliabilität und Validität des BDI-II-V Für die vorgeschlagene Vereinfachung der zweiten Auflage des Beck Depressionsinventars BDI-II-V konnten erwartungsgemäß sehr gute Homogenitäts- und Reliabilitätskennwerte erzielt werden. Cronbach’s α beträgt .95. Die mittlere Inter-Item-Korrelation ist mit .50 hoch, die korrigierten Itemtrennschärfen belaufen sich im Mittel auf .69. Die hohe Schwierigkeit der Items, die sich in dieser Studie zeigt, hängt damit zusammen, dass das Depressionsinventar in einer überwiegend gesunden Bevölkerungsstichprobe eingesetzt wurde. Die Standardabweichungen der Items liegen nahezu alle über 1, was als Zeichen für gute Diskriminationsfähigkeit gewertet werden darf (vgl. Schmitt & Maes, 2000). Eine Hauptachsenanalyse legte eher die Extraktion eines starken Faktors nahe, doch die Kriterien ließen auch die Interpretation zu, dass die Extraktion zweier hochkorrelierter Faktoren möglich sei. Werden zwei Faktoren extrahiert und oblique rotiert, kann einer als kognitiv-affektiver, der andere als somatisch-affektiver Faktor bezeichnet werden. Zwar ergibt sich in Folge der starken Assoziation der Faktoren keine klare Einfachstruktur; ordnet man dennoch die Items jeweils dem Faktor zu, auf dem sie die höhere Diskussion 152 Ladung aufweisen, ergibt sich ein Faktor, dem die kognitiven Items wie Versagensgefühle, Schuldgefühle, Bestrafungsgefühle, Selbstablehnung oder Selbstvorwürfe zugehören und ein Faktor, dem die somatischen Items wie Schlafveränderungen, Appetitveränderungen, Konzentrationsschwierigkeiten oder Ermüdbarkeit zugehören. Die affektiven Items Traurigkeit, Weinen, Reizbarkeit und Verlust von Freude verteilen sich auf die Faktoren, wobei das besonders charakteristische Symptom Traurigkeit zusammen mit dem Symptom Weinen dem kognitiven Faktor zugeordnet ist. Die Resultate liegen auf einer Linie mit dem, was exploratorische Faktorenanalysen für das BDI-II fanden. In einer Untersuchung von Hautzinger et al. (2006) an deutschen Stichproben hatten sich Zwei-Faktor-Lösungen ergeben, in denen die Dimensionen jedoch etwas niedriger korrelierten als in dieser Studie die Dimensionen des BDI-II-V. Was die Verteilung der Items auf die Faktoren angeht, so fand sich in internationalen Studien regelmäßig, dass die somatischen Items auf einem Faktor höher laden und die kognitiven Items auf einem anderen Faktor. Die affektiven Items sind, je nach Stichprobe, entweder dem somatischen oder dem kognitiven Faktor zugeordnet (Beck et al., 1996, zit. nach Hautzinger et al., 2006, S. 12) oder verteilen sich auf die beiden Faktoren (vgl. die Ergebnisse der Stichprobe gesunder Probanden bei Hautzinger et al., 2006). Die Überprüfung der Konstruktvalidität des neu entwickelten Verfahrens durch die Ermittlung seiner Zusammenhänge mit den Persönlichkeitsdimensionen Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit ergibt ein zufriedenstellendes Bild. Die Korrelation des BDI-II-V-Summenwertes mit Neurotizismus zeigt sich hoch positiv, was in der Literatur sehr gut belegten Befunden zum Zusammenhang von Depressivität und Neurotizismus (Bienvenu et al., 2004; Duggan et al., 1995; Hautzinger et al., 2006; Meyer, 2002; Rosellini & Brown, 2011; Trull & Sher, 1994) entspricht. Alle anderen Koeffizienten liegen im niedrigen bis mittelhohen Bereich. Dabei fällt der negative Zusammenhang mit Extraversion im Betrag ein wenig höher aus, als andere Untersuchungen (Bienvenu et al., 2004; Hautzinger et al., 2006; Meyer, 2002; Rosellini & Brown, 2011; Trull & Sher, 1994) dies erwarten ließen. Im Betrag erwartet niedrig zeigt sich die (nur marginal signifikante) negative Korrelation mit Offenheit, allerdings mit umgekehrtem Vorzeichen als andere Autoren dies für den Zusammenhang zwischen Depressivität und Offenheit gefunden hatten (Bienvenu et al., 2004; Hautzinger et al., 2006; Meyer, 2002; Rosellini & Brown, 2011; Trull & Sher, Diskussion 153 1994). Die Verbindung zwischen Offenheit und Depressivität scheint nicht geklärt. Klar ist, dass sie – wenn überhaupt eine bedeutsame Assoziation existiert – sehr gering ausgeprägt ist. Der Koeffizient war in dieser Untersuchung trotz der großen Stichprobe nur marginal signifikant, Hautzinger et al. (2006) sowie Rosellini und Brown (2011) hatten ebenfalls keine signifikanten Ergebnisse erzielt. Bei Bienvenu et al. (2004) hatte sich der Zusammenhang nur auf der Ebene einer Facette als überzufällig erwiesen. Trull und Sher (1994) waren von ihren – je nach Analyse signifikanten oder marginal signifikanten – Ergebnissen eines positiven Zusammenhangs überrascht, da sie in ihren Vorannahmen von einer negativen Verknüpfung ausgegangen waren. Entscheidend für die Beurteilung der Validität des BDI-II-V ist, dass die Korrelation mit Offenheit im Betrag niedrig ausfällt. Die Assoziation des BDI-II-V mit Verträglichkeit ist mäßig negativ. Einen Koeffizienten in dieser Höhe und Richtung hatten auch die Befunde von Bienvenu et al. (2004), Hautzinger et al. (2006), Meyer (2002), Rosellini und Brown (2011) sowie Trull & Sher (1994) erwarten lassen, wobei das einzig signifikante dieser Resultate bei Hautzinger et al. (2006) beschrieben ist. Jedenfalls scheint auch nach den Ergebnissen dieser Untersuchung die Einordnung von Kronmüller und Mundt (2006), wonach die Verträglichkeit bei Depressiven erhöht sei, weiter unklar. Zumindest für die vorliegende Studie könnte eingewandt werden, dass eine Bevölkerungsstichprobe untersucht wurde, die überwiegend gesunde Probanden umfasste und somit nicht beurteilt werden kann, ob sich eine positive Assoziation in Stichproben akut depressiver Patienten finden ließe. Der Zusammenhang zwischen BDI-II-V und Gewissenhaftigkeit zeigte sich entsprechend der Befundlage (Bienvenu et al., 2004; Hautzinger et al., 2006; Meyer, 2002; Rosellini & Brown, 2011; Trull & Sher, 1994) negativ, jedoch stärker ausgeprägt als in den anderen Untersuchungen. Neben der negativen assoziativen Beziehung zwischen aktueller Depressivität und Gewissenhaftigkeit scheint auch eine Verbindung zwischen hoher Gewissenhaftigkeit bzw. damit zusammenhängenden Persönlichkeitseigenschaften wie Perfektionismus, Kontrollbedürfnis oder Leistungsstreben und (dem Risiko für) Depression zu existieren (Hautzinger, 2010; Kronmüller & Mundt, 2006). Wie die beiden Ausprägungen des Zusammenhanges zu interpretieren sind, war im Rahmen dieser Arbeit nicht zu erörtern. Möglicherweise werden dadurch verschiedene zeitliche Prozesse wiedergespiegelt, indem zunächst (zu) hohe Ansprüche und ein (zu stark) ausgeprägtes Leistungsstreben das Risiko für eine Depression erhöhen, in einer akuten Depression (bzw. mit ansteigenden Depressivitätswerten) aber die tatsächliche Reduktion der Leistungsfähigkeit in Folge von Ermüdung und Antriebslo- Diskussion 154 sigkeit und/oder die Wahrnehmung der eigenen Person als insuffizient und leistungsschwach in Folge des niedrigen Selbstwertgefühls für ein Absinken der Werte auf Gewissenhaftigkeitsskalen sorgen. Vorstellbar ist jedoch auch, dass sowohl niedrige Sorgfalt und ein geringer Anspruch an die eigene Arbeit über Misserfolg und Enttäuschungen, zum Beispiel im Arbeitsleben, das Risiko für eine Depression erhöhen respektive eine Depression aufrechterhalten können, als auch wahrgenommener Misserfolg und Enttäuschung, die aus überhöhten Ansprüchen an die eigenen Leistungen resultieren. 6.1.2 BDI-II-V und BDI-II im Vergleich Im direkten Vergleich scheinen die Items des BDI-II-V etwas leichter zu sein als jene des BDI-II, spricht doch ein t-Test für signifikant höhere Summenwerte in der (in Bezug auf die Skalierung dem Original vergleichbar gemachten) verkürzten Version. Die Summenwerte beider Inventare korrelieren jedoch hoch (r = .86). Auch auf der Ebene der einzelnen Items ergeben sich respektable Korrelationen von durchschnittlich .65. Diese Koeffizienten entsprechen denen, die Schmitt et al. (2003) für die Korrelationen der Summenwerte und Items des BDI und BDI-V in einer Stichprobe Gesunder fanden. Das BDI-II-V weist in dieser Studie eine minimal höhere interne Konsistenz als das Original auf. Bis auf das Item, das Suizidgedanken erfragt, sind die verkürzten Items des BDI-II-V etwas trennschärfer als die jeweils zu Grunde liegenden Items des BDI-II. Die Bedeutung eines einzelnen Items in Relation zu allen anderen Items und damit sein Bezug zum Gesamtwert entsprechen sich in beiden Inventaren gut, wie Rangkorrelationen der Trennschärfen ergeben. Mit einem Koeffizienten von .86 liegt der Wert sogar in dem Bereich, der sich in den Analysen der Entsprechung von BDI-V und BDI (Schmitt et al., 2003) nur für eine Gesamtstichprobe ergab, die neben den gesunden Probanden auch eine heterogene Gruppe klinischer Patienten umfasste, und damit eine größere Varianz der Werte aufwies als die „reine“ Stichprobe klinisch unauffälliger Probanden, in der eine geringere Rangkorrelation der Trennschärfen erzielt wurde. BDI-II-V und BDI-II hängen ähnlich hoch mit Validierungskorrelaten in Form der Dimensionen des Big-Five-Persönlichkeitsmodells zusammen. Ergebnisse konfirmatorischer Faktorenanalysen bestätigen jedoch nicht die Annahme, BDI-II-V und BDI-II würden sich als essentiell τ-parallel im Sinne der Klassischen Testtheorie erweisen. Ein entsprechendes Modell wies nur dann perfekten Fit auf, wenn Diskussion 155 die Summenwerte zuvor einer logarithmischen Transformation unterzogen wurden. Exploratorisch wurde ein Modell spezifiziert, in dem BDI-II und BDI-II-V als latente Variablen modelliert und ihre Korrelation auf 1.0 fixiert wurde, in Anlehnung an die Analyse, mit der Schmitt et al. (2003) die Messäquivalenz von BDI und BDI-V nachgewiesen hatten. Die Überprüfung fiel nur nach Maßgabe einiger Güteindizes (SRMR, CFI, tendenziell auch TLI), nicht jedoch nach dem Kriterium des χ2-Tests zufriedenstellend aus. Perfekter Fit konnte in weiter explorierenden Analysen nur für ein Modell nachgewiesen werden, in dem die latente Korrelation der beiden Faktoren BDI-II und BDI-II-V frei geschätzt wurde. Sie belief sich darin auf immer noch hohe, aber eben nicht perfekte .92. Schmitt et al. (2003) hatten für BDI und BDI-V in einer Stichprobe, die im Umfang in etwa der hier eingesetzten entsprach, eine perfekte Korrelation der beiden Faktoren, die Original und Verkürzung repräsentierten, nachweisen können. Allerdings handelte es sich dabei um die bereits angesprochene Gesamtstichprobe, die sich neben zwei Dritteln gesunder Probanden auch aus einem Drittel in stationärer psychiatrischer Behandlung befindlicher Patienten zusammensetzte, von denen etwa die Hälfte an einer Depression erkrankt war. Innerhalb der Gruppe der 200 klinisch unauffälligen Probanden gelang es auch in der Untersuchung von Schmitt et al. (2003) nicht, ein Modell mit perfekter latenter Korrelation zu fitten. Stattdessen ergab sich eine Korrelation von .95 zwischen dem BDI-Faktor und dem BDI-V-Faktor, die damit ein wenig höher ausfällt, als der Zusammenhang, der in der vorliegenden Arbeit zwischen den beiden Faktoren von BDI-II und BDI-II-V erzielt werden konnte. Sowohl die Befunde von Schmitt et al. (2003), als auch die wesentliche Verbesserung des Fits eines Modells essentiell τ-paralleler Variablen unter Verwendung logarithmierter Summenwerte, geben Anlass zu der begründeten Vermutung, dass sich eine höhere Übereinstimmung von BDI-II und BDI-II-V durchaus nachweisen ließe, wenn die Verteilungseigenschaften der Daten dem gewählten Verfahren konfirmatorischer Faktorenanalysen metrischer Daten angemessener wären. Durch eine Erweiterung der Stichprobe um eine Gruppe klinisch depressiver Patienten, deren Symptomatik unterschiedliche Schweregrade aufweist, könnte die Varianz in den Daten erhöht und gleichzeitig die deutliche Rechtsschiefe der Verteilung reduziert sowie Bodeneffekte relativiert werden. Diskussion 156 6.1.3 BDI-II.V.1 und BDI-II-V.2 im Vergleich Das BDI-II-V wurde in zwei Versionen vorgeschlagen, die sich bis auf die Items zur Erfassung von Veränderungen des Schlafs und des Appetits glichen. Im BDI-II-V.1 wurden diese Items entgegen ihrer Gestaltung im Original-BDI-II global gehalten, im BDI-II-V.2 wurde dagegen in Übereinstimmung mit dem Original-BDI-II getrennt nach Zu- und Abnahme der Phänomene gefragt. Das BDI-II-V.2 konnte dann auf zwei Wegen ausgewertet werden. Zum einen war es möglich, jedes der insgesamt vier Items zur Zu- und Abnahme von Schlaf und Appetit in den Summenwert einzurechnen, was jedoch eine Abweichung zum Vorgehen im Original darstellte (bezeichnet mit BDI-II-V.2). Zum Zweiten ließen sich die Items durch Berücksichtigung nur der höchstausgewählten Ziffer der beiden Schlafitems und der höchstausgewählten Ziffer der beiden Appetititems so zusammenfassen, dass für jedes Phänomen – wie bei der Abfrage durch ein einziges Item – nur eine Ziffer in den Summenwert einfloss; dies entsprach der Auswertungsstrategie des Originals (bezeichnet mit BDI-II-V.2.Z). Die Ergebnisse sollten zeigen, welche der Varianten, die Items zu Schlaf und Appetit abzubilden, sich durch eine größere Nähe zum Original auszeichnete und demnach zur Aufnahme in den endgültigen Vorschlag eines BDI-II-V empfohlen werden konnte. In der folgenden Zusammenstellung der Ergebnisse hierzu wird die vom Original abweichende Auswertungsstrategie des BDI-II-V.2 keine Berücksichtigung mehr finden. Diese musste in ihrem Zusammenhang mit dem Original der zweiten Auswertungsstrategie (BDI-II-V.2.Z) unterlegen sein, da alleine die höhere Anzahl an Items der Vergleichbarkeit mit dem BDI-II abträglich war. Dort, wo Vergleiche vorgenommen werden konnte, bestätigten die Analysen diese Annahme. Viele Berechnungen waren aufgrund der unterschiedlichen Anzahl an Items gar nicht möglich. Es werden also BDI-II-V.1 und BDI-II-V.2.Z hinsichtlich ihrer Übereinstimmung mit dem BDI-II einander gegenübergestellt. Der Summenwert des BDI-II-V.1 korreliert – wenn auch nur minimal – höher mit dem Summenwert des BDI-II als der Summenwert des BDI-II-V.2.Z. Noch Aufschlussreicher und aussagekräftiger sind die Korrelationen auf der Ebene der beiden in Frage stehenden Items. Auch hier ergibt sich – noch deutlicher als auf Summenwertebene – eine größere Nähe zwischen der Itemvariante des BDI-II-V.1 und den Items des BDI-II als zwischen der Itemvariante des BDI-II-V.2.Z und den Items des Originals. Diskussion 157 Die Differenz zwischen den mittleren Summenwerten in der (reskalierten) verkürzten Version und dem Original fällt in beiden Substichproben signifikant aus, wobei der Unterschied zwischen BDI-II und BDI-I-V.2.Z minimal (1.8 Punkte) größer ist als jener zwischen BDI-II und BDI-II-V.1. Der Bezug jedes einzelnen Items zum Summenwert aller anderen Items scheint sich zwischen BDI-II-V.1 und BDI-II etwas besser zu entsprechen als zwischen BDI-II-V.2.Z und BDI-II, wie in den Teilstichproben durchgeführte Rangkorrelationen der Trennschärfen annehmen lassen. Auffällig ist jedoch, dass die Trennschärfe eines jeden Items des BDI-II-V.2.Z hinter der Trennschärfe des entsprechenden Items des BDI-II-V.1 zurückbleibt. Im Durchschnitt liegen die Itemtrennschärfen des BDI-II-V.2.Z um .07 Punkte niedriger als die des BDI-II-V.1.Weder hatte es dazu im Vorfeld explizite Annahmen gegeben, noch findet sich im Nachhinein eine plausible Erklärung. Theoretisch kann die Möglichkeit in Betracht gezogen werden, dass der Befund dadurch (mit)verursacht ist, dass die Formulierung der Items zu Appetit und Schlaf im BDI-II-V.2 sich so ungünstig auf den Gesamtsummenwert auswirkt, dass die Korrelation aller anderen Items mit dieser Summe abgeschwächt wird. Ebenso gut ist es jedoch möglich, dass die Befunde lediglich Ausdruck zufälliger Unterschiede im Antwortverhalten der Probanden der beiden Substichproben sind. Diese Frage konnte nicht beantwortet werden. Es fand sich darüber hinaus, dass die mittlere Inter-Item-Korrelation als Maß für die Homogenität eines Verfahrens im BDI-II-V.1 höher ausfiel als im BDI-II-V.2.Z. In konfirmatorischen Faktorenanalysen ließ sich wie schon im Vergleich von BDI-II und BDI-II-V in der Gesamtstichprobe weder für BDI-II und BDI-II-V.1, noch für BDI-II und BDI-II-V.2.Z in den jeweiligen Teilstichproben ein Modell essentiell τparalleler Variablen fitten, sofern die Ausgangsdaten nicht logarithmiert wurden. Exploratorisch wurde in beiden Teilstichproben daraufhin getestet, ob die Inventare eine perfekte latente Korrelation aufweisen würden, wenn sie jeweils als Faktoren modelliert wurden. Nur wenn man ein α-Niveau von .05 annehmen würde, was für diese relativ kleine Stichprobe nicht angemessen ist, könnte man für BDI-II und BDI-II-V.1 davon sprechen, dass ein solches Modell nach Maßgabe des χ2-Tests eine Tendenz in Richtung Modellfit aufweist. Nach wissenschaftlichen Standards darf es entsprechend dem χ2-Test nicht als akzeptabel bezeichnet werden. Die Güteindizes SRMR, CFI und TLI Diskussion 158 bescheinigen diesem Modell dagegen einen akzeptablen Fit. Für BDI-II und BDI-II-V.2.Z würden nur die Indizes SRMR und CFI eine Annahme dieses Modells empfehlen. Perfekt passt in beiden Stichproben nur ein Modell, in dem die Korrelation zwischen den Faktoren, welche die Inventare repräsentierten, ohne jede Restriktion frei geschätzt wird. Sie beläuft sich auf hohe .91 zwischen BDI-II und BDI-II-V.2.Z und auf noch etwas höhere .94 zwischen BDI-II und BDI-II-V.1. Die berichteten Ergebnisse sprechen ausnahmslos für die Ausgestaltung der Items, wie sie im BDI-II-V.1 vorgenommen wurde. Ihre Interpretierbarkeit ist jedoch durch einige Unsicherheiten eingeschränkt. Zum einen widersprechen sie der theoretisch begründeten Annahme, das BDI-II-V.2.Z würde dem BDI-II besser entsprechen, da die Ausgestaltung beziehungsweise Formulierung der Items und auch die Strategie ihrer Auswertung wesentlich näher am Original bleiben. Zum Zweiten ist die Vergleichbarkeit der Substichproben nicht mit letzter Sicherheit gegeben. Es war nicht nachzuweisen, dass sich beide Teilstichproben im Hinblick auf das Niveau der Depressivität entsprechen. Die mittleren Summenwerte des BDI-II unterschieden sich zwischen den Gruppen zumindest bei einem angestrebten α-Niveau von .20 überzufällig, wenn auch nur in geringem Ausmaß. Auch war die soziodemographische Zusammensetzung der Stichproben zwar gut vergleichbar, aber nicht identisch. Hinsichtlich der Verteilung von Männern und Frauen auf die Teilstichproben und dem Anteil an Teilnehmern in verschiedenen Partnerschaftssituationen bestanden leicht überzufällige Unterschiede. Zum Dritten ist das Zustandekommen der Unterschiede in den Trennschärfen zwischen BDI-II-V.1 und BDI-II-V.2.Z nicht geklärt, wodurch insbesondere die Ergebnisse der Rangkorrelationen der Trennschärfen von BDI-II-V und BDI-II innerhalb der Teilstichproben nur vorläufig interpretiert werden sollten. Einerseits ist es möglich, dass sich in den durchgängig niedrigeren Trennschärfen des BDI-II-V.2.Z die unangemessenere Ausformulierung der Schlaf- und Appetit-Items in dieser Version ausdrückt und dass diese Items im BDI-II-V.1 besser ins Gesamtbild der anderen Items passen. Wahrscheinlicher ist jedoch ein Zustandekommen durch zufällige Stichprobenunterschiede, deren weitere Auswirkungen nicht abgeschätzt werden können. Zum Vierten und insbesondere aber handelt es sich in allen Fällen um rein deskriptive Vergleiche der Größe bestimmter Koeffizienten und Gütemaßstäbe, deren Unterschied nicht zufallskritisch abgesichert ist. Diskussion 159 Geht man jedoch davon aus, dass die Ergebnisse trotz der dargelegten Einschränkungen substanzieller Natur sind und die Items des BDI-II zu Schlaf und Appetit tatsächlich besser durch die entsprechenden Items des BDI-II-V.1 repräsentiert werden, wäre eine theoretische Erklärung der Befunde zu versuchen. Die Items zielen ursprünglich darauf ab, die Symptomatik einer Depression zu erfragen, wie sie sich in Schlaf und Appetit niederschlagen kann. Dabei weisen Betroffene in der Regel entweder eine Verschlechterung oder eine Steigerung von Schlaf beziehungsweise Appetit auf (Saß et al., 2003). Es geht also um eine auffällige Veränderung der Phänomene in eine Richtung, die der Betroffene in der Regel als belastend erlebt. Dementsprechend erzwingt die Instruktion des Original-BDI-II schon beim Ausfüllen eine Entscheidung ob – im Vergleich zu früheren Zeiten – eine Zunahme oder eine Abnahme von Schlaf beziehungsweise Appetit aufgetreten ist. Wird dagegen wie im BDI-II-V.2 nach „außergewöhnlich viel“ und „außergewöhnlich wenig“ Schlaf beziehungsweise Appetit gefragt, könnte es sein, dass in der Urteilsfindung der Probanden in erster Linie ein Abwägen stattfindet, wie oft es in den letzten beiden Wochen vorkam, dass sie eher mehr als gewöhnlich geschlafen (Appetit empfunden) haben und wie oft es vorkam, dass sie eher weniger als gewöhnlich geschlafen (Appetit empfunden) haben. Die erzwungene Stellungnahme zur Ausprägung der Phänomene in beide Richtungen führt damit zumindest bei weitgehend gesunden Probanden, bei denen nicht – wie im Falle einer akuten Depression – eine Veränderung im Vordergrund steht, sondern im Rahmen des normalen Alltagsgeschehens Tage mit viel und wenig Schlaf (Appetit) vorkommen, möglicherweise zu einer verzerrten Abbildung dessen, was ursprünglich mit dem Item erfragt werden sollte. Damit wäre es nachvollziehbar, dass die global gehaltenen Items des BDI-II-V.1 („Ich leide unter Schlafstörungen“ und „Mein Appetit ist anders als früher“) auch bei Gesunden den eigentlichen Hintergrund des Items besser abbilden. Sie sind vermutlich stärker mit dem im Original-BDI-II entscheidenden Aspekt einer auffälligen Veränderung und/oder des Leidens verknüpft und verleiten nicht zu einem schlichten Abwägen alltäglicher Schwankungen in der Dauer des Schlafs respektive der Intensität des Appetits. Sollte dies der Fall sein, müsste sich in klinischen Stichproben ein höherer Zusammenhang zwischen den Schlaf- und Appetit-Items des BDI-II-V.2.Z und denen des BDI-II zeigen als in der Bevölkerungsstichprobe, da bei Erkrankten häufiger tatsächlich eines Diskussion 160 der Phänomene (zu viel oder zu wenig) im Vordergrund steht und alltäglich Schwankungen überlagert, die so die Antworten weniger verzerren können. Eine Rolle in den niedrigeren Korrelationen der Schlaf- und Appetititems des BDI-II-V.2.Z mit den entsprechenden Items des Originals im Vergleich zu den Korrelationen, die Schlaf- und Appetit-Items des BDI-II-V.1 mit den Items des Originals erzielten, könnte zudem die übermäßige Gewichtung von viel Schlaf beziehungsweise Appetit gespielt haben. Im Rahmen klinischer Depressionen kommt eine Verschlechterung von Schlaf und Appetit viel häufiger vor als deren Zunahme. Eine Steigerung von Schlaf und Appetit zeigt sich vor allem in der seltenen Ausprägung der Major Depression mit atypischen Merkmalen, die insbesondere dann auftritt, wenn es sich um mit saisonalem Muster rezidivierende depressive Episoden handelt (Saß et al., 2003). Im BDI-II-V.2. wird dagegen immer auch eine Angabe verlangt, wie häufig außergewöhnlich viel geschlafen und gegessen wurde. Jedes Mal, wenn das Empfinden eines Zuviel häufiger vorkam als das Empfinden eines Zuwenig und die Ziffer des außergewöhnlich viel-Items damit die Ziffer des außergewöhnlich wenig-Items überstieg, wurde sie als endgültiger Wert des Items verwendet. In Verbindung mit der weiter oben geäußerten Vermutung, dass das Item Probanden zu einem reinen Abwägen von mehr oder weniger veranlasst, könnte dies alleine durch zufällige Schwankungen nicht selten der Fall gewesen sein. Dadurch ging sehr häufig ein Wert ein, der mit depressiver Symptomatik in den seltensten Fällen zu tun hat. Dieses Übergewicht gilt ganz besonders für das Appetit-Item, nachdem in der erwachsenen Bevölkerung sehr viele Menschen (durchgehend oder phasenweise) unter dem Eindruck leiden, eher zu viel als zu wenig Appetit zu haben. Die Erklärungsversuche könnten einer Plausibilitätsprüfung unterzogen werden, indem getestet wird, ob die Zusammenhänge wie vorhergesagt in klinischen Stichproben anders ausfallen als in der hier untersuchten Bevölkerungsstichprobe. Vorstellbar wäre auch der Versuch, ähnlich der Instruktion des BDI-II, die Probanden nur eines der Schlaf- und eines der Appetit-Items des BDI-II-V.2 beantworten zu lassen oder eine Art Filterfrage vorzuschalten. Diese könnte zunächst abfragen, ob in den letzten zwei Wochen eher viel oder eher wenig Schlaf (Appetit) vorhanden war und danach eine Angabe erbitten, wie häufig außergewöhnlich viel respektive außergewöhnlich wenig Schlaf oder Appetit vorkamen. Diskussion 161 Soll die Abbildung der Symptome in Schlaf und Appetit in Form von je zwei Items beibehalten werden, müsste ihre Formulierung näher an die des Originals herangeführt werden. Es dürfte nicht mehr nach „außergewöhnlich viel“ und „außergewöhnlich wenig“ Schlaf respektive Appetit gefragt werden, sondern es müsste der Aspekt der Veränderung gegenüber sonst aus dem Original übernommen werden. Beispielsweise könnte man formulieren: Ich habe weniger als sonst geschlafen (nie … fast immer) Ich habe mehr als sonst geschlafen (nie … fast immer) und Ich hatte weniger Appetit als sonst (nie … fast immer) Ich hatte mehr Appetit als sonst (nie … fast immer) Die Items so zu belassen und ihre Auswertung zu verändern, indem die beiden Schlafund Appetit-Items jeweils gemittelt werden, scheint in keinem Falle angebracht. Dadurch würden ernsthafte Probleme in Form von entweder zu viel oder zu wenig Schlaf respektive Appetit relativiert, wenn durch eine niedrige Angabe auf dem zweiten Item der Wert des gemittelten Items sinkt. 6.1.4 BDI, BDI-V, BDI-II und BDI-II-V im Vergleich Die Berechnung bivariater Zusammenhänge zwischen allen eingesetzten Varianten des Beck Depressionsinventars BDI, BDI-V, BDI-II und BDI-II-V ergibt sehr hohe Korrelationen jeweils zwischen den beiden gleich skalierten Originalversionen (r = .94) und zwischen den verkürzten Versionen (r = .93). Die vier weiteren Koeffizienten jeweils zwischen einem Original und einer verkürzten Version fallen niedriger, aber dennoch hoch aus (r = .85 – 86), wobei es unerheblich scheint, ob die Korrelation zwischen einem Original und der zugehörigen Verkürzung oder die Korrelation zwischen einem Original und der nicht-zugehörigen Verkürzung bestimmt wird. Ähnliche Skalierung schlägt sich damit wesentlich deutlicher im Zusammenhangsmuster der Fragebögen nieder als inhaltliche Übereinstimmung. Wie die mittleren Summenwerte von BDI-II und reskaliertem BDI-II-V, so unterscheiden sich auch die mittleren Summenwerte von BDI und reskaliertem BDI-V überzufällig. Die verkürzten Versionen sind jeweils etwas leichter als das Original. Wie in Unter- Diskussion 162 suchungen für das amerikanische BDI und BDI-II (Dozois et al., 1998), so zeigt sich auch in dieser Untersuchung für das deutsche BDI, dass Probanden in der zweite Auflage ganz leicht höhere Werte (mittlere Differenz 1.2 Punkte) erzielen; ein Unterschied, der in dieser Stichprobe signifikant wird. Die internen Konsistenzen der Inventare sind allen früheren Ergebnissen (Hautzinger et al., 1995; Hautzinger et al., 2006; Schmitt et al., 2003; Schmitt & Maes, 2000) entsprechend sehr hoch, wobei sich die Befunde in dieser Untersuchung allesamt am oberen Rand der Konsistenzwerte, die für die einzelnen Inventare zuvor gefunden wurden, bewegen. Den Anfang macht das BDI mit einem Koeffizient α von .89, direkt danach liegt das BDI-II, dessen interne Konsistenz sich in der vorliegenden Arbeit auf .92 beläuft; noch etwas konsistenter sind die verkürzten Versionen mit einem α von .94 (BDI-V) respektive .95 (BDI-II-V). Wird die Homogenität nach Maßgabe der Itemtrennschärfen bestimmt, ergibt sich ein identisches Bild im Vergleich der Inventare: Die durchschnittlich trennschärfsten Items besitzt das BDI-II-V (M (rit) = .69), in entsprechender Höhe liegt die mittlere Trennschärfe des BDI-V (M (rit) = .66); schon ein wenig niedriger fallen die Zusammenhänge der Items mit dem Summenwert aller anderen Items im BDI-II aus (M (rit) = .57), für das BDI wurde eine mittlere Itemtrennschärfe von .50 gefunden. Im Vergleich mit früheren Befunden zu BDI (Hautzinger et al., 1995), BDI-V (Schmitt et al., 2003) und BDI-II (Hautzinger et al., 2006) fallen die mittleren Trennschärfen in dieser Stichprobe im oberen Bereich dessen aus, was man erwarten konnte, wie es sich schon für die internen Konsistenzen gezeigt hatte. Mit den Dimensionen des Big Five Persönlichkeitsmodells bestehen für alle Formen ähnliche Zusammenhänge. In konfirmatorischen Faktorenanalysen werden die Zusammenhänge zwischen den vier Inventaren BDI, BDI-V, BDI-II und BDI-II-V weder von dem postulierten Modell essentiell τ-paralleler Variablen, noch von exploratorisch überprüften, weniger restringierten Modellen essentiell τ-äquivalenter oder τ-kongenerischer Variablen zufriedenstellend beschrieben. Selbst das Logarithmieren der Summenwerte, das im Falle der „kleinen“ Modelle für BDI-II und BDI-II-V zu perfektem Fit geführt hatte, verbesserte den Modellfit nicht soweit, dass er akzeptabel gewesen wäre. Perfekte latente Korrelationen zwischen den Inventaren hatten sich schon in den Modellen des BDI-II und BDI-II-V nicht bestätigen lassen und waren daher ebenso wenig in der Modellierung aller BDIs Diskussion 163 nachzuweisen. Bei freier Schätzung messfehlerbereinigter Korrelationen zwischen den BDI-Faktoren lässt sich zwar perfekter Modellfit erzielen, doch es treten Heywood Cases auf: Die Korrelation zwischen dem Faktor des BDI und dem Faktor des BDI-II übersteigt 1. Die anderen latenten Korrelationen bewegen sich zwischen .98 (Korrelation zwischen den Faktoren der verkürzten Inventare) und .91 bis .93 (weitere Koeffizienten). Das Muster manifester bivariater Korrelationen zwischen den Inventaren und die Ergebnisse der bisherigen Versuche, ein die Struktur der Daten beschreibendes Modell zu finden, hatten eindeutig einen systematischen Einfluss der unterschiedlichen Skalierung der originalen und verkürzten Inventare angezeigt. Dieser Einfluss wurde in einem nächsten Schritt als Methodenfaktor im Modell berücksichtigt. In Anlehnung an das von Eid (2000) eingeführte Prinzip, einen Methodenfaktor weniger zu spezifizieren, als Methoden eingesetzt wurden, wurde nur ein Methodenfaktor ins Modell aufgenommen. Die Methode, die nicht modelliert wird, wird zur Standardmethode. Der Methodenfaktor bildet dann Abweichungen von der Messung eines Traits mit der Standardmethode ab (Eid, 2000). Zunächst wurde die Originalskalierung zur Standardmethode gemacht, BDI-V und BDI-II-V als Indikatoren eines Methodenfaktors gewählt und ihre Verbindung zu diesem Faktor in der Modellspezifikation als identisch festgelegt. Spezifiziert man im Modell weiterhin, dass alle vier Inventare gleich stark mit dem Traitfaktor Depression verknüpft sein sollen, weist das Modell keinen Fit auf. Lockert man diese Restriktion, fittet das Modell perfekt. Die Konsistenz von BDI-V und BDI-II-V fällt hoch, ihre Methodenspezifität niedrig aus, 78 respektive 77% der Varianz in den Werten werden nach diesem Modell durch den interessierenden Trait, 17 respektive 14% der Varianz durch die Wahl einer anderen Methode als die der Originalskalierung bestimmt. Die Abbildung der Depressivität durch die verkürzten Versionen der BDIs kann gut, aber nicht perfekt durch die Werte der Originalformen vorhergesagt werden. Die Überprüfung eines Modells, in dem die Rollen von Standard- und Vergleichsmethode getauscht werden, also die beiden Original-BDIs auf einen Methodenfaktor zurückgeführt werden, führt zum gleichen Schluss. Die wahren Depressionswerte, die ein Original-BDI misst, unterscheiden sich mäßig von den wahren Depressionswerten, die ein verkürztes BDI misst. Diskussion 164 6.2 Einschränkungen und Kritik Dieser Abschnitt dient der Beschreibung und Kritik von Umständen und Vorgehensweisen, die die Interpretierbarkeit und Generalisierbarkeit der Ergebnisse dieser Studie einschränken. Wo immer es möglich scheint, werden Alternativen beschrieben, die in künftigen Untersuchungen ähnliche Beschränkungen vermeiden oder überwinden könnten. 6.2.1 Stichprobe Zur realisierten Stichprobe lassen sich zwei Aspekte kritisch anmerken: Die Auswahl einer nicht klinischen Stichprobe und die mangelnde Bevölkerungsrepräsentativität, die sich besonders deutlich zeigt in der Unterrepräsentation von Teilnehmer unter 20 Jahren. 6.2.1.1 Auswahl der Stichprobe Insgesamt ist es nicht optimal, Depressionsinventare an reinen Bevölkerungsstichproben zu untersuchen. Zum einen war zu erwarten, dass daraus Varianzeinschränkungen respektive Bodeneffekte resultieren würden, da Depressivität in einer nicht-klinischen Stichprobe nicht ausgeglichen oder normal verteilt sein kann. Die Verteilungsform der Daten verletzte so die Voraussetzungen der eingesetzten Verfahren und trug im Falle der konfirmatorischen Faktorenanalysen vermutlich zu den nicht erwartungskonformen Resultaten bei. Insbesondere für die Analysen, die nur BDI-II und BDI-II-V modellierten, ist nicht zu sagen, inwieweit der nicht zufriedenstellende Modellfit mit den ungünstigen Verteilungseigenschaften der Daten zusammenhängt und inwieweit er tatsächlich Mängel in der Messäquivalenz der Inventare wiederspiegelt. Zwar wäre auch in klinischen Stichproben oder aus klinischen und gesunden Stichproben zusammengesetzten Gruppen nicht unbedingt eine Normalverteilung zu erwarten, aber insgesamt würde sich die Varianz in den Daten vergrößern und die Form der Verteilung würde zumindest etwas näher an eine Normalverteilung heranreichen. Zum anderen sind die gefundenen Resultate nicht auf die Verhältnisse in klinischen Populationen generalisierbar. Diskussion 165 6.2.1.2 Repräsentativität der Stichprobe Die realisierte Stichprobe ist nicht bevölkerungsrepräsentativ, was die Generalisierbarkeit der Ergebnisse auch innerhalb nicht-klinischer Populationen weiter einschränkt. Eine exakte Bevölkerungsrepräsentativität war im Rahmen dieser Arbeit nicht zu realisieren und wurde auch nicht explizit angestrebt. Ein Aspekt verdient trotzdem eine kurze Beleuchtung. Besonders deutlich unterrepräsentiert ist die Gruppe der unter 20-Jährigen. Dies hat zwei Gründe. Zum einen war der Zugang zu Jugendlichen schwierig, so dass schon die Rekrutierungsquote unter der für alle anderen Altersgruppen lag. Institutionen, über die an viele Jugendliche gleichzeitig hätte herangetreten werden können, wären zum Beispiel Schulen oder Vereine gewesen. Um in diesem Rahmen für die Teilnahme an der Studie zu werben, hätte das Einverständnis sowohl von Institutionsleitung und -mitarbeitern, als auch von allen Eltern eingeholt werden müssen. Dies erschien der Autorin unverhältnismäßig für die Zwecke einer ersten Untersuchung eines neu entworfenen Fragebogens. Sollte sich der Fragebogen jedoch bewähren und weitergehende Analysen und Normierungsuntersuchungen angestrebt werden, wäre der Weg über offizielle Institutionen eine Möglichkeit, die Gruppe Jugendlicher und junger Erwachsener anzusprechen. Der zweite Grund besteht in der überproportional hohen Ausschlussquote. Von den 10 antwortenden Teilnehmern unter 20 Jahren mussten 5 (also 50%)29 aus der Stichprobe genommen werden, da ihre Fragebögen eindeutig auf unverständiges oder nicht ernsthaftes Ausfüllen schließen ließen. So war zum Beispiel in allen Items die gleiche Ziffer angekreuzt und/oder die Kombination der ausgewählten Antwortmöglichkeiten war äußerst fragwürdig respektive unmöglich. Jugendliche hätten grundsätzlich durch die Autorin selbst oder durch von der Autorin gut eingewiesene Personen angesprochen und genauer instruiert werden müssen, um sicherzustellen, dass ihnen Sinn und Bedeutung der Arbeit zumindest vermittelt wurden. Möglicherweise ist es generell schwer realisierbar, jugendliche Teilnehmer mittels eines Schneeballsystems zu rekrutieren. Vermutlich ließe sich eine höhere Quote mit Bedacht ausgefüllter Fragebögen zurückerhalten, wenn die Untersuchung in einem offiziellen 29 Zum Vergleich: Die Ausschlussquote für die Stichprobe der Rücksender ab 20 Jahren lag bei 3%. Diskussion 166 Rahmen (s. o.) angekündigt oder – noch besser – auch durchgeführt würde, als bei „inoffiziellen“ Ansprachen durch Freunde oder Bekannte. 6.2.2 Datenaufbereitung Ungünstig war das Vorgehen bei der Datenaufbereitung, die zu viel Wert darauf legte, die Power nicht durch vermeidbare Ausschlüsse von Probanden zu reduzieren. Aus diesem Grund wurde darauf verzichtet, Probanden mit fehlenden Werten in einem der Inventare von vorne herein aus den Analysen auszuschließen. Letztendlich wurden aber Stichproben ohne fehlende Werte benötigt, so dass die Ausschlüsse im Nachhinein vorgenommen wurden. Da nicht alle Arbeitsschritte wiederholt werden konnten, sind die Stichprobenumfänge zwischen Vor- und endgültigen Analysen und in Einzelfällen auch innerhalb der endgültigen Analysen nicht exakt identisch. Dies ist nicht optimal und machte zudem eine komplizierte Darstellung des Prozesses nötig, um Umschlüssigkeiten zu vermeiden. Solche wären aufgetreten, wenn unterschiedliche Stichprobenumfänge oder Unterschiede in vorläufigen30 und endgültigen Trennschärfeanalysen aufgefallen, aber unerklärt geblieben wären. Eine bessere Alternative zum gewählten Vorgehen wäre gewesen, in Fragebögen, in denen nur vereinzelte Items fehlten, diese durch Imputation zu ersetzen und nur Probanden, für die in einem Fragebogen (zum Beispiel durch das Überblättern einer Seite) mehrere Items fehlten, aus der Stichprobe zu nehmen. So wäre eine Stichprobe ohne fehlende Werte entstanden und gleichzeitig wäre die Power nur in vernachlässigbarem Umfang reduziert worden. 6.2.3 Aussagekraft der Untersuchungen zum BDI-II-V in der Gesamtstichprobe Es ist kritisch zu reflektieren, was die Ergebnisse zum BDI-II-V aussagen, der aus der Zusammenfassung der Varianten BDI-II-V.1 und BDI-II-V.2.Z hervorging, um Analysen in der Gesamtstichprobe mit großem Stichprobenumfang vornehmen zu können. Den Auswertungen wurde der Gedanke zu Grunde gelegt, dass diese Analysen einen globalen Eindruck vermitteln und die Berechnungen in den Teilstichproben für das BDI-II-V.1 und BDI-II-V.2(.Z) das Ergebnis weiter spezifizieren würden. 30 Die vorläufigen Analysen werden nicht berichtet, kommen aber indirekt in der Verteilung der Items auf jene Parcels zum Ausdruck, die auf der Basis der Trennschärfen erstellt wurden. Diskussion 167 In jedem Falle sind alle Analysen, die sich in dieser Arbeit auf das BDI-II-V beziehen, nicht exakt auf eine endgültige Variante des BDI-II-V übertragbar, in der die Items zu Schlaf und Appetit in der einen oder anderen hier untersuchten oder sogar einer dritten Weise ausgestaltet sein werden. 6.2.4 Interpretierbarkeit der konfirmatorischen Faktorenanalysen Die Interpretierbarkeit der Ergebnisse konfirmatorischer Faktorenanalysen ist insbesondere dadurch eingeschränkt, dass alle Analysen, die einen perfekten Fit erzielten, entweder an logarithmierten Daten vorgenommen wurden oder Modelle testeten, die erst exploratorisch im Laufe der Analysen entstanden. Der Fit von Modellen, die nicht die Rohdaten, sondern in ihrer Verteilung nicht-linear veränderte Daten untersuchen, kann nicht auf die realen Verhältnisse übertragen werden. Die Ergebnisse geben maximal Auskunft darüber, wie der Fit möglicherweise durch die Verteilung der Daten beeinflusst worden ist. Die Passung von Modellen, die nicht im Vorhinein theoretisch angenommen, sondern während der Analysen auf der Basis von in den erhobenen Daten vorgefundenen Verhältnissen entwickelt wurden, bedarf einer Bestätigung in neuerlichen Untersuchungen, bevor sie endgültig interpretiert werden darf. Eine Option hätte darin bestanden, die Stichprobe vor den Analysen zu unterteilen und die in der ersten Hälfte gut passenden Modelle an der zweiten Hälfte direkt zu überprüfen (Kreuzvalidierung). 6.2.5 Vergleich von BDI-II-V.1 und BDI-II-V.2 In der Frage, ob das BDI-II-V.1 oder das BDI-II-V.2 (beziehungsweise dessen Auswertung als BDI-II-V.2.Z) dem BDI-II besser entspricht, sind Schlussfolgerungen aus den Analysen dieser Untersuchung nur auf der Basis rein deskriptiver Vergleiche von Differenzen, Koeffizienten und Modellgüteindizes möglich, die nicht auf Signifikanz überprüft wurden. Die Indizes, die zum inferenzstatistischen Vergleich des Fits von Modellen konfirmatorischer Faktorenanalyen existieren (wie der χ2-Differenzentest für ineinander verschachtelte Modelle oder andere Maße für nicht verschachtelte Modelle, beispielsweise Akaike‘s Information Criterion, AIC), sind nur zur Anwendung auf Modelle konzipiert, die im selben Datensatz gerechnet wurden (Hox, 2002) und konnten daher keine Verwen- Diskussion 168 dung finden. Zum Vergleich von Modellen in verschiedenen Stichproben existieren jedoch Mehr-Gruppen-Lösungen, zum einen Multiple-Groups CFA und zum anderen MIMIC-Models (Analysen, die Kovariaten enthalten; Brown, 2006). Diese Methoden sind dafür geeignet, zu überprüfen, ob sich Struktur und Parameter eines Modells in zwei verschiedenen Gruppen (wie zum Beispiel Männern und Frauen) entsprechen oder nicht (ein klassischer Ansatz zur Messinvarianzüberprüfung, vgl. Abschnitt 2.4). Im Rahmen dieser Methodik hätten sich wahrscheinlich auch Vergleiche zwischen der Konvergenz mit dem Original von BDI-II-V.1 und .2 realisieren lassen, die damit inferenzstatistisch abgesichert gewesen wären. Unter Verwendung der zusammengefassten Auswertung von BDI-II-V in der Gesamtstichprobe wäre die Variante des BDI-II-V (1 vs. 2) die Gruppierungsvariable gewesen. So hätte zum Beispiel die latente Korrelation zwischen den Faktoren von BDI-II und BDI-II-V in beiden Stichproben auf Gleichheit getestet und damit die Frage beantwortet werden können, ob das BDI-II-V.1 signifikant höher mit dem BDI-II korreliert als das BDI-II-V.2.Z oder ob es sich bei der gefundenen höheren latenten Korrelation um einen rein zufälligen, augenscheinlichen Unterschied handelt. Die Zuverlässigkeit der Schlussfolgerungen aus dieser Untersuchung ist zudem durch Unterschiede zwischen den Stichproben beeinträchtigt, deren Auswirkungen nicht abzuschätzen sind. Die Teilstichproben unterschieden sich leicht in Bezug auf das depressive Niveau und differierten ebenso ein wenig im Bereich der soziodemographischen Zusammensetzung. Darüber hinaus bleibt die Arbeit eine sichere Antwort auf die Ursache der durchgängig niedrigeren Trennschärfen der Items des BDI-II-V.2 schuldig. 6.2.6 Modellgütebeurteilung und Interpretation der Modelle Modellgüteindizes sind neben der Güte der Modellspezifikation auch abhängig von der Stichprobengröße, von der Verteilung der Daten, dem verwendeten Schätzer und der Modellkomplexität und sind daher immer im Lichte dieser Umstände zu bewerten (Brown, 2006). Neben der suboptimalen Verteilung der Daten, auf die bereits eingegangen wurde, könnte der verwendete Schätzalgorithmus ein Problem dargestellt haben. Die Cut-Off-Kriterien, die bei der Beurteilung der Modellgüteindizes RMSEA, SRMR, CLI und TLI zu Grunde gelegt wurden und die sich hauptsächlich an den Empfehlungen von Hu und Bentler (1999) orientieren, wurden von den Autoren explizit unter Annahme einer Modellschätzung mit dem ML-Schätzer formuliert. Die konfirmatorischen Diskussion 169 Faktorenanalysen in dieser Arbeit wurden dagegen mit dem MLM-Schätzer durchgeführt. So könnte man die Frage stellen, ob die Modelle auf der Basis der Modellgüteindizes adäquat bewertet wurden. Zumindest für den Fall einer zu liberalen Bewertung kann jedoch relativierend hinzugefügt werden, dass der Fit immer dann mit einer MLSchätzung und den dabei ausgegebenen Güteindizes überprüft wurde, wenn die MLMSchätzung einen guten Fit nahegelegt hatte31. Insgesamt wurde möglicherweise zu viel Wert auf die Suche nach einem Modell, das die Struktur der Daten nach Maßgabe von χ2-Test und Fitindizes gut beschreiben würde, gelegt und in Folge dessen die tiefgründige Interpretation weiterer Aspekte der Modelle vernachlässigt. So wären sicher noch einige Schlussfolgerungen zur Beziehung der Fragebögen zueinander und den Ursachen für (schlechten) Modellfit aus der Ausprägung der Parameterschätzer oder Residualstatistiken ableitbar gewesen (vgl. Brown, 2006). 6.3 Fazit und Anregungen für weiterführende Untersuchungen Nach bisherigen Analysen steht mit dem vereinfachten BDI-II (BDI-II-V) ein reliables, valides und ökonomisches Instrument zur Erfassung von Depressivität in enger Anlehnung an die Kriterien des aktuellen Diagnostischen und Statistischen Manuals Psychischer Störungen (DSM-IV-TR) der American Psychiatric Association (2000) zur Verfügung. Für seine Konstruktvalidität sprechen neben hohen Korrelationen mit dem etablierten Original (BDI-II) auch hohe Korrelationen mit Neurotizismus und niedrige bis mittelhohe Korrelationen mit Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit. Auf der Ebene deskriptiver Maße entspricht das BDI-II-V gut dem Original, wenn die verkürzte Version auch etwas leichter ist. Mittels konfirmatorischer Faktorenanalysen konnte in der hier verwendeten Bevölkerungsstichprobe mit stark rechtsschief verteilter, niedriger durchschnittlicher Depressivität jedoch keine Messäquivalenz der beiden Inventare nachgewiesen werden. Je nach verwendeter Ausgestaltung des BDI-II-V wurden zwischen latenten Faktoren, die das BDI-II und das BDI-II-V repräsentierten, beachtliche Korrelationen von .91 bis .94 erzielt. Korrigierte Itemtrennschärfen und interne Konsistenz des BDI-II-V sind sogar noch etwas höher als die des Originals. 31 Mit Ausnahme der Modelle, die logarithmierte Daten verwendeten; die Interpretierbarkeit dieser Modelle ist jedoch ohnehin eingeschränkt und ihre Resultate bilden nicht die Basis inhaltlicher Schlussfolgerungen Diskussion 170 Es wurden vorläufig zwei Varianten des BDI-II-V, die sich in den Items zu den Symptomen Schlaf und Appetit unterscheiden, vorgeschlagen. Das BDI-II-V.1 fragt die Symptome jeweils in einem globalen Statement ab („Ich leide unter Schlafstörungen“ und „Mein Appetit ist anders als früher“), das BDI-II-V.2 formuliert zu den Symptombereichen je zwei Fragen, die Beschwerden in beide Richtungen erfassen, („Ich schlafe außergewöhnlich wenig“/“Ich schlafe außergewöhnlich viel“ und „Ich habe außergewöhnlich wenig Appetit“/“Ich habe außergewöhnlich viel Appetit“). In der Auswertung des BDI-II-V.2 wird dabei jeweils nur die höher bewertete der beiden Aussagen zu Schlaf und Appetit gezählt. Die beiden Varianten konnten zusammengefasst und gemeinsam als „BDI-II-V“ untersucht werden (s.o.); wurden aber auch getrennt analysiert und verglichen. Die Ergebnisse sprachen augenscheinlich für eine bessere Äquivalenz von BDI-II-V.1 und BDI-II als von BDI-II-V.2 und BDI-II sowie für bessere psychometrische Eigenschaften des BDI-II-V.1. Dieser Befund sollte wegen verschiedener Unklarheiten und teilweisen Unzulänglichkeiten der eingesetzten Methoden bis auf weiteres jedoch nicht generalisiert werden, sondern zunächst an neuen Stichproben überprüft werden. Schließlich wurden die erste (Hautzinger et al., 1994) und die zweite Auflage (Hautzinger et al., 2006) des deutschen Beck Depressionsinventars zusammen mit vereinfachten Varianten der Inventare, dem BDI-V (Schmitt & Maes, 2000) und dem hier vorgeschlagenen BDI-II-V parallelen Vergleichen ihrer Messeigenschaften unterzogen. Auf der Ebene deskriptiver Maße zeigte sich, dass die beiden Original-Auflagen und die beiden verkürzten Versionen jeweils sehr hoch korrelieren. Der Zusammenhang zwischen einem Original-BDI und dessen Verkürzung oder zwischen einem Original-BDI und der Verkürzung des jeweils anderen Originals ist etwas niedriger. Der Summenwert, den ein Proband im BDI-II erzielt, liegt durchschnittlich 1.2 Punkte höher als sein Ergebnis im BDI. Die vereinfachten BDIs sind etwas leichter als die Originale. Das BDI ist etwas weniger konsistent als das BDI-II und seine Items sind etwas weniger trennscharf. Interne Konsistenz und Itemtrennschärfe der vereinfachten Inventare sind höher als interne Konsistenz und Itemtrennschärfe der Original-BDIs. Konfirmatorische Faktorenanalysen mussten von dem Ziel, die inhaltliche Übereinstimmung der Verfahren in einem Modell essentiell τ-paralleler Variablen nachzuweisen, abrücken. Es zeigte sich, dass das Zusammenhangsmuster zwischen den vier Versionen des BDI neben inhaltlichen Aspekten sehr deutlich durch die Unterschiede in der Skalierung zwischen Originalen Diskussion 171 und Verkürzungen geprägt war. So erzielte ein Modell, das die Zusammenhänge zwischen den Inventaren auf eine latente Dimension Depressivität zurückführte, erst perfekten Fit, nachdem die unterschiedliche Skalierung in Form eines Methodenfaktors im Modell berücksichtigt wurde. Die Analyse führte zu dem Schluss, dass die wahren Werte eines Originals und einer vereinfachten Version in Folge der Skalierungsunterschiede nicht perfekt übereinstimmen, wenn auch der Einfluss der Skalierung nur mäßig ausgeprägt ist. Die Konvergenz von Originalen und Verkürzungen übersteigt die Spezifität der verkürzten Versionen um mehr als das Vierfache. Insgesamt konnte diese Arbeit einige vorläufige Resultate zu den Messeigenschaften eines Vorschlages für ein verkürztes BDI-II (BDI-II-V) sowie zur Konvergenz des BDI-II-V mit dem Original und zur Konvergenz von vier verschiedenen Versionen des Beck Depressionsinventars erzielen. Auf viele Fragen konnte keine zufriedenstellende Antwort gefunden werden. Zudem ergaben sich im Laufe der Auswertungen neue Fragen, die zur Fortsetzung der Analysen anregen. Auf dieser Grundlage werden abschließend mögliche nächste Schritte in der Weiterentwicklung und Evaluation des BDI-II-V dargestellt. Weitere Belege für die Konstruktvalidität des BDI-II-V würden seinen Wert steigern. Die konvergente Validität sollte vor allem über hohe Korrelationen mit etablierten Depressionsmaßen über das BDI-II hinaus nachgewiesen werden, im klinischen Kontext sollte die Konvergenz des BDI-II-V mit der Diagnostik durch Experten überprüft werden (vgl. Schmitt et al., 2003). Natürlich bieten sich zur Validierung noch weitere Konstrukte an, von denen eine deutliche positive (zum Beispiel Angst, vgl. Hautzinger et al., 2006) oder negative (zum Beispiel Lebensqualität oder Selbstwertgefühl, vgl. Hautzinger et al., 2006) Assoziation mit Depressivität bekannt ist. Theorien und Vorbefunden entsprechend niedrige Korrelationen mit der Depression unverwandten Konstrukten (diskriminante Validität) würden das Bild der Konstruktvalidität abrunden. Zu Variablen, mit denen sich regelmäßig geringe Zusammenhänge ergeben, gehören zum Beispiel das Alter (vgl. Hautzinger et al., 2006) und das Geschlecht (vgl. Schmitt & Maes, 2000). Die wichtigste Verbesserung und Erweiterung gegenüber der vorliegenden Arbeit bestünde darin, für weitere Analysen des BDI-II-V Stichproben einzusetzen, die auch klinisch depressive Patienten umfassen. Idealerweise setzen sich die Stichproben aus An- Diskussion 172 teilen gesunder Probanden und Anteilen erkrankter Probanden zusammen. So dürften zum einen die bestmöglichen Verteilungseigenschaften der Daten resultieren. Zum anderen ist nur durch die Untersuchung von Patientenstichproben eine Generalisierung der Ergebnisse auf den klinischen Kontext möglich, was für einen Depressionsfragebogen essentiell ist. Die Modelle, die in dieser Arbeit perfekten Fit erzielten, jedoch auf explorativem Vorgehen beruhten, müssen sich in neuen Untersuchungen bewähren, bevor sie als gültig angenommen werden dürfen. Dies gilt sowohl für die Modelle zur Überprüfung der Konvergenz von BDI-II und BDI-II-V, die die Korrelation der latenten Faktoren frei schätzten, wie auch für das Gesamtmodell, das alle BDIs auf eine latente Dimension Depressivität zurückführte und zusätzlich einen Methodenfaktor modellierte, um Konsistenz und Methodenspezifität abzuschätzen. Modelle höherer Stufen der Äquivalenz respektive Modelle mit strengeren Annahmen zur Entsprechung der Inventare, wie sie sich in dieser Arbeit zumindest nach Maßgabe des χ2-Tests und des RMSEA nicht akzeptieren ließen, könnten erneut überprüft werden, wenn Daten gewonnen werden können, die bessere Verteilungseigenschaften aufweisen als in dieser Untersuchung. Durch den Einsatz von Stichproben, die sich aus Bevölkerungs- und klinischen Stichproben depressiver Patienten zusammensetzen, ließe sich die Varianz in den Daten erhöhen und vermutlich die deutliche Rechtsschiefe der Verteilung reduzieren sowie Bodeneffekte relativieren. Im Rahmen der Überprüfung der Messäquivalenz in Modellen konfirmatorischer Faktorenanalysen sollte auch der Vergleich von verschiedenen Ausgestaltungen der Items zu Schlaf und Appetit fortgesetzt werden, damit eine Entscheidung über eine endgültige Version des BDI-II-V getroffen werden kann. Die Schlaf- und Appetit-Items des BDI-II-V.2 haben sich in dieser Arbeit scheinbar nicht bewährt. Es könnte überprüft werden, ob sich die Resultate mit den hier verwendeten Items des BDI-II-V.2 replizieren lassen oder eher davon ausgegangen werden muss, dass die Ergebnisse dieser Studie zufälligen Schwankungen oder Stichprobenbesonderheiten zuzuschreiben sind. Besser wäre es jedoch, bei einer neuerlichen Untersuchung direkt Veränderungen der Schlafund Appetit-Items des BDI-II-V.2 vorzunehmen, da davon auszugehen ist, dass die ursprüngliche Gestaltung gewisse Nachteile hat. Eine Option bestünde darin, mittels Instruktionen oder Filterfragen zu jedem Symptom nur eines der beiden Statements be- Diskussion 173 werten zu lassen (außergewöhnlich viel oder außergewöhnlich wenig). Eine andere Möglichkeit wäre eine Umformulierung der Items, die sie dem Original näher bringt: „Ich habe weniger als sonst geschlafen“/“Ich habe mehr als sonst geschlafen“ und „Ich hatte weniger Appetit als sonst“/„Ich hatte mehr Appetit als sonst“. In jedem Falle sollten für die Analysen Methoden gewählt werden, die eine inferenzstatistische Absicherung der Befunde erlauben. Möglicherweise wären konfirmatorische Faktorenanalysen für zwei Gruppen oder konfirmatorische Faktorenanalysen mit Kovariaten dafür geeignet. Liegt ein Vorschlag für eine endgültige Version des BDI-II-V vor, dessen Messäquivalenz mit dem Original hinreichend belegt werden konnte, wäre eine Untersuchung des Inventars in einer bevölkerungsrepräsentativen Stichprobe wichtig, um psychometrische Kennwerte und Normwerte auf einer angemessenen Basis feststellen zu können (vgl. Schmitt, Altstötter-Gleich, Hinz, Maes & Brähler, 2006). Damit das BDI-II-V auch im klinischen Kontext eine Alternative an der Seite des BDI-II darstellen kann, müssten parallel weitere Belege erbracht werden. Es stünden Überprüfungen an, ob das BDI-II-V valide und dem BDI-II äquivalent gesunde Probanden von klinisch depressiven Patienten trennt und auch zwischen klinischen Gruppen, zum Beispiel zwischen Angst-, Zwangs- und Depressionspatienten, entsprechend diskriminiert (vgl. Schmitt et al., 2003). Es wäre darüber hinaus zu belegen, dass das Inventar eine ausreichende, dem Original mindestens entsprechende Änderungssensitivität besitzt, da es sonst nicht in Verlaufsstudien einsetzbar wäre. Zudem sollten, dem BDI-II entsprechend, Schwellenwerte ermittelt werden, nach denen der Schweregrad depressiver Symptome (bei diagnostizierter depressiver Störung) eingestuft werden kann (vgl. Hautzinger et al., 2006). Abbildungsverzeichnis 174 Abbildungsverzeichnis Abbildung 1 Klassifikation der Affektiven Störungen nach DSM-IV-TR .................. 19 Abbildung 2 Modell essentiell τ-paralleler Variablen des BDI-II und BDI-II-V ........ 87 Abbildung 3 Modell mit perfekter latenter Korrelation zwischen BDI-II und BDI-II-V .................................................................................................. 89 Abbildung 4 Modell essentiell τ-paralleler Variablen des BDI, BDI-V, BDI-II und BDI-II-V ........................................................................................... 90 Abbildung 5 Modell mit perfekter latenter Korrelation zwischen BDI, BDI-V, BDI-II und BDI-II-V ............................................................................... 91 Abbildung 6 Modell des BDI, BDI-V, BDI-II und BDI-II-V mit Methodenfaktor ....................................................................................... 96 Abbildung 7 Verteilung der Probanden der Analysestichprobe mit dem Umfang N = 325 auf verschiedene Altersgruppen .............................................. 117 Abbildung 8 Häufigkeitsverteilung der Summenwerte des BDI-II-V (N = 325) ...... 123 Abbildung 9 Screeplot der Faktoreigenwerte einer Hauptachsenanalyse der Items des BDI-II-V ............................................................................... 126 Abbildung 10 Vollständig standardisierte Modellparameter für das Modell essentiell τ-paralleler Variablen des BDI-II und BDI-II-V. Der Modellfit ist nicht zufriedenstellend. .................................................... 132 Abbildung 11 Vollständig standardisierte Modellparameter für die Modelle mit fixierter perfekter Korrelation (obere Werte) und mit frei geschätzter Korrelation (untere Werte) zwischen den latenten Variablen des BDI-II und BDI-II-V. Das Modell mit fixierter Korrelation weist keinen vollständig zufriedenstellenden Fit auf. Das Modell mit frei geschätzter Korrelation fittet perfekt. ................... 134 Abbildung 12 Vollständig standardisierte Modellparameter für die Modelle mit frei geschätzter Korrelation zwischen BDI-II und BDI-II-V.1 (obere Werte), BDI-II-V.2Z (mittlere Werte) sowie BDI-II-V.2 (untere Werte). Die Modelle fitten perfekt. .......................................... 142 Abbildung 13 Vollständig standardisierte Modellparameter für das Modell τkongenerischer Variablen des BDI, BDI-V, BDI-II und BDI-II-V. Der Modellfit ist nicht zufriedenstellend. ............................................. 145 175 Abbildung 14 Vollständig standardisierte Modellparameter für ein Modell des BDI, BDI-V, BDI-II und BDI-II-V mit Methodenfaktor. λ22 und λ42 wurden in der unstandardisierten Lösung gleichgesetzt. Das Modell fittet perfekt. ............................................................................. 148 Tabellenverzeichnis 176 Tabellenverzeichnis Tabelle 1 Beispiele für Items des BDI und entsprechende Items des BDI-V ......... 40 Tabelle 2 Beispiele für Items des BDI-II und entsprechende Items des BDI-II-V .................................................................................................. 51 Tabelle 3 Die Items Veränderungen der Schlafgewohnheiten und Veränderungen des Appetits des BDI-II und entsprechende Items des BDI-II-V ........................................................................................... 53 Tabelle 4 Übersicht über die Modellgleichungen der Klassischen Testtheorie ...... 66 Tabelle 5 Mögliche Reihenfolgen (Rotationen) der BDI-Versionen in den Untersuchungsmaterialien ....................................................................... 84 Tabelle 6 Indizes zur Beurteilung der Modellgüte und Grenzwerte, wie sie der Modellgütebeurteilung in dieser Arbeit zu Grunde gelegt wurden ................................................................................................... 102 Tabelle 7 Alle verwendeten Versionen und Auswertungen des BDI im Überblick ............................................................................................... 106 Tabelle 8 Korrigierte Trennschärfen und Cronbach’s α für alle eingesetzten Varianten des BDI in der Gesamtstichprobe und den beiden Teilstichproben ...................................................................................... 121 Tabelle 9 Itemmittelwerte und Itemstandardabweichungen für das BDI-II-V, BDI-II-V.1, BDI-II-V.2.Z und BDI-II-V.2 ........................................... 124 Tabelle 10 Partielle standardisierte Regressionsgewichte der Items des BDI-II-V mit den beiden extrahierten Faktoren einer Hauptachsenanalyse nach Promax-Rotation. ........................................ 127 Tabelle 11 Produkt-Moment-Korrelationen verschiedener BDI-Formen mit den Skalen des NEO-FFI ...................................................................... 128 Tabelle 12 Korrelation zwischen BDI-II und BDI-II-V, zwischen BDI-II.1 und BDI-II-V.1 sowie zwischen BDI-II.2 und BDI-II-V.2/.Z auf der Ebene der Items und der Summenwerte.......................................... 130 Tabelle 13 Fitstatistiken für Modelle mit frei geschätzter latenter Korrelation sowie auf 1.0 fixierter latenter Korrelation zwischen BDI-II und BDI-II-V.1, BDI-II-V.2Z sowie BDI-II-V.2 ......................................... 141 Tabelle 14 Korrelation der Summenwerte von BDI, BDI-V, BDI-II und BDI-II-V ................................................................................................ 143 Tabellenverzeichnis Tabelle 15 177 Veränderungen der Items des BDI-II gegenüber dem BDI in der deutschsprachigen Version und Bezug der Items zu den Symptomkriterien (A-Kriterien) der Major Depression nach DSM-IV bzw. DSM-IV-TR .................................................................. 190 Tabelle 16 Direkter Vergleich aller Items der in dieser Untersuchung verwendeten Versionen des Beck Depressionsinventars und Bezug der Items zu den Symptomkriterien (A-Kriterien) der Major Depression nach DSM-IV bzw. DSM-IV-TR ....................................... 193 Tabelle 17 Verteilung soziodemographischer Merkmale in Gesamt- und Substichproben ...................................................................................... 222 Tabelle 18 Direkte Gegenüberstellung der Summenwerte aller verwendeten Varianten des BDI in der reskalierten und nicht-reskalierten Fassung für die verkürzten Versionen in der Gesamtstichprobe und den Teilstichproben 1 und 2 .................................................................. 225 Tabelle 19 Verteilung der Items auf die Parcels der Modelle zur parallelen Analyse jeweils von BDI-II und BDI-II-V, BDI-II.1 und BDI-II-V.1, BDI-II.2 und BDI-II-V.2.Z sowie BDI-II.2 und BDI-II-V-.2 ........................................................................................... 226 Tabelle 20 Verteilung der Items auf die Parcels der Modelle zur parallelen Analyse von BDI, BDI-V, BDI-II und BDI-II-V .................................. 227 Tabelle 21 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V ................................. 228 Tabelle 22 Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V dienten ......................................................... 229 Tabelle 23 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und und BDI-II-V.1 ....................... 229 Tabelle 24 Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.1 dienten ...................................................... 229 178 Tabelle 25 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.2.Z .......................... 230 Tabelle 26 Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.2.Z dienten................................................... 230 Tabelle 27 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.2 .............................. 230 Tabelle 28 Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.2 dienten ...................................................... 230 Tabelle 29 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI, BDI-V, BDI-II und BDI-II-V ........... 231 Tabelle 30 Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI, BDI-V, BDI-II und BDI-II-V dienten ................................... 232 Literaturverzeichnis 179 Literaturverzeichnis American Psychiatric Association. (1980). Diagnostic and Statistical Manual of Mental Disorders. Third Edition. Washington, DC: American Psychiatric Association. American Psychiatric Association. (1994). Diagnostic and Statistical Manual of Mental Disorders. Fourth Edition. Washington, DC: American Psychiatric Association. American Psychiatric Association. (2000). Diagnostic and Statistical Manual of Mental Disorders. Fourth Edition. Text Revision. Washington, DC: American Psychiatric Association. Beck, A. T., Rush, A. J., Shaw, B. F. & Emery, G. (1979). Cognitive therapy of depression. New York: The Guilford Press. Beck, A. T. & Steer, R. A. (1987). Beck Depression Inventory. Manual. San Antonio, TX: The Psychological Corporation. Beck, A. T., Steer, R. A. & Brown, G. K. (1996). Beck Depression Inventory. Second Edition. Manual. San Antonio, TX: The Psychological Corporation. Beck, A. T., Ward, C. H., Mendelson, M., Mock, J. & Erbaugh, J. (1961). An Inventory for Measuring Depression. Archives of General Psychiatry, 4, 561 - 571. Bentler, P. M. (1990). Comparative fit indexes in structural models. Psychological Bulletin, 107(2), 238-246. Bienvenu, O. J., Samuels, J. F., Costa, P. T., Reti, I. M., Eaton, W. W. & Nestadt, G. (2004). Anxiety and depressive disorders and the five-factor model of personality: A higher- and lower-order personality trait investigation in a community sample. Depression and Anxiety, 20, 92-97. Blaser, P., Löw, D. & Schäublin, A. (1968). Die Messung der Depressionstiefe mit einem Fragebogen. Psychiatria clinica, 1(5), 299-319. Borkenau, P. & Ostendorf, F. (1993). NEO-Fünf-Faktoren Inventar (NEO-FFI) nach Costa und McCrae. Handanweisung. Göttingen: Hogrefe. Literaturverzeichnis 180 Borkenau, P. & Ostendorf, F. (2008). NEO-FFI. NEO-Fünf-Faktoren-Inventar nach Costa und McCrae. Manual (2., neu normierte und vollständig überarbeitete Aufl.). Göttingen: Hogrefe. Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6., vollständig überarbeitete und aktualisierte Aufl.). Heidelberg: Springer. Bramesfeld, A. & Stoppe, G. (2006). Einführung. In G. Stoppe, A. Bramesfeld & F.-W. Schwartz (Hrsg.), Volkskrankheit Depression? Bestandsaufnahme und Perspektiven (S. 1-12). Berlin: Springer. Brown, T. A. (2006). Confirmatory factor analysis for applied research. New York: The Guilford Press. Browne, M. W. & Cudeck, R. (1993). Alternative ways of assessing model fit. In K. A. Bollen & J. S. Long (Hrsg.), Testing structural equation models (S. 136-162). Newbury Park, CA: Sage. Bühl, A. (2010). PASW 18. Einführung in die moderne Datenanalyse (12., aktualisierte Aufl.). München: Pearson Studium. Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion (2., aktualisierte Aufl.). München: Pearson Studium. Byrne, B. M., Stewart, S. M., Kennard, B. D. & Lee, P. W. H. (2007). The Beck Depression Inventory-II: Testing for measurement equivalence and factor mean differences across Hong Kong and American adolescents. International Journal of Testing, 7(3), 293-309. Campbell, D. T. & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56(2), 81-105. CIPS (Collegium Internationale Psychiatriae Scalarum) (Hrsg.). (1996). Internationale Skalen für Psychiatrie (4., überarbeitete und erweiterte Aufl.). Göttingen: Beltz Test. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. Aufl.). Hillsdale, NJ: Erlbaum. Literaturverzeichnis 181 Costa, P. T., Bagby, R. M., Herbst, J. H. & McCrae, R. R. (2005). Personality selfreports are concurrently reliable and valid during acute depressive episodes. Journal of Affective Disorders, 89, 45-55. Costa, P. T. & McCrae, R. R. (1992). Revised NEO Personality Inventory (NEO-PI-R) and NEO Five Factor Inventory (NEO-FFI). Professional manual. Odessa, FL: Psychological Assessment Resources. Cronbach, L. J. & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281-302. Curran, P. J., West, S. G. & Finch, J. F. (1996). The robustness of test statistics to nonnormality and specification error in confirmatory factor analysis Psychological Methods, 1(1), 16-29. DeNeve, K. M. & Cooper, H. (1998). The happy personality: A meta-analysis of 137 personality traits and subjective well-being. Psychological Bulletin, 124(2), 197229. Dilling, H., Mombour, W. & Schmidt, M. H. (Hrsg.). (2010). Internationale Klassifikation psychischer Störungen. ICD-10 Kapitel V (F). Klinischdiagnostische Leitlinien (7., überarbeitete Aufl.). Bern: Huber. Dozois, D. J. A., Dobson, K. S. & Ahnberg, J. L. (1998). A psychometric evaluation of the Beck Depression Inventory-II. Psychological Assessment, 10(2), 83-89. Duggan, C., Sham, P., Lee, A., Minne, C. & Murray, R. (1995). Neuroticism: a vulnerability marker for depression evidence from a familiy study. Journal of Affective Disorders, 35, 139-143. Eid, M. (2000). A multitrait-multimethod model with minimal assumptions. Psychometrika, 65(2), 241-261. Eid, M., Gollwitzer, M. & Schmitt, M. (2010). Statistik und Forschungsmethoden. Weinheim: Beltz. Eid, M., Lieschetzke, T. & Nussbeck, F. W. (2006). Structural equation models for multitrait-multimethod data. In M. Eid & E. Diener (Hrsg.), Handbook of Literaturverzeichnis 182 multimethod measurement in psychology. Washington, DC: American Psychological Association. Fabian-Krause, T. (2011). Einflüsse des zeitlichen Bezugsrahmens auf Angaben zur eigenen depressiven Befindlichkeit Teil 2. Unveröffentlichte Diplomarbeit, Universität Landau. Gastpar, M. (2006). Depression und Komorbidität. In G. Stoppe, A. Bramesfeld & F.W. Schwartz (Hrsg.), Volkskrankheit Depression? Bestandsaufnahme und Perspektiven (S. 277-286). Berlin: Springer. Gollwitzer, M. & Jäger, R. S. (2007). Evaluation. Workbook. Weinheim: Beltz. Gulliksen, H. (1950). Theory of mental tests. New York: Wiley. Han, K., Burns, G. N., Weed, N. C., Hatchett, G. T. & Kurokawa, N. K. S. (2009). Evaluation of an observer form of the coping inventory for stressful sitiations. Educational and Psychological Measurement, 69(4), 675-695. Hautzinger, M. (2010). Akute Depression. Göttingen: Hogrefe. Hautzinger, M. & Bailer, M. (1993). ADS. Allgemeine Depressions Skala. Manual. Göttingen: Beltz Test. Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1994). Beck-Depressions-Inventar (BDI) (1. Aufl.). Bern: Verlag Hans Huber. Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar (BDI). Testhandbuch (2., überarbeitete Aufl.). Bern: Verlag Hans Huber. Hautzinger, M., Keller, F. & Kühner, C. (2006). BDI-II. Beck Depressions-Inventar. Revision. Manual. Frankfurt am Main: Harcourt Test Services GmbH. Hautzinger, M. & Meyer, T. D. (2002). Diagnostik Affektiver Störungen. Göttingen: Hogrefe. Heckmann, N. (2008). Einflüsse des zeitlichen Bezugsrahmens auf Angaben zur eigenen depressiven Befindlichkeit. Unveröffentlichte Diplomarbeit, Universität Landau. Literaturverzeichnis 183 Hox, J. (2002). Multilevel Analysis. Techniques and Applications. Mahwah: Lawrence Erlbaum Associates. Hu, L. & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling, 6(1), 1-55. Jacobi, F., Wittchen, H.-U., Hölting, C., Höfler, M., Pfister, H., Müller, N. et al. (2004). Prevalence, co-morbidity and correlates of mental disorders in the general population: results from the German Health Interview and Examination Survey (GHS). Psychological Medicine, 34(4), 597-611. Kendler, K. S. & Myers, J. (2010). The genetic and environmental relationship between major depression and the five-factor model of personality. Psychological Medicine, 40, 801-806. Klein, M. H., Wonderlich, S. & Shea, M. T. (1993). Models of relationships between personality and depression: Toward a framework for theory and research. In M. H. Klein, D. J. Kupfer & M. T. Shea (Hrsg.), Personality and depression. A current view (S. 1-54). New York: Guilford Press. Kronmüller, K.-T. & Mundt, C. (2006). Persönlichkeit, Persönlichkeitsstörungen und Depression. Der Nervenarzt, 77(7), 863-878. Kubinger, K. D. (2003). Gütekriterien. In K. D. Kubinger & R. S. Jäger (Hrsg.), Schlüsselbegriffe der Psychologischen Diagnostik (S. 195-204). Weinheim: Beltz. Kühner, C., Bürger, C., Keller, F. & Hautzinger, M. (2007). Reliabilität und Validität des revidierten Beck-Depressionsinventars (BDI-II). Befunde aus deutschsprachigen Stichproben. Der Nervenarzt, 78(6), 651-656. Laux, G. (2009). Affektive Störungen. In H.-J. Möller, G. Laux & A. Deister (Hrsg.), Psychiatrie und Psychotherapie (4., vollständig überarbeitete und erweiterte Aufl., S. 76-110). Stuttgart: Thieme. Literaturverzeichnis 184 Lederbogen, F. (2006). Körperliche Komorbidität. In G. Stoppe, A. Bramesfeld & F.W. Schwartz (Hrsg.), Volkskrankheit Depression? Bestandsaufnahme und Perspektiven (S. 257-276). Berlin: Springer. Little, T. D., Cunningham, W. A., Shahar, G. & Widaman, K. F. (2002). To parcel or not to parcel: Exploring the question, weighing the merits. Structural Equation Modeling, 9(2), 151-173. Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley. MacCallum, R. C., Browne, M. W. & Sugawara, H. M. (1996). Power analysis and determination of sample size for covariance structure modeling. Psychological Methods, 1(2), 130-149. Meade, A. W. & Kroustalis, C. M. (2006). Problems with item parceling for confirmatory factor analytic tests of measurement invariance. Organizational Research Methods, 9(3), 369-403. Meyer, T. D. (2002). The Hypomanic Personality Scale, the Big Five, and their relationship to depression and mania. Personality and Individual Differences, 32, 649-660. Moosbrugger, H. (2007a). Item-Response-Theorie (IRT). In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 215-259). Heidelberg: Springer. Moosbrugger, H. (2007b). Klassische Testtheorie (KTT). In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 99-112). Heidelberg: Springer. Muthén, L. K. & Muthén, B. O. (1998-2010). Mplus User's Guide. Sixth Edition. Los Angeles, CA: Muthén & Muthén. Nussbeck, F. W., Eid, M., Geiser, C., Courvoisier, D. S. & Cole, D. A. (2007). Konvergente und diskriminante Validität über die Zeit: Integration von Multitrait-Multimethod-Modellen und der Latent-State-Trait-Theorie. In H. Literaturverzeichnis 185 Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 361-387). Heidelberg: Springer. Nye, C. D., Newman, D. A. & Joseph, D. L. (2010). Never say "always"? Extreme item wording effects on scalar invariance and item response curves. Organizational Research Methods, 13(4), 806-830. O'Connor, B. P. (2000). SPSS, SAS, and MATLAB programs for determining the number of components and factors using parallel analysis and Velicer's MAP test. Abgerufen am 24.09.2011. Verfügbar unter https://people.ok.ubc.ca/brioconn/nfactors/nfactors.html Organisation mondiale de la Santé (2001). Rapport sur la santé dans le monde 2001: La santé mentale: nouvelle conception, nouveaux espoirs. Abgerufen am 17.12.2011. Verfügbar unter http://www.who.int/whr/previous/fr Ostendorf, F. & Angleitner, A. (2004). NEO-PI-R. NEO-Persönlichkeitsinventar nach Costa und McCrae. Revidierte Fassung. Göttingen: Hogrefe. Richter, P. (1991). Zur Konstruktvalidität des Beck-Depressionsinventars (BDI) bei der Erfassung depressiver Verläufe. Ein empirischer und methodologischer Beitrag. Regensburg: S. Roderer. Rosellini, A. J. & Brown, T. A. (2011). The NEO Five-Factor Inventory: Latent structure and relationships with dimensions of anxiety and depressive disorders in a large clinical sample. Assessment, 18(1), 27-39. Saß, H., Wittchen, H.-U. & Zaudig, M. (1996). Diagnostisches und Statistisches Manual Psychischer Störungen DSM-IV. Göttingen: Hogrefe. Saß, H., Wittchen, H.-U., Zaudig, M. & Houben, I. (2003). Diagnostisches und Statistisches Manual Psychischer Störungen. Textrevision. DSM-IV-TR. Göttingen: Hogrefe. Satorra, A. & Bentler, P. M. (1994). Corrections to the test statistics and standard errors in covariance structure analysis. In A. v. Eye & C. C. Clogg (Hrsg.), Latent Literaturverzeichnis 186 variable analysis: Applications for developmental research (S. 399-419). Thousand Oaks, CA: Sage. Schendera, C. F. (2007). Datenqualität mit SPSS. München: Oldenbourg. Schermelleh-Engel, K., Kelava, A. & Moosbrugger, H. (2006). Gütekriterien. In F. Petermann & M. Eid (Hrsg.), Handbuch der Psychologischen Diagnostik (S. 420-433). Göttingen: Hogrefe. Schermelleh-Engel, K. & Schweizer, K. (2007). Multitrait-Multimethod-Analysen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 325-341). Heidelberg: Springer. Schermelleh-Engel, K. & Werner, C. (2007). Methoden der Reliabilitätsbestimmung. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 113-133). Heidelberg: Springer. Schmitt, M., Altstötter-Gleich, C., Hinz, A., Maes, J. & Brähler, E. (2006). Normwerte für das Vereinfachte Beck-Depressions-Inventar (BDI-V) in der Allgemeinbevölkerung. Diagnostica, 52(2), 51-59. Schmitt, M., Beckmann, M., Dusi, D., Maes, J., Schiller, A. & Schonauer, K. (2003). Messgüte des vereinfachten Beck-Depressions-Inventars (BDI-V). Diagnostica, 49(4), 147-156. Schmitt, M. & Maes, J. (2000). Vorschlag zur Vereinfachung des Beck-DepressionsInventars (BDI). Diagnostica, 46(1), 38-46. Schmitt, M., Maes, J. & Seiler, U. (2001). Meßäquivalenz und strukturelle Invarianz von Indikatoren der seelischen Gesundheit bei Ost- und Westdeutschen. Zeitschrift für Differentielle und Diagnostische Psychologie, 22(2), 87-99. Stamm, K. & Salize, H.-J. (2006). Volkswirtschaftliche Konsequenzen. In G. Stoppe, A. Bramesfeld & F.-W. Schwartz (Hrsg.), Volkskrankheit Depression? Bestandsaufnahme und Perspektiven (S. 109-120). Berlin: Springer. Stevens, J. P. (2002). Applied multivariate statistics for the social sciences (4. Aufl.). Mahwah: Lawrence Erlbaum Associates. 187 Steyer, R. & Eid, M. (2001). Messen und Testen (2., korrigierte Aufl.). Berlin: Springer. Trull, T. J. & Sher, K. J. (1994). Relationship between the five-factor model of personality and axis I disorders in a nonclinical sample. Journal of Abnormal Psychology, 103(2), 350-360. West, S. G., Finch, J. F. & Curran, P. J. (1995). Structural equation models withnonnormal variables: Problems and remedies. In R. H. Hoyle (Hrsg.), Structural equation modeling. Concepts, issues, and applications (S. 56-75). Thousand Oaks: Sage. Widaman, K. F. (1985). Hierarchically nested covariance structure models for multitrait-multimethod data. Applied Psychological Measurement, 9(1), 1-26. Wirtz, M. & Nachtigall, C. (2002). Deskriptive Statistik. Statistische Methoden für Psychologen. Teil 1 (2., überarbeitete und erweiterte Aufl.). Weinheim: Juventa. Wittchen, H.-U. & Jacobi, F. (2005). Size and burden of mental disorders in Europe - a critical review and appraisal of 27 studies. European Neuropsychopharmacology, 15(4), 357-376. Wittchen, H.-U. & Jacobi, F. J. (2006). Epidemiologie. In G. Stoppe, A. Bramesfeld & F.-W. Schwartz (Hrsg.), Volkskrankheit Depression? Bestandsaufnahme und Perspektiven. Berlin: Springer. Zielke, M. & Limbacher, K. (2004). Fehlversorgung psychischer Erkrankungen. Abgerufen am 18.12.2011. Verfügbar unter http://www.presse.dak.de/ps.nsf/sbl/828702540CEDD7A3C1256EAE00447AF A?open Eidesstattliche Erklärung 188 Eidesstattliche Erklärung Hiermit versichere ich gemäß § 18 Abs. 8 der Diplomprüfungsordnung Psychologie der Universität Koblenz-Landau, Campus Landau, in der Fassung vom 18.02.1993, dass ich diese Arbeit selbstständig verfasst und keine anderen als die angegebenen Hilfsmittel und Quellen benutzt habe. Die Arbeit hat in gleicher oder ähnlicher Form noch keinem anderen Prüfungsausschuss vorgelegen. Neustadt, im Januar 2012 Katharina Christine Fischer Anhang Anhang Anhang A: Tabellen zu den Items des Beck Depressionsinventars Anhang B: Untersuchungsmaterial Anhang B.1: Instruktion der Teilnehmer Anhang B.2: Eingesetzte Fragebögen Anhang B.3: Angaben zur Person Anhang B.4: Gewinnspielpostkarte und Rücksendeumschlag Anhang C: Zusätzliche Ergebnistabellen 189 Anhang 190 Anhang A: Tabellen zu den Items des Beck Depressionsinventars Tabelle 15 Veränderungen der Items des BDI-II gegenüber dem BDI in der deutschsprachigen Version und Bezug der Items zu den Symptomkriterien (A-Kriterien) der Major Depression nach DSM-IV bzw. DSM-IV-TR BDI II Item♠ 1. Traurigkeit Veränderungen gegenüber dem entspre- Zugehöriges Symptomkriterium der Major chenden Item des BDI♣ Depression nach DSM-IV bzw. DSM-IV-TR♥♦ drei Antwortalternativen verändert A1. depressive Verstimmung (zwei leicht, eine deutlich)● 2. Pessimismus vier Antwortalternativen verändert A1. depressive Verstimmung (eine leicht, drei deutlich) ● 3. Versagensgefühle zwei Antwortalternativen verändert A7. Wertlosigkeit/unangemessene Schuldgefühle (eine leicht, eine deutlich) ● 4. Verlust von Freude drei Antwortalternativen verändert A2. Interessen-/Freudeminderung (eine leicht, zwei deutlich) ● 5. Schuldgefühle vier Antwortalternativen verändert A7. Wertlosigkeit/unangemessene Schuldgefühle (drei leicht, eine deutlich) ● 6. Bestrafungsgefühle eine Antwortalternative verändert (eine leicht, keine deutlich) ● A7. Wertlosigkeit/unangemessene Schuldgefühle Anhang BDI II Item♠ 7. Selbstablehnung 191 Veränderungen gegenüber dem entspre- Zugehöriges Symptomkriterium der Major chenden Item des BDI♣ Depression nach DSM-IV bzw. DSM-IV-TR♥♦ vier Antwortalternativen verändert A7. Wertlosigkeit/unangemessene Schuldgefühle (vier deutlich, keine leicht) ● 8. Selbstvorwürfe vier Antwortalternativen verändert A7. Wertlosigkeit/unangemessene Schuldgefühle (vier deutlich, keine leicht) ● 9. Selbstmordgedanken keine Veränderung A9. Suizidalität 10. Weinen zwei Antwortalternativen verändert A1. depressive Verstimmung (zwei deutlich, keine leicht) ● 11. Unruhe neu im BDI-II A5. psychomotorische Unruhe/Verlangsamung 12. Interessenverlust vier Antwortalternativen verändert A2. Interessen-/Freudeminderung (vier deutlich, keine leicht) ● 13. Entschlussunfähigkeit drei Antwortalternativen verändert A8. Konzentrations- (drei deutlich, keine leicht) ● /Entscheidungsschwierigkeiten 14. Wertlosigkeit neu im BDI-II A7. Wertlosigkeit/unangemessene Schuldgefühle 15. Energieverlust neu im BDI-II A6. Erschöpfung/Energieverlust Anhang BDI II Item♠ 16. Veränderungen der Schlafgewohnheiten 192 Veränderungen gegenüber dem entspre- Zugehöriges Symptomkriterium der Major chenden Item des BDI♣ Depression nach DSM-IV bzw. DSM-IV-TR♥♦ vier Antwortalternativen verändert A4. Insomnie/Hypersomnie (vier deutlich, keine leicht) ●; drei neue Antwortalternativen zur Zunahme des Schlafs 17. Reizbarkeit drei Antwortalternativen verändert A1. depressive Verstimmung (drei deutlich, keine leicht) ● 18. Veränderungen des Appetits vier Antwortalternativen verändert A3. Gewichtszunah- (eine leicht, drei deutlich) ●; drei neue Antwort- me/-verlust/Appetitveränderung alternativen zu Steigerung des Appetits 19. Konzentrationsschwierigkeiten neu im BDI-II A8. Konzentrations/Entscheidungsschwierigkeiten 20. Ermüdung oder Erschöpfung vier Antwortalternativen verändert (vier deutlich, keine leicht) 21. Verlust an sexuellem Interesse vier Antwortalternativen verändert (drei deutlich, eine leicht) A6. Erschöpfung/Energieverlust ● A2. Interessen-/Freudeminderung ● Anmerkungen. ♠ (BDI-II: Hautzinger et al., 2006). ♣ (BDI: Hautzinger et al., 1994) ♥ DSM-IV (American Psychiatric Association, 1994, verwendet in der deutschen Übersetzung von Saß et al., 1996); DSM-IV-TR (American Psychiatric Association, 2000, verwendet in der deutschen Übersetzung von Saß et al., 2003); die Diagnosekriterien der Major Depression unterscheiden sich nicht zwischen den beiden Auflagen. ♦ entnommen aus Hautzinger et al. (2006, S. 9). ● leichte Veränderung = Austausch/Hinzufügen/Abändern eines oder weniger Worte, der Inhalt bleibt nahezu identisch. deutliche Veränderung = alle weiteren sprachlichen Veränderungen, z. B. vollständige Änderung der Formulierung Anhang Tabelle 16 193 Direkter Vergleich aller Items der in dieser Untersuchung verwendeten Versionen des Beck Depressionsinventars und Bezug der Items zu den Symptomkriterien (A-Kriterien) der Major Depression nach DSM-IV bzw. DSM-IV-TR Symptomkriterien der Major Depression nach DSM-IV ♠♣ bzw. DSM-IV-TR A1 Depressive Verstimmung, Traurigkeit, Hoffnungslosigkeit, Mutlosigkeit, Niedergeschlagenheit oder Gereiztheit, Ärger oder Schilderung körperlicher Beschwerden A1 Depressive Verstimmung, Traurigkeit, Hoffnungslosigkeit, Mutlosigkeit, Niedergeschlagenheit oder Gereiztheit, Ärger oder Schilderung körperlicher Beschwerden ♥ Benennung der Itemkategorie (BDI/BDI-II) BDI BDI-V Traurige Stimmung/ Traurigkeit 0 Ich bin nicht traurig. 1 Ich bin traurig. 2 Ich bin die ganze Zeit traurig und komme nicht davon los. 3 Ich bin so traurig oder unglücklich, dass ich es kaum noch ertrage. Pessimismus 0 Ich sehe nicht besonders mutlos in die Zukunft. 1 Ich sehe mutlos in die Zukunft. 2 Ich habe nichts, worauf ich mich freuen kann. 3 Ich habe das Gefühl, dass die Zukunft hoffnungslos ist, und dass die Situation nicht besser werden kann. ♦ ● BDI-II BDI-II-V Ich bin traurig. 0 1 2 3 Ich bin traurig. Ich sehe mutlos in die Zukunft. 0 Ich sehe nicht mutlos die Zukunft. 1 Ich sehe mutloser in die Zukunft als sonst. 2 Ich bin mutlos und erwarte nicht, dass meine Situation besser wird. 3 Ich glaube, dass meine Zukunft hoffnungslos ist und nur noch schlechter wird. Ich bin nicht traurig. Ich bin oft traurig. Ich bin ständig traurig. Ich bin so traurig oder unglücklich, dass ich es nicht aushalte. Ich sehe mutlos in die Zukunft. Anhang 194 ♥ Symptomkriterien der Major Depression nach DSM-IV ♠♣ bzw. DSM-IV-TR A1 Depressive Verstimmung, Traurigkeit, Hoffnungslosigkeit, Mutlosigkeit, Niedergeschlagenheit oder Gereiztheit, Ärger oder Schilderung körperlicher Beschwerden Benennung der Itemkategorie (BDI/BDI-II) BDI BDI-V Reizbarkeit A2 Verlust von Interesse oder Freude, Libidoverlust Unzufriedenheit/ Verlust von Freude 0 Ich bin nicht reizbarer als sonst. 1 Ich bin jetzt leichter verärgert oder gereizt als früher. 2 Ich fühle mich dauernd gereizt. 3 Die Dinge, die mich früher geärgert haben, berühren mich nicht mehr. 0 Ich kann die Dinge genauso genießen wie früher. 1 Ich kann die Dinge nicht mehr so genießen wie früher. 2 Ich kann aus nichts mehr eine echte Befriedigung ziehen. 3 Ich bin mit allem unzufrieden oder gelangweilt. ♦ ● BDI-II BDI-II-V Ich fühle mich gereizt und verärgert. 0 Ich bin nicht reizbarer als sonst. 1 Ich bin reizbarer als sonst. 2 Ich bin viel reizbarer als sonst. 3 Ich fühle mich dauernd gereizt. Ich fühle mich gereizt. Es fällt mir schwer, etwas zu genießen. 0 Ich kann die Dinge genauso gut genießen wie früher. 1 Ich kann die Dinge nicht mehr so genießen wie früher. 2 Dinge, die mir früher Freude gemacht haben, kann ich kaum mehr genießen. 3 Dinge, die mir früher Freude gemacht haben, kann ich überhaupt nicht mehr genießen. Es fällt mir schwer, etwas zu genießen. Anhang 195 ♥ ♦ Symptomkriterien der Major Depression nach DSM-IV ♠♣ bzw. DSM-IV-TR A2 Verlust von Interesse oder Freude, Libidoverlust Benennung der Itemkategorie (BDI/BDI-II) BDI BDI-V Libidoverlust/ Verlust an sexuellem Interesse Sex ist mir gleichgültig. A2 Verlust von Interesse oder Freude, Libidoverlust sozialer Rückzug und Isolierung/ Interessenverlust 0 Ich habe in letzter Zeit keine Veränderung meines Interesses an Sex bemerkt. 1 Ich interessiere mich weniger für Sex als früher. 2 Ich interessiere mich jetzt viel weniger für Sex. 3 Ich habe das Interesse an Sex völlig verloren. 0 Ich habe nicht das Interesse an Menschen verloren. 1 Ich interessiere mich jetzt weniger für Menschen als früher. 2 Ich habe mein Interesse an anderen Menschen zum größten Teil verloren. 3 Ich habe mein ganzes Interesse an anderen Menschen verloren. Mir fehlt das Interesse an Menschen. ● BDI-II BDI-II-V 0 Mein Interesse an Sexualität hat sich in letzter Zeit nicht verändert. 1 Ich interessiere mich weniger für Sexualität als früher. 2 Ich interessiere mich jetzt viel weniger für Sexualität. 3 Ich habe das Interesse an Sexualität völlig verloren. 0 Ich habe das Interesse an anderen Menschen oder an Tätigkeiten nicht verloren. 1 Ich habe weniger Interesse an anderen Menschen oder an Dingen als sonst. 2 Ich habe das Interesse an anderen Menschen oder an Dingen zum größten Teil verloren. 3 Es fällt mir schwer, mich überhaupt für irgend etwas zu interessieren. Ich habe kein Interesse an Sexualität. Es fällt mir schwer, mich für etwas zu interessieren. Anhang Symptomkriterien der Major Depression nach DSM-IV ♠♣ bzw. DSM-IV-TR A3 Verminderter Appetit, ggf. mit Gewichtsabnahme oder gesteigerter Appetit, ggf. mit Gewichtszunahme 196 ♥ ♦ ● Benennung der Itemkategorie (BDI/BDI-II) BDI BDI-V Appetitverlust/ Veränderungen des Appetits 0 Mein Appetit ist nicht schlechter als sonst. 1 Mein Appetit ist nicht mehr so gut wie früher. 2 Mein Appetit hat sehr stark nachgelassen. 3 Ich habe überhaupt keinen Appetit mehr. Ich habe keinen Appetit. BDI-II BDI-II-V 0 BDI-II-V-1: Mein Appetit ist anders als früher. 1a 1b 2a 2b 3a 3b A3 Verminderter Appetit, ggf. mit Gewichtsabnahme oder gesteigerter Appetit, ggf. mit ■ Gewichtszunahme Gewichtsverlust 0 Ich habe in letzter Zeit kaum abgenommen. 1 Ich habe mehr als 2 Kilo abgenommen. 2 Ich habe mehr als 5 Kilo abgenommen. 3 Ich habe mehr als 8 Kilo abgenommen. Ich esse absichtlich weniger, um abzunehmen: JA NEIN - Mein Appetit hat sich nicht verändert. Mein Appetit ist etwas schlechter als sonst. Mein Appetit ist etwas größer als sonst. Mein Appetit ist viel schlechter als sonst. Mein Appetit ist viel größer als sonst. Ich habe überhaupt keinen Appetit. Ich habe ständig Heißhunger. - BDI-II-V-2: Ich habe außergewöhnlich wenig Appetit. Ich habe außergewöhnlich viel Appetit. - Anhang Symptomkriterien der Major Depression nach DSM-IV ♠♣ bzw. DSM-IV-TR A4 Schlafstörungen (verminderter oder gesteigerter Schlaf) A5 Psychomotorische Symptome (Unruhe und Agitiertheit oder psychomotorische Verlangsamung) 197 ♥ ♦ ● Benennung der Itemkategorie (BDI/BDI-II) BDI BDI-V Schlafstörungen/ Veränderungen der Schlafgewohnheiten 0 Ich schlafe so gut wie sonst. 1 Ich schlafe nicht mehr so gut wie früher. 2 Ich wache 1 bis 2 Stunden früher auf als sonst, und es fällt mir schwer, wieder einzuschlafen. 3 Ich wache mehrere Stunden früher auf als sonst und kann nicht mehr einschlafen. Ich habe Schlafstörungen. Unruhe - - BDI-II BDI-II-V 0 BDI-II-V-1: Ich leide unter Schlafstörungen. Meine Schlafgewohnheiten haben sich nicht verändert. 1a Ich schlafe etwas mehr als sonst. 1b Ich schlafe etwas weniger als sonst. 2a Ich schlafe viel mehr als sonst. 2b Ich schlafe viel weniger als sonst. 3a Ich schlafe fast den ganzen Tag. 3b Ich wache 1-2 Stunden früher auf als gewöhnlich und kann nicht mehr einschlafen. 0 Ich bin nicht unruhiger als sonst. 1 Ich bin unruhiger als sonst. 2 Ich bin so unruhig, dass es mir schwerfällt, stillzusitzen. 3 Ich bin so unruhig, dass ich mich ständig bewegen oder etwas tun muss. BDI-II-V-2: Ich schlafe außergewöhnlich wenig. Ich schlafe außergewöhnlich viel. Ich bin unruhig. Anhang 198 ♥ ♦ ● Symptomkriterien der Major Depression nach DSM-IV ♠♣ bzw. DSM-IV-TR A6 Müdigkeit, Energieverlust Benennung der Itemkategorie (BDI/BDI-II) BDI BDI-V Ermüdbarkeit/ Ermüdung oder Erschöpfung 0 Ich ermüde nicht stärker als sonst. 1 Ich ermüde schneller als früher. 2 Fast alles ermüdet mich. 3 Ich bin zu müde, um etwas zu tun. Ich bin müde und lustlos. A6 Müdigkeit, Energieverlust Energieverlust - - BDI-II BDI-II-V 0 Ich fühle mich nicht müder oder erschöpfter als sonst. 1 Ich werde schneller müde oder erschöpft als sonst. 2 Für viele Dinge, die ich üblicherweise tue, bin ich zu müde oder erschöpft. 3 Ich bin so müde oder erschöpft, dass ich fast nichts mehr tun kann. 0 Ich habe so viel Energie wie immer. 1 Ich habe weniger Energie als sonst. 2 Ich habe so wenig Energie, dass ich kaum noch etwas schaffe. 3 Ich habe keine Energie mehr, um überhaupt noch etwas zu tun. Ich fühle mich müde oder erschöpft. Ich fühle mich antriebslos und ohne Energie. Anhang 199 ♥ ♦ Symptomkriterien der Major Depression nach DSM-IV ♠♣ bzw. DSM-IV-TR A7 Gefühle von Wertlosigkeit, übermäßige/inadäquate Schuldgefühle Benennung der Itemkategorie (BDI/BDI-II) BDI BDI-V Versagen/ Versagensgefühle A7 Gefühle von Wertlosigkeit, übermäßige/inadäquate Schuldgefühle Schuldgefühle 0 Ich fühle mich nicht als Versager. 1 Ich habe das Gefühl, öfter versagt zu haben als der Durchschnitt. 2 Wenn ich auf mein Leben zurückblicke, sehe ich bloß eine Menge Fehlschläge. 3 Ich habe das Gefühl, als Mensch ein völliger Versager zu sein. 0 Ich habe keine Schuldgefühle. 1 Ich habe häufig Schuldgefühle. 2 Ich habe fast immer Schuldgefühle. 3 Ich habe immer Schuldgefühle. A7 Gefühle von Wertlosigkeit, übermäßige/inadäquate Schuldgefühle Strafbedürfnis/ Bestrafungsgefühle 0 Ich habe nicht das Gefühl, gestraft zu sein. 1 Ich habe das Gefühl, vielleicht bestraft zu werden. 2 Ich erwarte, bestraft zu werden. 3 Ich habe das Gefühl, bestraft zu sein. Ich fühle mich bestraft. ● BDI-II BDI-II-V Ich fühle mich als Versager(in). 0 Ich fühle mich nicht als Versager. 1 Ich habe häufiger Versagensgefühle. 2 Wenn ich zurückblicke, sehe ich eine Menge Fehlschläge. 3 Ich habe das Gefühl, als Mensch ein völliger Versager zu sein. Ich fühle mich als Versager(in). Ich habe Schuldgefühle. 0 Ich habe keine besonderen Schuldgefühle. 1 Ich habe oft Schuldgefühle wegen Dingen, die ich getan habe oder hätte tun sollen. 2 Ich habe die meiste Zeit Schuldgefühle. 3 Ich habe ständig Schuldgefühle. 0 Ich habe nicht das Gefühl, für etwas bestraft zu sein. 1 Ich habe das Gefühl, vielleicht bestraft zu werden. 2 Ich erwarte, bestraft zu werden. 3 Ich habe das Gefühl, bestraft zu sein. Ich habe Schuldgefühle. Ich fühle mich bestraft. Anhang 200 ♥ ♦ Symptomkriterien der Major Depression nach DSM-IV ♠♣ bzw. DSM-IV-TR A7 Gefühle von Wertlosigkeit, übermäßige/inadäquate Schuldgefühle Benennung der Itemkategorie (BDI/BDI-II) BDI BDI-V Selbsthass/ Selbstablehnung 0 Ich bin nicht von mir enttäuscht. 1 Ich bin von mir enttäuscht. 2 Ich finde mich fürchterlich. 3 Ich hasse mich. Ich bin von mir enttäuscht. A7 Gefühle von Wertlosigkeit, übermäßige/inadäquate Schuldgefühle Selbstanklagen/ Selbstvorwürfe Ich werfe mir Fehler und Schwächen vor. A7 Gefühle von Wertlosigkeit, übermäßige/inadäquate Schuld▲ gefühle Weinen 0 Ich habe nicht das Gefühl, schlechter zu sein als alle anderen. 1 Ich kritisiere mich wegen meiner Fehler und Schwächen. 2 Ich mache mir die ganze Zeit Vorwürfe wegen meiner Mängel. 3 Ich gebe mir für alles die Schuld, was schiefgeht. 0 Ich weine nicht öfter als früher. 1 Ich weine jetzt mehr als früher. 2 Ich weine jetzt die ganze Zeit. 3 Früher konnte ich weinen, aber jetzt kann ich es nicht mehr, obwohl ich es möchte. Ich weine. ● BDI-II BDI-II-V 0 Ich halte von mir genauso viel wie immer. 1 Ich habe Vertrauen in mich verloren. 2 Ich bin von mir enttäuscht. 3 Ich lehne mich völlig ab. 0 Ich kritisiere oder tadle mich nicht mehr als sonst. 1 Ich bin mir gegenüber kritischer als sonst. 2 Ich kritisiere mich für all meine Mängel. 3 Ich gebe mir die Schuld für alles Schlimme, was passiert. Ich bin von mir enttäuscht. 0 Ich weine nicht öfter als früher. 1 Ich weine jetzt mehr als früher. 2 Ich weine beim geringsten Anlass. 3 Ich möchte gern weinen, aber ich kann nicht. Mir ist nach Weinen zumute. Ich werfe mir meine Fehler und Schwächen vor. Anhang 201 ♥ ♦ ● Symptomkriterien der Major Depression nach DSM-IV ♠♣ bzw. DSM-IV-TR A7 Gefühle von Wertlosigkeit, übermäßige/inadäquate Schuldgefühle Benennung der Itemkategorie (BDI/BDI-II) Wertlosigkeit - - A8 Verminderte Denk- oder Konzentrationsfähigkeit, Gedächtnisprobleme, Entscheidungsunfähigkeit Konzentrationsschwierigkeiten - - BDI BDI-V BDI-II BDI-II-V 0 Ich fühle mich nicht wertlos. 1 Ich halte mich für weniger wertvoll und nützlich als sonst. 2 Verglichen mit anderen Menschen fühle ich mich viel weniger wert. 3 Ich fühle mich völlig wertlos. 0 Ich kann mich so gut konzentrieren wie immer. 1 Ich kann mich nicht mehr so gut konzentrieren wie sonst. 2 Es fällt mir schwer, mich längere Zeit auf irgend etwas zu konzentrieren. 3 Ich kann mich überhaupt nicht mehr konzentrieren. Ich fühle mich wertlos. Es fällt mir schwer, mich zu konzentrieren. Anhang 202 ♥ ♦ Symptomkriterien der Major Depression nach DSM-IV ♠♣ bzw. DSM-IV-TR A8 Verminderte Denk- oder Konzentrationsfähigkeit, Gedächtnisprobleme, Entscheidungsunfähigkeit Benennung der Itemkategorie (BDI/BDI-II) BDI BDI-V Entschlussunfähigkeit 0 Ich bin so entschlussfreudig wie immer. 1 Ich schiebe Entscheidungen jetzt öfter als früher auf. 2 Es fällt mir jetzt schwerer als früher, Entscheidungen zu treffen. 3 Ich kann überhaupt keine Entscheidungen mehr treffen. Ich schiebe Entscheidungen vor mir her. A9 Gedanken an den Tod oder Suizid, Suizidabsichten Selbstmordimpulse/ Selbstmordgedanken Ich denke daran, mir etwas anzutun. Kann nicht eindeutig zugeord■ net werden Arbeitsunfähigkeit 0 Ich denke nicht daran, mir etwas anzutun. 1 Ich denke manchmal an Selbstmord, aber ich würde es nicht tun. 2 Ich möchte mich am liebsten umbringen. 3 Ich würde mich umbringen, wenn ich die Gelegenheit hätte. 0 Ich kann so gut arbeiten wie früher. 1 Ich muss mir einen Ruck geben, bevor ich eine Tätigkeit in Angriff nehme. 2 Ich muss mich zu jeder Tätigkeit zwingen. 3 Ich bin unfähig zu arbeiten. Ich muss mich zu jeder Tätigkeit zwingen. ● BDI-II BDI-II-V 0 Ich bin so entschlussfreudig wie immer. 1 Es fällt mir schwerer als sonst, Entscheidungen zu treffen. 2 Es fällt mir sehr viel schwerer als sonst, Entscheidungen zu treffen. 3 Ich habe Mühe, überhaupt Entscheidungen zu treffen. 0 Ich denke nicht daran, mir etwas anzutun. 1 Ich denke manchmal an Selbstmord, aber ich würde es nicht tun. 2 Ich möchte mich am liebsten umbringen. 3 Ich würde mich umbringen, wenn ich die Gelegenheit dazu hätte. - Es fällt mir schwer, Entscheidungen zu treffen. Ich denke daran, mir etwas anzutun. - Anhang 203 Symptomkriterien der Major Depression nach DSM-IV ♠♣ bzw. DSM-IV-TR ♥ ♦ ● Benennung der Itemkategorie (BDI/BDI-II) BDI BDI-V ■ negatives Körperbild Ich bin besorgt um mein Aussehen. - - ■ Hypochondrie 0 Ich habe nicht das Gefühl, schlechter auszusehen als früher. 1 Ich mache mir Sorgen, dass ich alt oder unattraktiv aussehe. 2 Ich habe das Gefühl, dass Veränderungen in meinem Aussehen eintreten, die mich hässlich machen. 3 Ich finde mich hässlich. 0 Ich mache mir keine größeren Sorgen um meine Gesundheit als sonst. 1 Ich mache mir Sorgen über körperliche Probleme, wie Schmerzen, Magenbeschwerden oder Verstopfung. 2 Ich mache mir so große Sorgen über gesundheitliche Probleme, dass es mir schwerfällt, an etwas anderes zu denken. 3 Ich mache mir so große Sorgen über gesundheitliche Probleme, dass ich an nichts anderes mehr denken kann. Ich mache mir Sorgen um meine Gesundheit - - Kann nicht zugeordnet werden Kann nicht zugeordnet werden BDI-II-V BDI-II Anhang 204 Anmerkungen. ♠ DSM-IV (American Psychiatric Association, 1994, verwendet in der deutschen Übersetzung von Saß et al., 1996); DSM-IV-TR (American Psychiatric Association, 2000, verwendet in der deutschen Übersetzung von Saß et al., 2003); die Diagnosekriterien der Major Depression unterscheiden sich nicht zwischen den beiden Auflagen. ♣ Zuordnung der Items zu den der Kriterien vorgenommen nach Hautzinger et al. (2006). ♥ (Hautzinger et al., 1994). ♦ (Schmitt & Maes, 2000). ● (Hautzinger et al., 2006). ■ Die Items, die im BDI-II eliminiert wurden, wurden von Hautzinger et al. (2006) nicht zugeordnet, die Zuordnung erfolgte hier durch die Autorin dieser Arbeit. ▲ Das Item „Weinen“ wird bei Hautzinger et al. (2006) dem Kriterium A7 zugeordnet. Dem Augenschein nach könnte es möglicherweise zudem auch Kriterium A1 erfassen Anhang Anhang B: Untersuchungsmaterial Anhang B.1: Instruktion der Teilnehmer 205 Anhang 206 Anhang Anhang B.2: Eingesetzte Fragebögen Anhang B.2.1: Das BDI 207 Anhang 208 Anhang Anhang B.2.2: Das BDI-V 209 Anhang Anhang B.2.3: Das BDI-II 210 Anhang 211 Anhang Anhang B.2.4: Das BDI-II-V.1 212 Anhang Anhang B.2.5: Das BDI-II-V.2 213 Anhang Anhang B.2.6: Das NEO-FFI 214 Anhang 215 Anhang 216 Anhang 217 Anhang 218 Anhang Anhang B.3: Angaben zur Person 219 Anhang Anhang B.4: Gewinnspielpostkarte und Rücksendeumschlag Anhang B.4.1 Vorder- und Rückseite der Gewinnspielpostkarte 220 Anhang Anhang B.4.2 Rücksendeumschlag 221 Anhang 222 Anhang C: Zusätzliche Ergebnistabellen Tabelle 17 Verteilung soziodemographischer Merkmale in Gesamt- und Substichproben Variable Ursprüngliche Gesamt- Substichprobe Substichprobe stichprobe♣ BDI-II-V.1♥ BDI-II-V.2.Z♦ 347 325 169 165 männlich 140 (40%) 132 (40.6%) 74 (43.8%) 60 (36.4%) weiblich 206 (60%) 192 (59.1%) 95 (56.2%) 104 (63.0%) 16 - 19 5 (1.4%) 5 (1.5%) 5 (3.0%) 0 (0.0%) 20 – 29 98 (28.2%) 94 (28.9%) 50 (29.6%) 47 (28.5%) 30 – 39 45 (13.0%) 44 (13.5%) 17 (10.1%) 28 (17.0%) 40 – 49 53 (15.3%) 49 (15.1%) 26 (15.4%) 24 (14.5%) 50 – 59 66 (19.0%) 63 (19.4%) 28 (16.6%) 37 (22.4%) 60 – 69 37 (10.7%) 34 (10.5%) 20 (11.8%) 15 (9.1%) 70 – 79 34 (9.8%) 28 (8.6%) 18 (10.7%) 11 (6.7%) 80 und älter 8 (2.3%) 7 (2.2%) 4 (2.4%) 3 (1.8%) Min - Max 16 - 84 16 - 84 16 - 84 20 - 83 M (SD) 44.89 (17.68) 44.26 (17.40) 45.02 (18.32) 43.45 (16.42) Schüler 5 (1.4%) 5 (1.5%) 4 (2.4%) 1 (0.6%) kein Schulabschluss 2 (0.6%) 2 (0.6%) 1 (0.6%) 1 (0.6%) Volks- oder Haupt- 75 (21.6%) 68 (20.9%) 41 (24.3%) 29 (17.6%) mittlere Reife 68 (19.6%) 65 (20.0%) 34 (20.1%) 33 (20.0%) Fachhochschulreife 197 (56.8%) 185 (56.9%) 89 (52.7%) 101 (61.2%) Gesamtstichprobe♠ N Geschlecht Alter Schulabschluss schulabschluss oder Abitur Anhang Variable 223 Ursprüngliche Gesamt- Substichprobe Substichprobe stichprobe♣ BDI-II-V.1♥ BDI-II-V.2.Z♦ 59 (18.2%) 35 (20.7%) 25 (15.2%) 154 (44.4%) 142 (43.7%) 74 (43.8%) 73 (44.2%) 131 (37.8%) 124 (38.2%) 60 (35.5%) 67 (40.6%) Gesamtstichprobe♠ Berufsqualifizierender Abschluss keine abgeschlossene 62 (17.9%) Berufsausbildung abgeschlossene Berufsausbildung abgeschlossenes Fachhochschul- oder Hochschulstudium Aktuelle Berufstätigkeit Schüler/in 5 (1.4%) 5 (1.5%) 4 (2.4%) 1 (0.6%) Wehr- oder Zivil- 0 (0.0%) 0 (0.0%) 0 (0.0%) 0 (0.0%) Auszubildende/r 8 (2.3%) 8 (2.5%) 3 (1.8%) 5 (3.0%) Student/in 51 (14.7%) 49 (15.1%) 24 (14.2%) 26 (15.8%) Hausfrau/Hausmann 23 (6.6%) 22 (6.8%) 10 (5.9%) 13 (7.9%) arbeitsuchend 5 (1.4%) 4 (1.2%) 2 (1.2%) 2 (1.2%) erwerbstätig 195 (56.2%) 187 (57.5%) 96 (56.8%) 96 (58.2%) Rentner/in / 60 (17.3%) 50 (15.4%) 30 (17.8%) 22 (13.3%) ledig 127 (36.6%) 124 (38.2%) 68 (40.2%) 58 (35.2%) verheiratet 180 (51.9%) 169 (52.0%) 85 (50.3%) 88 (53.3%) geschieden 21 (6.1%) 20 (6.2%) 7 (4.1%) 14 (8.5%) verwitwet 19 (5.5%) 12 (3.7%) 9 (5.3%) 5 (3.0%) dienstleistender/FSJ Pensionär/in Familienstand Anhang Variable 224 Ursprüngliche Gesamt- Substichprobe Substichprobe stichprobe♣ BDI-II-V.1♥ BDI-II-V.2.Z♦ 61 (17.6%) 54 (16.6%) 26 (15.4%) 31 (18.8%) 228 (65.7%) 218 (67.1%) 107 (63.3%) 115 (69.7%) 43 (12.4%) 41 (12.6%) 29 (17.2%) 13 (7.9%) 13 (3.7%) 12 (3.7%) 6 (3.6%) 6 (3.6%) Gesamtstichprobe♠ Aktuelle Partnerschaft ohne Partnerbeziehung in fester Partnerschaft/verheiratet, zusammenlebend in fester Partnerschaft/verheiratet, nicht zusammenlebend weder noch Anmerkungen. ♠ Stichprobe aller ernsthaft ausgefüllt zurückgesendeten Fragebögen, aus der die einzelnen Analysestichproben durch Ausschluss von Probanden mit fehlenden Werten hervorgingen. ♣ Stichprobe, auf der die meisten Analysen in der Gesamtstichprobe beruhen. ♥ Substichprobe von Teilnehmenden, die den BDI-II-V.1 erhalten hatten. ♦ Substichprobe von Teilnehmenden, die den BDI-II-V.2 erhalten hatten. Angaben in Anzahl und Prozent. Anhang Tabelle 18 225 Direkte Gegenüberstellung der Summenwerte aller verwendeten Varianten des BDI in der reskalierten und nicht-reskalierten Fassung für die verkürzten Versionen in der Gesamtstichprobe und den Teilstichproben 1 und 2 A: In der Gesamtstichprobe M (SD) BDI 7.8 (6.9) BDI-V 19.2 (16.1) BDI-V.R 11.5 (9.6) BDI-II 9.0 (8.0) BDI-II-V 21.8 (18.1) BDI-II-V.R 13.1 (10.8) Anmerkungen. N = 325. M = mittlerer Summenwert. SD = Standardabweichung. B: In der Substichprobe 1 M (SD) BDI-II.1 BDI-II-V.1 BDI-II-V.1.R 9.9 (8.7) 21.8 (19.6) 13.1 (11.7) Anmerkungen N = 169. SD = Standardabweichung. M = mittlerer Summenwert. C: In der Substichprobe 2 M (SD) BDI-II.2 BDI-II-V.2.Z BDI-II-V.2.Z.R BDI-II-V.2 BDI-II-V.2.R 8.3 (7.7) 22.1 (16.8) 13.3 (10.1) 22.7 (17.4) 13.6 (10.4) Anmerkungen. 163 ≤ N ≤ 165. M = mittlerer Summenwert. SD = Standardabweichung. Anhang 226 2 4 6 8 10 12 14 16 18 20 BDI-II-V.2_P2 1 3 5 7 9 11 13 15 17 19 21 BDI-II-V.2_P1 11 12 13 14 15 16 17 18 19 20 BDI-II-V/V.1/V.2.Z_P2 BDI-II/II.1/II.2_P2 1 2 3 4 5 6 7 8 9 10 Verteilung der Items auf die Parcels der Modelle zur parallelen Analyse jeweils von BDI-II und BDI-II-V, BDI-II.1 und BDI-II-V.1, BDI-II.2 und BDI-II-V.2.Z sowie BDI-II.2 und BDI-II-V-.2 BDI-II-V/V.1/V.2.Z_P1 BDI-II/II.1/II.2_P1 Tabelle 19 1 3 5 7 9 11 13 15 18 21 23 2 4 6 8 10 12 14 16 17 19 20 22 Anmerkungen. P1 = Parcel 1. P2 = Parcel 2. Die Ziffern entsprechen den Nummern der Items im jeweiligen Fragebogen. Anhang 227 1 4 5 7 8 9 12 14 16 18 2 7 8 10 12 13 14 16 18 20 21 1 3 4 5 6 9 11 15 17 19 BDI-II-V.R_P2 2 3 6 10 11 13 15 17 19 20 BDI-II-V.R_P1 BDI-V.R_P2 2 5 6 7 9 10 13 14 16 21 BDI-II_P2 BDI-V.R_P1 1 3 4 8 11 12 15 17 18 19 20 BDI-II_P1 BDI_P2 Verteilung der Items auf die Parcels der Modelle zur parallelen Analyse von BDI, BDI-V, BDI-II und BDI-II-V BDI_P1 Tabelle 20 1 2 4 5 6 9 12 13 15 20 21 3 7 8 10 11 14 16 17 18 19 Anmerkungen. P1 = Parcel 1. P2 = Parcel 2. Die Ziffern entsprechen den Nummern der Items im jeweiligen Fragebogen. Anhang Tabelle 21 228 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V A: Summenwerte M (SD) Schiefe Kurtosis BDI-II 9.1 (8.3) 1.19 1.27 BDI-II-V.R 13.2 (10.9) 1.09 0.53 Anmerkungen. N = 334 M = mittlerer Summenwert. SD = Standardabweichung. B: Logarithmierte Summenwerte M (SD) Schiefe Kurtosis BDI-II.L 1.9 (1.0) -0.54 -0.62 BDI-II-V.L 2.7 (1.0) -0.84 0.50 Anmerkungen. N = 334 SD = Standardabweichung. BDI-II-V.R.L 2.3 (.92) -0.62 -0.01 M = mittlerer Summenwert. C: Parcels M (SD) Schiefe Kurtosis BDI-II_P1 3.3 (4.0) 1.65 2.65 BDI-II_P2 5.9 (4.8) 0.78 0.16 Anmerkungen. N = 334. P1 = Parcel SD = Standardabweichung. 1. BDI-II-V_P1 11.6 (9.5) 1.03 0.48 P2 = Parcel 2. BDI-II-V_P2 10.4 (9.1) 1.13 0.73 M = mittlerer Summenwert. Anhang 229 .79 1 BDI-II-V_P2 1 BDI-II-V_P1 BDI-II_P1 BDI-II_P2 BDI-II-V_P1 BDI-II-V_P2 BDI-II_P2 Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V dienten BDI-II_P1 Tabelle 22 .80 .78 1 .81 .78 .94 1 Anmerkungen. N = 334. P1 = Parcel 1. P2 = Parcel 2. Tabelle 23 M (SD) Schiefe Kurtosis Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und und BDI-II-V.1 BDI-II.1_P1 3.5 (4.2) 1.45 1.71 Anmerkungen. N = 169. SD = Standardabweichung. Tabelle 24 BDI-II.1_P2 6.4 (5.0) 0.67 -0.22 P1 = Parcel 1. BDI-II-V.1_P1 11.7 (10.1) 0.98 0.15 P2 = Parcel 2. BDI-II-V.1_P2 10.1 (9.7) 1.13 0.33 M = mittlerer Summenwert. Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.1 dienten BDI-II.1_P1 BDI-II.1_P2 BDI-II-V.1_P1 BDI-II-V.1_P2 BDI-II.1_P1 1 BDI-II.1_P2 .79 BDI-II-V.1_P1 .83 BDI-II-V.1_P2 .84 1 .80 1 .81 .95 1 Anmerkungen. N = 169. P1 = Parcel 1. P2 = Parcel 2. Anhang Tabelle 25 M (SD) Schiefe Kurtosis 230 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.2.Z BDI-II.2_P1 3.0 (3.8) 1.90 4.13 Anmerkungen. N = 165. SD = Standardabweichung. Tabelle 26 BDI-II.2_P2 5.3 (4.4) 0.86 0.66 P1 = Parcel 1. BDI-II-V.2.Z_P1 11.4 (8.7) 1.08 0.93 P2 = Parcel 2. BDI-II-V.2.Z_P2 10.7 (8.4) 1.16 1.42 M = mittlerer Summenwert. Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.2.Z dienten BDI-II.2_P1 BDI-II.2_P2 BDI-II-V.2.Z_P1 1 .79 .77 BDI-II.2_P1 1 .76 BDI-II.2_P2 1 BDI-II-V.2.Z_P1 BDI-II-V.2.Z_P2 BDI-II-V.2.Z_P2 .79 .78 .91 1 Anmerkungen. N = 165. P1 = Parcel 1. P2 = Parcel 2. Tabelle 27 M (SD) Schiefe Kurtosis Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.2 BDI-II.2_P1 3.0 (3.8) 1.93 4.23 Anmerkungen. N = 163. SD = Standardabweichung. Tabelle 28 BDI-II.2_P2 5.3 (4.4) 0.87 0.73 P1 = Parcel 1. BDI-II-V.2_P1 11.4 (8.8) 1.09 0.93 P2 = Parcel 2. BDI-II-V.2_P2 11.3 (9.0) 1.14 1.16 M = mittlerer Summenwert. Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.2 dienten BDI-II.2_P1 1 BDI-II.2_P2 .79 1 BDI-II.2_P1 BDI-II.2_P2 BDI-II-V.2_P1 BDI-II-V.2_P2 Anmerkungen. N = 163. P1 = Parcel 1. P2 = Parcel 2. BDI-II-V.2_P1 .77 .76 1 BDI-II-V.2_P2 .77 .78 .92 1 Anhang 231 Tabelle 29 Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI, BDI-V, BDI-II und BDI-II-V A: Summenwerte BDI 7.8 (6.9) M (SD) 1.18 Schiefe Kurtosis 1.26 BDI-V.R 11.5 (9.6) 1.14 0.79 Anmerkungen. N = 325. SD = Standardabweichung. BDI-II 9.0 (8.0) 1.11 1.00 BDI-II-V.R 13.1 (10.8) 1.09 0.57 M = mittlerer Summenwert. BDI-V.L BDI-V.R.L BDI-II.L BDI-II-V.L BDI-II-V.R.L M (SD) Schiefe Kurtosis BDI.L B: Logarithmierte Summenwerte 1.8 (0.9) -0.54 -0.52 2.6 (1.0) -0.78 0.42 2.2 (0.9) -0.56 -0.10 1.9 (1.0) -0.55 -0.64 2.7 (1.0) -0.85 0.54 2.3 (0.9) -0.63 0.02 Anmerkungen. N = 325. M = mittlerer Summenwert. SD = Standardabweichung. BDI_P2 BDI-V.R_P1 BDI-V.R_P2 BDI-II_P1 BDI-II_P2 BDI-II-V.R_P1 BDI-II-V.R_P2 M (SD) Schiefe Kurtosis BDI_P1 C: Parcels 4.3 (3.6) 0.97 1.05 3.5 (3.6) 1.53 2.57 6.2 (5.0) 1.07 0.86 5.3 (4.9) 1.27 1.17 5.0 (4.5) 1.11 0.96 4.0 (3.8) 1.06 0.84 6.5 (5.5) 1.14 0.73 6.6 (5.6) 1.07 0.56 Anmerkungen. N = 325. SD = Standardabweichung. P1 = Parcel 1. P2 = Parcel 2. M = mittlerer Summenwert. Anhang Anmerkungen. N = 325. P1 = Parcel 1. P2 = Parcel 2. .87 .83 .82 .80 .86 1 BDI-II-V.R_P2 .86 .88 .83 .80 1 BDI-II-V.R_P1 .78 .77 .90 1 BDI-II_P2 .79 .80 1 BDI-II_P1 BDI-V.R_P2 .79 1 BDI-V.R_P1 1 BDI_P1 BDI_P2 BDI-V.R_P1 BDI-V.R_P2 BDI-II_P1 BDI-II_P2 BDI-II-V.R_P1 BDI-II-V.R_P2 BDI_P2 Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI, BDI-V, BDI-II und BDI-II-V dienten BDI_P1 Tabelle 30 232 .79 .81 .92 .88 .82 .82 1 .79 .75 .86 .88 .79 .80 .91 1