BDI-II-V

Werbung
Universität Koblenz-Landau
Campus Landau
Fachbereich 8: Psychologie
BDI-II-V:
Ein Vorschlag zur Vereinfachung der zweiten
Auflage des Beck Depressionsinventars (BDI-II)
und die Frage, ob BDI, BDI-V, BDI-II und
BDI-II-V das Gleiche messen
Diplomarbeit
vorgelegt von Katharina Christine Fischer
Gutachter:
Prof. Dr. Manfred Schmitt
Dr. Christine Altstötter-Gleich
Neustadt an der Weinstraße, im Januar 2012
„Wenn Du vor mir stehst und mich ansiehst, was weißt Du von den Schmerzen, die in mir sind und was weiß ich
von den Deinen. Und wenn ich mich vor
Dir niederwerfen würde und weinen
und erzählen, was wüsstest Du von mir
mehr als von der Hölle, wenn Dir jemand erzählt, sie ist heiß und fürchterlich. Schon darum sollten wir Menschen
voreinander so ehrfürchtig, so nachdenklich, so liebend stehn wie vor dem
Eingang zur Hölle.“
Franz Kafka
Danksagung
2
Danksagung
Ich möchte mich bei Herrn Prof. Dr. Schmitt für die äußerst unterstützende und motivierende Betreuung dieser Arbeit bedanken. Seine außerordentlich schnelle Antwort auf
jede Art von Frage haben das Arbeiten sehr erleichtert. Außerdem gilt ihm besonderer
Dank für das zur Verfügung Stellen der Gutscheine zur Verlosung unter den Teilnehmern der Studie.
Ebenso möchte ich mich bei Frau Dr. Altstötter-Gleich für entscheidende Hinweise zur
Literatur und zur Behandlung der Daten bedanken sowie dafür, dass sie sich so viel Zeit
genommen hat.
Besonders dankbar bin ich Anna Halmburger, Christine Rieß und Isabell Kahl, die mit
wertvollen Rückmeldungen entscheidend zu dieser Arbeit beigetragen haben. Für die
Korrektur auf Rechtschreibfehler und unlesbare Monstersätze danke ich meiner Mutter
und Matthias. Ihm gebührt außerdem Dank für die Unterstützung bei der Erstellung der
Graphiken.
Dank gilt auch den Teilnehmern des Kolloquiums der Arbeitseinheit Diagnostik, Differentielle- und Persönlichkeitspsychologie, Methodik und Evaluation des Fachbereichs
Psychologie der Universität Koblenz-Landau für ihren Beitrag zur Gestaltung der Items.
Diese Arbeit wäre nicht entstanden ohne all jene, die bereit waren, eines der Fragebogenpakete auszufüllen. Deswegen möchte ich mich bei all meinen Probanden bedanken.
Besonderer Dank gebührt den vielen „Multiplikatoren“, ohne die nicht 630 Fragebögen
hätten verteilt werden können. Ich danke für das Austeilen von Fragebögen Nadine Kissel & Tim Langbein, meiner Oma Friedel, meiner Oma Gerda, Mama, Papa, Elisabeth,
meiner Cousine Julia, Matthias, Melanie Kotremba & Jan Wiss, Christine Rieß & Jens
Dietmann, Sabrina Lambert & Sandro Klepsch, Johanna Loschky, Christina Bürger,
Julia Ledulé, Anja Häuser & Christian Koop, Carsten Kroll, Christian Schneider, Verena Allmacher, Marcel Kempeni, Anja & Adina Berneck, Christin & Steffen Lutze, Familie Seidel, Christine & Jürgen Gerhartz, Jürgen Winter, Jasmin Lambert & Adrian
Filipkowski, Familie Jäger, Familie Steiniger, Familie Weiß-Wipprecht, Frau Dagmar
Eichmann, Isabell Kahl, Ulrike Hettich, Bianca Alt, Maria Geißert, Sonja & Jochen
Danksagung
3
Bähr, Manfred Klohr, Familie Ost, Martina Prajitno, Gabriela Schwensen, Sonja Ledebrink, Britta Jansen, Stefanie Buchert, Alexander Blankenburg, Julia Hauß, Richard
Städtler, Rigobert Müller, Wolfgang Medard, Bernd Riede, Frau Gabriela Falke, Dorit
Benoit, Ramona Wildt, Martin Buchheim, Mona Lisa Seithel und all denen, deren Namen hier fehlen, ebenso wie allen „Multiplikator-Multiplikatoren“!
Bedanken möchte ich mich auch bei jenen, die es mir ermöglicht haben, bei privaten
oder offiziellen Anlässen in größerem Rahmen für die Teilnahme an der Studie zu werben. Dank geht hierfür an meine Cousine Sandra und Markus Meßner, an Herrn Fritz
Wiedemann, Vorsitzender des Fördervereins „Freunde der Feuerwehr Mußbach e.V.“,
und an Frau Christine Harms, damals Leiterin des Kirchenchors Mußbach.
Hinweis
4
Hinweis
Im Text wird aus Gründen der Lesbarkeit durchgehend die männliche Form (Probanden, Patienten, Autoren, …) verwendet. Genauso gemeint sind an jeder Stelle natürlich
auch Probandinnen, Patientinnen und Autorinnen.
Inhaltsverzeichnis
5
Inhaltsverzeichnis
Danksagung ...................................................................................................................... 2
Hinweis ............................................................................................................................. 4
Inhaltsverzeichnis ............................................................................................................. 5
Zusammenfassung ............................................................................................................ 9
1
Einleitung ................................................................................................................ 13
2
Theorie .................................................................................................................... 17
2.1
Depression ........................................................................................................ 17
2.1.1 Symptome ................................................................................................... 17
2.1.2 Diagnostische Klassifikation ...................................................................... 18
2.1.3 Differentialdiagnostik ................................................................................. 23
2.1.4 Komorbidität ............................................................................................... 24
2.1.5 Epidemiologie und gesellschaftliche Bedeutung ........................................ 25
2.2
Depression und Persönlichkeit ......................................................................... 27
2.2.1 Methodische Fragen und Modelle............................................................... 28
2.2.2 Neurotizismus ............................................................................................. 31
2.2.3 Extraversion ................................................................................................ 33
2.2.4 Offenheit für Erfahrung .............................................................................. 34
2.2.5 Verträglichkeit ............................................................................................ 35
2.2.6 Gewissenhaftigkeit ...................................................................................... 36
2.2.7 Zusammenfassung....................................................................................... 38
2.3
Das Beck Depressionsinventar (BDI) .............................................................. 38
2.3.1 Die Entstehung des Beck Depressionsinventars (BDI)............................... 38
2.3.2 Ein Vorschlag zur Vereinfachung des Beck Depressionsinventars
(BDI-V) ....................................................................................................... 41
2.3.3 BDI und BDI-V im Vergleich ..................................................................... 44
Inhaltsverzeichnis
6
2.3.4 Die Entstehung der zweiten Ausgabe des Beck Depressionsinventars
(BDI-II) ....................................................................................................... 46
2.3.5 BDI und BDI-II im Vergleich ..................................................................... 49
2.3.6 Ein Vorschlag zur Vereinfachung der zweiten Ausgabe des Beck
Depressionsinventars (BDI-II-V) ................................................................ 50
2.4
Messäquivalenz ................................................................................................ 55
2.4.1 Die Klassische Testtheorie .......................................................................... 56
2.4.2 Die Messmodelle der Klassischen Testtheorie ........................................... 57
2.4.3 Nutzen der Messmodelle ............................................................................. 66
2.4.4 Überprüfung der Messäquivalenz ............................................................... 67
3
Fragestellungen und Hypothesen ............................................................................ 69
4
Methode .................................................................................................................. 78
4.1
Instrumente ....................................................................................................... 78
4.1.1 Das Beck Depressionsinventar (BDI) ......................................................... 78
4.1.2 Das NEO-Fünf-Faktoren-Inventar (NEO-FFI) ........................................... 80
4.2
Durchführung der Erhebung ............................................................................ 83
4.3
Modelle ............................................................................................................ 85
4.3.1 Modelle zur Überprüfung der Messäquivalenz von BDI-II und
BDI-II-V (Hypothese III.b) ......................................................................... 86
4.3.2 Vergleich der Messäquivalenz von BDI-II-V.1 und BDI-II mit der
Messäquivalenz von BDI-II-V.2 und BDI-II (Hypothese IV.b) ................. 89
4.3.3 Modelle zur Überprüfung der Messäquivalenz von BDI, BDI-V,
BDI-II und BDI-II-V (Hypothese V.b) ....................................................... 90
4.4
Auswertungssoftware ....................................................................................... 96
4.5
Schätzmethode für die Modelle ....................................................................... 96
4.6
Beurteilung der Modellgüte ............................................................................. 98
4.6.1 Deskriptive Modellgüteindizes ................................................................... 99
4.6.2 Modellvergleich ........................................................................................ 102
Inhaltsverzeichnis
4.7
7
Aufbereitung der Rohdaten ............................................................................ 103
4.7.1 Skalenwerte des NEO-FFI ........................................................................ 103
4.7.2 Summenwerte des BDI ............................................................................. 103
4.7.3 Reskalieren der Werte der verkürzten BDI-Varianten .............................. 106
4.7.4 Logarithmieren der Werte ......................................................................... 107
4.7.5 Erstellen von Itemparcels .......................................................................... 108
5
Ergebnisse ............................................................................................................. 112
5.1
Datenbereinigung und Beschreibung der Stichprobe ..................................... 112
5.1.1 Verständnisschwierigkeiten oder mangelnde Sorgfalt beim Ausfüllen .... 113
5.1.2 Ausreißer und Extremwerte ...................................................................... 113
5.1.3 Fehlende Werte ......................................................................................... 114
5.1.4 Beschreibung der Stichprobe .................................................................... 115
5.2
Ergebnisse zur internen Konsistenz und Homogenität des BDI-II-V
(Hypothese I)................................................................................................. 120
5.3
Weitere Ergebnisse zu psychometrischen Eigenschaften des BDI-II-V ........ 122
5.4
Ergebnisse zur Konstruktvalidität des BDI-II-V (Hypothese II) ................... 128
5.5
Ergebnisse zur Entsprechung von BDI-II-V und BDI-II (Hypothese III) ..... 129
5.6
Ergebnisse zum Vergleich von BDI-II-V.1 und BDI-II-V.2 (Hypothese
IV) ................................................................................................................. 135
5.6.1 Überprüfung der Voraussetzungen ........................................................... 135
5.6.2 Ergebnisse der Analysen ........................................................................... 136
5.7
Ergebnisse zur Entsprechung von BDI, BDI-V, BDI-II und BDI-II-V
(Hypothese V) ............................................................................................... 142
6
Diskussion ............................................................................................................. 151
6.1
Interpretation der Ergebnisse ......................................................................... 151
6.1.1 Reliabilität und Validität des BDI-II-V .................................................... 151
6.1.2 BDI-II-V und BDI-II im Vergleich ........................................................... 154
6.1.3 BDI-II.V.1 und BDI-II-V.2 im Vergleich ................................................. 156
Inhaltsverzeichnis
8
6.1.4 BDI, BDI-V, BDI-II und BDI-II-V im Vergleich ..................................... 161
6.2
Einschränkungen und Kritik .......................................................................... 164
6.2.1 Stichprobe ................................................................................................. 164
6.2.2 Datenaufbereitung ..................................................................................... 166
6.2.3 Aussagekraft
der
Untersuchungen
zum
BDI-II-V
in
der
Gesamtstichprobe ...................................................................................... 166
6.2.4 Interpretierbarkeit der konfirmatorischen Faktorenanalysen .................... 167
6.2.5 Vergleich von BDI-II-V.1 und BDI-II-V.2............................................... 167
6.2.6 Modellgütebeurteilung und Interpretation der Modelle ............................ 168
6.3
Fazit und Anregungen für weiterführende Untersuchungen .......................... 169
Abbildungsverzeichnis.................................................................................................. 174
Tabellenverzeichnis ...................................................................................................... 176
Literaturverzeichnis ...................................................................................................... 179
Eidesstattliche Erklärung .............................................................................................. 188
Anhang .......................................................................................................................... 189
Zusammenfassung
9
Zusammenfassung
Analog der Ergänzung des Beck Depressionsinventars (BDI, Hautzinger, Bailer, Worall
& Keller, 1994) durch eine vereinfachte Variante (BDI-V) durch Schmitt und Maes
(2000) unterbreitet diese Diplomarbeit einen Vorschlag für eine vereinfachte Version
der zweiten Auflage des Beck Depressionsinventars (BDI-II, Hautzinger, Keller &
Kühner, 2006).
Im Unterschied zur ersten Auflage des BDI sind die Items der Revision explizit auf die
Symptomkriterien einer depressiven Episode der vierten Auflage des Diagnostischen
und Statistischen Manuals Psychischer Störungen (DSM-IV) der American Psychiatric
Association (APA, 1994) abgestimmt. Das BDI-II zeichnet sich durch sehr gute
psychometrische Eigenschaften und insbesondere durch eine hohe Reliabilität und Validität aus. Der Vorschlag einer vereinfachten Variante (BDI-II-V) hatte zum Ziel, daneben die Ökonomie des Verfahrens zu optimieren.
Die vier Statements, aus denen jedes Item des Originals besteht, wurden zu je einer
Aussage zusammengefasst, die auf einer Häufigkeitsskala bewertet wird. Für die komplex formulierten Items zu den Symptomen Appetit und Schlaf wurden zunächst zwei
Alternativen vorgeschlagen, deren Eignung im Rahmen der Auswertungen miteinander
verglichen werden sollte. Alternative 1 formulierte die Items zu Schlaf und Appetit global (BDI-II-V.1), Alternative 2 fragte spezifisch sowohl nach außergewöhnlich hohen
als auch nach außergewöhnlich niedrigen Ausprägungen der beiden Phänomene
(BDI-II-V.2).
Die Untersuchung setzte das BDI (Hautzinger et al., 1994), das BDI-V (Schmitt & Maes, 2000), das BDI-II (Hautzinger et al., 2006) und das vorgeschlagene BDI-II-V an
einer heterogenen Bevölkerungsstichprobe (N = 325) ein und untersuchte die Konvergenz der Inventare. Jeweils etwa die Hälfte der Probanden hatten das BDI-II-V in der
Variante BDI-II-V.1 respektive BDI-II-V.2 erhalten. Zu Zwecken der Validierung des
BDI-II-V kam zudem das NEO-FFI (Borkenau & Ostendorf, 2008) zum Einsatz.
Für das BDI-II-V erfolgten die Auswertungen sowohl in der Gesamtstichprobe, indem
die Varianten 1 und 2 zusammengefasst wurden, als auch in den Teilstichproben, in
denen BDI-II-V.1 und BDI-II-V.2 getrennt ausgewertet und im Anschluss ihre Eigenschaften verglichen werden konnten.
Zusammenfassung
10
Die Analysen bescheinigten dem BDI-II-V (in der Gesamtstichprobe) eine sehr hohe
interne Konsistenz (Cronbach’s α = .95), eine hohe Homogenität (M (rii) = .50) und sehr
gute Itemtrennschärfen (M (rit) = .69). Eine Hauptachsenanalyse konnte so interpretiert
werden, dass die Items durch einen starken Faktor oder zwei hoch korrelierende Faktoren repräsentiert werden. Die Zwei-Faktoren-Lösung entsprach sehr gut bisherigen Befunden für das Original (BDI-II) und konnte als Hinweis auf die faktorielle Validität des
BDI-II-V gewertet werden. Erste Belege der Konstruktvalidität ergaben sich aus hohen
positiven Korrelationen des Summenwertes mit Neurotizismus und niedrigeren Korrelationen mit den weiteren Dimensionen des Fünf-Faktoren-Modells der Persönlichkeit.
Das BDI-II-V war etwas leichter als das BDI-II. Die Summenwerte von BDI-II und
BDI-II-V korrelierten hoch (r = .86), die mittlere Korrelation auf der Ebene der einzelnen Items war respektabel (r = .65). Die Beziehung, die ein bestimmtes Item zum
Summenwert der anderen Items aufweist, entsprach sich zwischen den Inventaren sehr
gut (Rangkorrelationen der Trennschärfen = .86). Im direkten Vergleich erwies sich das
BDI-II-V als etwas konsistenter als das BDI-II und seine Items waren etwas trennschärfer als die des Originals. In konfirmatorischen Faktorenanalysen ergab sich zwischen
den beiden latenten Faktoren, die das BDI-II und das BDI-II-V repräsentierten, eine
sehr hohe Korrelation von .92.
In den Auswertungen der beiden Alternativen in den Teilstichproben zeigte sich die
Variante BDI-II-V.1 der Variante BDI-II-V.2 deutlich überlegen. Sowohl ihre psychometrischen Kennwerte im Allgemeinen, als auch ihre Konvergenz mit dem Original im
Speziellen waren besser als jene der Variante 2 und damit auch besser als jene der zusammengefassten Auswertung beider Alternativen in der Gesamtstichprobe. So belief
sich in den konfirmatorischen Faktorenanalysen die latente Korrelation zwischen den
Faktoren für BDI-II-V.1 und BDI-II auf .94. Es werden potenzielle Gründe für die
Überlegenheit des BDI-II-V.1 diskutiert. Die Ergebnisse bedürfen weiterführender Absicherung, bevor endgültige Schlüsse gezogen werden sollten.
Das BDI-II war etwas schwerer, etwas konsistenter und etwas trennschärfer als das
BDI. Die Berechnung bivariater Zusammenhänge zwischen BDI, BDI-V, BDI-II und
BDI-II-V ergab sehr hohe Korrelationen jeweils zwischen den beiden gleich skalierten
Originalversionen (r = .94) und zwischen den verkürzten Versionen (r = .93). Die vier
weiteren Koeffizienten jeweils zwischen einem Original und einer verkürzten Version
Zusammenfassung
11
fielen niedriger, aber dennoch hoch aus (.85 ≤ r ≤ .86), wobei es unerheblich war, ob die
Korrelation zwischen einem Original und der zugehörigen Verkürzung oder zwischen
einem Original und der nicht-zugehörigen Verkürzung bestimmt wurde. Übereinstimmung der Skalierung schlug sich damit wesentlich deutlicher im Zusammenhangsmuster der Fragebögen nieder als inhaltliche Übereinstimmung. Führt man in konfirmatorischen Faktorenanalysen die Zusammenhänge zwischen den Inventaren auf eine latente
Dimension Depressivität zurück, ließen sich daher weder ein Modell essentiell τparalleler, noch ein Modell essentiell τ-äquivalenter und auch nicht ein minimales Modell τ-kongenerischer Variablen fitten. Erst ein Modell, das die beiden unterschiedlichen
Skalierungen in Form eines Methodenfaktors berücksichtigte, erzielte perfekten Fit. Es
ergab sich, dass die Abbildung der Depressivität durch die verkürzten BDI-Versionen
gut, aber nicht perfekt durch die Werte der Originalformen vorhergesagt werden konnte.
Die wahren Depressionswerte, die ein Original-BDI misst, unterschieden sich mäßig
von den wahren Depressionswerten, die ein verkürztes BDI misst. Die Konvergenz von
Originalen und Verkürzungen überstieg die Spezifität der verkürzten Versionen um
mehr als das Vierfache. (77 resp. 78% der Varianz vs. 17 resp. 14% der Varianz von
BDI-V resp. BDI-II-V).
Einschränkungen der Interpretierbarkeit der Ergebnisse ergeben sich aus der größtenteils explorativen Natur der konfirmatorischen Faktorenanalysen und aus der Untersuchung einer überwiegend gesunden Bevölkerungsstichprobe mit stark rechtsschief verteilter, niedriger durchschnittlicher Depressivität. Als nächste Schritte werden die Bestätigung der exploratorischen Befunde, die Untersuchung klinischer Stichproben und die
Fortsetzung der Suche nach geeigneten Formulierungen zur Abbildung der OriginalItems, die Schlaf und Appetit betreffen, angeregt.
Mit dem BDI-II-V als vereinfachter Version des BDI-II steht damit ersten Erkenntnissen zufolge ein reliables, valides und ökonomisches Instrument zur Erfassung von Depressivität in Anlehnung an die Kriterien der (Textrevision der) vierten Auflage des
Diagnostischen und Statistischen Manuals Psychischer Störungen (DSM-IV(-TR)) der
American Psychiatric Association (1994/2000) zur Verfügung. Es steht dem Original in
den Messeigenschaften nicht nach, deskriptive Ergebnisse sprechen für eine gute Konvergenz der beiden Instrumente. Vollständige Messäquivalenz konnte bislang nicht belegt werden, weshalb es weiterer Analysen bedarf, bevor das BDI-II-V dem Original als
Zusammenfassung
12
Alternative für Verwendungszusammenhänge, in denen es besonders auf Messökonomie ankommt, zur Seite gestellt werden könnte.
Schlüsselwörter: Beck Depressionsinventar, Messäquivalenz, Messökonomie, Methodenfaktor.
Einleitung
13
1 Einleitung

Ein Aspekt, von dem die Qualität einer wissenschaftlichen Studie entscheidend abhängt, ist die Sicherstellung der internen Validität. Dazu bedarf es der Möglichkeit,
alternative Erklärungen für die eigenen Befunde neben den Bedingungen, deren
Auswirkungen man untersuchen möchte, so weit wie möglich auszuschließen. Aspekte, von denen man schon weiß oder vermutet, dass sie einen Einfluss auf die abhängige Variable ausüben, können kontrolliert werden. Handelt es sich um zum Beispiel um Einflussgrößen, die mittels Fragebögen erfasst werden können, ist es eine
einfach umzusetzende Kontrolltechnik, die Konstrukte zu erheben und damit statistisch konstantzuhalten (Gollwitzer & Jäger, 2007).

In vielen Fällen sind Theorien und Modelle sehr komplex und umfassen zahlreiche
Einflussgrößen auf ein Konstrukt, direkte Beziehungen, moderierende Bedingungen
und Mediatoren. Alle diese Variablen müssen in Überprüfungen der Modelle und
Theorien erfasst werden.

Eine Möglichkeit, die Reliabilität, mit der ein Konstrukt gemessen wird, zu erhöhen,
besteht darin, mehrere Variablen, die Indikatoren für dieses Konstrukt darstellen, zu
erheben und zu aggregieren (Gollwitzer & Jäger, 2007).
Dies sind nur drei sehr allgemeine Beispiele dafür, dass im Rahmen einer wissenschaftlichen Untersuchung häufig eine umfangreiche Anzahl an Variablen berücksichtigt
werden muss, um zu möglichst hochwertigen Erkenntnissen zu gelangen.
Ist man darauf angewiesen, Freiwillige für die Teilnahme an der eigenen Studie zu gewinnen und hat dabei nicht die Möglichkeit, attraktive Anreize zum Beispiel finanzieller Art zu bieten, kann ein großer Umfang der Untersuchung(smaterialien), wie etwa
eine große Anzahl zu bearbeitender Fragebögen, allerdings zu einem Nachteil geraten:
Zeit ist ein hohes Gut. Je länger die Teilnahme an einer Studie dauert, desto schwieriger
ist es für die meisten, sich darauf einzulassen.
Daraus entsteht ein Interessenkonflikt für den Forschenden. Die Anzahl benötigter Variablen ergibt sich aus der theoretischen Fragestellung. Eine Reduktion der wünschenswerten Parameter wirkt sich notwendigerweise auf die Qualität der Ergebnisse aus.
Doch umfangreiche Untersuchungsmaterialien erschweren das Gewinnen von großen
Stichproben, wenn man nicht auf Studenten, die Versuchspersonenstunden abzuleisten
Einleitung
14
haben, zurückgreifen kann oder möchte und auch keine Möglichkeiten hat, die Probanden (finanziell) zu entschädigen.
Im klinischen Kontext sind die begrenzenden Faktoren andere. Auch hier ist der Umfang der „Fragebogenbatterien“, die Patienten mindestens zur Eingangs- und Entlassdiagnostik, häufig auch an zusätzlichen Zeitpunkten im Verlauf einer Behandlung ausfüllen sollen, oft sehr hoch. Die Notwendigkeit einer möglichst guten Erfassung der Beschwerden eines Patienten, aber auch ihrer Besserung zu Zwecken der Therapieplanung
und -evaluation macht die Umfänge erforderlich. Gleichzeitig sind solche Untersuchungen in vielen Fällen wiederum mit wissenschaftlichen Zielen der Erforschung klinischer
Fragestellungen verbunden.
Hier geht es weniger darum, „Unbeteiligte“ zu einer freiwilligen Teilnahme zu bewegen. Bei der Menge an und Komplexität der Instrumente ist viel mehr die Belastungsgrenze von Patienten zu berücksichtigen. Je länger und komplexer die Fragebögen ausfallen, desto eher befürchten Patienten, dem nicht gewachsen zu sein. So lange Papierund-Bleistift-Verfahren zum Einsatz kommen, spielt zudem der Verbrauch finanzieller
Ressourcen von Kliniken eine Rolle, denn es fallen sowohl Druckkosten wie auch Personalkosten durch das Eingeben oder –lesen der Fragebögen an.
Wie können die Interessenkonflikte entschärft werden?
Ein Ansatz besteht darin, die einzelnen Instrumente möglichst ökonomisch zu gestalten.
Die Ökonomie ist ein Gütekriterium psychometrischer Verfahren. Ein ökonomischer
Test oder Fragebogen beansprucht gemessen am diagnostischen Erkenntnisgewinn relativ wenige Ressourcen (Schermelleh-Engel, Kelava & Moosbrugger, 2006). Instrumente
müssen objektiv, reliabel und valide sein. Je ökonomische sie dabei sind, umso besser
ist es.
Diese Arbeit beschäftigt sich mit der Gestaltung eines ökonomischen Fragebogens. Sie
unterbreitet einen Vorschlag für eine vereinfachte Variante eines der wichtigsten Instrumente zur Bestimmung des Schwergrads depressiver Symptome, die zweite Auflage
des Beck Depressionsinventars (BDI-II, in der deutschen Ausgabe von Hautzinger,
Keller & Kühner, 2006). Das Ziel ist, einen verkürzten Fragebogen zur Verfügung zu
stellen, der in Verwendungszusammenhängen, in denen es auf Testökonomie ankommt,
eine Alternative zum Original darstellen könnte.
Einleitung
15
Das BDI-II weist hervorragende psychometrische Eigenschaften sowie eine sehr hohe
Validität auf. Doch obwohl es aus einer überschaubaren Anzahl von 21 Items besteht,
müssen beim Ausfüllen 90 Aussagen gelesen und abgewogen werden. Dieses Verhältnis
sollte optimiert werden.
Ein solches Vorhaben gelang bereits für die deutsche Übersetzung der erste Auflage des
Inventars (BDI, Hautzinger, Bailer, Worall & Keller, 1994) für die Schmitt und Maes
(2000) eine Vereinfachung vorschlugen, welche die Anzahl der Aussagen, die in den 21
Items enthalten waren, von damals 85 auf 20 reduzierten, ohne die Güte der psychometrischen Eigenschaften des Inventars zu schmälern.
Kapitel 2 stellt zunächst das Krankheitsbild der Depression dar, damit ein Eindruck entsteht, welche Symptome dieses ausmachen und von Instrumenten zur Beurteilung einer
Depression erfasst werden müssen. Die Zusammenhänge zwischen Depression und Persönlichkeit spielen eine Rolle in der Validierung der vorgeschlagenen Vereinfachung
des BDI-II und werden daher anschließend beleuchtet. Entstehung und Geschichte des
Beck Depressionsinventars werden im Folgenden beschrieben und schließen mit der
Vorstellung des Vorschlags für ein verkürztes BDI-II. Damit dieser Vorschlag tatsächlich eine Alternative zum Original darstellen kann, muss nachgewiesen werden, dass er
dem Original äquivalent ist. Die Messäquivalenz und ihre Überprüfung werden daher
im letzten Abschnitt des zweiten Kapitels behandelt.
Kapitel 3 konkretisiert die Fragestellungen und Hypothesen dieser Arbeit.
Kapitel 4 ergänzt Informationen zu den eingesetzten Instrumenten, die in Kapitel 1 noch
nicht dargestellt wurden, und beschreibt die Durchführung der Untersuchung. Im Anschluss werden die Modelle konfirmatorischer Faktorenanalysen veranschaulicht, die
zur Testung der Messäquivalenzhypothesen spezifiziert wurden. Es folgen spezifische
Informationen zur verwendeten Software sowie zur Testung und Beurteilung der Modelle. Das Kapitel schließt mit der Darstellung der Aufbereitung der Rohdaten vor den
Analysen.
Kapitel 5 berichtet die Ergebnisse zu den einzelnen Hypothesen.
Kapitel 6 fasst die Ergebnisse zusammen, vergleicht sie mit den Befunden bisheriger
Studien und versucht eine Interpretation. Anschließend werden Durchführung und
Einleitung
16
Auswertung der Arbeit kritisch reflektiert. Im letzten Abschnitt wird nach einem kurzen
Fazit zusammengestellt, welche Schritte sich an diese Arbeit anschließen könnten.
Theorie
17
2 Theorie
Der erste Abschnitt des Theorieteils beschreibt das Krankheitsbild der Depression und
seine gesellschaftliche Bedeutung. Im Anschluss werden Befunde dazu dargestellt, wie
Depression mit Persönlichkeitseigenschaften zusammenhängt. Der nächste Abschnitt ist
dem Beck Depressionsinventar (Beck, Ward, Mendelson, Mock & Erbaugh, 1961) gewidmet. Er beschreibt die Geschichte seiner Entstehung und Veränderung bis heute und
schließt mit der Vorstellung eines Vorschlags zur Vereinfachung der aktuellen deutschen Auflage dieses Inventars (Hautzinger et al., 2006). Der letzte Teil des Theoriekapitels widmet sich dem Konzept der Messäquivalenz.
2.1 Depression
Dieser Abschnitt widmet sich dem Störungsbild der Depression. Auf eine Schilderung
der Symptome folgt die diagnostische Klassifikation depressiver Erkrankungen. Im Anschluss wird darauf eingegangen, von welchen Störungsbildern die Depression abzugrenzen ist (Differentialdiagnostik) und welche Erkrankungen häufig mit Depressionen
auftreten (Komorbidität).
Um der Bedeutung des Themas Ausdruck zu verleihen, schließen nationale und internationale Befunde zu Prävalenz und gesellschaftlichen Auswirkungen sowie einige Beispiele für volkswirtschaftliche Konsequenzen, bezogen auf die Bundesrepublik
Deutschland, den Abschnitt ab.
2.1.1 Symptome
Schwermütigkeit, Freudlosigkeit, emotionale Leere, Antriebslosigkeit, Hoffnungslosigkeit, Ängste, Selbstzweifel, Schuldgefühle, Reizbarkeit, Schlafstörungen oder körperliche Beschwerden wie zum Beispiel Schmerzen sind nur einige der Anzeichen depressiver Erkrankungen (Hautzinger, 2010; Saß, Wittchen, Zaudig & Houben, 2003).
Viele der Gefühlszustände und Beschwerden treten bei allen Menschen als normale,
gesunde Reaktion auf negative Erfahrungen wie Verlust, Misserfolg, Belastung oder
Erschöpfung auf (Hautzinger, 2010). In bestimmten Situationen wäre daher das Ausbleiben der Anzeichen von Niedergeschlagenheit oder Traurigkeit ungewöhnlicher als
ihr Vorhandensein. Selbst das vorübergehende Erleben einzelner depressiver Symptome
Theorie
18
auch ohne erkennbaren Grund rechtfertigt nicht automatisch die Annahme einer depressiven Erkrankung. Wird jedoch eine bestimmte Intensität und/oder Dauer der Symptome überschritten, kann nicht mehr von einer normalen Reaktion, sondern muss von einem klinisch auffälligen Zustand gesprochen werden (Hautzinger, 2010). „Wann und
wodurch die Grenze (…) überschritten wird, gehört unverändert zu den ungelösten Fragen im Zusammenhang mit depressiven Störungen“ (Hautzinger, 2010, S. 1)
Die Symptome eines akuten depressiven Syndroms betreffen Gefühlsleben, Motivation,
Denken, körperliches Empfinden, Verhalten, Motorik und Interaktion (Hautzinger,
2010). Dass jeder Mensch, der an einer Depression leidet, ein individuelles Muster an
Symptomen zeigt, stellt hohe Ansprüche an die Diagnostik depressiver Störungen (vgl.
Hautzinger, 2010).
Die Intensität der Depressivität reicht von leicht gedrückter Stimmung bis hin zu tiefer,
auswegloser Verzweiflung, in der jede Emotion verloren geht, so dass die Betroffenen
sich innerlich wie versteinert fühlen (Laux, 2009). Das große Leid, das eine Depression
bedeutet, geht einher mit der Unfähigkeit, Hoffnung auf Besserung zu empfinden. Häufig treten lebensmüde Gedanken auf. Von denjenigen, die von einer schweren Depression betroffen sind, nehmen sich 15% das Leben (Saß et al., 2003).
2.1.2 Diagnostische Klassifikation
Depressive Störungen gehören zu den affektiven Störungen, psychische Erkrankungen,
bei welchen das herausragende Merkmal eine krankhafte Veränderung der Stimmung
darstellt (Laux, 2009). Das Diagnostische und Statistische Manual Psychischer Störungen (Textrevision der vierten Auflage, DSM-IV-TR) der American Psychiatric Association (APA, 2000; verwendet in der deutschen Übersetzung von Saß et al., 2003) klassifiziert zu den affektiven Störungen neben den depressiven Störungen die bipolaren Störungen sowie andere affektive Störungen. Die depressiven Störungen (Monopolare Depressionen) werden im DSM-IV-TR untergliedert in die Major Depression, die dysthyme Störung sowie die nicht näher bezeichnete depressive Störung. Zu den bipolaren
Störungen zählen in dem Klassifikationssystem die bipolar I Störung, die bipolar II
Störung, die zyklothyme Störung sowie die nicht näher bezeichnete bipolare Störung.
Die anderen affektiven Störungen umfassen die affektive Störung aufgrund eines medizinischen Krankheitsfaktors, die substanzinduzierte affektive Störung und die nicht nä-
Theorie
19
her bezeichnete affektive Störung. Abbildung 1 veranschaulicht die Klassifikation der
Affektiven Störungen nach DSM-IV-TR (Saß et al., 2003).
Affektive Störungen
Depressive Störungen
Major
Depression
Dysthyme
Störung
Nicht Näher
Bezeichnete
Depressive
Störung
Bipolar I
Störung
Abbildung 1
Andere Affektive
Störungen
Bipolare Störungen
Affektive Störung
Aufgrund eines
Medizinischen
Krankheitsfaktors
Bipolar II
Störung
Zyklothyme
Störung
Substanzinduzierte
Affektive
Störung
Nicht Näher
Bezeichnete
Affektive
Störung
Nicht Näher
Bezeichnete
Bipolare
Störung
Klassifikation der Affektiven Störungen nach DSM-IV-TR
Da die vorliegende Arbeit sich mit Instrumenten zur Erfassung der Depressivität beschäftigt, soll im Folgenden vornehmlich auf die Gruppe depressiver Störungen und
dabei insbesondere auf die Merkmale einer Major Depression eingegangen werden.
Symptome oder Episoden einer Major Depression treten jedoch auch im Rahmen der
bipolaren Störungen und der anderen affektiven Störungen auf und müssen auch dort
erkannt und diagnostiziert werden. Gleichzeitig ist es wichtig, die verschiedenen affektiven Störungen voneinander abgrenzen zu können. Daher wird an geeigneter Stelle im
Text sowie am Ende des Abschnitts kurz auf diese Störungen Bezug genommen, um zu
schildern, in welchem Verhältnis Symptome der Depression zu diesen weiteren Erkrankungen aus der Gruppe der affektiven Störungen stehen.
Eine Depressive Episode nach DSM-IV-TR (Saß et al., 2003, vgl. S. 398 ff. und S. 406
f.) liegt vor, wenn von den folgenden Symptomkriterien (A-Kriterien) mindestens eines
der beiden ersten Kriterien (A1/A2), daneben mindestens vier der weiteren Kriterien
(A3 bis A9) über mindestens zwei aufeinander folgende Wochen „an fast jedem Tag die
meiste Zeit des Tages“ (S. 398) bestehen. Die Symptome müssen dabei „in klinisch
Theorie
20
bedeutsamer Weise“ (S. 406) zu Leiden oder Beeinträchtigungen in sozialen, beruflichen oder anderen wichtigen Funktionsbereichen führen.

Kriterium A1: Depressive Verstimmung, d. h. die Betroffenen geben an, sich „depressiv, traurig, hoffnungslos, entmutigt oder niedergeschlagen“ (S. 398) zu fühlen;
in einigen Fällen werden vorrangig oder ausschließlich körperliche Beschwerden
geschildert oder die Betroffenen fühlen sich eher gereizt und verärgert als traurig

Kriterium A2: Verlust von Interesse oder Freude an Aktivitäten, an denen früher
Freude empfunden wurde, z. B. Hobbys, bis hin zu einem generellen Desinteresse
oder der vollkommenen Unfähigkeit, Freude zu empfinden; die Interessenminderung oder Interesselosigkeit kann auch das sexuelle Verlangen betreffen

Kriterium A3: Verminderter Appetit bis hin zur Appetitlosigkeit, was sich in unbeabsichtigter Gewichtsabnahme niederschlagen kann bzw. bei Kindern in einem
Ausbleiben der erwarteten Gewichtszunahme; auch der umgekehrte Fall, gesteigerter Appetit oder Heißhunger mit Gewichtszunahme in der Folge, ist möglich

Kriterium A4: Schlafstörungen, meist in Form von Ein- oder Durchschlafstörungen
oder frühmorgendlichem Erwachen; seltener auch der umgekehrte Fall, Hypersomnie mit vermehrtem Nachtschlaf oder Schlafen während des Tages

Kriterium A5: Psychomotorische Symptome, entweder in Form von Unruhe und
Agitiertheit oder in Form von psychomotorischer Verlangsamung (z. B. Verlangsamung der Sprache, des Denkens und der Bewegungen); die Symptome dürfen nicht
nur subjektiv empfunden werden, sondern müssen von anderen beobachtbar sein

Kriterium A6: Müdigkeit oder Energieverlust, die Betroffenen fühlen sich matt oder
empfinden schon kleinste alltägliche Verrichtungen als außergewöhnliche Anstrengung

Kriterium A7: Gefühle von Wertlosigkeit oder auch übermäßige oder inadäquate
Schuldgefühle, die sich z. B. in unverhältnismäßigen Selbstvorwürfen bei kleineren
Versäumnissen manifestieren können; die Wertlosigkeits- oder Schuldgefühle können so weit gesteigert sein, dass die Wahnkriterien erfüllt werden

Kriterium A8: Verminderte Denk- oder Konzentrationsfähigkeit, Gedächtnisprobleme und/oder Schwierigkeiten, Entscheidungen zu treffen.

Kriterium A9: Gedanken an den Tod oder Suizid, Suizidabsichten, -planung
und -versuche bis hin zum vollendeten Suizid
Theorie
21
Das Vorliegen einer solchen Episode einer Major Depression ist die Voraussetzung für
die Diagnose einer Major Depression. Weitere Bedingungen, die nach DSM-IV-TR
(Saß et al., 2003) erfüllt sein müssen, bevor eine Episode einer Major Depression angenommen oder die Diagnose einer Major Depression vergeben werden darf, betreffen die
Differentialdiagnostik. In diesem Abschnitt soll dabei nur auf die Abgrenzung der verschiedenen affektiven Störungen voneinander eingegangen werden. Andere differentialdiagnostische Notwendigkeiten, die das DSM-IV-TR in seinen Kriterien herausstellt,
werden im folgenden Abschnitt (2.1.3) gemeinsam mit weiteren Hinweisen zur Differentialdiagnostik dargestellt.
Vor allen Dingen muss ausgeschlossen werden, dass die Symptome als direkte körperliche Folge eines medizinischen Krankheitsfaktors erklärt werden können oder lediglich
der direkten körperlichen Wirkung einer Droge, eines Medikaments oder der Exposition
gegenüber einem Toxin zuzurechnen sind. In diesem Falle wäre eine affektive Störung
aufgrund eines medizinischen Krankheitsfaktors respektive eine substanzinduzierte affektive Störung zu diagnostizieren (Saß et al., 2003). Außerdem muss gesichert werden,
dass keine gemischte Episode (also eine Mischung der depressiven Symptomatik mit
Symptomen der Manie) vorliegt. Ebenso müssen manische, gemischte oder hypomane
Episoden in der Vergangenheit, die nicht der Wirkung von Substanzen wie beispielsweise Drogen oder Medikamenten oder einem somatischen Krankheitsfaktor zugeschrieben werden können, ausgeschlossen werden (Saß et al., 2003). Manische Episoden sind dabei Phasen abnorm gehobener oder auch reizbarer Stimmung, bis hin zu
Größenwahn oder anderen wahnhaften Überzeugungen, wie zum Beispiel dem Glauben,
fliegen zu können. Die Merkmale einer hypomanen Episode entsprechen im Prinzip
denen einer manischen Episode, jedoch dürfen keine Wahnideen oder Halluzinationen
auftreten.
Die Major Depression kann dann weiter klassifiziert werden als einzelne Episode oder
rezidivierend, d. h. wiederkehrend, was bedeutet, dass es sich um mindestens das zweite
Auftreten einer depressive Episode im Laufe des Lebens handelt (Saß et al., 2003).
Darüber hinaus kann eine Major Depression nach DSM-IV-TR (Saß et al., 2003) eingestuft werden als leicht, mittelschwer oder schwer. Die Einstufung geschieht in Abhängigkeit von der Anzahl der erfüllten Kriterien, dem Schweregrad der Symptome und
dem Ausmaß der Beeinträchtigung in der Ausübung der beruflichen und/oder sozialen
Verpflichtungen beziehungsweise des subjektiven Leidens, das der Patient berichtet
Theorie
22
(vgl. Saß et al., 2003). Bei einer schweren Episode wird zudem danach unterschieden,
ob psychotische Symptome vorliegen oder nicht. Psychotische Merkmale im Rahmen
einer Major Depression sind in aller Regel stimmungskongruent, d. h. der Inhalt des
Wahns oder der Halluzinationen „passt“ zur depressiven Stimmung des Patienten und
dreht sich zum Beispiel um Themen wie Schuld (Schuldwahn), Bestrafung (Bestrafungswahn), Verarmung (Verarmungswahn), Krankheit (hypochondrischer Wahn) oder
das Gefühl, nicht zu existieren (nihilistischer Wahn); bei Halluzinationen kann es sich
z. B. um Stimmen handeln, die die Person beschimpfen (Laux, 2009; Saß et al., 2003).
Im Unterschied zur Major Depression handelt es sich bei der dysthymen Störung um
eine depressive Erkrankung, die durch besonders lange Dauer (Chronizität), gleichzeitig
aber durch eine etwas mildere Ausprägung der Symptomatik gekennzeichnet ist (Saß et
al., 2003).
Unter die nicht näher bezeichnete depressive Störung werden im DSM-IV-TR (Saß et
al., 2003) solche Fälle subsummiert, in denen zwar depressive Symptome vorliegen, die
aber nicht eindeutig einer anderen, spezifischen Störungskategorie des Manuals zugeordnet werden können.
Episoden oder Symptome einer Major Depression können bei Patienten, die an einer
bipolaren Störung (bipolar I Störung, bipolar II Störung, zyklothyme Störung oder nicht
näher bezeichnete bipolare Störung) leiden, im Wechsel oder gleichzeitig mit manischen oder hypomanen Episoden oder Symptomen auftreten (Laux, 2009; Saß et al.,
2003).
Die genaue Beschreibung der bipolaren Störungen und des Zusammenspiels von depressiven und (hypo)manischen Episoden bei diesen Erkrankungen soll hier nicht vorgenommen werden. Entscheidend ist, dass in der Diagnostik affektiver Erkrankungen
schon eine einzige manische, hypomane oder gemischte Episode im Laufe des Lebens
die Diagnose einer depressiven Störung unmöglich macht bzw. das Abändern einer zuvor gültigen Diagnose einer depressiven Störung in die jeweilige Kategorie einer bipolaren Störung erfordert (Dilling, Mombour & Schmidt, 2010; Saß et al., 2003).
Während der Darstellung in diesem Kapitel mit dem DSM-IV-TR das in den USA gültige diagnostische Manual der American Psychiatric Association zugrunde gelegt wurde, das darüber hinaus weltweit standardmäßig in der wissenschaftlichen Forschung
Theorie
23
Verwendung findet, ist die Basis von Diagnostik und Kostenabrechnung im deutschen
Gesundheitssystem das Klassifikationssystem der Weltgesundheitsorganisation (World
Health Organization, WHO; aktuelle Version ist die ICD-10; deutsche Übersetzung von
Dilling et al., 2010). Zur Orientierung wurde hier das DSM-IV-TR (Saß et al., 2003)
gewählt, weil die Items der Revision des Beck Depressionsinventars (BDI-II; Beck,
Steer & Brown, 1996; deutschsprachige Version von Hautzinger et al., 2006), welches
Gegenstand dieser Arbeit ist, explizit auf die diagnostischen Kriterien für die Episode
einer Major Depression dieses Diagnosemanuals abgestimmt wurden. Die Geschichte
des Beck Depressionsinventars und die Hintergründe der Abstimmung der Revision
dieses Selbstbeurteilungsfragbogens zur Beurteilung der Schwere einer depressiven
Symptomatik auf die DSM-Kriterien der Major Depression werden in Abschnitt 2.3
dargestellt. Tabelle 15 und Tabelle 16 in Anhang A ordnen den oben aufgeführten diagnostischen Kriterien des DSM-IV-TR einer depressiven Episode die einzelnen Items des
Beck Depressionsinventars zu.
Die Unterschiede zwischen den Klassifikationssystemen DSM-IV-TR (Saß et al., 2003)
und ICD-10 (Dilling et al., 2010) in der Beschreibung und Diagnostik depressiver Störungen sind nicht von grundlegender Natur und spielen für die vorliegende Arbeit keine
Rolle.
2.1.3 Differentialdiagnostik
Es soll nun kurz geschildert werden, von welchen Erkrankungen die akute Depression
(Major Depression nach DSM-IV-TR, Saß et al., 2003; depressive Episode nach
ICD-10, Dilling et al., 2010) differenzialdiagnostisch abzugrenzen ist.
Die Differenzierung innerhalb der affektiven Störungen wurde im vorangegangenen
Kapitel bereits dargestellt. Betont werden soll noch einmal die Notwendigkeit, vor der
Diagnose einer Major Depression oder depressiven Episode organische Ursachen einschließlich der Verursachung durch Medikamente oder Drogen mit den zu Gebote stehenden medizinisch-diagnostischen Verfahren auszuschließen (Laux, 2009). Als
schwierig erweist sich dabei bei älteren Patienten oft die differentialdiagnostische Abgrenzung zu einer (beginnenden) Demenz (Laux, 2009).
Weiterhin muss gesichert werden, dass es sich nicht um eine vorübergehende Stimmungsschwankung handelt, welche nicht die Dauer, die Schwere oder vorgegebene(n)
Theorie
24
Symptome(anzahl) einer depressiven Episode erreicht (Laux, 2009). Ebenso darf eine
normale Trauerreaktion nach dem Verlust einer nahestehenden Person nicht zu der
Fehldiagnose einer depressiven Erkrankung führen (Dilling et al., 2010; Saß et al.,
2003).
Nicht leicht fällt die Differentialdiagnose der Depression gegenüber Angsterkrankungen, somatoformen Störungen, der (depressiven) Anpassungsstörung, der (posttraumatischen) Belastungsstörung und der pathologischen Trauer (Laux, 2009).
Auszuschließen sind ferner psychotische Erkrankungen (schizoaffektive Störung, Schizophrenie, schizophrenieforme Störung, wahnhafte Störung oder psychotische Störung)
als Ursache der Symptome (Saß et al., 2003).
2.1.4 Komorbidität
Depressive Patienten sind häufig von mindestens einer weiteren körperlichen oder psychischen Erkrankung betroffen.
Hautzinger (2010) gibt an, dass 77% der depressiven Patienten an mindestens einer weiteren psychischen Erkrankung, darunter am häufigsten eine Angststörung, somatoforme
Störung oder Substanzabhängigkeit, leiden. Doch auch Substanzmissbrauch, Zwangsstörungen, Posttraumatische Belastungsstörungen, Essstörungen, Schlafstörungen, Sexuelle Störungen, schizophrene Störungen und bestimmte Persönlichkeitsstörungen sind
häufig mit Depressionen assoziiert (Hautzinger, 2010). Weitere psychiatrische Diagnosen, mit denen eine Komorbidität besteht, sind Demenz, Parkinson und Schlaganfall
(Laux, 2009).
Zu den somatischen Erkrankungen, für die bei depressiven Patienten ein erhöhtes Risiko besteht, zählen Diabetes, koronare Herzerkrankung, COPD (Chronisch Obstruktive
Lungenerkrankung) und Arthritis (Laux, 2009).
Zwischen der Depression und komorbiden Krankheiten bestehen dabei höchst komplexe
Beziehungen und (negative) wechselseitige Beeinflussungen. So verschlechtert körperliche und psychiatrische Komorbidität die Prognose depressiver Erkrankungen, umgekehrt verschlechtert sich der Zustand körperlich erkrankter Menschen, wenn eine Depression hinzutritt (Gastpar, 2006; Laux, 2009; Lederbogen, 2006). Dabei kann die Depression „primäre“ Erkrankung sein oder in der Folge zum Beispiel als Reaktion auf
Theorie
25
eine belastende körperliche oder seelische Erkrankung entstehen (vgl. Hautzinger,
2010).
2.1.5 Epidemiologie und gesellschaftliche Bedeutung
In Deutschland sind zu jedem Zeitpunkt etwa 5.6% der Menschen von einer unipolaren
depressiven Erkrankung1 betroffen (Vier-Wochen-Punktprävalenz nach Ergebnissen des
repräsentativen Bundesgesundheitssurvey (BGS) 1998/99, Zusatzsurvey Psychische
Störungen; Jacobi et al., 2004). Innerhalb eines Jahres erkranken 10.7% der Deutschen
an einer depressiven Störung2. Das Risiko, im Laufe seines Lebens mindestens einmal
an einer an einer unipolaren depressiven Erkrankung zu leiden beträgt 17.1%3. Frauen
sind dabei – unabhängig davon, welche Prävalenzraten man betrachtet – etwa doppelt so
häufig von Depressionen betroffen wie Männer. So liegt zum Beispiel das Morbiditätsrisiko bezogen auf die Lebenszeit für Frauen bei 23.3%, jenes für Männer bei 11.1%
(Jacobi et al., 2004).
Aktuelle Zahlen für Europa zeichnen ein ähnliches Bild. Auf europäischer Ebene leiden
nach einer Auswertung von über 20 populationsbasierten, nach 1990 veröffentlichten
Studien innerhalb eines Jahres durchschnittlich 18.4 Millionen Menschen (6.9% der
europäischen Bevölkerung) an einer Major Depression4, wobei das Risiko für Frauen
zweimal so hoch ist wie jedes für Männer (Wittchen & Jacobi, 2005).
Dabei handelt es sich bei beiden Untersuchungen noch um konservative Schätzungen,
da nur die Bevölkerung zwischen 18 und 65 Jahren erfasst wurde (Wittchen & Jacobi,
2005). Während das Vollbild depressiver Erkrankungen bei Kindern selten ist, sind Jugendliche jedoch in zunehmendem Maße von Depressionen betroffen (Wittchen &
Jacobi, 2006). Bei älteren Menschen sind Depressionen wie bei Erwachsenen mittleren
Alters die häufigste psychische Erkrankung, die Prävalenz bei den über 65-Jährigen
wird auf mindestens 10% geschätzt (Bramesfeld & Stoppe, 2006; Laux, 2009).
Weltweit lagen die uniploraren depressiven Erkrankungen bereits im Jahre 2000 auf
dem vierten Rang der bedeutendsten Gründe für durch Behinderung verlorene Lebens1
Episode einer Major Depression oder Dysthymie, ohne depressive Episoden im Rahmen bipolarer Erkrankungen; bezogen auf alle affektiven Störungen (alle Episoden uni- und bipolarer Erkrankungen) liegt
der Prozentsatz bei 6.3%
2
bezogen auf alle affektiven Störungen: 11.9%
3
bezogen auf alle affektiven Störungen: 18.6%
4
bezogen auf alle affektiven Störungen: 20.8 Millionen (7.8%)
Theorie
26
jahre (Diability Adjusted Life Years, DALY). Damit waren sie für 4.4% der durch Erkrankung beeinträchtigten oder verlorenen Lebenszeit verantwortlich und die vierthäufigste Todesursache (Organisation mondiale de la Santé, OMS-WHO, 2001). Betrachtet
man nur die mit Beeinträchtigung gelebten Jahre des Lebens (ohne vorzeitige krankheitsbedingte Mortalität; Years Lived With Disability, YLD) so belegte die Depression
im Jahr 2000 den ersten Rang, war also für die meiste (11.9%) durch Behinderung beeinträchtigten Lebenszeit verantwortlich. Die Weltgesundheitsorganisation (OMSWHO, 2001) geht in ihrer Prognose für das Jahr 2020 davon aus, dass die Depression
hinter den kardiovaskulären ischämischen Erkrankungen auf Rang zwei der wichtigsten
Gründe für durch Behinderung verlorene Lebensjahre (DALY) liegen und 5.7% der
„globalen Krankheitslast“ (global burden of disease) ausmachen wird.
Affektive Erkrankungen bedeuten dabei nicht nur erhebliches Leid für die Betroffenen
und ihr direktes Umfeld, sie gehen auch mit immensen volkswirtschaftlichen Kosten
einher (Stamm & Salize, 2006). Die Kosten für die Behandlung affektiver Störungen
belaufen sich in Deutschland auf jährlich 4,03 Milliarden Euro (Stamm & Salize, 2006).
Hinzu kommen kaum abschätzbare Kosten aufgrund (häufig sehr langer Phasen von)
Fehlbehandlungen (Stamm & Salize, 2006; Zielke & Limbacher, 2004). Menschen, die
an einer Depression oder dysthymen Störung leiden, haben im Mittel übers Jahr etwa
doppelt so viele Krankheitstage wie Menschen, die nicht an einer depressiven Störung
leiden (24.9 Ausfalltage vs. 11.5 Ausfalltage; Zahlen des BGS 1998/99; Wittchen &
Jacobi, 2006). Im Jahre 2003 waren depressive Erkrankungen für 2.8% aller Arbeitsunfähigkeitstage verantwortlich und stellten damit die vierthäufigste Ursache für eine
Krankschreibung dar (Zahlen der Deutsche Angestellten-Krankenkasse (DAK); Zielke
& Limbacher, 2004). Depressionen waren im Jahre 2003 außerdem die häufigste Ursache für Berentung wegen verminderter Erwerbsfähigkeit (VDR-Verband Deutscher
Rentenversicherungsträger, 2004, zitiert nach Bramesfeld & Stoppe, 2006, S. 1).
Viele Betroffene suchen wegen ihrer Beschwerden jedoch nie einen Arzt auf oder ihre
depressive Erkrankung wird nicht erkannt (Laux, 2009). So gaben im Bundesgesundheitssurvey (BGS) nur gut 50% aller an einer depressiven Störung Erkrankten an, je
aufgrund dieser Beschwerden eine Behandlung aufgesucht zu haben oder dies von einem Arzt empfohlen bekommen zu haben (Jacobi et al., 2004). Somit dürfte der tatsächliche Umfang des Produktivitätsverlustes in Folge von Depressionen noch höher liegen
als es diese Zahlen dokumentieren.
Theorie
27
Das Statistische Bundesamt (2004, zitiert nach Stamm & Salize, 2006, S. 112) schätzt,
dass für das Jahr 2002 aufgrund von Arbeitsunfähigkeit, Invalidität und vorzeitigem
Tod im Zusammenhang mit affektiven Erkrankungen (für die Gruppe der Berufstätigen)
185.000 Erwerbstätigkeitsjahre beziehungsweise (bezogen auf die Gesamtbevölkerung)
528.000 Lebensjahre verloren gingen.
2.2 Depression und Persönlichkeit
Persönlichkeitsmerkmale stehen „in systematischen Beziehungen zum Verhalten und
Erleben und haben gravierende Konsequenzen, z. B. für Berufserfolg, Lebenserwartung
und Lebenszufriedenheit“ (Borkenau & Ostendorf, 2008, S. 27). Die Zusammenhänge
zwischen Depression und Persönlichkeit gehören zu den am besten untersuchten Bereichen innerhalb der Depressionsforschung (Kronmüller & Mundt, 2006).
Die aus der intensiven Beforschung des Feldes resultierenden Befunde sollen hier zu
Zwecken der Validierung einer im Rahmen dieser Arbeit vorgeschlagenen Vereinfachung eines etablierten Inventars zur Erfassung von Depressivität genutzt werden.
Daher soll in diesem Kapitel auf die Beziehungen zwischen Persönlichkeitseigenschaften und dem Auftreten von Depressionen eingegangen werden. Die Ausführungen werden sich auf die Beziehungen zwischen Depressivität und jenen fünf Merkmalen der
Persönlichkeit konzentrieren, welche sich in unzähligen Untersuchungen (Übersicht
siehe z. B. bei Borkenau & Ostendorf, 2008) als stabile Dimensionen zur Beschreibung
von Menschen und den Unterschieden zwischen ihnen herausgestellt haben: Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit.
Die fünf Faktoren werden auch als Big Five bezeichnet und im Fünf-Faktoren-Modell
der Persönlichkeit zusammengefasst (Allport und Odbert, 1936; Cattell, 1943, zit. nach
Borkenau und Ostendorf, 2008, S. 7). Die Eigenschaftsdimensionen können auf Ebene
der fünf Domänen (Borkenau & Ostendorf, 2008) oder etwas detaillierter zusätzlich auf
der Ebene der je sechs Facetten, die jede der fünf Domänen ausmachen (Ostendorf &
Angleitner, 2004), erfasst werden. Für eine ausführliche Beschreibung der Merkmalsbereiche Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit wird auf die Beschreibung des zur Erfassung eingesetzten Instrumentes
in Abschnitt 4.1.2 verwiesen.
Theorie
28
Im Folgenden werden Befunde zur Verbindung von Depressivität und den fünf Faktoren
der Persönlichkeit geschildert, wobei jedem Persönlichkeitsfaktor ein eigenes Unterkapitel gewidmet ist.
Vorausgeschickt wird ein Abschnitt zu methodischen Herausforderungen bei der Erhebung und Interpretation der Zusammenhänge und ein kurzer Überblick, welche Modelle
zur Beziehung zwischen Persönlichkeitsmerkmalen und Depression diskutiert werden.
2.2.1 Methodische Fragen und Modelle
In der Beforschung der Beziehung zwischen Depression und Persönlichkeitsmerkmalen
existieren methodische Schwierigkeiten, die bei der Interpretation der Befunde berücksichtigt werden müssen. Zwei Herausforderungen heben Kronmüller und Mundt (2006)
als besonders bedeutsam hervor. Zum einen die notwendige Unterscheidung zwischen
prä-, intra-, inter- und postmorbider Persönlichkeit, das heißt, die sorgfältige Klärung,
ob Persönlichkeitsmerkmale, die sich in Studien als mit Depressionen assoziiert darstellen, einer Erkrankung vorausgegangen sind, mit ihr vorübergehend auftreten oder mehr
oder weniger dauerhaft aus ihr resultieren. Diese Frage des zeitlichen Vor- oder Nachgeordnetseins kann nur in Längsschnittdesigns angegangen werden. Dabei muss beton
werden, dass jedoch auch Ergebnisse, die eine bestimmte zeitliche Abfolge nahelegen,
zum Beispiel, dass eine Erkrankung durch bestimmte Persönlichkeitszüge vorhergesagt
wird, nicht per se kausale Schlussfolgerungen, beispielsweise zu gemeinsamen Ursachen, erlauben (Bienvenu et al., 2004). Zum Zweiten betonen Kronmüller und Mundt
(2006), dass die Konfundierung von aktuellen Depressionssymptomen und Persönlichkeitsparametern berücksichtigt werden muss. Es ist bekannt, dass das akute Vorliegen
einer Depression die Werte auf einigen Persönlichkeitstraits beeinflusst (Costa, Bagby,
Herbst & McCrae, 2005). Die Gründe dafür liegen Costa et al. (2005) zufolge darin,
dass „personality traits are defined not by temporal stability but by their biological
bases, and that the stability normally seen in traits is a consequence of the stability of
the biological bases“ (S. 52). Ändern sich jedoch die biologischen Grundlagen, zu denen insbesondere genetische Einflüsse zählen, zum Beispiel durch eine Erkrankung, wie
etwa eine Depression, oder therapeutische Eingriffe als Reaktion auf eine Erkrankung,
ändern sich auch Gedanken, Gefühle und Handlungen. Die Wahrnehmung dieser Veränderungen durch das Individuum schlägt sich dann in einem veränderten Selbstkonzept
nieder. Dies führt dazu, dass sich Trait Levels verändern, wie sie eben zum Beispiel in
Theorie
29
Persönlichkeitsfragebögen erfasst werden. Bessert sich das Befinden nach einer Erkrankung, verändern sich die Werte auf den Persönlichkeitsdimensionen erneut.
Dies bedeutet nicht, dass unter diesen Bedingungen erhobene Befunde als nicht reliabel
oder valide zu betrachten sind, wie Costa et al. (2005) betonen. Es muss lediglich bei
der Interpretation in Betracht gezogen werden, unter welchen Umständen die Ergebnisse zu Stande gekommen sind. Sie dürfen so lange als reliable und valide Abbildung der
Persönlichkeitsmerkmale eines Menschen betrachtet werden, wie auch die Umstände
bei der Messung vorliegen.
Dieser Umstand stellt eine Herausforderung für die Forschung zu den Zusammenhängen zwischen Persönlichkeit und Depression (bzw. psychischer Erkrankung ganz allgemein) dar. Es gilt, durch geschickte Designs zwischen der akuten Assoziation und
darüber hinausgehenden, längerfristigen Zusammenhängen zu trennen (Duggan, Sham,
Lee, Minne & Murray, 1995; Kronmüller & Mundt, 2006; Trull & Sher, 1994). Zu den
Methoden, die dabei eingesetzt werden können, zählt die Untersuchung von Menschen,
die in ihrem Leben bereits Depressionen durchlitten haben, zum Zeitpunkt der Erhebung jedoch nicht unbedingt akut betroffen sind (das heißt, die Verwendung von so
genannten Lifetime-Diagnosen). Alternativ oder parallel kann die statistische Kontrolle
aktueller Symptombelastung erfolgen. Diese Maßnahmen schwächen die Problematik
etwas ab, ermöglichen aber dennoch keine kausalen Schlussfolgerungen, für die Längsschnittstudien erforderlich sind (Trull & Sher, 1994).
Außerdem kann das Auswählen nicht akut depressiver Patienten und/oder das statistische Herausrechnen der aktuellen Depressionsschwere die Problematik nicht vollständig beseitigen. Es bleibt die Konfundierung auf Ebene der Erfassungsinstrumente, welche darin besteht, dass (vor allem Selbstbeurteilungs-)Fragebögen zur Depressionsmessung auch Persönlichkeit, insbesondere das Persönlichkeitsmerkmal Neurotizismus,
messen und umgekehrt, die Items von Neurotizismusskalen sich mit denen von Depressionsfragebögen überschneiden (Kronmüller & Mundt, 2006).
Wie Persönlichkeitsmerkmale und Depression zusammenhängen, dafür gibt es verschiedene, sich nicht grundsätzlich ausschließende, sondern teilweise ergänzende Erklärungsmodelle (Klein, Wonderlich & Shea, 1993), die sich nach Kronmüller und Mundt
(2006) wie folgt zusammenfassen lassen: Das Prädispositionsmodell geht davon aus,
dass Persönlichkeitsmerkmale gemeinsam mit konstitutionellen und Umgebungsmerk-
Theorie
30
malen die Vulnerabilität für eine depressive Störung bestimmen. Im Spektrummodell
wird angenommen, dass bestimmte Persönlichkeitsauffälligkeiten als „subklinische
Manifestation der Depression“ (Kronmüller & Mundt, 2006, S.865) betrachtet werden
können. Das pathoplastische Modell vermutet, dass Persönlichkeitsmerkmale sich nicht
auf das Risiko für eine depressive Erkrankung, sondern auf das klinische Bild, den Verlauf und das Ansprechen auf bestimmte Behandlungen auswirken. Während das Komplikationsmodell annimmt, dass sich die Persönlichkeit in Folge einer Depression vorübergehend verändert, glaubt das Scar-Modell (Scar = engl. Narbe) an dauerhafte Veränderungen. Dass Persönlichkeitsmerkmale und Depression eine gemeinsame genetische Grundlage besitzen, davon geht schließlich das Gemeinsame-Ursachen-Modell
aus.
Die Erforschung, welches Modell zu welchen Anteilen für die Beziehung zwischen Depression und bestimmten Persönlichkeitsmerkmalen gelten könnte, hängt eng mit den
oben angesprochenen methodischen Herausforderungen zusammen. Nur Designs, die
diese Probleme berücksichtigen, können zur Klärung der zeitlichen und kausalen Zusammenhänge beitragen (Bienvenu et al., 2004; Duggan et al., 1995; Rosellini &
Brown, 2011; Trull & Sher, 1994). Wie beschrieben, sind dies insbesondere Längsschnittdesigns.
Die folgenden Abschnitte werden einige Befunde zum Zusammenhang zwischen Depressivität und Persönlichkeit zusammenstellen. Hauptsächlich werden Ergebnisse referiert, die in Studien gewonnen wurden, welche ein Querschnittdesign nutzten und zusätzlich das Konzept der Life-Time-Diagnosen anwandten oder die aktuelle Depressivität kontrollierten. Auch Korrelationsstudien werden berichtet. Diese Studien genügen
damit nicht den Ansprüchen, die man an wissenschaftliche Arbeiten zur Beforschung
von ursächlichen Strukturen stellen würde. Für die Zwecke dieser Arbeit sind sie jedoch
sehr gut geeignet, da aus den Befunden Ansprüche abgeleitet werden sollen, die innerhalb eines Querschnittdesigns an die Korrelationen eines validen Inventars zur Erfassung von Depressivität mit Persönlichkeitsvariablen zu stellen sind. Mit Blick auf die
Forderungen der Konstruktvalidität, die in Kapitel 3 genauer erläutert werden, gehen die
Ausführungen dennoch auf einige theoretische Erklärungen und mögliche Gründe ein,
die für die gefundenen Assoziationen vorgeschlagen wurden und teilweise über den
querschnittlichen Zusammenhang hinausweisen. In einigen Fällen fließen auch längsschnittliche Befunde ein.
Theorie
31
2.2.2 Neurotizismus
Neurotizismus gilt neben zwanghaftem Perfektionismus und sozialer Abhängigkeit als
„zentrales Persönlichkeitsmerkmal für Depression“ (Hautzinger, 2010, S. 26).
Unzählige Male repliziert ist der Befund, dass die Neurotizismuswerte von Patienten,
die akut an einer Depression leiden, bedeutsam höher sind als jene von gesunden Probanden (Kronmüller & Mundt, 2006). Aufgrund der oben angesprochenen Überschneidung der Messinstrumente für beide Konstrukte ist jedoch entscheidender, dass der Zusammenhang sich auch dann immer wieder fand, wenn diese Konfundierung statistisch
kontrolliert wurde (Kronmüller & Mundt, 2006).
Signifikant höhere Werte für Neurotizismus bei Verwandten von an einer Major Depression erkrankten Patienten, die selbst schon ein- oder mehrmals im Leben eine depressive Episode erlebt hatten, im Vergleich zu solchen Verwandten dieser Patienten,
die selbst noch nie im Leben an einer Depression gelitten hatten, fanden Wissenschaftler in einer britischen Studie (Duggan et al., 1995). Die signifikanten Unterschiede blieben bestehen, wenn die aktuellen Depressionswerte auspartialisiert wurden, was die
Autoren als Anhaltspunkt dafür werten, dass „high N[euroticism] is more than a state
effect of being depressed“ (S. 142). Sie schlussfolgern: „Our data indicate, that, while
there is an overlap between depressive symptoms and neuroticism, they are also separate in their effects“ (S. 142).
Bienvenu et al. (2004) und Trull und Sher (1994) verglichen in US-amerikanischen Bevölkerungsstichproben die Persönlichkeitsprofile von Menschen, die in ihrem Leben
mindestens einmal an einer von verschiedenen psychischen Störungen, darunter auch
depressive Störungen, erkrankt waren, mit den Persönlichkeitsprofilen von Menschen,
die bislang in ihrem Leben keine der betrachteten psychischen Erkrankungen erlebt hatten. Es zeigten sich signifikant höhere Neurotizismuswerte für die Gruppe derer mit
einer Lifetime-Diagnose Depression oder Dysthymia im Vergleich mit der Gruppe der
bislang nie Erkrankten. Bienvenu et al. (2004) erfassten dabei die Persönlichkeit mit
einem Instrument, das neben den globalen fünf Domänen auch die jeweils sechs Domänenfacetten misst, die Persönlichkeit also etwas differenzierter erfasst. Entsprechende
Analysen auf Ebene der Facetten ergaben, dass in der Gruppe der (ehemals oder aktuell)
Depressiven alle sechs Facetten des Neurotizismus, in der Gruppe der (ehemals oder
aktuell) an Dysthymia Erkrankten drei Facetten des Neurotizismus im Vergleich zur
Theorie
32
Gruppe der bislang Gesunden signifikant erhöht waren. Bienvenu et al. (2004) verglichen auch die Persönlichkeitstraits innerhalb der Depressions-Substichprobe zwischen
den Probanden, die aktuell Symptome aufwiesen und den Probanden, die gegenwärtig
voll remittiert waren. Es ergab sich, dass die akute Symptomatik auf Ebene der Faktoren
assoziiert war mit dem mittleren Neurotizismuswert und auf Ebene der Facetten mit
dem Ergebnis auf zwei Facetten des Neurotizismus.
Trull & Sher (1994) fanden ebenfalls, dass die Persönlichkeitsfaktoren einen signifikanten Beitrag zur Aufklärung der Varianz der verschiedenen DSM-II-R-Diagnosen
(American Psychiatric Association, 1987, zit. nach Trull & Sher, 1994, S. 351) ihrer
Probanden über das Geschlecht und aktuelle Symptombelastung hinaus leisten. Für die
Diagnose der Depression zählte der Neurotizismus zu den signifikanten (positiven) Prädiktoren.
An einer großen klinischen Stichprobe ambulant behandelter Patienten untersuchten
Rosellini & Brown (2011) ebenfalls in den USA in einem Strukturmodell die latenten,
messfehlerbereinigten Beziehungen zwischen den Dimensionen des Fünf-FaktorenModells und verschiedenen psychischen Erkrankungen. Auch in diesem Ansatz ergaben
sich hoch positive, signifikante Assoziation zwischen dem Faktor Neurotizismus und
der Dimension Depression auf verschiedenen Ebenen.
Es existieren zudem Längsschnittstudien, die nahelegen, dass impulsive und labile Persönlichkeitszüge einen Prädiktor für spätere depressive Erkrankungen darstellen, Neurotizismus also als prämorbides Persönlichkeitsmerkmal einer depressiven Erkrankung
vorausgehen kann (Hautzinger, 2010). Neurotizismus und Major Depression scheinen
eine gemeinsame genetische Grundlage zu haben (Kendler & Myers, 2010).
Gut gesichert ist zudem der Befund, dass Neurotizismus den Langzeitverlauf depressiver Erkrankungen ungünstig beeinflusst (Kronmüller & Mundt, 2006).
Entsprechend dieser Befunde korrelierte auch das deutsche BDI-II (Hautzinger et al.,
2006) in einer mittelgroßen Gemeindestichprobe hoch und signifikant positiv (r = .70)
mit der Skala Neurotizismus des NEO-FFI (Borkenau & Ostendorf, 1993). Niedrigere,
aber ebenso signifikante Korrelationen (r = .32) zwischen Neurotizismus, gemessen mit
dem NEO-FFI (Borkenau & Ostendorf, 1993) und einer anderen Depressionsskala, der
deutschen Version der CES-D (Center for Epidemiological Studies – Depression;
Theorie
33
Radloff, 1977, zit. nach Meyer, 2002; deutsch von Hautzinger & Bailer, 1993) ergaben
sich in einer deutschen Studie mit studentischer Stichprobe (Meyer, 2002).
2.2.3 Extraversion
Die Extraversion ist in Untersuchungen bei depressiven Patienten häufig geringer ausgeprägt als bei gesunden Kontrollprobanden, ohne dass sich jedoch durchgehend Normabweichungen im Vergleich zur Kontrollpopulation zeigen würden (Kronmüller &
Mundt, 2006).
Auch Trull und Sher (1994) sowie Bienvenu et al (2004) fanden in ihren Vergleichen
der Persönlichkeitstraits von Probanden aus der Normalbevölkerung mit einer bestimmten Störung in der Lebensgeschichte und Probanden, die in ihrem Leben bislang keine
solche Störung erlebt hatten, eine signifikante Verknüpfung zwischen depressiven Störungen in der Vergangenheit und niedrigerer Extraversion. In der Studie von Bienvenu
et al. (2004) zeigte sich der Zusammenhang allerdings nur für die (ehemals oder aktuell)
Dysthymie-Erkrankten auf der Ebene der Faktoren und der Facetten, in der Gruppe der
(ehemals oder aktuell) depressiven Probanden ließ sich nur in den Analysen auf Ebene
der Facetten ein Unterschied zu den Gesunden in Form einer signifikant niedriger gemessenen Facette finden.
(Niedrigere) Extraversion leistete wie Neurotizismus zusätzlich zum Geschlecht und zur
aktuellen Symptombelastung einen signifikanten Beitrag zur Vorhersage, ob ein Proband die Lifetime-Diagnose ,Depression‘ erhalten hatte oder nicht (Trull & Sher, 1994).
Auch im Strukturmodell von Rosellini und Brown (2011; s.o.) waren Depressionen in
einer klinischen Stichprobe signifikant negativ mit Extraversion verknüpft.
Mit dem deutschen BDI-II (Hautzinger et al., 2006) korrelierte die Extraversionsskala
des NEO-FFI (Borkenau & Ostendorf, 1993) in einer Bevölkerungsstichprobe in mittlerer Höhe negativ und hoch signifikant (r = -.36). Etwas niedriger, dennoch signifikant
negativ fiel die Korrelation zwischen der deutschen Version eines anderen Depressionsmaßes, der CES-D (Radloff, 1977, zit. nach Meyer, 2002; deutsch von Hautzinger &
Bailer, 1993), und Extraversion in einer Untersuchung von Meyer (2002) aus (r = -.19).
Extraversion könnte einen positiven Einfluss auf den Langzeitverlauf von Depressionen
ausüben (Enns und Cox, 1997, zit. nach Kronmüller & Mundt, 2006, S. 874).
Theorie
34
2.2.4 Offenheit für Erfahrung
Im Vergleich zu Menschen, die bislang nicht an einer Depression, einer Angst- oder
einer Abhängigkeitserkrankung gelitten hatten, hatten Menschen, die mindestens einmal
in ihrem Leben an einer Major Depression erkrankten, signifikant höhere Offenheitswerte in der Studie von Trull & Sher (1994). Nach Kontrolle für die Komorbidität in der
Stichprobe der Probanden mit einer Lifetime-Diagnose für eine oder mehrere der untersuchten Störungen blieb dabei zumindest ein Trend zur einer schwach positiven Verknüpfung der Depression mit Offenheit für Erfahrung bestehen. Offenheit gehörte außerdem neben Neurotizismus und Extraversion zu den (positiven) Prädiktoren, die über
Geschlecht und akute Symptome hinausgehend Varianz in der Frage aufklärten, ob ein
Proband an einer Depression gelitten hatte bzw. aktuell litt, oder nicht (Trull & Sher,
1994).
Allerdings waren die Autoren von ihren Befunden überrascht, hatten sie doch einen
negativen Zusammenhang erwartet: „The positive relationship between openness and
major depression seems somewhat counterintuitive“ (Trull & Sher, 1994, S. 358). Eine
mögliche Erklärung sei jedoch, dass die Erfahrung einer depressiven Episode zu einem
insgesamt höheren Maß an Offenheit (zum Beispiel erhöhter Sensibilität, Offenheit für
neue Ideen) führen könnte.
Bienvenu et al (2004) hatten in ihrer Untersuchung lediglich in den Analysen auf Ebene
der Facetten, nicht jedoch auf der Ebene der Faktoren, einen signifikanten Unterschied
zwischen Probanden mit der Lifetime-Diagnose Depression und Probanden, die bislang
keine depressive, Angst- oder Zwangserkrankung erlebt hatten, gefunden. Die teilweise
remittierten, teilweise jedoch auch akut depressiven Probanden erzielten nur auf einer
Facette signifikant höhere Werte als die bislang gesunden Probanden. In der Dysthymia-Substichprobe hatten sich keine signifikanten Unterschiede in der Offenheit im Vergleich zu Gesunden ergeben, weder auf Ebene der globalen Domänen, noch auf einer
der Domänenfacetten.
In der klinischen Stichprobe hatten Rosellini & Brown (2011) in ihren Analysen auf
latenter Ebene keine signifikante Verknüpfung zwischen dem Depressivitätsfaktor und
der Offenheitsdimension gefunden. Die entsprechende Korrelation lag nahe Null (jedoch im positiven Bereich) und war nicht signifikant.
Theorie
35
Die Korrelation zwischen dem BDI-II (Hautzinger et al., 2006) und der Offenheitsdomäne des NEO-FFI (Borkenau & Ostendorf, 1993) war in der Normalbevölkerung niedrig positiv (r = .09), wurde jedoch nicht signifikant (Hautzinger et al., 2006). In der Studie von Meyer (2002) korrelierte Depressivität, gemessen mit der deutschen Version der
CES-D (Center for Epidemiological Studies – Depression; Radloff, 1977, zit. nach
Meyer, 2002; deutsch von Hautzinger & Bailer, 1993) ebenfalls niedrig positiv (r = .14)
mit der Offenheit, erfasst über das NEO-FFI (Borkenau & Ostendorf, 1993), wobei der
Koeffizient signifikant wurde.
2.2.5 Verträglichkeit
In der Studie von Trull und Sher (1994) lag die Verträglichkeit in der Stichprobe der
zum Großteil remittierten depressiven Probanden zwar unter derjenigen in der Stichprobe der bislang nicht Erkrankten, der Unterschied wurde aber nicht signifikant. Bienvenu
et al. (2004) konnten keinerlei eindeutige Zusammenhänge zwischen der LifetimeDepression beziehungsweise -Dysthymia und dem Faktor oder den Faktorfacetten der
Verträglichkeit finden. Genauso wenig leistete die Verträglichkeit einen Beitrag zur
Unterscheidung zwischen Menschen, die in ihrem Leben depressive Episoden durchlebt
hatten und bislang Gesunden (Trull & Sher, 1994) und war auch im Modell von Rosellini und Brown (2011; s.o.) nicht signifikant mit depressiver Symptomatik verknüpft.
Die von Hautzinger et al. (2006) im Manual des BDI-II berichteten Werte für die Korrelation mit dem Persönlichkeitstrait Verträglichkeit fallen mittelhoch signifikant negativ
aus (r = -.25). In der Studentenstichprobe von Meyer (2002) war die Depressivität jedoch nicht mit Verträglichkeit assoziiert, der Koeffizient lag nur knapp unter Null
(r = -.05) und wurde nicht signifikant.
Entgegen den bisher berichteten Untersuchungsergebnissen negativer, häufig jedoch
nicht signifikanter Beziehungen zwischen Depressivität und Verträglichkeit, schreiben
Kronmüller und Mundt (2006), die Befundlage zum Zusammenhang zwischen Depression und Verträglichkeit sei heterogen, die bisherigen Ergebnisse würden jedoch eher
auf höhere Verträglichkeitswerte und damit verminderte Aggressivität bei Depressiven
hinweisen. DeNeve und Cooper (1998) fanden in einer Metaanalyse jedoch eine positive Beziehung zwischen Verträglichkeit und verschiedenen Komponenten des subjektiven Wohlbefindens (Lebenszufriedenheit, Happiness und positver Affekt) sowie eine
Theorie
36
negative Assoziation zwischen Verträglichkeit und negativem Affekt. Dies passt wiederum eher zu den oben berichteten Ergebnissen eines negativen Zusammenhangs zwischen Depressivität und Verträglichkeit (oder Verträglichkeit als einem protektiven
Faktor), wenngleich diese Schlussfolgerung natürlich nur sehr zurückhaltend zu interpretieren ist, da Depressivität nicht gleichgesetzt werden darf mit negativem Affekt und
auch nicht als das Gegenteil von subjektivem Wohlbefinden definiert ist.
2.2.6 Gewissenhaftigkeit
In der von Trull und Sher (1994) untersuchten Bevölkerungsstichprobe war eine etwas
niedrigere Gewissenhaftigkeit signifikant verknüpft mit der Lifetime-Diagnose Major
Depression. Die durchschnittlichen Werte auf der Skala Gewissenhaftigkeit und ihren
Facetten lagen auch bei Bienvenu et al. (2004) für die Stichproben der im Laufe ihres
Lebens an einer Depression oder Dysthymie Erkrankten durchgehend unter denen von
Probanden, die bislang keine Depression, Angststörung oder Zwangserkrankung erlebt
hatten. Signifikant wurde dabei aber nur ein Unterschied auf einer einzigen Facette.
Wie beschrieben, konnten Neurotizismus, Extraversion und Offenheit dazu beitragen,
(ehemals) Depressive von (bislang) Gesunden oder Menschen, die an anderen Störungen (ge)litten (hatten), zu trennen – auch Gewissenhaftigkeit fügte sich in dieser Analyse in die Reihe der signifikanten (negativen) Prädiktoren ein (Trull & Sher, 1994).
Ebenso waren bei den ambulanten depressiven Patienten von Rosellini und Brown
(2011) aktuelle Schwere von Depression und Gewissenhaftigkeit signifikant negativ,
jedoch nur in niedrigem bis mittelmäßigem Maße, verknüpft.
Die Assoziation von Gewissenhaftigkeit mit Major Depression weist nach Rosellini und
Brown (2011) darauf hin, dass ein Defizit an Selbstkontrolle bei Organisation und Planung mit ernsthaften depressiven Symptomen verbunden sein könnte. Der Zusammenhang könnte den Autoren zufolge dergestalt sein, dass eine niedrige Gewissenhaftigkeit
über die unterschiedlichsten Wege (zum Beispiel schwache Leistungen in Schule oder
Beruf oder Schwierigkeiten in Beziehungen) zu Stress führt, was zur Verstärkung oder
Aufrechterhaltung von Symptomen der Depression beitragen könnte. Darüber hinaus
passt die negative Beziehung zwischen Depression und Gewissenhaftigkeit zu Befunden
Kendlers und Myers (2010), die in den von ihnen ermittelten negativen genetischen
Korrelationen zwischen Gewissenhaftigkeit und Major Depression einen Hinweis da-
Theorie
37
rauf sahen, dass „a modest proportion of genes which influence C[onscientiousness]
might also impact on risk for M[ajor] D[epression]“ (S. 804).
Die Korrelation des BDI-II mit der Gewissenhaftigkeit, die Hautzinger et al. (2006) im
Manual berichten, fiel signifikant mittelmäßig negativ aus (r = -.25). Meyer (2002) berichtet zwar ebenfalls negative, jedoch im Betrag noch deutlich niedrigere und nicht
signifikante Korrelationen zwischen der Gewissenhaftigkeit und dem Ausmaß der Depressivität (r = -.08).
Diesen Ergebnissen steht die Einschätzung der Befundlage durch Kronmüller und
Mundt (2006) entgegen, denen zufolge sich bei Patienten, die von einer Depression betroffen sind, in den meisten Studien erhöhte Werte auf der Skala Gewissenhaftigkeit
finden, die allerdings nicht in allen Untersuchungen statistisch signifikant werden. Ähnliches gelte für der Gewissenhaftigkeit nahestehende Konstrukte wie Rigidität, Ordentlichkeit und Zwanghaftigkeit. Dazu passt auch eher, dass (wie in Abschnitt 2.2.2 bereits
angesprochen) zwanghafter Perfektionismus neben emotionaler Labilität und starker
Anlehnungsbedürftigkeit zu charakteristischen Merkmalen im Zusammenhang mit Depression zählt (Hautzinger, 2010). Hinsichtlich der Betrachtung von Persönlichkeitsmustern lassen sich zwei „Depressionstypen“ ausmachen. Sowohl sozial abhängige
Menschen mit Verlustängsten im zwischenmenschlichen Bereich („,soziotrope […]‘
Depressionspersönlichkeit“ (Hautzinger, 2010, S. 26)) weisen ein gewisses Risiko auf,
als auch Menschen mit einem ausgeprägten Streben nach Autonomie, Unabhängigkeit,
Leistung und Kontrolle. Sehr leistungsbezogene, perfektionistische Menschen mit einem ausgeprägten Kontrollbedürfnis sind gefährdet, eine Depression zu entwickeln, da
für sie leistungsbezogene Misserfolge, Scheitern oder erlebter Kontrollverlust eine Bedrohung darstellen, die über die Zwischenstufe Reaktanz und Aggression zu resignativen, depressiven Reaktionen führen kann (Hautzinger, 2010).
Inwiefern die zunächst widersprüchlich scheinenden Einschätzungen und Befunde zur
Beziehung von Gewissenhaftigkeit und Depressivität zusammengebracht werden können, wird sich im Rahmen dieser Arbeit nicht erörtern lassen. Möglicherweise können
sowohl mangelnde Gewissenhaftigkeit über daraus resultierenden Misserfolg als auch
erhöhte Gewissenhaftigkeit, verbunden mit einem (perfektionistisch) hohen Anspruch
an eigene Leistungen und Erfolge bei Nichterreichen dieser Ansprüche (was ebenso ein
Erleben von „Misserfolg“ darstellt) für Depression prädisponieren oder Depressivität
Theorie
38
aufrechterhalten. Ein gesundes Maß an Gewissenhaftigkeit könnte dagegen ein protektiver Faktor sein, ist die Persönlichkeitseigenschaft doch positiv mit Lebenszufriedenheit assoziiert (DeNeve & Cooper, 1998).
2.2.7 Zusammenfassung
Akute Depression respektive Depressivität scheint mit deutlich erhöhtem Neurotizismus
und mittelmäßig niedrigerer Extraversion einherzugehen. Bezüglich Offenheit für Erfahrung kann nach den hier berichteten Erkenntnissen nicht sicher von einer signifikanten Verknüpfung mit Depressivität ausgegangen werden, entsprechende Koeffizienten
lagen jedoch immer im niedrig positiven Bereich. Ebenso scheint Verträglichkeit eher
nicht signifikant mit Depression zusammenzuhängen, Korrelationen waren in den aufgeführten Studien jedoch durchgängig schwach bis mittelmäßig negativ, wenngleich
Einschätzungen vorliegen, die dem widersprechen und eher von einer positiven Beziehung ausgehen. Die Erkenntnisse zu Gewissenhaftigkeit sind vorerst widersprüchlich.
Während zumindest in den zitierten (Korrelations)studien eine schwach bis mittelmäßig
negative Verknüpfung mit Depressivität gefunden wurde, sprechen anderen Befunde
und theoretische Annahmen eher für einen positiven Zusammenhang.
2.3 Das Beck Depressionsinventar (BDI)
Das Depressionsinventar von Beck (BDI; erste Fassung von Beck et al., 1961; aktuelle
englischsprachige Originalauflage von Beck et al., 1996) ist das weltweit am häufigsten
eingesetzte Selbstbeurteilungsinstrument zur Beschreibung der Schwere einer depressiven Episode (Hautzinger & Meyer, 2002). Im Rahmen der vorliegenden Arbeit wird ein
Vorschlag für eine vereinfachte Variante der aktuellen deutschen Auflage des BDI
(BDI-II; Hautzinger et al., 2006) unterbreitet. Vor diesem Hintergrund sollen in diesem
Kapitel das Verfahren selbst, die in dieser Untersuchung verwendeten Versionen sowie
die Erstellung des neuen Vorschlags und die Gründe für diesen Schritt erläutert werden.
2.3.1 Die Entstehung des Beck Depressionsinventars (BDI)
Die erste Fassung des Beck Depressionsinventars (BDI) entstand vor etwa 50 Jahren
(Beck et al., 1961). Die 21 Items reflektierten „characteristic attitudes and symptoms of
depressed patients“ (Beck et al., 1961, S. 562), welche diese im Verlauf von Therapie-
Theorie
39
sitzungen geäußert hatten. Die Itemkategorien des Inventars sind damit also rein klinisch entstanden und basieren nicht auf einer Theorie zur Ätiologie der Depression oder
zu der Depression zugrundeliegenden psychologischen Prozessen (Beck et al., 1961).
Schon diese Version beinhaltete den bis heute für das BDI charakteristischen Aufbau
jedes Items aus – damals noch je vier bis fünf – der Intensität nach ansteigend gestaffelten selbstbeschreibenden Statements. Auf dieses Itemformat wird später noch genauer
eingegangen. Konzipiert war das Verfahren als klinisches Interview. Bereits damals
wiesen die Autoren nachdrücklich darauf hin, dass das Inventar mit dem Ziel entwickelt
wurde, den Grad der Depressivität zu quantifizieren. Es ist nicht dafür geeignet, Diagnosen zu stellen oder zwischen standardisierten Diagnosekategorien zu differenzieren
(Beck et al., 1961). Das Instrument erfasst depressive Symptome, gleich, in welchem
Zusammenhang sie auftreten, ob im Rahmen einer Depression oder im Verlauf oder der
Folge anderer Erkrankungen oder Ereignisse (vgl. Abschnitte 2.1.2 und 2.1.3). Dies gilt
bis heute (Hautzinger et al., 2006) beziehungsweise es gilt heute umso mehr, da sich die
ursprüngliche Konzeption als standardisiertes Interview nicht durchsetzte und das Verfahren mittlerweile als Selbstbeurteilungsfragebogen eingesetzt wird. Selbstbeurteilungsverfahren sind eine sehr gute Methode, um den Schweregrad der Depressivität und
Veränderungen im Grad der Belastung oder im Ausmaß bestimmter Symptome zu beurteilen, ersetzen aber keinesfalls eine klinische Störungsdiagnostik sondern sind dieser
als Ergänzung nachgeordnet (vgl. Hautzinger & Meyer, 2002).
Seit der ersten Veröffentlichung hat das BDI viele Überarbeitungen und Neuveröffentlichungen erfahren, wurde in alle Kultursprachen der Welt übersetzt und avancierte zu
einem der am häufigsten eingesetzten klinischen Verfahren weltweit (Hautzinger et al.,
2006). Die erste veröffentlichte deutsche Übersetzung stammt von Blaser, Löw und
Schäublin aus dem Jahre 1968.
Im angloamerikanischen Sprachraum veröffentlichten Beck, Rush, Shaw & Emery 1979
eine überarbeitete Version des Originalfragebogens, zu der 1987 (Beck & Steer) ein
Manual herausgegeben wurde. Seit dieser Version besteht jedes Item des BDI einheitlich aus genau vier selbstbeschreibenden Statements ansteigender Schwierigkeit. Auf
dieser Ausgabe basiert die erste „verbindliche“ (Hautzinger et al., 2006, S. 5) Form der
Veröffentlichung des BDI in Deutschland von Hautzinger et al. im Jahre 1994 (welche
identisch, aber mit erweitertem Manual 1995 neu aufgelegt wurde; diese Version wird
in der vorliegenden Arbeit eingesetzt und findet sich in Anhang B.2.1). Die in den Items
Theorie
40
abgefragten Kategorien depressiver Symptomatik betreffen seit der Einführung 1961
unverändert traurige Stimmung, Pessimismus, Versagen, Unzufriedenheit, Schuldgefühle, Strafbedürfnis, Selbsthass, Selbstanklagen, Selbstmordimpulse, Weinen, Reizbarkeit,
sozialer Rückzug und Isolierung, Entschlussunfähigkeit, negatives Körperbild, Arbeitsunfähigkeit, Schlafstörungen, Ermüdbarkeit, Appetitverlust, Gewichtsverlust, Hypochondrie und Libidoverlust. Tabelle 1 (linke Spalte) gibt Beispiele für Items des Fragbogens. Die beschriebene Skalierung über je vier Aussagen pro Item lässt sich erkennen. Jedes Item erfragt eines der Symptome depressiver Stimmung und erfasst dessen
Ausprägung vierfach gestuft, beginnend mit einer Aussage, die für Symptomfreiheit
steht (z. B. „Ich sehe nicht besonders mutlos in die Zukunft“) bis hin zu einer Aussage
maximaler Intensität (z. B. „Ich habe das Gefühl, dass die Zukunft hoffnungslos ist und
dass die Situation nicht besser werden kann“). Jeder Aussage ist dabei eine Ziffer von 0
(niedrigste Intensität) bis 3 (maximale Intensität) zugewiesen; die Beträge des vom Probanden in jedem Item gewählten Statements werden zum Gesamtwert aufsummiert.
Tabelle 1
Beispiele für Items des BDI und entsprechende Items des BDI-V
BDI♠
BDI-V♣
Item B (Pessimismus)
Item 2
0 Ich sehe nicht besonders mutlos in die
Zukunft
1 Ich sehe mutlos in die Zukunft
2 Ich habe nichts, worauf ich mich freuen
kann
3 Ich habe das Gefühl, dass die Zukunft
hoffnungslos ist und dass die Situation
nicht besser werden kann
Ich sehe mutlos in die Zukunft
(nie … fast immer)
Item M (Entschlussunfähigkeit)
Item 13
0 Ich bin so entschlussfreudig wie immer
1 Ich schiebe Entscheidungen jetzt öfter
als früher auf
2 Es fällt mir jetzt schwerer als früher,
Entscheidungen zu treffen
3 Ich kann überhaupt keine Entscheidungen mehr treffen
Ich schiebe Entscheidungen vor mir her
(nie … fast immer)
Anmerkungen. ♠ (Hautzinger, Bailer, Worall & Keller, 1995). ♣ (Schmitt & Maes, 2000).
Theorie
41
Viele Untersuchungen bescheinigen diesen ersten Formen des BDI eine gute Reliabilität
und Validität (z. B. Beck et al., 1961; Hautzinger et al., 1995; Übersicht z. B. bei
Richter, 1991).
Cronbachs α bewegte sich nach Angaben des Testmanuals des in der vorliegenden Untersuchung eingesetzten deutschen BDI (Hautzinger et al., 1995) in klinischen Stichproben zwischen .79 und .92 und lag in einer Stichprobe Gesunder bei .74. Die Trennschärfen sind nicht für alle Items zufriedenstellend. Hautzinger et al. (1995) berichten für
Stichproben depressiver Patienten Trennschärfen zwischen .31 und .67, wenn man das
Item Gewichtsverlust ausnimmt, dessen Trennschärfe sich – je nach Stichprobe – zwischen .06 und .24 bewegte; auch die Trennschärfe des Items Hypochondrie lag in einer
Untersuchung nur bei .19. Bei gesunden Kontrollpersonen ergaben sich für den Großteil
der Items Trennschärfen von .31 bis .53, darunter lag erneut das Item Gewichtsverlust
(rit = .10), zudem die Items Appetitverlust (rit = .23) und Libidoverlust (rit = .07). Nach
der Zusammenstellung Richters (1991) erzielten andere Untersuchungen ähnliche, insgesamt jedoch etwas bessere Resultate ohne „Ausreißer“ in Form von Trennschärfen
unter .20.
Das BDI bildet Veränderungen der Depressivität, z. B. im Therapieverlauf, gut ab und
diskriminiert gut zwischen depressiven und nicht depressiven Probanden (Hautzinger et
al., 1995). Die Items sind relativ schwer.
2.3.2 Ein Vorschlag zur Vereinfachung des Beck Depressionsinventars
(BDI-V)
Das Format der Items war es, das Schmitt und Maes veranlasste, im Jahr 2000 einen
Vorschlag zur Vereinfachung des BDI basierend auf der Version von Hautzinger et al
(1994) zu unterbreiten, da ihnen die „Schwierigkeitsskalierung (…) unökonomisch“
(Schmitt & Maes, 2000, S. 38) schien. Sie sahen darin eine möglicherweise unnötig
hohe Belastung von Probanden, die insbesondere bei schwer depressiven Patienten einen Abbruch der Bearbeitung begünstigen könnte (Schmitt et al., 2003). Zumindest
soweit Papier-und-Bleistift-Verfahren Einsatz finden, bestand zudem Potential, mit einer Vereinfachung des Verfahrens Kosten in nicht unerheblichem Umfange zu sparen,
zum einen materielle Aufwendungen für den Druck sowie zum anderen personelle Kosten durch die Reduktion der zeitlichen Beanspruchung des wissenschaftlichen Personals
Theorie
42
für das Eingeben oder Einlesen der einzelnen Fragebögen (vgl. Schmitt et al., 2003;
Schmitt & Maes, 2000). In jedem Falle aber lassen sich umso mehr relevante Konstrukte in einer Untersuchung erheben und die Zusammenhänge zwischen ihnen eruieren, je
kürzer oder einfacher die einzelnen Instrumente und je geringer damit die kognitive und
zeitliche Beanspruchung der Probanden sind (Schmitt et al., 2003).
Während Schmitt und Maes (2000) sowie Schmitt et al. (2003) zwar darauf hinweisen,
dass Fragen der Ökonomie im Zuge groß angelegter wissenschaftlicher Untersuchungen
oder epidemiologischer Screenings eher eine Rolle spielen als in der Einzelfalldiagnostik, so soll hier dennoch zu bedenken gegeben werden, dass die Anzahl an Verfahren,
die in der „Einzelfalldiagnostik“, beispielsweise in psychiatrischen Kliniken, eingesetzt
werden, teilweise ebenfalls beträchtlich ist (ob zur „reinen“ Einzelfalldiagnostik in der
Therapieplanung und -evaluation des einzelnen Patienten oder in Kombination mit wissenschaftlichen Zielen). Somit sind auch hier Länge und Komplexität der einzelnen
Fragebögen von Bedeutung im Hinblick auf die Belastung der Probanden, aber auch des
untersuchungsleitenden und -auswertenden Personals und damit die finanziellen Ressourcen von Kliniken.
Zwar existier(t)en bereits ökonomische Instrumente zur Erfassung von Depressivität,
welche den weiteren Gütekriterien der Reliabilität und Validität ebenso entsprechen
(zum Beispiel die Depressivitäts-Skala (D-S/D-S'; von Zerssen, 1976, zit. nach CIPS,
1996, S. 91 f.), die Self-Rating Depression Scale (SDS; Zung, 1965, zit. nach CIPS,
1996, S. 103) oder die Allgemeine Depressionsskala (ADS; Hautzinger & Bailer,
1993)). Dennoch war und ist, wie Schmitt et al. (2003) feststellen, die Bearbeitung des
BDI gerechtfertigt, handelt es sich doch um das weltweit am häufigsten eingesetzte
Selbstbeurteilungsinstrument zur Erfassung von Depressivität (Hautzinger & Meyer,
2002), für das eine vereinfachte und damit optimierte Entsprechung zur Verfügung zu
haben sich lohnen würde. Nach Schmitt et al. (2003) sprachen zudem weitere Argumente für die Ergänzung des bestehenden Repertoires an depressionserfassenden Instrumenten um ein ökonomisiertes BDI:

Die Verfügbarkeit verschiedener Instrumente zur Messung eines Konstrukts ermöglicht die Auswahl eines für den jeweiligen Verwendungszusammenhang am besten
geeigneten Instrumentes (vorstellbar ist zum Beispiel, dass das Anbieten mehrerer
ausformulierter Sätze unterschiedlicher Intensität pro Item in einem Interview ange-
Theorie
43
nehmer zu handhaben ist als eine Intensitätsabstufung mittels eines Häufigkeitsformates, welches wiederum beim Ankreuzen im Selbstrating komfortabler ist).

Mehrere Messverfahren für ein Konstrukt können unter bestimmten Umständen die
Konstruktdifferenzierung voranbringen.

Durch den Einsatz verschiedener Verfahren bei wiederholter Messung eines Konstrukts kann Testwiederholungseffekten entgegengewirkt werden.

Mehrere Möglichkeiten zur Erfassung eines Konstruktes ermöglichen die Untersuchung von Methodenvarianz (Eid & Diener, 2006, zit. nach Schmitt et al., 2003, S.
148).
Während die gut belegte Reliabilität und Validität des BDI nicht zur Debatte standen,
ging es Schmitt und Maes (2000) also um die Verbesserung der Ökonomie und Nützlichkeit des Verfahrens.
Das Gütekriterium der Ökonomie verlangt, dass ein Verfahren möglichst wenige Ressourcen beanspruchen sollte, womit insbesondere zeitliche und finanzielle Aufwendungen gemeint sind. Jeder Aufwand sollte durch den diagnostischen Erkenntnisgewinn
gerechtfertigt sein (Schermelleh-Engel et al., 2006). Ein Verfahren erfüllt das Gütekriterium der Nützlichkeit zunächst dann, wenn es praktische Relevanz besitzt und zu nutzbringenden Entscheidungen führt (Schermelleh-Engel et al., 2006). Dies stand (und
steht) für das wohletablierte BDI nicht in Frage. Die Forderung wird darüber hinaus
jedoch dahingehend erweitert, als für die Beurteilung der Nützlichkeit und damit praktischen Relevanz auch eine Rolle spielt, ob andere Verfahren existieren, welche eine diagnostische Fragestellung – bei übereinstimmender Erfüllung der anderen Gütekriterien
– zu geringeren Kosten beantworten (Kubinger, 2003; Schermelleh-Engel et al., 2006).
Beide Gütekriterien fordern also eine ganz bestimmte Relation zwischen Nutzen und
Kosten (verstanden im weiteren Sinne nicht nur finanzieller Aufwendungen). Das Ziel
der Vereinfachung war es demnach, eine Version des Fragebogens zu entwickeln, die
den unumstritten hohen Nutzen mit geringeren Kosten verbindet.
Von den 21 Symptomen des Originals wurden im verkürzten BDI (im Folgenden
BDI-V; Schmitt & Maes, 2000) alle bis auf das Symptom des Gewichtsverlustes beibehalten, da dies in Untersuchungen grundsätzlich die geringste Trennschärfe aufwies
(siehe z. B. Beck et al., 1961; Hautzinger et al., 1995; Schmitt & Maes, 2000). Die entscheidende Vereinfachung geschah dadurch, dass jedes Symptom nur noch über eine
Theorie
44
Aussage, statt wie im Original durch vier Aussagen, operationalisiert wurde. Die Intensitätsskalierung fand nun über das Antwortformat statt, eine sechsstufige Häufigkeitsskala, deren Stufen durch die Ziffern 0, 1, 2, 3, 4 und 5 bezeichnet waren, die Endpunkte 0 bzw. 5 wurden zusätzlich sprachlich verankert durch die Begriffe „nie“ bzw. „fast
immer“ (Schmitt & Maes, 2000). Statt 85 Aussagen (21 Items mit je vier Aussagen +
eine Zusatzfrage das Item „Gewichtsverlust“ betreffend) müssen also nur noch 20 Aussagen gelesen und beurteilt werden (Schmitt et al., 2003). Tabelle 1 zeigt Beispiele, wie
Items des BDI (linke Spalte) in Items des BDI-V (rechte Spalte) umgewandelt wurden.
Das BDI-V findet Verwendung in der vorliegenden Untersuchung und ist deshalb in
Anhang B.2.2 abgedruckt.
2.3.3 BDI und BDI-V im Vergleich
Wie im Original sind die Items rechtsschief verteilt, sie bleiben also schwierig (Schmitt
& Maes, 2000). Schmitt & Maes (2000) wiesen eine sehr hohe Reliabilität des neuen
Verfahrens nach. Die interne Konsistenz α betrug .90, eine Latent-State-Trait-Analyse
ergab eine Reliabilität von .95 für den Summenwert. Nach diesen Ergebnissen und im
direkten Vergleich (Schmitt et al., 2003) war das BDI-V etwas reliabler als das Original. Die mittlere Itemtrennschärfe des BDI-V belief sich in einer klinisch unauffälligen
Stichprobe (N = 200) auf .60 (minimale Itemtrennschärfe .35, maximale Itemtrennschärfe .79), in einer kleinen Stichprobe depressiver Patienten (N = 60) auf .42 (Minimum
.16, Maximum .64); und in einer aus diesen beiden und weiteren klinischen Stichproben
zusammengesetzten Gesamtstichprobe (N = 310) auf .67 (Minimum .46, Maximum
.80). Stellt man diesen Werten die mittleren Itemtrennschärfen gegenüber, die sich in
denselben Stichproben für das BDI ergaben, so erwiesen sich die Items des BDI-V in
jedem Falle als trennschärfer (Schmitt et al., 2003). Im direkten Vergleich zeigte sich
auch eine etwas höhere Homogenität des BDI-V; so betrug die durchschnittliche Interkorrelation der Items des BDI-V in der eben erwähnten klinisch unauffälligen Stichprobe .39, die mittlere Interkorrelation der Items des BDI lag in der gleichen Stichprobe bei
.21 (Schmitt et al., 2003).
Korrelationen des BDI-V mit weiteren Skalen, wie beispielsweise solche zur Erfassung
der Seelischen Gesundheit, des Selbstwertgefühls, verschiedener Aspekte der Lebenszufriedenheit oder von Kontrollierbarkeitsüberzeugungen entsprachen den Erwartungen
und ließen sich daher als Indikatoren der konvergenten Konstruktvalidität werten; eben-
Theorie
45
so fielen Zusammenhänge mit demographischen Variablen erwartungsgemäß aus
(Schmitt & Maes, 2000). Von besonderer Wichtigkeit für den Nachweis der Validität
des veränderten Verfahrens waren die sehr hohen Korrelationen mit anderen Depressionsskalen und – in klinischen Stichproben – einem Expertenrating der Depressivität
(Schmitt et al., 2003).
Hinweise auf die Entsprechung der Messeigenschaften des etablierten Verfahrens und
der verkürzten Version ergaben sich sowohl auf deskriptiver Ebene, wie auch in konfirmatorischen Faktorenanalysen (Schmitt et al., 2003). Die Korrelationen zwischen den
Gesamtscores des BDI und BDI-V fielen in einer Bevölkerungs- wie in einer klinischen
Stichprobe depressiver Patienten hoch aus (r = .82 resp., r = .88), noch höher in einer
aus Bevölkerungs- und verschiedenen klinischen Stichproben zusammengesetzten Gesamtstichprobe (r = .91). Selbst auf Ebene der einzelnen Items ergaben sich im Mittel
Korrelationen, deren Höhe die Autoren in Anbetracht der Tatsache, dass einzelne Items
korreliert wurden, als „beträchtlich“ (Schmitt et al., 2003, S. 152) bewerten. Zudem
fielen die Korrelationen des BDI und des BDI-V mit anderen Selbst- bzw. Fremdbeurteilungsinstrumenten für Depressivität jeweils nahezu identisch aus. Eine Überprüfung,
ob „beide BDI-Versionen die einzelnen Symptome in ähnlicher Weise verorten, dem
jeweiligen Symptom also eine eher zentrale oder eine eher periphere Bedeutung zuweisen“ (Schmitt et al., 2003, S. 151) über einen Vergleich der Trennschärfeprofile zeigte
zufriedenstellende Ergebnisse (Spearman Rangkorrelationen der Trennschärfen:
ϱp = .65 in der Bevölkerungsstichprobe, .61 in der Stichprobe depressiver Patienten
bzw. .85 in der zusammengesetzten Stichprobe). Bezüglich des Vergleichs der differentialdiagnostischen Trennschärfe der beiden Versionen waren die Befunde nicht vollkommen eindeutig interpretierbar. Beide Verfahren trennten verschiedene klinische und
nicht klinische Gruppen den Hypothesen entsprechend, unterschieden sich dabei aber
leicht (und nicht statistisch signifikant).
Der Nachweis hoher Konvergenz der Verfahren auf deskriptiver Ebene wurde um die
inferenzstatistische Überprüfung der Messäquivalenz mittels konfirmatorischer Faktorenanalysen ergänzt. In der Gesamtstichprobe konnte ein Modell angenommen werden,
in dem BDI und BDI-V auf latenter Ebene perfekt korrelierten, was dafür spricht, dass
beide Versionen identisch sind (Schmitt et al., 2003). In der Bevölkerungsstichprobe
ergab sich mit .95 eine Korrelation zwischen den beiden latenten Faktoren, welche BDI
und BDI-V repräsentierten, die einer perfekten Korrelation sehr nahekam; ein Modell,
Theorie
46
das die Korrelation auf 1 festlegte, ließ sich in dieser etwas kleineren Stichprobe mit
geringerer Varianz nicht annehmen.
Wenn auch keine absolute Messäquivalenz nachgewiesen werden konnte, so veranlassten die Ergebnisse die Autoren dennoch zu dem Schluss, „dass mit dem vereinfachten
BDI ein Instrument zur Verfügung steht, welches in seiner Messqualität dem Original
gleichwertig ist, dieses im Bereich der Messökonomie aber übertrifft“ (Schmitt et al.,
2003, S. 155).
2.3.4 Die Entstehung der zweiten Ausgabe des Beck Depressionsinventars (BDI-II)
Da das BDI rein klinisch entstanden war (Beck et al., 1961), lehnte es sich bislang nicht
explizit an diagnostische Kriterien der Depression an. Mit der Veröffentlichung der dritten Revision des Diagnostischen und Statistischen Manuals Psychischer Störungen
(DSM-III) der American Psychiatric Association (1980) wurde diese Diskrepanz zwischen den offiziellen Diagnosekriterien für depressive Erkrankungen und den in den
Items des BDI abgebildeten Symptomen zunehmend Gegenstand von Diskussionen
(Hautzinger et al., 2006). So fehlten zum Beispiel manche Symptome aus dem offiziellen Kriterienkatalog, andere Items bildeten Symptome ab, die nicht im Manual enthalten
waren oder fragten ein Symptom nur unvollständig ab. Obwohl das BDI in keiner seiner
Formen ein diagnostisches Instrument darstellt (Beck et al., 1961; Hautzinger et al.,
2006), schien eine Übereinstimmung zwischen den diagnostischen Kriterien des Manuals und den Kriterien zur Bestimmung der Schwere einer depressiven Symptomatik mittels des BDI dennoch wünschenswert. Die 1996 von Beck et al. veröffentlichte Neuauflage des BDI als „BDI-II“, für die seit 2006 eine verbindliche, manualisierte deutsche
Übersetzung von Hautzinger et al. vorliegt, zielte genau darauf ab. In Abstimmung auf
die Diagnosekriterien für eine depressive Episode des zum Zeitpunkt der Revision vorliegenden DSM-IV5 (American Psychiatric Association, 1994) wurden, wie Hautzinger
et al. (2006) berichten, …
5
Eine deutsche Übersetzung des DSM-IV liegt vor von Saß, Wittchen und Zaudig (1996). Die Kriterien
für die Episode einer Major Depression, Diagnose einer Major Depression und Diagnose einer dysthymen
Störung des DSM-IV sind identisch mit denen der Textrevision der vierten Auflage (DSM-IV-TR; American Psychiatric Association, 2000; deutsche Übersetzung von Saß et al., 2003), welche in Abschnitt
2.1.2 beschrieben sind.
Theorie

47
… der in den Instruktionen abgefragte Bezugszeitraum von einer Woche im BDI
(„ …, wie Sie sich in dieser Woche einschließlich heute gefühlt haben …“
(Hautzinger et al., 1995)) auf zwei Wochen im BDI-II („…, wie Sie sich in den letzten zwei Wochen, einschließlich heute, gefühlt haben“ (Hautzinger et al., 2006))
erweitert

… vier Items des BDI, die Symptome abbilden, welche nicht Gegenstand des offiziellen Kriterienkataloges des DSM sind, eliminiert; dies betraf die Items negatives
Körperbild, Arbeitsunfähigkeit und Hypochondrie sowie außerdem das nicht aussagekräftige Item Gewichtsverlust

… vier Items, die Symptome abbilden, welche Gegenstand des offiziellen Kriterienkataloges sind, jedoch bislang nicht im BDI enthalten waren, hinzugefügt; dies waren die Items Unruhe, Gefühl der Wertlosigkeit, Konzentrationsschwierigkeiten und
Energieverlust

… die Items Schlafstörungen und Appetitverlust jeweils dahingehend verändert
bzw. erweitert, dass sie nicht mehr nur die Abnahme/Verschlechterung von Schlaf
bzw. Appetit, sondern auch eine Zunahme von Schlaf bzw. Appetit abbilden können; dies wurde realisiert durch die Hinzunahme jeweils dreier Antwortalternativen

… das Item sozialer Rückzug und Isolierung des BDI, durch Ausweiten der Frage
zu nachlassendem Interesse auf Tätigkeiten und Dinge im Allgemeinen (zusätzlich
zu Menschen) im BDI-II zum Item Interessenverlust erweitert
Die weiteren Items wurden teilweise sprachlich mehr oder weniger stark überarbeitet,
um die Verständlichkeit weiter zu erhöhen, z. B: durch Umformulierung einiger oder
aller Antwortalternativen. Einige Items erhielten zudem eine neue Bezeichnung. Das
Itemformat blieb unberührt. Das revidierte BDI (BDI-II) umfasst wie das ursprüngliche
BDI 21 Items, welche nun die Symptomkategorien Traurigkeit, Pessimismus, Versagensgefühle, Verlust von Freude, Schuldgefühle, Bestrafungsgefühle, Selbstablehnung,
Selbstvorwürfe, Selbstmordgedanken, Weinen, Unruhe, Interessenverlust, Entschlussunfähigkeit, Wertlosigkeit, Energieverlust, Veränderungen der Schlafgewohnheiten,
Reizbarkeit, Veränderungen des Appetits, Konzentrationsschwierigkeiten, Ermüdung
oder Erschöpfung und Verlust an sexuellem Interesse abfragten.
Einen detaillierten Überblick über die Veränderungen der einzelnen Items des deutschsprachigen BDI-II gegenüber den Items des deutschsprachigen BDI sowie die Zuord-
Theorie
48
nung der Items zu den Symptomkriterien (A-Kriterien) der Major Depression nach
DSM-IV (American Psychiatric Association, 1994) beziehungsweise DSM-IV-TR
(American Psychiatric Association, 2000)6, wie sie in Abschnitt 2.1.2 dargestellt wurden, ermöglicht Tabelle 15 in Anhang A7. Da das BDI-II in der vorliegenden Studie
eingesetzt wird, findet es sich zudem vollständig in Anhang B.2.3.
Wie für das BDI werden auch für das BDI-II sowohl für das englischsprachige Original,
als auch für die deutsche Adaptation sehr gute psychometrische Eigenschaften berichtet
(Übersichten siehe bei Hautzinger et al., 2006). Nach den Angaben im Manual
(Hautzinger et al., 2006), die sich auf Untersuchgen des deutschen BDI-II beziehen,
variierte Cronbach’s α zwischen .89 und .93, womit eine hohe interne Konsistenz bzw.
Homogenität belegt ist. Die korrigierten Trennschärfen lagen in einer Stichprobe depressiver Patienten zwischen .43 und .77 (Durchschnitt .61), in einer Stichprobe gesunder Probanden etwas niedriger, zwischen .43 und .59 (Durchschnitt .52). Die Testwiederholungsreliabilität in nichtklinischen Stichproben über drei Wochen und über fünf
Monate bewerten die Autoren als sehr zufriedenstellend. Korrelationen mit weiteren
Skalen zur Selbst- oder Fremdbeurteilung der Depressivität fallen hoch aus, über erwartungsgemäße Korrelationen mit konstruktnahen und –fernen Skalen (wie zum Beispiel
dem Selbstwertgefühl oder verschiedene Facetten der Selbstaufmerksamkeit) werden
weitere Bestätigungen der konvergenten und wie auch der diskriminanten Validität erbracht.
Eine Hauptkomponentenanalyse mit anschließender Promax-Rotation führte in einer
Stichprobe depressiver Patienten sowie in einer Stichprobe Gesunder zur Annahme
zweier hoch korrelierter Faktoren (Patientenstichprobe r = .68, gesunde Stichprobe
r = .60), die sich Hautzinger et al. (2006) zufolge in beiden Stichproben als somatischaffektive und kognitive Dimensionen darstellten. Das einzige Item, das nicht in beiden
Stichproben demselben Faktor zugeordnet werden konnte, ist das Item Traurigkeit. Es
lädt in der Stichprobe der Patienten zusammen mit den anderen affektiven Items höher
auf dem somatisch-affektiven Faktor, in der Stichprobe Gesunder jedoch auf dem kognitiven Faktor. Von einer klaren Einfachstruktur kann jedoch nicht gesprochen werden.
Insbesondere einige Items, die der somatisch-affektiven Dimension zugeordnet sind,
6
Die beiden Auflagen unterscheiden sich wie beschrieben nicht in den Kriterien der Major Depression
Eine entsprechende Aufstellung der Änderungen der Items des BDI-II im Vergleich mit den Items des
BDI für die englischsprachige Originalversion findet sich bei Interesse in Hautzinger et al., 2006, S. 9
7
Theorie
49
weisen beträchtliche Nebenladungen auf der kognitiven Dimension auf, so auch das
genannte Item Traurigkeit in der Patientenstichprobe (umgekehrt besteht eine Nebenladung dieses Items auf dem somatisch-affektiven Faktor in der Lösung für die gesunde
Stichprobe). Hautzinger et al (2006) stellen zahlreiche internationale Untersuchungen
der Faktorstruktur des BDI-II zusammen. Ähnlich ihren Befunden in den deutschen
Stichproben werden die Zusammenhänge der Items auch in der Mehrzahl internationaler Studien am besten durch zwei hoch korrelierende Faktoren abgebildet, die sich in
psychiatrischen Stichproben grundsätzlich als somatisch-affektiver und kognitiver Faktor interpretieren lassen, während in nicht-psychiatrischen Stichproben (vorwiegend
studentische Stichproben) das Ladungsmuster eher einen kognitiv-affektiven und einen
somatischen Faktor ergibt.
2.3.5 BDI und BDI-II im Vergleich
Die amerikanischen Originalausgaben von BDI und BDI-II korrelieren sehr hoch (z. B.
zu .93 in einer Untersuchung von Dozois, Dobson & Ahnberg, 1998; etwas niedrigere
Korrelationen berichten Beck et al., 1996, zit. nach Hautzinger et al., 2006, S. 10)8. Der
Summenwert des BDI-II scheint im Durchschnitt leicht (etwa 1 – 3 Punkte) über dem
des BDI zu liegen (Beck et al., 1996, zit. nach Hautzinger et al., S. 10; Dozois et al.,
1998). Dozois et al. (1998) kommen in ihrer Untersuchung, die die beiden Versionen
des Inventars einer sehr großen studentischen Stichprobe vorlegte, zu dem Schluss, dass
„in general, (…) the psychometric characteristics of the BDI-II are highly congruent
with the BDI“ (S. 87). Beide Inventare wiesen in der Studie ähnlich hohe interne Konsistenzen auf (BDI: α = .89, BDI-II α = .91) und die korrelativen Zusammenhänge zwischen den Items wurden in beiden Versionen am besten durch eine zwei-Faktor-Lösung
mit obliquen Faktoren beschrieben, wenn auch die Faktorstruktur des BDI-II klarer ausgeprägt war und die Revision somit in dieser Hinsicht ein stärkeres Instrument als die
Erstauflage darstellt. Für die deutschen Ausgaben des BDI sind der Autorin keine Untersuchungen, die das BDI und das BDI-II parallel eingesetzt hätten, bekannt.
8
Das Manual zur amerikanischen Originalauflage (Beck et al., 1996) ließ sich trotz intensivster Bemühungen nicht beschaffen
Theorie
50
2.3.6 Ein Vorschlag zur Vereinfachung der zweiten Ausgabe des Beck
Depressionsinventars (BDI-II-V)
Unbesehen der sehr guten messtheoretischen Eigenschaften des BDI-II (Hautzinger et
al., 2006), kann man – entsprechend der Kritik am BDI (Schmitt et al., 2003; Schmitt &
Maes, 2000) – die Frage stellen, ob sich die Ökonomie des Verfahrens im Hinblick auf
zeitliche und kognitive Belastung der Patienten oder Probanden beim Ausfüllen (sowie
der mit der Auswertung betrauten Mitarbeiter von Kliniken oder Forschungsinstitutionen) noch optimieren ließe. So hat diese Arbeit sich den Versuch zum Ziel gesetzt, analog der Ergänzung des BDI (Hautzinger et al., 1994) durch eine ökonomischere Variante durch Schmitt und Maes (2000), auch dem BDI-II (Hautzinger et al., 2006) eine verkürzte Version zur Seite zu stellen.
Neben den zahlreichen im Zusammenhang mit der Darstellung der Verkürzung des BDI
in Abschnitt 2.3.2 bereits ausgeführten Vorteilen, die mit der Existenz einer Kurzversion des weltweit geschätzten und vielfach eingesetzten BDI verbunden sind, spricht ein
weiteres Argument für die analoge Erstellung einer Kurzversion des BDI-II: Mit einer
vereinfachten Version dieses Instruments stünde ein sehr ökonomisches Verfahren zur
Verfügung, welches Depressivität wie das BDI-II in enger Abstimmung mit den diagnostischen Kriterien der Depression nach DSM-IV (American Psychiatric Association,
1994) beziehungsweise DSM-IV-TR (American Psychiatric Association, 2000) abbilden würde. Dieser Umstand würde auch einen Unterschied zu bereits verfügbaren und
ebenfalls ökonomischen Verfahren zur Erfassung von Depressivität (Beispiele siehe
Abschnitt 2.3.2) darstellen, die nicht explizit an offizielle diagnostische Kriterien der
Depression angelehnt sind.
Die Entwicklung des Vorschlages für eine vereinfachte Variante des BDI-II, basierend
auf der deutschen Übersetzung des Verfahrens von Hautzinger et al. (2006), für die die
Bezeichnung BDI-II-V (V für verkürzt oder vereinfacht) gewählt werden soll, erfolgte
entsprechend dem Vorgehen von Schmitt und Maes (2000) bei der Erstellung des
BDI-V und wird nachfolgend beschrieben.
Die vier Aussagen eines jeden Items wurden in einem Statement zusammengefasst, zu
dem auf einer sechsstufigen Häufigkeitsskala von 0 (nie) bis 5 (fast immer) Stellung
bezogen werden kann. Dieses Antwortformat bildet damit anstelle der sich steigernden
Formulierungen die Intensität des jeweiligen Symptoms ab. Alle Items wurden mög-
Theorie
51
lichst prägnant und kurz formuliert und in Richtung des Symptoms gepolt. In Anpassung an das Häufigkeitsformat der Antwortskala wurden die Items zur Vermeidung
doppelter Verneinung positiv formuliert, zudem wurde im Unterschied zum Original auf
die Verwendung des Perfekts sowie auf zeitliche Adverbien (oft, ständig, …) verzichtet.
Insbesondere zeitliche Vergleiche (als früher, als sonst, …), wie sie in den Statements
des BDI-II häufig vorkommen, sollten ebenso vermieden werden, was bis auf einen
Fall, in dem sich die Formulierungsfindung sehr schwierig gestaltete (s.u.), gelang. Insgesamt orientierte sich die Umwandlung an dem Prinzip, die Items so weit abzuwandeln, wie es nötig erschien, um sie in das neue Format zu bringen, dabei jedoch so nah
wie möglich an Inhalt und Formulierung der Original-Items zu bleiben. Hatten sich zwischen den Items des deutschen BDI und des deutschen BDI-II keine oder nur minimale
Veränderungen ergeben, wurde in den meisten Fällen die Formulierung des auf dem
BDI beruhenden BDI-V übernommen. Tabelle 2 veranschaulicht an zwei Beispielen,
wie die Items des BDI-II (linke Spalte) zu Items des BDI-II-V (rechte Spalte) umformuliert wurden. Alle 21 Items des BDI-II wurden beibehalten.
Tabelle 2
Beispiele für Items des BDI-II und entsprechende Items des BDI-II-V
BDI-II♠
BDI-II-V
Item 14 (Wertlosigkeit)
Item 14
0 Ich fühle mich nicht wertlos
1 Ich halte mich für weniger nützlich als
sonst
2 Verglichen mit anderen Menschen fühle
ich mich viel weniger wert
3 Ich fühle mich völlig wertlos
Ich fühle mich wertlos
(nie … fast immer)
Item 19 (Konzentrationsschwierigkeiten)
Item 19
0 Ich kann mich so gut konzentrieren wie
immer
1 Ich kann mich nicht mehr so gut konzentrieren wie sonst
2 Es fällt mir schwer, mich längere Zeit
auf irgend etwas zu konzentrieren
3 Ich kann mich überhaupt nicht mehr
konzentrieren
Es fällt mir schwer, mich zu konzentrieren
(nie … fast immer)
Anmerkungen. ♠ (Hautzinger et al., 2006)
Theorie
52
Für die sieben Items Weinen, Interessenverlust, Energieverlust, Veränderungen der
Schlafgewohnheiten, Veränderungen des Appetits, Konzentrationsschwierigkeiten und
Verlust an sexuellem Interesse (zur Formulierung der Items im Original BDI-II siehe
Anhang B.2.3) gestaltete sich die Suche nach geeigneten Formulierungen am schwierigsten, weshalb zur Entscheidungsfindung ein Gremium aus Fachleuten hinzugezogen
wurde. Im Kolloquium der Arbeitseinheit Diagnostik, Differentielle- und Persönlichkeitspsychologie, Methodik und Evaluation des Fachbereichs Psychologie der Universität Koblenz-Landau, an welchem Mitarbeiter sowie Diplomanden des Arbeitsbereiches
teilnahmen, wurden für jedes der Items verschiedene Alternativen diskutiert und im
Hinblick auf die Verbindung von intuitiver Verständlichkeit mit maximaler Nähe zur
Originalformulierung des BDI-II bewertet. Auf diesem Wege fiel die Entscheidung für
eine Formulierung. Besondere Schwierigkeiten bereiteten dabei weiterhin die Items zu
Veränderungen der Schlafgewohnheiten und Veränderungen des Appetits. Wie oben
dargelegt, wurden diese im BDI-II um jeweils drei Aussagen erweitert, die – um den
Kriterien des DSM-IV gerecht zu werden – neben der Abnahme von Schlaf respektive
Appetit auch eine Zunahme von Schlaf respektive Appetit abfragten (siehe Tabelle 3,
linke Spalte). Die Instruktion des BDI-II verlangt dabei von den Probanden, pro Item
wie üblich nur ein Kreuz zu setzen (Näheres zur Instruktion des Beck Depressionsinventars im Allgemeinen in Abschnitt 4.1.1; Spezielles zur Auswertung dieser beiden
Items in Abschnitt 4.7.2). Die Umsetzung dieser Itemform im BDI-II-V fiel deswegen
schwer, weil sich kaum eine passend anmutende Formulierung finden ließ, die jeweils
Zu- und Abnahme von Schlaf beziehungsweise Appetit in einem Statement – wie es
dem Aufbau des BDI-II-V gerecht geworden wäre – abfragte. Die Kolloquiumsteilnehmer sprachen sich dabei zwar für die Formulierungen „Ich leide unter Schlafstörungen“
respektive „Mein Appetit ist anders als früher“ (siehe Tabelle 3, mittlere Spalte) aus,
man war sich jedoch nicht sicher, ob es sich bei diesen Varianten um eine zufriedenstellende Lösung handelte. Insbesondere wurde zu dem Begriff „Schlafstörungen“ eingewandt, dass diese Formulierung bei den meisten Menschen möglicherweise viel mehr
mit Ein- und Durchschlafstörungen assoziiert sein könnte, als mit einer Zunahme von
Schlaf. Aus diesem Grunde wurden Möglichkeiten eruiert, die Items zu Schlaf und Appetit im BDI-II-V jeweils über zwei getrennte Aussagen abzufragen, von denen beide
von den Probanden beantwortet werden sollten. Auch dazu wurden Alternativvorschläge innerhalb des Kreises der Kolloquiumsteilnehmer abgestimmt; das Ergebnis ist in
Tabelle 3, rechte Spalte abgetragen.
Theorie
Tabelle 3
53
Die Items Veränderungen der Schlafgewohnheiten und Veränderungen des Appetits des
BDI-II und entsprechende Items des BDI-II-V
BDI-II♠
BDI-II-V.1
BDI-II-V.2
Item 16
Item 16
Item 16 & 17
0 Meine Schlafgewohnheiten
haben sich nicht verändert
1a Ich schlafe etwas mehr als
sonst
1b Ich schlafe etwas weniger als
sonst
2a Ich schlafe viel mehr als sonst
2b Ich schlafe viel weniger als
sonst
3a Ich schlafe fast den ganzen
Tag
3b Ich wache 1-2 Stunden früher
auf als gewöhnlich und kann
nicht mehr einschlafen
Ich leide unter Schlafstörungen
(nie … fast immer)
Ich schlafe außergewöhnlich wenig
(nie … fast immer)
Item 18
Item 18
(Veränderungen der Schlafgewohnheiten)
Ich schlafe außergewöhnlich viel
(nie … fast immer)
Item 19 & 20
(Veränderungen des Appetits)
0 Mein Appetit hat sich nicht
Mein Appetit ist anders
verändert
als früher
1a Mein Appetit ist etwas
(nie … fast immer)
schlechter als sonst
1b Mein Appetit ist etwas größer
als sonst
2a Mein Appetit ist viel schlechter als sonst
2b Mein Appetit ist viel größer als
sonst
3a Ich habe überhaupt keinen
Appetit
3b Ich habe ständig Heißhunger
Ich habe außergewöhnlich wenig Appetit
(nie … fast immer)
Ich habe außergewöhnlich viel Appetit
(nie … fast immer)
Anmerkungen. ♠ (Hautzinger et al., 2006)
Schließlich wurde entschieden, zunächst zwei Versionen des BDI-II-V zu entwerfen,
eine Version, in der die Items zu Schlaf und Appetit in einem Statement abgefragt wurden (BDI-II-V.1, siehe Tabelle 3, mittlere Spalte) und eine Version, in der die Items in
Theorie
54
je zwei Statements abgefragt wurden (BDI-II-V.2, siehe Tabelle 3, rechte Spalte). Alle
anderen Items waren zwischen den beiden Versionen des BDI-II-V (1 und 2) identisch.
Die Instruktionen des neuen Fragebogens wurden – in Anlehnung an den BDI-V sowie
den BDI-II – eingeleitet mit der Beschreibung
„In diesem Fragebogen geht es um Ihr gegenwärtiges Lebensgefühl. Bitte geben Sie zu
jeder Frage an, wie häufig Sie die genannte Stimmung oder Sichtweise in den letzten
zwei Wochen, einschließlich heute, erlebt haben. (…)“.
Die vollständigen Instruktionen, das Layout und alle Items der Fragebögen BDI-II-V.1
und BDI-II-V.2 können Anhang B.2.4 und B.2.5 entnommen werden.
Entsprechend dem BDI, dem BDI-V und dem BDI-II erfolgt die Berechnung eines Gesamtwertes für das BDI-II-V.1 und BDI-II-V.2 durch Aufsummieren der angekreuzten
Ziffern aller Items. Alles zu Auswertung und Wertebereich des BDI-II-V.1 und .2 sowie
der weiteren verwendeten BDI-Formen findet sich in Abschnitt 4.7.2. Dort wird auch
erläutert, wie neben einer getrennten Auswertung und Untersuchung des BDI-II-V.1
und des BDI-II-V.2 in den jeweiligen Teilstichproben auch eine gemeinsame Auswertung in der Gesamtstichprobe durch Zusammenfassung der beiden Unterformen zum
BDI-II-V erfolgen kann.
Tabelle 16 in Anhang A stellt den Bezug zwischen den Symptomkategorien des Beck
Depressionsinventars und den in Abschnitt 2.1.2 dargestellten Symptomkriterien (AKriterien) der Major Depression nach DSM-V beziehungsweise DSM-V-TR her und
bietet zudem die Möglichkeit des direkten Vergleichs der Items aller vier in der vorliegenden Untersuchung eingesetzten Versionen des Beck Depressionsinventars zu jeder
Symptomkategorie.
Damit die Möglichkeit besteht, ein verkürztes BDI-II in Verwendungszusammenhängen, in denen dies nützlich scheint, an Stelle des BDI-II einzusetzen, muss nachgewiesen werden, dass es dem Original messtheoretisch äquivalent ist. Der Messäquivalenz in
der Klassischen Testtheorie und ihrem inferenzstatistischen Nachweis widmet sich der
folgende Abschnitt.
Theorie
55
2.4 Messäquivalenz
Messäquivalenz bedeutet, dass Variablen (zum Beispiel Tests oder Subtests) das Gleiche messen. Der Begriff besitzt dabei keine allgemeingültige Definition. Messäquivalenz (auch Messinvarianz) kann in den unterschiedlichsten Verwendungszusammenhängen, auf verschiedenen Ebenen und unter Berücksichtigung unterschiedlicher Aspekte definiert und überprüft werden. Sehr häufig wird die Frage untersucht, ob ein und
derselbe Fragebogen in verschiedenen Subgruppen, zum Beispiel bei Männern und
Frauen, das Gleiche misst oder ob verschiedene Versionen eines Fragebogens in verschiedenen Subgruppen das Gleiche messen, zum Beispiel ob Übersetzungen eines Fragebogens in verschiedenen Kulturen Vergleichbares messen (wie Byrne, Stewart,
Kennard & Lee, 2007) oder ob Resultate, die sich mit einer Selbstrating-Form und einer
Fremdrating-Form erzielen lassen, übereinstimmen (wie Han, Burns, Weed, Hatchett &
Kurokawa, 2009). Dabei kann die Entsprechung struktureller Aspekte der Fragebögen
im Vordergrund stehen oder auch die Entsprechung konkreter Ergebnisse, die Probanden in den Fragebögen erreichen (Brown, 2006).
Diese Arbeit wird der Frage nachgehen, ob die verschiedenen Versionen des im vorangegangenen Kapitel vorgestellten Beck Depressionsinventars das Gleiche messen, d.h.
messäquivalent sind. Dabei wird jedoch nicht verglichen, ob die Inventare in verschiedenen Subgruppen Äquivalentes erfassen, sondern ob das diagnostische Ergebnis, das
Probanden gemäß einem der Inventare erzielen, mit dem vergleichbar ist, das sich für
diese Probanden gemäß anderen Versionen des Inventars ergibt. Eine theoretische Schule, die exakte Definitionen verschiedener Stufen von Messäquivalenz, denen Variablen
(zum Beispiel Fragebögen) genügen können, vorgenommen hat, ist die Klassische Testtheorie (KTT; Gulliksen, 1950; Lord & Novick, 1968). Eine Ergänzung und Alternative
zur Klassischen Testtheorie stellt die Item Response Theorie (IRT; siehe z. B.
Moosbrugger, 2007a) dar, in deren Rahmen die Messäquivalenz auf anderen Wegen
ermittelt werden kann (Differential Option, Test und Item Functioning; z. B. Nye,
Newman & Joseph, 2010).
Die Analysen dieser Arbeit werden jedoch auf die Konzepte der Klassischen Testtheorie
Bezug nehmen, weswegen sie im Folgenden vorgestellt werden soll. Dazu wird zunächst ein Überblick über die Klassische Testtheorie und ihre Grundprinzipien gegeben,
um dann die in Messmodellen festgeschriebenen, verschieden strengen Stufen der Ähn-
Theorie
56
lichkeit oder Äquivalenz von Variablen darzustellen. Schließlich wird die Möglichkeit
der Überprüfung dieser Messmodelle und damit der Äquivalenz von Variablen erläutert.
Der Leser möge darauf hingewiesen sein, dass der Begriff der Messäquivalenz im weiteren Verlauf dieser Arbeit grundsätzlich als theoretisch nicht verankerter Überbegriff
für die (psychometrische) Gleichwertigkeit oder Entsprechung von Variablen verwendet
wird. Ist dagegen von Messäquivalenz im Sinnes eines der Modelle der Klassischen
Testtheorie, wie sie im Folgenden eingeführt werden, die Rede, wird der entsprechende
Fachterminus (zum Beispiel essentielle τ-Äquivalenz) verwendet.
2.4.1 Die Klassische Testtheorie
Die Klassische Testtheorie, auch Messfehlertheorie, bildet seit mehr als 50 Jahren eine
theoretische Grundlage für die Konstruktion und Interpretation von Testverfahren
(Moosbrugger, 2007b). Auch wenn sie mittlerweile durch die Item-Response-Theorie
ergänzt wurde und auch teilweise ersetzt werden kann (Moosbrugger, 2007a), ist sie
weiterhin von hoher Bedeutung. Ein Großteil der aktuell eingesetzten psychodiagnostischen Verfahren basiert auf den Konstruktionsprinzipien der Klassischen Testtheorie
(Moosbrugger, 2007b).
Die zentrale Grundannahme der Klassischen Testtheorie lautet, dass jeder Testwert einer Person, z. B. eine Antwort auf ein Testitem, zusammengesetzt ist aus einem wahren
Anteil, dem wahren Wert oder englisch „True Score“, und einem zufälligen Messfehleranteil (Moosbrugger, 2007b). Der wahre Wert entspricht der tatsächlichen Merkmalsausprägung der Person auf der in Frage stehenden Dimension, z. B. ihrer wahren Intelligenz. Das entscheidende Charakteristikum des Messfehlers ist seine Definition als
unsystematischer und zufälliger Einfluss auf das Messergebnis, welcher vom wahren
Wert unabhängig sein muss. Aus diesen Konzeptionen des wahren Wertes und des
Messfehlers folgt zum einen, dass der bedingte und der unbedingte Erwartungswert des
Messfehlers Null sind (Steyer & Eid, 2001). Zum anderen folgt, dass der Messfehler
nicht nur (wie oben schon in der Definition enthalten) unkorreliert ist mit dem TrueScore-Anteil der gemessenen Variable, sagen wir: Variable Yi, sondern ebenfalls nicht
korreliert mit dem True Score einer anderen, ebenfalls gemessenen Variable, nennen
wir sie Variable Yj (Steyer & Eid, 2001). Die Annahme der Unkorreliertheit der Messfehler untereinander, also die Voraussetzung, dass der Messefehler einer Variable Yi
Theorie
57
nicht mit dem Messfehler einer Variablen Yj korrelieren darf, gilt dagegen – wie Steyer
und Eid (2001) betonen – nicht unbedingt, auch wenn dies ursprünglich in der Literatur
zur Klassischen Testtheorie (z. B. Gulliksen, 1950; Lord & Novick, 1968) angenommen
wurde. Sie ist lediglich eine Zusatzannahme, die einen Bestandteil der Modelle der
Klassischen Testtheorie, welche im Folgenden beschrieben werden, und eine Voraussetzung zur Bestimmung der Reliabilität in der Klassischen Testtheorie darstellt
(Moosbrugger, 2007b; Steyer & Eid, 2001), aber keine unbedingte Folge der Definitionen von wahrem Wert und Fehler. Sie kann in der Realität daher unerfüllt sein und
muss bei bestimmten Formen der Modellprüfung und vor der Bestimmung der Reliabilität überprüft werden (Steyer & Eid, 2001).
Die zentrale Grundannahme der Klassischen Testtheorie von der additiven Zusammensetzung eines jeden Testwertes (hier: Ymi für den Wert einer Person m auf dem Item i)
aus den zwei Komponenten wahrer Wert (τ, tau für „True Score“) und Messfehler (ε,
epsilon für „error score“) kann als mathematische Gleichung formuliert werden (Eid,
Gollwitzer & Schmitt, 2010, S.818):
(F1)
Über mehrere Personen hinweg lautet die Grundgleichung (Eid et al., 2010, S. 818):
(F2)
Die Varianz einer an mehreren Personen beobachteten Variable Yi speist sich gemäß
der Grundannahme der Klassischen Testtheorie damit aus den beiden Quellen wahre
Unterschiede zwischen Personen und messfehlerbedingte Unterschiede zwischen Personen (Eid et al., 2010). In diese beiden Bestandteile, Varianz der True-Score-Variablen
und Varianz der Messfehlervariablen, kann die Gesamtvarianz einer Variablen demnach
additiv zerlegt werden (Eid et al., 2010, S. 819):
( )
( )
( )
(F3)
2.4.2 Die Messmodelle der Klassischen Testtheorie
Die Messmodelle der Klassischen Testtheorie formulieren unterschiedlich strenge Homogenitätsanforderungen, welchen ein Instrument, oder etwas allgemeiner, ein Satz an
Variablen, von denen ich annehme, dass sie das gleiche Merkmal messen, genügen
Theorie
58
kann, aber nicht muss (Eid et al., 2010). Variablen steht hier und im Folgenden also für
einzelne Messungen desselben Merkmals. Es kann sich dabei zum Beispiel um mehrere
Subskalen eines Tests handeln, welche jeweils eine Summe aus mehreren Items darstellen. Ebenso kann es sich um Summenwerte von vollständigen Fragebögen oder Tests
handeln, die vorgeben, dasselbe Merkmal zu messen. Theoretisch könnten die Variablen
eben auch einzelne Items eines Tests sein. Dies kann allerdings insofern problematisch
sein, als die Modelle der Klassischen Testtheorie metrische Variablen voraussetzen (Eid
et al., 2010), eine Bedingung, die beispielsweise nur dreifach gestufte Items nicht im
strengen Sinne erfüllen.
Folgende fünf Messmodelle werden in der Klassischen Testtheorie unterschieden (Eid
et al., 2010):

das Modell τ-kongenerischer Variablen

das Modell essentiell τ-äquivalenter Variablen

das Modell essentiell τ-paralleler Variablen

das Modell τ-äquivalenter Variablen

das Modell τ-paralleler Variablen
Jedes dieser Modelle macht unterschiedlich strenge Annahmen bzw. Vorschriften, welche erfüllt sein müssen, um von hinreichender Ähnlichkeit oder Messäquivalenz der
Variablen im Sinne des jeweiligen Modells sprechen zu dürfen. In Bezug auf die (Menge an) Anforderungen, die an die Variablen hinsichtlich ihrer Gleichwertigkeit gestellt
werden, stehen die Modelle in einer hierarchischen Beziehung zueinander (Eid et al.,
2010): Das Modell τ-kongenerischer Variablen stellt das Grundmodell dar, auf dem alle
weiteren Modelle basieren. Es ist ein minimales Modell, welches am wenigsten Voraussetzungen formuliert, und wird somit am leichtesten erfüllt. Damit ist es aber auch das
am wenigsten strenge Modell, dessen Variablen nur die niedrigste Stufe der Gleichwertigkeit erfüllen. Die zweite Stufe stellt das Modell essentiell τ-äquivalenter Variablen
dar. Das Modell essentiell τ-paralleler Variablen und das Modell τ-äquivalenter Variablen teilen sich die dritte Stufe der Hierarchie; unter dem Gesichtspunkt der Menge an
Voraussetzungen, die an die Variablen gestellt werden, können sie als gleichwertig gelten. Das Modell τ-paralleler Variablen schließlich ist das höchste in der Hierarchie,
welches die meisten und strengsten Voraussetzungen an die Gleichwertigkeit von Vari-
Theorie
59
ablen stellt. Modelle, die in der Hierarchie höher stehen, erfüllen auch die Voraussetzungen von Modellen niedrigeren Niveaus.
Diese Annahmen und damit das Vorliegen von unterschiedlich differenzierten Niveaus
der Messäquivalenz können überprüft werden, wie später erläutert wird.
2.4.2.1 τ-Kongenerität (Das Modell τ-kongenerischer Variablen)
Wie beschrieben, handelt es sich hier um das Basismodell der Klassischen Testtheorie.
Die Modelle der Klassischen Testtheorie bilden die Beziehungen von Variablen, die
dasselbe Merkmal messen, sparsam und übersichtlich ab, indem dieses eine Merkmal
als gemeinsame latente Variable modelliert wird, mit dem alle Variablen verknüpft
werden (Eid et al., 2010). Diese wird auch latente Dimension oder Faktor genannt und
mit η bezeichnet.
In aller Regel wird dabei angenommen, dass die latente Dimension den True-ScoreAnteil der beobachteten Werte auf den manifesten Variablen, auch Indikatoren genannt,
„verursacht“ (Eid et al., 2010), dass diese Werte also von der Ausprägung des Faktors
abhängen9.
Dem Modell der Klassischen Testtheorie entsprechend setzt sich jede beobachtete Variable additiv aus dem True-Score-Anteil und dem Messefehler-Anteil zusammen (s.o.).
Der True-Score-Anteil ist der Teil, der von der latenten Variablen verursacht wird. Der
Messfehleranteil – oder, etwas allgemeiner, Residualanteil – ist der Teil, der nicht von
der in Frage stehenden latenten Variablen, sondern von anderen Einflüssen abhängt, die
in den Modellen der Klassischen Testtheorie als unsystematische Messfehler konzipiert
sind10.
9
Man spricht in diesem Falle von reflektiven Indikatoren. Manchmal ist jedoch die umgekehrte Konzeption sinnvoller. In diesem Falle, wenn das Modell also davon ausgeht, dass die Indikatoren der „Grund“
für die latente Variable sind, wie bspw. beim Konzept des „Sozioökonomischen Status“, spricht man von
formativen Indikatoren (Brown, 2006). Dieser Spezialfall wird in dieser Arbeit jedoch keine Rolle spielen.
10
Dies gilt für die hier beschriebenen True-Score-Modelle. Mehrdimensionale Faktorenanalytische Modelle nehmen häufig an, dass der nicht durch eine latente Variable bestimmte Anteil der Varianz einer
manifesten Variablen ebenfalls wieder aus zwei Anteilen zusammengesetzt ist, dem Messfehler und darüber hinaus einen indikatorspezifischen weiteren True-Score-Anteil, der aber nicht mit anderen Variablen
im Modell geteilt wird. Messfehler und indikatorspezifischer True-Score-Anteil werden unter dem Begriff der uniqueness zusammengefasst, lassen sich jedoch ohne die Hinzunahme weiterer Indikatoren, mit
denen die entsprechende manifeste Variable Varianz teilt, nicht voneinander trennen (Eid et al., 2010).
Theorie
60
Die zentrale Annahme des Modells τ-kongenerischer Variablen betrifft die Messfehler:
Diese variablenspezifischen Messfehler müssen voneinander unabhängig sein (Eid et
al., 2010). Es darf keine Korrelation geben zwischen dem Fehleranteil der Variablen Yi
und dem Fehleranteil der Variablen Yj oder Yk oder Yl (das heißt, diese Vorschrift gilt
für alle Messfehlerpaare).
Die Annahme der Unkorreliertheit der Messfehler ist ebenso die Grundvoraussetzung
aller anderen Modelle, wird dort aber jeweils um weitere Bedingungen ergänzt, wie
unten beschrieben wird.
In der inhaltlichen Betrachtung der Modelle bedeutet dies, dass die Zusammenhänge
zwischen den Variablen (Yi, Yj, Yk und Yl) im Modell vollständig durch die latente Variable η erklärt werden müssen, wenn das Modell τ-kongenerischer Variablen (oder irgendein anderes der Modelle der Klassischen Testtheorie) gelten soll (Eid et al., 2010).
„Dass die beobachteten Variablen (…) miteinander korrelieren, darf – dem Modell zufolge – nur daran liegen, dass sie das gleiche Merkmal messen, und nicht daran, dass es
gemeinsame Messfehlereinflüsse gibt“ (Eid et al., 2010, S. 827). Die True-ScoreVariablen sind dann lineare Transformationen voneinander und von der latenten Variablen (Eid et al., 2010). Die unterste Homogenitätsanforderung, die für alle Modelle der
Klassischen Testtheorie gilt, ist damit die der Eindimensionalität. Alle Variablen dürfen
nur einen einzigen True-Score messen.
Lässt sich die Annahme unkorrelierter Messfehler nicht halten, muss davon ausgegangen werden, dass die Variablen im Modell, die korrelierte Messfehler aufweisen, mehr
als eine gemeinsame latente Dimension erfassen (Eid et al., 2010). Das Modell wäre
dann nicht mehr unidimensional, sondern multidimensional (Eid et al., 2010).
Dabei können multidimensionale Modelle wiederum aus unidimensionalen Modellen
aufgebaut sein – dann, wenn jeder Indikator (manifeste Variable) im Modell nur einer
der latenten Variablen im Modell „zugeordnet“ ist, also keine Doppelladungen aufweist11 (Brown, 2006). Ein Indikator (Item, Variable) wird immer dann als kongenerisch bezeichnet, wenn er in einem Modell auf nur einem Faktor lädt (Brown, 2006).
11
Jedenfalls entsprechend moderner Auffassungen; früher wurde der Begriff „kongenerisch“ tatsächlich
nur für 1-Faktor-Messmodelle verwendet (Brown, 2006).
Theorie
61
Dabei dürfen sich die einzelnen Variablen jedoch in bestimmten Parametern unterscheiden,
und zwar je nach Modell in unterschiedlichen und unterschiedlich vielen Parametern.
Im τ-kongenerischen Modell dürfen sich die beobachteten Variablen in drei Belangen
voneinander unterscheiden.
Zwei Unterschiede beziehen sich auf den True-Score-Anteil: Die Variablen dürfen unterschiedlich schwierig sein (Eid et al., 2010), das heißt, sie erfassen zwar das gleiche
Merkmal, doch kann man manchen Items eher zustimmen (bzw. sie leichter lösen) als
andere(n), wobei sich diese Differenz bei allen Personen, die dieses Item bearbeiten,
zeigt (siehe dazu ausführlicher unten). Dazu wird in die Gleichung (siehe Tabelle 4) der
Leichtigkeitsparameter α eingeführt. Außerdem dürfen bei τ-kongenerischen Variablen
„die linearen Abhängigkeiten der True-Score-Variablen von der latenten Variablen η
durch unterschiedliche Steigungskoeffizienten gekennzeichnet“ sein (Eid et al., 2010, S.
835). Dies kann unterschiedliche Ursachen haben. Zum einen kann es aus unterschiedlichen Maßeinheiten (Metrik) der verschiedenen manifesten Variablen resultieren (Eid et
al., 2010), zum Beispiel wenn ein Indikator auf einer vierstufigen Likert-Skala gemessen wurde, der andere aber auf einer stufenlosen visuellen Analogskala, deren Enden
bei 0 und 100 verankert sind. Zum anderen kann dies eine unterschiedliche Diskriminationsfähigkeit der Variablen bedeuten (Eid et al., 2010), die sich zum Beispiel ergibt,
wenn zwei Variablen „das zu messende Merkmal in unterschiedlicher Stärke ansprechen“ (S. 836). Dann unterscheiden sich die wahren Werte zweier Personen auf dem in
Frage stehenden Merkmal in unterschiedlichem Ausmaß, je nachdem, welche Variable
(Item, Subtest, Test, …) zur Messung dieses Merkmals verwendet wird (Eid et al.,
2010). So zeigt sich „der Unterschied zwischen [zwei] Personen (…) bei dem Verfahren
mit höherer Diskriminationsfähigkeit deutlicher“ (S. 836). In jedem Falle muss in die
Gleichung (siehe Tabelle 4) ein Steigungs- oder Ladungsparameter λ, auch Diskriminationsparameter genannt, eingeführt werden.
Der dritte Unterschied betrifft den Residualanteil. Die beobachteten Variablen unterscheiden sich in dem Anteil ihrer Varianz, der durch Messfehlereinflüsse zustande
kommt (Eid et al., 2010).
Demnach dürfen sich die True-Score-Variablen in ihren Leichtigkeitsparametern (und
damit in ihren Erwartungs- bzw. Mittelwerten) sowie in ihren Diskriminationsparametern (und damit ihren Varianzen und Kovarianzen) unterscheiden; die beobachteten Va-
Theorie
62
riablen weisen unterschiedliche Mittelwerte, unterschiedliche Varianzen und unterschiedliche Kovarianzen auf und sind unterschiedlich reliable Indikatoren des erfassten
Konstrukts (vgl. Eid et al., 2010).
Erfüllt ein Set an Variablen, die dasselbe Merkmal erfassen sollen, also die Anforderungen des Modells τ-kongenerischer Variablen, jedoch keine der Anforderungen höherwertiger Modelle, erfassen sie zwar das gleiche Merkmal, tun dies aber unterschiedlich differenziert und sind nicht völlig gleichwertig oder austauschbar. Wenn man die
Unterschiede zweier Personen auf diesem Merkmal messen will, ist es nicht gleichgültig, welche der Variablen (Items, Subskalen oder Tests/Messinstrumente) ich verwende,
denn das Ergebnis des Vergleichs der Personen wird sich unterscheiden (Eid et al.,
2010). Auch wenn man umgekehrt die Variablen selbst miteinander vergleichen, zum
Beispiel ihre Schwierigkeit bewerten möchte, ist das Ergebnis nicht unabhängig davon,
welche Personen die Items bearbeiten respektive welche Merkmalsausprägungen diese
Personen aufweisen (Eid et al., 2010).
2.4.2.2 Essentielle τ-Äquivalenz (Das Modell essentiell τ-äquivalenter
Variablen)
Das Modell essentiell τ-äquivalenter Variablen fügt dem Modell τ-kongenerischer Variablen die strenge Annahme hinzu, dass alle True-Score-Variablen perfekt von der latenten Variablen η abhängen (Eid et al., 2010). Damit sind auch alle True-Score-Variablen
untereinander perfekt korreliert (Eid et al., 2010). Dies gilt nicht in gleicher Weise für
die beobachteten Werte, die neben dem True-Score-Anteil noch einen Residualanteil
beinhalten, der nicht von der latenten Variablen beeinflusst wird. Dieser unsystematische Messfehleranteil darf sich zwischen den Variablen im Modell essentiell τäquivalenter Variablen weiterhin unterscheiden und sorgt so dafür, dass die beobachteten Werte (im Gegensatz zu den wahren Werten) nicht perfekt miteinander korreliert
sind (Eid et al., 2010). Man kann sich vorstellen, dass es sich beim Modell essentiell τäquivalenter Variablen um ein Modell τ-kongenerischer Variablen handelt, in dem die
Parameter λ aller Variablen den gleichen Wert, zum Beispiel „1“, aufweisen, und alle
True-Score-Variablen so den Faktor so mit gleicher Diskrimination erfassen (Brown,
2006; Eid et al., 2010). Alle Indikatoren haben eine äquivalente Beziehung zum latenten
Konstrukt und messen dieses in der gleichen Metrik (Brown, 2006).
Theorie
63
Auch wenn die wahren Werte perfekt miteinander korrelieren, dürfen sich diese Werte
selbst weiterhin unterscheiden, wie dies im Modell τ-kongenerischer Variablen der Fall
war. Eine Person darf also beispielsweise auf einer Variablen Yi einen höheren wahren
Wert haben als auf einer Variablen Yj. Anders als im Modell τ-kongenerischer Variablen muss dieser Unterschied nun jedoch über alle Personen hinweg gleich sein (Eid et
al., 2010). Alle Personen müssten dann auf der Variablen Yi einen um den gleichen Betrag höheren Wert als auf einer Variablen Yj haben. Das bedeutet, der Unterschied darf
lediglich daraus resultieren, dass zwei Variablen unterschiedlich schwer (das heißt, unterschiedlich leicht zu bejahen bzw. lösen) sind, und zwar für alle Personen in gleicher
Weise. Der Unterschied darf also nur noch in einer additiven Konstante bestehen, welche die Leichtigkeit oder Schwierigkeit einer Variablen abbildet (Eid et al., 2010). Die
Differenz in den wahren Werten von Variablen darf nicht mehr (zusätzlich) – wie im
Modell τ-kongenerischer Variablen – in einer multiplikativen Konstante bestehen, wie
sie aus unterschiedlichen Maßeinheiten oder Diskriminationsfähigkeiten resultiert (vgl.
Eid et al., 2010). Die True-Score-Variablen sind im Modell essentiell τ-äquivalenter
Variablen Translationen voneinander (Eid et al., 2010).
Genügen Variablen den Ansprüchen des Modells essentiell τ-äquivalenter Variablen, so
ist demnach der Vergleich zweier Variablen unabhängig von der Merkmalsausprägung
der Personen, die sie ausfüllen. Umgekehrt kann zum Vergleich zweier Personen hinsichtlich ihrer Merkmalsausprägung jedes der Variablenpaare verwendet werden, ohne
dass dies das Ergebnis beeinflussen würde, da die Differenz der wahren Werte zweier
Personen auf der in Frage stehenden Eigenschaft immer gleich sein muss, unabhängig
davon, welche der Variablen (also Items, Subskalen oder Skalen) ich verwende (Eid et
al., 2010).
Für die Messfehler gilt weiterhin die Forderung der Unkorreliertheit untereinander.
Somit dürfen im Modell essentiell τ-äquivalenter Variablen nur noch zwei Unterschiede
bestehen. Ein Unterschied in der Leichtigkeit und damit den Mittelwerten – nicht jedoch
der Varianz und den Kovarianzen – der True-Score-Variablen sowie ein Unterschied in
der Fehlervarianz der beobachteten Variablen (vgl. Eid et al., 2010). Die Mittelwerte
der beobachteten Variablen sind ebenso unterschiedlich. Da sich die Varianzen der beobachteten Variablen zu gleichen Anteilen aus True-Score-Varianz, aber zu unterschiedlichen Anteilen aus Fehlervarianz zusammensetzen, unterscheiden sich die Varianzen
Theorie
64
und die Reliabilitäten der beobachteten Variablen (Eid et al., 2010). Die Kovarianzen
zwischen den beobachteten Variablen sollten dennoch näherungsweise gleich sein. Die
Hypothese gleicher Kovarianzen bezieht sich zwar auf die Kovarianzen der wahren
Werte, nicht jedoch der beobachteten Werte, sollte jedoch annähernd auf diese übertragen werden können (Steyer & Eid, 2001).
2.4.2.3 Essentielle τ-Parallelität (Das Modell essentiell τ-paralleler Variablen)
Während sich die Varianzen der beobachteten Variablen im Modell essentiell τäquivalenter Variablen aufgrund unterschiedlich großer Messfehlereinflüsse unterscheiden dürfen, setzt das Modell essentiell τ-paralleler Variablen voraus, dass sich die Variablen weder in den Anteilen der True-Score-Varianz, noch in den Anteilen der Residualvarianz unterschieden dürfen und damit gleiche Reliabilitäten aufweisen (Eid et al.,
2010).
Die True-Score-Variablen unterscheiden sich damit wie im Modell essentiell τäquivalenter Variablen zwar in der Schwierigkeit, nicht jedoch in der Varianz und sie
korrelieren perfekt. Die beobachteten Variablen weisen gleiche Varianzen und Kovarianzen auf, dürfen sich aber in ihren Mittelwerten unterscheiden (Eid et al., 2010).
Im Modell essentiell τ-paralleler Variablen messen damit alle Indikatoren das latente
Konstrukt nicht nur in den gleichen Maßeinheiten sondern auch mit gleicher Präzision
(Brown, 2006).
2.4.2.4 τ-Äquivalenz (Das Modell τ-äquivalenter Variablen)
In diesem Modell wird die Restriktion gleicher (Fehler-)Varianzen der beobachteten
Variablen wieder gelöst. Dafür müssen hier alle Variablen die gleiche Schwierigkeit
aufweisen (Eid et al., 2010). Alle beobachteten Variablen haben einen identischen Erwartungswert, der zudem den Erwartungswert der latenten Variablen η darstellt (Eid et
al., 2010).
Der Anteil wahrer Varianz an den beobachteten Variablen muss – wie im Modell essentiell τ-äquivalenter Variablen – gleich sein. Die Kovarianzen der True-Score-Variablen
und der beobachteten Variablen sollten jeweils identisch sein.
Theorie
65
In einem Modell τ-äquivalenter Variablen sind alle Variablen gleich schwierig und diskriminieren gleich gut zwischen verschiedenen Personen. Die Variablen können aber
unterschiedlich reliabel sein. (Eid et al., 2010).
2.4.2.5 τ-Parallelität (Das Modell τ-paralleler Variablen)
Dieses Modell stellt die höchsten Ansprüche an die Gleichwertigkeit von Variablen,
indem es verlangt, dass alle Variablen „dasselbe eindimensionale Merkmal mit gleicher
Leichtigkeit, Diskriminationsfähigkeit und Reliabilität“ (Eid et al., 2010, S. 841) messen. τ-parallele Testverfahren weisen gleiche wahre Werte und gleiche Streuungen auf
(Moosbrugger, 2007b; Schermelleh-Engel & Werner, 2007) und sind daher vollständig
identische, austauschbare Indikatoren eines latenten Konstrukts (vgl. Brown, 2006).
Weder die True-Score-Variablen, noch die beobachteten Variablen dürfen sich in ihren
Mittelwerten, Varianzen oder Kovarianzen unterscheiden (vgl. Brown, 2006; Eid et al.,
2010).
2.4.2.6 Zusammenfassung der Messmodelle
τ-kongenerische Variablen messen dasselbe latente Merkmal, sind jedoch unterschiedlich schwer, unterschiedlich eng mit dem erfassten Konstrukt verknüpft und unterscheiden sich in ihrer Reliabilität. Sie sind „homogen im Sinne eines eindimensionalen Modells“ (Eid et al., 2010, S. 842). Diese Mindestanforderung erfüllen auch die Variablen
aller weiteren Modelle:
Essentiell τ-äquivalente Variablen erfassen dasselbe Merkmal mit gleicher Diskriminationsfähigkeit, aber unterschiedlicher Schwierigkeit. Auch sie weisen keine identischen
Reliabilitäten auf.
Variablen dürfen als essentiell τ-parallel gelten, wenn sie neben identischen Faktorladungen gleiche Reliabilitäten aufweisen. Die Schwierigkeiten unterscheiden sich weiterhin zwischen den Variablen.
Variablen, die τ-äquivalent sind, weisen gleiche Beziehungen zum latenten Konstrukt
und gleiche Schwierigkeiten auf, unterscheiden sich aber in der Reliabilität.
Theorie
66
τ-parallele Variablen sind gleich schwierige, gleich gut diskriminierende und gleich
reliable Indikatoren ein und desselben Merkmals und damit quasi austauschbare Indikatoren dieses Konstrukts.
Tabelle 4 gibt einen Überblick über die zu den jeweiligen Modellen gehörigen Gleichungen.
Tabelle 4
Übersicht über die Modellgleichungen der Klassischen Testtheorie
Grundgleichung der Klassischen Testtheorie Yi = τi + εi♠
Modell τ-kongenerischer Variablen
Yi = αi + λi * η + εi♣
Modell essentiell τ-äquivalenter Variablen
Yi = η + αi + εi♥
Modell essentiell τ-paralleler Variablen
Yi = η + αi + εi,
Var(εi) = Var (εj) = Var (ε), i ≠ j ♦
Modell τ-äquivalenter Variablen
Yi = η + εi●
Modell τ-paralleler Variablen
Yi = η + εi,
Var(εi) = Var (εj) = Var (ε), i ≠ j♦
Anmerkungen. αi Achsenabschnitt. λi Steigung einer Variablen. Grau hinterlegt ist jeweils die Modellierung des True-Scores τ. ♠ (Eid et al., 2010, S. 818). ♣ (Eid et al., 2010, S. 835). ♥ (Eid et al., 2010, S.
825). ♦ (Eid et al., 2010, S. 830). ● (Eid et al., 2010, S. 831).
2.4.3 Nutzen der Messmodelle
Die Option, im Rahmen der Modelle der Klassischen Testtheorie die Eindimensionalität
und weitere Homogenitätsstufen von Variablen zu überprüfen, macht man sich klassischerweise in der Konstruktion von Fragebögen zunutze. So können für einen eindimensionalen Fragebogen homogene Items ausgewählt werden oder – sollte dies empirisch nicht möglich und/oder theoretisch nicht gewünscht sein – Items zusammengestellt werden, die in einem mehrdimensionalen Fragebogen jeweils bestimmte Subdimensionen homogen erfassen (Eid et al., 2010).
Die Frage, ob eine Menge an Variablen den jeweiligen Kriterien eines Modells entspricht, ist in der Klassischen Testtheorie zudem dafür relevant, ob und mit welchen
Methoden die Reliabilität der einzelnen Messungen (z. B. Items eines Tests) und der
Gesamtheit der Variablen (z. B. Gesamtscore des Tests) rechnerisch bestimmt werden
darf (Eid et al., 2010; Moosbrugger, 2007b).
Theorie
67
Außerdem können mit Hilfe der vorgestellten Modelle individuelle wahre Merkmalsausprägungen als Wert einer Person auf der latenten Variablen η geschätzt werden (Eid
et al., 2010).
Da der Fokus der vorliegenden Arbeit jedoch auf den Messmodellen selbst und den Bedingungen ihrer Gültigkeit und damit der Frage des Vorliegens bestimmter Niveaus von
Messäquivalenz liegt, wurden und werden die Themen der Reliabilität(sbestimmung)
und der Messung wahrer Merkmalsausprägungen nicht vertieft. Der Leser findet Informationen zu beiden Aspekten zum Beispiel in Eid et al. (2010) oder (zur Reliabilität) in
Moosbrugger (2007b) sowie Schermelleh-Engel und Werner (2007).
2.4.4 Überprüfung der Messäquivalenz
Mit Hilfe des statistischen Verfahrens der konfirmatorischen Faktorenanalyse (CFA)
kann für ein gegebenes Set an Variablen inferenzstatistisch überprüft werden, welchen
Anforderungen
bezüglich
ihrer
Gleichwertigkeit
sie
mindestens
genügen
(Modellgeltungstest; Eid et al., 2010). Konfirmatorische Faktorenanalysen überprüfen,
ob eine postulierte Struktur in einem Set von Daten vorhanden ist oder besser gesagt,
wie wahrscheinlich es ist, dass eine postulierte Struktur die Zusammenhänge in den
Daten zufriedenstellend beschreibt. Die Anforderungen der jeweiligen Modelle werden
durch bestimmte Restriktionen umgesetzt, die der Anwender in die Spezifikation der
Modellstruktur einfügt (siehe z .B. Brown, 2006).
Im Modell τ-kongenerischer Variablen ist die einzige umzusetzende Einschränkung die
unkorrelierter Fehler, die Faktorladungen und Fehlervarianzen dürfen frei variieren
(Brown, 2006). Die Residualkorrelationen zwischen den Variablen müssen also auf
Null fixiert werden, denn die Partialkorrelation zwischen den beobachteten Variablen
müssen Null sein, wenn die latente Variable η auspartialisiert wird (Eid et al., 2010).
In der praktischen Anwendung von CFAs wird das Modell essentiell τ-äquivalenter Variablen umgesetzt, indem zusätzlich zu der Einschränkung, dass Fehlervarianzen nicht
korrelieren dürfen, die Ladungsparameter aller Indikatoren eines Faktors gleichgesetzt
werden (engl. „equality constraints“); die Fehlervarianzen dürfen weiter frei variieren
(Brown, 2006).
Theorie
68
Um in einem Modell essentielle τ-Parallelität der Variablen zu testen, wird die Restriktion identischer Fehlervarianzen der Indikatoren eines Faktors zur Restriktion identischer Faktorladungen und fehlender Residualkorrelationen hinzugefügt (Brown, 2006).
Wird ein Modell τ-äquivalenter Variablen angenommen, wird die Restriktion identischer (Fehler)varianzen der manifesten Variablen wieder gelockert, der Modellbeschreibung jedoch die Einschränkung gleicher Indikator-Intercepts hinzugefügt (vgl.
Brown, 2006). Die Vorschrift gleicher Intercepts setzt die Forderung gleicher Mittelwerte der Indikatoren um. Die Vorschriften gleicher Faktorladungen und Nullkorrelationen zwischen den Fehlern bleiben erhalten. Ab diesem Modell wird also neben der
Kovarianzstruktur auch die Erwartungswertstruktur in die Überprüfung mit einbezogen.
Alle Einschränkungen werden formuliert für die Überprüfung des strengsten aller Modelle, des Modells τ-paralleler Variablen. Die Indikatoren eines latenten Konstrukts
müssen identische Ladungsparameter, identische Fehlervarianzen und identische Intercepts aufweisen, die Fehlervariablen dürfen nicht korrelieren (vgl. Brown, 2006).
Das Prinzip des Modelltest und wie die Passung eines Modells beurteilt werden kann
werden in den Abschnitten 4.5 und 4.6 näher erläutert.
Fragestellungen und Hypothesen
69
3 Fragestellungen und Hypothesen
Der im Rahmen dieser Arbeit vorgestellte Vorschlag für eine vereinfachte Variante der
zweiten Auflage des Beck Depressionsinventars (BDI-II; Hautzinger et al., 2006),
BDI-II-V, soll auf seine psychometrischen Eigenschaften untersucht und hinsichtlich
dieser mit dem Original (BDI-II) verglichen werden. Zugleich soll der direkte Vergleich
aller eingesetzten Versionen des Beck Depressionsinventars (das BDI von Hautzinger et
al. (1995), das BDI-V von Schmitt und Maes (2000), das BDI-II von Hautzinger et al.
(2006) und das vorgeschlagene BDI-II-V) erfolgen. Das BDI-II-V findet dabei in zwei
Ausführungen (BDI-II-V.1 und BDI-II-V.2) Anwendung, die hinsichtlich ihrer Nähe
zum Original gegeneinander abgewogen werden sollen. Gleichzeitig ermöglicht eine
Zusammenfassung der beiden Ausführungen zum BDI-II-V die Untersuchung des Fragebogens in einer größeren Gesamtstichprobe. Erste Hinweise auf die Konstruktvalidität des BDI-II-V sollen Zusammenhänge mit depressionsnahen und –ferneren Persönlichkeitsvariablen erbringen.
Hypothese I: Zur internen Konsistenz und Homogenität des BDI-II-V
Da für das Original in Form des BDI-II sehr gute psychometrische Eigenschaften nachgewiesen sind (Hautzinger et al., 2006) und entsprechend den Ergebnissen von Schmitt
und Maes (2000), deren BDI-V dem BDI-II-V in Inhalt und Aufbau sehr ähnlich ist,
wird postuliert, dass für das BDI-II-V gute Kennwerte der internen Konsistenz und der
Homogenität sowie zufriedenstellende korrigierte Trennschärfen nachzuweisen sind:

α (BDI-II-V) ≥ .85

M rii (BDI-II-V) ≥ .30

.30 ≤ niedrigste rit (BDI-II-V), höchste rit (BDI-II-V) ≥ .60; M rit (BDI-II-V) ≥ .50
Hypothese II: Zur Konstruktvalidität des BDI-II-V
Zu den drei Hauptgütekriterien, auf deren Basis diagnostischen Verfahren bewertet
werden, zählt neben der Objektivität und der Reliabilität auch die Validität. Kennwerte
der Validität geben im Allgemeinen an, in wie weit ein Instrument das Merkmal erfasst,
das es zu erfassen vorgibt. Besonders umfassende Überprüfungen werden dabei im
Rahmen der Konstruktvalidität vorgenommen, die fordert, dass die von einem Messin-
Fragestellungen und Hypothesen
70
strument generierten Daten mit diversen Kriterien in der Höhe korrelieren, wie begründete Theorien es erwarten lassen (z. B.Campbell & Fiske, 1959; Cronbach & Meehl,
1955). Weit verbreitet ist eine darauf basierende, vereinfachte Definition der Konstruktvalidität. Danach sollten die von einem Messinstrument generierten Daten den Erwartungen aus bisherigen Befunden entsprechend hoch mit Verfahren – oder allgemeiner
Variablen – korrelieren, die dieselben oder zumindest verwandte Konstrukte erfassen
(konvergente Validität) und den Erwartungen entsprechend niedrig(er) oder sogar gar
nicht mit Verfahren respektive Variablen, die entfernte Konstrukte erfassen (diskriminante Validität) (z. B. Campbell & Fiske, 1959; Gollwitzer & Jäger, 2007; SchermellehEngel & Schweizer, 2007).
Auf dieser Basis sollen erste Hinweise auf die Konstruktvalidität des BDI-II-V gewonnen werden, indem seine Zusammenhänge mit depressionsnahen und –ferneren Persönlichkeitsvariablen verglichen werden mit bisherigen Befunden zur Assoziation von Depressivität und Persönlichkeit. Solche bisherigen Befunde und einige theoretische Erklärungsansätze wurden in Abschnitt 2.2 dargestellt.
Der Bewertung des Ausmaßes des Zusammenhangs wird im Folgenden die grobe Klassifikation von Cohen (1988) zugrunde gelegt, wonach eine Korrelation ab dem Betrag
von r = .1 einen schwachen Zusammenhang bedeutet, ein Betrag von r = .3 kennzeichnet einen mittleren Zusammenhang und ab einem Betrag von r = .5 darf von einem starken Zusammenhang gesprochen werden.
Entsprechend den Befunden, die in der Literatur berichtet werden, und dabei insbesondere unter Bezugnahme auf die Ergebnisse, welche die querschnittliche Korrelation
zwischen aktueller Depressivität und Persönlichkeitseigenschaften betreffen, würde
man für die Korrelation eines validen Instrumentes zur Erfassung der Depressivität eine
positive Korrelation mit Neurotizismus erwarten, die im Betrag r = .5 nicht unterschreiten sollte, was einem deutlichen Zusammenhang entspricht. Mit der Extraversion sollte
ein solches Instrument etwa mittelmäßig negativ korrelieren, im Bereich von r = .3 oder
.4. Der Zusammenhang mit Offenheit sollte niedrig positiv (etwa bei r = .1 oder .2) sein,
mit Verträglichkeit wäre am ehesten eine negative Assoziation niedrigen oder mittleren
Ausmaßes zu erwarten, zwischen r = .1 und .3. Zwischen der Gewissenhaftigkeit und
Depressivität sollte ebenso eine schwach bis mittelmäßig (r = .1 bis .3) negative Beziehung bestehen:
Fragestellungen und Hypothesen

ϱ (BDI-II-V, Neurotizismus) ≥ .5

-.3 ≤ ϱ (BDI-II-V, Extraversion) ≤ -.4

.1 ≤ ϱ (BDI-II-V, Offenheit für Erfahrung) ≤ .2

-.1 ≤ ϱ (BDI-II-V, Verträglichkeit) ≤ -.3

-.1 ≤ ϱ (BDI-II-V, Gewissenhaftigkeit) ≤ -.3
71
Hypothesen III.a.1 bis III.a.5 und III.b: Zur Entsprechung von BDI-II-V und BDI-II
Das Kapitel 2.3.4 beschreibt, dass die Entwicklung des BDI-II-V das Ziel verfolgte,
inhaltlich so nah wie möglich am Original zu bleiben, um so eine ebenbürtige Alternative für das BDI-II darzustellen. Ob dieses Vorhaben geglückt ist, soll durch die Untersuchung der Äquivalenz der Messeigenschaften von Original (BDI-II) und Verkürzung
(BDI-II-V) überprüft werden.
Hypothesen III.a.1 bis III.a.5: Zur Konvergenz von BDI-II-V und BDI-II auf deskriptiver Ebene
Hypothese III.a.1: Zur Korrelation auf Item- und Summenwertebene
Die Summenwerte von BDI-II-V und BDI-II sollen hoch korrelieren:
ϱ (BDI-II-V, BDI-II) ≥ .8
Auch die Korrelationen zwischen den Werten auf Ebene der Items, die in den Fragebögen jeweils dasselbe Symptom erfassen, sollten deutlich ausgeprägt sein. Die Koeffizienten können im Betrag allerdings nicht die Werte von Korrelationen zwischen aggregierten Maßen erreichen (vgl. Schmitt & Maes, 2000):
M ϱ (Items BDI-II-V, Items BDI-II) ≥ .5
Hypothese III.a.2: Zum Vergleich der Summenwerte
Die mittleren Summenwerte von BDI-II-V und BDI-II sollen sich nicht signifikant unterscheiden:
μ (BDI-II-V) = μ (BDI-II)
Fragestellungen und Hypothesen
72
Hypothese III.a.3: Zum Vergleich der internen Konsistenzen
Die interne Konsistenz des BDI-II-V soll die interne Konsistenz des BDI-II nicht unterschreiten:
α (BDI-II-V) ≥ α (BDI-II)
Hypothese III.a.4: Zum Vergleich der Trennschärfen
Die part-whole-korrigierten Trennschärfen der Items des BDI-II-V sollen die partwhole-korrigierten Trennschärfen der Items des BDI-II nicht unterschreiten. Für jedes
Item gilt:
rit (BDI-II-V) ≥ rit (BDI-II)
Korrigierte Trennschärfen geben an, wie gut ein Item die aus allen anderen Items gebildete Gesamtskala repräsentiert und damit, wie „prototypisch“ (Bühner, 2006, S. 95;
Hervorhebung durch die Verfasserin) ein Item für eine Skala ist. Wenn BDI-II-V und
BDI-II einander entsprechen, sollte ein bestimmtes Item in beiden Instrumenten in der
gleichen Beziehung zu den anderen Items und damit zum Gesamtwert stehen, also die
Gesamtskala gleich gut repräsentieren. Dies würde eine Entsprechung der Position des
Items in einer Rangreihe der Trennschärfen bedeuten und damit hätte ein Item in beiden
Inventaren den gleichen relativen Bezug zum Summenwert. Eine Übereinstimmung der
Trennschärfeprofile würde sich in einer hohen Spearman-Rangkorrelation zwischen den
Trennschärfen ausdrücken (Schmitt et al., 2003; Schmitt, Maes & Seiler, 2001):
ϱp (Trennschärfen BDI-II-V, Trennschärfen BDI-II) ≥ .5
Hypothese III.a.5: Zum Vergleich der Zusammenhänge mit anderen Variablen
Als Hinweis auf ähnliche Messeigenschaften zweier Instrumente kann auch gelten,
wenn sie ähnlich hoch mit anderen Variablen korrelieren (Schmitt et al., 2003). Es wird
erwartet, dass die Korrelationen des BDI-II-V mit den Persönlichkeitsvariablen Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit
ähnlich hoch und gleich gerichtet ausfallen wie jene des BDI-II mit diesen Persönlichkeitsvariablen:
Fragestellungen und Hypothesen

ϱ (BDI-II-V, Neurotizismus) ≈ ϱ (BDI-II, Neurotizismus)

ϱ (BDI-II-V, Extraversion) ≈ ϱ (BDI-II, Extraversion)

ϱ (BDI-II-V, Offenheit für Erfahrung) ≈ ϱ (BDI-II, Offenheit für Erfahrung)

ϱ (BDI-II-V, Verträglichkeit) ≈ ϱ (BDI-II, Verträglichkeit)

ϱ (BDI-II-V, Gewissenhaftigkeit) ≈ ϱ (BDI-II, Gewissenhaftigkeit)
73
Hypothese III.b: Zur inferenzstatistischen Überprüfung der Messäquivalenz von
BDI-II-V und BDI-II
Es wird postuliert, dass das BDI-II-V und das BDI-II entsprechend dem Modell essentiell τ-paralleler Variablen der klassischen Testtheorie parallele Indikatoren eines latenten
Konstrukts, das mit „Depressivität“ bezeichnet werden soll, darstellen. Beide Variablen
sollen dieses latente Konstrukt mit gleicher Diskrimination und gleicher Reliabilität
erfassen und das latente Konstrukt soll die Korrelation zwischen dem BDI-II und dem
BDI-II-V vollständig erklären.
Hypothesen IV.a.1 bis IV.a.3 und IV.b: Zum Vergleich von BDI-II-V.1 und BDI-II-V.2
Das BDI-II-V wurde in zwei Ausführungen vorgeschlagen, die bezüglich ihrer Nähe
zum Original miteinander verglichen werden sollen. Da Aufbau und Inhalt der infrage
stehenden Items zu „Schlaf“ und „Appetit“ im BDI-II-V.2 näher am BDI-II sind, als
dies im BDI-II-V.1 der Fall ist, wird postuliert, dass die vorgeschlagenen Maße der
Ähnlichkeit zwischen BDI-II und BDI-II-V in getrennten Untersuchungen der Konvergenz von BDI-II und BDI-II-V.1 sowie der Konvergenz von BDI-II und BDI-II-V.2 für
das BDI-II-V.2 höher ausfallen als für das BDI-II-V.1.
Hypothesen IV.a.1 bis IV.a.3: Zur Konvergenz von BDI-II-V und BDI-II auf deskriptiver
Ebene
Hypothese VI.a.1: Zur Korrelation auf Item- und Summenwertebene
Der Summenwert des BDI-II-korreliert höher mit dem Summenwert des BDI-II-V.2 als
mit dem Summenwert des BDI-II-V.1:
ϱ (BDI-II-V.2, BDI-II) > ϱ (BDI-II-V.1, BDI-II)
Fragestellungen und Hypothesen
74
Insbesondere korrelieren die Werte auf der Ebene der Items zu „Schlaf“ und „Appetit“
höher zwischen BDI-II-V.2 und BDI-II als zwischen BDI-II-V.1 und BDI-II:

ϱ (Schlafitem BDI-II-V.2, Schlafitem BDI-II) > ϱ (Schlafitem BDI-II-V.1, Schlafitem BDI-II)

ϱ (Appetititem BDI-II-V.2, Appetititem BDI-II) > ϱ (Appetititem BDI-II-V.1, Appetititem BDI-II)
Hypothese IV.a.2: Zum Vergleich der Summenwerte
Der mittlere Summenwert des BDI-II liegt näher am mittleren Summenwert des
BDI-II-V.2 als am mittleren Summenwert des BDI-II-V.1:
Δ (μ (BDI-II-V.2), μ (BDI-II)) < Δ (μ (BDI-II-V.1), μ (BDI-II))
Hypothese IV.a.3: Zum Vergleich der Trennschärfen
Die Rangkorrelation der Itemtrennschärfen fällt höher aus zwischen dem BDI-II-V.2
und dem BDI-II als zwischen dem BDI-II-V.1 und dem BDI-II:
ϱp (Trennschärfen BDI-II-V.2, Trennschärfen BDI-II) > ϱp (Trennschärfen BDI-II-V.1, Trennschärfen BDI-II)
Hypothese IV.b: Vergleich der Messäquivalenz von BDI-II-V.1 und BDI-II mit der
Messäquivalenz von BDI-II-V.2 und BDI-II
Es wird postuliert, dass ein Modell essentiell τ-paralleler Variablen im Sinne der klassischen Testtheorie besser auf ein Modell passt, das die manifesten Variablen BDI-II-V.2
und BDI-II auf eine latente Variable „Depressivität“ zurückführt als auf ein Modell, das
die manifesten Variablen BDI-II-V.1 und BDI-II auf eine solche latente Variable zurückführt.
Hypothesen V.a.1 bis V.a.5 und V.b: Zur Entsprechung von BDI, BDI-V, BDI-II und
BDI-II-V
Eine interessante Frage ist, ob die im BDI-II realisierte, auf eine Verbesserung der Inhaltsvalidität zielende (Kühner, Bürger, Keller & Hautzinger, 2007) Anpassung der in
den Items repräsentierten Symptome an die diagnostischen Kriterien der Major Depression nach DSM-IV (American Psychiatric Association, 1994) Auswirkungen auf die
psychometrischen Eigenschaften des Inventars hatte. In diese Analysen sollen auch die
Fragestellungen und Hypothesen
75
verkürzten Versionen der beiden Inventare einbezogen werden, um einen abgerundeten
Gesamteindruck zu erhalten, in welchem Verhältnis die Messeigenschaften aller Inventare zueinander stehen.
Zum einen lassen sich deskriptive Maße vergleichen. Hier wäre festzustellen, ob sich
die Ergebnisse des direkten Vergleichs der amerikanischen Originalausgaben von BDI
und BDI-II (z. B. Dozois et al., 1998) auch für die deutschen Übersetzungen zeigen.
Dies würde sehr hohe Korrelationen zwischen den Summenwerten von BDI und BDI-II
bedeuten, einen gegenüber dem BDI etwas erhöhten mittleren Summenwert des BDI-II,
und ähnlich hohe interne Konsistenzen.
Zum anderen kann analysiert werden, ob BDI und BDI-II die Intensität depressiver
Symptome mit gleicher Diskrimination und Reliabilität erfassen. Nach den Ergebnissen
von Dozois et al. (1998) könnte man dies zunächst einmal annehmen. Bezieht man
gleichzeitig die von Schmitt und Maes (2000) zumindest in einer großen Stichprobe
klinischer und nicht-klinischer Probanden nachgewiesene Messäquivalenz von BDI und
BDI-V ein und setzt voraus, dass sich die in Hypothese III.b postulierte Parallelität von
BDI-II und BDI-II-V bestätigt, so könnte man vorläufig postulieren, dass sich alle vier
Inventare als parallele Indikatoren eines latenten Konstrukts „Depressivität“ erweisen.
Die Korrelationen zwischen den Summenwerten der vier Inventare ließen sich dann
vollständig durch eine zugrunde liegende latente Dimension „Depressivität“ erklären
und alle vier Inventare wären gleich gut diskriminierende, gleich reliable Indikatoren
der Depressionsschwere.
Hypothesen V.a.1 bis V.a.5: Zur Konvergenz von BDI, BDI-V, BDI-II und BDI-II-V auf
deskriptiver Ebene
Hypothese V.a.1: Zur Korrelation auf Ebene der Summenwerte
Es wird erwartet, dass die Summenwerte aller vier Varianten des Inventars hoch untereinander korrelieren. Keiner der sechs Koeffizienten wird einen Wert von ϱ = .8 unterschreiten:
Fragestellungen und Hypothesen

ϱ (BDI, BDI-II) ≥ .8

ϱ (BDI-V, BDI-II-V) ≥ .8

ϱ (BDI, BDI-V) ≥ .8

ϱ (BDI-II, BDI-II-V) ≥ .8 (Wiederholung der Hypothese III.a.1)

ϱ (BDI, BDI-II-V) ≥ .8

ϱ (BDI-II, BDI-V) ≥ .8
76
Hypothese V.a.2: Zum Vergleich der Summenwerte
Die mittleren Summenwerte von BDI und BDI-V sollen sich nicht signifikant unterscheiden, ebenso nicht die Summenwerte von BDI-II und BDI-II-V (s.o., Hypothese
III.a.2). Entsprechend den Befunden für die amerikanischen Originalausgaben (Dozois
et al., 1998) wird erwartet, dass der Summenwert des BDI-II im Durchschnitt etwas
höher ausfällt als jener des BDI:

μ (BDI-II) > μ (BDI)

μ (BDI-V) = μ (BDI)

μ (BDI-II-V) = μ (BDI-II) (Wiederholung der Hypothese III.a.2)
Hypothese V.a.3: Zum Vergleich der internen Konsistenzen
Die internen Konsistenzen von BDI und BDI-II sollen einander ähnlich sein. Die interne
Konsistenz des BDI-V soll jene des BDI nicht unterschreiten. Die interne Konsistenz
des BDI-II-V soll jene des BDI-II nicht unterschreiten (s.o., Hypothese III.a.3):

α (BDI-II) ≈ α (BDI)

α (BDI-V) ≥ α (BDI)

α (BDI-II-V) ≥ α (BDI-II) (Wiederholung der Hypothese III.a.3)
Hypothese V.a.4: Zum Vergleich der Trennschärfen
Nach den berichteten Ergebnissen (Hautzinger et al., 1995; Hautzinger et al., 2006;
Richter, 1991) scheinen die Itemtrennschärfen des BDI unter denen des BDI-II zu liegen. Für den Vergleich der Itemtrennschärfen zwischen den Original-BDIs und ihrer
jeweiligen verkürzten Version wird angenommen, dass die mittleren Trennschärfen für
Fragestellungen und Hypothesen
77
die verkürzten Versionen etwas höher sind als jene der Original-Versionen (vgl. Schmitt
et al., 2003):

M (rit (BDI-II)) > M (rit (BDI))

M (rit (BDI-V)) > M (rit (BDI))

M (rit (BDI-II-V)) > M (rit (BDI-II))
Hypothese V.a.5: Zum Vergleich der Zusammenhänge mit anderen Variablen
Die Zusammenhänge aller vier Inventare mit den Persönlichkeitsvariablen Neurotizismus (N), Extraversion (E), Offenheit für Erfahrung (O), Verträglichkeit (V) und Gewissenhaftigkeit (G) werden ähnlich ausfallen (vgl. Hypothese III.a.5):

ϱ (BDI, N) ≈ ϱ (BDI-II, N) ≈ ϱ (BDI-II-V, N) ≈ ϱ (BDI-V, N)

ϱ (BDI, E) ≈ ϱ (BDI-II, E) ≈ ϱ (BDI-II-V, E) ≈ ϱ (BDI-V, E)

ϱ (BDI, O) ≈ ϱ (BDI-II, O) ≈ ϱ (BDI-II-V, O) ≈ ϱ (BDI-V, O)

ϱ (BDI, V) ≈ ϱ (BDI-II, V) ≈ ϱ (BDI-II-V, V) ≈ ϱ (BDI-V, V)

ϱ (BDI, G) ≈ ϱ (BDI-II, G) ≈ ϱ (BDI-II-V, G) ≈ ϱ (BDI-V, G)
Hypothese V.b: Zur inferenzstatistischen Überprüfung der Messäquivalenz von BDI,
BDI-V, BDI-II und BDI-II-V
Alle vier Varianten des Beck Depressionsinventars erweisen sich als gleich gut diskriminierende, gleich reliable Indikatoren der Depressivität und das Konstrukt der Depressivität erklärt vollständig die Zusammenhänge zwischen den vier Indikatoren.
Methode
78
4 Methode
Das Methodenkapitel geht zunächst auf die eingesetzten Instrumente ein und beschreibt
im Anschluss die Durchführung der Untersuchung. Darauf folgt die Darstellung der in
konfirmatorischen Faktorenanalysen getesteten Modelle. Die verwendete Auswertungssoftware findet sodann Erwähnung. Danach wird auf den in den konfirmatorischen Faktorenanalysen gewählten Schätzalgorithmus eingegangen. Der darauf folgende Abschnitt beschreibt, wie die Güte der Modelle konfirmatorischer Faktorenanalysen beurteilt wird. Das Methodenkapitel schließt mit der Darstellung der Aufbereitung der Rohdaten für die Analysen.
4.1 Instrumente
In diesem Abschnitt wird auf die eingesetzten Instrumente eingegangen, wobei nur das
NEO-Fünf-Faktoren-Inventar (NEO FFI; Borkenau & Ostendorf, 2008) ausführlich
dargestellt wird, während für das Beck Depressionsinventar ein Großteil der Beschreibung bereits im Theorieteil erfolgte, so dass hier neben einem kurzen Überblick über
die verwendeten Versionen des Inventars und ihren Bezug zueinander nur noch eine
Besonderheit bezüglich der Instruktionen Erwähnung findet. Alle Instrumente befinden
sich in Anhang B.2.
4.1.1 Das Beck Depressionsinventar (BDI)
Diese Arbeit unterbreitet einen Vorschlag zur Vereinfachung der zweiten Auflage des
deutschen Beck Depressionsinventars (BDI‑II; Hautzinger et al., 2006), der dem etablierten Inventar als Ergänzung für bestimmte Verwendungszusammenhänge zur Seite
gestellt werden könnte. Diese neue Version (BDI-II-V) wurde in zwei Ausführen entworfen (BDI-II-V.1 und BDI-II-V.2), die sich in zwei Items unterscheiden. Beide sollen
auf ihre Messeigenschaften untersucht und hinsichtlich dieser mit dem Original verglichen werden. Neben dem BDI-II und dem BDI-II-V (in den Ausführungen 1 und 2)
kommen die erste Auflage des BDI (Hautzinger et al., 1995) und das BDI-V (Schmitt &
Maes, 2000), eine vereinfachte Variante des BDI, zum Einsatz.
Alle drei existierenden Inventare und die Gestaltung des neuen Vorschlags wurden bereits in Abschnitt 2.3 ausführlich vorgestellt, so dass hier auf weitere Beschreibungen zu
den Instrumenten selbst verzichtet wird.
Methode
79
Jeder Teilnehmer füllte vier verschiedene Versionen des BDIs aus (siehe dazu ausführlicher Abschnitt 4.2). Um keine irrelevanten Unterschiede zwischen den Antworten einer Person auf die Items verschiedener BDI-Versionen zu provozieren, welche sich verfälschend auf die Bestimmung der Messäquivalenz ausgewirkt hätten, wurden die Instruktionen für alle vier BDI-Versionen einheitlich gestaltet, was insbesondere für das
BDI ein Abrücken von den Original-Instruktionen bedeutete.
Dies betraf zum einen den zeitlichen Bezugsrahmen, den die Probanden bei ihrer Beantwortung zu Grunde legen sollen. Dieser variiert in den Originalinstruktionen zwischen den Fragebögen (während das BDI darum bittet, die Angaben auf die letzte Woche, einschließlich des heutigen Tages, zu beziehen, fragt das BDI-V ohne weitere zeitliche Eingrenzung nach dem gegenwärtigen Lebensgefühl, das BDI-II gibt schließlich
einen Zeitraum von zwei Wochen einschließlich des heutigen Tages vor).
Die Auswirkungen des zeitlichen Bezugsrahmens auf die Antworten der Probanden sind
eine gesonderte Fragestellung, die für das BDI-V kürzlich untersucht wurde (FabianKrause, 2011; Heckmann, 2008). Im Vergleich zweier Gruppen, die das BDI-V im Abstand von 14 Tagen zwei Mal beantworteten, wobei eine Gruppe ihre Angaben jeweils
auf die letzten zwei Wochen, die andere jeweils auf die letzten drei Monate bezog, fand
Heckmann (2008), dass Effekte zeitlicher Instruktionen zwar feststellbar waren, aber
gering ausfielen. Die Traitkonsistenz war in der drei-Monats-Gruppe nur geringfügig
höher als in der zwei-Wochen-Gruppe und insgesamt in beiden Gruppen sehr hoch. Die
Situationsspezifität lag in der zwei-Wochen-Gruppe nur geringfügig unter der der dreiMonats-Gruppe und war in beiden Gruppen insgesamt gering.
Dennoch war davon auszugehen, dass bei der Verwendung unterschiedlicher zeitlicher
Instruktionen für sehr ähnliche Fragebögen innerhalb einer Befragung, die Probanden
auf diesen Unterschied aufmerksam werden. Es hätte nicht ausgeschlossen werden können, dass Teilnehmer dabei implizit die Theorie entwickeln, dass sich die Antworten in
Abhängigkeit vom abgefragten Zeitraum zwischen den Fragebögen unterscheiden sollen. In der Folge hätten sie sich möglicherweise darum bemüht, bewusst Unterschiede
zu berichten. So entstandene Unterschiede hätten zu einer Unterschätzung der wahren
Messäquivalenz geführt und sollten deshalb durch Konstanthalten des zeitlichen Bezugsrahmens ausgeschlossen werden. Die hier verwendeten Instruktionen orientierten
Methode
80
sich deshalb für alle BDI-Varianten an der Vorgabe des Zweiwochenzeitraumes der Instruktionen des BDI-II.
Zum anderen wurde – ebenfalls entsprechend den Instruktionen des BDI-II – für alle
Fragebögen vorgegeben, dass pro Item nur ein Kreuz gesetzt werden darf. Die Originalinstruktionen des BDI hätten dagegen explizit die Auswahl mehrerer Aussagen pro
Item zugelassen. Die Abwandlung der Instruktion des BDI wirkt sich dabei nicht auf die
Auswertung aus, die im BDI wie im BDI-II lediglich die Verrechnung einer Ziffer (und
zwar der höchstangekreuzten) pro Item erlaubt, unabhängig davon, wie viele Aussagen
(und damit Ziffern) pro Item angekreuzt wurden.
Der genaue Wortlaut der Instruktionen für jede der BDI-Varianten kann jeweils dem
entsprechenden Fragebogen in Anhang B.2.1 bis B.2.5 entnommen werden.
4.1.2 Das NEO-Fünf-Faktoren-Inventar (NEO-FFI)
Das NEO-Fünf-Faktoren-Inventar (NEO FFI; zweite Auflage, Costa & McCrae, 1992;
verwendet in der deutschen Version von Borkenau & Ostendorf, 2008)12 ist ein Selbstbeurteilungsinstrument zur Erfassung der fünf Merkmalsbereiche Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit. Der Fragebogen umfasst 60 Items, so dass auf jede Persönlichkeitsdimension 12 Fragen entfallen.
Jede dieser Aussagen wird auf einer fünfstufigen Ratingskala beurteilt, die mit den Kategorien „Starke Ablehnung“, „Ablehnung“ „Neutral“, „Zustimmung“ und „Starke Zustimmung“ überschrieben sind. Der vollständige Fragebogen befindet sich in Anhang
B.2.6.
Borkenau & Ostendorf (2008) beschreiben die einzelnen Skalen (in Anlehnung an Costa
& McCrae, 1992) wie folgt:

Hohe Werte auf der Skala Neurotizismus weisen emotional labile Personen auf, die
häufig nervös, ängstlich, traurig, unsicher, beschämt oder verlegen sind und sich oft
Sorgen machen. Sie neigen auch zu unrealistischen Ideen, können ihre Bedürfnisse
schlecht kontrollieren und haben Schwierigkeiten, mit Stresssituationen angemessen
12
Die Daten, die in dieser Arbeit mit der zweiten Auflage des NEO-FFI erhoben wurden, sind vollständig
vergleichbar mit Daten, die mit der ersten Auflage des NEO-FFI (deutsche Ausgabe von Borkenau und
Ostendorf, 1993) erhoben wurden, wie sie Studien verwendeten, die im Theorieteil dieser Arbeit zitiert
werden, da Auswahl oder Formulierung der Items zwischen der ersten und zweiten Auflage des NEO-FFI
nicht verändert wurden
Methode
81
umzugehen. Niedrige Werte kennzeichnen Personen, die emotional stabil und seelisch ausgeglichen sind, sich wenig oder selten Sorgen machen, und sich durch
Stress und Anforderungen nicht leicht aus der Ruhe bringen lassen.

Hohe Werte auf der Skala Extraversion sind typisch für Personen, die gesellig,
selbstsicher, aktiv, gesprächig, personenorientiert, herzlich, optimistisch und heiter
sind und gerne anregenden oder aufregenden Aktivitäten nachgehen. Introvertierte
Personen sind eher zurückhaltend, zurückgezogen, sie sind gerne für sich und eher
von unabhängigem Naturell.

Hohe Werte auf der Skala Offenheit für Erfahrung sind kennzeichnend für wissbegierige, vielseitig interessierte, kreative, phantasievolle, in ihrem Urteil unabhängige
und häufig unkonventionelle Menschen, die neue Erfahrungen hoch schätzen und
Abwechslung lieben. Sie setzen sich mit sich selbst auseinander, nehmen ihre Gefühle bewusst wahr und sind zu kritischer Auseinandersetzung mit bewährten Normen, Regeln und Systemen bereit. Personen mit niedrigen Werten auf dieser Skala
sind eher konservativ eingestellt, Neuem gegenüber kritisch und emotional zurückhaltender.

Hohe Werte auf der Skala Verträglichkeit erzielen Personen, die altruistisch, empathisch, verständnisvoll, wohlwollend, kooperativ, nachgiebig und harmoniebedürftig
sind und ihren Mitmenschen Vertrauen entgegenbringen. Wenngleich Personen mit
niedrigeren Werten zu antagonistischen und egozentrischen Zügen neigen, so sollte
bedacht werden, dass ein gewisses Ausmaß an Misstrauen und Wettbewerbsorientierung auch eine notwendige und gesunde Eigenschaft in Bezug auf (berufliches)
Vorankommen, Erfolg und Verteidigung der eigenen Person gegen Angriffe von
außen darstellt.

Hohe Werte auf der Skala Gewissenhaftigkeit zeichnen Personen aus, die sich als
ordentlich, zuverlässig, diszipliniert, pünktlich, penibel und ehrgeizig beschreiben,
ihrer Selbstbeschreibung nach hart arbeiten und ein systematisches Vorgehen bevorzugen. Die Skala korreliert positiv mit akademischen und beruflichen Leistungen,
andererseits können sehr hohe Werte auch mit ungünstig hohen, perfektionistischen
Ansprüchen, zwanghaften Zügen oder „Arbeitssucht“ einhergehen.
Das Inventar erhebt damit die Big Five, also jene fünf Merkmale, welche sich in einer
Vielzahl bedeutsamer Untersuchungen als stabile Dimensionen zur Beschreibung von
Personen und Unterschieden zwischen ihnen erwiesen hatten und daher zum
Methode
82
Fünf-Faktoren-Modell der Persönlichkeit zusammengefasst wurden (Übersicht über den
historischen Entstehungsprozess z. B. bei Borkenau und Ostendorf, 2008).
Für die Zwecke dieser Arbeit, in der es um die Prüfung von Zusammenhängen zwischen
Depressivität und den Persönlichkeitsvariablen der Big Five, geht, ist das Instrument
bestens geeignet, da es die Merkmalsbereiche „zugleich umfassend und sparsam“
(Borkenau & Ostendorf, 2008, S. 25) erfasst, so dass hinreichende Genauigkeit mit einer vertretbaren zeitlichen und kognitiven Belastung der Probanden verbunden werden
konnte. Der zeitliche Umfang der Bearbeitung musste insofern bei der Auswahl der
Instrumente streng berücksichtigt werden, als die Motivation zur freiwilligen Teilnahme
von möglichst vielen Personen Grundvoraussetzung für die Arbeit war. Somit kam zum
Beispiel das zwar in der Erfassung der Persönlichkeitsdimensionen umfassendere, jedoch damit auch wesentlich umfangreichere NEO-PI-R (Ostendorf & Angleitner, 2004)
nicht in Betracht.
Für das NEO-FFI berichten Borkenau und Ostendorf (2008) gute Reliabilitäts- und
Homogenitätskennwerte. Die interne Konsistenz (Cronbachs α) der Skalen liegt im
Durchschnitt bei .80, genauer für die Skala Neurotizismus bei .87, für die Skala Extraversion bei .81, für die Skala Offenheit für Erfahrung bei .75, für die Skala Verträglichkeit bei .72 und für die Skala Gewissenhaftigkeit bei .84. Über die Messwiederholungsmethode ergaben sich für die Skalenwerte Reliabilitätskoeffizienten von .65 bis
.81 (zwei-Jahres-Intervall) respektive .71 bis .82 (fünf-Jahres-Intervall), was in dem
Sinne interpretiert werden kann, dass das NEO-FFI stabile Persönlichkeitseigenschaften
misst (Borkenau & Ostendorf, 2008). Die Autoren berichten jeweils über die Items einer Skala gemittelte korrigierte Trennschärfen von rit = .55 (Skala Neurotizismus),
rit = .46 (Skala Extraversion), rit = .39 (Skala Offenheit für Erfahrung), rit = .35 (Skala
Verträglichkeit), rit = .51 (Skala Gewissenhaftigkeit); der Gesamtdurchschnitt der
Trennschärfen aller 60 Items wird mit rit = .46. angegeben.
Die Autoren belegen eine den Erwartungen entsprechende, zufriedenstellende faktorielle Validität und berichten verschiedenartige Analysen, die die Konstruktvalidität des
Verfahrens nachweisen.
Methode
83
4.2 Durchführung der Erhebung
Jeder Proband erhielt vier Versionen des Beck Depressionsinventars, und zwar das BDI,
das BDI-V, das BDI-II und entweder das BDI-II-V.1 oder das BDI-II-V.2 sowie einen
NEO-FFI. Entsprechend den Angaben der Autoren in den Manualia wurde die voraussichtliche Bearbeitungsdauer mit 25 – 30 Minuten veranschlagt. Allerdings ist davon
auszugehen, dass Probanden, die bislang wenig Erfahrung im Ausfüllen von Fragebögen gesammelt hatten, mehr Zeit benötigten.
Die Fragebögen waren in einer bestimmten Reihenfolge geheftet, wobei die Probanden
in den Instruktionen gebeten wurden, die vorgegebene Reihenfolge der Bögen beim
Ausfüllen zu berücksichtigen. Zu Beginn befanden sich immer die BDI-Versionen, deren Reihenfolge wie folgt variiert wurde, um mögliche Reihenfolgeeffekte auszubalancieren:

Jede Version (BDI, BDI-V, BDI-II, BDI-II-V) sollte gleich häufig jede der vier
möglichen Positionen innehaben

Eine bestimmte Version sollte nicht immer von derselben anderen Version gefolgt
werden (auf das BDI sollte also zum Beispiel nicht immer das BDI-V folgen)

Die Variationsmöglichkeiten wurden jedoch dadurch eingeschränkt, dass nicht zwei
Fragebögen des gleichen Formats aufeinander folgen durften (also nicht BDI-II-V
auf BDI-V oder umgekehrt und nicht BDI auf BDI-II oder umgekehrt), um Ermüdung oder Irritationen beim Ausfüllen so gering wie möglich zu halten.
Somit wurden die in Tabelle 5 aufgelisteten acht möglichen BDI-Reihenfolgen (Rotationen) realisiert.
In Kombination mit der Variation der Ausführung des BDI-II-V (1 oder 2) ergaben sich
so 16 verschiedenen Fragebogenoptionen für den ersten Abschnitt mit den BDIs. Der
NEO-FFI folgte grundsätzlich auf das letzte BDI. Den Abschluss bildete eine Seite mit
Fragen zu den soziodemographischen Variablen Alter, Geschlecht, Schulabschluss, berufsqualifizierender Abschluss, aktuelle Berufstätigkeit, Familienstand und aktuelle Partnerschaft (siehe Anhang B.3).
Methode
Tabelle 5
84
Mögliche Reihenfolgen (Rotationen)
der BDI-Versionen in den Untersuchungsmaterialien
Reihenfolge 1
I.O – I.V – II.O – II.V
Reihenfolge 2
I.V – II.O – II.V – I.O
Reihenfolge 3
II.O – II.V – I.O – I.V
Reihenfolge 4
II.V – I.O – I.V – II.O
Reihenfolge 5
II.O – I.V – I.O – II.V
Reihenfolge 6
I.V – I.O – II.V – II.O
Reihenfolge 7
I.O – II.V – II.O – I.V
Reihenfolge 8
II.V – II.O – I.V – I.O
Anmerkungen. I = BDI. II = BDI-II. O = Original.
V = Verkürzung
Dem Fragebogen waren ausführliche Instruktionen, ein adressierter und mit dem Frankierungsvermerk „Entgelt bezahlt Empfänger“ versehener Rückumschlag zum Zurücksenden des ausgefüllten Fragebogens direkt an die Universität Landau sowie eine ebenfalls adressierte und vorfrankierte Gewinnspielpostkarte beigelegt. Die Postkarte ermöglichte die Teilnahme an einer Verlosung (s.u.) sowie die Mitteilung, ob nach Abschluss
der Studie Informationen über die Ergebnisse gewünscht würden. Da die Postkarte notwendigerweise Angaben zur Person wie insbesondere Name und Adresse enthalten
musste, wurden die Teilnehmer darum gebeten, die Karte nicht in den Umschlag mit
dem Fragebogen zu stecken, sondern sie getrennt zu versenden. Den Teilnehmern wurde mitgeteilt, dass keinerlei Verpflichtung zur Versendung einer Gewinnspielkarte bestünde und eine Teilnahme an der Studie auch ohne das Versenden der Gewinnspielkarte möglich sei. Eine Zuordnung von eingegangenen Umschlägen beziehungsweise Fragebögen zu eingegangenen Postkarten war selbstverständlich nicht möglich13.
Die Instruktionen, die unter anderem die notwendigen Informationen zum Rahmen der
Studie, die Zusicherung von Anonymität, die Beschreibung des Vorgehens und genaue
Hinweise zum Ausfüllen der Fragbögen enthielten, bereiteten auch auf die Ähnlichkeit
13
Theoretisch wäre damit natürlich auch die Versendung einer Gewinnspielpostkarte ohne die Teilnahme
an der Studie möglich gewesen. Da jede Möglichkeit der Überprüfung, ob zu einer eingesandten Postkarte auch ein Fragebogen vorlag, jedoch die Anonymität der Teilnehmer aufgehoben hätte, verbot sich eine
solche Option, so dass die Möglichkeit des Missbrauchs in Kauf genommen werden musste.
Methode
85
der Fragebögen im ersten Abschnitt vor und baten die Teilnehmer, sich dadurch nicht
irritieren zu lassen. Zudem wurden die Teilnehmer explizit darauf hingewiesen, dass
aufgrund der anonymen Teilnahme keine Rückmeldung individueller Ergebnisse erfolgen konnte. Es wurde entschieden, zu Zweck und Inhalt der Studie vorab so wenig Angaben wie möglich zu machen, so dass die Probanden aus den Instruktionen lediglich
erfuhren, dass die Diplomarbeit sich mit „diagnostischen Verfahren in der Psychologie“
beschäftige. Über das Ankreuzen der entsprechenden Option auf der Gewinnspielpostkarte bestand jedoch für alle Teilnehmer die Möglichkeit, nach Abschluss der Untersuchung genauer informiert zu werden. Die Instruktionen finden sich in Anhang B.1,
Postkarte und Umschlag in Anhang B.4.
Die zusammengesteckten und in eine Sichthülle gelegten Unterlagen, bestehend aus den
Instruktionen, dem gehefteten Fragebogenpaket, der Gewinnspielpostkarte und dem
Rücksendeumschlag, wurden jedem Interessenten entweder persönlich übergeben oder
postalisch zugesandt.
Die Rekrutierung der Teilnehmer erfolgte im Bekanntenkreis der Autorin nach dem
Schneeballsystem, das bedeutet, entweder die Autorin selbst trat an mögliche Teilnehmer heran oder Bekannte der Autorin trugen das Anliegen weiter in ihren Bekanntenkreis. Somit wurde eine Gelegenheitsstichprobe realisiert.
Die Teilnahme an der Studie wurde durch die Möglichkeit, an einer Verlosung teilzunehmen, attraktiv gemacht. Verlost wurden 5 Gutscheine à 50 Euro (ja nach Wahl vom
Elektromarkt Media Markt, der Buchhandlung Thalia, der Tankstellenkette Shell oder
dem Warenhaus Galeria Kaufhof). Auf der oben bereits beschriebenen Gewinnspielpostkarte konnte ausgewählt werden, welcher Gutschein im Gewinnfalle gewünscht
würde. Neben dem Motiv, die Autorin der Arbeit oder die Wissenschaft im Allgemeinen unterstützen zu wollen, dürfte die Gewinnmöglichkeit eine entscheidende Motivation zur Teilnahme dargestellt haben.
4.3 Modelle
Dieser Abschnitt soll die theoretische Beschreibung der Modelle der klassischen Testtheorie (Abschnitt 2.4.2) einschließlich ihrer Überprüfung (Abschnitt 2.4.4) und die
Hypothesen zur Messäquivalenz verschiedener Versionen des Beck Depressionsinventars (Kapitel 3) zusammenführen in einer Veranschaulichung der mittels konfirmatori-
Methode
86
scher Faktorenanalysen konkret getesteten Modelle. Da sich die postulierten Strukturen
nicht zufriedenstellend nachweisen ließen, werden zusätzlich alternative Modelle aufgestellt, die exploratorisch überprüft werden.
Die Zuweisung der Metrik latenter Variablen erfolgt grundsätzlich durch Fixierung der
Varianz der latenten Variable auf 1.0.
4.3.1 Modelle zur Überprüfung der Messäquivalenz von BDI-II und
BDI-II-V (Hypothese III.b)
Es wird zunächst das hypothetisierte Modell essentiell τ-paralleler Variablen des BDI-II
und BDI-II-V vorgestellt. Im Anschluss daran wird ein alternatives Modell beschrieben,
das eine perfekte latente Korrelation zwischen Faktoren des BDI-II und des BDI-II-V
postuliert. Dieses Modell wurde exploratorisch überprüft, da das erwartete Modell keinen zufriedenstellenden Fit erzielte.
4.3.1.1 Modell essentiell τ-paralleler Variablen
BDI-II (Y1) und BDI-II-V (Y2) sollen Indikatoren der latenten Variablen η1 sein, welche
die Bezeichnung Depressivität erhält. Zwischen den Residualvariablen ε1 und ε2 wird
keine Korrelation spezifiziert (Minimalmodell τ-kongenerischer Variablen). Die Ladungsparameter λ11 und λ21 sollen gleich hoch sein und werden daher mit Equality
Constraints (etwa „Gleichheitsrestriktionen“) belegt (Modell essentiell τ-äquivalenter
Variablen). Ebenso sollen die Residualvariablen ε1 und ε2 identisch sein und werden
daher gleich gesetzt (hypothetisiertes Modell essentiell τ-paralleler Variablen). Abbildung 2 zeigt das Modell.
Methode
87
Depressivität
η1
λ11
=
BDI-II
y1
BDI-II-V
y2
ε1
Abbildung 2
λ21
=
ε2
Modell essentiell τ-paralleler
Variablen des BDI-II und
BDI-II-V
4.3.1.2 Alternatives Modell: Modell mit perfekter latenter Korrelation
Wie im Ergebnisteil darzulegen sein wird, fiel die Überprüfung des Modells nicht zur
vollsten Zufriedenheit aus, so dass exploratorisch eine alternative Modellspezifikation
getestet wurde.
Der logisch nächste Schritt wäre die Testung der nächst niedrigeren Stufe der Messäquivalenz gewesen. Dies hätte bedeutet, zu überprüfen, ob BDI-II und BDI-II-V als
essentiell τ-äquivalente Variablen gelten können, Depressivität also mit gleicher Diskrimination erfassen, ohne gleich reliabel zu sein. Das dazu notwendige Entfernen der
Gleichheitsrestriktion der Fehlervariablen hätte bei fortgesetzter Verwendung der beiden Summenwerte als manifeste Indikatoren jedoch zu einem Modell mit null Freiheitsgraden geführt, das nicht testbar gewesen wäre. Eine Möglichkeit, die Freiheitsgrade zu
erhöhen, ist die Vergrößerung der Anzahl bekannter Informationen durch das Hinzufügen manifester Indikatoren. Hierzu bot es sich an, statt der zwei Gesamtsummenwerte
von BDI-II und BDI-II-V Itemparcels („Itempäckchen“) zu verwenden, also nicht alle
Items eines Inventars zu einem Wert aufzusummieren, sondern nur jeweils eine bestimmte Menge an Items eines Inventars zu einem Summenwert, einem Parcel, zusammenzufassen.
Methode
88
Das Bilden von Itemparcels ist eine übliche, jedoch auch kontrovers diskutierte, Methode zur Erstellung von Indikatoren für konfirmatorische Faktorenanalysen zur Überprüfung von Messinvarianz (Meade & Kroustalis, 2006). Im vorliegenden Fall war es die
einzige Option, weitere Überprüfungen der Messäquivalenz der beiden Inventare vorzunehmen. Die Verwendung einzelner Items schied aus, da sie die Voraussetzung metrischer Indikatoren, die für die eingesetzte Variante konfirmatorischen Faktorenanalysen gilt (Eid et al., 2010), nicht erfüllt hätten; dies kann dagegen für Summenwerte angenommen werden.
Jedes BDI wurde in zwei Parcels aufgeteilt (zum Vorgehen bei der Erstellung der
Parcels siehe Abschnitt 4.7.5), so dass nun vier manifeste Variablen in die Analysen
eingehen konnten. Abbildung 3 veranschaulicht das getestete Modell. BDI-II und
BDI-II-V werden zu latenten Variablen (η1 und η2), deren Indikatoren jeweils ihre zwei
Itemparcels konstituieren. Ein Modell essentiell τ-äquivalenter Variablen in seiner ursprünglichen Konzeption kann so jedoch nicht mehr getestet werden, da die Restriktion
identischer Ladungsparameter der verschiedenen Itemparcels inhaltlich keinen Sinn
ergibt. Stattdessen wird angenommen, dass die latente (messfehlerbereinigte) Korrelation zwischen dem BDI-II und dem BDI-II-V perfekt ist, was so interpretiert werden darf,
dass die beiden Inventare identisch sind (vgl. Schmitt et al., 2003). Das Modell weist
damit insofern Elemente eines Modells essentiell τ-äquivalenter Variablen auf, als es
dessen Postulat der perfekten Korrelation der True-Score-Variablen umsetzt. Während
sich die manifesten Indikatoren (die Itemparcels) aus dem True-Score-Anteil und einem
zufälligen Fehleranteil zusammensetzen, repräsentieren die latenten Variablen den
True-Score der Konstrukte, in diesem Falle des BDI-II und des BDI-II-V. Die Korrelation der wahren Werte (der Parameter ψ12) wird auf den Wert 1 restringiert.
Methode
89
Ψ12 = 1
BDI-II
η1
BDI-II-V
η2
λ11
λ21
λ32
λ42
BDI-II: Parcel 1
y1
BDI-II: Parcel 2
y2
BDI-II-V: Parcel 1
y3
BDI-II-V: Parcel 2
y4
ε1
ε2
ε3
ε4
Abbildung 3
Modell mit perfekter latenter Korrelation zwischen BDI-II und BDI-II-V
4.3.2 Vergleich der Messäquivalenz von BDI-II-V.1 und BDI-II mit der
Messäquivalenz von BDI-II-V.2 und BDI-II (Hypothese IV.b)
Um zu überprüfen, ob die Entsprechung zwischen BDI-II und BDI-II-V.1 oder zwischen BDI-II und BDI-II-V.2 enger ist, wird die Analyse der Modelle, die in Kapitel
4.3.1 für die Gesamtstichprobe (BDI-II und BDI-II-V) beschrieben wurden, getrennt
wiederholt in der Substichprobe, in der das BDI-II-V.1 ausgefüllt wurde, und in der
Substichprobe, in der das BDI-II-V.2 Anwendung fand. Es soll dadurch eine Einschätzung ermöglicht werden, ob ein Modell jeweils in einer der Teilstichproben einen besseren Fit aufweist. Zur Veranschaulichung können erneut die Abbildungen 2 respektive 3
dienen. In Abbildung 2 steht die manifeste Variable Y2 nun für das BDI-II-V.1 beziehungsweise das BDI-II-V.2; in Abbildung 3 muss die latente Variable η2 nun mit
BDI-II-V.1 beziehungsweise BDI-II-V.2 bezeichnet werden; entsprechend muss man
sich die Variablen Y3 und Y4 als Parcels des BDI-II-V.1 beziehungsweise BDI-II-V.2
vorstellen.
Methode
90
4.3.3 Modelle zur Überprüfung der Messäquivalenz von BDI, BDI-V,
BDI-II und BDI-II-V (Hypothese V.b)
Zuerst soll das in den Hypothesen postulierte Modell veranschaulicht werden, das BDI,
BDI-V, BDI-II und BDI-II-V als essentiell τ-parallele Variablen konzipiert. Da dieses in
den Analysen nicht bestätigt werden konnte, wie im Ergebnisteil berichtet wird, wurden
Alternativen exploriert, die im Anschluss beschrieben werden. Dabei handelt es sich
zum einen um ein Modell mit perfekten latenten Korrelationen zwischen Faktoren, welche die BDIs repräsentieren, zum anderen um ein Modell mit Methodenfaktor.
4.3.3.1 Modell essentiell τ-paralleler Variablen
Analog dem Vorgehen für das Modell von BDI-II und BDI-II-V (Abschnitt 4.3.1.1),
wird ein Modell spezifiziert, das BDI, BDI-V, BDI-II und BDI-II-V als essentiell τparallele Indikatoren einer latenten Variable Depressivität modelliert (siehe Abbildung
4).
Depressivität
η1
λ11
=
BDI
y1
ε1
Abbildung 4
λ21
BDI-V
y2
=
ε2
λ31
=
=
BDI-II
y3
=
ε3
λ41
BDI-II-V
y4
=
ε4
Modell essentiell τ-paralleler Variablen des BDI, BDI-V, BDI-II und
BDI-II-V
Die Korrelationen zwischen BDI, BDI-V, BDI-II und BDI-II-V (Y1bis Y4) sollen vollständig durch diese latente Variable (η1) erklärt werden. Die Ladungskoeffizienten λ11
bis λ41 werden mit Equality Constraints belegt, ebenso die Residualvariablen ε1 bis ε4.
Methode
91
4.3.3.2 Alternatives Modell 1: Modell mit perfekten latenten Korrelationen
Wie sich im Verlauf der Analysen herausstellte, gelang es weder, einen durchgängig
akzeptablen Fit für das spezifizierte Modell essentiell τ-paralleler Variablen zu erzielen,
noch für Modellstufen darunter (exploratorische Überprüfung eines Modells essentiell
τ-äquivalenter Variablen und eines Modells τ-kongenerischer Variablen).
Es wurde in einem nächsten Schritt überprüft, welchen Fit ein Modell erzielen konnte,
das perfekte latente Korrelationen zwischen den vier Inventaren annimmt (vgl. das alternative Modell zur Messäquivalenzuntersuchung von BDI-II und BDI-II, Abschnitt
4.3.1.2). Abbildung 5 veranschaulicht dieses Modell.
ψ14 = 1
ψ24 = 1
ψ13 = 1
ψ12 = 1
ψ23 = 1
BDI
η1
λ11
ψ34 = 1
BDI-II
η3
BDI-V
η2
λ21
λ32
λ42
BDI-II-V
η4
λ53
λ63
λ74
λ84
BDI:
Parcel 1
y1
BDI:
Parcel 2
y2
BDI-V:
Parcel 1
y3
BDI-V:
Parcel 2
y4
BDI-II:
Parcel 1
y5
BDI-II:
Parcel 2
y6
BDI-II-V:
Parcel 1
y7
BDI-II-V:
Parcel 2
y8
ε1
ε2
ε3
ε4
ε5
ε6
ε7
ε8
Abbildung 5
Modell mit perfekter latenter Korrelation zwischen BDI, BDI-V, BDI-II und BDI-II-V
Jedes BDI ist als latente Variable (η1 bis η4) modelliert, welche durch zwei Itemparcels
gemessen wird. Die Korrelationen zwischen diesen latenten Variablen (ψ12 bis ψ34) sind
auf 1 festgesetzt. Mittels dieser Modellspezifikation können zudem bei Lockerung der
Restriktion perfekter Faktorinterkorrelationen die messfehlerbereinigten Zusammenhänge zwischen den BDI-Formen bestimmt werden.
Methode
92
4.3.3.3 Alternatives Modell 2: Modell mit Methodenfaktor
Auch die Modellspezifikationen mit und ohne perfekte latente Korrelationen ließen sich
nicht problemlos fitten. Aus diesem Grund wurde weiter exploriert und ein Modell
überprüft, welches der unterschiedlichen Intensitätsskalierung der Originale und der
Verkürzungen Rechnung trägt, indem es die den verschiedenen Skalierungsmethoden
geschuldeten Unterschiede zwischen den Variablen in einem Methodenfaktor abzubilden sucht. Bevor das Modell vorgestellt wird, soll ein kurzer Exkurs das Konzept des
Methodenfaktors und seine Modellierung darstellen.
4.3.3.3.1 Exkurs: Methodenfaktoren und ihre Modellierung
Der Aspekt des Methodenfaktors wurde in einer richtungsweisenden Veröffentlichung
von Campbell und Fiske (1959) in den Fokus der fachlichen Öffentlichkeit gerückt.
Methodeneffekte waren zuvor zwar bereits thematisiert worden (z. B. Cronbach, 1946,
zit. nach Campbell & Fiske, 1959, S. 85), erfuhren aber erst in der Folge des Artikels
von Campbell und Fiske (1959) verstärkt Aufmerksamkeit (Schermelleh-Engel &
Schweizer, 2007). Nach Campbell und Fiske (1959) stellt jede Messung eine TraitMethoden-Einheit (trait-method unit) dar:
In any given psychological measuring device, there are certain features or stimuli introduced specifically to represent the trait that it is intended to measure. There are other features which are characteristic of the method being employed, features which could also be present in efforts to measure other quite different
traits. (S. 84)
Dabei ist das Ausmaß des Einflusses von Methodenfaktoren auf Messungen in der Psychologie Campbell und Fiske (1959) zufolge erheblich und (irrelevante) Methodeneffekte können, solange sie nicht erkannt und berücksichtigt werden, die Validität von
Messungen einschränken.
Würden zum Beispiel die Leistungsfähigkeit und die Kreativität von Personen selbst
und von ihren Vorgesetzen beurteilt, so ist anzunehmen, dass die Korrelation der beiden
Merkmale anders ausfällt, je nachdem, innerhalb welcher Beurteilergruppe man den
Zusammenhang berechnet (angelehnt an Schermelleh-Engel & Schweizer, 2007). Würden die Eltern und die Freunde einer Person jeweils auf mehreren Variablen (z. B. Items
Methode
93
oder Fragebogenskalen) die Depressivität dieser Person beurteilen, so ist es wahrscheinlich, dass die Korrelationen zwischen den Variablen innerhalb der Beurteilergruppen
jeweils zumindest etwas höher ausfällt als dazwischen (angelehnt an Eid et al., 2010).
Methodeneffekte können damit „alternative Erklärungen für beobachtete Zusammenhänge zwischen Konstrukten liefern“ (Schermelleh-Engel & Schweizer, 2007, S. 327).
Dabei ist der Begriff „Methodeneffekt“ nicht beschränkt auf verschiedene Beurteiler,
wie in den Beispielen, die eben zur Veranschaulichung gewählt wurden. Es ist ein
„Sammelbegriff für verschiedene systematische Varianzquellen, die sich über den Trait
hinausgehend auf die Validität der Messung auswirken können“ (Schermelleh-Engel &
Schweizer, 2007, S. 327). Als weitere mögliche Ursachen für Methodenvarianz neben
Charakteristika von Beurteilern („Informant“) nennen die Autoren Eigenschaften von
Messinstrumenten („Method“) oder Merkmale der Situation, in der eine Messung stattfindet (Kontext, „Occasion“).
Campbell und Fiske (1959) brachten die Vorschläge, Validität parallel über Konvergenz
und Distinktion nachzuweisen und gleichzeitig eine Abschätzung der Varianzbeiträge
von Trait und Methode vorzunehmen, zusammen im Konzept der MultitraitMultimethod-Matrizen (MTMM-Matrizen). Diese basierten darauf, mehrere (mindestens zwei, besser drei) Traits jeweils mit mehreren (mindestens zwei, besser drei) Methoden zu messen und anhand des Musters der Interkorrelationen zwischen den so entstandenen Trait-Methoden-Einheiten Reliabilität, konvergente und diskriminante Validität sowie Methodeneffekte zu beurteilen (Campbell & Fiske, 1959; SchermellehEngel & Schweizer, 2007). Heute werden die Korrelationen in MTMM-Matrizen in der
Regel mittels Strukturgleichungsanalysen oder konfirmatorischer Faktorenanalysen analysiert (Eid, Lieschetzke & Nussbeck, 2006; Schermelleh-Engel & Schweizer, 2007).
Zu ihrer Analyse stehen – Theorie und Ziel der eigenen Untersuchung entsprechend –
eine Vielzahl denkbarer Modelle zur Verfügung, welche die angenommene Anzahl an
Trait- und Methodenfaktoren, auf die die Korrelationen der Indikatoren zurückgeführt
werden, variieren und gleichzeitig unterschiedliche Annahmen dazu machen, ob die
Trait- und Methodenfaktoren jeweils untereinander korrelieren oder nicht (siehe z. B.
Eid et al., 2006; Schermelleh-Engel & Schweizer, 2007; Widaman, 1985). Eines der
„klassischen“ Modelle ist das sogenannte Correlated Trait/Correlated Method Modell
(CTCM-Modell), welches für jeden im Modell angenommenen Trait („klassischerweise“ drei) und für jede im Modell angenommene Methode („klassischerweise“ eben-
Methode
94
so drei) einen Faktor spezifiziert, wobei die Traitfaktoren und die Methodenfaktoren
jeweils untereinander, aber nicht miteinander, korrelieren. Ein solches Modell ist nicht
frei von (Schätz-)Problemen (siehe z. B. Eid et al., 2006). Dies veranlasste Eid (2000),
ein Modell vorzuschlagen, in dem ein Methodenfaktor weniger spezifiziert wird, als
Methoden verwendet wurden, das sogenannte Correlated Trait/Correlated Method minus one Modell (CTC(M-1)-Modell), welches die Identifikations- und Interpretationsschwierigkeiten des CTCM-Modells überwinden kann. Eid (2000) weist nach, dass in
diesem CTC(M-1)-Modell Trait- und Methodenfaktoren nicht korrelieren können. Die
Varianz kann zerlegt werden in traitspezifische, methodenspezifische und Fehlervarianz. Die Methode, die nicht modelliert wird, hat die Funktion einer Standardmethode,
mit der alle anderen Methoden kontrastiert werden. Ein latenter Traitfaktor ist in diesem
Modell der wahre Wert eines Indikators, der mit der Standard-Methode erfasst wurde
(Eid et al., 2006). Ein latenter Methodenfaktor repräsentiert die Abweichungen der wahren Werte, die mit dieser Methode erfasst wurden, von der Vorhersage dieser Werte
durch die Standardmethode (Nussbeck, Eid, Geiser, Courvoisier & Cole, 2007). Der
Vergleichsstandard muss auf der Grundlage theoretischer Überlegungen gewählt werden. Dabei muss bedacht werden, dass das Modell nicht symmetrisch ist, was zur Folge
hat, dass die Modellgüte im gleichen Datensatz unterschiedlich sein kann, je nachdem,
welche Methode die Standardmethode ist (Eid, 2000). Es sollte die Methode zur Standardmethode gemacht werden, von der zu erwarten ist, dass sie das in Frage stehende
Merkmal am besten erfasst (Nussbeck et al., 2007).
4.3.3.3.2 Das Modell
Obwohl nach inhaltlichen Kriterien davon auszugehen war, dass die vier BDI-Formen
das gleiche Konstrukt erfassen, bildete selbst das minimale Modell τ-kongenerischer
Variablen die Beziehungen zwischen den BDIs nicht gut ab. Es war also anzunehmen,
dass die Zusammenhänge zwischen den Variablen durch einen weiteren Aspekt geprägt
waren, der im Modell bislang keine Berücksichtigung gefunden hatte (vgl. Eid et al.,
2010). Die Ergebnisse der deskriptiven Analysen sowie die Resultate der Versuche,
eines der zuvor beschriebenen Modell zu fitten, das alle BDI-Formen vereinte, legten
nahe, dass es sich dabei um einen Methodenfaktor handelte, der den Einfluss der Skalierungsunterschiede zwischen Original-BDIs und verkürzten BDIs repräsentierte (Abschnitt 5.7 wird die entsprechenden Befunde näher erläutern).
Methode
95
Im Unterschied zu der Konzeption der MTMM-Modelle, in deren Tradition auch das
CTC(M-1)-Modell von Eid (2000) steht, wird in der vorliegenden Arbeit von den Indikatoren nur ein Trait (Depressivität) mit zwei Methoden erfasst, nicht mehrere Traits.
Dennoch soll das Prinzip des Eid‘schen Modells angewandt werden, indem nur ein Methodenfaktor spezifiziert wird, was zu einem sparsameren und besser interpretierbaren
Modell führt als die Modellierung zweier Methodenfaktoren.
Naheliegend ist, die Original-Skalierung als Standardmethode zu wählen und daher einen Methodenfaktor zu modellieren, der die Abweichung der neu geschaffenen, verkürzten BDIs von der mit den Originalen gemessenen Depressivität einzuschätzen erlaubt. Abbildung 6 zeigt das Modell. Alle BDI-Formen (Y1 bis Y4) sind weiterhin Indikatoren einer gemeinsamen latenten Variablen (η1), die Depressivität zum Ausdruck
bringt. Sie sollen entsprechend der ursprünglichen Annahmen in der Erfassung der Depressivität gleich gut diskriminieren, was durch Equality Constraints auf die Ladungsparameter λ11 bis λ41 umgesetzt wird. Zudem werden BDI-V (Y2) und BDI-II-V (Y4) auf
einen latenten Methodenfaktor (η2) zurückgeführt, der die spezifischen Einflüsse der
neuen Skalierung auf die Messung der Depressivität repräsentiert. Da die Skalierung
von BDI-V und BDI-II-V identisch ist, gibt es keinen Grund anzunehmen, dass ihr Einfluss auf die beiden Inventare unterschiedlich ausfiele, so dass auch die Ladungsparameter λ22 und λ42 gleichgesetzt werden14. Entsprechend des Nachweises von Eid (2000)
wird die Korrelation zwischen η1 und η2 auf Null fixiert.
14
Abgesehen davon war die Restriktion von λ22 und λ42 erforderlich, da die Modellspezifikation ansonsten zu Fehlermeldungen führte. Zum einen konnten dann keine Standardfehler berechnet werden, zum
zweiten traten Heywood Cases in Form von negativen Residualvarianzen des BDI-Indikators auf. Die
Lockerung der Restriktionen auf λ11 bis λ41, wie sie im Verlauf der Analysen ebenfalls durchgeführt werden wird, erfordert ebenso ein Beibehalten der Restriktion von λ22 und λ42, da das Modell ansonsten keine
Freiheitsgrade aufweist.
Methode
96
Methode
η2
Depressivität
η1
λ22
λ11
=
λ21
=
λ42
=
λ31
=
λ41
BDI
y1
BDI-V
y2
BDI-II
y3
BDI-II-V
y4
ε1
ε2
ε3
ε4
Abbildung 6
Modell des BDI, BDI-V, BDI-II und BDI-II-V mit Methodenfaktor
4.4 Auswertungssoftware
Die deskriptiven Analysen (Maße der zentralen Tendenz, Streuung, Verteilung, Itemtrennschärfen), Hauptachsenanalysen, Korrelationsanalysen, t-Tests und χ2-Tests wurden mit der Software IBM SPSS Statistics in der Version 19 (SPSS Inc., 1989, 2010)
vorgenommen. Die konfirmatorischen Faktorenanalysen wurden mit dem Programm
Mplus (Muthén & Muthén, 1998-2010) in der Version 6 gerechnet. Zur Erstellung der
Itemparcels und einigen Berechnungen, zum Beispiel von Durchschnittwerten, wurden
außerdem die Funktionen von Microsoft Office Excel 2010 in Anspruch genommen.
4.5 Schätzmethode für die Modelle
Das Ziel der konfirmatorischen Faktorenanalyse ist es, Schätzer für die Modellparameter (Faktorladungen, Faktorvarianzen und Kovarianzen, Indikator-Fehlervarianzen etc.)
des spezifizierten Modells zu finden, die eine modellimplizierte Varianz-KovarianzMatrix (Σ) generieren, die der empirisch gefundenen (beobachteten) VarianzKovarianz-Matrix (S) so nahe wie möglich kommt (Brown, 2006). Das Schätzen der
Methode
97
Modellparameter und der von ihnen implizierten Matrix geschieht in einem iterativen
Prozess, der dann stoppt, wenn sich der Unterschied zwischen der beobachteten Varianz-Kovarianz-Matrix und der modellimplizierten Varianz-Kovarianz-Matrix nicht
mehr wesentlich verringern lässt (Bühner, 2006). Genau genommen wird dabei eine
Diskrepanzfunktion (fitting function) minimiert, welche die Unterschiede zwischen den
beiden Matrizen S und Σ repräsentiert. Das Schätzverfahren, das dabei am häufigsten
verwendet wird, ist die Maximum Likelihood Schätzung (ML). Dieses setzt jedoch neben einer großen Stichprobe und Intervallskalenniveau der Indikatoren auch die multivariate Normalverteilung der Indikatoren voraus (Brown, 2006). Die Stichprobengröße
kann mit 163 ≤ N ≤ 325 in der vorliegenden Analyse als ausreichend für eine konfirmatorische Faktorenanalyse betrachtet werden (Bühner, 2006). Das Intervallskalenniveau
der einzelnen Items, insbesondere der Items der Original-BDIs, kann in Frage gestellt
werden, da diese lediglich vierfach gestuft sind und vor allem nicht als gesichert gelten
kann, dass benachbarte Skalenpunkte äquidistant bzw. ihre Distanzen sinnvoll interpretierbar sind (vgl. die Analysen zur Ordinalität der Antwortkategorien von Hautzinger et
al., 2006), wie es für eine Intervallskala gefordert wird (Wirtz & Nachtigall, 2002). In
die Analysen gingen daher aggregierte Daten in Form von Summenscores (Gesamtsummenscores beziehungsweise durch Aufsummierung einzelner Items gebildete Itemparcels) ein, für die metrische Skaleneigenschaften angenommen werden können. Erwartungsgemäß waren jedoch weder die einzelnen Items, noch die Parcels oder Summenwerte univariat normalverteilt (im Ergebnisteil wird jeweils an geeigneter Stelle auf
die entsprechenden Tabellen in Anhang C verwiesen, die Schiefe und Kurtosis der Indikatoren der jeweiligen Modellanalyse wiedergeben). Die Frage einer multivariaten
Normalverteilung stellte sich somit erst gar nicht, da eine multivariate Normalverteilung
von Variablen die univariate Normalverteilung der Variablen als notwendige (jedoch
keineswegs hinreichende) Bedingung voraussetzt (Stevens, 2002). Zwar sind die Werte
der Parameterschätzer durch die Verletzung der Normalverteilungsannahme in der Regel nicht betroffen, sofern die Daten nicht extrem schief verteilt beziehungsweise extrem flach- oder spitzgipfelig sind; jedoch können deutlich nicht-normale Ausgangsdaten
zu verzerrten Standardfehlern der Parameterschätzer und einem verzerrten χ2, welches
zur Bewertung der Modellgüte (siehe Abschnitt 4.6) herangezogen wird, führen
(Brown, 2006). Durch die Überschätzung von χ2 wird der darauf beruhende Modellgütetest zu konservativ (Curran, West & Finch, 1996), durch die Unterschätzung der Standardfehler fällt die Bewertung der Signifikanz der Parameterschätzer zu liberal aus
Methode
98
(West, Finch & Curran, 1995). Darüber hinaus resultiert eine Verzerrung von Modellgüteindizes (siehe Abschnitt 4.6), die eine zu strenge Bewertung des Modells nach sich
zieht (siehe z. B. Brown, 2006). Diese Auswirkungen kommen umso deutlicher zum
Tragen, je kleiner die Stichprobe ist.
Einen alternativen Schätzalgorithmus stellt der Maximum-Likelihood-Schätzer mit robusten Standardfehlern und robustem χ2 (MLM) dar, der das Satorra-Bentler-skalierte χ2
(SB χ2, Satorra & Bentler, 1994) ausgibt. Auch wenn ML gegenüber kleineren Verletzungen der Normalverteilung relativ robust ist, so zeigt sich dennoch grundsätzlich eine
Vergrößerung von χ2 mit zunehmender Abweichung der Verteilung von der Normalverteilung (Curran et al., 1996). Daher wurde entschieden, für die Analysen dieser Arbeit
den MLM-Schätzer zu verwenden. Das SB χ2 hat darüber hinaus den bestechenden Vorteil, dass es sich – wenn multivariate Normalverteilung gegeben ist – zum gewöhnlichen
ML χ2 vereinfacht (CWF, 1996). Der Nachteil ist, dass das SB χ2 mit zunehmender
Schiefe und Kurtosis der Daten insbesondere in kleinen Stichproben an Teststärke zur
Entdeckung von Modellfehlspezifikationen verliert. Der Verlust an Power war jedoch in
den Monte Carlo Simulationen von Curran et al. (1996) selbst unter moderater Verletzung der Normalverteilungsannahme (Schiefe = 2, Kurtosis = 7, d. h. Werten, die weit
über denen lagen, wie sie in den Daten dieser Analyse vorlagen) nur in Stichproben mit
einem Umfang von N = 100, nicht mehr jedoch in Stichproben mit N ≥ 200 zu finden
(wobei der Stichprobenumfang bei den meisten Analysen in dieser Arbeit jenseits von N
= 300 liegt, einige jedoch eine Stichprobe von N = 163 – 169 verwenden, also genau
zwischen den Umfängen, die die Autoren untersucht hatten). Insgesamt kommen Curran
et al. (1996) zu dem Schluss, dass das „SB χ2 behaved extremely well in nearly every
condition across sample size, distribution, and model specification“ (S. 27). Entsprechend ihrer Empfehlungen, dennoch sowohl SB χ2 als auch ML χ2 zu berücksichtigen,
wenn die Normalverteilung der Daten in Frage gestellt ist, werden Analysen unter
Schätzung mit ML wiederholt, wenn die MLM-Schätzung einen guten Fit nahelegt, um
diesen im strengeren Lichte einer höheren Teststärke zu überprüfen.
4.6 Beurteilung der Modellgüte
Die Beurteilung, ob das spezifizierte Modell zu den Daten passt, sollte nach Brown
(2006) auf drei Wegen erfolgen. Zum einen über die Bewertung des globalen Modellfits
mithilfe deskriptiver Modelgüteindizes. Zum zweiten sollte untersucht werden, ob das
Methode
99
Modell „localized areas of strain“ (S. 113) aufweist, also Beziehungen, die das Modell
nicht angemessen reproduzieren kann. Dazu können die Residuen sowie die von den
Programmen ausgegebenen Modifikationsindizes genutzt werden. Zum dritten sind die
Parameterschätzer zu betrachten im Hinblick auf ihre Signifikanz, Interpretierbarkeit,
mögliche Heywood-Cases und darauf, ob sie in Stärke und Richtung den Erwartungen
entsprechen.
Die deskriptiven Modellgüteindizes, auf die sich die Beurteilung der Modelle in der
vorliegenden Arbeit stützen wird, sollen im Folgenden beschrieben werden. Im Anschluss wird auf die Möglichkeit, den Fit zweier ineinander verschachtelter Modelle zu
vergleichen, eingegangen.
4.6.1 Deskriptive Modellgüteindizes
Das Modell passt umso besser auf die Daten, je geringer die Diskrepanz zwischen der
beobachteten Varianz-Kovarianz-Matrix (S) und der bestmöglichen modellimplizierten
Varianz-Kovarianz-Matrix (Σ) und damit die Diskrepanzfunktion ausfällt (Brown,
2006). Direkt auf dieser Diskrepanzfunktion beruht der klassische Modellgüteindex χ2.
Der Index wird ausgegeben mit einem p-Wert, welcher angibt, wie wahrscheinlich das
gefundene χ2 ist, wenn die beiden Matrizen gleich wären. Je geringer diese Wahrscheinlichkeit, desto schlechter passt das Modell zu den Daten. Es handelt sich um einen klassischen Signifikanztest: Überschreitet χ2 den kritischen Wert, kann von signifikanten
Unterschieden zwischen S und Σ ausgegangen werden. Da die Nullhypothese (keine
Unterschiede zwischen S und Σ) die Wunschhypothese ist, sollte – zumindest „bei kleinen Stichproben“ (Bühner, 2006, S. 253) – ein alpha-Niveau von .20 gewählt werden.
Bei nicht-signifikantem χ2 darf von exaktem Modell-Fit gesprochen werden (Bühner,
2006).
Unter anderem dafür, dass die sehr strenge Annahme getestet wird, dass die beiden Matrizen identisch sind sowie dafür, dass χ2 umso größer (und eine Ablehnung des Modells
umso wahrscheinlicher) wird, je größer die Stichprobe ist, wird der Index jedoch kritisiert (Brown, 2006). Die Bewertung des Modells sollte daher zusätzlich auf der Basis
weiterer Güteindizes erfolgen, die unterschiedlichen Aspekten der Modellgüte Gewicht
verleihen. Welche Indizes unter welchen Umständen und mit welchen Grenzwerten
Anwendung finden sollen, ist umstritten. Die vorliegende Arbeit orientiert sich in der
Methode
100
Frage der zu berücksichtigenden Indizes weitestgehend an den Empfehlungen von
Brown (2006).
Modellgüteindizes können grob drei Kategorien zugewiesen werden: Absolute Fitindizes, Fitindizes mit Sparsamkeitskorrektur sowie komparative (oder inkrementelle) Fitindizes, wobei aus jeder Kategorie mindestens ein Index berücksichtigt werden sollte
(Brown, 2006).
Absolute Fitindizes berücksichtigen – in absoluter Art und Weise – nichts außer der
Übereinstimmung der beobachteten und der modellimplizierten Matrix. Somit gehört
auch χ2 in diese Kategorie. Ein weiterer Index ist der SRMR (Standardized Root Mean
Square Residual). Sein Wertebereich liegt zwischen 0 und 1, wobei kleinere Werte besseren Modellfit anzeigen und ein Wert von Null für perfekten Fit steht. Hu und Bentler
(1999) empfehlen für eine vernünftige Relation von alpha- und beta-Fehler einen
SRMR ≤ .08.
Fitindizes mit Sparsamkeitskorrektur belohnen – neben der Bewertung der Abweichung
zwischen beobachteter und modellimplizierter Matrix – Sparsamkeit im Modell, so zum
Beispiel der RMSEA (Root Mean Square Error Of Approximation, Steiger & Lind,
1980, zit. nach Brown, 2006, S. 83). Der RMSEA ist nach oben nicht begrenzt und sollte so klein wie möglich sein, idealerweise wird er Null (in diesem Fall darf von perfektem Fit gesprochen werden). Hu und Bentler (1999) empfehlen einen Cutoff von
RMSEA ≤ .06. Der RMSEA ist zwar deutlich weniger empfindlich gegenüber der
Stichprobengröße als χ2, fällt aber dennoch größer aus bei kleineren Stichproben (Hu &
Bentler, 1999), so dass Bühner (2006) empfiehlt, den Cutoff RMSEA ≤ .06 für N > 250
anzuwenden und bei einem N ≤ 250 auf einen liberaleren Cutoff von RMSEA ≤ .08 zu
setzen. Browne und Cudeck (1993) sind der Ansicht, dass ein RMSEA ≤ .05 einen ausreichend guten Fit eines Modells bedeutet, ein RMSEA ≤ .08 noch immer ein
„reasonnable error of approximation“ (S. 144) sei und ein Modell ab einem RMSEA
von ≥ .10 abzulehnen sei. MacCallum, Browne und Sugawara (1996) halten einen
RMSEA zwischen .08 und .1 für ein Anzeichen immerhin noch mittelmäßigen („mediocre“, S. 134) Fits.
Auf ihrer Bewertung, dass ein RMSEA ≤ .05 einen ausreichend guten Modellfit darstellt, basiert die von Browne und Cudeck (1993) vorgeschlagene Fitstatistik CFit (Test
Methode
101
of Close Fit)15. Diese besteht in einem p-Wert, der die Wahrscheinlichkeit darstellt, mit
der der RMSEA ≤ .05 ist. Für akzeptablen Modellfit sollte diese Wahrscheinlichkeit
> .05, betragen. Um den RMSEA kann zudem ein Konfidenzintervall (CI) gebildet werden15, dessen Berücksichtigung zum Beispiel von MacCallum et al. (1996) empfohlen
wird. Schließt es Null ein, darf von exaktem Modellfit gesprochen werden (Bühner,
2006).
Bühner (2006) gruppiert sowohl den SRMR als auch den RMSEA zur Kategorie der
Absoluten Fitindizes, denn beiden ist gemeinsam, dass sie die Abweichung des spezifizierten Modells von einem perfekten, saturierten Modell, das die beobachtete VarianzKovarianz-Matrix exakt repliziert, ausdrücken. Im Gegensatz dazu vergleichen komparative (inkrementelle) Fit-Indizes den Fit des spezifizierten Modells mit dem Fit eines
Nullmodells, also einem Modells, in dem die Indikatoren unkorreliert sind. Dadurch
resultiert zwar ein eher wohlwollender Blick auf das Modell, jedoch weisen einige solcher Indikatoren äußerst gute Eigenschaften auf (Brown, 2006). Einer dieser Indizes ist
der CFI (Comparative Fit Index, Bentler, 1990). Sein Wertebereich liegt zwischen 0 und
1, wobei ein höherer Wert einen besseren Fit ausdrückt. Ein weiterer Index ist der TFI
(Tucker-Lewis Index, Tucker & Lewis, 1973, zit. nach Brown, S. 85), auch NonNormed Fit Index genannt. Im Unterschied zum CFI bestraft er – wie der RMSEA – das
unnötige Hinzufügen frei geschätzter Parameter. Zwar ist der TLI nicht normiert (hat
also keinen strengen Wertebereich zwischen 0 und 1), wird aber dennoch interpretiert
wie der CFI, das heißt, Werte nahe bei 1 zeigen einen guten Modellfit an. Der Cutoff für
CFI und TLI für vernünftigen Fit liegt nach Vorschlag von Hu & Bentler (1999) nahe
bei .95 oder darüber. Tabelle 6 fasst die Modellgüteindizes und die empfohlenen
Grenzwerte zusammen.
15
CFit und Vertrauensintervall werden von der in dieser Untersuchung verwendeten Statistik-Software
Mplus (Muthén & Muthén, 1998 – 2010) nur für den ML-Schätzer ausgegeben und werden daher nur in
den Fällen berichtet, in denen nach den Modelschätzungen mit dem MLM-Schätzalgorithmus alle Indizes
auf guten Fit hinweisen, der dann mit dem „strengeren“ ML-Schätzer überprüft wird.
Methode
102
Tabelle 6
Indizes zur Beurteilung der Modellgüte und Grenzwerte, wie sie der Modellgütebeurteilung in dieser Arbeit zu Grunde gelegt wurden
Index♠
Approximativer Modellfit♠
Perfekter Modellfit♠
χ2 und p-Wert
nicht definiert
kleine Stichproben: p ≥
.20
große Stichproben: p ≥
.05
SRMR
SRMR ≤ .08
SRMR = 0.0
RMSEA
N > 250: RMSEA ≤ .06
RMSEA = 0.0
N ≤ 250: RMSEA ≤ .08
.08 ≤ RMSEA ≤ .10 = mittelmäßiger Fit
Cfit
p > .05
nicht definiert
90% CI des
nicht definiert
CI umfasst 0.0
CFI
CFI ≥ .95
nicht definiert
TLI
TLI ≥ .95
nicht definiert
RMSEA
Anmerkungen. ♠ (Brown, 2006; Browne & Cudeck, 1993; Bühner, 2006; Hu & Bentler, 1999;
MacCallum et al., 1996)
4.6.2 Modellvergleich
Sollen zwei ineinander verschachtelte Modelle (d. h. Modelle, bei denen sich eines
(comparison model) aus dem anderen (nested model) durch Lockerung von Restriktionen ergibt) hinsichtlich ihres Modellfits miteinander verglichen werden, kann dazu die
χ2-Statsitik verwendet werden (χ2-Differenzentest). Die Differenz zweier χ2-Werte folgt
ebenso einer χ2-Verteilung und kann auf Signifikanz getestet werden; die Differenz der
Freiheitsgrade beider Modelle stellen die Freiheitsgrade des Differenztests dar. Findet,
wie in der vorliegenden Arbeit, das SB- χ2 Verwendung, kann als Teststatistik allerdings nicht die einfache Differenz der χ2-Werte eingesetzt werden, da sie nicht χ2verteilt ist. Die Berechnung einer entsprechend korrigierten Teststatistik (χ2s genannt,
Satorra & Bentler, 1994) ist zum Beispiel bei Brown (2006) beschrieben.
Methode
103
4.7 Aufbereitung der Rohdaten
Dieses Kapitel legt dar, wie die Rohdaten behandelt wurden, bevor sie in die Analysen
eingingen. Die Items des NEO-FFI wurden in Skalenwerten zusammengefasst. Zur
Auswertung der BDI-Varianten wurden Summenwerte der Items gebildet. Die Items
respektive Summenwerte der verkürzten BDIs wurden reskaliert, um sie in Bezug auf
ihren Werteberich vergleichbar zu machen und so direkte Gegenüberstellungen zwischen Summenwerten von originalen und verkürzten BDI-Versionen zu ermöglichen.
Logarithmische Transformationen der Daten sollten die Verteilungseigenschaften verbessern. Zur Testung verschiedener Modelle war die Aufteilung der Items auf Testhälften (Itemparcels) erforderlich.
4.7.1 Skalenwerte des NEO-FFI
Entsprechend den Anweisungen des Manuals (Borkenau & Ostendorf, 2008) wurden
die invers codierten Items rekodiert (umgepolt) und für jede der fünf Skalen (Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit)
ein Skalenwert errechnet.
4.7.2 Summenwerte des BDI
Für jedes BDI wurde durch Aufaddieren der angekreuzten Ziffern ein Summenwert
gebildet. In den Original-BDIs (BDI und BDI-II) geht jedes der 21 Items mit einem
Punktwert von 0 – 3 in die Bildung des Gesamtscores ein, so dass der Wertebereich des
Summenwertes jeweils zwischen 0 und 63 Punkte liegt. Hatten Probanden entgegen der
Instruktion Kreuzchen bei mehreren Aussagen pro Item gesetzt, wurde entsprechend
den Auswertungsvorschriften für das BDI (Hautzinger et al., 1995) sowie das BDI-II
(Hautzinger et al., 2006) nur die höchste angekreuzte Ziffer gezählt.
Die Auswertungsvorschrift eine Ziffer pro Item gilt auch für die Items 16 („Veränderungen der Schlafgewohnheiten“) und 18 („Veränderungen des Appetits“) des BDI-II,
wobei ein Proband hier bei einem Wert > 0 gleichzeitig angibt, ob eine Zunahme oder
eine Abnahme/Verschlechterung des Schlafes bzw. Appetits vorliegt, indem auf den
Stufen 1 – 3 zwischen a(Zunahme)- und b(Abnahme)-Aussagen gewählt werden muss.
Beides kann nicht gleichzeitig ausgewählt werden beziehungsweise es würde, wenn ein
Proband entgegen der Instruktion doch beides angibt, nur eines der Kreuzchen gezählt
Methode
104
werden, und zwar das bei der höchsten Ziffer. (Wenn also beispielsweise 2a („Ich schlafe viel weniger als sonst“) und 3b („Ich schlafe fast den ganzen Tag“) angekreuzt wären, würde das Item mit drei Punkten gewertet, sofern man davon ausgehen kann, dass
das Item ernsthaft ausgefüllt wurde). Die inhaltliche Unterscheidung (a/Zunahme oder
b/Abnahme oder die Angabe beider Phänomene) wird bei der Bildung des Summenwertes nicht berücksichtigt und ist im Gesamtscore daher nicht repräsentiert.16
Für die verkürzten BDIs (BDI-V, BDI-II-V.1 und BDI-II-V.2) lag der Skalenbereich
jedes Items zwischen 0 und 5, so dass für das BDI-V (20 Items) ein Summenwert zwischen 0 und 100 möglich war, für das BDI-II-V.1 (21 Items) ein Summenwert zwischen
0 und 105 und für das BDI-II-V.2 (23 Items) ein Summenwert zwischen 0 und 115.
Für das BDI-II-V.2 wurde zudem eine zweite Auswertung durchgeführt, in der die je
zwei Items zu Schlaf und Appetit zu je einem Item zusammengefasst wurden. Dies geschah, indem jeweils die höhere der Ziffern beider Items verwendet wurde – analog der
Auswertung der Items im BDI-II, in welchem auch nur je eine Ausprägungsrichtung der
Symptome angegeben beziehungsweise bei Angabe von Schwierigkeiten in beiden
Richtungen nur eine Aussage gezählt werden kann (s.o.). Hatte ein Proband beispielsweise in Item 16 des BDI-II-V.2 („Ich schlafe außergewöhnlich wenig“) eine 1 angekreuzt und in Item 17 („Ich schlafe außergewöhnlich viel“) eine 3, so wurde für das
zusammengefasste Item (neues Item 16) die 3 übernommen. Analog war das Vorgehen
bei der Zusammenfassung der Items zu Appetit: Hatte ein Proband zum Beispiel in Item
19 („Ich habe außergewöhnlich wenig Appetit“ eine 4 angekreuzt und in Item 20 („Ich
habe außergewöhnlich viel Appetit“) eine 2, so wurde für das zusammengefasste Item
(neues Item 18) die 4 gewertet. Die Angabe von Werten ungleich Null in beiden Ausprägungen des Symptoms kam sehr häufig vor und ist – da das Antwortformat in den
verkürzten BDIs ein Häufigkeitsformat ist – nicht so abwegig, wie es auf den ersten
Blick vielleicht scheinen mag. Es ist schließlich gut möglich, dass in den letzten zwei
Wochen beispielsweise selten außergewöhnlich wenig geschlafen wurde (1 in Item 16)
und oft außergewöhnlich viel geschlafen wurde (3 in Item 17) oder analog zum Beispiel
sehr oft außergewöhnlich wenig Appetit vorkam (4 in Item 19) und manchmal außergewöhnlich viel Appetit vorkam (2 in Item 20).
16
Im klinischen Kontext müssen die beiden Items daher neben dem Summenwert gesondert betrachtet
werden, um eine differenzierte Einschätzung der Symptome eines Patienten vornehmen zu können
(Hautzinger et al., 2006).
Methode
105
Diese Auswertung des BDI-II-V.2 wurde mit BDI-II-V.2.Z bezeichnet (Z für zusammengefasst). Sie umfasst wie das BDI-II-V.1 21 Items (Wertebereich des Summenwertes daher 0 – 105), wobei das Item 16 zu Schlaf aus den vormaligen Items 16 („Ich
schlafe außergewöhnlich wenig“ und 17 („Ich schlafe außergewöhnlich viel“) hervorging und das Item 18 zu Appetit eine Zusammenfassung der vormaligen Items 19 („Ich
habe außergewöhnlich wenig Appetit“ und 20 („Ich habe außergewöhnlich viel Appetit“) darstellt. Das BDI-II-V.2.Z ist aufgrund der gleichen Anzahl an sich jeweils entsprechender Items besser direkt mit dem Original (BDI-II) und mit dem BDI-II-V.1
vergleichbar als das BDI-II-V.2 mit seinen 23 Items.
Das BDI-II-V.2.Z ermöglichte außerdem – was noch viel entscheidender war – eine
Zusammenfassung der Teilstichprobe, die das BDI-II-V.1 ausgefüllt hatte, und der Teilstichprobe, die das BDI-II-V.2 ausgefüllt hatte, zu einer Gesamtstichprobe. Auch dies
war möglich, da nun in beiden Versionen dieselbe Anzahl sich entsprechender Items
vorhanden war (denn auch im BDI-II-V.1 war das Item 16 jenes zu Schlaf und das Item
18 jenes zu Appetit, die anderen Items entsprachen sich ohnehin.). Zur Bezeichnung der
gemeinsamen Version in der Gesamtstichprobe wurde schlicht BDI-II-V gewählt. Wenn
also im Folgenden vom BDI-II-V die Rede ist, wird auf Auswertungen Bezug genommen, die in dieser Gesamtstichprobe vorgenommen wurden. BDI, BDI-V und BDI-II
waren generell allen Probanden in der gleichen Form vorgelegt worden. Mit der Zusammenfassung von BDI-II-V.1 und BDI-II-V.2.Z zum BDI-II-V lag nun auch für diesen Fragebogen ein Datensatz vor, der alle Probanden umfasste, so dass alle vier Fragebögen im kompletten Datensatz verglichen werden konnten.
Gleichzeitig konnten in den jeweiligen Teilstichproben das BDI-II mit dem BDI-II-V.1
und das BDI-II mit dem BDI-II-V.2 respektive dem BDI-II-V.2.Z vergleichen werden.
In diesen beiden Fällen wird natürlich auch für das BDI-II auf die jeweilige Teilstichprobe Bezug genommen (Bezeichnungen dann: BDI-II.1 für das BDI-II in der Teilstichprobe derer, die das BDI-II-.1 erhalten hatten und BDI-II.2 für das BDI-II in der
Teilstichprobe derer, die das BDI-II-V.2 erhalten hatten) Außerdem konnte zwischen
den Teilstichproben das BDI-II-V.1 mit dem BDI-II-V.2 verglichen werden.
Tabelle 7 fasst die in dieser Arbeit verwendeten Versionen bzw. Auswertungsvarianten
des BDI und ihre Bezeichnung zusammen. Auf die mittlere Spalte „Reskalierte Version“ wird im folgenden Abschnitt (4.7.3) eingegangen.
Methode
Tabelle 7
106
Alle verwendeten Versionen und Auswertungen des BDI im Überblick
Version
Reskalierte Version
Erläuterung
BDI
-
Original des BDI von Hautzinger et al. (1994)
in der Gesamtstichprobe
BDI-V
BDI-V.R
Verkürzung des BDI von Schmitt und Maes
(2000) in der Gesamtstichprobe
BDI-II
-
Original des BDI-II von Hautzinger et al.
(2006) in der Gesamtstichprobe
BDI-II.1
-
Original des BDI-II von Hautzinger et al.
(2006) in der Substichprobe 1, die den
BDI-II-V.1 (s.u.) erhalten hatten
BDI-II.2
-
Original des BDI-II von Hautzinger et al.
(2006) in der Substichprobe 2, die den
BDI-II-V.2 (s.u.) erhalten hatten
BDI-II-V.1
BDI-II-V.1.R
Verkürzung des BDI-II, wie sie diese Arbeit
vorschlägt mit je einem Item zu Schlaf und
Appetit (Substichprobe 1)
BDI-II-V.2
BDI-II-V.2.R
Verkürzung des BDI-II, wie sie diese Arbeit
vorschlägt mit je zwei Items zu Schlaf und
Appetit (Substichprobe 2)
BDI-II-V.2.Z
BDI-II-V.2.Z.R
BDI-II-V.2, in dem die je zwei Items zu
Schlaf und Appetit zu je einem Item zusammengefasst wurden (Substichprobe 2)
BDI-II-V
BDI-II-V.R
Zusammenfassung
von
BDI-II-V.1
und
BDI-II-V.2.Z (Gesamtstichprobe).
4.7.3 Reskalieren der Werte der verkürzten BDI-Varianten
Um die Summenwerte zwischen den Original-BDIs mit ihrer Itemskalierung von 0 – 3
und den verkürzten Versionen mit ihrer Itemskalierung von 0 – 5 direkt vergleichen zu
können, wurde für alle verkürzten Versionen eine reskalierte Variante erstellt, indem
Methode
107
die Itemantworten mit 0.6 (= ) multipliziert wurden. Die Bezugnahme auf eine reskalierte Variante ist erkennbar an der Erweiterung der Fragebogen-Bezeichnung durch ein
.R (R für reskaliert) am Ende, zum Beispiel BDI-V.R (statt BDI-V) (siehe Tabelle 7,
mittlere Spalte).
Die Reskalierung ist zudem eine notwendige Voraussetzung zur Testung der Modelle,
in denen zwei oder mehr BDI-Formen als gleich diskriminierende Indikatoren der latenten Variablen Depressivität spezifiziert wurden. Indikatoren, deren Ladungsparameter
sich gleichen sollen, sollten die gleiche Metrik besitzen, da die unstandardisierten Ladungen (die mit den Restriktionen belegt werden) sich sonst schon inhärent unterscheiden würden (Brown, 2006; siehe auch Kapitel 2.4.2.1 & 2.4.2.2).
In konfirmatorischen Faktorenanalysen, in denen Equality Constraits für Ladungsparameter definiert wurden, und bei Vergleichen der Mittelwerte zwischen Original und
Verkürzung mittels t-Tests, wird daher immer mit reskalierten Versionen der verkürzten
BDIs gerechnet17. In konfirmatorischen Faktorenanalysen, in denen keine Equality
Constraints auf Ladungsparameter bestanden, und in allen anderen Auswertungen, die
von Lineartransformationen nicht berührt werden, spielt die Frage der Reskalierung
keine Rolle.
4.7.4 Logarithmieren der Werte
Wie erwähnt waren Item- und Summenwerte nicht normal verteilt. Da – trotz der Verwendung eines robusten Schätzalgorithmus – Schwierigkeiten bestanden, einen guten
Fit für die hypothetisierten Modelle zu erzielen, wurden mittels logarithmischer Transformation der Daten Versuche unternommen, die deutliche Rechtsschiefe der Item- und
Summenwerte zu reduzieren und die Verteilungsform näher an eine Normalverteilung
heranzuführen. So sollten Erkenntnisse dazu ermöglicht werden, ob der Modellfit durch
eine Annährung der Verteilung an die Normalverteilung verbessert werden konnte und
somit die Verletzung der Normalverteilung zum unbefriedigenden Modellfit beigetragen haben könnte.
17
Die einzige Ausnahme bilden konfirmatorische Faktorenanalysen, in denen logarithmierte Summenwerte Verwendung finden (s.u.). In diesen Fällen wird probehalber mit reskalierten und nicht-reskalierten
Summenwerten gerechnet; die Ergebnisse dieser Analysen sind jedoch ohnehin nur sehr eingeschränkt
interpretierbar
Methode
108
Logarithmiert wurden zum einen die Werte der einzelnen Items, die in dieser Form in
eine Variante der Itemparcelbildung (siehe Abschnitt 4.7.5) eingingen. Zum anderen
wurden die Summenwerte der BDIs einer logarithmischen Transformation unterzogen,
um in dieser Form als Indikatorvariablen der konfirmatorischen Faktorenanalysen zu
dienen, die auf Summenscores basierten. Die Summenwerte wurden deswegen unabhängig von den Items logarithmiert, weil sich durch eine direkte logarithmische Transformation der Summenwerte im Vergleich zu einer Summenbildung aus logarithmierten
Items eine stärkere Angleichung der Verteilungsform an die Normalverteilung erzielen
ließ.
Vor dem Logarithmieren mussten die Daten durch die Addition von 1 linear transformiert werden, da der mögliche und auch der tatsächliche Wertebereich bei Item- und
Summenwerten Null einschloss, der Logarithmus für Null jedoch nicht definiert ist.
4.7.5 Erstellen von Itemparcels
In konfirmatorischen Faktorenanalysen, in denen die manifesten Indikatoren in Itemparcels bestehen, hängt der Modellfit unter anderem davon ab, wie diese Parcels zusammengesetzt sind (siehe z. B. Fabian-Krause, 2011). Dies zeigte sich auch in den
Analysen der vorliegenden Arbeit. Modelle, in denen Itemparcels in Form von
BDI-Testhälften als manifeste Indikatoren von latenten BDI-Variablen dienten, wiesen
mehr oder weniger große Abweichungen von einem zufriedenstellenden Fit auf, je
nachdem, wie sich die Items auf die Parcels verteilten. Die Strategien, die eingesetzt
wurden, um Parcels zu generieren, werden im Folgenden beschrieben. Der Abschnitt
schließt mit dem Fazit, welche Zusammensetzung der Itempäckchen für die verschiedenen Modelle jeweils zum besten Modellfit führte. Nur die Ergebnisse, die mit den optimalen Parcels erzielt wurden, werden in der Darlegung der Analysen im Ergebnisteil
berichtet.
Variante 1. Zunächst wurden entsprechend dem Vorgehen von Schmitt et al. (2003) für
jede der BDI-Formen zwei Parcels mit dem Ziel gebildet, dass die Aufteilung der Items
auf die Parcels sich zwischen den Formen maximal unterscheiden sollte. Dies sollte die
Wahrscheinlichkeit von Fehlerkorrelationen minimieren (Schmitt et al., 2003). Dazu
wurde das BDI nach Item 10 in eine erste (Item 1 – 10) und eine zweite (Item 11 – 21)
Hälfte geteilt. Das BDI-V wurde nach der Odd-Even Methode unterteilt (d. h., die gera-
Methode
109
den Items gelangten in Parcel 1, die ungeraden in Parcel 2). Beim BDI-II wurde so verfahren, dass jeweils zwei Items in das erste Parcel gelangten, die nächsten zwei in das
zweite Parcel, dann wieder zwei in das erste Parcel und so weiter. Ähnliche Strategien
wurden verfolgt für das BDI-II- V und das BDI-II-V.1, bei denen jeweils18 drei Items in
das erste Päckchen gelangten, die nächsten drei in das zweite Päckchen und so weiter.
Beim BDI-II-V.2 gelangten entsprechend Vierergruppen in die beiden Parcels.
Variante 2a – f. Es wurde sodann die Strategie verfolgt, die Korrelationen zwischen
allen Parcels parallel so ähnlich wie möglich zu gestalten. Je gleichmäßiger die Zusammenhänge zwischen den Indikatoren der latenten BDI-Variablen sein würden, desto
ähnlicher könnten auch die latenten Korrelationen ausfallen, so die Annahme.
Variante 3. Während die bisherigen Techniken weitestgehend auf logischen Überlegungen sowie Trial and Error basierten, orientierte sich das Vorgehen nun enger an im
Vorfeld der erkennbaren psychometrischen Charakteristika der Items. Mit dem Ziel,
dass jeweils beide Parcels eines BDIs eine möglichst identische Beziehung zum latenten
Konstrukt haben mögen, wurden zum Erstellen der Parcels die Trennschärfen genutzt.
Getrennt für jedes Inventar wurde dem ersten Parcel jeweils das Item mit der höchsten
Trennschärfe zugewiesen, das Item mit der zweithöchsten Trennschärfe gelangte in das
zweite Parcel. Dann wurde das Item mit der dritthöchsten Trennschärfe wiederum dem
zweiten Parcel zugewiesen und das Item mit der vierthöchsten Trennschärfe in das erste
Parcel eingefügt. Das Item mit der fünfthöchsten Trennschärfe gehörte wieder zum ersten Parcel und so weiter.
Variante 4. Schließlich wurden die Strategien des Logarithmierens und der Berücksichtigung der Beziehung der Items untereinander (vgl. Variante 3) kombiniert. Um die
Verteilungseigenschaften der Itens und damit der aus ihnen generierten Parcels zu verbessern, wurden logarithmierte Items verwendet. Die so veränderten Items wurden für
jede Version des BDIs Hauptachsenanalysen unterzogen. (Extrahiert wurden jeweils so
viele Faktoren, wie eine Parallelanalyse nahelegte. Das Generieren der dazu benötigten
zufälligen Eigenwerte erfolgte unter Verwendung einer Syntax von O’Connor (2000).)
In Anlehnung an die Empfehlungen von Little, Cunningham, Shahar und Widaman
(2002) wurden die zwei Itempäckchen jedes BDI erstellt, indem der Betrag der Ladun-
18
Da das BDI-II-V und das BDI-II-V.1 niemals gemeinsam in eine Analyse eingehen konnten, durften
die Items in gleicher Weise verteilt werden
Methode
110
gen der Items auf dem ersten unrotierten Faktor und – in gewissem Maße – ihr Mittelwert zugrunde gelegt wurde. Das Ziel war, Parcels zu bilden, die in Bezug auf ihre Relation zum Konstrukt (Diskrimination) sowie in Bezug auf ihre Schwierigkeit ausbalanciert sein sollten (Little et al., 2002). Das Item mit der höchsten Ladung auf dem ersten
unrotierten Faktor gelangte in das erste Parcel, das Item mit der zweithöchsten Ladung
auf dem ersten unrotierten Faktor in das zweite Parcel, das Item mit der dritthöchsten
Ladung wieder in das zweite Parcel und so weiter (s.o.; diese Strategie entspricht weitgehend der Berücksichtigung der Trennschärfen in Variante 3). War die Zuordnung der
Items zu Päckchen auf Basis der Ladung erfolgt, wurde überprüft, ob die Verteilung der
Items mit hohen, mäßig hohen, mäßig niedrigen und niedrigen Mittelwerten zwischen
den beiden Parcels in etwa ausgeglichen war. Gegebenenfalls wurde korrigiert, indem
Items zwischen den Parcels getauscht wurden. Das gewählte Vorgehen konnte die
Schwierigkeiten zwischen den Parcels nicht exakt ausgleichen, schien aber der beste
Kompromiss zwischen einem im Rahmen dieser Arbeit zu komplexen Verfahren, das
parallel Faktorladung und Mittelwert exakt berücksichtigt hätte, und dem vollständigen
Verzicht auf die Beachtung der Schwierigkeiten.
Fazit. Bei der Verfolgung der Ziele der jeweiligen Strategien wurden während der Analysen alle BDI-Formen parallel berücksichtigt. Für die Modelle, die nur zwei der
BDI-Formen einbezogen, ergab sich dadurch ein überraschender Schluss:
In den Analysen, die lediglich BDI-II und entweder BDI-II-V, BDI-II-V.1 oder
BDI-II-V.2 enthielten, ließ sich der beste Modellfit jeweils mit Parcels erzielen, die auf
der Suche nach Indikatoren möglichst ähnlicher manifester Korrelationen entstanden
waren (Variante 2e). Interessanterweise wiesen diese jeweils vier Parcels jedoch bei
weitem nicht die ähnlichsten Korrelationen auf. Der Range von der niedrigsten Interparcelkorrelation zur höchsten Interparcelkorrelation betrug (je nach Stichprobe) zwischen 0.158 und 0.163 Punkten. Für andere Varianten belief sich dieser Range auf geringere Werte, bis zu zwischen 0.108 und 0.134 Punkte. Viel mehr war es so, dass die
Itempäckchen der Variante 2e exakt den Parcels entsprachen, wie sie Schmitt et al.
(2003) für BDI und BDI-V gebildet hatten (siehe Variante 1, maximale Unähnlichkeit
zwischen den Parcels). Die Anwendung der Strategie der maximalen Unähnlichkeit
zwischen den Parcels in Bezug auf alle Formen parallel hatte nicht zum Erfolg geführt,
wenn ein Modell mit allen Formen gefittet wurde (s.u.). Für BDI-II und BDI-II-V einzeln betrachtet hatten sich dabei auch nicht maximal unähnliche Parcels ergeben, da alle
Methode
111
Formen parallel einbezogen worden waren. Bezieht man diese Strategie auf nur zwei
Inventare, lässt sie sich am effektivsten umsetzen und war in dieser Untersuchung die
erfolgreichste.
In den Analysen, in denen alle vier BDI-Formen modelliert wurden, erwiesen sich die
nach der Variante 3 (Ausgleich der Trennschärfen zwischen den Parcels) erstellten Indikatoren als optimal. (Gleichzeitig wiesen diese Parcels die höchste Ähnlichkeit der
Koeffizienten der Interkorrelationen der acht Indikatoren auf; Range: 0.169).
Die Verteilung der Items auf die Parcels, die sich als optimal erwiesen hatten und in den
im Ergebnisteil berichteten Analysen zum Einsatz kamen, wird in Anhang C dargestellt.
Tabelle 19 zeigt die nach Variante 2e gebildeten Parcels für die Modelle zur Analyse
von BDI-II und BDI-II-V in der Gesamt- und den Teilstichproben. Tabelle 20 zeigt die
nach Variante 3 gebildeten Parcels für die Modelle zur Analyse von BDI, BDI-V,
BDI-II und BDI-II-V in der Gesamtstichprobe.
Ergebnisse
112
5 Ergebnisse
Dieses Kapitel stellt die Ergebnisse der statistischen Analysen dar. Die Struktur des
Abschnitts spiegelt die Struktur der Fragestellungen und Hypothesen wieder. Der Bericht beginnt mit den psychometrischen Charakteristika und den Ergebnissen zur Validität des BDI-II-V (zur Erinnerung: dabei handelt es sich um die aus der Zusammenfassung von BDI-II-V.1 und BDI-II-V.2 hervorgegangene Version des vorgeschlagenen
Inventars in der Gesamtstichprobe). Darauf folgt der Vergleich des BDI-II-V mit dem
Original (BDI-II). Der nächste Abschnitt analysiert Unterschiede zwischen den Subformen 1 und 2 des BDI-II-V. Schließlich werden BDI, BDI-V, BDI-II und BDI-II-V
einem parallelen Vergleich unterzogen.
Bevor der Einstieg in die statistischen Ergebnisse erfolgt, werden das Vorgehen bei der
Datenbereinigung und die resultierende Analysestichprobe dargestellt.
Alle im Text angegebenen p-Werte sind zweiseitig.
5.1 Datenbereinigung und Beschreibung der Stichprobe
Wie in Abschnitt 4.2 dargelegt, handelt es sich um eine Gelegenheitsstichprobe, die
nach dem Schneeballsystem im Bekanntenkreis der Autorin rekrutiert wurde. Die Bemühungen gingen dabei in die Richtung, eine soziodemographisch möglichst heterogene Bevölkerungsstichprobe zu verwirklichen. Der Zeitraum der Datenerhebung lag zwischen Februar und Juli 2011.
Es wurden 630 Bögen an Interessenten ausgegeben, von denen 361 ausgefüllt zurückgesendet wurden, was einer Rücklaufquote von 57% entspricht.
Im Folgenden wird zunächst auf die drei Problembereiche der Identifikation nicht ernsthaft ausgefüllter Fragebögen, des Umgangs mit Extremwerten und Ausreißern sowie
des Verfahrens bei fehlenden Werten eingegangen, um dann die Analysestichprobe zu
beschreiben.
Ergebnisse
113
5.1.1 Verständnisschwierigkeiten oder mangelnde Sorgfalt beim Ausfüllen
Um Verfälschungen der Ergebnisse durch nicht sorgfältig ausgefüllte Fragebögen oder
Verständnisschwierigkeiten bei Teilnehmenden zu verhindern, wurden die Fragebögen
von Probanden mit Extremwerten oder Ausreißern in einem der BDI-Summenwerte,
von Probanden mit fehlenden Werten (Missings) in einem der Fragebögen sowie von
Probanden, deren Ankreuzverhalten auffällige „Muster“ produziert hatte oder deren
Bögen Hinweise auf Verständnisschwierigkeiten enthalten hatten, genauer inspiziert.
14 Probanden mussten nach diesen Analysen vollständig ausgeschlossen werden, da
eindeutige Hinweise auf fehlende Ernsthaftigkeit oder mangelndes Verständnis vorlagen. Für zwei Probanden mussten einzelne Fragebögen aus dem Datensatz entfernt
werden. Unter den 14 vollständig ausgeschlossenen Probanden befanden sich überproportional viele Teilnehmer unter 20 Jahren (5 Teilnehmende, also 36%), was dazu führte, dass diese Altersgruppe in der Gesamtstichprobe nun noch stärker unterrepräsentiert
war, als dies bereits vor den erforderlichen Ausschlüssen der Fall gewesen war (s.u.).
5.1.2 Ausreißer und Extremwerte
Als Ausreißer gelten solche Werte, die innerhalb des anderthalb- bis dreifachen Interquartilsabstandes liegen; von Extremwerten spricht man bei Werten, die sich außerhalb
des dreifachen Interquartilsabstandes befinden (Bühl, 2010; Gollwitzer & Jäger, 2007).
Ausreißer und Extremwerte können mittels Boxplots identifiziert werden (Bühl, 2010).
In dem um unverständig oder boykottierend ausgefüllte Fragebögen bereinigten Datensatz fand sich in keinem der BDIs ein Extremwert, jedoch einige Ausreißer. Es gibt keine allgemeingültige Empfehlung, wie mit ihnen umzugehen ist (Schendera, 2007). Sie
dürfen im Datensatz belassen werden, sofern davon ausgegangen werden kann, dass es
sich „um ‚reale‘ Ausreißer handelt“ (Schendera, 2007, S. 199). Dies war für die verbliebenen Ausreißer wahrscheinlich, da „irreale“ Ausreißer, die aus fehlerhaften Eingaben,
mangelnder Motivation oder Verständnisschwierigkeiten resultierten, in den vorangegangenen Analysen zu identifizieren versucht worden waren. So wurde entschieden, sie
nicht zu löschen. Damit wurde der entscheidende Nachteil der Eliminierung von Ausreißerwerten, die Reduktion der Power (Schendera, 2007), vermieden.
Ergebnisse
114
5.1.3 Fehlende Werte
Durch das Auslassen eines einzigen Items in einem BDI kann für diesen Fragebogen
kein Gesamtscore gebildet werden kann, da es sich um Summen-, nicht um Durchschnittswerte handelt. Die Gesamtscores der Skalen des NEO-FFI (Borkenau &
Ostendorf, 2008) dagegen stellen Durchschnittswerte dar, so dass auch bei einzelnen
Missings ein Skalenwert berechnet werden kann19. Einige Probanden wiesen fehlende
Werte in einzelnen Items einer der BDI-Formen und damit im jeweiligen Summenwert
auf (BDI: 2 Probanden, BDI-V: 10 Probanden, BDI-II: 5 Probanden, BDI-II-V: 8 Probanden; BDI-II-V.1: 2 Probanden, BDI-II-V.2: 8 Probanden/BDI-II-V.2.Z: 6 Probanden20). Für 3 Probanden fehlt der NEO-FFI.
Zunächst wurde entschieden, Probanden, für die nur der Summenwert eines BDI fehlte,
in den Analysen zu belassen, um die Power nicht unnötig zu reduzieren. Damit stand
eine Stichprobe von insgesamt 347 Personen zur Verfügung. Für die einzelnen Inventare lag der Umfang entsprechend der fehlenden Werte leicht darunter.
Nach Abschluss der Datenaufbereitung und Voranalysen wurde der Autorin bewusst,
dass zur Berechnung der endgültigen Ergebnisse immer dann Personen mit fehlenden
Werten in einzelnen der Depressionsinventare ausgeschlossen werden mussten, wenn
Werte direkt zwischen den Inventaren verglichen werden sollten, damit die Statistiken
für alle BDI-Formen auf einer(m) identischen Stichprobe(numfang) fußten. Zudem wurden auch für die konfirmatorischen Faktorenanalysen Stichproben ohne einzelne fehlende Werte benötigt, da der verwendete MLM-Schätzer keine Missings toleriert21.
19
Borkenau & Ostendorf (2008) empfehlen in ihrer Handanweisung, dass Skalenwerte ab 10 von 12
beantworteten Items pro Skala interpretiert werden dürfen, auch wenn die Autoren durchaus kritisch darauf hinweisen, dass jede Art solcher Grenzen nicht einer gewissen Willkür entbehrt.
20
Für 8 Probanden kann kein Summenwert berechnet werden, wenn alle 23 Items in den Summenwert
einfließen (BDI-II-V.2), für den Summenwert von 21 Items nach Zusammenfassung jeweils der Items für
Appetit und für Schlaf (BDI-II-V.2.Z), fehlen nur noch 6 Werte. Dies liegt daran, dass für zwei Probanden ein fehlender Wert wegfiel, weil er sich auf einem der Items zu Schlaf oder Appetit befand, und hier
(siehe Abschnitt 4.7.2) jeweils lediglich der höchste Wert das zusammengefasste Item bildete. Die Anzahl
fehlender Summenwerte im BDI-II-V stimmt deswegen auch nur dann mit der Summe der fehlenden
Summenwerte aus BDI-II-V.1 und BDI-II-V.2 überein, wenn für das BDI-II-V.2 die zusammengefasste
21-Item-Version (BDI-II-V.2.Z) betrachtet wird, da das BDI-II-V (siehe Abschnitt 4.7.2) auf der Basis
des BDI-II-V.1 und des BDI-II-V.2.Z gebildet wurde.
21
Zur Analyse nicht normalverteilter Daten hätte zwar mit dem MLR-Schätzer ein alternativer robuster
Schätzalgorithmus zur Verfügung gestanden, der mit fehlenden Werten umgehen kann und in Voranalysen zum Einsatz kam. Für den MLR-Schätzer ist der Autorin jedoch keine Korrekturformel zur Durchführung des (für den ML-Schätzer konzipierten) χ2-Differenzentests bekannt (siehe Kapitel 4.6.2).
Ergebnisse
115
Dort, wo bereits Analysen durchgeführt worden waren, wurden diese soweit möglich
wiederholt. Teilweise wurden Stichproben neu gebildet, teilweise wurde, um Zeit einzusparen, die Option des listenweisen Fallausschlusses eingesetzt. Die Bildung der
Itempäckchen (siehe Abschnitt 4.7.5) und die Hauptachsenanalyse des BDI-II-V konnten aus Zeitgründen nicht wiederholt werden.
Aus den beschriebenen Umständen heraus ergeben sich für die einzelnen Analysen
nicht in allen Fällen identische Stichprobenumfänge. Letztendlich basieren die Analysen, die alle vier Formen des BDI parallel vergleichen, auf einer Stichprobe von
N = 325 Personen. Auf diese Stichprobe beziehen sich außerdem alle Berechnungen, die
den aus der Zusammenfassung von BDI-II-V.1 und BDI-II-V.2 hervorgegangenen
BDI-II-V in der Gesamtstichprobe beschreiben, außer der Hauptachsenanalyse, die eine
Stichprobe vom Umfang N = 339 zur Grundlage hat. Die konfirmatorischen Faktorenanalysen, die BDI-II und BDI-II-V modellieren, greifen auf eine Stichprobe von
N = 334 Teilnehmenden zu. Die Vergleiche zwischen BDI-II und den zwei Unterformen
des BDI-II-V (1 und 2) konnten naturgemäß nur in den jeweiligen Substichproben stattfinden, die wiederum aus der Gesamtheit der 347 Teilnehmer jeweils durch den Ausschluss von Probanden mit fehlenden Werten in einem der Fragebögen gebildet wurden.
Der Umfang der Substichprobe zum Vergleich von BDI-II und BDI-II-V.1 belief sich
auf N = 169 Probanden. Zwischen dem BDI-II und dem BDI-II-V.2 (bzw.
BDI-II-V.2.Z) erfolgte der Vergleich in einer Stichprobe mit dem Umfang von N = 163
(bzw. 165) Personen.
Die Trennschärfeanalysen und die Hauptachsenanalysen der logarithmierten Items, auf
deren Basis Entscheidungen zur Verteilung der Items auf die Päckchen getroffen wurden, griffen auf die ursprüngliche Gesamtstichprobe von 347 Personen (+/- Missings für
die einzelnen Fragebögen) zu. Alle Angaben zu Trennschärfen von Items, die im Folgenden berichtet werden, beruhen dagegen auf erneut ausgeführten Berechnungen und
somit auf identischen Stichprobenumfängen für alle Inventare.
5.1.4 Beschreibung der Stichprobe
In Anbetracht der Tatsache, dass der Großteil der endgültigen Analysen auf der Stichprobe mit dem Umfang von N = 325 Personen beruht, soll diese im Folgenden beschrie-
Ergebnisse
116
ben werden. Es wird zudem berichtet, mit welcher Häufigkeit die verschiedenen realisierten Rotationen der BDIs in der Stichprobe vorkamen.
Die Substichproben zur Betrachtung des BDI-II-V.1 und BDI-II-V.2 werden nicht in
aller Ausführlichkeit beschrieben, sondern es wird im Anschluss an die Beschreibung
der Gesamtstichprobe lediglich auf Unterschiede zwischen diesen Substichproben, die
soziodemographischen Merkmale betreffend, eingegangen. Die genaue Verteilung der
soziodemographischen
Variablen
in
der
BDI-II-V.1-Substichprobe
(N = 169),
BDI-II-V.2 -Substichprobe (N = 165), der hier beschriebenen Gesamtstichprobe
(N = 325) sowie der ursprünglichen Gesamtstichprobe (N = 347), aus der alle anderen
Analysestichproben durch den Ausschluss jeweils so vieler Fragebögen wie nötig hervorgingen, kann jedoch im direkten Vergleich Tabelle 17 in Anhang C entnommen
werden.
5.1.4.1 Beschreibung der Gesamtstichprobe
In der Analysestichprobe von 325 Teilnehmern waren 132 Probanden (40.6%) männlich, 192 (59.1%) weiblich, eine Person hatte keine Angaben zum Geschlecht gemacht.
Der jüngste Proband war 16 Jahre alt, der älteste 84, der Altersschnitt lag bei
44.26 Jahren (SD = 17.40). Eine Person hatte ihr Alter nicht angegeben. Abbildung 7
zeigt, wie sich die Probanden auf verschiedenen Altersgruppen verteilen (die Verteilung
der Probanden auf die Kategorien in präzisen Zahlen findet sich bei Bedarf in Tabelle
17 in Anhang C).
Die Angaben zum höchsten erreichten Schulabschluss ergaben folgendes Bild: 1.5% der
Teilnehmenden besuchten aktuell noch die Schule. Von den weiteren Probanden hatten
0.6% keinen Schulabschluss erworben, 20.9% hatten die Haupt- oder Volksschule abgeschlossen, die mittlere Reife besaßen 20.0% und 56.9% hatten Abitur oder Fachabitur
gemacht.
Auf die Frage nach einem berufsqualifizierenden Abschluss antworteten 18.2% der Probanden, keine abgeschlossene Berufsausbildung zu haben. Hierunter fallen sowohl und
insbesondere jene Teilnehmenden, die sich noch in Schule, Erstausbildung oder Erst-
Ergebnisse
117
studium befanden (zusammen 12.9%)22, als auch jene, welche auf ihrem Lebensweg
bislang keinen berufsqualifizierenden Abschluss erworben hatten, ohne sich aktuell auf
dem Ausbildungsweg zu befinden (5.3%). 43.7% der Teilnehmenden hatten eine Berufsausbildung absolviert, 38.2% ein Fachhochschul- oder Hochschulstudium abgeschlossen.
Abbildung 7
Verteilung der Probanden der Analysestichprobe mit dem Umfang N = 325 auf
verschiedene Altersgruppen
Gefragt nach der aktuellen Berufstätigkeit gaben 1.5% an, Schüler zu sein (s.o.), 2.5%
waren Auszubildende, 15.1% studierten aktuell an einer Universität oder Fachhochschule, 6.8% waren Hausfrau oder Hausmann, 1.2% waren auf Arbeitssuche, 57.5% waren
erwerbstätig und 15.4% gaben an, Rentner oder Pensionär zu sein.
22
Wie im Folgenden zu sehen sein wird, liegt der Anteil der Schüler, Auszubildenden und Studenten in
der Stichprobe bei zusammen 19.1%. Die Differenz zu 12.9% ergibt sich aus der Tatsache, dass 25% der
Auszubildenden und 36.7% der Studenten bereits eine erste Ausbildung oder ein erstes Studium abgeschlossen hatten.
Ergebnisse
118
Die Angaben zum legalen Familienstand ergaben, dass 38.2% der Teilnehmenden ledig
waren, 52.0% waren verheiratet, 6.2% geschieden und 3.7% verwitwet.
Befragt nach der aktuellen Partnerschaft gaben 16.6% an, ohne Partnerbeziehung zu
sein, 67.1% lebten in fester Partnerschaft oder Ehe mit einem Partner zusammen, 12.6%
hatten einen festen Partner oder Ehepartner, mit dem sie nicht zusammenlebten. 3.7%
wählten die Kategorie „weder noch“, wollten oder konnten sich also nicht festlegen, ob
eine feste Partnerschaft bestand oder nicht.
5.1.4.1.1 Kontrolle der ausbalancierten Reihenfolge
Bei exakter Gleichverteilung hätte jede der acht möglichen BDI-Rotationen bei 12.5%
der Fragebögen vorkommen müssen, was bei 325 Probanden etwa 41 Bögen entspricht.
Erwartungsgemäß schwanken die tatsächlichen Zahlen um diesen Wert und liegen zwischen 27 Bögen (8.3%) und 51 Bögen (15.7%) pro möglicher Reihenfolge.
5.1.4.2 Vergleich der Stichprobencharakteristika der Substichproben
Im Folgenden werden die Substichproben, welche das BDI-II-V.1 und das BDI-II-V.2
erhalten haben, hinsichtlich der Stichprobencharakteristika verglichen.
Geht man von dem üblichen α-Niveau von 0.05 aus, so unterscheidet sich das Verhältnis von Frauen zu Männern nicht signifikant zwischen den Substichproben
(χ2 (1) = 1.80, p = .18; N = 333). Allerdings könnte man, da in dieser Überprüfung die
Nullhypothese die „Wunschhypothese“ darstellt, etwas strengere Maßstäbe anlegen und
einen p-Wert ≥ .20 verlangen. Dann müsste man die Geschlechtsdifferenzen (Substichprobe BDI-II-V.1 56.2% Frauen; Substichprobe BDI-II-V.2 63.0% Frauen) als „signifikant“ bezeichnen.
Die Teilnehmer sind in beiden Stichproben im Mittel gleich alt (t (328.281) = .82, p
= .41)23. Ein Vergleich der Verteilung auf die ursprünglichen Altersgruppen (16 – 19,
20 – 29, …; siehe Tabelle 17 in Anhang C) wäre aufgrund mehrerer Zellen mit erwarteten Häufigkeiten unter 5 schwierig umzusetzen gewesen. Die Verletzung der Voraussetzung für χ2-Tests von erwarteten Häufigkeiten über 5 in allen Zellen (Bortz, 2005) bzw.
nicht mehr als 20% der Zellen mit erwarteten Häufigkeiten unter 5 (Bühl, 2010) wird im
23
Aufgrund ungleicher Varianzen wurde die korrigierte Statistik interpretiert.
Ergebnisse
119
verwendeten Statistikprogramm IBM SPSS (Version 19) nur dann durch die Ausgabe
einer alternativen Statistik ausgeglichen, wenn es sich um eine Vier-Felder-Tafel handelt (Bühl, 2010). Dies war bei acht Altersgruppen nicht der Fall. Daher wurden stattdessen alternative Altersgruppen (16 – 25, 26 – 35, 36 – 45, 46 – 55, 56 – 65, 66 – 75,
76 – 85) gebildet und verglichen. Die Analyse bestätigte das Ergebnis des Mittelwertvergleiches. Es ergaben sich keine signifikanten Unterschiede (χ2 (6) = 4.29, p = .64;
N = 333).
Bezüglich des höchsten Schulabschlusses wurde zunächst der Anteil an Probanden mit
Volks- oder Hauptschulabschluss, mittlerer Reife und (Fach)Abitur verglichen, wobei
sich keine signifikanten Unterschiede zeigten (χ2 (2) = 2.83, p = .24; N = 327). Im Anschluss wurden die gering besetzten Kategorien Schüler und kein Schulabschluss in
einer gesonderten Analyse ausgewertet und die alternative Signifikanz-Statistik für
Vier-Felder-Tafeln mit erwarteten Häufigkeiten kleiner als 5, der exakte Test nach Fisher, interpretiert. Die Differenzen zwischen den Stichproben wurden nicht signifikant
(χ2 (1) = .63, p = 1.00; N = 7). Einerseits ist zwar zu bedenken, dass der geringe Stichprobenumfang dieser Analyse ein nicht-signifikantes Ergebnis begünstigt, andererseits
dürften jedoch Unterschiede in so minimalem Umfang, d. h. auf der Basis von 7 Personen, für die Vergleichbarkeit der Substichproben tatsächlich nur eine geringe Rolle
spielen.
Ebenso sind die Stichproben vergleichbar in Bezug auf den Anteil an Probanden ohne
abgeschlossene Berufsausbildung, mit abgeschlossener Berufsausbildung und abgeschlossenem Studium (χ2 (2) = 2.01, p = .37; N = 334).
Zur Feststellung von Unterschieden in der aktuellen Berufstätigkeit mussten erneut getrennte Analysen für verschiedene Kategorien vorgenommen werden, weil sonst zu viele Zellen mit erwarteten Häufigkeiten unter 5 vorgelegen hätten, was nur in Vier-FelderTafeln durch die Interpretation einer alternativen Statistik ausgeglichen werden kann. In
den Anteilen an Studenten, Hausfrauen/Hausmännern, Erwerbstätigen und Rentnern/Pensionären wurden keine signifikanten Unterschiede gefunden (χ2 (3) = 1.67, p
= .64; N = 317). In jeder der Teilstichproben befanden sich 2 Personen auf Arbeitssuche, was jeweils 1.2% entsprach. In der Vier-Felder-Analyse wurden außerdem Unterschiede zwischen der Anzahl an Schülern und Auszubildenden nicht signifikant
(χ2 (1) = 2.24, p = .27; N = 13; exakter Test nach Fisher). Allerdings gelten für diese
Ergebnisse
120
letzte Berechnung dieselben Bedenken wie für die Analyse der kleinen Stichprobe der
Schüler und Personen ohne Schulabschluss.
Auch ledige, verheiratete, geschiedene oder verwitwete Personen fanden sich nicht in
einer der Substichproben signifikant häufiger als in der anderen (χ2 (3) = 4.28, p = .23;
N = 334). Im χ2-Test zum Vergleich der Verteilung der Probanden auf unterschiedliche
Partnerschaftssituationen wurde ein marginal signifikantes Ergebnis erzielt. Der p-Wert
betrug .08 (χ2 (3) = 6.80; N = 333), was üblicherweise nicht als statistische Signifikanz
interpretiert wird, jedoch als signifikant gelten kann, wenn aufgrund der Tatsache, dass
keine Unterschiede gefunden werden sollen, strenger bewertet wird (s.o.).
Zusammenfassend lässt sich konstatieren, dass die beiden Teilstichproben bezüglich
ihrer Zusammensetzung vergleichbar sind. Die Unterschiede in den Anteilen an Probanden in verschiedenen Partnerschaftssituationen sind nur marginal signifikant, jene
im Verhältnis von Frauen zu Männern noch weniger deutlich ausgeprägt.
5.2 Ergebnisse zur internen Konsistenz und Homogenität des
BDI-II-V (Hypothese I)
Die interne Konsistenz Cronbach’s α für das BDI-II-V beträgt .95 und liegt damit entsprechend der Erwartung jenseits von .85. Die Items des BDI-II-V korrelieren im Mittel
zu .50 (Minimum .10, Maximum .79), so dass sich auch die Erwartungen an die mittlere
Inter-Item-Korrelation (M rii ≥ .30) erfüllt haben. Die korrigierten Trennschärfen der
Items betragen im Mittel .69; die niedrigste Trennschärfe weist mit .37 das Item Libidoverlust auf, am engsten hängt mit einer korrigierten Trennschärfe von .83 das Item
Energieverlust mit dem Summenwert aller anderen Items zusammen. Das BDI-II-V
weist damit den Erwartungen entsprechend sehr hohe Homogenitätswerte auf.
Tabelle 8 sind zum direkten Vergleich die Itemtrennschärfen und internen Konsistenzen
aller eingesetzten BDI-Varianten in den unterschiedlichen Stichproben zu entnehmen.
Auf die Werte der verschiedenen Inventare wird im Laufe des Kapitels sukzessive Bezug genommen.
Ergebnisse
BDI-V
BDI-II
BDI-II-V
BDI-II.1
BDI-II-V.1
BDI-II.2
BDI-II-V.2.Z
BDI-II-V.2
Korrigierte Trennschärfen und Cronbach’s α für alle eingesetzten Varianten des BDI in
der Gesamtstichprobe und den beiden Teilstichproben
BDI
Tabelle 8
121
Item
rit
rit
rit
rit
rit
rit
rit
rit
rit
Traurigkeit
.58
.78
.66
.74
.64
.76
.70
.73
.73
Pessimismus
.60
.76
.65
.78
.63
.79
.70
.77
.77
Versagensgefühle
.57
.75
.61
.75
.61
.76
.68
.74
.74
Verlust von Freude
.69
.70
.62
.76
.70
.83
.59
.64
.63
Schuldgefühle
.59
.74
.55
.67
.58
.71
.55
.65
.66
Bestrafungsgefühle
.46
.62
.48
.64
.50
.67
.52
.63
.64
Selbstablehnung
.60
.77
.57
.75
.62
.78
.57
.73
.73
Selbstvorwürfe
.53
.75
.66
.73
.67
.77
.67
.69
.69
Selbstmordgedanken
.53
.54
.50
.44
.50
.47
.48
.39
.40
Weinen
.52
.57
.49
.71
.52
.72
.49
.71
.71
Unruhe
-
-
.65
.78
.70
.81
.62
.74
.74
Interessenverlust
.50
.65
.59
.71
.59
.73
.67
.71
.72
Entschlussunfähigkeit
.61
.64
.62
.71
.68
.74
.57
.69
.70
Wertlosigkeit
-
-
.70
.78
.73
.83
.70
.73
.74
Energieverlust
-
-
.69
.83
.66
.85
.73
.79
.79
Schlafveränderungen
.47
.56
.49
.61
.54
.68
.45
.53
-
Schlafveränderungen -
-
-
-
-
-
-
-
-
.37
Schlafveränderungen +
-
-
-
-
-
-
-
-
.38
Reizbarkeit
.47
.75
.58
.72
.57
.72
.62
.71
.71
Appetitveränderungen
.30
.48
.36
.48
.36
.61
.35
.41
-
Appetitveränderungen -
-
-
-
-
-
-
-
-
.48
Appetitveränderungen +
-
-
-
-
-
-
-
-
.31
Konzentrationsschwierigkeiten
-
-
.62
.73
.61
.76
.62
.71
.72
Ermüdbarkeit
.61
.80
.64
.78
.65
.80
.64
.76
.76
Libidoverlust
.32
.38
.32
.37
.35
.42
.33
.35
.36
negatives Körperbild
.40
.60
-
-
-
-
-
-
-
Arbeitsunfähigkeit
.61
.73
-
-
-
-
-
-
-
Hypochondrie
.45
.57
-
-
-
-
-
-
-
BDI-V
BDI-II
BDI-II-V
BDI-II.1
BDI-II-V.1
BDI-II.2
BDI-II-V.2.Z
BDI-II-V.2
122
BDI
Ergebnisse
Gewichtsverlust
.07
-
-
-
-
-
-
-
-
M (rit)
.50
.66
.57
.69
.59
.73
.58
.66
.63
α
.89
.94
.92
.95
.92
.96
.92
.94
.94
Anmerkungen. N (BDI, BDI-V, BDI-II, BDI-II-V) = 325. N (BDI-II.1, BDI-II-V.1) = 169. N (BDI-II.2,
BDI-II-V.2.Z) = 165. N (BDI-II-V.2) = 163. rit = korrigierte Itemtrennschärfe. M (rit) = mittlere korrigierte Itemtrennschärfe. α = Cronbach’s α. Die niedrigste und höchste Itemtrennschärfe jedes Inventars ist
jeweils grau hinterlegt.
5.3 Weitere Ergebnisse zu psychometrischen Eigenschaften des
BDI-II-V
Der mittlere Summenwert des BDI-II-V beläuft sich auf 21.8 Punkte (SD = 18.1), der
Median liegt bei 17 Punkten, der Modalwert beträgt 9 Punkte. Das erste Quartil ist 9,
das zweite 17 und das dritte 32. Der minimale vorkommende Wert sind 0 Punkte; 13
Personen hatten angegeben, in den letzten zwei Wochen niemals unter einem der Symptome gelitten zu haben. Das Maximum liegt bei 81 Punkten. Die Summenwerte sind mit
einer Schiefe von 1.09 und einer Kurtosis von 0.57 rechtsschief und etwas spitzgipfelig
verteilt. Die in der positiven Schiefe zum Ausdruck kommende hohe Schwierigkeit ist
dem Umstand geschuldet, dass es sich um ein Depressionsinventar handelt, das in einer
aus überwiegend Gesunden bestehenden Bevölkerungsstichprobe zum Einsatz kam.
Abbildung 8 veranschaulicht die Schiefe der Verteilung sehr deutlich.
Ergebnisse
Abbildung 8
123
Häufigkeitsverteilung der Summenwerte des BDI-II-V
(N = 325)
Die Itemmittelwerte des BDI-II-V liegen zwischen 0.18 (Item Selbstmordgedanken)
und 1.75 (Item Ermüdbarkeit), der mittlere Itemmittelwert beträgt1.04 (SD 0.37). Bei
einem Wertebereich von 0 bis 5 lassen diese Ergebnisse auch eine deutliche Rechtsschiefe respektive eine hohe Schwierigkeit der Items erkennen, was erneut mit der
Stichprobenziehung zusammenhängt. Die mittlere Standardabweichung der Items beträgt 1.19, wobei abgesehen von den Items Selbstmordgedanken und Bestrafungsgefühle
alle Standardabweichungen über 1 liegen. Tabelle 9 gibt die Itemmittelwerte und ihre
Standardabweichungen für das BDI-II-V wieder. Zu Vergleichszwecken sind auch die
Ergebnisse in den Substichproben enthalten. Auf diese soll jedoch im Weiteren nicht
explizit eingegangen werden.
Ergebnisse
BDI-II-V.2.Z
Schlafveränderungen -
M
(SD)
1.12
(1.10)
0.85
(1.10)
0.72
(1.10)
0.99
(1.17)
0.80
(1.13)
0.44
(0.96)
0.90
(1.23)
1.22
(1.23)
0.18
(0.59)
0.90
(1.20)
1.39
(1.25)
0.90
(1.08)
1.23
(1.25)
0.59
(1.07)
1.30
(1.34)
1.54
(1.55)
-
M
(SD)
1.10
(1.13)
0.91
(1.15)
0.71
(1.10)
1.04
(1.22)
0.78
(1.18)
0.48
(0.97)
0.93
(1.31)
1.21
(1.25)
0.21
(0.67)
0.95
(1.27)
1.47
(1.35)
0.97
(1.18)
1.23
(1.26)
0.65
(1.16)
1.37
(1.40)
1.34
(1.55)
-
M
(SD)
1.15
(1.07)
0.80
(1.05)
0.72
(1.09)
0.93
(1.09)
0.85
(1.10)
0.42
(0.96)
0.87
(1.17)
1.25
(1.23)
0.15
(0.46)
0.87
(1.14)
1.32
(1.14)
0.87
(1.02)
1.25
(1.27)
0.55
(1.00)
1.24
(1.26)
1.75
(1.52)
-
Schlafveränderungen +
-
-
-
Item
Traurigkeit
Pessimismus
Versagensgefühle
Verlust von Freude
Schuldgefühle
Bestrafungsgefühle
Selbstablehnung
Selbstvorwürfe
Selbstmordgedanken
Weinen
Unruhe
Interessenverlust
Entschlussunfähigkeit
Wertlosigkeit
Energieverlust
Schlafveränderungen
BDI-II-V.2
BDI-II-V.1
Itemmittelwerte und Itemstandardabweichungen für das BDI-II-V, BDI-II-V.1,
BDI-II-V.2.Z und BDI-II-V.2
BDI-II-V
Tabelle 9
124
M
(SD)
1.15
(1.07)
0.80
(1.05)
0.72
(1.09)
0.93
(1.09)
0.85
(1.10)
0.42
(0.96)
0.87
(1.17)
1.25
(1.23)
0.15
(0.46)
0.87
(1.14)
1.32
(1.14)
0.87
(1.02)
1.25
(1.27)
0.55
(1.00)
1.24
(1.26)
1.04
(1.35)
1.02
(1.39)
BDI-II-V.2.Z
Appetitveränderungen -
1.30
(1.22)
1.13
(1.38)
-
1.33
(1.30)
0.83
(1.22)
-
1.30
(1.15)
1.47
(1.49)
-
Appetitveränderungen +
-
-
-
1.32
(1.18)
1.75
(1.42)
1.26
(1.38)
1.04
(0.37)
1.19
1.38
(1.30)
1.72
(1.44)
1.23
(1.44)
1.04
(0.36)
1.23
1.27
(1.08)
1.82
(1.41)
1.31
(1.35)
1.05
(0.41)
1.15
Reizbarkeit
Appetitveränderungen
Konzentrationsschwierigkeiten
Ermüdbarkeit
Libidoverlust
mittlerer Itemmittelwert
(SD)
mittlere Itemstandardabw.
BDI-II-V.2
BDI-II-V.1
125
BDI-II-V
Ergebnisse
1.30
(1.15)
0.47
(0.92)
1.29
(1.46)
1.27
(1.08)
1.82
(1.41)
1.31
(1.35)
0.99
(0.38)
1.14
Anmerkungen.
N (BDI-II-V) = 325.
N (BDI-II-V.1) = 169.
N (BDI-II-V.2.Z) = 165.
163 ≤ N (BDI-II-V.2) ≤ 165. M = mittlerer Itemwert. SD = Standardabweichung.
Um die faktorielle Struktur des neuen Instruments zu explorieren, wurden die Items des
BDI-II-V einer Hauptachsenanalyse (N = 339) unterzogen. Eine Parallelanalyse nach
Horn legte knapp die Extraktion eines Faktors nahe (anfänglicher Eigenwert des ersten
Faktors 11.32, zugehöriger zufälliger Eigenwert 1.74; anfänglicher Eigenwert des zweiten Faktors 1.49, zugehöriger zufälliger Eigenwert 1.58; zur Erzeugung des zufälligen
Eigenwerteverlaufs wurde eine von O’Connor (2000) bereitgestellte Syntax verwendet).
Das Kriterium der Eigenwerte größer 1 ist nur auf Hauptkomponentenanalysen anwendbar (Bühner, 2006), hätte aber die Extraktion zweier (hoch korrelierter, r = .76)
Faktoren ergeben. Der Screeplot (Abbildung 9) kann so interpretiert werden, dass es
einen ersten starken Faktor gibt, wobei ein zweiter kleiner Knick auch die Interpretation
erlaubt, dass zwei Faktoren extrahiert werden dürfen.
Ergebnisse
Abbildung 9
126
Screeplot der Faktoreigenwerte einer Hauptachsenanalyse der
Items des BDI-II-V
In Anbetracht des nicht vollständig eindeutigen Ergebnisses wurden beide Lösungen
(Extraktion eines und zweier Faktoren) durchgeführt. Wird eine Hauptachsenanalyse
gerechnet, in der ein Faktor extrahiert wird, erklärt dieser .51.8% der Varianz. Die Items
korrelieren zwischen .84 und .39 (im Durchschnitt .71) mit dem Faktor, so dass dieser
entsprechend zwischen 71% und 15% der Varianz eines Items erklärt (durchschnittlich
51.8%, s.o.).
Extrahiert man zwei Faktoren, können diese zusammen natürlich etwas mehr Varianz
aufklären (57.3%; erster Faktor 52.1%, zweiter Faktor 5.2%). Von der Varianz eines
Items werden durch beide Faktoren zwischen 78% und 20% erklärt (durchschnittlich
57.3%, s.o.). Die hohe Faktorinterkorrelation legte eine oblique Rotation nahe (es wurde
die Promax-Technik eingesetzt). Auf dem ersten Faktor laden die Items Traurigkeit,
Pessimismus, Versagensgefühle, Schuldgefühle, Bestrafungsgefühle, Selbstablehnung,
Selbstvorwürfe, Selbstmordgedanken, Weinen und Wertlosigkeit höher, so dass er
hauptsächlich kognitive, mit Traurigkeit und Weinen aber auch affektive Symptome
enthält (vgl. Hautzinger et al., 2006). Auf dem zweiten Faktor weisen die Items Verlust
Ergebnisse
von
127
Freude,
Unruhe,
Interessenverlust,
Entschlussunfähigkeit,
Energieverlust,
Schlafveränderungen, Reizbarkeit, Appetitveränderungen, Konzentrationsschwierigkeiten, Ermüdbarkeit und Libidoverlust den höheren Ladungsbetrag auf, so dass er somatische, aber auch weitere affektive Aspekte abbildet (vgl. Hautzinger et al., 2006). Eine
perfekte Einfachstruktur mit durchgängig hohen Haupt- und geringen Nebenladungen
lässt sich jedoch nicht erzielen. Tabelle 10 gibt die Mustermatrix (partielle standardisierte Regressionsgewichte der Items mit den beiden Faktoren) wieder.
Tabelle 10
Partielle standardisierte Regressionsgewichte der Items des
BDI-II-V mit den beiden extrahierten Faktoren einer Hauptachsenanalyse nach Promax-Rotation.
Item
Traurigkeit
Faktor 1
.55
Faktor 2
.27
Pessimismus
.52
.33
Versagensgefühle
.99
-.14
.32
.49
Schuldgefühle
.87
-.11
Bestrafungsgefühle
.61
.10
Selbstablehnung
.92
-.07
Selbstvorwürfe
.87
-.06
Selbstmordgedanken
.34
.14
Weinen
.48
.29
.18
.67
Unruhe
.05
.74
Interessenverlust
.22
.57
Entschlussunfähigkeit
.78
.10
.23
.67
Energieverlust
-.23
.88
Schlafveränderungen
.21
.57
Reizbarkeit
.09
.42
Appetitveränderungen
.05
.76
.04
.81
Konzentrationsschwierigkeiten
Ermüdbarkeit
-.11
.53
Libidoverlust
Wertlosigkeit
Item
Verlust von Freude
↓
↓
kognitiv/affektiv
somatisch/affektiv
Anmerkungen. N = 339.
Ergebnisse
128
Es lässt sich erkennen, dass etwa die Hälfte der Items eindeutig einem Faktor zugeordnet werden kann, während die andere Hälfte der Items kein zufriedenstellendes Verhältnis von Haupt- zu Nebenladung aufweist.
5.4 Ergebnisse zur Konstruktvalidität des BDI-II-V (Hypothese II)
Um Hinweise auf die Konstruktvalidität des BDI-II-V zu erhalten, sollen die Korrelationen nach Pearson zwischen dem Summenwert des Inventars und den Skalen des NEOFünf-Faktoren Inventars (Borkenau & Ostendorf, 2008) mit den Erwartungen verglichen werden. Die Koeffizienten sind in Tabelle 11 (rechte äußere Spalte; alle anderen
Spalten werden in Abschnitt 5.7 besprochen) abgetragen. Mit der Skala Neurotizismus
korreliert das BDI-II-V erwartungsgemäß hoch positiv (r = .79, p = .00). Der Zusammenhang mit der Skala Extraversion beträgt -.50 (p = .00), was den Erwartungen
(-.3 ≤ ϱ ≤ -.4) sehr nahe kommt. Überraschend negativ fällt die Korrelation mit Offenheit für Erfahrung aus. Erwartet wurde ein schwach positiver Zusammenhang. Jedoch
wird der Koeffizient trotz der großen Stichprobe nur marginal signifikant (r = -.11, p
= .052). Wie erwartet besteht mit Verträglichkeit eine mäßig negative Assoziation
(r = -.25, p = .00). Der Zusammenhang zwischen dem BDI-II-V und Gewissenhaftigkeit
fällt mit -.41. (p = .00) im Betrag ein wenig höher aus als erwartet (-.1 ≤ ϱ ≤ -.3), die
Richtung des Zusammenhanges stimmt jedoch mit den Erwartungen überein.
Tabelle 11
Produkt-Moment-Korrelationen verschiedener BDI-Formen mit
den Skalen des NEO-FFI
BDI
**
BDI-V
**
BDI-II
**
BDI-II-V
Neurotizismus
.75
.78
.77
.79**
Extraversion
-.53**
-.51**
-.55**
-.50**
Offenheit
-.16**
-.12*
-.14*
-.11
Verträglichkeit
-.33**
-.29**
-.31**
-.25**
Gewissenhaftigkeit
-.36**
-.39**
-.37**
-.41**
Anmerkungen. N = 323. ** signifikant auf dem Niveau von 0.01 (zweiseitig). *
signifikant auf dem Niveau von 0.05 (zweiseitig).
Ergebnisse
129
5.5 Ergebnisse zur Entsprechung von BDI-II-V und BDI-II (Hypothese III)
Es werden zunächst die Ergebnisse zur Konvergenz von BDI-II-V und BDI-II auf deskriptiver Ebene (Hypothesen III.a.1 bis III.a.5) dargestellt und im Anschluss die Resultate der Durchführung konfirmatorischer Faktorenanalysen (Hypothese III.b) präsentiert.
Ergebnisse zur Korrelation auf Item- und Summenwertebene (Hypothese III.a.1). Die
Summenwerte von BDI-II und BDI-II-V korrelieren in Höhe von .86 (p = .00) und erreichen damit die Erwartungen.
Die durchschnittliche Korrelation zwischen einem Item des Originals und dem entsprechenden Item in der verkürzten Version beträgt .65, was ebenfalls den Erwartungen
entspricht. Die einzelnen Koeffizienten liegen im Bereich zwischen .51 (Item Appetitveränderungen) und .76 (Item Selbstmordgedanken; alle p = .00).
Tabelle 12 listet die Korrelationen auf der Ebene der Items und auf der Ebene der
Summenwerte zwischen Original und Verkürzung in der Gesamtstichprobe sowie in
den Teilstichproben 1 und 2 auf. Auf die Ergebnisse in den Teilstichproben wird im
weiteren Verlauf der Analysen Bezug genommen.
Ergebnisse zum Vergleich der Summenwerte (Hypothese III.a.2). Der mittlere Summenwert des BDI-II liegt bei 9.0 Punkten (SD = 8.0), im BDI-II-V erreichen die Probanden durchschnittlich einen Wert von 21.8 Punkten (SD = 18.1; s.o.). Diese Werte
sind nicht direkt vergleichbar, da die beiden Inventare unterschiedlich skaliert sind (vgl.
Abschnitt 4.7.3 zur Reskalierung der verkürzten BDIs). Der mittlere Summenscore des
reskalierten BDI-II-V beträgt 13.1 Punkte (SD = 10.8). Vergleicht man die durchschnittlichen Werte der Probanden im BDI-II mit denen im BDI-II-V.R mittels t-Test, ergibt
sich entgegen der Vorhersage ein signifikanter Unterschied (t (324) = -6.87, p = .00).
(Tabelle 18 in Anhang C stellt zur Übersicht die mittleren Summenwerte aller Inventare
zusammen.)
Ergebnisse
Tabelle 12
130
Korrelation zwischen BDI-II und BDI-II-V, zwischen BDI-II.1 und BDI-II-V.1 sowie
zwischen BDI-II.2 und BDI-II-V.2/.Z auf der Ebene der Items und der Summenwerte
r(BDI-II,BDI-II-V)
.70
r(BDI-II.1,BDI-II-V.1)
.75
r(BDI-II.2,BDI-II-V.2/.Z)
.67
Pessimismus
.70
.69
.74
Versagensgefühle
.64
.58
.70
Verlust von Freude
.60
.66
.52
Schuldgefühle
.65
.70
.60
Bestrafungsgefühle
.70
.59
.78
Selbstablehnung
.65
.64
.66
Selbstvorwürfe
.55
.60
.50
Selbstmordgedanken
.76
.75
.78
Weinen
.62
.59
.65
Unruhe
.60
.65
.52
Interessenverlust
.53
.55
.56
Entschlussunfähigkeit
.65
.71
.60
Wertlosigkeit
.74
.81
.65
Energieverlust
.64
.65
.63
Schlafveränderungen
SchlafveränderungenSchlafveränderungen+
Reizbarkeit
.56
.62
.64
.68
.49
.47
.22
.59
Appetitveränderungen
AppetitveränderungenAppetitveränderungen+
Konzentrationsschwierigkeiten
.51
.66
.75
.76
.41
.40
.24
.72
Ermüdbarkeit
.66
.69
.63
Libidoverlust
.74
.76
.76
M (r) auf Itemebene
.65
.67
.64
r auf Summenwertebene
.86
.87
.84♠
.83♣
Traurigkeit
Anmerkungen. ♠ BDI-II-V.2.Z. ♣ BDI-II-V.2. N r(BDI-II, BDI-II-V) = 325. N r(BDI-II.1, BDI-II-V.1) = 169. 163 ≤ N
r(BDI-II.2, BDI-II-V.2./Z) ≤ 165. Alle Koeffizienten sind signifikant auf dem Niveau von 0.01 (zweiseitig). Die
niedrigste und höchste Korrelation auf Itemebene ist für jedes Inventar grau hinterlegt (ausgenommen die
Koeffizienten der Items zu Schlafabnahme und –zunahme respektive Appetitabnahme und –zunahme des
BDI-II-V.2). r = Pearsons Produkt-Moment-Korrelation. M (r)= mittlere Korrelation.
Ergebnisse zum Vergleich der internen Konsistenzen (Hypothese III.a.3). Den Erwartungen entsprechend besitzt das BDI-II-V keine geringere interne Konsistenz als das
BDI-II (α = .95 für ersteres bzw. 92 für letzteres; siehe Tabelle 8).
Ergebnisse
131
Ergebnisse zum Vergleich der Trennschärfen (Hypothese III.a.4). Bis auf ein Item
(Selbstmordgedanken; vgl. Tabelle 8) liegen die part-whole-korrigierten Trennschärfen
der Items des BDI-II-V wie vorhergesagt jeweils über denen der entsprechenden Items
des BDI-II.
Um zu untersuchen, ob die Items in beiden Inventaren den gleichen relativen Bezug
zum Summenwert aufweisen, wurden Spearman-Rangkorrelationen zwischen den
Trennschärfen berechnet. Das Ergebnis belegt mit einem Koeffizienten von .86
(p = .00), dass die Trennschärfeprofile von BDI-II-V und BDI-II eine hohe Ähnlichkeit
aufweisen und bestätigt so die Erwartungen (ϱp ≥ .5) sehr deutlich.
Ergebnisse zum Vergleich der Zusammenhänge mit anderen Variablen (Hypothese
III.a.5) Tabelle 11 lässt gut erkennen, dass BDI-II-V und BDI-II wie vorhergesagt ähnlich hoch mit den Persönlichkeitseigenschaften Neurotizismus, Extraversion, Offenheit
für Erfahrung, Verträglichkeit und Gewissenhaftigkeit korrelieren. Die Differenzen sind
sehr gering und schwanken zwischen .02 Punkten für Neurotizismus und .06 Punkten
für Gewissenhaftigkeit.
Ergebnisse zur inferenzstatistischen Überprüfung der Messäquivalenz von BDI-II-V und
BDI-II (Hypothese III.b)24. Bei der Überprüfung, ob ein Modell essentiell τ-paralleler
Variablen die Zusammenhänge zwischen dem BDI-II und dem BDI-II-V beschreiben
kann (siehe Abbildung 2 in Abschnitt 4.3.1.1), zeigen die Modellgüteindizes keinen
zufriedenstellenden Fit an (Mittelwerte, Standardabweichungen, Schiefe und Kurtosis
der als Indikatoren dienenden Summenwerte finden sich in Tabelle 21 A in Anhang C).
Der Unterschied zwischen der modellimplizierten und der empirisch gefundenen Varianz-Kovarianz-Matrix wird hochsignifikant (χ2 (1) = 70.42, p = .00), RMSEA und
SRMR liegen mit .46 beziehungsweise .19 deutlich über den akzeptablen Grenzwerten
(≤.10 bzw. ≤.08); ebenso unterschreiten CFI und TLI (jeweils .78) den gewünschten
Wert (≥.95). Für alle Parameter (Ladungsparameter sowie Fehlervarianzen) weisen auch
hohe Modifikationsindizes auf die inakzeptable Modellspezifikation hin. Abbildung 10
gibt zur Orientierung dennoch die errechneten vollständig standardisierten Modellparameter wieder, die alle signifikant werden (p = .00).
24
Die in diesem Abschnitt berichteten Analysen beruhen auf einem Stichprobenumfang von N = 334.
Ergebnisse
132
Depressivität
η1
1.00
λ11
.91
=
BDI-II
y1
BDI-II-V
y2
ε1
.18
Abbildung 10
λ21
.91
=
ε2
.18
Vollständig standardisierte
Modellparameter für das
Modell
essentiell
τparalleler Variablen des
BDI-II und BDI-II-V. Der
Modellfit ist nicht zufriedenstellend.
Um die deutliche Rechtsschiefe der Indikatorvariablen zu reduzieren, wurde die Analyse unter Verwendung logarithmierter Summenwerte wiederholt (sowohl für reskalierte,
als auch für nicht-reskalierten Summenwert des BDI-II-V). Die logarithmische Transformation der Summenwerte verringerte tatsächlich den Betrag ihrer Schiefe und Kurtosis (siehe Tabelle 21 B in Anhang C). Allerdings indizierten sowohl KolmogorovSmirnov-Test als auch Shapiro-Wilk-Test wie schon für die Rohsummenwerte auch für
die transformierten Werte weiterhin signifikante Abweichungen von einer Normalverteilung (p = .00).
Werden logarithmierte (jedoch nicht reskalierte) Summenwerte eingesetzt, kann ein
perfekter Modellfit erzielt werden (χ2 (1) = 0.001, p = .98; RMSEA und SRMR = .00,
CFI und TLT = 1.00). Der Fit bei logarithmierten und (für das BDI-II-V) reskalierten
Indikatoren ist nur teilweise zufriedenstellend (χ2 (1) = 8.48, p = .004; RMSEA = .15;
jedoch: SRMR = .06, CFI und TLI = .98).
Der perfekte Fit eines Modells essentiell τ-paralleler Variablen bei logarithmierten
Summenscores könnte ein Hinweis sein auf mögliche Ursachen für die schlechte Passung des postulierten Modells bei den nicht transformierten Daten. Allerdings ist damit
Ergebnisse
133
nicht die Frage nach der Stufe der Äquivalenz von BDI-II und BDI-II-V beantwortet.
Um dieser weiter nachzugehen, wurde explorativ überprüft, ob die Annahme einer perfekten latenten Korrelation zwischen BDI-II und BDI-II-V haltbar ist, wenn diese jeweils als ein Faktor modelliert werden (siehe Abbildung 3 in Abschnitt 4.3.1.2)25. Wie
bereits behandelt (Abschnitt 4.7.5), unterscheiden sich die Resultate für ein solches
Modell in Abhängigkeit von der Verteilung der Items auf die als Indikatoren dienenden
Testhälften. Die letztendlich verwendeten Itempäckchen, die Mittelwerte, Standardabweichungen, Schiefe und Kurtosis dieser Summenwerte sowie die manifesten InterIndikator-Korrelationen können den Tabellen 19, 21 C und 22 in Anhang C entnommen
werden.
Die Fitstatistiken ergeben ein gemischtes Bild. Der strenge Maßstab des χ2 –Tests wird
nicht erfüllt (χ2 (2) = 23.33, p = .00), ebenso liegt der RMSEA (.18) eindeutig jenseits
der akzeptablen Grenze (≤.10). Der SRMR dagegen bleibt mit .03 unter dem Cutoff
(≤.08), ebenso fallen CFI (.98) und TLI (.93) erfreulich hoch aus, wenn auch der TLI
minimal hinter dem eigentlichen Ziel von ≥.95 zurückbleibt.
Erwartungsgemäß lässt sich der Fit verbessern, wenn die Festlegung der Faktorinterkorrelation auf 1 gelockert wird. Alle Güteindizes zeigen dann perfekten Fit an
(χ2 (1) = 0.00, p = .98; RMSEA und SRMR = .00, CFI = 1.00, TLI = 1.01). Der Unterschied im Fit ist signifikant (χ2s (1) = 18.76, p < .01). Der RMSEA beträgt auch bei
Verwendung des ML-Schätzers, der keine begünstigende Anpassung für die Verteilungseigenschaften der Daten vornimmt und zudem Vertrauensintervall und Close FitStatistik für den Index ausgibt, .00; das 90%-Konfidenzintervall für den RMSEA liegt
„zwischen“ .00 und .00, die Wahrscheinlichkeit, dass der RMSEA kleiner oder gleich
.05 ist (Close Fit), beläuft sich auf .98. Auch im Falle der Schätzung mit ML fällt der χ2Test vollkommen zufriedenstellend aus (χ2 (1) = 0.00, p = .97).
25
Genau genommen wurde die Korrelation zwischen η1 und η2 in der Programmsyntax von Mplus
(Muthén und Muthén, 1998 – 2010) nicht, wie in Abschnitt 4.3.1.2 beschrieben, auf 1.0, sondern auf
0.9999 festgesetzt, um die Warnmeldung des Programms zu unterdrücken, die auf eine nicht positiv definite Kovarianzmatrix der latenten Variablen in Folge der Korrelation von 1.0 hinwies. Der Unterschied in
den ausgegebenen Güteindizes zwischen einer Syntax, welche die Korrelation auf 1.0 fixierte, und einer
Syntax, welche die Korrelation auf 0.9999 setzte, betraf ausschließlich die zweite und dritte Nachkommastelle des χ2-Wertes (p-Wert und alle anderen Güteindizes blieben unberührt) und war demnach zu
vernachlässigen. Die Unterschiede in den vollständig standardisierten sowie unstandardisierten Parameterschätzern waren mit einem Unterschied von maximal 0.01 Punkten ebenso irrelevant. Die Korrelation
wird in der Ausgabe in jedem Fall auf 1.000 gerundet angegeben.
Ergebnisse
134
Die Modifikationsindizes bilden die Differenzen im Fit der beiden Modelle mit und
ohne Fixierung der Faktorinterkorrelation auf 1.0 entsprechend ab. So legen sie für das
Modell mit fixierter latenter Korrelation eine Aufhebung derselben sowie Fehlerkorrelationen jeweils zwischen den beiden Parcels sowohl des BDI-II als auch des BDI-II-V
nahe, betragen aber 0.00 im Modell mit frei geschätzter latenter Korrelation. Abbildung
11 veranschaulicht die geschätzten, vollständig standardisierten Modellparameter für
beide Modelle. Alle Parameter werden signifikant (p = .00). Mit einem Wert von .92
liegt die messfehlerbereinigte Korrelation zwischen BDI-II und BDI-II-V dennoch sehr
hoch, wenn sie auch nicht perfekt ist.
Ψ12
1.00
0.92
BDI-II
η1
1.00
1.00
λ11
.85
.90
BDI-II-V
η2
1.00
1.00
λ21
.82
.87
λ32
.96
.96
λ42
.97
.97
BDI-II: Parcel 1
y1
BDI-II: Parcel 2
y2
BDI-II-V: Parcel 1
y3
BDI-II-V: Parcel 2
y4
ε1
.29
.19
ε2
.33
.24
ε3
.08
.07
ε4
.06
.06
Abbildung 11
Vollständig standardisierte Modellparameter für die Modelle mit fixierter perfekter
Korrelation (obere Werte) und mit frei geschätzter Korrelation (untere Werte) zwischen den latenten Variablen des BDI-II und BDI-II-V. Das Modell mit fixierter Korrelation weist keinen vollständig zufriedenstellenden Fit auf. Das Modell mit frei geschätzter Korrelation fittet perfekt.
Ergebnisse
135
5.6 Ergebnisse zum Vergleich von BDI-II-V.1 und BDI-II-V.2 (Hypothese IV)
In diesem Abschnitt sollen die Hypothesen überprüft werden, die sich auf die Fragestellung beziehen, welche der beiden Subformen des BDI-II-V näher an das Original herankommt. Bevor die statistischen Ergebnisse dazu dargelegt werden, werden die zwei
Teilstichproben, in denen die beiden Inventare BDI-II-V.1 und BDI-II-V.2 zum Einsatz
kamen, auf Unterschiede in der Depressivität untersucht, um diese gegebenenfalls bei
der Interpretation der Ergebnisse der Hypothesenprüfung berücksichtigen zu können.
5.6.1 Überprüfung der Voraussetzungen
Voraussetzung für die vorgesehenen Vergleiche ist die Vergleichbarkeit der Substichproben. Hinsichtlich soziodemographischer Charakteristika wurde diese weitestgehend
belegt (Abschnitt 5.1.4.2). Ob sich auch das durchschnittliche Niveau der Depressivität
in beiden Substichproben entspricht, ist nicht mit letzter Sicherheit zu sagen. Der durchschnittliche Summenwert des BDI-II liegt in der Stichprobe mit BDI-II-V.1 bei 9.9
Punkten (SD = 8.7), in der Stichprobe mit BDI-II-V.2 bei 8.3 Punkten (SD = 7.7). Der tTest für unabhängige Stichproben wird – nach üblichen Maßstäben – gerade nicht mehr
signifikant (t (328.955) = 1.76, p = .08); bei einem angestrebten p-Wert ≥ .2 müsste man
jedoch von überzufälligen Unterschieden in der Depressivität sprechen, wenn auch eingewandt werden darf, dass aufgrund der recht großen Stichprobe auch ein wenig bedeutsamer Unterschied Signifikanz erlangt haben könnte. Der Test auf Varianzhomogenität fällt negativ aus (F (1; 332) = 4.65; p = .03) (weswegen die korrigierte Statistik zu
interpretieren war). Dagegen weisen die Resultate des BDI-II-V nicht auf unterschiedliche Depressivität beider Stichproben hin. Der durchschnittliche Summenwert des
BDI-II-V.1 beläuft sich auf 21.8 Punkte (SD = 19.6), jener des BDI-II-V.2.Z auf 22.1
Punkte (SD = 16.8), der t-Test ist klar nicht signifikant (t (326.594) = -.15, p = .88),
allerdings muss auch hier von nicht homogenen Varianzen ausgegangen werden
(F (1; 332) = 5.21, p = .02). Die Summenwerte des BDI-II-V.1 und des BDI-II-V.2.Z
können aufgrund des unterschiedlichen Wertebereiches nicht verglichen werden.
Da es sich beim BDI-II um das etablierte Inventar handelt, wohingegen sich beide Formen des BDI-II-V in den gegenwärtigen Analysen erst bewähren müssen, ist dem
BDI-II in der vorliegenden Frage etwas mehr Gewicht zu geben. Dies bedeutet, dass bei
Ergebnisse
136
den folgenden Auswertungen zu bedenken ist, dass der Vergleich von BDI-II-V.1 und
BDI-II-V.2 im Hinblick auf ihre Ähnlichkeit zum BDI-II auf der Basis nicht vollständig
identischer Bedingungen stattfindet, was die Verteilung depressiver Merkmale anbetrifft. Gleichwohl kann davon ausgegangen werden, dass es sich nur um sehr geringe
Unterschiede handelt.
5.6.2 Ergebnisse der Analysen
Den Resultaten zur Konvergenz von BDI-II und BDI-II-V.1, BDI-II-V.2 sowie
BDI-II-V.2.Z auf deskriptiver Ebene (Hypothesen IV.a.1 bis IV.a.3) folgen die Ergebnisse der konfirmatorischen Faktorenanalysen (Hypothese IV.b).
Ergebnisse zur Korrelation auf Item- und Summenwertebene (Hypothese IV.a.1). Die
Annahme, dass der Summenwert des BDI-II höher mit dem Summenwert des BDI-II-V
zusammenhängt in der Teilstichprobe von Probanden, die das BDI-II-V.2 vorgelegt
bekamen, als in der Teilstichprobe, in der das BDI-II-V.1 ausgefüllt wurde, bestätigt
sich nicht. Die Korrelation fällt umgekehrt mit .87 (p = .00) etwas höher aus zwischen
BDI-II.1 und BDI-II-V.1 als zwischen BDI-II.2 und BDI-II-V.2 beziehungsweise
BDI-II.2 und BDI-II-V.2.Z (r = .83 bzw. .84, p = .00; vgl. Tabelle 12), wobei die Differenzen minimal sind und nicht auf Signifikanz überprüft wurden, so dass sie für sich
genommen nicht interpretiert werden dürfen.
Der äußerst geringe Unterschied der Korrelation mit dem Original zwischen beiden
Teilstichproben überrascht nicht in Anbetracht der Tatsache, dass 19 von 23 Items der
beiden Fragebögen BDI-II-V.1 und BDI-II-V.2 respektive 19 von 21 Items der beiden
Fragebögen BDI-II-V.1 und BDI-II-V.2.Z identisch sind. Interessanter ist also der Vergleich der Korrelationen auf Ebene jener Items, welche sich zwischen den Fragebögen
unterscheiden. Es sind dies die Items zu Veränderungen des Schlafs und des Appetits.
Die Resultate (in Tabelle 12 durch Einrahmung hervorgehoben) fallen eindeutiger aus
als für die Korrelation auf Ebene der Summenwerte. Es ergibt sich – ebenfalls hypothesenkonträr –, dass das Item des BDI-II, das nach Veränderungen des Schlafs fragt, zu
.62 (p = .00) mit dem Item zu Schlafveränderungen des BDI-II-V.1 korreliert, jedoch
nur zu .49 (p = .00) mit dem zusammengefassten Schlaf-Item des BDI-II-V.2.Z. Die
Korrelation mit dem Item des BDI-II-V.2, das eine Verringerung des Schlafes abfragt,
liegt bei .47 (p = .00), die Korrelation mit dem Item des BDI-II-V.2, das eine Zunahme
Ergebnisse
137
des Schlafes abfragt, bei nur .22 (p = .004). Auch beim Abbild der Veränderungen des
Appetits scheint das BDI-II-V.1 entgegen den Erwartungen das entsprechende Item des
BDI-II-V besser widerzuspiegeln als das BDI-II-V.2 respektive das BDI-II-V.2.Z, wobei die Differenzen noch höher ausfallen als bei den Items zum Schlaf: Die entsprechenden Korrelationen liegen bei .66 (BDI-II.1, BDI-II-V.1; p = .00) und .41 (BDI-II.2,
BDI-II-V.2.Z; p = .00; für das Item zur Verringerung des Appetits des BDI-II-V.2
bei .40 (p = .00), für das Item zur Zunahme des Appetits des BDI-II-V.2 bei .24
(p = .002)). Die Korrelationen zwischen den Items zu Schlaf und Appetit sind mit .49
respektive .41 die niedrigsten Korrelationen überhaupt zwischen den Items des BDI-II.2
und den Items des BDI-II-V.2.Z und liegen noch unter der niedrigsten Korrelation, die
sich zwischen den Items des BDI-II.1 und den Items des BDI-II-V.1 ergibt (r = .55 für
die Items zum Interessenverlust, vgl. Tabelle 12).
Ohne dass eine Hypothese dazu formuliert worden wäre, fiel des Weiteren auf, dass die
mittlere Inter-Item-Korrelation für das BDI-II-V.1 mit .55 (SD = 0.13) höher ausfiel als
für das BDI-II-V.2.Z, dessen Items im Durchschnitt zu .46 (SD = 0.15) miteinander
korrelierten respektive als für das BDI-II-V.2, in dem sich der mittlere Zusammenhang
zwischen den Items auf .42 (SD = .17) belief.
Ergebnisse zum Vergleich der Summenwerte (Hypothese IV.a.2). Zunächst ist erneut zu
beachten, dass die Summenwerte zwischen Original und Verkürzung erst nach der Reskalierung der verkürzten Version direkt verglichen werden können. Außerdem erübrigt
sich ein Vergleich zwischen dem BDI-II und dem BDI-II-V.2, da letzterer aufgrund
einer höheren Zahl an Items schon natürlich einen höheren Summenwert haben muss
(es kann also nur das BDI-II-V.2.Z berücksichtigt werden). Stellt man die mittleren
Summenwerte von BDI-II.1 und BDI-II-V.1.R einander gegenüber, ergibt sich eine
mittlere Differenz von -3.17, die im t-Test signifikant wird (t (168) = -6.93, p = .00).
Die mittlere Differenz der Summenwerte von BDI-II.2 und BDI-II-V.2.R fällt mit -4.94
höher aus (t (164) = -11.40, p = .00). Dies widerspricht der Vorannahme, dass die Ähnlichkeit auf Ebene der Summenwerte zwischen dem BDI-II und dem BDI-II-V.2 höher
sein würde als zwischen dem BDI-II und dem BDI-II-V.1. (Tabelle 18 in Anhang C gibt
alle mittleren Summenwerte wieder.)
Ergebnisse zum Vergleich der Trennschärfen (Hypothese IV.a.3). Die Beziehungen, die
die einzelnen Items zum Summenwert aller anderen Items aufweisen, sollten sich zwi-
Ergebnisse
138
schen BDI-II und BDI-II-V.2.Z besser entsprechen als zwischen BDI-II und BDI-II-V.1
(erneut ist ein direkter Vergleich zwischen BDI-II und BDI-II-V.2 aufgrund der unterschiedlichen Anzahl von Items nicht sinnvoll). Überraschend ergibt sich ein umgekehrtes Bild: Die Spearman-Rangkorrelationen der Trennschärfen fällt für die Items des
BDI-II und des BDI-II-V.2.Z mit .80 (p = .00) niedriger aus als für die Items des BDI-II
und des BDI-II-V.1 mit .89 (p = .00).
Es erstaunt allerdings der Befund, dass die Itemtrennschärfen der Items des
BDI-II-V.2.Z durchgängig unter denen des BDI-II-V.1 liegen, und zwar im Durchschnitt um 0.07 Punkte (vgl. Tabelle 8). Die niedrigeren Trennschärfen gelten zwar in
besonderem Maße für die Items zu Schlaf (.20 Punkte Unterschied) und Appetit (.15
Punkte Unterschied); doch auch, wenn man nur die Differenzen im Betrag der Trennschärfen der anderen 19 Items, die zwischen den Fragebögen identisch sind, berücksichtigt, ergibt sich noch immer eine mittlere Differenz von -0.06 Punkten (zwischen -0.01
z. B. für das Item Reizbarkeit und -0.19 für das Item Verlust von Freude). Auch zwischen BDI-II.1 und BDI-II.2 unterscheiden sich naturgemäß die Trennschärfen der
identischen Items (um durchschnittlich 0.04 Punkte) – allerdings in unterschiedlichen
Richtungen für verschiedene Items, so dass sich nahezu identische durchschnittliche
Itemtrennschärfen des BDI-II in den Teilstichproben ergeben. Es verwundern also nicht
so sehr die betraglichen Differenzen zwischen BDI-II-V.1 und BDI-II-V.2.Z an sich,
sondern dass sie alle in gleicher Richtung ausfallen, so dass im BDI-II-V.2.Z eine um
0.07 Punkte niedrigere durchschnittliche Itemtrennschärfe resultiert als im BDI-II-V.1,
obwohl beide Fragebögen bis auf die Items zu Schlaf und Appetit identisch sind. Es ist
zumindest fraglich, ob die niedrigeren Itemtrennschärfen lediglich daraus resultieren,
dass sich die Formulierung dieser Items zu Schlaf und Appetit so ungünstig auf den
Gesamtsummenwert ausgewirkt haben könnte, dass daraus durchgängig niedrigere Zusammenhänge aller anderen Items mit diesem Gesamtsummenwert resultieren. Es ist
nicht auszuschließen, dass die Befunde lediglich auf zufällige Unterschiede im Antwortverhalten der Probanden der beiden Stichproben hindeuten. Somit scheint offen,
wie bedeutsam vor diesem Hintergrund die Unterschiede in den Rangkorrelationen der
Itemtrennschärfen sind.
Ergebnisse zum Vergleich der Messäquivalenz von BDI-II-V.1 und BDI-II mit der
Messäquivalenz von BDI-II-V.2 und BDI-II mittels konfirmatorischer Faktorenanalysen
(Hypothese IV.b). Die essentielle τ-Parallelität der Fragebögen BDI-II und BDI-II-V
Ergebnisse
139
hatte sich in der Gesamtstichprobe nicht nachweisen lassen. Die Wahrscheinlichkeit war
hoch, dass dies für beide Formen des BDI-II-V galt und nicht nur aus der mangelnden
Übereinstimmung zwischen einer der beiden Formen und dem Original resultierte. Ein
Modell essentiell τ-paralleler Variablen passt tatsächlich in keiner der beiden Substichproben, sofern die Ausgangsdaten nicht logarithmiert werden. Da fraglich ist, welche
Schlüsse aus einem Vergleich des Modellfits gezogen werden können, wenn die Daten
in ihrer Verteilung so wesentlich verändert wurden, wie dies durch eine logarithmische
Transformation der Fall ist, soll nicht weiter auf die Resultate eingegangen werden.
Die folgenden Ausführungen widmen sich daher direkt den exploratorischen Modellen
zur Überprüfung, ob die Fragebögen in einer der Substichproben nach Maßgabe einer
perfekten latenten Korrelation als identisch angesehen werden können (siehe Abbildung
3 in Abschnitt 4.3.1.2). Vorgestellt werden der Modellfit in der Teilstichprobe, die das
BDI-II-V.1 ausfüllte (N = 169) sowie der Modellfit in der Teilstichprobe, die das
BDI-II-V.2 ausfüllte; dabei wird in dieser zweiten Teilstichprobe der Modellfit zum
einen für die Auswertungsvariante BDI-II-V.2 (N = 163) und zum anderen für die Auswertungsvariante BDI-II-V.2.Z (N = 165) berichtet.
Die Zusammensetzung der als Indikatoren eingesetzten Testhälften ist in Tabelle 19 in
Anhang C dargestellt; die Mittelwerte, Standardabweichungen, Schiefe und Kurtosis der
einzelnen Indikatoren und ihre Interkorrelationen finden sich in den Tabellen 23 bis 28
desselben Anhangs. In allen drei Modellen (BDI-II-V.1, BDI-II-V.2 und BDI-II-V.2.Z)
verteilen sich die Items identisch auf die Testhälften des BDI-II; ebenso sind Parcel 1
und 2 der verkürzten Versionen zwischen den Modellen jeweils nicht unterschiedlich
zusammengesetzt, abgesehen davon, dass das Parcel 2 des BDI-II-V.2 unumgänglich
statt einem Item zum Schlaf und einem Item zum Appetit je zwei Items zu Schlaf und
Appetit enthält. Die manifesten Korrelationen der Testhälften des BDI-II fallen in allen
drei Modellen identisch aus, die manifesten Korrelationen der Testhälften des BDI-II-V
liegen für das BDI-II-V.1 etwas über den Zusammenhängen im BDI-II-V.2(.Z). Mit
Koeffizienten zwischen .80 und.84 bewegen sich die manifesten Korrelationen zwischen den Parcels des BDI-II.1 und den Parcels des BDI-II-V.1 etwas über den Werten,
die sich für die Zusammenhänge zwischen den Testhälften des BDI-II.2 und den Testhälften des BDI-II-V.2(.Z) ergeben (.76 – .78 und .76 – .79).
Ergebnisse
140
Wird die latente Korrelation zwischen BDI-II und BDI-II-V auf 1 festgesetzt26, muss
das Modell in jeder Stichprobe nach Maßgabe des χ2-Tests verworfen werden. Weder
BDI-II.2 und BDI-II-V.2 oder BDI-II-V.2.Z (χ2 (2) = 17.09, p = .00 bzw. χ2 (2) = 16.77,
p = .00), noch BDI-II.1 und BDI-II-V.1 (χ2 (2) = 7.43, p = .024) dürfen nach diesem
strengen Kriterium als identisch angesehen werden. Eine sehr schwache Tendenz lässt
sich in der Stichprobe mit BDI-II-V.1 jedoch erkennen, der p-Wert tendiert in Richtung
der in großen Stichproben zu überschreitenden kritischen Grenze von .05. Allerdings ist
ein Stichprobenumfang von N = 169 als kleine Stichprobe zu betrachten, in der ein pWert von mindestens .20 zu verlangen ist, bevor von einem fittenden Modell gesprochen werden darf. Der RMSEA fällt in keiner der Stichproben zufriedenstellend aus,
nimmt aber den kleinsten Wert bei der Überprüfung des Modells in der Stichprobe mit
BDI-II-V.1 an (RMSEA = .13). Der SRMR jedoch weist in allen Stichproben einen
guten Fit aus, liegt er doch für die Überprüfung der Messäquivalenz von BDI-II.2 und
BDI-II-V.2 bei .03, für die Überprüfung der Messäquivalenz von BDI-II.2 und
BDI-II-V.2.Z ebenfalls bei .03 und für die Überprüfung der Messäquivalenz von
BDI-II.1 und BDI-II-V.1 bei .02. Auch der CFI zeigt grundsätzlich einen guten Fit an
(BDI-II.2 und BDI-II-V.2 sowie BDI-II.2 und BDI-II-V.2.Z je .96; BDI-II.1 und
BDI-II-V.1 .99). Der TLI fällt nur in der Stichprobe mit BDI-II-V.1 zufriedenstellend
aus (.97). Tabelle 13 stellt die Fitstatistiken dieser (und der im Weiteren spezifizierten)
Modelle zusammen.
Nachdem sich kein guter Modellfit erzielen ließ, wurde weiter explorierend die Fixierung der latenten Korrelation auf 1 in allen Analysen gelockert, um die messfehlerbereinigte Korrelation von BDI-II.2 und BDI-II-V.2, BDI-II.2 und BDI-II-V.2.Z sowie
BDI-II.1 und BDI-II-V.1 zu bestimmen. Die Fitstatistiken deuten allesamt auf perfekten
Fit hin (siehe Tabelle 13). Die Verbesserung des Fits durch die Entfernung der Restriktion ist in jedem der drei Fälle signifikant (BDI-II-V.2: χ2s (1) = 15.49, p < .01;
BDI-II-V.2.Z: χ2s (1) = 17.04, p < .01; BDI-II-V.1: χ2s (1) = 5.36, p < .05).
26
Erneut erfolgte tatsächlich eine Fixierung auf 0.9999 (s.o.). Unterschiede in den Fitstatistiken im Vergleich zur Fixierung auf 1.0 betrafen lediglich Nachkommastellen des χ2-Wertes und in einem Fall die 4.
Nachkommastelle des p-Wertes.
Ergebnisse
df
RMSEA
0.07
.79
1
0.00
2
2Z
ML
0.08
.77
0.9999
MLM
7.43
.02
2
frei
MLM
ML
0.79
1.07
.38
.30
1
0.9999
MLM
17.09
.00
2
frei
MLM
ML
0.24
0.34
.62
.56
1
MLM
16.77
.00
2
0.9999
0.00
1.00
1,01
0.13
0.02
0.99
0.97
0.00
0.02
0.00
1.00
1.00
0.22
0.03
0.96
0.88
0.00
0.00
0.00
1.00
1.00
0.03
0.96
0.89
0.00
0.21
CFit
TLI
p
MLM
CFI
χ2
frei
SRMR
Schätzalgorithmus
1
90%CI des
RMSEA♠
Spezifikation
für ψ12
Fitstatistiken für Modelle mit frei geschätzter latenter Korrelation sowie auf 1.0 fixierter
latenter Korrelation zwischen BDI-II und BDI-II-V.1, BDI-II-V.2Z sowie BDI-II-V.2
BDI-II-V-Form
Tabelle 13
141
0.00, 0.82
0.14
0.00, 0.39
0.21
0.00, 0.63
0.17
Anmerkungen. ♠ (untere Grenze, obere Grenze). Akzeptable Fitstatistiken grau hinterlegt.
Die latente Korrelation zwischen Original und verkürzter Version wird im Modell des
BDI-II-V.1 auf .94 geschätzt; mit .91 liegt der latente Zusammenhang mit dem Original
in der Modellierung von BDI-II-V.2 beziehungsweise BDI-II-V.2.Z ganz leicht darunter. Abbildung 12 veranschaulicht die Ergebnisse (vollständig standardisierte Parameter) für alle drei Versionen bei frei geschätzter Korrelation. Alle Parameterschätzer im
Modell sind signifikant (.00 ≤ p ≤.01). Die Werte sind sich zwischen den Modellen (also zwischen den Formen des BDI-II-V) jeweils äußerst ähnlich, für BDI-II-V.2 und
BDI-II-V.2.Z nahezu identisch.
Ergebnisse
142
Ψ12
0.94
0.91
0.91
BDI-II
η1
1.00
1.00
1.00
λ11
.90
.89
.89
λ21
.87
.88
.88
λ32
.97
.95
.95
BDI-II-V
η2
1.00
1.00
1.00
λ42
.98
.97
.97
BDI-II: Parcel 1
y1
BDI-II: Parcel 2
y2
BDI-II-V: Parcel 1
y3
BDI-II-V: Parcel 2
y4
ε1
.18
.20
.21
ε2
.24
.23
.22
ε3
.06
.11
.10
ε4
.04
.06
.07
Abbildung 12
Vollständig standardisierte Modellparameter für die Modelle mit frei geschätzter
Korrelation zwischen BDI-II und BDI-II-V.1 (obere Werte), BDI-II-V.2Z (mittlere
Werte) sowie BDI-II-V.2 (untere Werte). Die Modelle fitten perfekt.
5.7 Ergebnisse zur Entsprechung von BDI, BDI-V, BDI-II und
BDI-II-V (Hypothese V)
Dem Aufbau der vorangegangenen Ergebniskapitel folgend werden zuerst deskriptive
Analysen geschildert (Hypothesen V.a.1 bis V.a.5), bevor die Ergebnisse der konfirmatorischen Faktorenanalysen (Hypothese V.b) dargelegt werden.
Ergebnisse zur Korrelation der Summenwerte (Hypothese V.a.1). Erwartungsgemäß
unterschreitet keiner der sechs Korrelationskoeffizienten zwischen den Inventaren BDI,
BDI-V, BDI-II und BDI-II-V einen Wert von .80 (alle p = .00). Tabelle 14 gibt die Korrelationen wieder. Am engsten hängen jeweils die beiden Original-Versionen untereinander und die beiden verkürzten Versionen untereinander zusammen (r = .94 und .93);
niedriger, aber nahezu in identischer Höhe korrelieren jeweils BDI und BDI-V, BDI-II
und BDI-II-V, BDI und BDI-II-V sowie BDI-II und BDI-V (r = .85 bzw. .86, s. a. o.).
Ergebnisse
143
Tabelle 14
Korrelation der Summenwerte von BDI, BDI-V,
BDI-II und BDI-II-V
BDI
BDI
BDI-V
1
BDI-V
BDI-II
.85
**
.94
**
.86**
1
.86**
.93**
1
.86**
BDI-II
BDI-II-V
BDI-II-V
1
Anmerkungen. N = 325. ** signifikant auf dem Niveau von 0.01
(zweiseitig).
Ergebnisse zum Vergleich der Summenwerte (Hypothese V.a.2). Es wurde bereits dargelegt, dass sich die mittleren Summenwerte von BDI-II und BDI-II-V.R signifikant unterscheiden. Dies gilt – bei einer mittleren Differenz von 3.72 – auch für die Summenwerte von BDI und BDI-V.R (t (324) = -12.794, p = .00), was nicht erwartet worden
war. Den Erwartungen dagegen entspricht, dass der mittlere Summenwert des BDI-II
mit 9.0 (SD = 8.0) etwas über dem mittleren Summenwert des BDI (M = 7.8, SD = 6.9)
liegt. Auch diese Differenz wird signifikant (t(324) = -7.520, p = .00). (Den direkten
Vergleich aller Summenwerte ermöglicht auch Tabelle 18 in Anhang C).
Ergebnisse zum Vergleich der internen Konsistenzen (Hypothese V.a.3). Hypothesengemäß zeigt sich, dass sich die internen Konsistenzen von BDI und BDI-II kaum unterscheiden (α = .89 bzw. .92). Das BDI-V (α = .94) ist leicht konsistenter als das BDI, das
BDI-II-V (α = .95) liegt mit seiner internen Konsistenz ebenfalls minimal über der internen Konsistenz des BDI-II, wie oben bereits dargelegt.
Ergebnisse zum Vergleich der Trennschärfen (Hypothese V.a.4). Die durchschnittliche
Itemtrennschärfe des BDI liegt bei .50, jene des BDI-II ist mit .57 erwartungsgemäß
etwas höher. Den Annahmen entsprechend liegen die mittleren Itemtrennschärfen der
verkürzten Versionen über jenen der Originalversionen (BDI-V: M (rit) = .66, BDI-II-V:
M (rit) = .69; vgl. Tabelle 8).
Ergebnisse zum Vergleich der Zusammenhänge mit anderen Variablen (Hypothese
V.a.5). Tabelle 11 lässt erkennen, dass sich die Hypothese zu ähnlichen Zusammenhängen der vier BDI-Varianten mit Neurotizismus, Extraversion, Offenheit für Erfahrung,
Verträglichkeit und Gewissenhaftigkeit bestätigt: Durchschnittlich weichen die Koeffizienten (bezogen auf die Korrelation mit jeweils einer der fünf Eigenschaften) um .03
Ergebnisse
144
Einheiten voneinander ab, die maximale Abweichung zwischen zwei Werten beträgt .08
Einheiten zwischen der Korrelation des BDI und des BDI-II-V mit Verträglichkeit.
Ergebnisse zur inferenzstatistischen Überprüfung der Messäquivalenz von BDI, BDI-V,
BDI-II und BDI-II-V (Hypothese V.b)27. Die Modellgüteindizes, die für das vorgeschlagene Modell essentiell τ-paralleler Variablen (siehe Abbildung 4 in Abschnitt 4.3.3.1)
erzielt wurden, liegen nicht im zufriedenstellenden Bereich. χ2 ist mit 382.79 (df = 8)
sehr hoch, der zugehörige p-Wert beträgt dementsprechend .000. Der RMSEA beläuft
sich auf .38 und liegt damit eindeutig jenseits eines gerade noch akzeptablen Modellfits
von .10. Ebenso befindet sich der SRMR von .24 sehr klar außerhalb des gewünschten
Bereichs zwischen 0.0 und .08. CFI (.74) und TLI (.81) unterschreiten ihren individuellen Grenzwert von .95 gleichfalls. Dies überrascht nicht, nachdem sich bereits für die
„Teilmodelle“, die die Parallelität von BDI-II und BDI-II-V prüften, kein guter Modellfit hatte erzielen lassen, was in der Hypothese als Voraussetzung für die essentielle τParallelität aller BDIs formuliert worden war. Wie in diesen vorangegangenen Analysen
lässt sich auch hier der Modellfit durch eine logarithmische Transformation der Daten
verbessern, doch er bleibt schwach (χ2 (8) = 86.51, p = .00; lediglich der SRMR (.05)
zeigt einen passablen Fit an, CFI (.92) und TLI (.94) liegen näher am erwünschten
Grenzwert bei Verwendung logarithmierter und nicht reskalierten Daten). Mittelwerte,
Standardabweichungen, Schiefe und Kurtosis der nicht-logarithmierten und logarithmierten Indikatoren sind Tabelle 29 A und B in Anhang C zu entnehmen. Die logarithmische Transformation hatte erwartungsgemäß Schiefe und Kurtosis im Betrag reduziert, jedoch nicht die signifikante Abweichung der Summenwerte von einer Normalverteilung beseitigen können (hochsignifikante Kolmorogrov-Smirnov-Tests sowie
Shapiro-Wilk-Tests).
Exploratorisch wurde weiter eruiert, welches Modell die Beziehungen der Inventare
optimal beschreiben könnte. Zunächst wurde überprüft, ob die Annahmen des Modells
essentiell τ-paralleler Variablen zu streng waren. Löst man die Restriktion gleicher Fehlervarianzen und testet so ein Modell essentiell τ-äquivalenter Variablen, erreicht jedoch
auch dieses keinen befriedigenden Fit, kein Modellgüteindex liegt im akzeptablen Bereich (χ2 (5) = 274.77, p = .00; RMSEA = .41, SRMR = .17, CFI = .81, TLI = .78). Unter Verwendung logarithmierter Summenwerte als manifeste Variablen zeigt zumindest
27
Alle folgenden Analysen beruhen auf einer Stichprobe mit dem Umfang von N = 325.
Ergebnisse
145
der SRMR (.05) einen passablen Fit an, CFI (.93) und TLI (.92) kommen näher an ihren
Zielbereich.
Nur minimal besser wird der Fit bei zusätzlicher Aufhebung der Restriktion identischer
Faktorladungen zur Überprüfung des minimalen Modells τ-kongenerischer Variablen.
Der χ2-Test fällt weiterhin unbefriedigend aus (χ2 (2) = 164.68, p = .00), der RMSEA
verschlechtert sich wegen der niedrigeren Sparsamkeit des Modells weiter (.50). Lediglich der SRMR (.03) fällt gut aus; CFI (.89) und TLI (.66) sind nicht akzeptabel. Abbildung 13 lässt die geschätzten vollständig standardisierten Parameter (alle p = .00) erkennen. Deutlich wird, dass alle Formen des BDI eng mit der gemeinsamen latenten
Variablen verbunden sind (.91 ≤ λ ≤ .97) und die Fehlervarianzen gering ausfallen
(.07 ≤ ε ≤ .18), wobei die Parameter wegen des schlechten Modellfits nur sehr bedingt
aussagekräftig sind. Logarithmieren der Summenscores führt nur dazu, dass (neben dem
bereits akzeptablen SRMR) noch der CFI (.96) in einen zufriedenstellenden Bereich
vordringt, alle anderen Indizes zeigen weiter Missfit an (χ2 (2) = 43.36, p = .00;
RMSEA = .25, TLI = .87 für logarithmierte und nicht-reskalierten Daten).
Depressivität
η1
1.00
λ11
.96
λ21
.91
λ31
.97
λ41
.91
BDI
y1
BDI-V
y2
BDI-II
y3
BDI-II-V
y4
ε1
.08
ε2
.17
ε3
.07
ε4
.18
Abbildung 13
Vollständig standardisierte Modellparameter für das Modell τkongenerischer Variablen des BDI, BDI-V, BDI-II und BDI-II-V.
Der Modellfit ist nicht zufriedenstellend.
Ergebnisse
146
Die Exploration, ob sich perfekte Zusammenhänge28 zwischen BDI, BDI-V und
BDI-II-V finden ließen, wenn sie jeweils als latente Variable modelliert werden (siehe
Abbildung 5 in Abschnitt 4.3.3.2), war nicht erfolgreich. (Die Zusammensetzung der
verwendeten Itemparcels der Inventare ist in Tabelle 20 in Anhang C aufgeführt; Mittelwerte, Standardabweichungen, Schiefe und Kurtosis der Indikatoren sowie manifeste
Inter-Indikator-Korrelationen finden sich im selben Anhang in Tabelle 29 C und Tabelle 30.) Nachdem sich dieses Modell bereits zwischen BDI-II und BDI-II-V nicht hatte
fitten lassen, war dies zu erwarten. Der χ2-Test weist auf signifikante Unterschiede zwischen der postulierten Struktur und den Zusammenhängen in den empirischen Daten hin
(χ2 (20) = 272.56, p = .00); der RMSEA fällt mit einem Wert von .20 inakzeptabel aus,
ebenso weist der TLI (.87) nicht auf einen guten Fit hin; der CFI (.91) kann maximal als
mäßig bezeichnet werden, lediglich der SRMR (.03) zeigte guten Fit an. Lockert man
die Restriktion perfekter Korrelationen zwischen den latenten BDI-Variablen, um die
messfehlerbereinigten Korrelationen der Inventare zu schätzen, bleibt das Modell – anders als bei der Modellierung von BDI-II und BDI-II-V – nach dem strengen χ2-Test
inakzeptabel (χ2 (14) = 43.96, p = .00). Die deskriptiven Güteindizes fallen zwar allesamt mittelmäßig gut (RMSEA = .08) bis sehr gut (SRMR = .01, CFI = .99, TLI = .98)
aus, das Problem ist jedoch, dass die interessierenden Parameterschätzer der Korrelationen zwischen den latenten Variablen Heywood Cases aufweisen: Der Koeffizient für
den Zusammenhang von BDI und BDI-II liegt mit 1.04 außerhalb des möglichen Wertebereiches und veranlasst das Programm dementsprechend zu der Warnmeldung einer
nicht positiv definiten Kovarianzmatrix der latenten Variablen. BDI-V und BDI-II-V
weisen eine latente Korrelation von .98 auf, BDI und BDI-V korrelieren zu .93, BDI-II
und BDI-II-V zu .91, BDI und BDI-II-V sowie BDI-II und BDI-V jeweils zu .92 (alle p
= .00).
Da kein Modell nach den Kriterien des χ2-Tests oder des RMSEA akzeptiert werden
konnte (beziehungsweise das einzige Modell, das einen akzeptablen RMSEA aufwies,
in Folge von Heywood Cases nur bedingt interpretierbar war), wurde das Modell weiter
modifiziert. Verschiedene Anzeichen legten die Erweiterung um einen Methodenfaktor
nahe. Zum einen wies das manifeste Korrelationsmuster darauf hin, dass sich der Unterschied zwischen der Skalierung von Originalen und Verkürzungen in den Zusammen28
Spezifiziert wurde erneut eine latente Korrelation von .9999 zwischen den Faktoren statt einer Korrelation von 1.0, was den Modellfit gegenüber der Spezifikation einer Korrelation von 1.0 jedoch nicht berührte (s.o.).
Ergebnisse
147
hängen der Variablen niederschlägt und neben dem Trait (Depressivität) einen systematischen Einfluss auf das Ergebnis einer Person ausübt (vgl. Eid et al., 2010). Wie dargelegt betrug die manifeste Korrelation zwischen den beiden Original-Versionen .94
(p = .00) und zwischen den beiden verkürzten Versionen .93 (p = .00), dagegen aber
„nur“ .85 oder .86 (p jeweils = .00), wenn eine Original-Version mit einer Verkürzung
korreliert wurde. Dieses Muster liegt prinzipiell auch in den latenten Korrelationen vor,
wenn diese auch in Anbetracht des unmöglichen Wertes der Korrelation zwischen BDI
und BDI-II zurückhaltend interpretiert werden müssen. Zum Zweiten legen die Modifikationsindizes des nicht fittenden Modells τ-kongenerischer Variablen Residualkorrelationen zwischen BDI und BDI-II respektive zwischen BDI-V und BDI-II-V nahe, weisen also auch darauf hin, dass die beiden Inventare jeweils untereinander etwas mehr
gemeinsam haben als miteinander. Zum Dritten spiegeln die zu diesem Modell in Abbildung 13 abgetragenen Ladungsparameter dieses Bild wieder. Die Ladungen auf der
gemeinsamen latenten Variablen Depressivität entsprechen sich für die Originalversionen und die Verkürzungen jeweils wesentlich stärker als zwischen einem Original und
einer Verkürzung.
So wird ein Methodenfaktor spezifiziert, der die Abweichung der wahren Depressivitätswerte, wie sie sich entsprechend der Messung mit einer verkürzten Version ergeben,
von den wahren Depressivitätswerten, wie sie bei einer Messung mit einem OriginalBDI erwartet worden wären, repräsentiert (siehe Abbildung 6 in Abschnitt 4.3.3.3.2). Es
wird angenommen, dass BDI-V und BDI-II-V als Indikatoren dieses Methodenfaktors
jeweils gleich stark mit ihm verbunden sind.
Behält man die Festlegung identischer Ladungsparameter der BDI-Formen auf dem
Depressivitätsfaktor bei, gibt das Modell die Zusammenhangsstruktur der Daten nicht
korrekt wieder (χ2 (4) = 86.74, p = .00). Bis auf den CFI, der mit .94 den Sollwert nahezu erfüllt, liegt keiner der Modellgüteindizes im akzeptablen Bereich (RMSEA = .25,
SRMR = .16, TLI = .92). Also wird überprüft, ob die Beziehungen der BDI-Formen
durch das Modell mit Methodenfaktor beschrieben werden, wenn die Bedingung gleicher Ladungen der vier BDI-Variablen auf der latenten Variable Depressivität gelockert
wird (nicht jedoch die Vorgabe gleicher Ladungsparameter von BDI-V und BDI-II-V
auf der Methodenvariable). Dieses Modell weist perfekten Fit auf (χ2 (1) = 0.41, p = .52;
RMSEA und SRMR = .00, CFI und TLI = 1.00), der sich unter Verwendung des MLSchätzers bestätigt (RMSEA ebenfalls .00, das 90%-Vertrauensintervall um den
Ergebnisse
148
RMSEA schließt den Wert Null ein (0.00 bis 0.13), Close Fit = .65; χ2 (1) = 0.46,
p = .50). Die Verbesserung der Modellgüte im Vergleich zu einem Modell mit identischen Ladungen der BDI-Summenwerte auf dem Depressivitätsfaktor ist signifikant
(χ2s (3) = 83.42, p ≤ .01). Die vollständig standardisierten Modellparameter sind in Abbildung 14 wiedergegeben. Mit Koeffizienten zwischen .88 und .98 laden alle BDIFormen hoch auf der Traitvariablen; dabei sind die Ladungen der verkürzten BDIs geringer als die der Original-BDIs. Weiterhin ähnelt sich die Verbindung der Originale
mit dem Traitfaktor und der verkürzten Versionen mit dem Traitfaktor wesentlich stärker als die Verbindung von Original und (zugehöriger) Verkürzung mit dem Trait. Die
Ladungsparameter der verkürzten BDI-Formen auf dem Methodenfaktor fallen wesentlich geringer aus, sind mit .42 und .37 aber dennoch deutlich ausgeprägt. Die Residualvariablen sind mit Werten zwischen .10 und .05 sehr gering.
Methode
η2
1.00
Depressivität
η1
1.00
λ22
.42
λ11
.96
λ42
.37
λ31
.98
λ21
.88
λ41
.88
BDI
y1
BDI-V
y2
BDI-II
y3
BDI-II-V
y4
ε1
.07
ε2
.05
ε3
.05
ε4
.10
Abbildung 14
Vollständig standardisierte Modellparameter für ein Modell des
BDI, BDI-V, BDI-II und BDI-II-V mit Methodenfaktor. λ22 und λ42
wurden in der unstandardisierten Lösung gleichgesetzt. Das Modell
fittet perfekt.
Die Varianz jeder manifesten Variablen lässt sich zerlegen in den Anteil, der durch die
Traitvariable (Depressivität) erklärt wird, den Anteil, der durch den Methodenfaktor zu
Ergebnisse
149
Stande kommt (sofern eine Variable mit diesem Faktor verbunden ist) und die Residualvarianz. Mit Hilfe dieser Varianzkomponenten lassen sich die Reliabilität, die konvergente Validität beziehungsweise der Konsistenzkoeffizient und die Methodenspezifität
bestimmen (Eid et al., 2010). Die Reliabilitäten liegen sehr hoch (BDI .93, BDI-V .95,
BDI-II .95 und BDI-II-V .92). Für BDI und BDI-II entspricht die Reliabilität der Konsistenz. BDI-V und BDI-II-V weisen Konsistenzkoeffizienten von .78 und .77 auf, die
Methodenspezifitätskoeffizienten belaufen sich auf .17 und .14. Die hohe Konsistenz im
Vergleich zu der geringeren Methodenspezifität bedeutet, dass die wahren Depressivitätswerte der verkürzten Versionen gut, aber dennoch nicht perfekt durch die wahren
Depressivitätswerte der Original-Versionen vorhergesagt werden können.
Ein Modell mit nur einem Methodenfaktor bei zwei verwendeten Methoden ist nicht
symmetrisch. Je nach Modellspezifikation kann sich der Modellfit unterscheiden (Eid,
2000). Die Analysen sollen daher abgerundet werden mit einer Überprüfung der Unterschiede, die sich ergeben, wenn statt der Originalskalierung die Skalierung der vereinfachten Versionen zur Standardmethode gemacht wird. In Abbildung 6 (Abschnitt
4.3.3.3.2) werden dann die manifesten Variablen BDI und BDI-II statt der manifesten
Variablen BDI-V und BDI-II-V auf den Methodenfaktor zurückgeführt. Ansonsten wird
nichts an der Modellspezifikation geändert.
Alle Fitstatistiken, einschließlich des χ2-Tests, fallen exakt identisch aus. Die Modellparameter und damit die Schätzungen von Reliabilitäten, Konsistenzen und Methodenspezifität „verschieben“ sich erwartungsgemäß. Die vollständig standardisierten Ladungen
der vier Inventare auf der latenten Variablen Depressivität liegen mit Werten zwischen
.88 und .97 nahezu im selben Bereich wie für das vorherige Modell, mit dem Unterschied, dass es nun die verkürzten BDIs sind, die eine höhere Ladung aufweisen (.97
bzw. .96) als die Originale (.88 bzw. .89). BDI und BDI-II weisen mit Parametern von
.43 und .37 nahezu dieselbe Verbindung zum Methodenfaktor auf wie zuvor BDI-V und
BDI-II-V. Die Residualvariablen fallen noch ein wenig geringer aus als zuvor (.04 bis
.08). Nun ist es die Methodenspezifität der Originalskalierung, die im Vergleich zur
„Standardmethode“ der verkürzten Skalierung bestimmt wird und die sich auf – den
Werten des obigen Modells nahezu identische – .18 (BDI) und .13 (BDI-II) beläuft;
entsprechend ist es nun die Konsistenz von BDI und BDI-II, die mit .77 und .80 angegeben werden kann. Die Interpretation lautet parallel zur obigen, dass die Methodenspezifität als mäßig einzuschätzen ist, aber dennoch messbare Unterschiede zwischen den
Ergebnisse
150
wahren Werten existieren, je nachdem, welche Methode zur Messung verwendet wird.
Die geschätzten Reliabilitäten ändern sich um maximal .02 Punkte (BDI .95, BDI-V
.94, BDI-II .93 und BDI-II-V .92).
Diskussion
151
6 Diskussion
Der erste Abschnitt des Diskussionsteils stellt die Ergebnisse der Analysen in den Zusammenhang bisheriger Resultate und versucht eine Interpretation der Befunde. Der
zweite Abschnitt reflektiert, was die Interpretierbarkeit der Resultate einschränkt und
kritisiert verbesserungsfähige Vorgehensweisen in der Durchführung und Auswertung
der Studie. Der dritte und letzte Abschnitt zieht ein Fazit, welche Erkenntnisse aus der
Untersuchung gewonnen wurden und welche Fragen offen blieben oder im Laufe der
Analysen aufgeworfen wurden. Diese bieten Anregungen für die nächsten Schritte in
der Weiterentwicklung und Evaluation des BDI-II-V.
6.1 Interpretation der Ergebnisse
Die folgenden Abschnitte fassen die Ergebnisse zusammen. Gleichzeitig werden die
Resultate durch den Vergleich mit den Befunden anderer Autoren genauer eingeordnet.
Einige Erklärungsversuche für nicht hypothesenkonforme Ergebnisse werden erörtert.
6.1.1 Reliabilität und Validität des BDI-II-V
Für die vorgeschlagene Vereinfachung der zweiten Auflage des Beck Depressionsinventars BDI-II-V konnten erwartungsgemäß sehr gute Homogenitäts- und Reliabilitätskennwerte erzielt werden. Cronbach’s α beträgt .95. Die mittlere Inter-Item-Korrelation
ist mit .50 hoch, die korrigierten Itemtrennschärfen belaufen sich im Mittel auf .69.
Die hohe Schwierigkeit der Items, die sich in dieser Studie zeigt, hängt damit zusammen, dass das Depressionsinventar in einer überwiegend gesunden Bevölkerungsstichprobe eingesetzt wurde. Die Standardabweichungen der Items liegen nahezu alle über 1,
was als Zeichen für gute Diskriminationsfähigkeit gewertet werden darf (vgl. Schmitt &
Maes, 2000).
Eine Hauptachsenanalyse legte eher die Extraktion eines starken Faktors nahe, doch die
Kriterien ließen auch die Interpretation zu, dass die Extraktion zweier hochkorrelierter
Faktoren möglich sei. Werden zwei Faktoren extrahiert und oblique rotiert, kann einer
als kognitiv-affektiver, der andere als somatisch-affektiver Faktor bezeichnet werden.
Zwar ergibt sich in Folge der starken Assoziation der Faktoren keine klare Einfachstruktur; ordnet man dennoch die Items jeweils dem Faktor zu, auf dem sie die höhere
Diskussion
152
Ladung aufweisen, ergibt sich ein Faktor, dem die kognitiven Items wie Versagensgefühle, Schuldgefühle, Bestrafungsgefühle, Selbstablehnung oder Selbstvorwürfe zugehören und ein Faktor, dem die somatischen Items wie Schlafveränderungen, Appetitveränderungen, Konzentrationsschwierigkeiten oder Ermüdbarkeit zugehören. Die affektiven
Items Traurigkeit, Weinen, Reizbarkeit und Verlust von Freude verteilen sich auf die
Faktoren, wobei das besonders charakteristische Symptom Traurigkeit zusammen mit
dem Symptom Weinen dem kognitiven Faktor zugeordnet ist.
Die Resultate liegen auf einer Linie mit dem, was exploratorische Faktorenanalysen für
das BDI-II fanden. In einer Untersuchung von Hautzinger et al. (2006) an deutschen
Stichproben hatten sich Zwei-Faktor-Lösungen ergeben, in denen die Dimensionen jedoch etwas niedriger korrelierten als in dieser Studie die Dimensionen des BDI-II-V.
Was die Verteilung der Items auf die Faktoren angeht, so fand sich in internationalen
Studien regelmäßig, dass die somatischen Items auf einem Faktor höher laden und die
kognitiven Items auf einem anderen Faktor. Die affektiven Items sind, je nach Stichprobe, entweder dem somatischen oder dem kognitiven Faktor zugeordnet (Beck et al.,
1996, zit. nach Hautzinger et al., 2006, S. 12) oder verteilen sich auf die beiden Faktoren (vgl. die Ergebnisse der Stichprobe gesunder Probanden bei Hautzinger et al.,
2006).
Die Überprüfung der Konstruktvalidität des neu entwickelten Verfahrens durch die Ermittlung seiner Zusammenhänge mit den Persönlichkeitsdimensionen Neurotizismus,
Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit ergibt
ein zufriedenstellendes Bild. Die Korrelation des BDI-II-V-Summenwertes mit Neurotizismus zeigt sich hoch positiv, was in der Literatur sehr gut belegten Befunden zum
Zusammenhang von Depressivität und Neurotizismus (Bienvenu et al., 2004; Duggan et
al., 1995; Hautzinger et al., 2006; Meyer, 2002; Rosellini & Brown, 2011; Trull & Sher,
1994) entspricht. Alle anderen Koeffizienten liegen im niedrigen bis mittelhohen Bereich. Dabei fällt der negative Zusammenhang mit Extraversion im Betrag ein wenig
höher aus, als andere Untersuchungen (Bienvenu et al., 2004; Hautzinger et al., 2006;
Meyer, 2002; Rosellini & Brown, 2011; Trull & Sher, 1994) dies erwarten ließen. Im
Betrag erwartet niedrig zeigt sich die (nur marginal signifikante) negative Korrelation
mit Offenheit, allerdings mit umgekehrtem Vorzeichen als andere Autoren dies für den
Zusammenhang zwischen Depressivität und Offenheit gefunden hatten (Bienvenu et al.,
2004; Hautzinger et al., 2006; Meyer, 2002; Rosellini & Brown, 2011; Trull & Sher,
Diskussion
153
1994). Die Verbindung zwischen Offenheit und Depressivität scheint nicht geklärt. Klar
ist, dass sie – wenn überhaupt eine bedeutsame Assoziation existiert – sehr gering ausgeprägt ist. Der Koeffizient war in dieser Untersuchung trotz der großen Stichprobe nur
marginal signifikant, Hautzinger et al. (2006) sowie Rosellini und Brown (2011) hatten
ebenfalls keine signifikanten Ergebnisse erzielt. Bei Bienvenu et al. (2004) hatte sich
der Zusammenhang nur auf der Ebene einer Facette als überzufällig erwiesen. Trull und
Sher (1994) waren von ihren – je nach Analyse signifikanten oder marginal signifikanten – Ergebnissen eines positiven Zusammenhangs überrascht, da sie in ihren Vorannahmen von einer negativen Verknüpfung ausgegangen waren. Entscheidend für die
Beurteilung der Validität des BDI-II-V ist, dass die Korrelation mit Offenheit im Betrag
niedrig ausfällt. Die Assoziation des BDI-II-V mit Verträglichkeit ist mäßig negativ.
Einen Koeffizienten in dieser Höhe und Richtung hatten auch die Befunde von
Bienvenu et al. (2004), Hautzinger et al. (2006), Meyer (2002), Rosellini und Brown
(2011) sowie Trull & Sher (1994) erwarten lassen, wobei das einzig signifikante dieser
Resultate bei Hautzinger et al. (2006) beschrieben ist. Jedenfalls scheint auch nach den
Ergebnissen dieser Untersuchung die Einordnung von Kronmüller und Mundt (2006),
wonach die Verträglichkeit bei Depressiven erhöht sei, weiter unklar. Zumindest für die
vorliegende Studie könnte eingewandt werden, dass eine Bevölkerungsstichprobe
untersucht wurde, die überwiegend gesunde Probanden umfasste und somit nicht
beurteilt werden kann, ob sich eine positive Assoziation in Stichproben akut depressiver
Patienten finden ließe. Der Zusammenhang zwischen BDI-II-V und Gewissenhaftigkeit
zeigte sich entsprechend der Befundlage (Bienvenu et al., 2004; Hautzinger et al., 2006;
Meyer, 2002; Rosellini & Brown, 2011; Trull & Sher, 1994) negativ, jedoch stärker
ausgeprägt als in den anderen Untersuchungen. Neben der negativen assoziativen Beziehung zwischen aktueller Depressivität und Gewissenhaftigkeit scheint auch eine
Verbindung zwischen hoher Gewissenhaftigkeit bzw. damit zusammenhängenden Persönlichkeitseigenschaften wie Perfektionismus, Kontrollbedürfnis oder Leistungsstreben und (dem Risiko für) Depression zu existieren (Hautzinger, 2010; Kronmüller &
Mundt, 2006). Wie die beiden Ausprägungen des Zusammenhanges zu interpretieren
sind, war im Rahmen dieser Arbeit nicht zu erörtern. Möglicherweise werden dadurch
verschiedene zeitliche Prozesse wiedergespiegelt, indem zunächst (zu) hohe Ansprüche
und ein (zu stark) ausgeprägtes Leistungsstreben das Risiko für eine Depression erhöhen, in einer akuten Depression (bzw. mit ansteigenden Depressivitätswerten) aber die
tatsächliche Reduktion der Leistungsfähigkeit in Folge von Ermüdung und Antriebslo-
Diskussion
154
sigkeit und/oder die Wahrnehmung der eigenen Person als insuffizient und leistungsschwach in Folge des niedrigen Selbstwertgefühls für ein Absinken der Werte auf Gewissenhaftigkeitsskalen sorgen. Vorstellbar ist jedoch auch, dass sowohl niedrige Sorgfalt und ein geringer Anspruch an die eigene Arbeit über Misserfolg und Enttäuschungen, zum Beispiel im Arbeitsleben, das Risiko für eine Depression erhöhen respektive
eine Depression aufrechterhalten können, als auch wahrgenommener Misserfolg und
Enttäuschung, die aus überhöhten Ansprüchen an die eigenen Leistungen resultieren.
6.1.2 BDI-II-V und BDI-II im Vergleich
Im direkten Vergleich scheinen die Items des BDI-II-V etwas leichter zu sein als jene
des BDI-II, spricht doch ein t-Test für signifikant höhere Summenwerte in der (in Bezug auf die Skalierung dem Original vergleichbar gemachten) verkürzten Version. Die
Summenwerte beider Inventare korrelieren jedoch hoch (r = .86). Auch auf der Ebene
der einzelnen Items ergeben sich respektable Korrelationen von durchschnittlich .65.
Diese Koeffizienten entsprechen denen, die Schmitt et al. (2003) für die Korrelationen
der Summenwerte und Items des BDI und BDI-V in einer Stichprobe Gesunder fanden.
Das BDI-II-V weist in dieser Studie eine minimal höhere interne Konsistenz als das
Original auf. Bis auf das Item, das Suizidgedanken erfragt, sind die verkürzten Items
des BDI-II-V etwas trennschärfer als die jeweils zu Grunde liegenden Items des BDI-II.
Die Bedeutung eines einzelnen Items in Relation zu allen anderen Items und damit sein
Bezug zum Gesamtwert entsprechen sich in beiden Inventaren gut, wie Rangkorrelationen der Trennschärfen ergeben. Mit einem Koeffizienten von .86 liegt der Wert sogar in
dem Bereich, der sich in den Analysen der Entsprechung von BDI-V und BDI (Schmitt
et al., 2003) nur für eine Gesamtstichprobe ergab, die neben den gesunden Probanden
auch eine heterogene Gruppe klinischer Patienten umfasste, und damit eine größere Varianz der Werte aufwies als die „reine“ Stichprobe klinisch unauffälliger Probanden, in
der eine geringere Rangkorrelation der Trennschärfen erzielt wurde.
BDI-II-V und BDI-II hängen ähnlich hoch mit Validierungskorrelaten in Form der Dimensionen des Big-Five-Persönlichkeitsmodells zusammen.
Ergebnisse konfirmatorischer Faktorenanalysen bestätigen jedoch nicht die Annahme,
BDI-II-V und BDI-II würden sich als essentiell τ-parallel im Sinne der Klassischen
Testtheorie erweisen. Ein entsprechendes Modell wies nur dann perfekten Fit auf, wenn
Diskussion
155
die Summenwerte zuvor einer logarithmischen Transformation unterzogen wurden. Exploratorisch wurde ein Modell spezifiziert, in dem BDI-II und BDI-II-V als latente Variablen modelliert und ihre Korrelation auf 1.0 fixiert wurde, in Anlehnung an die Analyse, mit der Schmitt et al. (2003) die Messäquivalenz von BDI und BDI-V nachgewiesen hatten. Die Überprüfung fiel nur nach Maßgabe einiger Güteindizes (SRMR, CFI,
tendenziell auch TLI), nicht jedoch nach dem Kriterium des χ2-Tests zufriedenstellend
aus. Perfekter Fit konnte in weiter explorierenden Analysen nur für ein Modell nachgewiesen werden, in dem die latente Korrelation der beiden Faktoren BDI-II und
BDI-II-V frei geschätzt wurde. Sie belief sich darin auf immer noch hohe, aber eben
nicht perfekte .92.
Schmitt et al. (2003) hatten für BDI und BDI-V in einer Stichprobe, die im Umfang in
etwa der hier eingesetzten entsprach, eine perfekte Korrelation der beiden Faktoren, die
Original und Verkürzung repräsentierten, nachweisen können. Allerdings handelte es
sich dabei um die bereits angesprochene Gesamtstichprobe, die sich neben zwei Dritteln
gesunder Probanden auch aus einem Drittel in stationärer psychiatrischer Behandlung
befindlicher Patienten zusammensetzte, von denen etwa die Hälfte an einer Depression
erkrankt war. Innerhalb der Gruppe der 200 klinisch unauffälligen Probanden gelang es
auch in der Untersuchung von Schmitt et al. (2003) nicht, ein Modell mit perfekter latenter Korrelation zu fitten. Stattdessen ergab sich eine Korrelation von .95 zwischen
dem BDI-Faktor und dem BDI-V-Faktor, die damit ein wenig höher ausfällt, als der
Zusammenhang, der in der vorliegenden Arbeit zwischen den beiden Faktoren von
BDI-II und BDI-II-V erzielt werden konnte.
Sowohl die Befunde von Schmitt et al. (2003), als auch die wesentliche Verbesserung
des Fits eines Modells essentiell τ-paralleler Variablen unter Verwendung logarithmierter Summenwerte, geben Anlass zu der begründeten Vermutung, dass sich eine höhere
Übereinstimmung von BDI-II und BDI-II-V durchaus nachweisen ließe, wenn die Verteilungseigenschaften der Daten dem gewählten Verfahren konfirmatorischer Faktorenanalysen metrischer Daten angemessener wären. Durch eine Erweiterung der Stichprobe
um eine Gruppe klinisch depressiver Patienten, deren Symptomatik unterschiedliche
Schweregrade aufweist, könnte die Varianz in den Daten erhöht und gleichzeitig die
deutliche Rechtsschiefe der Verteilung reduziert sowie Bodeneffekte relativiert werden.
Diskussion
156
6.1.3 BDI-II.V.1 und BDI-II-V.2 im Vergleich
Das BDI-II-V wurde in zwei Versionen vorgeschlagen, die sich bis auf die Items zur
Erfassung von Veränderungen des Schlafs und des Appetits glichen. Im BDI-II-V.1
wurden diese Items entgegen ihrer Gestaltung im Original-BDI-II global gehalten, im
BDI-II-V.2 wurde dagegen in Übereinstimmung mit dem Original-BDI-II getrennt nach
Zu- und Abnahme der Phänomene gefragt. Das BDI-II-V.2 konnte dann auf zwei Wegen ausgewertet werden. Zum einen war es möglich, jedes der insgesamt vier Items zur
Zu- und Abnahme von Schlaf und Appetit in den Summenwert einzurechnen, was jedoch eine Abweichung zum Vorgehen im Original darstellte (bezeichnet mit
BDI-II-V.2). Zum Zweiten ließen sich die Items durch Berücksichtigung nur der höchstausgewählten Ziffer der beiden Schlafitems und der höchstausgewählten Ziffer der beiden Appetititems so zusammenfassen, dass für jedes Phänomen – wie bei der Abfrage
durch ein einziges Item – nur eine Ziffer in den Summenwert einfloss; dies entsprach
der Auswertungsstrategie des Originals (bezeichnet mit BDI-II-V.2.Z). Die Ergebnisse
sollten zeigen, welche der Varianten, die Items zu Schlaf und Appetit abzubilden, sich
durch eine größere Nähe zum Original auszeichnete und demnach zur Aufnahme in den
endgültigen Vorschlag eines BDI-II-V empfohlen werden konnte.
In der folgenden Zusammenstellung der Ergebnisse hierzu wird die vom Original abweichende Auswertungsstrategie des BDI-II-V.2 keine Berücksichtigung mehr finden.
Diese musste in ihrem Zusammenhang mit dem Original der zweiten Auswertungsstrategie (BDI-II-V.2.Z) unterlegen sein, da alleine die höhere Anzahl an Items der Vergleichbarkeit mit dem BDI-II abträglich war. Dort, wo Vergleiche vorgenommen werden konnte, bestätigten die Analysen diese Annahme. Viele Berechnungen waren aufgrund der unterschiedlichen Anzahl an Items gar nicht möglich.
Es werden also BDI-II-V.1 und BDI-II-V.2.Z hinsichtlich ihrer Übereinstimmung mit
dem BDI-II einander gegenübergestellt.
Der Summenwert des BDI-II-V.1 korreliert – wenn auch nur minimal – höher mit dem
Summenwert des BDI-II als der Summenwert des BDI-II-V.2.Z. Noch Aufschlussreicher und aussagekräftiger sind die Korrelationen auf der Ebene der beiden in Frage stehenden Items. Auch hier ergibt sich – noch deutlicher als auf Summenwertebene – eine
größere Nähe zwischen der Itemvariante des BDI-II-V.1 und den Items des BDI-II als
zwischen der Itemvariante des BDI-II-V.2.Z und den Items des Originals.
Diskussion
157
Die Differenz zwischen den mittleren Summenwerten in der (reskalierten) verkürzten
Version und dem Original fällt in beiden Substichproben signifikant aus, wobei der Unterschied zwischen BDI-II und BDI-I-V.2.Z minimal (1.8 Punkte) größer ist als jener
zwischen BDI-II und BDI-II-V.1.
Der Bezug jedes einzelnen Items zum Summenwert aller anderen Items scheint sich
zwischen BDI-II-V.1 und BDI-II etwas besser zu entsprechen als zwischen
BDI-II-V.2.Z und BDI-II, wie in den Teilstichproben durchgeführte Rangkorrelationen
der Trennschärfen annehmen lassen. Auffällig ist jedoch, dass die Trennschärfe eines
jeden Items des BDI-II-V.2.Z hinter der Trennschärfe des entsprechenden Items des
BDI-II-V.1
zurückbleibt.
Im
Durchschnitt
liegen
die
Itemtrennschärfen
des
BDI-II-V.2.Z um .07 Punkte niedriger als die des BDI-II-V.1.Weder hatte es dazu im
Vorfeld explizite Annahmen gegeben, noch findet sich im Nachhinein eine plausible
Erklärung. Theoretisch kann die Möglichkeit in Betracht gezogen werden, dass der Befund dadurch (mit)verursacht ist, dass die Formulierung der Items zu Appetit und Schlaf
im BDI-II-V.2 sich so ungünstig auf den Gesamtsummenwert auswirkt, dass die Korrelation aller anderen Items mit dieser Summe abgeschwächt wird. Ebenso gut ist es jedoch möglich, dass die Befunde lediglich Ausdruck zufälliger Unterschiede im Antwortverhalten der Probanden der beiden Substichproben sind. Diese Frage konnte nicht
beantwortet werden.
Es fand sich darüber hinaus, dass die mittlere Inter-Item-Korrelation als Maß für die
Homogenität eines Verfahrens im BDI-II-V.1 höher ausfiel als im BDI-II-V.2.Z.
In konfirmatorischen Faktorenanalysen ließ sich wie schon im Vergleich von BDI-II
und BDI-II-V in der Gesamtstichprobe weder für BDI-II und BDI-II-V.1, noch für
BDI-II und BDI-II-V.2.Z in den jeweiligen Teilstichproben ein Modell essentiell τparalleler Variablen fitten, sofern die Ausgangsdaten nicht logarithmiert wurden. Exploratorisch wurde in beiden Teilstichproben daraufhin getestet, ob die Inventare eine perfekte latente Korrelation aufweisen würden, wenn sie jeweils als Faktoren modelliert
wurden. Nur wenn man ein α-Niveau von .05 annehmen würde, was für diese relativ
kleine Stichprobe nicht angemessen ist, könnte man für BDI-II und BDI-II-V.1 davon
sprechen, dass ein solches Modell nach Maßgabe des χ2-Tests eine Tendenz in Richtung
Modellfit aufweist. Nach wissenschaftlichen Standards darf es entsprechend dem
χ2-Test nicht als akzeptabel bezeichnet werden. Die Güteindizes SRMR, CFI und TLI
Diskussion
158
bescheinigen diesem Modell dagegen einen akzeptablen Fit. Für BDI-II und
BDI-II-V.2.Z würden nur die Indizes SRMR und CFI eine Annahme dieses Modells
empfehlen. Perfekt passt in beiden Stichproben nur ein Modell, in dem die Korrelation
zwischen den Faktoren, welche die Inventare repräsentierten, ohne jede Restriktion frei
geschätzt wird. Sie beläuft sich auf hohe .91 zwischen BDI-II und BDI-II-V.2.Z und auf
noch etwas höhere .94 zwischen BDI-II und BDI-II-V.1.
Die berichteten Ergebnisse sprechen ausnahmslos für die Ausgestaltung der Items, wie
sie im BDI-II-V.1 vorgenommen wurde. Ihre Interpretierbarkeit ist jedoch durch einige
Unsicherheiten eingeschränkt. Zum einen widersprechen sie der theoretisch begründeten Annahme, das BDI-II-V.2.Z würde dem BDI-II besser entsprechen, da die Ausgestaltung beziehungsweise Formulierung der Items und auch die Strategie ihrer Auswertung wesentlich näher am Original bleiben. Zum Zweiten ist die Vergleichbarkeit der
Substichproben nicht mit letzter Sicherheit gegeben. Es war nicht nachzuweisen, dass
sich beide Teilstichproben im Hinblick auf das Niveau der Depressivität entsprechen.
Die mittleren Summenwerte des BDI-II unterschieden sich zwischen den Gruppen zumindest bei einem angestrebten α-Niveau von .20 überzufällig, wenn auch nur in geringem Ausmaß. Auch war die soziodemographische Zusammensetzung der Stichproben
zwar gut vergleichbar, aber nicht identisch. Hinsichtlich der Verteilung von Männern
und Frauen auf die Teilstichproben und dem Anteil an Teilnehmern in verschiedenen
Partnerschaftssituationen bestanden leicht überzufällige Unterschiede. Zum Dritten ist
das Zustandekommen der Unterschiede in den Trennschärfen zwischen BDI-II-V.1 und
BDI-II-V.2.Z nicht geklärt, wodurch insbesondere die Ergebnisse der Rangkorrelationen der Trennschärfen von BDI-II-V und BDI-II innerhalb der Teilstichproben nur vorläufig interpretiert werden sollten. Einerseits ist es möglich, dass sich in den durchgängig niedrigeren Trennschärfen des BDI-II-V.2.Z die unangemessenere Ausformulierung
der Schlaf- und Appetit-Items in dieser Version ausdrückt und dass diese Items im
BDI-II-V.1 besser ins Gesamtbild der anderen Items passen. Wahrscheinlicher ist jedoch ein Zustandekommen durch zufällige Stichprobenunterschiede, deren weitere
Auswirkungen nicht abgeschätzt werden können. Zum Vierten und insbesondere aber
handelt es sich in allen Fällen um rein deskriptive Vergleiche der Größe bestimmter
Koeffizienten und Gütemaßstäbe, deren Unterschied nicht zufallskritisch abgesichert
ist.
Diskussion
159
Geht man jedoch davon aus, dass die Ergebnisse trotz der dargelegten Einschränkungen
substanzieller Natur sind und die Items des BDI-II zu Schlaf und Appetit tatsächlich
besser durch die entsprechenden Items des BDI-II-V.1 repräsentiert werden, wäre eine
theoretische Erklärung der Befunde zu versuchen.
Die Items zielen ursprünglich darauf ab, die Symptomatik einer Depression zu erfragen,
wie sie sich in Schlaf und Appetit niederschlagen kann. Dabei weisen Betroffene in der
Regel entweder eine Verschlechterung oder eine Steigerung von Schlaf beziehungsweise Appetit auf (Saß et al., 2003). Es geht also um eine auffällige Veränderung der Phänomene in eine Richtung, die der Betroffene in der Regel als belastend erlebt. Dementsprechend erzwingt die Instruktion des Original-BDI-II schon beim Ausfüllen eine Entscheidung ob – im Vergleich zu früheren Zeiten – eine Zunahme oder eine Abnahme
von Schlaf beziehungsweise Appetit aufgetreten ist.
Wird dagegen wie im BDI-II-V.2 nach „außergewöhnlich viel“ und „außergewöhnlich
wenig“ Schlaf beziehungsweise Appetit gefragt, könnte es sein, dass in der Urteilsfindung der Probanden in erster Linie ein Abwägen stattfindet, wie oft es in den letzten
beiden Wochen vorkam, dass sie eher mehr als gewöhnlich geschlafen (Appetit empfunden) haben und wie oft es vorkam, dass sie eher weniger als gewöhnlich geschlafen
(Appetit empfunden) haben. Die erzwungene Stellungnahme zur Ausprägung der Phänomene in beide Richtungen führt damit zumindest bei weitgehend gesunden Probanden, bei denen nicht – wie im Falle einer akuten Depression – eine Veränderung im
Vordergrund steht, sondern im Rahmen des normalen Alltagsgeschehens Tage mit viel
und wenig Schlaf (Appetit) vorkommen, möglicherweise zu einer verzerrten Abbildung
dessen, was ursprünglich mit dem Item erfragt werden sollte.
Damit wäre es nachvollziehbar, dass die global gehaltenen Items des BDI-II-V.1 („Ich
leide unter Schlafstörungen“ und „Mein Appetit ist anders als früher“) auch bei Gesunden den eigentlichen Hintergrund des Items besser abbilden. Sie sind vermutlich stärker
mit dem im Original-BDI-II entscheidenden Aspekt einer auffälligen Veränderung
und/oder des Leidens verknüpft und verleiten nicht zu einem schlichten Abwägen alltäglicher Schwankungen in der Dauer des Schlafs respektive der Intensität des Appetits.
Sollte dies der Fall sein, müsste sich in klinischen Stichproben ein höherer Zusammenhang zwischen den Schlaf- und Appetit-Items des BDI-II-V.2.Z und denen des BDI-II
zeigen als in der Bevölkerungsstichprobe, da bei Erkrankten häufiger tatsächlich eines
Diskussion
160
der Phänomene (zu viel oder zu wenig) im Vordergrund steht und alltäglich Schwankungen überlagert, die so die Antworten weniger verzerren können.
Eine Rolle in den niedrigeren Korrelationen der Schlaf- und Appetititems des
BDI-II-V.2.Z mit den entsprechenden Items des Originals im Vergleich zu den Korrelationen, die Schlaf- und Appetit-Items des BDI-II-V.1 mit den Items des Originals erzielten, könnte zudem die übermäßige Gewichtung von viel Schlaf beziehungsweise Appetit gespielt haben. Im Rahmen klinischer Depressionen kommt eine Verschlechterung
von Schlaf und Appetit viel häufiger vor als deren Zunahme. Eine Steigerung von
Schlaf und Appetit zeigt sich vor allem in der seltenen Ausprägung der Major Depression mit atypischen Merkmalen, die insbesondere dann auftritt, wenn es sich um mit
saisonalem Muster rezidivierende depressive Episoden handelt (Saß et al., 2003). Im
BDI-II-V.2. wird dagegen immer auch eine Angabe verlangt, wie häufig außergewöhnlich viel geschlafen und gegessen wurde. Jedes Mal, wenn das Empfinden eines Zuviel
häufiger vorkam als das Empfinden eines Zuwenig und die Ziffer des außergewöhnlich
viel-Items damit die Ziffer des außergewöhnlich wenig-Items überstieg, wurde sie als
endgültiger Wert des Items verwendet. In Verbindung mit der weiter oben geäußerten
Vermutung, dass das Item Probanden zu einem reinen Abwägen von mehr oder weniger
veranlasst, könnte dies alleine durch zufällige Schwankungen nicht selten der Fall gewesen sein. Dadurch ging sehr häufig ein Wert ein, der mit depressiver Symptomatik in
den seltensten Fällen zu tun hat. Dieses Übergewicht gilt ganz besonders für das Appetit-Item, nachdem in der erwachsenen Bevölkerung sehr viele Menschen (durchgehend
oder phasenweise) unter dem Eindruck leiden, eher zu viel als zu wenig Appetit zu haben.
Die Erklärungsversuche könnten einer Plausibilitätsprüfung unterzogen werden, indem
getestet wird, ob die Zusammenhänge wie vorhergesagt in klinischen Stichproben anders ausfallen als in der hier untersuchten Bevölkerungsstichprobe.
Vorstellbar wäre auch der Versuch, ähnlich der Instruktion des BDI-II, die Probanden
nur eines der Schlaf- und eines der Appetit-Items des BDI-II-V.2 beantworten zu lassen
oder eine Art Filterfrage vorzuschalten. Diese könnte zunächst abfragen, ob in den letzten zwei Wochen eher viel oder eher wenig Schlaf (Appetit) vorhanden war und danach
eine Angabe erbitten, wie häufig außergewöhnlich viel respektive außergewöhnlich wenig Schlaf oder Appetit vorkamen.
Diskussion
161
Soll die Abbildung der Symptome in Schlaf und Appetit in Form von je zwei Items beibehalten werden, müsste ihre Formulierung näher an die des Originals herangeführt
werden. Es dürfte nicht mehr nach „außergewöhnlich viel“ und „außergewöhnlich wenig“ Schlaf respektive Appetit gefragt werden, sondern es müsste der Aspekt der Veränderung gegenüber sonst aus dem Original übernommen werden. Beispielsweise
könnte man formulieren:

Ich habe weniger als sonst geschlafen (nie … fast immer)

Ich habe mehr als sonst geschlafen (nie … fast immer)
und

Ich hatte weniger Appetit als sonst (nie … fast immer)

Ich hatte mehr Appetit als sonst (nie … fast immer)
Die Items so zu belassen und ihre Auswertung zu verändern, indem die beiden Schlafund Appetit-Items jeweils gemittelt werden, scheint in keinem Falle angebracht.
Dadurch würden ernsthafte Probleme in Form von entweder zu viel oder zu wenig
Schlaf respektive Appetit relativiert, wenn durch eine niedrige Angabe auf dem zweiten
Item der Wert des gemittelten Items sinkt.
6.1.4 BDI, BDI-V, BDI-II und BDI-II-V im Vergleich
Die Berechnung bivariater Zusammenhänge zwischen allen eingesetzten Varianten des
Beck Depressionsinventars BDI, BDI-V, BDI-II und BDI-II-V ergibt sehr hohe Korrelationen jeweils zwischen den beiden gleich skalierten Originalversionen (r = .94) und
zwischen den verkürzten Versionen (r = .93). Die vier weiteren Koeffizienten jeweils
zwischen einem Original und einer verkürzten Version fallen niedriger, aber dennoch
hoch aus (r = .85 – 86), wobei es unerheblich scheint, ob die Korrelation zwischen einem Original und der zugehörigen Verkürzung oder die Korrelation zwischen einem
Original und der nicht-zugehörigen Verkürzung bestimmt wird. Ähnliche Skalierung
schlägt sich damit wesentlich deutlicher im Zusammenhangsmuster der Fragebögen
nieder als inhaltliche Übereinstimmung.
Wie die mittleren Summenwerte von BDI-II und reskaliertem BDI-II-V, so unterscheiden sich auch die mittleren Summenwerte von BDI und reskaliertem BDI-V überzufällig. Die verkürzten Versionen sind jeweils etwas leichter als das Original. Wie in Unter-
Diskussion
162
suchungen für das amerikanische BDI und BDI-II (Dozois et al., 1998), so zeigt sich
auch in dieser Untersuchung für das deutsche BDI, dass Probanden in der zweite Auflage ganz leicht höhere Werte (mittlere Differenz 1.2 Punkte) erzielen; ein Unterschied,
der in dieser Stichprobe signifikant wird.
Die internen Konsistenzen der Inventare sind allen früheren Ergebnissen (Hautzinger et
al., 1995; Hautzinger et al., 2006; Schmitt et al., 2003; Schmitt & Maes, 2000) entsprechend sehr hoch, wobei sich die Befunde in dieser Untersuchung allesamt am oberen
Rand der Konsistenzwerte, die für die einzelnen Inventare zuvor gefunden wurden, bewegen. Den Anfang macht das BDI mit einem Koeffizient α von .89, direkt danach liegt
das BDI-II, dessen interne Konsistenz sich in der vorliegenden Arbeit auf .92 beläuft;
noch etwas konsistenter sind die verkürzten Versionen mit einem α von .94 (BDI-V)
respektive .95 (BDI-II-V). Wird die Homogenität nach Maßgabe der Itemtrennschärfen
bestimmt, ergibt sich ein identisches Bild im Vergleich der Inventare: Die durchschnittlich trennschärfsten Items besitzt das BDI-II-V (M (rit) = .69), in entsprechender Höhe
liegt die mittlere Trennschärfe des BDI-V (M (rit) = .66); schon ein wenig niedriger fallen die Zusammenhänge der Items mit dem Summenwert aller anderen Items im BDI-II
aus (M (rit) = .57), für das BDI wurde eine mittlere Itemtrennschärfe von .50 gefunden.
Im Vergleich mit früheren Befunden zu BDI (Hautzinger et al., 1995), BDI-V (Schmitt
et al., 2003) und BDI-II (Hautzinger et al., 2006) fallen die mittleren Trennschärfen in
dieser Stichprobe im oberen Bereich dessen aus, was man erwarten konnte, wie es sich
schon für die internen Konsistenzen gezeigt hatte.
Mit den Dimensionen des Big Five Persönlichkeitsmodells bestehen für alle Formen
ähnliche Zusammenhänge.
In konfirmatorischen Faktorenanalysen werden die Zusammenhänge zwischen den vier
Inventaren BDI, BDI-V, BDI-II und BDI-II-V weder von dem postulierten Modell essentiell τ-paralleler Variablen, noch von exploratorisch überprüften, weniger restringierten Modellen essentiell τ-äquivalenter oder τ-kongenerischer Variablen zufriedenstellend beschrieben. Selbst das Logarithmieren der Summenwerte, das im Falle der „kleinen“ Modelle für BDI-II und BDI-II-V zu perfektem Fit geführt hatte, verbesserte den
Modellfit nicht soweit, dass er akzeptabel gewesen wäre. Perfekte latente Korrelationen
zwischen den Inventaren hatten sich schon in den Modellen des BDI-II und BDI-II-V
nicht bestätigen lassen und waren daher ebenso wenig in der Modellierung aller BDIs
Diskussion
163
nachzuweisen. Bei freier Schätzung messfehlerbereinigter Korrelationen zwischen den
BDI-Faktoren lässt sich zwar perfekter Modellfit erzielen, doch es treten Heywood
Cases auf: Die Korrelation zwischen dem Faktor des BDI und dem Faktor des BDI-II
übersteigt 1. Die anderen latenten Korrelationen bewegen sich zwischen .98 (Korrelation zwischen den Faktoren der verkürzten Inventare) und .91 bis .93 (weitere Koeffizienten).
Das Muster manifester bivariater Korrelationen zwischen den Inventaren und die Ergebnisse der bisherigen Versuche, ein die Struktur der Daten beschreibendes Modell zu
finden, hatten eindeutig einen systematischen Einfluss der unterschiedlichen Skalierung
der originalen und verkürzten Inventare angezeigt. Dieser Einfluss wurde in einem
nächsten Schritt als Methodenfaktor im Modell berücksichtigt. In Anlehnung an das von
Eid (2000) eingeführte Prinzip, einen Methodenfaktor weniger zu spezifizieren, als Methoden eingesetzt wurden, wurde nur ein Methodenfaktor ins Modell aufgenommen.
Die Methode, die nicht modelliert wird, wird zur Standardmethode. Der Methodenfaktor bildet dann Abweichungen von der Messung eines Traits mit der Standardmethode
ab (Eid, 2000). Zunächst wurde die Originalskalierung zur Standardmethode gemacht,
BDI-V und BDI-II-V als Indikatoren eines Methodenfaktors gewählt und ihre Verbindung zu diesem Faktor in der Modellspezifikation als identisch festgelegt. Spezifiziert
man im Modell weiterhin, dass alle vier Inventare gleich stark mit dem Traitfaktor Depression verknüpft sein sollen, weist das Modell keinen Fit auf. Lockert man diese Restriktion, fittet das Modell perfekt. Die Konsistenz von BDI-V und BDI-II-V fällt hoch,
ihre Methodenspezifität niedrig aus, 78 respektive 77% der Varianz in den Werten werden nach diesem Modell durch den interessierenden Trait, 17 respektive 14% der Varianz durch die Wahl einer anderen Methode als die der Originalskalierung bestimmt. Die
Abbildung der Depressivität durch die verkürzten Versionen der BDIs kann gut, aber
nicht perfekt durch die Werte der Originalformen vorhergesagt werden. Die Überprüfung eines Modells, in dem die Rollen von Standard- und Vergleichsmethode getauscht
werden, also die beiden Original-BDIs auf einen Methodenfaktor zurückgeführt werden,
führt zum gleichen Schluss. Die wahren Depressionswerte, die ein Original-BDI misst,
unterscheiden sich mäßig von den wahren Depressionswerten, die ein verkürztes BDI
misst.
Diskussion
164
6.2 Einschränkungen und Kritik
Dieser Abschnitt dient der Beschreibung und Kritik von Umständen und Vorgehensweisen, die die Interpretierbarkeit und Generalisierbarkeit der Ergebnisse dieser Studie einschränken. Wo immer es möglich scheint, werden Alternativen beschrieben, die in
künftigen Untersuchungen ähnliche Beschränkungen vermeiden oder überwinden könnten.
6.2.1 Stichprobe
Zur realisierten Stichprobe lassen sich zwei Aspekte kritisch anmerken: Die Auswahl
einer nicht klinischen Stichprobe und die mangelnde Bevölkerungsrepräsentativität, die
sich besonders deutlich zeigt in der Unterrepräsentation von Teilnehmer unter 20 Jahren.
6.2.1.1 Auswahl der Stichprobe
Insgesamt ist es nicht optimal, Depressionsinventare an reinen Bevölkerungsstichproben
zu untersuchen. Zum einen war zu erwarten, dass daraus Varianzeinschränkungen respektive Bodeneffekte resultieren würden, da Depressivität in einer nicht-klinischen
Stichprobe nicht ausgeglichen oder normal verteilt sein kann. Die Verteilungsform der
Daten verletzte so die Voraussetzungen der eingesetzten Verfahren und trug im Falle
der konfirmatorischen Faktorenanalysen vermutlich zu den nicht erwartungskonformen
Resultaten bei. Insbesondere für die Analysen, die nur BDI-II und BDI-II-V modellierten, ist nicht zu sagen, inwieweit der nicht zufriedenstellende Modellfit mit den ungünstigen Verteilungseigenschaften der Daten zusammenhängt und inwieweit er tatsächlich
Mängel in der Messäquivalenz der Inventare wiederspiegelt. Zwar wäre auch in klinischen Stichproben oder aus klinischen und gesunden Stichproben zusammengesetzten
Gruppen nicht unbedingt eine Normalverteilung zu erwarten, aber insgesamt würde sich
die Varianz in den Daten vergrößern und die Form der Verteilung würde zumindest
etwas näher an eine Normalverteilung heranreichen. Zum anderen sind die gefundenen
Resultate nicht auf die Verhältnisse in klinischen Populationen generalisierbar.
Diskussion
165
6.2.1.2 Repräsentativität der Stichprobe
Die realisierte Stichprobe ist nicht bevölkerungsrepräsentativ, was die Generalisierbarkeit der Ergebnisse auch innerhalb nicht-klinischer Populationen weiter einschränkt.
Eine exakte Bevölkerungsrepräsentativität war im Rahmen dieser Arbeit nicht zu realisieren und wurde auch nicht explizit angestrebt. Ein Aspekt verdient trotzdem eine kurze Beleuchtung.
Besonders deutlich unterrepräsentiert ist die Gruppe der unter 20-Jährigen. Dies hat
zwei Gründe. Zum einen war der Zugang zu Jugendlichen schwierig, so dass schon die
Rekrutierungsquote unter der für alle anderen Altersgruppen lag. Institutionen, über die
an viele Jugendliche gleichzeitig hätte herangetreten werden können, wären zum Beispiel Schulen oder Vereine gewesen. Um in diesem Rahmen für die Teilnahme an der
Studie zu werben, hätte das Einverständnis sowohl von Institutionsleitung
und -mitarbeitern, als auch von allen Eltern eingeholt werden müssen. Dies erschien der
Autorin unverhältnismäßig für die Zwecke einer ersten Untersuchung eines neu entworfenen Fragebogens. Sollte sich der Fragebogen jedoch bewähren und weitergehende
Analysen und Normierungsuntersuchungen angestrebt werden, wäre der Weg über offizielle Institutionen eine Möglichkeit, die Gruppe Jugendlicher und junger Erwachsener
anzusprechen.
Der zweite Grund besteht in der überproportional hohen Ausschlussquote. Von den 10
antwortenden Teilnehmern unter 20 Jahren mussten 5 (also 50%)29 aus der Stichprobe
genommen werden, da ihre Fragebögen eindeutig auf unverständiges oder nicht ernsthaftes Ausfüllen schließen ließen. So war zum Beispiel in allen Items die gleiche Ziffer
angekreuzt und/oder die Kombination der ausgewählten Antwortmöglichkeiten war
äußerst fragwürdig respektive unmöglich.
Jugendliche hätten grundsätzlich durch die Autorin selbst oder durch von der Autorin
gut eingewiesene Personen angesprochen und genauer instruiert werden müssen, um
sicherzustellen, dass ihnen Sinn und Bedeutung der Arbeit zumindest vermittelt wurden.
Möglicherweise ist es generell schwer realisierbar, jugendliche Teilnehmer mittels eines
Schneeballsystems zu rekrutieren. Vermutlich ließe sich eine höhere Quote mit Bedacht
ausgefüllter Fragebögen zurückerhalten, wenn die Untersuchung in einem offiziellen
29
Zum Vergleich: Die Ausschlussquote für die Stichprobe der Rücksender ab 20 Jahren lag bei 3%.
Diskussion
166
Rahmen (s. o.) angekündigt oder – noch besser – auch durchgeführt würde, als bei „inoffiziellen“ Ansprachen durch Freunde oder Bekannte.
6.2.2 Datenaufbereitung
Ungünstig war das Vorgehen bei der Datenaufbereitung, die zu viel Wert darauf legte,
die Power nicht durch vermeidbare Ausschlüsse von Probanden zu reduzieren. Aus diesem Grund wurde darauf verzichtet, Probanden mit fehlenden Werten in einem der Inventare von vorne herein aus den Analysen auszuschließen. Letztendlich wurden aber
Stichproben ohne fehlende Werte benötigt, so dass die Ausschlüsse im Nachhinein vorgenommen wurden. Da nicht alle Arbeitsschritte wiederholt werden konnten, sind die
Stichprobenumfänge zwischen Vor- und endgültigen Analysen und in Einzelfällen auch
innerhalb der endgültigen Analysen nicht exakt identisch. Dies ist nicht optimal und
machte zudem eine komplizierte Darstellung des Prozesses nötig, um Umschlüssigkeiten zu vermeiden. Solche wären aufgetreten, wenn unterschiedliche Stichprobenumfänge oder Unterschiede in vorläufigen30 und endgültigen Trennschärfeanalysen aufgefallen, aber unerklärt geblieben wären. Eine bessere Alternative zum gewählten Vorgehen
wäre gewesen, in Fragebögen, in denen nur vereinzelte Items fehlten, diese durch Imputation zu ersetzen und nur Probanden, für die in einem Fragebogen (zum Beispiel durch
das Überblättern einer Seite) mehrere Items fehlten, aus der Stichprobe zu nehmen. So
wäre eine Stichprobe ohne fehlende Werte entstanden und gleichzeitig wäre die Power
nur in vernachlässigbarem Umfang reduziert worden.
6.2.3 Aussagekraft der Untersuchungen zum BDI-II-V in der Gesamtstichprobe
Es ist kritisch zu reflektieren, was die Ergebnisse zum BDI-II-V aussagen, der aus der
Zusammenfassung der Varianten BDI-II-V.1 und BDI-II-V.2.Z hervorging, um Analysen in der Gesamtstichprobe mit großem Stichprobenumfang vornehmen zu können.
Den Auswertungen wurde der Gedanke zu Grunde gelegt, dass diese Analysen einen
globalen Eindruck vermitteln und die Berechnungen in den Teilstichproben für das
BDI-II-V.1 und BDI-II-V.2(.Z) das Ergebnis weiter spezifizieren würden.
30
Die vorläufigen Analysen werden nicht berichtet, kommen aber indirekt in der Verteilung der Items auf
jene Parcels zum Ausdruck, die auf der Basis der Trennschärfen erstellt wurden.
Diskussion
167
In jedem Falle sind alle Analysen, die sich in dieser Arbeit auf das BDI-II-V beziehen,
nicht exakt auf eine endgültige Variante des BDI-II-V übertragbar, in der die Items zu
Schlaf und Appetit in der einen oder anderen hier untersuchten oder sogar einer dritten
Weise ausgestaltet sein werden.
6.2.4 Interpretierbarkeit der konfirmatorischen Faktorenanalysen
Die Interpretierbarkeit der Ergebnisse konfirmatorischer Faktorenanalysen ist insbesondere dadurch eingeschränkt, dass alle Analysen, die einen perfekten Fit erzielten, entweder an logarithmierten Daten vorgenommen wurden oder Modelle testeten, die erst
exploratorisch im Laufe der Analysen entstanden. Der Fit von Modellen, die nicht die
Rohdaten, sondern in ihrer Verteilung nicht-linear veränderte Daten untersuchen, kann
nicht auf die realen Verhältnisse übertragen werden. Die Ergebnisse geben maximal
Auskunft darüber, wie der Fit möglicherweise durch die Verteilung der Daten beeinflusst worden ist. Die Passung von Modellen, die nicht im Vorhinein theoretisch angenommen, sondern während der Analysen auf der Basis von in den erhobenen Daten
vorgefundenen Verhältnissen entwickelt wurden, bedarf einer Bestätigung in neuerlichen Untersuchungen, bevor sie endgültig interpretiert werden darf. Eine Option hätte
darin bestanden, die Stichprobe vor den Analysen zu unterteilen und die in der ersten
Hälfte gut passenden Modelle an der zweiten Hälfte direkt zu überprüfen (Kreuzvalidierung).
6.2.5 Vergleich von BDI-II-V.1 und BDI-II-V.2
In der Frage, ob das BDI-II-V.1 oder das BDI-II-V.2 (beziehungsweise dessen Auswertung als BDI-II-V.2.Z) dem BDI-II besser entspricht, sind Schlussfolgerungen aus den
Analysen dieser Untersuchung nur auf der Basis rein deskriptiver Vergleiche von Differenzen, Koeffizienten und Modellgüteindizes möglich, die nicht auf Signifikanz überprüft wurden.
Die Indizes, die zum inferenzstatistischen Vergleich des Fits von Modellen konfirmatorischer Faktorenanalyen existieren (wie der χ2-Differenzentest für ineinander verschachtelte Modelle oder andere Maße für nicht verschachtelte Modelle, beispielsweise Akaike‘s Information Criterion, AIC), sind nur zur Anwendung auf Modelle konzipiert, die
im selben Datensatz gerechnet wurden (Hox, 2002) und konnten daher keine Verwen-
Diskussion
168
dung finden. Zum Vergleich von Modellen in verschiedenen Stichproben existieren
jedoch Mehr-Gruppen-Lösungen, zum einen Multiple-Groups CFA und zum anderen
MIMIC-Models (Analysen, die Kovariaten enthalten; Brown, 2006). Diese Methoden
sind dafür geeignet, zu überprüfen, ob sich Struktur und Parameter eines Modells in
zwei verschiedenen Gruppen (wie zum Beispiel Männern und Frauen) entsprechen oder
nicht (ein klassischer Ansatz zur Messinvarianzüberprüfung, vgl. Abschnitt 2.4). Im
Rahmen dieser Methodik hätten sich wahrscheinlich auch Vergleiche zwischen der
Konvergenz mit dem Original von BDI-II-V.1 und .2 realisieren lassen, die damit inferenzstatistisch abgesichert gewesen wären. Unter Verwendung der zusammengefassten
Auswertung von BDI-II-V in der Gesamtstichprobe wäre die Variante des BDI-II-V (1
vs. 2) die Gruppierungsvariable gewesen. So hätte zum Beispiel die latente Korrelation
zwischen den Faktoren von BDI-II und BDI-II-V in beiden Stichproben auf Gleichheit
getestet und damit die Frage beantwortet werden können, ob das BDI-II-V.1 signifikant
höher mit dem BDI-II korreliert als das BDI-II-V.2.Z oder ob es sich bei der gefundenen höheren latenten Korrelation um einen rein zufälligen, augenscheinlichen Unterschied handelt.
Die Zuverlässigkeit der Schlussfolgerungen aus dieser Untersuchung ist zudem durch
Unterschiede zwischen den Stichproben beeinträchtigt, deren Auswirkungen nicht abzuschätzen sind. Die Teilstichproben unterschieden sich leicht in Bezug auf das depressive
Niveau und differierten ebenso ein wenig im Bereich der soziodemographischen Zusammensetzung. Darüber hinaus bleibt die Arbeit eine sichere Antwort auf die Ursache
der durchgängig niedrigeren Trennschärfen der Items des BDI-II-V.2 schuldig.
6.2.6 Modellgütebeurteilung und Interpretation der Modelle
Modellgüteindizes sind neben der Güte der Modellspezifikation auch abhängig von der
Stichprobengröße, von der Verteilung der Daten, dem verwendeten Schätzer und der
Modellkomplexität und sind daher immer im Lichte dieser Umstände zu bewerten
(Brown, 2006). Neben der suboptimalen Verteilung der Daten, auf die bereits eingegangen wurde, könnte der verwendete Schätzalgorithmus ein Problem dargestellt haben.
Die Cut-Off-Kriterien, die bei der Beurteilung der Modellgüteindizes RMSEA, SRMR,
CLI und TLI zu Grunde gelegt wurden und die sich hauptsächlich an den Empfehlungen
von Hu und Bentler (1999) orientieren, wurden von den Autoren explizit unter Annahme einer Modellschätzung mit dem ML-Schätzer formuliert. Die konfirmatorischen
Diskussion
169
Faktorenanalysen in dieser Arbeit wurden dagegen mit dem MLM-Schätzer durchgeführt. So könnte man die Frage stellen, ob die Modelle auf der Basis der Modellgüteindizes adäquat bewertet wurden. Zumindest für den Fall einer zu liberalen Bewertung
kann jedoch relativierend hinzugefügt werden, dass der Fit immer dann mit einer MLSchätzung und den dabei ausgegebenen Güteindizes überprüft wurde, wenn die MLMSchätzung einen guten Fit nahegelegt hatte31.
Insgesamt wurde möglicherweise zu viel Wert auf die Suche nach einem Modell, das
die Struktur der Daten nach Maßgabe von χ2-Test und Fitindizes gut beschreiben würde,
gelegt und in Folge dessen die tiefgründige Interpretation weiterer Aspekte der Modelle
vernachlässigt. So wären sicher noch einige Schlussfolgerungen zur Beziehung der Fragebögen zueinander und den Ursachen für (schlechten) Modellfit aus der Ausprägung
der Parameterschätzer oder Residualstatistiken ableitbar gewesen (vgl. Brown, 2006).
6.3 Fazit und Anregungen für weiterführende Untersuchungen
Nach bisherigen Analysen steht mit dem vereinfachten BDI-II (BDI-II-V) ein reliables,
valides und ökonomisches Instrument zur Erfassung von Depressivität in enger Anlehnung an die Kriterien des aktuellen Diagnostischen und Statistischen Manuals Psychischer Störungen (DSM-IV-TR) der American Psychiatric Association (2000) zur Verfügung. Für seine Konstruktvalidität sprechen neben hohen Korrelationen mit dem etablierten Original (BDI-II) auch hohe Korrelationen mit Neurotizismus und niedrige bis
mittelhohe Korrelationen mit Extraversion, Offenheit für Erfahrung, Verträglichkeit und
Gewissenhaftigkeit.
Auf der Ebene deskriptiver Maße entspricht das BDI-II-V gut dem Original, wenn die
verkürzte Version auch etwas leichter ist. Mittels konfirmatorischer Faktorenanalysen
konnte in der hier verwendeten Bevölkerungsstichprobe mit stark rechtsschief verteilter,
niedriger durchschnittlicher Depressivität jedoch keine Messäquivalenz der beiden Inventare nachgewiesen werden. Je nach verwendeter Ausgestaltung des BDI-II-V wurden zwischen latenten Faktoren, die das BDI-II und das BDI-II-V repräsentierten, beachtliche Korrelationen von .91 bis .94 erzielt. Korrigierte Itemtrennschärfen und interne Konsistenz des BDI-II-V sind sogar noch etwas höher als die des Originals.
31
Mit Ausnahme der Modelle, die logarithmierte Daten verwendeten; die Interpretierbarkeit dieser Modelle ist jedoch ohnehin eingeschränkt und ihre Resultate bilden nicht die Basis inhaltlicher Schlussfolgerungen
Diskussion
170
Es wurden vorläufig zwei Varianten des BDI-II-V, die sich in den Items zu den Symptomen Schlaf und Appetit unterscheiden, vorgeschlagen. Das BDI-II-V.1 fragt die
Symptome jeweils in einem globalen Statement ab („Ich leide unter Schlafstörungen“
und „Mein Appetit ist anders als früher“), das BDI-II-V.2 formuliert zu den Symptombereichen je zwei Fragen, die Beschwerden in beide Richtungen erfassen, („Ich schlafe
außergewöhnlich wenig“/“Ich schlafe außergewöhnlich viel“ und „Ich habe außergewöhnlich wenig Appetit“/“Ich habe außergewöhnlich viel Appetit“). In der Auswertung
des BDI-II-V.2 wird dabei jeweils nur die höher bewertete der beiden Aussagen zu
Schlaf und Appetit gezählt. Die beiden Varianten konnten zusammengefasst und gemeinsam als „BDI-II-V“ untersucht werden (s.o.); wurden aber auch getrennt analysiert
und verglichen. Die Ergebnisse sprachen augenscheinlich für eine bessere Äquivalenz
von BDI-II-V.1 und BDI-II als von BDI-II-V.2 und BDI-II sowie für bessere psychometrische Eigenschaften des BDI-II-V.1. Dieser Befund sollte wegen verschiedener
Unklarheiten und teilweisen Unzulänglichkeiten der eingesetzten Methoden bis auf weiteres jedoch nicht generalisiert werden, sondern zunächst an neuen Stichproben überprüft werden.
Schließlich wurden die erste (Hautzinger et al., 1994) und die zweite Auflage (Hautzinger et al., 2006) des deutschen Beck Depressionsinventars zusammen mit vereinfachten
Varianten der Inventare, dem BDI-V (Schmitt & Maes, 2000) und dem hier vorgeschlagenen BDI-II-V parallelen Vergleichen ihrer Messeigenschaften unterzogen. Auf der
Ebene deskriptiver Maße zeigte sich, dass die beiden Original-Auflagen und die beiden
verkürzten Versionen jeweils sehr hoch korrelieren. Der Zusammenhang zwischen einem Original-BDI und dessen Verkürzung oder zwischen einem Original-BDI und der
Verkürzung des jeweils anderen Originals ist etwas niedriger. Der Summenwert, den ein
Proband im BDI-II erzielt, liegt durchschnittlich 1.2 Punkte höher als sein Ergebnis im
BDI. Die vereinfachten BDIs sind etwas leichter als die Originale. Das BDI ist etwas
weniger konsistent als das BDI-II und seine Items sind etwas weniger trennscharf. Interne Konsistenz und Itemtrennschärfe der vereinfachten Inventare sind höher als interne Konsistenz und Itemtrennschärfe der Original-BDIs. Konfirmatorische Faktorenanalysen mussten von dem Ziel, die inhaltliche Übereinstimmung der Verfahren in einem
Modell essentiell τ-paralleler Variablen nachzuweisen, abrücken. Es zeigte sich, dass
das Zusammenhangsmuster zwischen den vier Versionen des BDI neben inhaltlichen
Aspekten sehr deutlich durch die Unterschiede in der Skalierung zwischen Originalen
Diskussion
171
und Verkürzungen geprägt war. So erzielte ein Modell, das die Zusammenhänge zwischen den Inventaren auf eine latente Dimension Depressivität zurückführte, erst perfekten Fit, nachdem die unterschiedliche Skalierung in Form eines Methodenfaktors im
Modell berücksichtigt wurde. Die Analyse führte zu dem Schluss, dass die wahren Werte eines Originals und einer vereinfachten Version in Folge der Skalierungsunterschiede
nicht perfekt übereinstimmen, wenn auch der Einfluss der Skalierung nur mäßig ausgeprägt ist. Die Konvergenz von Originalen und Verkürzungen übersteigt die Spezifität
der verkürzten Versionen um mehr als das Vierfache.
Insgesamt konnte diese Arbeit einige vorläufige Resultate zu den Messeigenschaften
eines Vorschlages für ein verkürztes BDI-II (BDI-II-V) sowie zur Konvergenz des
BDI-II-V mit dem Original und zur Konvergenz von vier verschiedenen Versionen des
Beck Depressionsinventars erzielen.
Auf viele Fragen konnte keine zufriedenstellende Antwort gefunden werden. Zudem
ergaben sich im Laufe der Auswertungen neue Fragen, die zur Fortsetzung der Analysen anregen. Auf dieser Grundlage werden abschließend mögliche nächste Schritte in
der Weiterentwicklung und Evaluation des BDI-II-V dargestellt.
Weitere Belege für die Konstruktvalidität des BDI-II-V würden seinen Wert steigern.
Die konvergente Validität sollte vor allem über hohe Korrelationen mit etablierten Depressionsmaßen über das BDI-II hinaus nachgewiesen werden, im klinischen Kontext
sollte die Konvergenz des BDI-II-V mit der Diagnostik durch Experten überprüft werden (vgl. Schmitt et al., 2003). Natürlich bieten sich zur Validierung noch weitere Konstrukte an, von denen eine deutliche positive (zum Beispiel Angst, vgl. Hautzinger et
al., 2006) oder negative (zum Beispiel Lebensqualität oder Selbstwertgefühl, vgl.
Hautzinger et al., 2006) Assoziation mit Depressivität bekannt ist. Theorien und Vorbefunden entsprechend niedrige Korrelationen mit der Depression unverwandten Konstrukten (diskriminante Validität) würden das Bild der Konstruktvalidität abrunden. Zu
Variablen, mit denen sich regelmäßig geringe Zusammenhänge ergeben, gehören zum
Beispiel das Alter (vgl. Hautzinger et al., 2006) und das Geschlecht (vgl. Schmitt &
Maes, 2000).
Die wichtigste Verbesserung und Erweiterung gegenüber der vorliegenden Arbeit bestünde darin, für weitere Analysen des BDI-II-V Stichproben einzusetzen, die auch klinisch depressive Patienten umfassen. Idealerweise setzen sich die Stichproben aus An-
Diskussion
172
teilen gesunder Probanden und Anteilen erkrankter Probanden zusammen. So dürften
zum einen die bestmöglichen Verteilungseigenschaften der Daten resultieren. Zum anderen ist nur durch die Untersuchung von Patientenstichproben eine Generalisierung der
Ergebnisse auf den klinischen Kontext möglich, was für einen Depressionsfragebogen
essentiell ist.
Die Modelle, die in dieser Arbeit perfekten Fit erzielten, jedoch auf explorativem Vorgehen beruhten, müssen sich in neuen Untersuchungen bewähren, bevor sie als gültig
angenommen werden dürfen. Dies gilt sowohl für die Modelle zur Überprüfung der
Konvergenz von BDI-II und BDI-II-V, die die Korrelation der latenten Faktoren frei
schätzten, wie auch für das Gesamtmodell, das alle BDIs auf eine latente Dimension
Depressivität zurückführte und zusätzlich einen Methodenfaktor modellierte, um Konsistenz und Methodenspezifität abzuschätzen.
Modelle höherer Stufen der Äquivalenz respektive Modelle mit strengeren Annahmen
zur Entsprechung der Inventare, wie sie sich in dieser Arbeit zumindest nach Maßgabe
des χ2-Tests und des RMSEA nicht akzeptieren ließen, könnten erneut überprüft werden, wenn Daten gewonnen werden können, die bessere Verteilungseigenschaften aufweisen als in dieser Untersuchung. Durch den Einsatz von Stichproben, die sich aus
Bevölkerungs- und klinischen Stichproben depressiver Patienten zusammensetzen, ließe
sich die Varianz in den Daten erhöhen und vermutlich die deutliche Rechtsschiefe der
Verteilung reduzieren sowie Bodeneffekte relativieren.
Im Rahmen der Überprüfung der Messäquivalenz in Modellen konfirmatorischer Faktorenanalysen sollte auch der Vergleich von verschiedenen Ausgestaltungen der Items zu
Schlaf und Appetit fortgesetzt werden, damit eine Entscheidung über eine endgültige
Version des BDI-II-V getroffen werden kann. Die Schlaf- und Appetit-Items des
BDI-II-V.2 haben sich in dieser Arbeit scheinbar nicht bewährt. Es könnte überprüft
werden, ob sich die Resultate mit den hier verwendeten Items des BDI-II-V.2 replizieren lassen oder eher davon ausgegangen werden muss, dass die Ergebnisse dieser Studie
zufälligen Schwankungen oder Stichprobenbesonderheiten zuzuschreiben sind. Besser
wäre es jedoch, bei einer neuerlichen Untersuchung direkt Veränderungen der Schlafund Appetit-Items des BDI-II-V.2 vorzunehmen, da davon auszugehen ist, dass die ursprüngliche Gestaltung gewisse Nachteile hat. Eine Option bestünde darin, mittels Instruktionen oder Filterfragen zu jedem Symptom nur eines der beiden Statements be-
Diskussion
173
werten zu lassen (außergewöhnlich viel oder außergewöhnlich wenig). Eine andere
Möglichkeit wäre eine Umformulierung der Items, die sie dem Original näher bringt:
„Ich habe weniger als sonst geschlafen“/“Ich habe mehr als sonst geschlafen“ und „Ich
hatte weniger Appetit als sonst“/„Ich hatte mehr Appetit als sonst“. In jedem Falle sollten für die Analysen Methoden gewählt werden, die eine inferenzstatistische Absicherung der Befunde erlauben. Möglicherweise wären konfirmatorische Faktorenanalysen
für zwei Gruppen oder konfirmatorische Faktorenanalysen mit Kovariaten dafür geeignet.
Liegt ein Vorschlag für eine endgültige Version des BDI-II-V vor, dessen Messäquivalenz mit dem Original hinreichend belegt werden konnte, wäre eine Untersuchung des
Inventars in einer bevölkerungsrepräsentativen Stichprobe wichtig, um psychometrische
Kennwerte und Normwerte auf einer angemessenen Basis feststellen zu können (vgl.
Schmitt, Altstötter-Gleich, Hinz, Maes & Brähler, 2006).
Damit das BDI-II-V auch im klinischen Kontext eine Alternative an der Seite des
BDI-II darstellen kann, müssten parallel weitere Belege erbracht werden. Es stünden
Überprüfungen an, ob das BDI-II-V valide und dem BDI-II äquivalent gesunde Probanden von klinisch depressiven Patienten trennt und auch zwischen klinischen Gruppen,
zum Beispiel zwischen Angst-, Zwangs- und Depressionspatienten, entsprechend diskriminiert (vgl. Schmitt et al., 2003). Es wäre darüber hinaus zu belegen, dass das Inventar eine ausreichende, dem Original mindestens entsprechende Änderungssensitivität
besitzt, da es sonst nicht in Verlaufsstudien einsetzbar wäre. Zudem sollten, dem BDI-II
entsprechend, Schwellenwerte ermittelt werden, nach denen der Schweregrad depressiver Symptome (bei diagnostizierter depressiver Störung) eingestuft werden kann (vgl.
Hautzinger et al., 2006).
Abbildungsverzeichnis
174
Abbildungsverzeichnis
Abbildung 1 Klassifikation der Affektiven Störungen nach DSM-IV-TR .................. 19
Abbildung 2 Modell essentiell τ-paralleler Variablen des BDI-II und BDI-II-V ........ 87
Abbildung 3 Modell mit perfekter latenter Korrelation zwischen BDI-II und
BDI-II-V .................................................................................................. 89
Abbildung 4 Modell essentiell τ-paralleler Variablen des BDI, BDI-V, BDI-II
und BDI-II-V ........................................................................................... 90
Abbildung 5 Modell mit perfekter latenter Korrelation zwischen BDI, BDI-V,
BDI-II und BDI-II-V ............................................................................... 91
Abbildung 6 Modell
des
BDI,
BDI-V,
BDI-II
und
BDI-II-V
mit
Methodenfaktor ....................................................................................... 96
Abbildung 7 Verteilung der Probanden der Analysestichprobe mit dem Umfang
N = 325 auf verschiedene Altersgruppen .............................................. 117
Abbildung 8 Häufigkeitsverteilung der Summenwerte des BDI-II-V (N = 325) ...... 123
Abbildung 9 Screeplot der Faktoreigenwerte einer Hauptachsenanalyse der
Items des BDI-II-V ............................................................................... 126
Abbildung 10 Vollständig standardisierte Modellparameter für das Modell
essentiell τ-paralleler Variablen des BDI-II und BDI-II-V. Der
Modellfit ist nicht zufriedenstellend. .................................................... 132
Abbildung 11 Vollständig standardisierte Modellparameter für die Modelle mit
fixierter perfekter Korrelation (obere Werte) und mit frei
geschätzter Korrelation (untere Werte) zwischen den latenten
Variablen des BDI-II und BDI-II-V. Das Modell mit fixierter
Korrelation weist keinen vollständig zufriedenstellenden Fit auf.
Das Modell mit frei geschätzter Korrelation fittet perfekt. ................... 134
Abbildung 12 Vollständig standardisierte Modellparameter für die Modelle mit
frei geschätzter Korrelation zwischen BDI-II und BDI-II-V.1
(obere Werte), BDI-II-V.2Z (mittlere Werte) sowie BDI-II-V.2
(untere Werte). Die Modelle fitten perfekt. .......................................... 142
Abbildung 13 Vollständig standardisierte Modellparameter für das Modell τkongenerischer Variablen des BDI, BDI-V, BDI-II und BDI-II-V.
Der Modellfit ist nicht zufriedenstellend. ............................................. 145
175
Abbildung 14 Vollständig standardisierte Modellparameter für ein Modell des
BDI, BDI-V, BDI-II und BDI-II-V mit Methodenfaktor. λ22 und
λ42 wurden in der unstandardisierten Lösung gleichgesetzt. Das
Modell fittet perfekt. ............................................................................. 148
Tabellenverzeichnis
176
Tabellenverzeichnis
Tabelle 1
Beispiele für Items des BDI und entsprechende Items des BDI-V ......... 40
Tabelle 2
Beispiele für Items des BDI-II und entsprechende Items des
BDI-II-V .................................................................................................. 51
Tabelle 3
Die
Items
Veränderungen
der
Schlafgewohnheiten
und
Veränderungen des Appetits des BDI-II und entsprechende Items
des BDI-II-V ........................................................................................... 53
Tabelle 4
Übersicht über die Modellgleichungen der Klassischen Testtheorie ...... 66
Tabelle 5
Mögliche Reihenfolgen (Rotationen) der BDI-Versionen in den
Untersuchungsmaterialien ....................................................................... 84
Tabelle 6
Indizes zur Beurteilung der Modellgüte und Grenzwerte, wie sie
der Modellgütebeurteilung in dieser Arbeit zu Grunde gelegt
wurden ................................................................................................... 102
Tabelle 7
Alle verwendeten Versionen und Auswertungen des BDI im
Überblick ............................................................................................... 106
Tabelle 8
Korrigierte Trennschärfen und Cronbach’s α für alle eingesetzten
Varianten des BDI in der Gesamtstichprobe und den beiden
Teilstichproben ...................................................................................... 121
Tabelle 9
Itemmittelwerte und Itemstandardabweichungen für das BDI-II-V,
BDI-II-V.1, BDI-II-V.2.Z und BDI-II-V.2 ........................................... 124
Tabelle 10
Partielle standardisierte Regressionsgewichte der Items des
BDI-II-V
mit
den
beiden
extrahierten
Faktoren
einer
Hauptachsenanalyse nach Promax-Rotation. ........................................ 127
Tabelle 11
Produkt-Moment-Korrelationen verschiedener BDI-Formen mit
den Skalen des NEO-FFI ...................................................................... 128
Tabelle 12
Korrelation zwischen BDI-II und BDI-II-V, zwischen BDI-II.1
und BDI-II-V.1 sowie zwischen BDI-II.2 und BDI-II-V.2/.Z auf
der Ebene der Items und der Summenwerte.......................................... 130
Tabelle 13
Fitstatistiken für Modelle mit frei geschätzter latenter Korrelation
sowie auf 1.0 fixierter latenter Korrelation zwischen BDI-II und
BDI-II-V.1, BDI-II-V.2Z sowie BDI-II-V.2 ......................................... 141
Tabelle 14
Korrelation der Summenwerte von BDI, BDI-V, BDI-II und
BDI-II-V ................................................................................................ 143
Tabellenverzeichnis
Tabelle 15
177
Veränderungen der Items des BDI-II gegenüber dem BDI in der
deutschsprachigen Version und Bezug der Items zu den
Symptomkriterien (A-Kriterien) der Major Depression nach
DSM-IV bzw. DSM-IV-TR .................................................................. 190
Tabelle 16
Direkter Vergleich aller Items der in dieser Untersuchung
verwendeten Versionen des Beck Depressionsinventars und Bezug
der Items zu den Symptomkriterien (A-Kriterien) der Major
Depression nach DSM-IV bzw. DSM-IV-TR ....................................... 193
Tabelle 17
Verteilung soziodemographischer Merkmale in Gesamt- und
Substichproben ...................................................................................... 222
Tabelle 18
Direkte Gegenüberstellung der Summenwerte aller verwendeten
Varianten des BDI in der reskalierten und nicht-reskalierten
Fassung für die verkürzten Versionen in der Gesamtstichprobe und
den Teilstichproben 1 und 2 .................................................................. 225
Tabelle 19
Verteilung der Items auf die Parcels der Modelle zur parallelen
Analyse jeweils von BDI-II und BDI-II-V, BDI-II.1 und
BDI-II-V.1, BDI-II.2 und BDI-II-V.2.Z sowie BDI-II.2 und
BDI-II-V-.2 ........................................................................................... 226
Tabelle 20
Verteilung der Items auf die Parcels der Modelle zur parallelen
Analyse von BDI, BDI-V, BDI-II und BDI-II-V .................................. 227
Tabelle 21
Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der
manifesten Indikatoren der konfirmatorischen Faktorenanalysen
zur parallelen Analyse von BDI-II und BDI-II-V ................................. 228
Tabelle 22
Interkorrelationen der Itemparcels, die als manifeste Indikatoren
der konfirmatorischen Faktorenanalysen zur parallelen Analyse
von BDI-II und BDI-II-V dienten ......................................................... 229
Tabelle 23
Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der
manifesten Indikatoren der konfirmatorischen Faktorenanalysen
zur parallelen Analyse von BDI-II und und BDI-II-V.1 ....................... 229
Tabelle 24
Interkorrelationen der Itemparcels, die als manifeste Indikatoren
der konfirmatorischen Faktorenanalysen zur parallelen Analyse
von BDI-II und BDI-II-V.1 dienten ...................................................... 229
178
Tabelle 25
Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der
manifesten Indikatoren der konfirmatorischen Faktorenanalysen
zur parallelen Analyse von BDI-II und BDI-II-V.2.Z .......................... 230
Tabelle 26
Interkorrelationen der Itemparcels, die als manifeste Indikatoren
der konfirmatorischen Faktorenanalysen zur parallelen Analyse
von BDI-II und BDI-II-V.2.Z dienten................................................... 230
Tabelle 27
Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der
manifesten Indikatoren der konfirmatorischen Faktorenanalysen
zur parallelen Analyse von BDI-II und BDI-II-V.2 .............................. 230
Tabelle 28
Interkorrelationen der Itemparcels, die als manifeste Indikatoren
der konfirmatorischen Faktorenanalysen zur parallelen Analyse
von BDI-II und BDI-II-V.2 dienten ...................................................... 230
Tabelle 29
Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der
manifesten Indikatoren der konfirmatorischen Faktorenanalysen
zur parallelen Analyse von BDI, BDI-V, BDI-II und BDI-II-V ........... 231
Tabelle 30
Interkorrelationen der Itemparcels, die als manifeste Indikatoren
der konfirmatorischen Faktorenanalysen zur parallelen Analyse
von BDI, BDI-V, BDI-II und BDI-II-V dienten ................................... 232
Literaturverzeichnis
179
Literaturverzeichnis
American Psychiatric Association. (1980). Diagnostic and Statistical Manual of Mental
Disorders. Third Edition. Washington, DC: American Psychiatric Association.
American Psychiatric Association. (1994). Diagnostic and Statistical Manual of Mental
Disorders. Fourth Edition. Washington, DC: American Psychiatric Association.
American Psychiatric Association. (2000). Diagnostic and Statistical Manual of Mental
Disorders. Fourth Edition. Text Revision. Washington, DC: American
Psychiatric Association.
Beck, A. T., Rush, A. J., Shaw, B. F. & Emery, G. (1979). Cognitive therapy of
depression. New York: The Guilford Press.
Beck, A. T. & Steer, R. A. (1987). Beck Depression Inventory. Manual. San Antonio,
TX: The Psychological Corporation.
Beck, A. T., Steer, R. A. & Brown, G. K. (1996). Beck Depression Inventory. Second
Edition. Manual. San Antonio, TX: The Psychological Corporation.
Beck, A. T., Ward, C. H., Mendelson, M., Mock, J. & Erbaugh, J. (1961). An Inventory
for Measuring Depression. Archives of General Psychiatry, 4, 561 - 571.
Bentler, P. M. (1990). Comparative fit indexes in structural models. Psychological
Bulletin, 107(2), 238-246.
Bienvenu, O. J., Samuels, J. F., Costa, P. T., Reti, I. M., Eaton, W. W. & Nestadt, G.
(2004). Anxiety and depressive disorders and the five-factor model of
personality: A higher- and lower-order personality trait investigation in a
community sample. Depression and Anxiety, 20, 92-97.
Blaser, P., Löw, D. & Schäublin, A. (1968). Die Messung der Depressionstiefe mit
einem Fragebogen. Psychiatria clinica, 1(5), 299-319.
Borkenau, P. & Ostendorf, F. (1993). NEO-Fünf-Faktoren Inventar (NEO-FFI) nach
Costa und McCrae. Handanweisung. Göttingen: Hogrefe.
Literaturverzeichnis
180
Borkenau, P. & Ostendorf, F. (2008). NEO-FFI. NEO-Fünf-Faktoren-Inventar nach
Costa und McCrae. Manual (2., neu normierte und vollständig überarbeitete
Aufl.). Göttingen: Hogrefe.
Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6., vollständig
überarbeitete und aktualisierte Aufl.). Heidelberg: Springer.
Bramesfeld, A. & Stoppe, G. (2006). Einführung. In G. Stoppe, A. Bramesfeld & F.-W.
Schwartz
(Hrsg.),
Volkskrankheit
Depression?
Bestandsaufnahme
und
Perspektiven (S. 1-12). Berlin: Springer.
Brown, T. A. (2006). Confirmatory factor analysis for applied research. New York:
The Guilford Press.
Browne, M. W. & Cudeck, R. (1993). Alternative ways of assessing model fit. In K. A.
Bollen & J. S. Long (Hrsg.), Testing structural equation models (S. 136-162).
Newbury Park, CA: Sage.
Bühl, A. (2010). PASW 18. Einführung in die moderne Datenanalyse (12., aktualisierte
Aufl.). München: Pearson Studium.
Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion (2.,
aktualisierte Aufl.). München: Pearson Studium.
Byrne, B. M., Stewart, S. M., Kennard, B. D. & Lee, P. W. H. (2007). The Beck
Depression Inventory-II: Testing for measurement equivalence and factor mean
differences across Hong Kong and American adolescents. International Journal
of Testing, 7(3), 293-309.
Campbell, D. T. & Fiske, D. W. (1959). Convergent and discriminant validation by the
multitrait-multimethod matrix. Psychological Bulletin, 56(2), 81-105.
CIPS (Collegium Internationale Psychiatriae Scalarum) (Hrsg.). (1996). Internationale
Skalen für Psychiatrie (4., überarbeitete und erweiterte Aufl.). Göttingen: Beltz
Test.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. Aufl.).
Hillsdale, NJ: Erlbaum.
Literaturverzeichnis
181
Costa, P. T., Bagby, R. M., Herbst, J. H. & McCrae, R. R. (2005). Personality selfreports are concurrently reliable and valid during acute depressive episodes.
Journal of Affective Disorders, 89, 45-55.
Costa, P. T. & McCrae, R. R. (1992). Revised NEO Personality Inventory (NEO-PI-R)
and NEO Five Factor Inventory (NEO-FFI). Professional manual. Odessa, FL:
Psychological Assessment Resources.
Cronbach, L. J. & Meehl, P. E. (1955). Construct validity in psychological tests.
Psychological Bulletin, 52(4), 281-302.
Curran, P. J., West, S. G. & Finch, J. F. (1996). The robustness of test statistics to
nonnormality and
specification
error
in
confirmatory factor
analysis
Psychological Methods, 1(1), 16-29.
DeNeve, K. M. & Cooper, H. (1998). The happy personality: A meta-analysis of 137
personality traits and subjective well-being. Psychological Bulletin, 124(2), 197229.
Dilling, H., Mombour, W. & Schmidt, M. H. (Hrsg.). (2010). Internationale
Klassifikation psychischer Störungen. ICD-10 Kapitel V (F). Klinischdiagnostische Leitlinien (7., überarbeitete Aufl.). Bern: Huber.
Dozois, D. J. A., Dobson, K. S. & Ahnberg, J. L. (1998). A psychometric evaluation of
the Beck Depression Inventory-II. Psychological Assessment, 10(2), 83-89.
Duggan, C., Sham, P., Lee, A., Minne, C. & Murray, R. (1995). Neuroticism: a
vulnerability marker for depression evidence from a familiy study. Journal of
Affective Disorders, 35, 139-143.
Eid, M. (2000). A multitrait-multimethod model with minimal assumptions.
Psychometrika, 65(2), 241-261.
Eid, M., Gollwitzer, M. & Schmitt, M. (2010). Statistik und Forschungsmethoden.
Weinheim: Beltz.
Eid, M., Lieschetzke, T. & Nussbeck, F. W. (2006). Structural equation models for
multitrait-multimethod data. In M. Eid & E. Diener (Hrsg.), Handbook of
Literaturverzeichnis
182
multimethod measurement in psychology. Washington, DC: American
Psychological Association.
Fabian-Krause, T. (2011). Einflüsse des zeitlichen Bezugsrahmens auf Angaben zur
eigenen depressiven Befindlichkeit Teil 2. Unveröffentlichte Diplomarbeit,
Universität Landau.
Gastpar, M. (2006). Depression und Komorbidität. In G. Stoppe, A. Bramesfeld & F.W. Schwartz (Hrsg.), Volkskrankheit Depression? Bestandsaufnahme und
Perspektiven (S. 277-286). Berlin: Springer.
Gollwitzer, M. & Jäger, R. S. (2007). Evaluation. Workbook. Weinheim: Beltz.
Gulliksen, H. (1950). Theory of mental tests. New York: Wiley.
Han, K., Burns, G. N., Weed, N. C., Hatchett, G. T. & Kurokawa, N. K. S. (2009).
Evaluation of an observer form of the coping inventory for stressful sitiations.
Educational and Psychological Measurement, 69(4), 675-695.
Hautzinger, M. (2010). Akute Depression. Göttingen: Hogrefe.
Hautzinger, M. & Bailer, M. (1993). ADS. Allgemeine Depressions Skala. Manual.
Göttingen: Beltz Test.
Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1994). Beck-Depressions-Inventar
(BDI) (1. Aufl.). Bern: Verlag Hans Huber.
Hautzinger, M., Bailer, M., Worall, H. & Keller, F. (1995). Beck-Depressions-Inventar
(BDI). Testhandbuch (2., überarbeitete Aufl.). Bern: Verlag Hans Huber.
Hautzinger, M., Keller, F. & Kühner, C. (2006). BDI-II. Beck Depressions-Inventar.
Revision. Manual. Frankfurt am Main: Harcourt Test Services GmbH.
Hautzinger, M. & Meyer, T. D. (2002). Diagnostik Affektiver Störungen. Göttingen:
Hogrefe.
Heckmann, N. (2008). Einflüsse des zeitlichen Bezugsrahmens auf Angaben zur eigenen
depressiven Befindlichkeit. Unveröffentlichte Diplomarbeit, Universität Landau.
Literaturverzeichnis
183
Hox, J. (2002). Multilevel Analysis. Techniques and Applications. Mahwah: Lawrence
Erlbaum Associates.
Hu, L. & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure
analysis: Conventional criteria versus new alternatives. Structural Equation
Modeling, 6(1), 1-55.
Jacobi, F., Wittchen, H.-U., Hölting, C., Höfler, M., Pfister, H., Müller, N. et al. (2004).
Prevalence, co-morbidity and correlates of mental disorders in the general
population: results from the German Health Interview and Examination Survey
(GHS). Psychological Medicine, 34(4), 597-611.
Kendler, K. S. & Myers, J. (2010). The genetic and environmental relationship between
major depression and the five-factor model of personality. Psychological
Medicine, 40, 801-806.
Klein, M. H., Wonderlich, S. & Shea, M. T. (1993). Models of relationships between
personality and depression: Toward a framework for theory and research. In M.
H. Klein, D. J. Kupfer & M. T. Shea (Hrsg.), Personality and depression. A
current view (S. 1-54). New York: Guilford Press.
Kronmüller, K.-T. & Mundt, C. (2006). Persönlichkeit, Persönlichkeitsstörungen und
Depression. Der Nervenarzt, 77(7), 863-878.
Kubinger, K. D. (2003). Gütekriterien. In K. D. Kubinger & R. S. Jäger (Hrsg.),
Schlüsselbegriffe der Psychologischen Diagnostik (S. 195-204). Weinheim:
Beltz.
Kühner, C., Bürger, C., Keller, F. & Hautzinger, M. (2007). Reliabilität und Validität
des
revidierten
Beck-Depressionsinventars
(BDI-II).
Befunde
aus
deutschsprachigen Stichproben. Der Nervenarzt, 78(6), 651-656.
Laux, G. (2009). Affektive Störungen. In H.-J. Möller, G. Laux & A. Deister (Hrsg.),
Psychiatrie und Psychotherapie (4., vollständig überarbeitete und erweiterte
Aufl., S. 76-110). Stuttgart: Thieme.
Literaturverzeichnis
184
Lederbogen, F. (2006). Körperliche Komorbidität. In G. Stoppe, A. Bramesfeld & F.W. Schwartz (Hrsg.), Volkskrankheit Depression? Bestandsaufnahme und
Perspektiven (S. 257-276). Berlin: Springer.
Little, T. D., Cunningham, W. A., Shahar, G. & Widaman, K. F. (2002). To parcel or
not to parcel: Exploring the question, weighing the merits. Structural Equation
Modeling, 9(2), 151-173.
Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading,
MA: Addison-Wesley.
MacCallum, R. C., Browne, M. W. & Sugawara, H. M. (1996). Power analysis and
determination of sample size for covariance structure modeling. Psychological
Methods, 1(2), 130-149.
Meade, A. W. & Kroustalis, C. M. (2006). Problems with item parceling for
confirmatory factor analytic tests of measurement invariance. Organizational
Research Methods, 9(3), 369-403.
Meyer, T. D. (2002). The Hypomanic Personality Scale, the Big Five, and their
relationship to depression and mania. Personality and Individual Differences, 32,
649-660.
Moosbrugger, H. (2007a). Item-Response-Theorie (IRT). In H. Moosbrugger & A.
Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 215-259).
Heidelberg: Springer.
Moosbrugger, H. (2007b). Klassische Testtheorie (KTT). In H. Moosbrugger & A.
Kelava
(Hrsg.),
Testtheorie
und
Fragebogenkonstruktion
(S.
99-112).
Heidelberg: Springer.
Muthén, L. K. & Muthén, B. O. (1998-2010). Mplus User's Guide. Sixth Edition. Los
Angeles, CA: Muthén & Muthén.
Nussbeck, F. W., Eid, M., Geiser, C., Courvoisier, D. S. & Cole, D. A. (2007).
Konvergente und diskriminante Validität über die Zeit: Integration von
Multitrait-Multimethod-Modellen und der Latent-State-Trait-Theorie. In H.
Literaturverzeichnis
185
Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S.
361-387). Heidelberg: Springer.
Nye, C. D., Newman, D. A. & Joseph, D. L. (2010). Never say "always"? Extreme item
wording effects on scalar invariance and item response curves. Organizational
Research Methods, 13(4), 806-830.
O'Connor, B. P. (2000). SPSS, SAS, and MATLAB programs for determining the
number of components and factors using parallel analysis and Velicer's MAP
test.
Abgerufen
am
24.09.2011.
Verfügbar
unter
https://people.ok.ubc.ca/brioconn/nfactors/nfactors.html
Organisation mondiale de la Santé (2001). Rapport sur la santé dans le monde 2001: La
santé mentale: nouvelle conception, nouveaux espoirs. Abgerufen am
17.12.2011. Verfügbar unter http://www.who.int/whr/previous/fr
Ostendorf, F. & Angleitner, A. (2004). NEO-PI-R. NEO-Persönlichkeitsinventar nach
Costa und McCrae. Revidierte Fassung. Göttingen: Hogrefe.
Richter, P. (1991). Zur Konstruktvalidität des Beck-Depressionsinventars (BDI) bei der
Erfassung depressiver Verläufe. Ein empirischer und methodologischer Beitrag.
Regensburg: S. Roderer.
Rosellini, A. J. & Brown, T. A. (2011). The NEO Five-Factor Inventory: Latent
structure and relationships with dimensions of anxiety and depressive disorders
in a large clinical sample. Assessment, 18(1), 27-39.
Saß, H., Wittchen, H.-U. & Zaudig, M. (1996). Diagnostisches und Statistisches
Manual Psychischer Störungen DSM-IV. Göttingen: Hogrefe.
Saß, H., Wittchen, H.-U., Zaudig, M. & Houben, I. (2003). Diagnostisches und
Statistisches
Manual Psychischer
Störungen.
Textrevision. DSM-IV-TR.
Göttingen: Hogrefe.
Satorra, A. & Bentler, P. M. (1994). Corrections to the test statistics and standard errors
in covariance structure analysis. In A. v. Eye & C. C. Clogg (Hrsg.), Latent
Literaturverzeichnis
186
variable analysis: Applications for developmental research (S. 399-419).
Thousand Oaks, CA: Sage.
Schendera, C. F. (2007). Datenqualität mit SPSS. München: Oldenbourg.
Schermelleh-Engel, K., Kelava, A. & Moosbrugger, H. (2006). Gütekriterien. In F.
Petermann & M. Eid (Hrsg.), Handbuch der Psychologischen Diagnostik (S.
420-433). Göttingen: Hogrefe.
Schermelleh-Engel, K. & Schweizer, K. (2007). Multitrait-Multimethod-Analysen. In
H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion
(S. 325-341). Heidelberg: Springer.
Schermelleh-Engel, K. & Werner, C. (2007). Methoden der Reliabilitätsbestimmung. In
H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion
(S. 113-133). Heidelberg: Springer.
Schmitt, M., Altstötter-Gleich, C., Hinz, A., Maes, J. & Brähler, E. (2006). Normwerte
für
das
Vereinfachte
Beck-Depressions-Inventar
(BDI-V)
in
der
Allgemeinbevölkerung. Diagnostica, 52(2), 51-59.
Schmitt, M., Beckmann, M., Dusi, D., Maes, J., Schiller, A. & Schonauer, K. (2003).
Messgüte des vereinfachten Beck-Depressions-Inventars (BDI-V). Diagnostica,
49(4), 147-156.
Schmitt, M. & Maes, J. (2000). Vorschlag zur Vereinfachung des Beck-DepressionsInventars (BDI). Diagnostica, 46(1), 38-46.
Schmitt, M., Maes, J. & Seiler, U. (2001). Meßäquivalenz und strukturelle Invarianz
von Indikatoren der seelischen Gesundheit bei Ost- und Westdeutschen.
Zeitschrift für Differentielle und Diagnostische Psychologie, 22(2), 87-99.
Stamm, K. & Salize, H.-J. (2006). Volkswirtschaftliche Konsequenzen. In G. Stoppe, A.
Bramesfeld
&
F.-W.
Schwartz
(Hrsg.),
Volkskrankheit
Depression?
Bestandsaufnahme und Perspektiven (S. 109-120). Berlin: Springer.
Stevens, J. P. (2002). Applied multivariate statistics for the social sciences (4. Aufl.).
Mahwah: Lawrence Erlbaum Associates.
187
Steyer, R. & Eid, M. (2001). Messen und Testen (2., korrigierte Aufl.). Berlin: Springer.
Trull, T. J. & Sher, K. J. (1994). Relationship between the five-factor model of
personality and axis I disorders in a nonclinical sample. Journal of Abnormal
Psychology, 103(2), 350-360.
West, S. G., Finch, J. F. & Curran, P. J. (1995). Structural equation models
withnonnormal variables: Problems and remedies. In R. H. Hoyle (Hrsg.),
Structural equation modeling. Concepts, issues, and applications (S. 56-75).
Thousand Oaks: Sage.
Widaman, K. F. (1985). Hierarchically nested covariance structure models for
multitrait-multimethod data. Applied Psychological Measurement, 9(1), 1-26.
Wirtz, M. & Nachtigall, C. (2002). Deskriptive Statistik. Statistische Methoden für
Psychologen. Teil 1 (2., überarbeitete und erweiterte Aufl.). Weinheim: Juventa.
Wittchen, H.-U. & Jacobi, F. (2005). Size and burden of mental disorders in Europe - a
critical
review
and
appraisal
of
27
studies.
European
Neuropsychopharmacology, 15(4), 357-376.
Wittchen, H.-U. & Jacobi, F. J. (2006). Epidemiologie. In G. Stoppe, A. Bramesfeld &
F.-W. Schwartz (Hrsg.), Volkskrankheit Depression? Bestandsaufnahme und
Perspektiven. Berlin: Springer.
Zielke, M. & Limbacher, K. (2004). Fehlversorgung psychischer Erkrankungen.
Abgerufen
am
18.12.2011.
Verfügbar
unter
http://www.presse.dak.de/ps.nsf/sbl/828702540CEDD7A3C1256EAE00447AF
A?open
Eidesstattliche Erklärung
188
Eidesstattliche Erklärung
Hiermit versichere ich gemäß § 18 Abs. 8 der Diplomprüfungsordnung Psychologie der
Universität Koblenz-Landau, Campus Landau, in der Fassung vom 18.02.1993, dass ich
diese Arbeit selbstständig verfasst und keine anderen als die angegebenen Hilfsmittel
und Quellen benutzt habe. Die Arbeit hat in gleicher oder ähnlicher Form noch keinem
anderen Prüfungsausschuss vorgelegen.
Neustadt, im Januar 2012
Katharina Christine Fischer
Anhang
Anhang
Anhang A: Tabellen zu den Items des Beck Depressionsinventars
Anhang B: Untersuchungsmaterial
Anhang B.1: Instruktion der Teilnehmer
Anhang B.2: Eingesetzte Fragebögen
Anhang B.3: Angaben zur Person
Anhang B.4: Gewinnspielpostkarte und Rücksendeumschlag
Anhang C: Zusätzliche Ergebnistabellen
189
Anhang
190
Anhang A: Tabellen zu den Items des Beck Depressionsinventars
Tabelle 15
Veränderungen der Items des BDI-II gegenüber dem BDI in der deutschsprachigen Version und Bezug der Items zu den Symptomkriterien (A-Kriterien) der
Major Depression nach DSM-IV bzw. DSM-IV-TR
BDI II Item♠
1. Traurigkeit
Veränderungen gegenüber dem entspre-
Zugehöriges Symptomkriterium der Major
chenden Item des BDI♣
Depression nach DSM-IV bzw. DSM-IV-TR♥♦
drei Antwortalternativen verändert
A1. depressive Verstimmung
(zwei leicht, eine deutlich)●
2. Pessimismus
vier Antwortalternativen verändert
A1. depressive Verstimmung
(eine leicht, drei deutlich) ●
3. Versagensgefühle
zwei Antwortalternativen verändert
A7. Wertlosigkeit/unangemessene Schuldgefühle
(eine leicht, eine deutlich) ●
4. Verlust von Freude
drei Antwortalternativen verändert
A2. Interessen-/Freudeminderung
(eine leicht, zwei deutlich) ●
5. Schuldgefühle
vier Antwortalternativen verändert
A7. Wertlosigkeit/unangemessene Schuldgefühle
(drei leicht, eine deutlich) ●
6. Bestrafungsgefühle
eine Antwortalternative verändert
(eine leicht, keine deutlich) ●
A7. Wertlosigkeit/unangemessene Schuldgefühle
Anhang
BDI II Item♠
7. Selbstablehnung
191
Veränderungen gegenüber dem entspre-
Zugehöriges Symptomkriterium der Major
chenden Item des BDI♣
Depression nach DSM-IV bzw. DSM-IV-TR♥♦
vier Antwortalternativen verändert
A7. Wertlosigkeit/unangemessene Schuldgefühle
(vier deutlich, keine leicht) ●
8. Selbstvorwürfe
vier Antwortalternativen verändert
A7. Wertlosigkeit/unangemessene Schuldgefühle
(vier deutlich, keine leicht) ●
9. Selbstmordgedanken
keine Veränderung
A9. Suizidalität
10. Weinen
zwei Antwortalternativen verändert
A1. depressive Verstimmung
(zwei deutlich, keine leicht) ●
11. Unruhe
neu im BDI-II
A5. psychomotorische Unruhe/Verlangsamung
12. Interessenverlust
vier Antwortalternativen verändert
A2. Interessen-/Freudeminderung
(vier deutlich, keine leicht) ●
13. Entschlussunfähigkeit
drei Antwortalternativen verändert
A8. Konzentrations-
(drei deutlich, keine leicht) ●
/Entscheidungsschwierigkeiten
14. Wertlosigkeit
neu im BDI-II
A7. Wertlosigkeit/unangemessene Schuldgefühle
15. Energieverlust
neu im BDI-II
A6. Erschöpfung/Energieverlust
Anhang
BDI II Item♠
16. Veränderungen der Schlafgewohnheiten
192
Veränderungen gegenüber dem entspre-
Zugehöriges Symptomkriterium der Major
chenden Item des BDI♣
Depression nach DSM-IV bzw. DSM-IV-TR♥♦
vier Antwortalternativen verändert
A4. Insomnie/Hypersomnie
(vier deutlich, keine leicht) ●; drei neue Antwortalternativen zur Zunahme des Schlafs
17. Reizbarkeit
drei Antwortalternativen verändert
A1. depressive Verstimmung
(drei deutlich, keine leicht) ●
18. Veränderungen des Appetits
vier Antwortalternativen verändert
A3. Gewichtszunah-
(eine leicht, drei deutlich) ●; drei neue Antwort-
me/-verlust/Appetitveränderung
alternativen zu Steigerung des Appetits
19. Konzentrationsschwierigkeiten
neu im BDI-II
A8. Konzentrations/Entscheidungsschwierigkeiten
20. Ermüdung oder Erschöpfung
vier Antwortalternativen verändert
(vier deutlich, keine leicht)
21. Verlust an sexuellem Interesse
vier Antwortalternativen verändert
(drei deutlich, eine leicht)
A6. Erschöpfung/Energieverlust
●
A2. Interessen-/Freudeminderung
●
Anmerkungen. ♠ (BDI-II: Hautzinger et al., 2006). ♣ (BDI: Hautzinger et al., 1994) ♥ DSM-IV (American Psychiatric Association, 1994, verwendet in der deutschen
Übersetzung von Saß et al., 1996); DSM-IV-TR (American Psychiatric Association, 2000, verwendet in der deutschen Übersetzung von Saß et al., 2003); die Diagnosekriterien
der Major Depression unterscheiden sich nicht zwischen den beiden Auflagen. ♦ entnommen aus Hautzinger et al. (2006, S. 9). ● leichte Veränderung = Austausch/Hinzufügen/Abändern eines oder weniger Worte, der Inhalt bleibt nahezu identisch. deutliche Veränderung = alle weiteren sprachlichen Veränderungen, z. B. vollständige
Änderung der Formulierung
Anhang
Tabelle 16
193
Direkter Vergleich aller Items der in dieser Untersuchung verwendeten Versionen des Beck Depressionsinventars und Bezug der Items zu den Symptomkriterien (A-Kriterien) der Major Depression nach DSM-IV bzw. DSM-IV-TR
Symptomkriterien der Major
Depression nach DSM-IV
♠♣
bzw. DSM-IV-TR
A1
Depressive Verstimmung,
Traurigkeit, Hoffnungslosigkeit, Mutlosigkeit, Niedergeschlagenheit
oder
Gereiztheit, Ärger
oder
Schilderung körperlicher Beschwerden
A1
Depressive Verstimmung,
Traurigkeit, Hoffnungslosigkeit, Mutlosigkeit, Niedergeschlagenheit
oder
Gereiztheit, Ärger
oder
Schilderung körperlicher Beschwerden
♥
Benennung der
Itemkategorie
(BDI/BDI-II)
BDI
BDI-V
Traurige Stimmung/
Traurigkeit
0 Ich bin nicht traurig.
1 Ich bin traurig.
2 Ich bin die ganze Zeit
traurig und komme
nicht davon los.
3 Ich bin so traurig oder
unglücklich, dass ich es
kaum noch ertrage.
Pessimismus
0 Ich sehe nicht besonders mutlos in die Zukunft.
1 Ich sehe mutlos in die
Zukunft.
2 Ich habe nichts, worauf
ich mich freuen kann.
3 Ich habe das Gefühl,
dass die Zukunft hoffnungslos ist, und dass
die Situation nicht besser werden kann.
♦
●
BDI-II
BDI-II-V
Ich bin traurig.
0
1
2
3
Ich bin traurig.
Ich sehe mutlos in die Zukunft.
0 Ich sehe nicht mutlos
die Zukunft.
1 Ich sehe mutloser in die
Zukunft als sonst.
2 Ich bin mutlos und
erwarte nicht, dass
meine Situation besser
wird.
3 Ich glaube, dass meine
Zukunft hoffnungslos
ist und nur noch
schlechter wird.
Ich bin nicht traurig.
Ich bin oft traurig.
Ich bin ständig traurig.
Ich bin so traurig oder
unglücklich, dass ich es
nicht aushalte.
Ich sehe mutlos in die Zukunft.
Anhang
194
♥
Symptomkriterien der Major
Depression nach DSM-IV
♠♣
bzw. DSM-IV-TR
A1
Depressive Verstimmung,
Traurigkeit, Hoffnungslosigkeit, Mutlosigkeit, Niedergeschlagenheit
oder
Gereiztheit, Ärger
oder
Schilderung körperlicher Beschwerden
Benennung der
Itemkategorie
(BDI/BDI-II)
BDI
BDI-V
Reizbarkeit
A2
Verlust von Interesse oder
Freude, Libidoverlust
Unzufriedenheit/
Verlust von Freude
0 Ich bin nicht reizbarer
als sonst.
1 Ich bin jetzt leichter
verärgert oder gereizt
als früher.
2 Ich fühle mich dauernd
gereizt.
3 Die Dinge, die mich
früher geärgert haben,
berühren mich nicht
mehr.
0 Ich kann die Dinge
genauso genießen wie
früher.
1 Ich kann die Dinge
nicht mehr so genießen
wie früher.
2 Ich kann aus nichts
mehr eine echte Befriedigung ziehen.
3 Ich bin mit allem unzufrieden oder gelangweilt.
♦
●
BDI-II
BDI-II-V
Ich fühle mich gereizt und
verärgert.
0 Ich bin nicht reizbarer
als sonst.
1 Ich bin reizbarer als
sonst.
2 Ich bin viel reizbarer als
sonst.
3 Ich fühle mich dauernd
gereizt.
Ich fühle mich gereizt.
Es fällt mir schwer, etwas
zu genießen.
0 Ich kann die Dinge
genauso gut genießen
wie früher.
1 Ich kann die Dinge
nicht mehr so genießen
wie früher.
2 Dinge, die mir früher
Freude gemacht haben,
kann ich kaum mehr
genießen.
3 Dinge, die mir früher
Freude gemacht haben,
kann ich überhaupt
nicht mehr genießen.
Es fällt mir schwer, etwas
zu genießen.
Anhang
195
♥
♦
Symptomkriterien der Major
Depression nach DSM-IV
♠♣
bzw. DSM-IV-TR
A2
Verlust von Interesse oder
Freude, Libidoverlust
Benennung der
Itemkategorie
(BDI/BDI-II)
BDI
BDI-V
Libidoverlust/
Verlust an sexuellem Interesse
Sex ist mir gleichgültig.
A2
Verlust von Interesse oder
Freude, Libidoverlust
sozialer Rückzug
und Isolierung/
Interessenverlust
0 Ich habe in letzter Zeit
keine Veränderung
meines Interesses an
Sex bemerkt.
1 Ich interessiere mich
weniger für Sex als früher.
2 Ich interessiere mich
jetzt viel weniger für
Sex.
3 Ich habe das Interesse
an Sex völlig verloren.
0 Ich habe nicht das Interesse an Menschen verloren.
1 Ich interessiere mich
jetzt weniger für Menschen als früher.
2 Ich habe mein Interesse
an anderen Menschen
zum größten Teil verloren.
3 Ich habe mein ganzes
Interesse an anderen
Menschen verloren.
Mir fehlt das Interesse an
Menschen.
●
BDI-II
BDI-II-V
0 Mein Interesse an Sexualität hat sich in letzter Zeit nicht verändert.
1 Ich interessiere mich
weniger für Sexualität
als früher.
2 Ich interessiere mich
jetzt viel weniger für
Sexualität.
3 Ich habe das Interesse
an Sexualität völlig
verloren.
0 Ich habe das Interesse
an anderen Menschen
oder an Tätigkeiten
nicht verloren.
1 Ich habe weniger Interesse an anderen Menschen oder an Dingen
als sonst.
2 Ich habe das Interesse
an anderen Menschen
oder an Dingen zum
größten Teil verloren.
3 Es fällt mir schwer,
mich überhaupt für irgend etwas zu interessieren.
Ich habe kein Interesse an
Sexualität.
Es fällt mir schwer, mich
für etwas zu interessieren.
Anhang
Symptomkriterien der Major
Depression nach DSM-IV
♠♣
bzw. DSM-IV-TR
A3
Verminderter Appetit, ggf. mit
Gewichtsabnahme
oder
gesteigerter Appetit, ggf. mit
Gewichtszunahme
196
♥
♦
●
Benennung der
Itemkategorie
(BDI/BDI-II)
BDI
BDI-V
Appetitverlust/
Veränderungen des
Appetits
0 Mein Appetit ist nicht
schlechter als sonst.
1 Mein Appetit ist nicht
mehr so gut wie früher.
2 Mein Appetit hat sehr
stark nachgelassen.
3 Ich habe überhaupt
keinen Appetit mehr.
Ich habe keinen Appetit.
BDI-II
BDI-II-V
0
BDI-II-V-1:
Mein Appetit ist anders als
früher.
1a
1b
2a
2b
3a
3b
A3
Verminderter Appetit, ggf. mit
Gewichtsabnahme
oder
gesteigerter Appetit, ggf. mit
■
Gewichtszunahme
Gewichtsverlust
0 Ich habe in letzter Zeit
kaum abgenommen.
1 Ich habe mehr als 2
Kilo abgenommen.
2 Ich habe mehr als 5
Kilo abgenommen.
3 Ich habe mehr als 8
Kilo abgenommen.
Ich esse absichtlich weniger, um abzunehmen:
 JA  NEIN
-
Mein Appetit hat sich
nicht verändert.
Mein Appetit ist etwas
schlechter als sonst.
Mein Appetit ist etwas
größer als sonst.
Mein Appetit ist viel
schlechter als sonst.
Mein Appetit ist viel
größer als sonst.
Ich habe überhaupt
keinen Appetit.
Ich habe ständig Heißhunger.
-
BDI-II-V-2:
Ich habe außergewöhnlich
wenig Appetit.
Ich habe außergewöhnlich
viel Appetit.
-
Anhang
Symptomkriterien der Major
Depression nach DSM-IV
♠♣
bzw. DSM-IV-TR
A4
Schlafstörungen
(verminderter oder gesteigerter
Schlaf)
A5
Psychomotorische Symptome
(Unruhe und Agitiertheit
oder psychomotorische Verlangsamung)
197
♥
♦
●
Benennung der
Itemkategorie
(BDI/BDI-II)
BDI
BDI-V
Schlafstörungen/
Veränderungen der
Schlafgewohnheiten
0 Ich schlafe so gut wie
sonst.
1 Ich schlafe nicht mehr
so gut wie früher.
2 Ich wache 1 bis 2 Stunden früher auf als sonst,
und es fällt mir schwer,
wieder einzuschlafen.
3 Ich wache mehrere
Stunden früher auf als
sonst und kann nicht
mehr einschlafen.
Ich habe Schlafstörungen.
Unruhe
-
-
BDI-II
BDI-II-V
0
BDI-II-V-1:
Ich leide unter Schlafstörungen.
Meine Schlafgewohnheiten haben sich nicht
verändert.
1a Ich schlafe etwas mehr
als sonst.
1b Ich schlafe etwas weniger als sonst.
2a Ich schlafe viel mehr als
sonst.
2b Ich schlafe viel weniger als sonst.
3a Ich schlafe fast den
ganzen Tag.
3b Ich wache 1-2 Stunden
früher auf als gewöhnlich und kann nicht
mehr einschlafen.
0 Ich bin nicht unruhiger
als sonst.
1 Ich bin unruhiger als
sonst.
2 Ich bin so unruhig, dass
es mir schwerfällt,
stillzusitzen.
3 Ich bin so unruhig, dass
ich mich ständig bewegen oder etwas tun
muss.
BDI-II-V-2:
Ich schlafe außergewöhnlich wenig.
Ich schlafe außergewöhnlich viel.
Ich bin unruhig.
Anhang
198
♥
♦
●
Symptomkriterien der Major
Depression nach DSM-IV
♠♣
bzw. DSM-IV-TR
A6
Müdigkeit, Energieverlust
Benennung der
Itemkategorie
(BDI/BDI-II)
BDI
BDI-V
Ermüdbarkeit/
Ermüdung oder
Erschöpfung
0 Ich ermüde nicht stärker
als sonst.
1 Ich ermüde schneller als
früher.
2 Fast alles ermüdet mich.
3 Ich bin zu müde, um
etwas zu tun.
Ich bin müde und lustlos.
A6
Müdigkeit, Energieverlust
Energieverlust
-
-
BDI-II
BDI-II-V
0 Ich fühle mich nicht
müder oder erschöpfter
als sonst.
1 Ich werde schneller
müde oder erschöpft
als sonst.
2 Für viele Dinge, die ich
üblicherweise tue, bin
ich zu müde oder erschöpft.
3 Ich bin so müde oder
erschöpft, dass ich fast
nichts mehr tun kann.
0 Ich habe so viel Energie
wie immer.
1 Ich habe weniger Energie als sonst.
2 Ich habe so wenig
Energie, dass ich kaum
noch etwas schaffe.
3 Ich habe keine Energie
mehr, um überhaupt
noch etwas zu tun.
Ich fühle mich müde oder
erschöpft.
Ich fühle mich antriebslos
und ohne Energie.
Anhang
199
♥
♦
Symptomkriterien der Major
Depression nach DSM-IV
♠♣
bzw. DSM-IV-TR
A7
Gefühle von Wertlosigkeit,
übermäßige/inadäquate Schuldgefühle
Benennung der
Itemkategorie
(BDI/BDI-II)
BDI
BDI-V
Versagen/
Versagensgefühle
A7
Gefühle von Wertlosigkeit,
übermäßige/inadäquate Schuldgefühle
Schuldgefühle
0 Ich fühle mich nicht als
Versager.
1 Ich habe das Gefühl,
öfter versagt zu haben
als der Durchschnitt.
2 Wenn ich auf mein
Leben zurückblicke, sehe ich bloß eine Menge
Fehlschläge.
3 Ich habe das Gefühl, als
Mensch ein völliger
Versager zu sein.
0 Ich habe keine Schuldgefühle.
1 Ich habe häufig Schuldgefühle.
2 Ich habe fast immer
Schuldgefühle.
3 Ich habe immer
Schuldgefühle.
A7
Gefühle von Wertlosigkeit,
übermäßige/inadäquate Schuldgefühle
Strafbedürfnis/
Bestrafungsgefühle
0 Ich habe nicht das Gefühl, gestraft zu sein.
1 Ich habe das Gefühl,
vielleicht bestraft zu
werden.
2 Ich erwarte, bestraft zu
werden.
3 Ich habe das Gefühl,
bestraft zu sein.
Ich fühle mich bestraft.
●
BDI-II
BDI-II-V
Ich fühle mich als Versager(in).
0 Ich fühle mich nicht als
Versager.
1 Ich habe häufiger Versagensgefühle.
2 Wenn ich zurückblicke,
sehe ich eine Menge
Fehlschläge.
3 Ich habe das Gefühl, als
Mensch ein völliger
Versager zu sein.
Ich fühle mich als Versager(in).
Ich habe Schuldgefühle.
0 Ich habe keine besonderen Schuldgefühle.
1 Ich habe oft Schuldgefühle wegen Dingen,
die ich getan habe oder
hätte tun sollen.
2 Ich habe die meiste Zeit
Schuldgefühle.
3 Ich habe ständig
Schuldgefühle.
0 Ich habe nicht das Gefühl, für etwas bestraft
zu sein.
1 Ich habe das Gefühl,
vielleicht bestraft zu
werden.
2 Ich erwarte, bestraft zu
werden.
3 Ich habe das Gefühl,
bestraft zu sein.
Ich habe Schuldgefühle.
Ich fühle mich bestraft.
Anhang
200
♥
♦
Symptomkriterien der Major
Depression nach DSM-IV
♠♣
bzw. DSM-IV-TR
A7
Gefühle von Wertlosigkeit,
übermäßige/inadäquate Schuldgefühle
Benennung der
Itemkategorie
(BDI/BDI-II)
BDI
BDI-V
Selbsthass/
Selbstablehnung
0 Ich bin nicht von mir
enttäuscht.
1 Ich bin von mir enttäuscht.
2 Ich finde mich fürchterlich.
3 Ich hasse mich.
Ich bin von mir enttäuscht.
A7
Gefühle von Wertlosigkeit,
übermäßige/inadäquate Schuldgefühle
Selbstanklagen/
Selbstvorwürfe
Ich werfe mir Fehler und
Schwächen vor.
A7
Gefühle von Wertlosigkeit,
übermäßige/inadäquate Schuld▲
gefühle
Weinen
0 Ich habe nicht das Gefühl, schlechter zu sein
als alle anderen.
1 Ich kritisiere mich wegen meiner Fehler und
Schwächen.
2 Ich mache mir die ganze Zeit Vorwürfe wegen
meiner Mängel.
3 Ich gebe mir für alles
die Schuld, was schiefgeht.
0 Ich weine nicht öfter als
früher.
1 Ich weine jetzt mehr als
früher.
2 Ich weine jetzt die ganze Zeit.
3 Früher konnte ich weinen, aber jetzt kann ich
es nicht mehr, obwohl
ich es möchte.
Ich weine.
●
BDI-II
BDI-II-V
0 Ich halte von mir genauso viel wie immer.
1 Ich habe Vertrauen in
mich verloren.
2 Ich bin von mir enttäuscht.
3 Ich lehne mich völlig
ab.
0 Ich kritisiere oder tadle
mich nicht mehr als
sonst.
1 Ich bin mir gegenüber
kritischer als sonst.
2 Ich kritisiere mich für
all meine Mängel.
3 Ich gebe mir die Schuld
für alles Schlimme,
was passiert.
Ich bin von mir enttäuscht.
0 Ich weine nicht öfter als
früher.
1 Ich weine jetzt mehr als
früher.
2 Ich weine beim geringsten Anlass.
3 Ich möchte gern weinen, aber ich kann
nicht.
Mir ist nach Weinen zumute.
Ich werfe mir meine Fehler
und Schwächen vor.
Anhang
201
♥
♦
●
Symptomkriterien der Major
Depression nach DSM-IV
♠♣
bzw. DSM-IV-TR
A7
Gefühle von Wertlosigkeit,
übermäßige/inadäquate Schuldgefühle
Benennung der
Itemkategorie
(BDI/BDI-II)
Wertlosigkeit
-
-
A8
Verminderte Denk- oder Konzentrationsfähigkeit, Gedächtnisprobleme, Entscheidungsunfähigkeit
Konzentrationsschwierigkeiten
-
-
BDI
BDI-V
BDI-II
BDI-II-V
0 Ich fühle mich nicht
wertlos.
1 Ich halte mich für weniger wertvoll und
nützlich als sonst.
2 Verglichen mit anderen
Menschen fühle ich
mich viel weniger wert.
3 Ich fühle mich völlig
wertlos.
0 Ich kann mich so gut
konzentrieren wie immer.
1 Ich kann mich nicht
mehr so gut konzentrieren wie sonst.
2 Es fällt mir schwer,
mich längere Zeit auf
irgend etwas zu konzentrieren.
3 Ich kann mich überhaupt nicht mehr konzentrieren.
Ich fühle mich wertlos.
Es fällt mir schwer, mich
zu konzentrieren.
Anhang
202
♥
♦
Symptomkriterien der Major
Depression nach DSM-IV
♠♣
bzw. DSM-IV-TR
A8
Verminderte Denk- oder Konzentrationsfähigkeit, Gedächtnisprobleme, Entscheidungsunfähigkeit
Benennung der
Itemkategorie
(BDI/BDI-II)
BDI
BDI-V
Entschlussunfähigkeit
0 Ich bin so entschlussfreudig wie immer.
1 Ich schiebe Entscheidungen jetzt öfter als
früher auf.
2 Es fällt mir jetzt schwerer als früher, Entscheidungen zu treffen.
3 Ich kann überhaupt
keine Entscheidungen
mehr treffen.
Ich schiebe Entscheidungen
vor mir her.
A9
Gedanken an den Tod oder
Suizid, Suizidabsichten
Selbstmordimpulse/
Selbstmordgedanken
Ich denke daran, mir etwas
anzutun.
Kann nicht eindeutig zugeord■
net werden
Arbeitsunfähigkeit
0 Ich denke nicht daran,
mir etwas anzutun.
1 Ich denke manchmal an
Selbstmord, aber ich
würde es nicht tun.
2 Ich möchte mich am
liebsten umbringen.
3 Ich würde mich umbringen, wenn ich die
Gelegenheit hätte.
0 Ich kann so gut arbeiten
wie früher.
1 Ich muss mir einen
Ruck geben, bevor ich
eine Tätigkeit in Angriff nehme.
2 Ich muss mich zu jeder
Tätigkeit zwingen.
3 Ich bin unfähig zu arbeiten.
Ich muss mich zu jeder
Tätigkeit zwingen.
●
BDI-II
BDI-II-V
0 Ich bin so entschlussfreudig wie immer.
1 Es fällt mir schwerer als
sonst, Entscheidungen
zu treffen.
2 Es fällt mir sehr viel
schwerer als sonst,
Entscheidungen zu
treffen.
3 Ich habe Mühe, überhaupt Entscheidungen
zu treffen.
0 Ich denke nicht daran,
mir etwas anzutun.
1 Ich denke manchmal an
Selbstmord, aber ich
würde es nicht tun.
2 Ich möchte mich am
liebsten umbringen.
3 Ich würde mich umbringen, wenn ich die
Gelegenheit dazu hätte.
-
Es fällt mir schwer, Entscheidungen zu treffen.
Ich denke daran, mir etwas
anzutun.
-
Anhang
203
Symptomkriterien der Major
Depression nach DSM-IV
♠♣
bzw. DSM-IV-TR
♥
♦
●
Benennung der
Itemkategorie
(BDI/BDI-II)
BDI
BDI-V
■
negatives Körperbild
Ich bin besorgt um mein
Aussehen.
-
-
■
Hypochondrie
0 Ich habe nicht das Gefühl, schlechter auszusehen als früher.
1 Ich mache mir Sorgen,
dass ich alt oder unattraktiv aussehe.
2 Ich habe das Gefühl,
dass Veränderungen in
meinem Aussehen eintreten, die mich hässlich
machen.
3 Ich finde mich hässlich.
0 Ich mache mir keine
größeren Sorgen um
meine Gesundheit als
sonst.
1 Ich mache mir Sorgen
über körperliche Probleme, wie Schmerzen,
Magenbeschwerden oder Verstopfung.
2 Ich mache mir so große
Sorgen über gesundheitliche Probleme, dass
es mir schwerfällt, an
etwas anderes zu denken.
3 Ich mache mir so große
Sorgen über gesundheitliche Probleme, dass
ich an nichts anderes
mehr denken kann.
Ich mache mir Sorgen um
meine Gesundheit
-
-
Kann nicht zugeordnet werden
Kann nicht zugeordnet werden
BDI-II-V
BDI-II
Anhang
204
Anmerkungen. ♠ DSM-IV (American Psychiatric Association, 1994, verwendet in der deutschen Übersetzung von Saß et al., 1996); DSM-IV-TR (American Psychiatric
Association, 2000, verwendet in der deutschen Übersetzung von Saß et al., 2003); die Diagnosekriterien der Major Depression unterscheiden sich nicht zwischen den beiden
Auflagen. ♣ Zuordnung der Items zu den der Kriterien vorgenommen nach Hautzinger et al. (2006). ♥ (Hautzinger et al., 1994). ♦ (Schmitt & Maes, 2000). ● (Hautzinger et al.,
2006). ■ Die Items, die im BDI-II eliminiert wurden, wurden von Hautzinger et al. (2006) nicht zugeordnet, die Zuordnung erfolgte hier durch die Autorin dieser Arbeit. ▲ Das
Item „Weinen“ wird bei Hautzinger et al. (2006) dem Kriterium A7 zugeordnet. Dem Augenschein nach könnte es möglicherweise zudem auch Kriterium A1 erfassen
Anhang
Anhang B: Untersuchungsmaterial
Anhang B.1: Instruktion der Teilnehmer
205
Anhang
206
Anhang
Anhang B.2: Eingesetzte Fragebögen
Anhang B.2.1: Das BDI
207
Anhang
208
Anhang
Anhang B.2.2: Das BDI-V
209
Anhang
Anhang B.2.3: Das BDI-II
210
Anhang
211
Anhang
Anhang B.2.4: Das BDI-II-V.1
212
Anhang
Anhang B.2.5: Das BDI-II-V.2
213
Anhang
Anhang B.2.6: Das NEO-FFI
214
Anhang
215
Anhang
216
Anhang
217
Anhang
218
Anhang
Anhang B.3: Angaben zur Person
219
Anhang
Anhang B.4: Gewinnspielpostkarte und Rücksendeumschlag
Anhang B.4.1 Vorder- und Rückseite der Gewinnspielpostkarte
220
Anhang
Anhang B.4.2 Rücksendeumschlag
221
Anhang
222
Anhang C: Zusätzliche Ergebnistabellen
Tabelle 17
Verteilung soziodemographischer Merkmale in Gesamt- und Substichproben
Variable
Ursprüngliche Gesamt-
Substichprobe Substichprobe
stichprobe♣
BDI-II-V.1♥
BDI-II-V.2.Z♦
347
325
169
165
männlich
140 (40%)
132 (40.6%)
74 (43.8%)
60 (36.4%)
weiblich
206 (60%)
192 (59.1%)
95 (56.2%)
104 (63.0%)
16 - 19
5 (1.4%)
5 (1.5%)
5 (3.0%)
0 (0.0%)
20 – 29
98 (28.2%)
94 (28.9%)
50 (29.6%)
47 (28.5%)
30 – 39
45 (13.0%)
44 (13.5%)
17 (10.1%)
28 (17.0%)
40 – 49
53 (15.3%)
49 (15.1%)
26 (15.4%)
24 (14.5%)
50 – 59
66 (19.0%)
63 (19.4%)
28 (16.6%)
37 (22.4%)
60 – 69
37 (10.7%)
34 (10.5%)
20 (11.8%)
15 (9.1%)
70 – 79
34 (9.8%)
28 (8.6%)
18 (10.7%)
11 (6.7%)
80 und älter
8 (2.3%)
7 (2.2%)
4 (2.4%)
3 (1.8%)
Min - Max
16 - 84
16 - 84
16 - 84
20 - 83
M (SD)
44.89 (17.68)
44.26 (17.40)
45.02 (18.32)
43.45 (16.42)
Schüler
5 (1.4%)
5 (1.5%)
4 (2.4%)
1 (0.6%)
kein Schulabschluss
2 (0.6%)
2 (0.6%)
1 (0.6%)
1 (0.6%)
Volks- oder Haupt-
75 (21.6%)
68 (20.9%)
41 (24.3%)
29 (17.6%)
mittlere Reife
68 (19.6%)
65 (20.0%)
34 (20.1%)
33 (20.0%)
Fachhochschulreife
197 (56.8%)
185 (56.9%)
89 (52.7%)
101 (61.2%)
Gesamtstichprobe♠
N
Geschlecht
Alter
Schulabschluss
schulabschluss
oder Abitur
Anhang
Variable
223
Ursprüngliche Gesamt-
Substichprobe Substichprobe
stichprobe♣
BDI-II-V.1♥
BDI-II-V.2.Z♦
59 (18.2%)
35 (20.7%)
25 (15.2%)
154 (44.4%)
142 (43.7%)
74 (43.8%)
73 (44.2%)
131 (37.8%)
124 (38.2%)
60 (35.5%)
67 (40.6%)
Gesamtstichprobe♠
Berufsqualifizierender Abschluss
keine abgeschlossene 62 (17.9%)
Berufsausbildung
abgeschlossene
Berufsausbildung
abgeschlossenes
Fachhochschul- oder
Hochschulstudium
Aktuelle Berufstätigkeit
Schüler/in
5 (1.4%)
5 (1.5%)
4 (2.4%)
1 (0.6%)
Wehr- oder Zivil-
0 (0.0%)
0 (0.0%)
0 (0.0%)
0 (0.0%)
Auszubildende/r
8 (2.3%)
8 (2.5%)
3 (1.8%)
5 (3.0%)
Student/in
51 (14.7%)
49 (15.1%)
24 (14.2%)
26 (15.8%)
Hausfrau/Hausmann 23 (6.6%)
22 (6.8%)
10 (5.9%)
13 (7.9%)
arbeitsuchend
5 (1.4%)
4 (1.2%)
2 (1.2%)
2 (1.2%)
erwerbstätig
195 (56.2%)
187 (57.5%)
96 (56.8%)
96 (58.2%)
Rentner/in /
60 (17.3%)
50 (15.4%)
30 (17.8%)
22 (13.3%)
ledig
127 (36.6%)
124 (38.2%)
68 (40.2%)
58 (35.2%)
verheiratet
180 (51.9%)
169 (52.0%)
85 (50.3%)
88 (53.3%)
geschieden
21 (6.1%)
20 (6.2%)
7 (4.1%)
14 (8.5%)
verwitwet
19 (5.5%)
12 (3.7%)
9 (5.3%)
5 (3.0%)
dienstleistender/FSJ
Pensionär/in
Familienstand
Anhang
Variable
224
Ursprüngliche Gesamt-
Substichprobe Substichprobe
stichprobe♣
BDI-II-V.1♥
BDI-II-V.2.Z♦
61 (17.6%)
54 (16.6%)
26 (15.4%)
31 (18.8%)
228 (65.7%)
218 (67.1%)
107 (63.3%)
115 (69.7%)
43 (12.4%)
41 (12.6%)
29 (17.2%)
13 (7.9%)
13 (3.7%)
12 (3.7%)
6 (3.6%)
6 (3.6%)
Gesamtstichprobe♠
Aktuelle Partnerschaft
ohne
Partnerbeziehung
in fester Partnerschaft/verheiratet,
zusammenlebend
in fester Partnerschaft/verheiratet,
nicht zusammenlebend
weder noch
Anmerkungen. ♠ Stichprobe aller ernsthaft ausgefüllt zurückgesendeten Fragebögen, aus der die einzelnen
Analysestichproben durch Ausschluss von Probanden mit fehlenden Werten hervorgingen. ♣ Stichprobe,
auf der die meisten Analysen in der Gesamtstichprobe beruhen. ♥ Substichprobe von Teilnehmenden, die
den BDI-II-V.1 erhalten hatten. ♦ Substichprobe von Teilnehmenden, die den BDI-II-V.2 erhalten hatten.
Angaben in Anzahl und Prozent.
Anhang
Tabelle 18
225
Direkte Gegenüberstellung der Summenwerte aller verwendeten Varianten des BDI
in der reskalierten und nicht-reskalierten Fassung für die verkürzten Versionen in
der Gesamtstichprobe und den Teilstichproben 1 und 2
A: In der Gesamtstichprobe
M
(SD)
BDI
7.8
(6.9)
BDI-V
19.2
(16.1)
BDI-V.R
11.5
(9.6)
BDI-II
9.0
(8.0)
BDI-II-V
21.8
(18.1)
BDI-II-V.R
13.1
(10.8)
Anmerkungen. N = 325. M = mittlerer Summenwert. SD = Standardabweichung.
B: In der Substichprobe 1
M
(SD)
BDI-II.1
BDI-II-V.1
BDI-II-V.1.R
9.9
(8.7)
21.8
(19.6)
13.1
(11.7)
Anmerkungen N = 169.
SD = Standardabweichung.
M = mittlerer
Summenwert.
C: In der Substichprobe 2
M
(SD)
BDI-II.2
BDI-II-V.2.Z
BDI-II-V.2.Z.R
BDI-II-V.2
BDI-II-V.2.R
8.3
(7.7)
22.1
(16.8)
13.3
(10.1)
22.7
(17.4)
13.6
(10.4)
Anmerkungen. 163 ≤ N ≤ 165. M = mittlerer Summenwert. SD = Standardabweichung.
Anhang
226
2
4
6
8
10
12
14
16
18
20
BDI-II-V.2_P2
1
3
5
7
9
11
13
15
17
19
21
BDI-II-V.2_P1
11
12
13
14
15
16
17
18
19
20
BDI-II-V/V.1/V.2.Z_P2
BDI-II/II.1/II.2_P2
1
2
3
4
5
6
7
8
9
10
Verteilung der Items auf die Parcels der Modelle zur parallelen Analyse jeweils von BDI-II und BDI-II-V, BDI-II.1
und BDI-II-V.1, BDI-II.2 und BDI-II-V.2.Z sowie BDI-II.2
und BDI-II-V-.2
BDI-II-V/V.1/V.2.Z_P1
BDI-II/II.1/II.2_P1
Tabelle 19
1
3
5
7
9
11
13
15
18
21
23
2
4
6
8
10
12
14
16
17
19
20
22
Anmerkungen. P1 = Parcel 1. P2 = Parcel 2. Die Ziffern entsprechen den
Nummern der Items im jeweiligen Fragebogen.
Anhang
227
1
4
5
7
8
9
12
14
16
18
2
7
8
10
12
13
14
16
18
20
21
1
3
4
5
6
9
11
15
17
19
BDI-II-V.R_P2
2
3
6
10
11
13
15
17
19
20
BDI-II-V.R_P1
BDI-V.R_P2
2
5
6
7
9
10
13
14
16
21
BDI-II_P2
BDI-V.R_P1
1
3
4
8
11
12
15
17
18
19
20
BDI-II_P1
BDI_P2
Verteilung der Items auf die Parcels der Modelle zur parallelen Analyse von BDI,
BDI-V, BDI-II und BDI-II-V
BDI_P1
Tabelle 20
1
2
4
5
6
9
12
13
15
20
21
3
7
8
10
11
14
16
17
18
19
Anmerkungen. P1 = Parcel 1. P2 = Parcel 2. Die Ziffern entsprechen den Nummern der Items im jeweiligen Fragebogen.
Anhang
Tabelle 21
228
Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von
BDI-II und BDI-II-V
A: Summenwerte
M (SD)
Schiefe
Kurtosis
BDI-II
9.1 (8.3)
1.19
1.27
BDI-II-V.R
13.2 (10.9)
1.09
0.53
Anmerkungen. N = 334 M = mittlerer Summenwert.
SD = Standardabweichung.
B: Logarithmierte Summenwerte
M (SD)
Schiefe
Kurtosis
BDI-II.L
1.9 (1.0)
-0.54
-0.62
BDI-II-V.L
2.7 (1.0)
-0.84
0.50
Anmerkungen.
N = 334
SD = Standardabweichung.
BDI-II-V.R.L
2.3 (.92)
-0.62
-0.01
M = mittlerer
Summenwert.
C: Parcels
M (SD)
Schiefe
Kurtosis
BDI-II_P1
3.3 (4.0)
1.65
2.65
BDI-II_P2
5.9 (4.8)
0.78
0.16
Anmerkungen. N = 334. P1 = Parcel
SD = Standardabweichung.
1.
BDI-II-V_P1
11.6 (9.5)
1.03
0.48
P2 = Parcel
2.
BDI-II-V_P2
10.4 (9.1)
1.13
0.73
M = mittlerer
Summenwert.
Anhang
229
.79
1
BDI-II-V_P2
1
BDI-II-V_P1
BDI-II_P1
BDI-II_P2
BDI-II-V_P1
BDI-II-V_P2
BDI-II_P2
Interkorrelationen der Itemparcels, die
als manifeste Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V
dienten
BDI-II_P1
Tabelle 22
.80
.78
1
.81
.78
.94
1
Anmerkungen. N = 334. P1 = Parcel 1. P2 = Parcel 2.
Tabelle 23
M (SD)
Schiefe
Kurtosis
Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und
und BDI-II-V.1
BDI-II.1_P1
3.5 (4.2)
1.45
1.71
Anmerkungen. N = 169.
SD = Standardabweichung.
Tabelle 24
BDI-II.1_P2
6.4 (5.0)
0.67
-0.22
P1 = Parcel
1.
BDI-II-V.1_P1
11.7 (10.1)
0.98
0.15
P2 = Parcel
2.
BDI-II-V.1_P2
10.1 (9.7)
1.13
0.33
M = mittlerer
Summenwert.
Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen
Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.1 dienten
BDI-II.1_P1
BDI-II.1_P2
BDI-II-V.1_P1
BDI-II-V.1_P2
BDI-II.1_P1
1
BDI-II.1_P2
.79
BDI-II-V.1_P1
.83
BDI-II-V.1_P2
.84
1
.80
1
.81
.95
1
Anmerkungen. N = 169. P1 = Parcel 1. P2 = Parcel 2.
Anhang
Tabelle 25
M (SD)
Schiefe
Kurtosis
230
Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren
der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und
BDI-II-V.2.Z
BDI-II.2_P1
3.0 (3.8)
1.90
4.13
Anmerkungen.
N = 165.
SD = Standardabweichung.
Tabelle 26
BDI-II.2_P2
5.3 (4.4)
0.86
0.66
P1 = Parcel
1.
BDI-II-V.2.Z_P1
11.4 (8.7)
1.08
0.93
P2 = Parcel
2.
BDI-II-V.2.Z_P2
10.7 (8.4)
1.16
1.42
M = mittlerer
Summenwert.
Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen
Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.2.Z dienten
BDI-II.2_P1 BDI-II.2_P2 BDI-II-V.2.Z_P1
1
.79
.77
BDI-II.2_P1
1
.76
BDI-II.2_P2
1
BDI-II-V.2.Z_P1
BDI-II-V.2.Z_P2
BDI-II-V.2.Z_P2
.79
.78
.91
1
Anmerkungen. N = 165. P1 = Parcel 1. P2 = Parcel 2.
Tabelle 27
M (SD)
Schiefe
Kurtosis
Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren
der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI-II und
BDI-II-V.2
BDI-II.2_P1
3.0 (3.8)
1.93
4.23
Anmerkungen.
N = 163.
SD = Standardabweichung.
Tabelle 28
BDI-II.2_P2
5.3 (4.4)
0.87
0.73
P1 = Parcel
1.
BDI-II-V.2_P1
11.4 (8.8)
1.09
0.93
P2 = Parcel
2.
BDI-II-V.2_P2
11.3 (9.0)
1.14
1.16
M = mittlerer
Summenwert.
Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen
Faktorenanalysen zur parallelen Analyse von BDI-II und BDI-II-V.2 dienten
BDI-II.2_P1
1
BDI-II.2_P2
.79
1
BDI-II.2_P1
BDI-II.2_P2
BDI-II-V.2_P1
BDI-II-V.2_P2
Anmerkungen. N = 163. P1 = Parcel 1. P2 = Parcel 2.
BDI-II-V.2_P1
.77
.76
1
BDI-II-V.2_P2
.77
.78
.92
1
Anhang
231
Tabelle 29
Mittelwerte (Standardabweichungen), Schiefe und Kurtosis der manifesten Indikatoren
der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI, BDI-V,
BDI-II und BDI-II-V
A: Summenwerte
BDI
7.8 (6.9)
M (SD)
1.18
Schiefe
Kurtosis 1.26
BDI-V.R
11.5 (9.6)
1.14
0.79
Anmerkungen.
N = 325.
SD = Standardabweichung.
BDI-II
9.0 (8.0)
1.11
1.00
BDI-II-V.R
13.1 (10.8)
1.09
0.57
M = mittlerer
Summenwert.
BDI-V.L
BDI-V.R.L
BDI-II.L
BDI-II-V.L
BDI-II-V.R.L
M (SD)
Schiefe
Kurtosis
BDI.L
B: Logarithmierte Summenwerte
1.8 (0.9)
-0.54
-0.52
2.6 (1.0)
-0.78
0.42
2.2 (0.9)
-0.56
-0.10
1.9 (1.0)
-0.55
-0.64
2.7 (1.0)
-0.85
0.54
2.3 (0.9)
-0.63
0.02
Anmerkungen. N = 325. M = mittlerer Summenwert. SD = Standardabweichung.
BDI_P2
BDI-V.R_P1
BDI-V.R_P2
BDI-II_P1
BDI-II_P2
BDI-II-V.R_P1
BDI-II-V.R_P2
M
(SD)
Schiefe
Kurtosis
BDI_P1
C: Parcels
4.3
(3.6)
0.97
1.05
3.5
(3.6)
1.53
2.57
6.2
(5.0)
1.07
0.86
5.3
(4.9)
1.27
1.17
5.0
(4.5)
1.11
0.96
4.0
(3.8)
1.06
0.84
6.5
(5.5)
1.14
0.73
6.6
(5.6)
1.07
0.56
Anmerkungen.
N = 325.
SD = Standardabweichung.
P1 = Parcel
1.
P2 = Parcel
2.
M = mittlerer
Summenwert.
Anhang
Anmerkungen. N = 325. P1 = Parcel 1. P2 = Parcel 2.
.87
.83
.82
.80
.86
1
BDI-II-V.R_P2
.86
.88
.83
.80
1
BDI-II-V.R_P1
.78
.77
.90
1
BDI-II_P2
.79
.80
1
BDI-II_P1
BDI-V.R_P2
.79
1
BDI-V.R_P1
1
BDI_P1
BDI_P2
BDI-V.R_P1
BDI-V.R_P2
BDI-II_P1
BDI-II_P2
BDI-II-V.R_P1
BDI-II-V.R_P2
BDI_P2
Interkorrelationen der Itemparcels, die als manifeste Indikatoren der konfirmatorischen Faktorenanalysen zur parallelen Analyse von BDI, BDI-V, BDI-II und
BDI-II-V dienten
BDI_P1
Tabelle 30
232
.79
.81
.92
.88
.82
.82
1
.79
.75
.86
.88
.79
.80
.91
1
Herunterladen