ZIP

Werbung
Psychometrische Prüfung der deutschen Version des
Kansas City Cardiomyopathy Questionnaire (KCCQ) Unter Berücksichtigung des Einflusses einer komorbiden
Depression auf die Validität
Inaugural-Dissertation
zur
Erlangung der Doktorwürde
der Wirtschafts- und Verhaltenswissenschaftlichen Fakultät
der Albert-Ludwigs-Universität Freiburg i. Br.
vorgelegt von
Thomas Steinbüchel
aus Wanne-Eickel
WS 2005/2006
Prof. Dr. Hans Spada
Dekan der Wirtschafts- und Verhaltenswissenschaftlichen
Fakultät
14.06.2006
Datum des Promotionsbeschlusses
Prof. Dr. Dr. Bengel
Erstgutachter
Prof. Dr. Dr. Faller
Zweitgutachter
Abkürzungen
ANOVA
CI
d
df
M
N/n
OR
p
SD
t
*
**
***
Statistische Begriffe
analysis of variance
confidence intervall
Effektstärke
degrees of freedom
Mittelwert
Gesamtstichprobe / Teilstichprobe
odds ratio
probability: Wahrscheinlichkeit für die Datenlage unter Gültigkeit der H0
Standardabweichung
Student t-Verteilung
p < 0.05 (zweiseitig)
p < 0.01 (zweiseitig)
p < 0.001 (zweiseitig)
SRM
Maße der Änderungssensitivität
Guyatt’s-Responsiveness-Index (= Mt2-Mt1/SDDiff (einer stabilen Baselinephase))
Guyatt’s-Responsivenes-Statistic (s. GRI)
X − X t1
Reliable-Change-Index (= t 2
wobei SMFDiff= SDt1 2(1 − rxx ) )
SMFDiff
standardized effect size (= Mt2-Mt1/SDt1)
Standardmessfehler (= SDt1 1− rxx )
Smallest Real Difference (95% Intervall des SMF der Differenzen)
(=1,96 2 ⋅ SMF )
standardized response mean (= Mt2-Mt1/SDDiff)
r
ICC
CCC
Maße der Reliabilität
Pearson-Korrelations-Koeffizient
Intraklassen-Korrelations-Koeffizient
Konkordanz-Korrelations-Koeffizient
GRI
GRS
RCI
SES
SMF
SRD
BDI
CHFQ
KCCQ
KKG
LiHF
MOS-D
NHP
PHQ
QLQ-SHF
QWB
SBW
SF-12
SF-36
SIP
Fragebögen
Beck Depressions Inventar
Chronic Heart Failure Questionnaire
Kansas City Cardiomyopathy Questionnaire
Fragebogen zur Erhebung von Kontrollüberzeugungen zu Krankheit
und Gesundheit
Minnesota Living with Heart Failure Questionnaire
Medical Outcomes Study Depression Questionnaire
Notthingham Health Profile
Patient Health Questionnaire (deutsche Version)
Quality of Life in Severe Heart Failure Questionnaire
Quality of Well-Being Scale
Subjectiv Wellbeing
Short Form 12
Short Form 36
Sickness Impact Profile
pVO2
FS
PTCA
pAVK
COPD
ACE
Medizinische Begriffe
peak oxygen exercise capacity
left ventricular fractional shortening - FS (%) = Ejektionsfraktion
percutane transluminale coronare angioplastie
periphere arterielle Verschlusskrankheit
chronic obstructive pulmonar disease
angiotensin converting enzyme
NYHA
WHO
ICD
DSM
Sonstiges
New York Heart Association
World Health Organisation
International Classification of Diseases
Diagnostic and Statistical Manual of Mental Disorders
Anmerkung zum Ausdruck und zur Rechtschreibung
Um das Lesen der Arbeit nicht durch ständige Anführungszeichen für die Kennzeichnung der Skalenbezeichnungen unnötig kompliziert zu machen, sind die
Adjektive der Skalennamen als Teil des Namens großgeschrieben (z.B. Körperliche
Einschränkung).
Die englischsprachigen Begriffe sind in der Regel kleingeschrieben, jedoch wurden
diejenigen, die auch in der deutschen Fachsprache einen gewissen Bekanntheitsgrad als feststehende Konzepte haben, großgeschrieben (z.B. Reliable-ChangeIndex oder Missing für fehlende Daten).
Für den fachfremden Leser könnte es verwirrend sein, dass in der Arbeit mit dem
Wort Lebensqualität je nach Kontext die gleichnamige Unterskala des Fragebogens
des KCCQ oder das Konstrukt der Lebensqualität gemeint ist.
Inhaltsverzeichnis
1
Einleitung
1
2
Stand der Forschung
9
2.1
Beschreibung der chronischen Herzinsuffizienz
9
2.2
Das Konstrukt der Lebensqualität
13
2.3
Lebensqualität bei Herzinsuffizienz
24
2.4
Instrumente zur Erfassung der Lebensqualität bei Herzinsuffizienz
26
2.4.1
Überblick über die Entwicklung der Instrumente zur Erfassung der
generischen Lebensqualität
26
2.4.2
Die Erfassung krankheitsspezifischer Lebensqualität
31
2.5
Der Kansas City Cardiomyopathy Questionnaire (KCCQ)
36
2.6
Depression
43
2.7
Zusammenhang zwischen Depression, Depressivität und
Lebensqualität
47
2.7.1
Der theoretische Zusammenhang
47
2.7.2
Der phänomenologische Zusammenhang
56
2.7.3
Der empirische Zusammenhang
57
2.8
Herzinsuffizienz und Depression
60
2.9
Fragestellung
65
3
Methode
70
3.1
Patienten
72
3.2
Durchführung
72
3.2.1
Validitätsstichprobe
72
3.2.2
Reliabilitätsstichprobe
72
3.2.3
Änderungssensitivitätsstichprobe
73
3.3
Instrumente
73
3.4
Statistik
76
3.4.1
Operationale Hypothesen
76
3.4.2
Statistische Analyseverfahren
85
3.4.3
Teststärke
89
4
Ergebnisse
90
4.1
Patienten
90
4.1.1
Patientenkollektiv
90
4.1.2
Teilstichprobe Reliabilität
92
4.1.3
Teilstichprobe Änderungssensitivität
92
4.2
Alters- und Geschlechtseffekte
93
4.3
Item- und Skalenanalyse
94
4.4
Akzeptanz des KCCQ bei den Patienten
112
4.5
Zusammenfassung der Itemanalyse
113
4.6
Reliabilität
115
4.7
Änderungssensitivität
117
4.8
Konstruktvalidität
125
4.9
Diskriminative Validität (known groups validity)
131
4.10
Vergleich der diskriminativen Validität (known groups validity) für
auf Depression positiv versus negativ gescreente Patienten
4.11
137
Detailanalyse des Zusammenhanges zwischen Einzelfragen und
Depressionsscreening
147
4.12
Faktorielle Validität
151
4.13
Hauptkomponentenanalyse der Unterskalen getrennt für positiv
versus negativ gescreente Patienten
155
4.14
Partialkorrelationen von KCCQ, SF-36 und NYHA-Klasse
157
5
Diskussion
159
6
Zusammenfassung
189
Literatur
192
Anhang
A1
KCCQ-Fragebogen
A2
Skalenrohwerteverteilung der KCCQ-Fragen
A6
Bewertung der Akzeptanz des KCCQ
A32
Freie Antworten der Befragten
A37
Danksagung
1
1 Einleitung
Die WHO definiert Gesundheit seit 1947 als einen Zustand völligen körperlichen,
geistigen und sozialen Wohlbefindens und nicht allein als Abwesenheit von Krankheit. Diese Definition ist wegweisend für das Ziel ärztlichen Handelns und für die
Bewertung von Behandlungsergebnissen. Eine rein somatisch orientierte Bewertung ärztlichen Handelns ist nicht mehr ausreichend (Bullinger, Ravens-Sieberer &
Siegrist, 2000; Spilker, 1996).
Der Begriff „Lebensqualität“ scheint jedem zunächst verständlich und vertraut. Als
Fachbegriff wurde er zuerst in der Wohlfahrtsforschung gebraucht, um die Übereinstimmung von bestimmten objektiven Lebensstandards und der subjektiven
Zufriedenheit bzw. dem Wohlbefinden auf der Ebene von Bevölkerungsgruppen zu
bestimmen. Der Begriff der „gesundheitsbezogenen Lebensqualität“ ist inzwischen
ein Fachbegriff innerhalb der gesundheitswissenschaftlichen und klinischen Forschung geworden, der sich von dem soziologischen Begriff der Lebensqualität
abgrenzt. Er ist besonders relevant in den Bereichen, in welchen bedeutsame
Aspekte des Befindens und Handlungsvermögens von gesundheitlich eingeschränkten bzw. chronisch kranken Personen Beachtung finden (Bullinger et al.
2000).
Dass sich die subjektive und bewertende Perspektive des Patienten über valide
Erhebungsverfahren als objektives Kriterium des Behandlungserfolgs in der
Gesundheitsforschung seit den 80er Jahren langsam neben dem Fremdurteil
durch ärztliche Experten etablieren konnte, lässt sich durch folgende Entwicklungen verstehen (vgl. Zwingmann, 2002):
•
Angesichts der wachsenden Möglichkeiten, Leben zu verlängern, stellt sich
zunehmend die Frage nach der Relation von Überlebenszeit und Lebensqualität.
•
Begrenzte und stetig abnehmende Ressourcen im Gesundheitswesen zwingen Dienstleister zu entsprechend positiven Effektivitätsnachweisen im
Sinne der Patienten, Kosten- und politischen Entscheidungsträger.
•
Die zunehmende Häufigkeit chronischer Erkrankungen verlangt immer mehr
einen rehabilitativen Ansatz im Gesundheitswesen, bei dem die Bewältigung
2
der Krankheitsfolgen und die Beeinflussung des weiteren Verlaufs im Mittelpunkt stehen. Zur Bewertung dieses Ansatzes ist es unerlässlich, den Patienten als Informationsquelle mittels valider Messinstrumente zu nutzen.
Gerade für die Behandlung chronischer Erkrankungen, deren vollständige Heilung
unwahrscheinlich ist, hat sich die gesundheitsbezogene Lebensqualität aus Sicht
des Patienten als Erfolgskriterium der medizinischen Behandlung etabliert (Spilker,
1996). Auch bei der Behandlung der chronischen Herzinsuffizienz, einer chronischen Herzleistungsschwäche mit vielfältigen Auswirkungen auf das Befinden und
die Leistungsfähigkeit der Betroffenen empfiehlt es sich daher, die subjektive
Lebensqualität des Patienten zu erfassen (Krumholz et al. 2000).
Generische und spezifische Lebensqualität
Die Messung der gesundheitsbezogenen Lebensqualität erfolgt über standardisierte, und wie gerade beschrieben, validierte Fragebogeninstrumente. Hierbei
haben sich in den letzten Jahren zwei Hauptansätze herauskristallisiert:
1.
Der eine Ansatz versucht, die gesundheitsbezogene Lebensqualität relativ
unabhängig von den tatsächlichen Erkrankungen des Befragten zu erfassen.
Hier wird versucht, das Konstrukt Lebensqualität über lebensqualitätsrelevante Domänen abzubilden. Ein solches oft verwendetes und gut validiertes Instrument ist der SF-36 Fragebogen zum Gesundheitszustand
(Bullinger u. Kirchberger, 1998). Der Vorteil dieses und ähnlicher Instrumente
liegt in der Anwendbarkeit bei verschiedenen Patientengruppen und dadurch
in der Vergleichbarkeit der Ergebnisse. Bei dem Einsatz des OutcomeKriteriums Lebensqualität im Vergleich zwischen zwei Behandlungsformen ist
es dann allerdings besonders wichtig, vorher zu definieren, welche Domäne
der Lebensqualität in einer Studie als relevant gilt (Spilker, 1996).
2.
Der andere Ansatz versucht, gezielt ein Instrument für eine definierte
Patientengruppe, z.B. mit chronischer Herzinsuffizienz, zu entwickeln. So wird
es möglich eine relevante spezifische Domäne zu erfassen, die für die Einschätzung der Behandlung besonders wichtig ist. Auf diese Weise können
effizienter und änderungssensitiver subjektive Veränderungen des Krankheitszustands erfasst werden (Guyatt, Feeny & Patrick, 1993).
Inzwischen besteht ein Konsens darüber, dass die generischen Lebensqualitätsinstrumente des ersten Ansatzes und die krankheitsspezifischen des zweiten An-
3
satzes einander ergänzen und gemeinsam in Studien verwendet werden sollten
(Spilker, 1996; Wolinsky et al. 1998).
Es gibt zahlreiche Hinweise, dass die Lebensqualität durch aktive individuelle
Anpassungsprozesses beeinflusst wird. Deutlich wird dies an dem Konzept des
„response shift“, das mögliche Fehlerquellen bei der Messung der Lebensqualität
bezeichnet, die auf eine Veränderung der Bewertungskriterien der Befragten
zurückgeführt werden können (Güthlin, 2004). So fällt die Antwort auf Fragen der
Lebensqualität unterschiedlich aus, wenn sich bei den Befragten Vergleichsstandards verändern, Konzepte neu definieren oder individuelle Wertungen verschieben (Spranger & Schwartz, 1999; Güthlin, 2004). So dürfte beispielsweise bei
einer schnell fortschreitenden Herzinsuffizienz die Bewertung der neuen Lebensqualität bei einem zuvor aktiven Wanderer deutlich beeinträchtigt ausfallen. Für ihn
oder auch im Allgemeinen bei eher leistungsorientierten Persönlichkeiten wäre
eine Herzinsuffizienz vermutlich schwer zu verarbeiten, da ein wesentlicher Aspekt
von Lebensqualität, nämlich das Wandern oder Leistung im Allgemeinen, eingeschränkt wird. Die zunächst unmittelbar wahrgenommene Gesundheit erscheint
sehr eingeschränkt. Durch das Kennenlernen anderer Herzinsuffizienter könnte ein
neuer Vergleichsstandard entstehen (Rekalibrierung), so dass die subjektive
Wahrnehmung der eigenen Gesundheit relativ verbessert erscheint. Die erzwungene Ruhe könnte den Herzinsuffizienten mit der Zeit zu einer Rückbesinnung auf soziale Werte wie etwa den Kontakt zu seiner Familie veranlassen,
so dass die früheren Werte (Leistung, Wandern und Naturerlebnisse) in den Hintergrund treten (Veränderung des Wertesystems). Die früheren, eher funktionalen
Aspekte der eigenen Gesundheit im Sinne hoher Leistung, könnten einer Neudefinition von Gesundheit in Hinblick auf Aspekte des Schlafes, der Atmung und
der Angst vor grippalen Infekten weichen. So oder ähnlich kann man sich den
response shift inhaltlich vorstellen, wobei der tatsächliche Inhalt und dessen Ablauf
im Rahmen des Konstruktes response shift noch kaum genauer operationalisiert
oder empirisch untersucht wurden (Güthlin, 2004). Hinzu kommen bei der
Krankheitsverarbeitung auch Aspekte der Persönlichkeit (z.B. Extraversion und
geringer Neurotizismus als Prädiktoren einer hohen Zufriedenheit) und individuelle
Copingstrategien wie Kämpfen, Vermeiden, Verleugnen oder Sinn- und Bedeutungszuweisungen, alles Faktoren, die eine Erfassung einer bestimmten Form der
Lebensqualität erschweren. Bleiben diese Aspekte bei der Erfassung von Quer-
4
schnittsdaten unberücksichtigt, entstehen leicht empirische Befunde, die paradox
erscheinen. So können aufgrund unterschiedlich verlaufender Anpassungsprozesse auf den ersten Blick überraschende Lebensqualitätsunterschiede z.B.
zwischen verschiedenen Erkrankungen entstehen. So weisen etwas an Hypochondrie Erkrankte (Angst vor einer möglichen schweren körperlichen Erkrankung)
häufig eine niedrigere Lebensqualität auf, als diejenigen, die sich bereits mit der
tatsächlichen Erkrankung auseinandersetzen konnten (Herschbach, 2000).
Unter der Perspektive eines aktiven Konstruktionsprozesses ist denkbar, dass das
Vorhandensein einer zweiten Erkrankung die Bewertung der Symptome der ersten
verändert. In der vorliegenden Studie wird daher untersucht, wie sich die Validität
des KCCQ verhält, wenn chronisch herzinsuffiziente Patienten zusätzlich an einer
depressiven Störung erkrankt sind. Bleibt der enge Zusammenhang zwischen
Krankheitsschwere und der spezifischen Lebensqualität (diskriminative Validität)
auch für depressive herzinsuffiziente Patienten erhalten? Beeinträchtigt eine depressive Störung die Messung der herzinsuffizienzspezifischen Lebensqualität und
wenn ja, in welchem Ausmaß?
Herzinsuffizienz und Depression
Die Herzinsuffizienz stellt eine der häufigsten internistischen Erkrankungen dar.
Wegen ihres chronischen Verlaufs hat sie eine immense gesundheitsökonomische
Bedeutung, die angesichts der Altersverteilung in Deutschland noch weiter zunehmen wird. Eine eingeschränkte Herzleistung bringt unmittelbare Leistungseinschränkungen in allen Bereichen des Lebens mit sich. Die Betroffenen sind
weniger oder gar nicht körperlich belastbar und ermüden schneller. Wassereinlagerungen in der Lunge bedingen weitere Beschwerden wie z.B. Atembeschwerden im Liegen bzw. Schlafstörungen. Daher sind die Einschränkungen
der Lebensqualität erheblich (Cline, Willenheimer, Erhardt, Wiklund & Israelsson,
1999; Ekman, Fagerberg & Lundman, 2002; Hobbs et al. 2002; Juenger et al.
2002; Riedmayer et al. 1998; Zipfel, Löwe, Schneider, Herzog & Bergmann, 1999).
Im Vergleich zur Allgemeinbevölkerung scheint die Prävalenz einer Depression bei
chronischer Herzinsuffizienz deutlich erhöht zu sein, wenngleich die Angaben zur
Häufigkeit in der bisherigen Forschung uneinheitlich sind (Faller, 2005; Jiang et al.
2001; Koenig, 1998). Eine Depression darf im Unterschied zur Trauerreaktion nicht
als normale, vorübergehende Reaktion auf die Krankheitssituation verstanden
werden, sondern ist eine oft persistierende, behandlungsbedürftige psychische
5
Störung (Hessliner, 2002; Carney, Freedland, Sheline & Weiss, 1997; Whooley &
Simon, 2000).
Bei der Koronaren Herzkrankheit (KHK), der häufigsten Ursache einer chronischen
Herzinsuffizienz, stellt das Vorliegen einer Depression einen unabhängigen
Risikofaktor für eine erhöhte Mortalität dar (Barth, Schumacher & HerrmannLingen, 2004; Carney et al. 2003; Frasure-Smith et al. 2000; Barefoot et al. 1996).
Ebenso stellt das Vorliegen einer Depression bei der Herzinsuffizienz einen unabhängigen Risikofaktor für eine erhöhte Mortalität dar (Faris, Purcel, Henein &
Coats, 2003; Murberg & Furze, 2004; Jiang et al. 2001; Jiang et al. 2004).
Umgekehrt gibt es darüber hinaus prospektive Befunde an zuvor Gesunden, dass
eine depressive Störung das relative Risiko für eine Koronare Herzerkrankung
(KHK) um 60% erhöht (Rugulies, 2002; Wulsin, 2003).
Das Erkennen und Berücksichtigen einer depressiven Störung insbesondere bei
chronisch herzinsuffizienten Patienten kann für den Behandlungserfolg außerordentlich wichtig sein (Heßlinger et al. 2002). Ebenfalls wichtig ist es für die Evaluationsforschung zu wissen, ob und wie sich eine depressive Störung auf ein
krankheitsspezifisches oder generisches Lebensqualitätsmessergebnis auswirkt.
Fragestellungen der vorliegenden Studie
In der vorliegenden Studie wird der Kansas City Cardiomyopathy Questionnaire
(KCCQ), ein aus 23 Items bestehendes Selbsteinschätzungsinstrument, das in der
amerikanischen Originalversion sehr gute psychometrische Eigenschaften aufweist
(Green et al. 2000), in seiner deutschsprachigen Version evaluiert (Faller et al.
2005).
Die bisher vorhandenen krankheitsspezifischen Verfahren zur Messung der
Lebensqualität bei Patienten mit chronischer Herzinsuffizienz werden hinsichtlich
der Breite der abgedeckten Lebensbereiche und der Änderungssensitivität kritisiert
(Riegel et al. 2002; Übersicht: Berry & McMurray, 1999).
Da der KCCQ bereits konstruiert und übersetzt ist, steht hier die Validierung der
deutschen Version im Vordergrund. Das heißt in der vorliegenden Arbeit werden
die Genauigkeit und Gültigkeit sowie die inter- und intraindividuelle Diskriminationsfähigkeit der Messung untersucht werden. Dies heißt im Einzelnen, dass
die Durchführungs- und Auswertungsobjektivität (Standardisierung) gewährleistet
sein muss, was gegebenenfalls durch Interviewer und eine elektronische Datenauswertung erhöht werden kann. Die Genauigkeit betrifft die Frage, wie groß der
6
Messfehleranteil bzw. Varianzanteil des wahren Wertes ist, der sich über die
Messwiederholungsreliabilität und interne Konsistenz schätzen lässt. Die Gültigkeit
betrifft die Konstruktvalidität, die über die hohe gemeinsame Varianz mit ähnlichen
oder gleichen Konstrukten belegt werden kann. Die interindividuelle Diskriminationsfähigkeit sollte darin bestehen, dass zwischen unterschiedlich stark beeinträchtigten Patienten auch ein Unterschied hinsichtlich der gemessenen Lebensqualität abbildbar ist. Abschätzen lässt sich diese Diskriminationsfähigkeit über den
Vergleich eines anderen Parameters als unabhängige Variable wie Gruppen unterschiedlichen Schweregrades einer Erkrankung (z.B. gemäß der New York Heat
Association-Klassifikation für Herzinsuffiziente) als known groups validity. Die
intraindividuelle Diskriminationsfähigkeit eines Instruments lässt sich als Änderungssensitivität (Responsiveness) über die gemessenen Effektstärken in Folge
einer tatsächlichen Veränderung der Symptomatik (z.B. Dekompensation und
Erholung) bestimmen.
In der vorliegenden Studie werden also die psychometrischen Gütekriterien Reliabilität und Konstruktvalidität sowie die für ein krankheitsspezifisches Messinstrument wichtigen Eigenschaften der interindividuellen diskriminativen Validität
(known groups validity) und der (quasi intraindividuellen) Änderungssensitivität als
weitere Aspekte der Validität untersucht. Als weitere Frage wird untersucht, inwieweit die krankheitsspezifische Lebensqualität herzinsuffizienter Patienten beim
Vorliegen einer komorbiden Depression erfasst werden kann. Hypothesengenerierend wird dadurch indirekt die Frage aufgeworfen, inwieweit die gegenwärtig akzeptierte Grundannahme, dass sich eine krankheitsspezifische Lebensqualität unterscheiden ließe und diese dann eine sinnvolle Ergänzung der generischen Lebensqualität darstelle, aufrecht erhalten werden kann.
Überblick über die folgenden Kapitel
Im zweiten Kapitel wird in den Gegenstand dieser Arbeit eingeführt und die Fragestellung abgeleitet. Zunächst wird die Erkrankung der Herzinsuffizienz dargestellt,
um mit diesem krankheitsbezogenen Wissen die Fragen des KCCQ hinsichtlich
ihrer Brauchbarkeit einschätzen zu können. Anschließend werden verschiedene
Perspektiven auf das Konstrukt der Lebensqualität dargestellt, bevor auf die
Lebensqualität Herzinsuffizienter eingegangen wird. Es wird versucht, die Entwicklung der Messung der Lebensqualität bei Herzinsuffizienz bis zur Entwicklung
des KCCQ nachzuzeichnen.
7
Nach der Darstellung des KCCQ wird das Konstrukt der Depression und Depressivität genauer beschrieben und dessen Zusammenhang mit der Lebensqualität
unter theoretischer, phänomenologischer und empirischer Perspektive analysiert.
Es folgt eine erste Ableitung der Fragestellung, die im dritten Teil noch genauer
operationalisiert werden.
Im dritten Kapitel, dem Methodenteil, werden die Einschlusskriterien, die Versuchspläne, der Studienablauf, die eingesetzten Fragebögen und die statistischen
Analysemethoden und die operationalisierten Hypothesen dargestellt.
Im vierten Kapitel werden die Ergebnisse dargestellt. Nach der Beschreibung der
Stichprobe (Kapitel 4.1) und der Analyse möglicher Alters- und Geschlechtseffekte
(Kapitel 4.2) wird ausführlich auf die Ergebnisse der Itemanalyse hinsichtlich
Rohwerteverteilung, Itemschwierigkeit, Trennschärfe und Konsistenz der Skalen
eingegangen (Kapitel 4.3) sowie auf die subjektive Einschätzung der Patienten
über den KCCQ (Akzeptanz) (Kapitel 4.4). Die Präzision der Messung wird anhand
der Reliabilität untersucht (Kapitel 4.6).
Gerade für ein krankheitsspezifisches Messinstrument ist die Untersuchung der
Änderungssensitivität von besonderer Wichtigkeit (Kapitel 4.7). Für den KCCQ
werden Effektstärken berechnet und mit denen eines generischen Messinstrumentes, des Short Form-36 Fragebogen (SF-36), verglichen.
Für den KCCQ werden darüber hinaus Effektstärken der kleinsten klinisch bedeutsamen Veränderung und Mindesteffektstärken für ein individuelles reliables
Ergebnis (ähnlich dem Reliable-Change-Index) als Vergleichsgrößen dargestellt.
Für die Vergleichbarkeit mit der englischen Originalfassung wird auch der GuyattResponsiveness-Index berechnet.
Die Konstruktvalidität der einzelnen Skalen wird anhand der Analyse der Korrelationen mit dem SF-36 und dem Patient Health Questionnaire (PHQ), bereits
validierten Instrumenten, untersucht (Kapitel 4.8). Der hier eingesetzte Teil des
PHQ, der PHQ-9 in seiner deutschen Version, ermöglicht ein dimensionales sowie
kategoriales Depressionsscreening.
Die diskriminative Validität beschreibt den Zusammenhang des KCCQ mit dem
Schweregrad einer Herzinsuffizienz, gemäß der New York Heart Association
(NYHA-Klassifikation). Diese Eigenschaft wird mit Hilfe von Varianzanalysen und
Einzelvergleichen zwischen den NYHA-Klassen untersucht (Kapitel 4.9).
8
Dieser Aspekt der Validität wird im Weiteren dahingehend untersucht, ob er
ebenso für depressive Patienten gilt. Es wird geprüft, ob das wahrscheinliche
Vorliegen einer Depression (positives Screeningergebnis) den Zusammenhang
zwischen der Selbsteinschätzung auf dem KCCQ und der NYHA-Klasse verändert
(Kapitel 4.10).
Da das Erkennen einer depressiven Störung für die Behandlung herzinsuffizienter
Patienten als zunehmend wichtiger erkannt wird (Heßlinger, 2002), wird mit Hilfe
unserer Screeningergebnisse analysiert, inwieweit ein dafür vorgesehenes Item
des KCCQ (Frage Nr. 14) unter Umständen analog einem DepressionsscreeningInstrument eingesetzt werden könnte (Kapitel 4.11).
In dem Kapitel zur faktoriellen Validität (Kapitel 4.12) wird neben der faktoriellen
Validierung auch anhand von Hauptkomponenten-Analysen und unter Berücksichtigung der vorherigen Ergebnisse untersucht, inwieweit es gerechtfertigt erscheint, die einzelnen Skalen des KCCQ zu einem Summenwert zu addieren
(Kapitel 4.13).
Im Kapitel 4.14 wird hypothesengenerierend versucht, anhand von Partialkorrelationen abzuschätzen, wie sich der SF-36 als generisches Instrument gegenüber dem KCCQ als spezifisches Instrument in seiner Varianzaufklärung in
Bezug auf die Lebensqualität der Herzinsuffizienten verhält.
Im fünften Kapitel, der Diskussion, werden noch einmal die wichtigsten Ergebnisse
zusammengefasst und in Hinblick auf die Ausgangshypothesen unter Berücksichtigung der methodischen Einschränkungen dieser Arbeit diskutiert. Anschließend
werden inhaltliche und methodische Schlussfolgerungen für die zukünftige Forschung herausgearbeitet.
Zum schnellen Überblick über die vorliegende Arbeit soll das abschließende
sechste Kapitel, die Zusammenfassung, dienen.
9
2 Stand der Forschung
2.1 Beschreibung der chronischen Herzinsuffizienz
Epidemiologie
Die Herzinsuffizienz stellt eine der häufigsten internistischen Erkrankungen dar.
Die Prävalenz in westlichen Ländern beträgt ca. 3%, wobei Prävalenz und Inzidenz
deutlich altersabhängig sind. Bei ca. 5% der 70-Jährigen und 10% der 80-Jährigen
liegt eine Herzinsuffizienz vor (Hoppe & Erdmann, 2001). In Deutschland leiden
derzeit 1,6-2 Millionen Bundesbürger an einer Herzinsuffizienz. Die Inzidenz wird
auf 200.000-bis 300.000 Neuerkrankungen geschätzt (Dietz & Rauch, 2004).
Die Framingham-Studie fand eine Prävalenz von 0,8% bei der Gruppe der 50 bis
59-Jährigen, die für die über 80 Jährigen auf 9,1% ansteigt. Die Inzidenz betrug für
die 85 bis 94-jährigen Männer 4% (Ho et al. 1993).
Neuere Daten und Schätzungen ergeben sich aus den Ergebnissen der prospektiven Rotterdam-Studie, an der N=7893 über 55-Jährige teilnahmen (Bleumink
et al. 2004): Die Prävalenz und Inzidenz ist für die Männer jeweils höher. Die
Prävalenz beträgt für die 55-64-Jährigen 0,9% und steigt auf 17,4% für die über 85
Jährigen. Die Jahresinzidenz betrug für die Männer 17,6 (95%-CI 15,8-19,5) und
für die Frauen 12,5 (95%-CI 11,3-13,8) pro 1000. Das Lebensrisiko der 55-Jährigen an einer Herzinsuffizienz zu erkranken betrug für Männer 33% und für
Frauen 29%. Die Überlebensrate nach der Diagnose einer Herzinsuffizienz betrug
nach 30 Tagen 86%, nach 1 Jahr 63%, nach 2 Jahren 51% und nach 5 Jahren
35%.
Die Rehospitalisierungsrate im Zeitraum von drei bis sechs Monaten nach Entlassung aus einer stationären Behandlung liegt zwischen 25% und 30% (Rich &
Freedland, 1988; Vinson, Rich, Sperry, Shah & McNamara, 1990).
Dietz und Rauch (2004) schätzen die Mortalität in Deutschland mit 10% im ersten
und 50% nach dem fünften Jahr nach der Diagnosestellung etwas positiver ein.
In England werden jedes Jahr 0.2% der Bevölkerung wegen einer Herzinsuffizienz
hospitalisiert, was 6% aller Krankenhauseinweisungen ausmachte (Klein, 1999).
Stewart, MacIntyre, Hole, Capwell und MacMurray (2001) berichten für Schottland
10
eine Jahresinzidenz von 1,3/1000 und eine 5-Jahres-Überlebensrate von 25%.
Dabei kommen sie zu dem Schluss, dass die Sterblichkeit der Herzinsuffizienz die
der meisten Krebsarten (Ausnahme Lungenkrebs) nach der Erstdiagnose übersteigt. In einer weiteren schottischen Studie, die ebenfalls auf ein Zentralregister
zugreifen konnte, wurde gezeigt, dass sich die Prognose in Folge neuerer Behandlungsmöglichkeiten (ACE-Hemmer) in den Jahren von 1986 bis 1995 verbesserte
(MacIntyre et al. 2000).
In Deutschland stehen ca. 2% der Gesundheitssystemkosten im Zusammenhang
mit der Herzinsuffizienz. Die dabei größten Kosten fallen durch die Krankenhausaufenthalte an, die durch eine bessere Anleitung und höhere Therapietreue zu
60% vermieden werden könnten (Dietz & Rauch, 2004).
Krankheitsbild der Herzinsuffizienz
Wenn die Förderleistung des Herzens sich nicht ausreichend an die Erfordernisse
des Organismus anpassen kann, beschreibt dies den Symptomkomplex Herzinsuffizienz. Nach der WHO-Definition (1995) besteht eine verminderte körperliche
Belastbarkeit aufgrund einer ventrikulären Funktionsstörung. So kommt es nach
der bevorzugt betroffenen Kammer zur Unterscheidung einer Rechts- oder Linksherzinsuffizienz bzw. einer Globalherzinsuffizienz mit zumeist typischen klinischen
Symptomen. Ätiologisch können kardiale und seltenere extrakardiale Störungen
(wie z.B. endokrine Störungen, toxische Schäden oder Anämie) unterschieden
werden. Eine Übersicht über die häufigsten kardialen Ursachen gibt Tabelle 1.
Tabelle 1: Ursachen der Herzinsuffizienz
Mit besonderer Beteiligung von …
Myocard
Endokard und Herzklappen
Pericard
Rhythmusstörungen
Ursachen für Herzinsuffizienz
Koronare Herzkrankheit
Kardiomyopathien
Myocarditis
Negativ inotrope Medikamente
Klappenstenose
Klappeninsuffizienz
Shunt-Fehler
Missbildungen
Herzbeuteltamponade
Bradykardie
Tachykardie
Anhand dieser Tabelle wird deutlich, dass im deutschen Sprachraum die Kardiomyopathie einerseits einen einzelnen Krankheitskomplex umschreibt, der zu einer
11
Herzinsuffizienz führt, diese jedoch nicht umfassend beinhaltet. Andererseits kann
die Kardiomyopathie auch eine Folge der KHK oder einer anderen Erkrankung
sein. Insofern erscheint die Namensgebung Kansas City Cardiomyopathy
Questionnaire nicht ganz korrekt, da er auf die gesamte Gruppe Herzinsuffizienter
angewendet werden soll. Die häufigste Ursache in westlichen Ländern ist die
koronare Herzkrankheit bei bis zu 70% der Herzinsuffizienten, die bei bis zu 50%
dieser Patienten von einer arteriellen Hypertonie begleitet wird (Hoppe & Erdmann,
2001).
Pathophysiologisch werden systolische und diastolische Ventrikelstörungen unterschieden, die z.B. anhand einer Echokardiographie aufgezeigt und in ihrem Ausmaß bestimmt werden können. Für die klinische Symptomatik ist zum Teil eine
Unterteilung in Vorwärts - und Rückwärtsversagen praktikabel (s. Tabelle 2).
Tabelle 2: Übersicht über die klinische Symptomatik der Herzinsuffizienz. Fettgedruckt sind
die Symptome, die durch den KCCQ erfasst werden.
•
Linksherzinsuffizienz mit
Rückwärtsversagen und
Lungenstauung
•
•
•
•
•
Linksherzinsuffizienz mit
Vorwärtsversagen
Rechtsherzinsuffizienz
mit Rückstauung in den
großen Kreislauf
•
•
•
•
•
•
•
•
Gemeinsame Symptome
bei Links- und Rechtsherzinsuffizienz
•
•
•
•
Dyspnoe (anfangs Belastungsdyspnoe, später bis zu
Ruhedyspnoe)
Tachypnoe
Orthopnoe (Dyspnoe beim flachen Liegen)
Asthma cardiale (nächtlicher Husten und anfallsweise Orthopnoe)
Lungenödem (Dyspnoe mit Rasseln über der Brust und
schaumigem Auswurf)
Zyanose (Blaufärbung durch vermehrte Sauerstoffausnutzung
peripher bei pulmonaler Einschränkung)
Leistungsminderung
Schwächegefühl
Müdigkeit
Zerebrale Funktionsstörungen, insbes. bei älteren Pat.
Periphere Ödeme (Wassereinlagerung), z.B. Knöchel- /
Unterschenkelödeme
Sichtbare Venenstauung, z.B. Halsvenen, Venen am Zungengrund
Stauungsleber und gestaute V. cava (sonographische
Diagnose) bis hin zu Aszites
Stauungsgastritis mit Appetitlosigkeit, Meteorismus, kardialer
Kachexie
Stauungsnieren mit Proteinurie
Nykturie durch nächtliche Rückresorption von Ödemen
Tachykardie, Herzrhythmusstörungen
Pleuraergüsse
In der Regel sind beide Formen, Vorwärts- und Rückwärtsversagen, miteinander
kombiniert. Bei einer systolischen Ventrikelfunktionsstörung ist die linksventrikuläre
Auswurffraktion (Ejektionsfraktion) vermindert, während das enddiastolische Volumen erhöht ist. Bei diastolischer Ventrikelfunktionsstörung durch Behinderung der
12
Ventrikelfüllung ist die Auswurffraktion nicht vermindert, wohl aber das Schlagvolumen.
Die Ejektionsfraktion beschreibt das prozentuale Verhältnis von Schlagvolumen
und enddiastolischem Ventrikelvolumen.
Anhand der subjektiv wahrgenommenen Symptome wird die übliche Stadieneinteilung nach der New York Heart Association (NYHA) vorgenommen, siehe
Tabelle 3.
Tabelle 3: Revidierte Klassifikation der New York Heart Association (NYHA-Klassifikation).
I. Herzerkrankung ohne körperliche Limitation. Alltägliche körperliche Belastung verursacht keine
inadäquate Erschöpfung, Rhythmusstörung, Luftnot oder Angina pectoris.
II. Herzerkrankung mit leichter Einschränkung der körperlichen Leistungsfähigkeit. Keine
Beschwerden in Ruhe. Alltägliche körperliche Belastung verursacht Erschöpfung, Rhythmusstörung, Luftnot oder Angina pectoris.
III. Herzerkrankung mit höhergradiger Einschränkung der körperlichen Leistungsfähigkeit bei gewohnter Tätigkeit. Keine Beschwerden in Ruhe. Geringe körperliche Belastung verursacht Erschöpfung, Rhythmusstörung, Luftnot oder Angina pectoris.
IV. Herzerkrankung mit Beschwerden bei allen körperlichen Aktivitäten und in Ruhe, Bettlägerigkeit.
Neben Allgemeinmaßnahmen wie Gewichtsreduktion und -kontrolle, salzarmer
Diät bei Hypertonie, Bewegung usw. werden an medikamentöser Therapie in
erster Linie ACE-Hemmer, Beta-Blocker und Diuretika eingesetzt. Insbesondere
werden über die verminderten Angiotensin- und Katecholaminwirkungen eine
Entlastung und ein Schutz des Herzens erreicht. Weiterhin gibt es eingegrenzte
Indikationen für eine Digitalistherapie, Antiarrhythmika, AT1-Antagonisten, Calcium-Antagonisten und Nitrate.
Schlussfolgerungen
Die Herzinsuffizienz ist eine besonders beeinträchtigende chronische Erkrankung,
deren Mortalität sehr hoch ist. Da sie vorwiegend Ältere betrifft, hat sie angesichts
der Altersverteilung und der heutigen zunehmend lebensverlängernden Medikation
eine wachsende gesundheitspolitische Bedeutung.
Ein wichtiges diagnostisches Kriterium ist als objektives Maß die Ejektionsfraktion
und das Schlagvolumen. Ein weiteres Kriterium für die Einteilung des Schweregrades ist die New York Heart Association-Klassifikation. Sie beschreibt das Auftreten der typischen Symptome bei unterschiedlichen Belastungsgraden und
ermöglicht so eine Schweregradeinteilung in vier Klassen, die zum Teil eine subjektive Bewertung des Patienten enthält.
13
2.2 Das Konstrukt der Lebensqualität
Verschiedene theoretische Sichtweisen der gesundheitsbezogenen Lebensqualität
Obwohl es heute eine Vielzahl von verschiedenen Lebensqualitätsmessinstrumenten in verschiedenen Sprachen gibt und schon 1999 weit über 20.000
Veröffentlichungen zum Thema gesundheitsbezogene Lebensqualität existieren,
sind die Fortschritte in der Frage der theoretischen Konstruktdefinition der Lebensqualität auffallend gering (Bullinger, 1999, 2002).
Bullinger (2002) unterscheidet drei verschiedene Modelle der gesundheitsbezogenen Lebensqualität.
1. Es wird betont, dass keine allgemeingültige Lebensqualität existiere und sie
nur intraindividuell erfasst werden könne. Lebensqualität wird hier als Diskrepanz zwischen dem individuellen Ideal- und dem wahrgenommenen
Realzustand verstanden.
2. Lebensqualität ist messbar mittels allgemein anerkannter und gültiger
Dimensionen, auf denen alle Personen abbildbar sind.
3. Lebensqualität ist ein latentes Konstrukt, welches über Präferenzurteile indirekt erschließbar ist (economical or cost utility approach).
Bullinger (1999) betont, dass eine theoretische Konstruktdefinition wichtig sei,
damit die Lebensqualität sich nicht tautologisch aus dem Gemessenen erkläre und
eine Überprüfung verschiedener Ansätze erfolgen könne. Sie setzt die Lebensqualität in Analogie zu den verschiedenen Paradigmen der Persönlichkeitsforschung und zeigt hier Parallelen und Möglichkeiten der theoretischen Verankerung auf.
Die Persönlichkeitsforschung als Analogie zum Verständnis des Konstruktes
Lebensqualität
Die generischen und krankheitsspezifischen Instrumente implizieren den traittheoretischen Ansatz von Allport (1961) und Cattel (1967). Die Items können deduktiv
oder induktiv konstruiert sein. Es werden für alle Personen gültige Dimensionen
angenommen, auf denen das Individuum durch eine individuelle Position beschrieben werden kann. Die Dimensionen werden z.B. faktorenanalytisch im Rahmen
eines nomothetischen Vorgehens gewonnen. Nach Bullinger (1999) spräche für
diesen Ansatz, dass bei interkulturellen Vergleichen der Lebensqualität ähnliche
14
Profile bzw. Dimensionen gefunden werden. In diesem Ansatz fehlt jedoch eine
allgemein anerkannte theoretische Herleitung des Konstruktes. Stattdessen gibt es
einen Konsens über die relevanten Dimensionen, die aus der Empirie abgeleitet
wurden. So konnte ein Projekt der WHO (Satorius, 1990) ein generisches Lebensqualitätsinstrument von 300 Items (aus einem zuvor interkulturell induktiv generierten Itempool von 3000 Items) konstruieren, welches für 15 verschiedene Nationen die gleichen Dimensionen aufwies.
Vor dem Hintergrund derartiger interkulturell vergleichender Studien entwickelte
sich ein pragmatischer Konsens, wonach die Lebensqualität mindestens vier
Dimensionen umfasst (Bullinger, 1997, 2002; Cella, 1998):
1. körperliche Beschwerden,
2. emotionales Befinden,
3. Funktionsfähigkeit im Alltag und
4. soziale Rollen (Beruf, Familie).
Innerhalb dieser pragmatischen Modellannahmen können krankheitsübergreifende
Instrumente, wie der SF-36, die Lebensqualität relativ unabhängig von spezifischen Erkrankungen erfassen.
Noch offene Fragen dieses Ansatzes sind die Diskrepanz zwischen Selbst- und
Fremdeinschätzung sowie die teilweise verwirrenden Zusammenhänge mit den
Konstrukten Wohlbefinden, Depressivität und Gesundheitsstatus (Bullinger, 2002).
Konträr zu diesem Ansatz verhält sich das kognitive Modell in der Tradition von
Kelly (1955) oder Lewin (1935). Diese Ansätze sind nicht nomothetisch, sondern
idiographisch beschreibend. Die Dimensionen der Lebensqualität sind nicht für alle
gleich, sondern individuell einzigartige Konstruktionen in Folge unterschiedlicher
Lernerfahrungen. Eine Definition der Lebensqualität wäre hier die Differenz
zwischen dem individuell idealen und realen Zustand, wie es Campbell, Converse
und Rogers (1976) vorgeschlagen haben. Ähnlich schlug Calman (1984) als Definition vor, Lebensqualität sei die Lücke zwischen den Erwartungen des Patienten
und seiner Leistung. Erfasst werden kann diese Form der Lebensqualität über
Verfahren, die eine individuelle Beschreibung ermöglichen, wie z.B. das repertory
grid-Verfahren (Kelly, 1955), über Methoden, die nur die Veränderung erfassen,
wie Goal-Attainment-Skalen, oder über den wiederholten Einsatz eines Messinstrumentes.
15
Der interaktionistische Ansatz der Persönlichkeitsforschung betont den starken
Einfluss von Situationen auf das Verhalten vor dem Hintergrund individueller Erwartungen und Lernerfahrungen. In der Lebensqualitätsforschung könnte man
daher auch einen nomothetischen Ansatz (mit unterstellten Dimensionen) mit
einem Anteil individuell konstruierter Lebensqualitätsdefinition (z.B. einer Ein-ItemSkala oder Analogskala) kombinieren. Ähnlich ist der Versuch von Spilker (1990)
einzuordnen, bei welchem zusätzlich die Wichtigkeit der Items einer Skala miterhoben wurde. Ebenso könnte man hierzu den Ansatz das “Schedule for the
Evaluation of Individual Quality of Life” (SEIQoL) rechnen (s. u.).
Es ist nahe liegend, die Sichtweise Bullingers (1999) auf die Konzepte der Lebensqualität als Analogie zur Persönlichkeitsforschung um eine sozialpsychologische
Perspektive zu ergänzen. Die sozialpsychologische Perspektive sieht die Persönlichkeit nicht als reale Ursache des Handelns, sondern betrachtet Persönlichkeitseigenschaften zunächst nur als zugeschriebene Konstrukte eines Beobachters, der sich durch diese Konstruktion das Verhalten eines Beobachteten erklärt.
Eine so gefundene Erklärung ermöglicht in späteren Situationen, Vorhersagen
über das Verhalten eines anderen machen zu können. Offenkundig wird diese
Funktion der Persönlichkeitsattribution bei dem Begriff „Mörder“, der eine trait
ähnliche Zuschreibung in Folge einer einmaligen Tat darstellt. Umgekehrt ist die
Eigenschaft „Ehrlichkeit“ durch einen Betrug leicht zu verlieren (Reeder & Brewer
1979). Diese attributionstheoretische Sicht gilt nun nicht nur für die Außenperspektive eines Beobachters, sondern gerade auch für die Selbstwahrnehmung, die
in der Sozialpsychologie lediglich als ein Spezialfall der Fremdwahrnehmung
angesehen werden kann. Diese konstruktivistische Sichtweise lässt sich als Modell
ebenfalls auf die gesundheitsbezogene Lebensqualität übertragen. Hier überwiegt
in der Regel das Interesse der Forschung an den statistischen Ergebnissen der
Lebensqualitätserfassung auf Gruppenebene. Für den einzelnen Patienten wird
neben dem indirekten Nutzen aufgrund evaluierter Behandlungsstrategien der
Lebensqualitätsscore darüber hinaus nur interessant, wenn er z.B. durch den
behandelnden Arzt mit Bedeutung oder Konsequenzen versehen wird. Aus der
Tatsache, dass Lebensqualität psychometrisch erfassbar ist, d. h. der Patient
lediglich auf Fragen reagiert, sollte keine Reifikation erfolgen, d. h. angenommen
werden, das beobachtete Verhalten im Fragebogen sei Ausdruck einer existierenden Eigenschaft „gesundheitsbezogene Lebensqualität“. In diesem Modell ist
16
Lebensqualität eine unterschiedliche Reaktion auf bestimmte Fragen, deren unterschiedliche Beantwortung von einem Untersucher auf den Einfluss einer Erkrankung oder Therapie attribuiert wird. Innerhalb dieses Modells wäre es legitim,
wenn der Beobachter die Dimensionen festlegt, die er für seine Zwecke für relevant hält. Möchte er beispielsweise eine interkulturelle Vergleichbarkeit von
Reaktionen erhalten, dann wird er Dimensionen, in denen sich die betreffenden
Kulturen besonders unterscheiden (wie z.B. Glaube und Spiritualität sowie ggf. die
Bewertung der finanziellen Situation) aus seiner Definition der Lebensqualität eher
fernhalten oder deren unterschiedliche Gewichtung berücksichtigen. Konstruiert er
eher Dimensionen, die eng mit funktionalen Einschränkungen von Krankheiten
zusammenhängen, wird sich die Vergleichbarkeit leichter herstellen lassen. Hieraus dürfte jedoch nicht die Ubiquität des Konstruktes Lebensqualität abgeleitet
werden, diese Sichtweise entspräche nach obigen Modell nämlich dem fundamentalen Attributionsfehler: Der Neigung, den Grund einer Reaktion auf innere Gründe
(Lebensqualität) anstatt auf die Situationsanforderungen (vorgelegte oder gestellte
Frage) zu attribuieren.
Mehrfache Zeitabhängigkeit der gesundheitsbezogenen Lebensqualität
Shipper et al. (1996) stellt deutlich die mehrfache Zeitabhängigkeit des Konstruktes
bei seinem Überblick über die Definitionen und Konzepte der Lebensqualität innerhalb seines „overall functionality quality of life construct“ heraus:
„’Quality of life’ in clinical medicine represents the functional effect of an illness and
its consequent therapy upon a patient, as perceived by the patient” (Shipper,
Clinch & Olweny, 1996, S. 16). Unter gesundheitsbezogener Lebensqualität versteht er die subjektive Wirkung einer Krankheit und den Effekt einer Therapie aus
Sicht des Patienten. Hierbei wird jede Person als ihre eigene Kontrollgruppe betrachtet. Diese individuelle Sicht der Lebensqualität, bei der eine sinnvolle Erfassung nur über die Differenz zweier Messzeitpunkte erfolgt, löst zwei Probleme:
Zum einen ist die Vergleichbarkeit zwischen verschiedenen Kulturen wahrscheinlicher bzw. leichter herzustellen. Zum anderen müssen keine Normierungen
unternommen werden, d. h. es wird die Veränderung, die der Intervention folgt,
erfasst und nicht eine Veränderung in Bezug auf die „Normalität“. Diese Erfassung
eines „success measurements“ umgeht nach Shipper et al. (1996) auch das
Problem der Komorbidität bei der Messung von Lebensqualität. Auch würden hier
Unterschiede zwischen verschiedenen Altersgruppen oder der Geschlechtseffekt
17
keine wichtige Rolle mehr spielen. Shipper et al. ziehen an dieser Stelle jedoch
nicht in Betracht, dass diese Gruppenmerkmale wie Komorbidität, Geschlecht und
Altersunterschiede mit dem Messwiederholungsfaktor als Moderatoren interagieren
könnten, eine Hypothese, die in der vorliegenden Studie anhand einer komorbiden
Depression in Hinblick auf die known groups validity untersucht wird. Darüber
hinaus wird bei dieser Konzeption nicht unterscheidbar, was die Wirkung der
Therapie oder die des individuellen Anpassungsprozess an die neue Situation der
Krankheit ist. Diese individuelle Anpassungsleistung stellt gegenwärtig eine der
möglichen Fehlerquellen bei der Messung der Lebensqualität dar und wird als
„response shift“ bezeichnet. So fällt die Antwort auf Fragen der Lebensqualität
unterschiedlich aus, wenn sich interne Standards, Bewertungen oder eine individuelle Neukonzeption von Lebensqualität bei einem Befragten über die Zeit als
Anpassungsprozess verändern (Güthlin, 2004; Carver & Scheier, 2000; Spranger
& Schwartz, 1999).
Die Zeitabhängigkeit der Lebensqualität einem Instrument gegenüber ist nach
Shipper et al. (1996) zunächst darin zu sehen, dass sich der Anspruch an die
eigene Funktionalität über die Zeit variiert. Nicht rennen zu können hat für einen
Jugendlichen eine andere Bedeutung als für einen 70-Jährigen. Darüber hinaus ist
anzunehmen, dass sich wie auch im Sinne des response shifts die Relation der
Wichtigkeit der einzelnen Lebensqualitätsdimensionen im Verlauf einer Krankheit
bzw. Behandlung verändern. Ein Ansatz zur Erfassung dieser Veränderungen ist
das Schedule for the Evaluation of Individual Quality of Life (SEIQoL). Hierbei
schätzt ein Patient nicht nur seine Lebensqualität auf bestimmten Domänen bzw.
Skalen ein, sondern beurteilt darüber hinaus ihre relative Wichtigkeit zueinander. In
einer Studie von O’Boyle, McGee, Hickey, O’Malley und Joyce (1992) zur Transplantation von Hüftgelenken konnte gezeigt werden, dass dieses (aufwendige)
Verfahren die Änderungssensitivität des Gesamtscores deutlich erhöhen kann. Auf
diese Weise ist es möglich, einen änderungssensitiveren Gesamtscore über die
vier Dimensionen der Lebensqualität hinweg zu erfassen. Auch im Nachhinein
lässt sich der response shift durch Strukturgleichungsmodelle aufklären. So
konnten dies Oort, Visser & Sprangers (2005) für den SF-36 bei unterschiedlichen
Krebspatientengruppen demonstrieren, indem sie die hypothetische Veränderungen, die den response shift ausmachen könnten, in pfadanalytische Hypothesen
überführten und empirisch überprüften.
18
Die Betrachtung der Lebensqualitätsmaße als zeitabhängige Variable ist für die
Durchführung von Studien bei der Festlegung der Messzeitpunkte von besonderer
Bedeutung. Ein messbarer Effekt in Folge einer Intervention dürfte zu verschiedenen Messzeitpunkten unterschiedlich ausfallen. Nicht rechtzeitig gemessene
Daten, etwa vor Einsetzen eines response shift oder zu spät nach einer erfolgreichen Intervention, gehen als Effektstärke unwiederbringlich verloren.
Anforderungen an das Konstrukt der gesundheitsbezogener Lebensqualität
im Kontext verschiedener Forschungsparadigmen
Die Anforderungen, die aus konzeptueller Sicht an das Konstrukt Lebensqualität
herangetragen werden, sind vielfältig:
1. die Zeitabhängigkeit der individuellen Ansprüche an Funktionalität über das
Leben hinweg.
2. die Zeitabhängigkeit unterschiedlicher individueller Gewichtungen von
Lebensqualitätsdimensionen in Hinblick auf einen Gesamtscore.
3. die interindividuelle und kulturelle Vergleichbarkeit.
4. die Anwendbarkeit des Konzeptes auf unterschiedliche Populationen.
5. eine theoretische Fundierung der Lebensqualität.
6. Abgrenzung zu den Konzepten Wohlbefinden, Depression.
7. objektive und valide Erfassung der subjektiven Lebensqualität sowie die
Änderungssensitivität der Instrumente.
Die ersten beiden Anfoderungspunkte entsprechen weitestgehend dem Problem
des response shifts. Der vierte Punkt, die Anwendbarkeit des Konzeptes auf unterschiedliche Populationen, hängt eng mit der fünften Forderung, einer theoretischen
Fundierung, zusammen. Generische Instrumente eignen sich zwar gut, um auch
die Lebensqualität mehr oder weniger Gesunder zu erfassen, aber weniger gut, die
Wirkung ganz spezifischer Krankheiten zu erfassen. Aaronson, Bullinger und
Ahmedzai (1988) schlugen daher das Modell „core plus module“ vor, welches eine
Ergänzung eines generischen Instrumentes durch krankheitsspezifische Fragen
vorsieht. Dies entspricht der heutigen Empfehlung, möglichst generische und
krankheitsspezifische Instrumente gleichzeitig zu verwenden. Der unterschiedliche
Verlauf von spezifischen Erkrankungen ist darüber hinaus beachtenswert. Ist keine
Heilung mehr möglich, so erscheint das Konzept des „reintegration to normal
living“ (Wood & Williams, 1987) als Modell für die Lebensqualität geeignet zu sein.
Es untersucht, inwieweit sich die physischen, psychologischen und sozialen As-
19
pekte eines Erkrankten wieder zu einem harmonischen Ganzen reorganisieren.
Die Bedeutung krankheitsspezifischer funktionaler Einschränkungen dürfte je nach
dem, ob es sich um eine chronische oder vorübergehende Einschränkung handelt,
unterschiedlich bewertet werden. Z.B. gibt es Hinweise dafür, dass Schmerzen, die
auf die Wirkung der Therapie attribuiert werden, weniger lebensqualitätseinschränkend sind, als die gleichen Schmerzen, wenn sie als Merkmal einer
chronischen Erkrankung wahrgenommen würden (Fishman & Loscalzo, 1987).
Würde man derartige kognitive Aspekte in die Theoriebildung einbeziehen, wäre
eine Brücke zu den Ansätzen der Krankheitsbewältigung bzw. des Copings
geschlagen. Gelänge hier eine theoretische Verknüpfung, dann ließen sich genaue
Hypothesen bilden und prüfen, warum durch welche Intervention sich bei welcher
Erkrankung die Lebensqualität verbessern sollte. Wood (1987) wies in diesem
Sinne darauf hin, dass man gezielt die Bewertungsprozesse- und Copingfähigkeiten des Patienten stärken müsse, anstatt zu untersuchen, welche
(medizinische) Intervention indirekte Effekte auf das psychische Befinden des
Patienten habe.
Da bisher der Einsatz von Lebensqualitätsskalen häufiger dem Ziel diente, als
(zusätzliches)
Outcome-Kriterium
medizinische
Behandlungsstrategien
zu
bewerten oder zu vergleichen, und nicht primär versucht wurde, die Lebensqualität
einer Population direkt theoriegeleitet zu verbessern, erscheint es verständlich,
dass der Schwerpunkt nicht auf der Theoriebildung, sondern auf der Messbarkeit
des
Konzeptes
atheoretische
der
gesundheitsbezogenen
Forschungsstrategie
bringt
Lebensqualität
dann
allerdings
liegt.
Diese
zunehmend
Abgrenzungsprobleme zu ähnlichen Konzepten wie Wohlbefinden, Depressivität
und Paradoxien (Herschbach, 2002) und Messprobleme („response shift“) zutage,
die eine theoretische Klärung immer dringlicher erscheinen lassen. Wie eine
theoriegeleitete Testkonstruktion aussehen könnte, zeigen Ormel, Lindenberg,
Stevering und Vonkorff (1997).
Beispiel einer theoretischen Fundierung der Lebensqualität
Die theoretischen Schwierigkeiten bei der Konstruktvaliditätsbestimmung der
Lebensqualität wollen Ormel et al. (1997) dadurch lösen, dass sie bei der Konstruktion von Lebensqualitätsmessinstrumenten auf die social production function
(SPF) theory (Lindenberg, 1986) zurückzugreifen. Diese Theorie beschreibt, wie
sich psychologisches Wohlbefinden hierarchisch aus körperlichem und sozialem
20
Wohlbefinden zusammensetzt und wie diese wiederum über instrumentelle Ziele
(Aktivation, internale und externale angenehme Bedingungen, Status, verhaltenswirksame Verstärkung und Affektivität) hergestellt werden. Die Ziele veranlassen
das Individuum zu instrumentellen Aktivitäten, die wiederum von entsprechenden
Ressourcen abhängig sind. Ormel et al. (1997) beschreiben als Empfehlung eine
rationale Testkonstruktion, die ohne die Validierung an einem Goldstandard auskommt.
Für die Nützlichkeit der Instrumente steht im Vordergrund, dass solche Dimensionen erfasst werden, die für die jeweilige Zielgruppe relevant erscheinen und
daher als subjektive änderungssensitive Outcomevariablen berücksichtigt werden
(vgl. Testa & Simonson, 1996).
Gegenwärtiger Konsens
In der Einleitung zu seinem Kompendium „Quality of life and pharmacoeconomics
in clinical trials“ (second edition) stellt Bert Spilker fest, dass es keine anerkannte
Definition von „Lebensqualität“ gibt. Als eine gemeinsame Grundlage des Werkes
stellt er die Definition von Shipper (1996) dar, der Lebensqualität als drei Ebenen
umfassende Pyramide beschreibt. An der Spitze steht das Allgemeine Wohlbefinden, aufbauend auf fünf oder mehr breiter gefassten Domänen wie
-
körperlicher Status und Funktionalität,
-
psychologischer Status und Wohlbefinden,
-
soziale Interaktion,
-
ökonomische Bedingungen und Faktoren,
-
Religiosität und Spiritualität.
Diese Domänen bauen wiederum auf weiter differenzierten Komponenten des
jeweiligen Bereiches auf. Nutzen, Verbesserungen und Nebenwirkungen einer
Therapie werden von jedem Patienten entsprechend seiner Persönlichkeit (Werte,
Überzeugungen) anders gefiltert und lassen sich auf der Ebene der Domänen
gegebenenfalls mittels validierter Lebensqualitätsskalen erfassen. Diese verschiedenen Domänen ergeben wiederum zusammen ein individuelles übergeordnetes
Wohlbefinden. Das Konstrukt Wohlbefinden ist definitorisch miteinbezogen. Das
Problem der Abgrenzung zu anderen Konzepten und der Messung der Lebensqualität bei Gesunden und verschiedenen Erkrankungen wird von Spilker und
Revicki (1996) indirekt gelöst, indem sie einen Katalog über auch nicht gesundheitsbezogene
Lebensqualität
erstellen,
in
dem
alle
lebensqualitätsbeein-
21
flussenden Aspekte aufgeführt werden („Non-health related quality of life“). Die
übergeordneten Domänen heißen:
-
persönlich-internal (Werte, Überzeugungen, Wünsche, Ziele, Coping Strategien, Spiritualität)
-
persönlich-sozial (soziale Netzwerke, Familienstruktur, soziale Gruppen,
finanzieller Status, Beruf)
-
externe natürliche Umwelt
-
externe soziale Umwelt
Die gesundheitsbezogene und die nicht-gesundheitsbezogene Lebensqualität sei
bei jedem gleichzeitig vorhanden, allerdings unterschiedlich gewichtet.
Kritisch betrachtet klingen die nicht-gesundheitsbezogenen Domänen wie eine
Liste der potentiellen Störfaktoren bei der gemessenen gesundheitsbezogenen
Lebensqualität. Inwieweit diese tatsächlich praktisch trennbar sind, was empirisch
untersucht werden müsste, lassen die Autoren offen.
Alltagsverständnis der gesundheitsbezogenen Lebensqualität
Bisher wurde deutlich, dass das Konstrukt der gesundheitsbezogenen Lebensqualität vielfältigen Ansprüchen genügen muss, die daher die Konstruktionsweise
von Lebensqualitätsmessinstrumenten beeinflussen. Daher soll zum Schluss der
Frage nachgegangen werden, inwieweit das Konstrukt der gesundheitsbezogenen
Lebensqualität noch dem Alltagsverständnis von Lebensqualität entspricht.
Den Zusammenhang zwischen den Dimensionen und dem individuellen Verständnis von „Lebensqualität“ (gemessen als Ein-Item-Skala) beleuchtet die Studie von
Rose et al. (2000). Sie untersuchten, inwieweit der bisherige Konsens über die vier
Dimensionen (physisches und psychisches Wohlbefinden sowie Alltagsfunktionsfähigkeit und soziale Einbindung) der gesundheitsbezogenen Lebensqualität einer
empirischen Überprüfung standhält. Sie verglichen hierfür mittels Strukturgleichungsmodellen die jeweilige Gewichtung dieser Dimensionen in Bezug auf die
Lebensqualität (gemessen als Ein-Item-Skala) bei unterschiedlichen Krankheitsbildern. Die Lebensqualität wurde am deutlichsten vom psychischen Wohlbefinden
beeinflusst
schweren
(Ausnahme:
körperlichen
Prä-Lebertransplantation),
insbesondere
Erkrankungen
Bandscheibenvorfall
(lumbaler
auch
bei
und
chronisch-entzündlichen Darmerkrankungen). Auch innerhalb der einzelnen
Krankheiten war das psychische Wohlbefinden der stärkste Prädiktor für die
Lebensqualität. Generell schätzten die psychosomatisch Kranken ihre Lebensqua-
22
lität geringer ein als die körperlich Kranken. Mit den vier Dimensionen konnten
allerdings nur durchschnittlich 28% der selbsteingeschätzten Lebensqualität aufgeklärt werden. Hieraus folgern die Autoren, dass die Verwendung des Begriffes
Lebensqualität als Oberbegriff ungerechtfertigt ist. Darüber hinaus halten sie auch
die Konstruktvalidität für in Frage gestellt, da die Dimensionen bei den verschiedenen Krankheiten recht unterschiedlich gewichtet waren. Sie folgern daraus, dass
man versuchen müsse, für unterschiedliche Patientenpopulationen in unterschiedlichen Situationen die relevanten Dimensionen der Lebensqualität zu identifizieren.
Diese Empfehlung entspricht einerseits der Konstruktion krankheitsspezifischer
Instrumente, aber auch dem Ansatz des Schedule for the Evaluation of Individual
Quality of Life (SEIQoL). Sie zeigt aber auch, dass die Diskussion um das Konstrukt (generische) Lebensqualität mit einer pragmatischen Lösung noch nicht
befriedigend gelöst ist (Bullinger et al. 2000).
Psychometrische Eigenschaften
Im derzeitigen Modell einer pragmatischen Lösung auf
der Basis des
nomothetischen Modells steht die Lösung praktischer Probleme der Fragebogenkonstruktion und psychometrischen Prüfung im Vordergrund. Im Rahmen der
klassischen Testtheorie werden die Fragebögen hinsichtlich der Kriterien der
Reliabilität und Validität bewertet. Mit einem Verständniswandel von Lebensqualität,
ausgehend
von
einer
Analogie
von
Persönlichkeitseigenschaften
(Bullinger, 1999) hin zu einer funktionalen zeitabhängigen Sichtweise (Shipper et
al. 1996), wurde zunehmend das zusätzliche Merkmal der Änderungssensitivität
wichtiger. Die Validität wird in Form einer kriteriumsorientierten Validität operationalisiert. Die konvergente Validität untersucht den Zusammenhang zu ähnlichen
Konstrukten, die diskriminative Validität („known groups validity“) untersucht die
Trennfähigkeit zwischen klinisch unterschiedlichen Gruppen (z.B. verschiedene
Schweregrade einer Erkrankung). Faktorenanalytische oder strukturanalytische
Modelle werden hauptsächlich zur Analyse der Items im Konstruktionsprozess
eingesetzt und weniger zur Validitätsbestimmung (Bullinger, 2002). Bullinger hält
die Annahme der Parallelität zwischen dem klinischen funktionalen Status und der
gemessenen Lebensqualität, die bei der diskriminativen Validität vorausgesetzt
wird, für theoretisch nicht zwingend. Der Zusammenhang zwischen körperlichen
Symptomen und der selbsteingeschätzten Lebensqualität gilt im Allgemeinen auch
als klein bis mittelmäßig (Wilson & Cleary, 1995). Dennoch erscheint eine solche
23
Aussage nur vor dem Hintergrund sinnvoll, dass Lebensqualität analog Persönlichkeitseigenschaften als existierende Eigenschaft gesehen wird. In einer sozialpsychologischen Sichtweise, die sich mit dem Modell von Spilker (1996) bzw.
Shipper et al. (1996) vereinbaren lässt, ist die Annahme einer kausalen Beziehung
zwischen dem klinischen funktionalen Status und der gemessenen Lebensqualität
von zentraler Bedeutung, da sie einen attributiven Zusammenhag bei der Urteilsbildung belegt.
Schlussfolgerungen
Der häufig bedauerte Mangel an Theoriebildung im Bereich der Konstruktdefinition
der gesundheitsbezogenen Lebensqualität scheint eng mit dem dominierenden
Anwendungsbereich bzw. den bisherigen Sudiendesigns, in welchen die gesundheitsbezogene Lebensqualität als zusätzliches Outcome betrachtet wird, zusammenzuhängen. Dem gegenwärtigen Bedürfnis nach Messbarkeit eines patientenzentrierten, objektiven Outcomekriteriums kommen die Modelle und Methoden
der Persönlichkeitsforschung entgegen. Eine Sichtweise, die Lebensqualität
leichtfertig ontologisiert, zieht Abgrenzungsprobleme zu ähnlichen Konzepten nach
sich und produziert verstehbare systematische Messfehler in Form des response
shifts, die mit der Modellimplikation unvereinbar erscheinen. Ein Verständnis von
gesundheitsbezogener Lebensqualität als Reaktion auf eine Erkrankung und
Behandlung, vor dem Hintergrund einer eher sozialpsychologischen Analogie bzw.
eines konstruktivistischen Verständnisses und der Beachtung der vielschichtigen
Zeitabhängigkeit des Konstruktes, eröffnet mehr Flexibilität bei der weiteren
Theoriebildung, Testkonstruktion und Interpretation von Ergebnissen.
Um dieser Sichtweise Rechnung zu tragen, wird in der vorliegenden Arbeit die
Möglichkeit untersucht, ob eine komorbide Depression die Bewertungsprozesse
zur Beurteilung einzelner Items der Lebensqualität im Sinne eines „negativen
response shifts“ derart verändern kann, dass hierdurch die Validität gemindert
werden könnte.
Weiterhin wurde in unserer Studie Wert darauf gelegt, dass die erhobenen Lebensqualitätsdaten nicht nur der Validierung und unserer Hypothesenprüfung dienen,
sondern auch unmittelbar den Patienten zugute kommen. So wurden die individuellen Daten des Depressionsscreenings und der Lebensqualität dem behandelnden Arzt zeitnah ausgewertet vorgelegt, so dass dieser die Ergebnisse in die
Behandlung einbeziehen konnte.
24
2.3 Lebensqualität bei Herzinsuffizienz
Bei der Behandlung der Herzinsuffizienz werden traditionellerweise die Leistungskapazität/Toleranz, die Ejektionsfraktion, die Hospitalisierungsrate, die NYHAKlasse und der Tod als wichtigste Outcomekriterien beachtet. Gerade weil es bei
der Herzinsuffizienz keine Heilung gibt, ist ein wichtiger Parameter das subjektive
Urteil des Patienten. Die Zusammenhänge der subjektiven Lebensqualität mit
physiologischen Parametern sind meist nicht besonders groß.
Juenger et al. (2002) konnten an 205 Patienten zeigen, dass die NYHA-Klasse, in
welche bereits subjektive Urteile des Patienten und des Arztes eingehen, mit der
Lebensqualität am stärksten assoziiert ist (40% Varianzanteil). Der Zusammenhang zwischen der Lebensqualität und dem 6-Minuten-Geh-Test (11% für die
physische Funktionsfähigkeit) und dem peak oxygen uptake löste sich nach der
Kontrolle der NYHA-Klasse, Krankheitsdauer, Geschlecht und Ejektionsfraktion für
die meisten Skalen als insignifikant auf. Zusammen erklärten alle diese Variablen
lediglich 51% der SF-36-Skala körperliche Funktionsfähigkeit.
So überrascht es nicht, wenn die Lebensqualität durch den behandelnden Arzt nur
schwer eingeschätzt werden kann. Die Fremdeinschätzung der Lebensqualität bei
herzinsuffizienten Patienten durch die Ärzte fällt höher als die Selbsteinschätzung
der Patienten aus (Gallina et al. 1998).
Die Einschätzung der Lebensqualität bei Herzinsuffizienz ist als subjektives Urteil
nicht nur von dem subjektiven Gesundheitszustand abhängig, sondern wird ebenfalls durch den Arzt-Patient-Kontakt beeinflusst: So kann z.B. durch mehr
Patientenkontakt ein Placeboeffekt entstehen, der neben der Lebensqualität auch
die allgemeinen Symptome um 25-35% reduzieren kann (Packer, 1990). Auch
können sich Placeboeffekte einer Behandlung gerade in der Lebensqualität der
Kontrollgruppe signifikant abbilden (Feldman et al. 1993). Weiterhin dürfte die
Lebensqualität auch sensibel für Versuchsleiter- und Selektionseffekte jeglicher Art
sein, weshalb bei Studien über Lebensqualität unbedingt eine Randomisierung und
idealer Weise Doppelverblindung erfolgen sollte. Ausfälle der Teilnehmer sollten
sorgfältig in die Analyse der Ergebnisse mit einbezogen werden (Berry &
McMurray, 1999).
Eine eingeschränkte Herzleistung bringt unmittelbare Leistungseinschränkungen in
allen Bereichen des Lebens mit sich. Die Betroffenen sind weniger oder gar nicht
25
körperlich belastbar und ermüden schneller. Wassereinlagerungen in der Lunge
bedingen weitere Beschwerden wie z.B. Atembeschwerden im Liegen bzw. Schlafstörungen. Bei Beginn und Fortschritt der Herzinsuffizienz entstehen große Anforderungen an die individuelle Fähigkeit, die Einschränkungen psychisch zu bewältigen. Probleme in der Krankheitsverarbeitung können ein Entwicklungspfad zur
Entstehung bzw. Aufrechterhaltung verschiedenster psychischer Störungen, insbesondere Angst und Depression werden. Daher überrascht es wenig, dass die
Einschränkungen der Lebensqualität für Herzinsuffiziente ganz erheblich sind.
(Cline et al. 1999; Ekman et al. 2002; Hobbs et al. 2002; Juenger et al. 2002;
Riedmayer et al. 1998; Zipfel et al. 1999).
Im Vergleich zur Allgemeinbevölkerung ist die Prävalenz einer Depression bei
chronischer Herzinsuffizienz erhöht, wenngleich die Angaben zur Häufigkeit in der
bisherigen Forschung uneinheitlich sind (Faller, 2005; Jiang et al. 2001; Koenig,
1998). Freedland et al. (2003) fanden in ihrer Stichprobe von 682 Herzinsuffizienten Patienten mit einem strukturierten Interview (nach DSM-IV Kriterien)
bei 20% eine major depression und bei 16% eine minor depression. 51% wiesen in
dem Beck-Depressionsinventar (ein Instrument zur Erfassung des Schweregrades
der Depressivität) einen auffälligen Wert (>10) auf. Gerade das letzte Ergebnis
unterstreicht, dass ein Großteil der Herzinsuffizienten in ihrer Stimmung und somit
auch ihrer Lebensqualität deutlich beeinträchtigt ist. Am stärksten dürfte die
Lebensqualität in Verbindung mit dem Vorliegen einer Depressiven Episode bei
Herzinsuffizienten eingeschränkt sein. Diese Komorbidität erhöht die Sterblichkeit
innerhalb eines 5 Jahreszeitraumes um das Dreifache (hazard ratio 3,0; Faris et al.
2002).
Schlussfolgerungen
Die Lebensqualität ist bei Herzinsuffizienz deutlich verringert. Sie ist am stärksten
mit der NYHA-Klasse assoziiert. Dieser Zusammenhang weist die NYHA-Klasse
als bestes externes Validitätskriterium aus. Die hohe Rate depressiver Erkrankungen in der Population der Herzinsuffizienten verdeutlicht die Wichtigkeit der theoretischen und praktischen Abgrenzung der Konzepte Depression und Lebensqualität.
26
2.4
Instrumente zur Erfassung der Lebensqualität bei Herzinsuffizienz
Die Lebensqualität bei Herzinsuffizienz soll im Folgenden nicht unabhängig von
ihrer Erfassung und Historizität betrachtet werden. Der folgende Überblick soll
einen Eindruck über die Entwicklung und Vielfalt der verschiedenen Instrumente
zur Erfassung von Lebensqualität bei Herzinsuffizienz bieten, erhebt aber keinen
Anspruch auf Vollständigkeit.
2.4.1 Überblick über die Entwicklung der Instrumente zur Erfassung
der generischen Lebensqualität
Nach dem zweiten Weltkrieg entstand ein zunehmendes Interesse, den Gesundheitsstatus der Bevölkerung zu beurteilen. Zuvor war dies nur indirekt über Todesstatistiken möglich. Programme zur Prävention und Gesundheitsförderung wurden
durch Bevölkerungsssurveydaten evaluiert. In der modernen industriellen Gesellschaft, in der durch Hygiene und Impfungen viele der bedrohlichen Erkrankungen
den nun langwierigen chronischen Erkrankungen im höheren Alter weichen, bedarf
es einer neuen Art der Gesundheitsstatuseinschätzung. Eine wichtige Dimension
ist hierfür die Funktionsfähigkeit, die zuvor auch nur indirekt über „Aktivitäts“-,
„Disability“ oder „Bettentage“ als Indikatoren erfasst werden konnte. Demgemäß
entwickelte sich ein Verständnis von gesundheitsbezogener Lebensqualität, das
eng an der Definition von Gesundheit der WHO von 1948 angelehnt ist. Es ist ein
mehrdimensionales Konstrukt das mit subjektiven Aspekten von Gesundheit über
einen Funktionsstatus oder das Vorhandensein von Schmerzen hinausgeht. Das
heutige Konstrukt der generischen Lebensqualität wird über Profile gemessen, die
verschiedene Dimensionen über Indizes, meist als subjektive Selbsteinschätzung
erfassen.
Neben dem heutigen Einsatz von mehrdimensionalen Skalen existieren auch
einfachere Ansätze. Eine ebenfalls plausible Form der gesundheitsbezogenen
Lebensqualitätsmessung, die sich mehr über das subjektive Wohlbefinden als
Vehaltensfaktoren definiert, ist die Quality of Well-Being Scale (QWB, Kaplan,
27
1976). Sie ist eindimensional auf Symptome und Gesundheitszeichen gerichtet
und nimmt Bezug auf die letzten 6 Tage. Sie besteht aus Ja- und Nein-Antworten
in Bezug auf denkbare Beschwerden und verlangt einen Interviewer, obgleich es
inzwischen auch eine Fragebogenversion gibt. In der Beaver Dams Health Outcome Study (Fryback et al. 1993) konnte diese Skala zwischen 30 Herzinsuffizienten und 1326 Patienten mit anderen Erkrankungen signifikant trennen. In einer
randomisierten Behandlungsstudie (Standardtherapie versus Plazebo) konnte die
QWB wie auch das Sickness Impact Profile (SIP, genauere Beschreibung s. u.)
keinen Effekt abbilden (Tandon et al. 1988). Allerdings betrug die Stichprobengröße nur N=111 Patienten und die Compliance bei der Erhebung der Lebensqualität betrug nur 69% in der Interverntions- und 43% in der Plazebogruppe.
Eine Wohlbefindensskala, die auch tatsächlich überwiegend aus positiv formulierten Items besteht, ist der Psychological General Well-Being Index (PGWB),
der für die Anwendung in den amerikanischen Allgemeinbevölkerungssurveys bzw.
in den US „National Health and Nutrition Surveys“ (NHANES) entwickelt und eingesetzt wurde (Dupuy, 1978). Das Instrument unterscheidet sich von anderen
Lebensqualitätsinstrumenten insofern, dass es nur subjektives Wohlbefinden misst
und nicht unterschiedliche Bereiche der Gesundheit. Er wurde in einer randomisierten Trainingsstudie für Herzinsuffiziente neben einem Subjective Symptom
Assessment Profile (SSA-P) eingesetzt (Klocek, Kubinyi, Bacior & KaweckaJaszez, 2005). In dieser Studie konnte der PGWB für die beiden Experimentalgruppen „progressives Trainung“ und „konstantes Training“ die Besserung gegenüber der Kontrollgruppe, wie auch in dem SSA-Profile in den Bereichen Herzsymptome, emotionaler Stress, Kreislaufbeschwerden und Müdigkeit signifikant
belegen. Insgesamt erreichte die progressiv trainierte Gruppe nach 6 Monaten
Training eine signifikant bessere höhere Belastungsgrenze (peak VO2), die sich
auch in der Zunahme sexueller Aktivitäten zeigte. Nur in dieser Gruppe korrelierte
die Leistungsfähigkeit (oxygen uptake) mit der Lebensqualität (r=0.56*).
Die Lebensqualitätsinstrumente wurden zum einen in Bevölkerungssurveys eingesetzt, in welchen sie zum Großteil von mehr oder weniger Gesunden bearbeitet
werden, aber auch in der Forschung zur Behandlungsqualität verschiedenster
Erkrankungen. Diese unterschiedlichen Einsatzgebiete eines Instrumentes führen
meist entweder zu Boden- oder Deckeneffekten und somit in einem Extrembereich
(gesund oder krank) häufig zu einer mangelnden Veränderungssensitivität. Aus
28
forschungsmethodischen Gründen ist für die meisten Studien nur ein direkter
Gruppen- oder Meßwiederholungseffekt von Interesse, so dass Normierungen bei
den meisten Tests keinen besonderen Vorteil darstellen. Störungsspezifische
Normierungen der Tests wären angesichts das medizinischen Fortschrittes ziemlich schnell veraltert und unbrauchbar.
Bei vielen Studienergebnissen bleibt häufig unklar, ob das Instrument zu wenig
änderungssensitiv war, die Teststärke zu gering ausfiel oder die Intervention eine
zu geringe Wirkung zeigte. Aus diesem Grunde werden für den folgenden Überblick eher solche Studien einbezogen, die verschiedene Instrumente der Lebensqualität parallel verwendet haben.
Generische, gut validierte Instrumente, die häufig in Studien auch bei Herzinsuffizienten zum Einsatz kamen, sind das Sickness Impact Profile (SIP, Bergner et al.
1976), die Short Form-36 (SF-36 Ware, 1992) und Short Form-12 sowie das
Notthingham Health Profile (NHP, Hunt, McEwen & McKenna, 1980). Eine gute
Übersicht über diese und krankheitsspezifische Instrumente bei Herzinsuffizienten
wurde von Berry und McMurray (1999) vorgestellt.
Sickness Impact Profile
Das Sickness Impact Profile (SIP) besteht aus 136 Interviewfragen, die zu 12
Skalen zusammengefasst werden können (ca. 30 Min. Bearbeitungsdauer). Eine
Besonderheit ist hier, dass die subjektive Wichtigkeit der verschiedenen Fragen als
Gewichtung in die Auswertung einfließt. Die SUPPORT-Studie untersuchte prospektiv 1390 herzinsuffiziente Patienten zu drei Messzeitpunkten (Baseline bei
Krankenhausaufnahme, 2 und 6 Monaten, Wu et al. 1995). Der hier gemessene
mittlere Lebensqualitätswert von 16,5 für Herzinsuffiziente unterschied sich bedeutsam von dem mittleren SIP-Ergebnis (10.7) der chronischen Angina pectorisPatienten einer anderen Studie (Fletcher 1988).
In einer plazebokontrollierten Studie mit Vesnarinone wurde mit dem SIP (als
zusätzlichem Parameter) die Wirksamkeit eines inotropen Medikamentes in seiner
Wirkung auf die physische und psychische Dimension der Lebensqualität belegt
(Feldman, 1993) und eine Reduktion der Krankheitsereignisse und Sterblichkeit
um 50% aufgezeigt (Zeitraum 12 Monate). In einer weiteren Studie konnte der SIP
die Wirksamkeit dieses Medikaments als supplementäre Therapie über einen
Zeitraum von 12 Wochen belegen und hierbei auch zu der Pacebobehandlung
differenzieren (Rector, 1991). In einer Studie von Bulpitt et al. (1998) konnte der
29
SIP nur einen schwachen, jedoch keinen signifikanten Unterschied zwischen der
Wirkung der Medikamente Captopril und Cilazapril im Vergleich zu einem Placebo
feststellen. In einer Studie über die Wirksamkeit eines Muskeltrainings bei
herzinsuffizienten Frauen konnte der SIP im Gegensatz zu einem Maß des Sense
of Coherence eine Verbesserung abbilden (Tyni-Lenne et al. 1997).
Short Form-36
Der SF-36 ist ein amerikanisches Instrument, was auf eine 20-jährige Entwicklung
zurückblicken kann. Es ging aus den Ansätzen der Rand Health Insurance Study
(Brook et al. 1979) und der Medical Outcome Study (Stewart & Ware, 1992) hervor. Der SF-36 umfasst 36 likertskalierte Fragen, die zu acht Subskalen
zusammengefasst
werden:
1.
körperliche
Funktionsfähigkeit
(z.B.
Gehen,
Treppensteigen); 2. körperliche Rollenfunktion (Leistungsfähigkeit in Alltag und
Beruf); 3. körperliche Schmerzen (Stärke der Schmerzen und Behinderung im
Alltag); 4. allgemeine Gesundheitswahrnehmung (globale Beurteilung); 5. Vitalität
(Energie versus Erschöpfung); 6. soziale Funktionsfähigkeit (soziale Kontakte); 7.
emotionale Rollenfunktion (Beeinträchtigung der Leistungsfähigkeit durch seelische Probleme); 8. psychisches Wohlbefinden (positive Stimmung versus Angst
und Depression). Aus diesen Skalen werden analog den empirisch gefundenen
Faktorenladungen zwei Gesamtskalen (Faktoren), die Standardisierte Psychische
und die standardisierte Körperliche Summenskala gebildet. Eine Kürzung auf 12
Fragen, unter Beibehaltung der Skalenbildung zu zwei Faktoren (physisch und
psychisch), erwies sich auch für Herzinsuffiziente als vergleichbar valide
(Jenkinson et al. 1997). Der physische Faktor des SF-12 erwies sich in einer
prospektiven Studie an Herzinsuffizienten einer Spezialklinik gegenüber dem
Minnesota Living With Heart Failure Questionnaire als weniger änderungssensitiv
(Nauman, 1998).
In einer Studie zur linksventrikulären Dysfunktion (SOLVD) wurden einzelne
Domänen des SF-36 verwendet und für Herzinsuffiziente hinsichtlich der Diskrimination zwischen den NYHA-Klassen I-III validiert (Rogers et al. 1995). Die Skalen
Allgemeine Gesundheitswahrnehmung und Emotionale Rollenfunktion erwiesen
sich als klar diskriminierend. In einer prospektiven Studie an 5025 Patienten mit
linksventrikulärer Dysfunktion erwies sich die Skala Allgemeine Gesundheitswahrnehmung als unabhängiger Prädiktor für ein relatives Todesrisiko von 1,21
(p<0.0001) innerhalb von 36,5 Monaten (Konstam et al. 1996).
30
Die Wirksamkeit von ACE-Hemmern konnte innerhalb einer Messwiederholung von
vier Wochen in einer Studie von Jenkinson et al. (1997) mit einer Ein-Item-Skala
zum Gesundheitsbefinden erfasst werden, jedoch nicht mit dem SF-36. Dies weist
auf eine geringe Änderungssensitivität für die Population Herzinsuffizienter hin.
Darüber hinaus gibt es Hinweise, dass der Fragebogen gerade für Ältere schwierig
zu bearbeiten ist, was zu hohen drop out Raten führen kann. Problematisch erscheint darüber hinaus für ein generisches Instrument, dass der Bereich des
Schlafens nicht abgefragt wird (Berry & McMurray, 1999).
Westlake et al. (2002) untersuchten an N=61 Herzinsuffizienten, wodurch sich die
Lebensqualität, gemessen mit dem SF-36, am besten vorhersagen lässt. Die
besten Prädiktoren, die zusammen 49% der Varianz der Psychischen Summenskala vorhersagten, waren die NYHA-Klasse, der 6-Minuten-Geh-Test und die
Persönlichkeitsdimension Neurotizismus. Von der Körperlichen Summenskala
konnten lediglich 26% der Varianz durch obige und weitere soziografische Prädiktoren aufgeklärt werden.
Nottingham Health Profile
Das Nottingham Health Profile (NHP) besteht aus 38 Ja/nein-Fragen zu den Bereichen Energieverlust (3), Schmerz (8), Emotionale Reaktion (9), Schlaf (5), Soziale
Isolation (5) und physische Mobilität (8). Die Auswertung transformiert die kategorialen Selbsteinschätzungen zu einem Lebensqualitätswert zwischen 0 (beste
Lebensqualität) und 600, der mit einer Normierungsstichprobe verglichen werden
kann (Hunt et al. 1984). Da dem Bereich Schmerzen im NHP eine relativ große
Bedeutung zukommt, ist er für Herzinsuffiziente wahrscheinlich weniger geeignet
bzw. inhaltsvalide. Darüber hinaus befürchten Berry und McMurray (1999), dass
die negativ konnotierten Fragen einen nihilismusfördernden Effekt auf den Befragten haben könnten: „Ich fühle mich gereizt“, „Ich fühle mich einsam“, „Ich habe
unerträgliche Schmerzen“, Ich habe vergessen wie es ist, Freude zu empfinden“
usw.
Im Vergleich mit dem SIP und der QWB-Scale an einer Gruppe von Angina pectoris-Patienten erwies sich der NHP als am wenigsten änderungssensitiv und zeigte
Bodeneffekte (Visser et al. 1994).
In einer randomisierten Studie, in welcher ein Apotheker die Compliance einer
Gruppe erhöhen sollte, konnte zum einen signifikant die Compliance (32%) verbessert werden und zum anderen verbesserten sich auch die Leistungsfähigkeit
31
und die Ödeme. Dennoch konnte mit dem NHP dabei kein Effekt abgebildet werden (Godyer, Miskelly & Milligan, 1995). Dies spricht ebenfalls dafür, dass der NHP
für die Population Herzinsuffizienter zu wenig änderungssensitiv ist. Auch in einer
randomisierten Studie mit N=200 Herzinsuffizienten, in der gleichzeitig ein krankheitsspezifisches Instrument validiert wurde, konnte der NHP zwar nach 2 Wochen
einen signifikanten Effekt des Medikamentes Enoximone abbilden, aber nicht mehr
nach einem Jahr, wie es das krankheitsspezifische Instrument noch konnte
(Cowley & Skene 1994).
2.4.2 Die Erfassung krankheitsspezifischer Lebensqualität
In den 90er Jahren wurden zunehmend krankheitsspezifische Lebensqualitätsinstrumente entwickelt und validiert, die den Bedürfnissen der Herzinsuffizienten
besser angepasst waren als die generischen Instrumente.
Beispiele hierfür sind aus den 90er Jahren der Minnesota Living with Heart Failure
Questionnaire (LiHF, Rector, Kubo & Cohn, 1987), der Chronic Heart failure
Questionnaire (CHFQ, Guyatt et al. 1989) und der Quality of Life in Severe Heart
Failure Questionnaire (QLQ-SHF, Wiklund et al. 1987).
Minnesota Living with Heart Failure Questionnaire
Der Minnesota Living with Heart Failure Questionnaire (LiHF) hat 21 Fragen, die
abbilden, inwieweit die Herzinsuffizienzsymptome die Patienten davon abhielten,
so zu leben, wie sie möchten. Er besteht aus Fragen zu den Domänen körperliche
Aktivität, soziale Interaktion, Sexualität, Arbeit und Emotionen. Die Fragen werden
zu einer physischen Unterskala (8 Fragen) und einer emotionalen Unterskala (5
Fragen) addiert, die mit den übrigen Fragen zu einem Gesamtwert addiert werden
(Rector et al. 1987).
Der LiHF verfügt über eine gute Konstruktvalidität. In der schon erwähnten
SOLVD-Studie zur linksventrikulären Dysfunktion mit Patienten der NYHA-Klassen
I-III wurde auch der LiHF ein weiteres Mal validert. Er differenzierte gut zwischen
den ersten drei NYHA-Schweregraden (Rogers et al. 1995). In einer Analyse von
Rector et al. (1995) wies der LiHF laut Berry & McMurray (1999) nur mäßig hohe
Zusammenhänge mit der Leistungsfähigkeit der Patienten auf (peak oxygen
exercise capacity, pVO2 r=-.61), was man allerdings nicht unbedingt als nachteilig
werten muss, da ein Zusammenhang mit der NYHA-Klasse als wichtiger
32
anzusehen ist. In der gleichen Studie wiesen Patienten, die für eine sehr
risikoreiche Behandlung (Todesrisiko 1:20) bereit waren, auch die höheren
(ungünstigereren) Werte im LiHF Fragebogen auf (5 Punkte Differenz auf einer
Skala von 0-105).
Sanderson (1998) untersuchte die Wirkung eines Betablockers mit vasodilatorischer Wirkung (Celiprolol) gegenüber einem selektiven β1-Antagonisten (Metoprolol) und Placebo an 50 stabilen Herzinsuffizienten. Die Metroprolgruppe
verbesserter sich um 47% und die Celiprololgruppe um 38% in der Symptomskala
des LiHF (jeweils signifikant, aber nicht signifikant unterschiedlich zueinander). Die
Placebogruppe verbesserte sich nicht.
Rector, Johnson und Dunkman (1993) fanden keine signfikanten Verbesserungen
durch Enalapril (Vasodilatator) in den Werten des LiHF, obgleich in dieser Studie
die Überlebenswahrscheinlichkeit nach einem Jahr um 33% und nach zwei Jahren
um 28% erhöht werden konnte. In der zweiten Behandlungsgruppe („Hydralazin
and Isosorbide Monotritat“) verbesserte sich die linksventrikuläre Ejektionsfraktion
sowie die peak oxygen exercise capacity (pVO2) signifikant, jedoch auch ohne
Pendant in der Lebensqualität des LiHF.
Der Überblick von Berry und McMurray (1999) verdeutlicht, dass der LiHF nur in
zwei von 10 kontrollierten Studien eine Verbesserung abbilden konnte. In diesen
beiden Studien (Kubo et al. 1992 sowie Massi et al. 1992) ging die Lebensqualitätsverbesserung auch immer mit einer Verbesserung in der objektiven
Leistungskapazität einher. In den anderen Studien konnte der LiHF u. a. keine
Verbesserung der Lebensqualität durch Carvedilol abbilden, obgleich sich die
funktionalen Outcomemaße verbesserten, was darauf zurückzuführen sein dürfte,
dass dieses Mittel mit unangenehmen Nebenwirkungen wie Müdigkeit, niedriger
Blutdruck, Synkopen und Bradykardie einhergeht (Berry & McMurray 1999). In
einer Studie von Brostrom, Stromberg, Dahlstrom und Fridlund (2004) konnte der
LiHF ebenso wie der SF-36 nachweisen, dass die Lebensqualität von Herzinsuffizienten mit Ein- und Durchschlafschwierigkeiten sowie frühem Erwachen signifikant geringer ist.
Insgesamt betrachtet entsteht der Verdacht, dass der LiHF einen Mangel an Änderungssensitivität aufweisen könnte. Dies wird durch den Vergleich von Green et al.
(2000) mit dem KCCQ und dem SF-36 untermauert. Hier erwies sich die körperliche Funktionalitätsskala des LiHF ebenso wie die ähnliche Unterskala des SF-36
33
(Körperliche Funktionsfähigkeit) in der responsiveness statistic als deutlich weniger
änderungssensitiv als der Funktionale Status des KCCQ (LiHF=0.52; SF-36=0,59;
KCCQ=2,77). Von Hak et al. (2004) untersuchten N=31 Herzinsuffiziente, die den
LiHF bearbeitet hatten, noch einmal mit einem Interview. Dabei wurde deutlich,
dass die wichtige Instruktion des LiHF von fast niemandem gelesen wurde. Die
einzelnen Items wurden nicht ihrer Intention entsprechend verstanden, auch
passten sie häufig nicht auf die Umstände des Probanden. Die Autoren folgern,
dass die Konstruktvalidität des LiHF daher nicht gegeben ist.
Chronic Heart Failure Questionnaire
Der Chronic Heart Failure Questionnaire (CHFQ) besteht aus 16 InterviewerFragen, die drei Unterskalen bilden: Atemnot (5 Fragen), Müdigkeit (4 Fragen) und
emotionale Verarbeitung (7 Fragen). Aus allen Fragen wird ein Gesamtscore
addiert (Guyatt, 1989). Die Konstruktion erfolgte durch Itemreduktion eines
Fragenpools von 123 Fragen an 88 herzinsuffizienten Patienten. Die Validierung
erfolgte innerhalb einer placebokontrollierten Studie zu Digoxin (Guyatt et al.
1988). Es ergaben sich hohe Korrelationen mit globalen Urteilen und den einzelnen Skalen (z.B. Atemnot r=0.65). Allerdings fiel die Korrelation des Gesamtsocres
mit der NYHA-Klasse mit r=0.42 deutlich geringer aus, was auf eine geringere
diskriminative Validität verweist und die Entdeckung von Veränderungen unwahrscheinlicher macht. Die Unterskalen der Müdigkeit und Atemnot erwiesen sich als
die änderungssensitivsten Fragen. In dieser doppelverblindeten Studie erwies sich
Digoxin als leistungssteigernd. Die Ejektionsfraktion verbesserte sich signifikant
und der 6-Minuten-Geh-Test unterschied sich knapp nicht signifikant mit 411 m
versus 392 m. Der CHFQ konnte diese Effekte allerdings lediglich auf der Atemnotskala abbilden.
Rich et al. (1995) verglichen bei 242 stationären Herzinsuffizienten (Altersmedian
79 Jahre, NYHA-Klasse Median 2,4) die gewöhnliche Behandlung mit einer durch
besondere Gesundheitsberatung, Diät, Medikation und Entlassungsvorbereitungen
ergänzte Behandlung (Disease Management). Nach 90 Tagen war die Wiederaufnahmerate der speziellen Behandlungsgruppe um 52% gegenüber der Standardbehandlung reduziert. In dem CHFQ konnte auf allen Subskalen eine signifikante
Verbesserung durch die Zusatzbehandlung festgestellt werden.
Wolinsky et al. (1998) berichten über den Vergleich des CHFQ mit dem LiHF. Der
CHFQ habe deutlich mehr Zeit beansprucht (15-30 versus 5 Minuten). Gegenüber
34
dem SF-36 erwies sich der CHFQ für Angina pectoris oder herzinsuffiziente
Patienten hinsichtlich der internen Konsistenz, Decken- oder Bodeneffekte,
Änderungssensitivität und Bearbeitungszeit als überlegen.
Bennet et al. (2002) verglichen den LiHF mit dem CHFQ an einer Gruppe von 211
Herzinsuffizienten mit dem SF-12. Die Lebensqualität der untersuchten Patienten
erwies sich als mäßig bis niedrig. 26% hatten in einem der spezifischen Instrumente die schlechtesten Werte. Die diskriminative Validität erwies sich in Hinblick
auf die Differenzierung zwischen der NYHA-Klasse III und IV als ungenügend.
Lediglich die Unterskala (Physical Functioning) des LHFQ konnte hier signifikant
differenzieren. Die Boden- und Deckeneffekte in diesen Instrumenten (nicht im SF12) lassen befürchten, dass bei Wiederholungsmessungen nicht alle Verbesserungen oder Verschlechterungen erfasst werden können, weil bereits ein
Boden- oder Deckeneffekt erreicht war. Die Skalen des CHFQ und LiHF erwiesen
sich im Hinblick auf ihre interne Konsistenz als ausreichend. Darüber hinaus
konnten mit einer Faktorenanalyse die Faktoren (Skalen) bestätigt werden. Eine
Kritik von Bennett et al. (2002) an den beiden krankheitsspezifischen Instrumenten
(CHFQ und LiHF) war, dass sie keine Schmerzen erfragen, die bei dieser Population laut Califf (1998) eigentlich zu erwarten wären.
Quality of Life in Severe Heart Failure Questionnaire
Der Quality of Life in Severe Heart Failure Questionnaire (QLQ-SHF, Wiklund et al.
1987) ist ein krankheitsspezifisches Selbsteinschätzungsinstrument mit den zwei
Bereichen Lebenszufriedenheit und emotionale Parameter. Er umfasst 26 Fragen
als Likert- und Analogskalen, die zu einem Gesamtwert addiert werden.
Die Validierung erfolgte leider nur an 51 Herzinsuffizienten mit schwerer Herzinsuffizienz mit dem SIP und nicht mit einem der bereits verfügbaren alternativen
krankheitsspezifischen Instrumente. Die Konstruktvalidierung wies auch für den
Bereich der Symptome und körperlichen Einschränkung nur Korrelationen um
r=0.50 auf.
In einer placebokontrollierten Studie zur Wirksamkeit einer 12-wöchigen Behandlung mit Ramipril an 188 Herzinsuffizienten konnte der QHQ-SHF keine Verbesserung abbilden, obgleich sich sogar der Mittelwert der NYHA-Klasse der Behandlungsgruppe verbessert hatte (Gunderson et al. 1995).
35
Guyatt (1993) untersuchte mit dem QHQ-SHF den Vergleich zwischen Felodipine
und Enalapril an 46 Herzinsuffizienten. Hier konnte der QHQ-SHF die Effekte der
Leistungsverbesserung (pVO2) ebenfalls als Zunahme der Lebensqualität abbilden.
Die bisherigen uneinheitlichen Ergebnisse der Studien zeugen davon, dass die
vorgestellten Instrumente noch Verbesserungsmöglichkeiten aufweisen. Gerade
die Änderungssensitivität sollte bei krankheitsspezifischen Instrumenten besonders
gut sein.
Dies war u. a. der Grund für die Konstruktion des KCCQ, der durch seine
domänenorientierten Unterskalen eine hohe Änderungssensitivität ermöglicht (s.
Kapitel 2.5).
MacNew
Ein in jüngster Zeit konstruiertes Instrument ist der MacNew. Er ist auf die Population von Patienten mit koronaren Herzerkrankungen, Herzinfarkt, Angina pectoris
und Herzinsuffizienz ausgelegt und daher eine Alternative zu den generischen
Instrumenten und den jeweils krankheitsspezifischen.
Er ist eine Weiterentwicklung des Quality of Life after Myocardial Infarction Instruments. Dieses wurde an Herzinfarktpatienten validiert. Diese schätzten 97 Fragen
hinsichtlich ihrer Relevanz für ihre Beschwerden ein. Aus den besten Items wurde
der Interviewfragebogen konstruiert und validiert (Hillers et al. 1994). Aus diesem
Instrument wurde der MacNew Fragebogen (Heart Disease Health-Related Quality
of Life Instrument) weiterentwickelt. Er besteht aus 27 Fragen aus den Domänen
Physical Limitation (13 Fragen), Emotional Function (14) und Social Function (13).
Fünf Fragen beziehen sich auf Brustschmerzen, Atemnot, Müdigkeit, Schwindel/Benommenheit und Beinschmerzen. Der MacNew wurde inzwischen in fünf
Sprachen validiert und teilweise auch in Studien eingesetzt (Höfer, Lynett, Guyatt
& Oldridge, 2004).
Die ursprüngliche Konstruktion verlief über eine faktorenanalytische Auswahl der
Items. Jedes Item eines Faktors, welches eine Ladung größer .40 aufwies, wurde
in der Skala integriert. Dies führte zu dem bedenklichen Ergebnis, dass fast die
Hälfte aller Fragen in mehr als einer Skala Verwendung fand. Die Reliabilität der
deutschen
Version
beträgt
für
die
drei
Hauptskalen
als
Intraklassen-
korrelationskoeffizient .73-.93.
Der MacNew weist in der responsivenes statistic Werte zwischen .86 bis 1.12 auf.
Im Vergleich hierzu weist der Seattle Angina Questionnaire (SAQ, Spertus et al.
36
(1995), ein Fragebogen der ebenfalls von der Arbeitsgruppe um Spertus stammt
und sehr ähnlich dem KCCQ aufgebaut ist) in seiner Skala Krankheitswahrnehmung in der gleichen Studie einen Wert von 1.48 auf (Höfer et al. 2003).
Für den MacNew wurden auch wichtige Schritte in Richtung der Interpretierbarkeit
unternommen. So wurde die minimal importance difference empirisch auf 0.5
geschätzt und Normwerte für die drei Krankheitsgruppen (Herzinfarkt, Angina
pectoris, Herzinsuffizienz) und drei Altersgruppen (<65, 65-74, 75-85 Jahre) bestimmt (Dixon et al. 2002).
Schlussfolgerungen
Keines der vorgestellten Instrumente ist für die Erfassung der Lebensqualität bei
Herzinsuffizienten hinsichtlich der Gütekriterien sowie der Änderungssensitivität
ideal. Berry & McMurray (1999) bezeichnen in ihrer Schlussfolgerung den SF-36
und den SIP zur Erfassung der generische Lebensqualität bei Herzinsuffizienten
als am geeignetsten. Als derzeit beste krankheitsspezifische Instrumente bezeichnen sie den Living with Heart Failure Questionnaire LiHF und den Chronic Heart
Failure Questionnaire CHFQ. Dennoch mangelt es auch diesen krankheitsspezifischen Instrumenten an hinreichender Änderungssensitivität. Der in Folge
obiger Instrumente entwickelte KCCQ sollte sich daher gerade hinsichtlich der
Änderungssensitivität von seinen Vorgängern unterscheiden.
2.5 Der Kansas City Cardiomyopathy Questionnaire (KCCQ)
Items und Skalen
Der Kansas City Cardiomyopathy Questionnaire (KCCQ, Green et al. 2000) wurde
auf Basis der bereits existierenden in verschiedener Hinsicht ungenügenden Instrumente sowie mit Hilfe von betroffenen Herzinsuffizienten als auch Herzspezialisten konstruiert. Es wurden zunächst relevante Domänen identifiziert und
dann entsprechende Skalen unter der Beteiligung von Patienten und Herzspezialisten rational konstruiert. Der KCCQ erfasst folgende Domänen: körperliche
Einschränkung, Symptome (Häufigkeit und Schwere), Selbstwirksamkeit, soziale
Einschränkungen, Lebensqualität.
Diese Domänen können zu zwei Summenskalen „funktionaler Status“ und „klinische Zusammenfassung“ aggregiert werden. In der Skala Funktionaler Status
37
werden nur die körperlichen Symptome und Einschränkungen zusammengefasst,
in der Skala Klinische Zusammenfassung werden alle obigen Domänen mit Ausnahme der Selbstwirksamkeit zusammengefasst (Tabelle 4).
Eine weitere Frage dient der Einschätzung der Symptomstabilität. In Analogie zu
Green et al. (2000) wird im Weiteren auf die Symptomskala als Repräsentant der
Domäne Symptome (Symptomschwere und Symptomhäufigkeit) zurückgegriffen.
Die Domäne Lebensqualität ist nicht zu verwechseln mit dem Konstrukt der gesundheitsbezogenen Lebensqualität. Die Domäne Lebensqualität des KCCQ
erfasst die psychische Dimension der Lebensqualität im Sinne eines Wohlbefindens bzw. Abwesenheit von Depressivität.
Das Zeitfenster für die erfragten Beschwerden beträgt 2 Wochen. Die Rohwerte
werden auf eine Skala von 0 bis 100 transformiert. Hohe Werte zeigen einen guten
Zustand an. Green et al. (2000) berichten, dass sie die Fragen geschlechtsneutral,
klar, verstehbar und leicht zu übersetzen formuliert haben. Die Antwortkategorien
sind mit klinisch bedeutsamen Unterschieden als verbal verankerte Likert-Skala
konstruiert worden. Die deutsche Version des KCCQ ist im Anhang beigefügt.
Tabelle 4: Items, Subskalen und zusammenfassende Skalen des KCCQ.
Subskalen
Anzahl
d. Items
Symptomstabilität
1
Selbstwirksamkeit
2
Symptomhäufigkeit
4
Symptomschwere
3
Körperliche
5
Einschrän-
kung
Lebensqualität
3
Soziale Einschränkung
4
zusammenfassende Skalen
Symptome
(7 Items)
Funktionaler
Status
(13 Items)
Klinische
Zusammenfassung
(20 Items)
Im KCCQ-Fragebogen eignen sich die Fragen 1(a-f) bis 9, das Ausmaß der Herzinsuffizienz näher zu bestimmen, wobei sowohl Symptome einer Rechts- als auch
Linksherzinsuffizienz erfasst werden (s. die fettgedruckten Symptome in Tabelle 2,
S. 10). Die Fragen 1(a-i) erfassen gut die Belastbarkeit über allgemeine Tätigkeiten: sich ankleiden, Duschen/Baden, 100-200m auf ebener Strecke gehen, Garten
oder Hausarbeit bzw. Einkaufstaschen tragen, ohne Pause eine Treppe hoch
steigen, kurz laufen oder joggen. Die Frage 3 erfasst die Häufigkeit von Schwellungen, die Frage 5, wie häufig die Ermüdung andere Aktivitäten verhinderte.
38
Ebenso erfragt Item 7, inwieweit die Atemnot andere Aktivitäten verhindert. Die
Frage 9 betrifft Wassereinlagerungen in der Lunge: „Wie oft waren Sie während
der letzten 2 Wochen gezwungen, wegen Atemnot auf einem Stuhl sitzend oder
von mindestens 3 Kissen gestützt zu schlafen?“ Die Fragen dazwischen (4, 6, 8)
erfassen jeweils die subjektive Einschätzung der Beschwerlichkeit der Symptome:
„Wie beschwerlich waren die Schwellungen / Ermüdung / Atemnot während der
letzten 2 Wochen?“ Auf diese Weise dürften hohe Varianzanteile der NYHA-Klasse
sowie ein subjektiver Anteil erfasst werden. Die Fragen 10 bis 14 erfassen keine
Symptome mehr, sondern im weitesten Sinne kognitive und affektive Aspekte:
Selbstwirksamkeit und Wissen im Umgang mit Symptomen (10 und 11) sowie die
subjektive affektive Lebensqualität angesichts der individuellen Symptome (12-14):
„(12) In welchem Ausmaß hat Ihre Herzinsuffizienz während der letzten 2 Wochen
Ihre Lebensfreude beeinträchtigt? (13) Wie würden Sie sich fühlen, wenn Sie den
Rest Ihres Lebens in dem jetzigen Stadium von Herzinsuffizienz verbringen müssten? (14) Wie oft waren Sie während der letzten 2 Wochen wegen Ihrer Herzinsuffizienz entmutigt oder deprimiert?“ Die Fragen 15(a-d) erfassen die Auswirkung
der Herzinsuffizienz auf die Gestaltung von sozialen Kontakten: „a) In welchem
Ausmaß beeinflusst Ihre Herzinsuffizienz Ihre Lebensweise? … b) Hobbies, Freizeitaktivitäten, c) intime Beziehungen mit Menschen, die Sie lieben, d) Besuche bei
Familien-mitgliedern oder Freunden außerhalb Ihrer Wohnung, Arbeit / Hausarbeit.“
Herzinsuffizienzspezifität der Iteminhalte
Für eine symmetrische Schwellung der unteren peripheren Extremität gibt es als
Ätiologie außer einem sehr viel selteneren Lymphstau, einer primären Niereninsuffizienz oder einer Hypalbuminämie (z.B. bei Leberzirrhose) keine wesentlichen Differentialdiagnosen. D.h. die Fragen 3 und 4 sollten sehr änderungssensitiv in Folge einer Behandlung oder Verschlechterung sein.
Etwas weniger spezifisch ist die Belastungsdyspnoe einzuschätzen, die zum einen
schon schwerer von einer zusätzlichen Beeinflussung durch eine depressive
Stimmungslage zu trennen sein dürfte, der zum anderen auch primäre Lungenerkrankungen zugrunde liegen bzw. ursächlich mitbeteiligt sein können. Hier sind
vorallem die im Alter häufigere COPD (chronic obstructive pulmonary disease)
sowie interstitielle Lungenerkrankungen und Lungenfibrosen zu nennen. Das heißt
39
die Fragen 8 und 9 können gelegentlich auch durch komorbide andere
Erkrankungen beeinflusst werden.
Eine verstärkte Müdigkeit und ein Leistungsabfall können sicherlich die vielfältigsten Genesen haben (insbesondere depressive Verstimmtheit), so dass die
Fragen 1a-i und 5 zwar sehr typisch, aber auch am wenigsten spezifisch für die
Symptome der Herzinsuffizienz sind.
Ein wichtiger Schulungserfolg in Bezug auf die Prophylaxe einer kardialen Dekompensation ist häufig schon die Sensibilisierung für die Gewichtskontrolle. Bei
Gewichtszunahme innerhalb von wenigen Tagen kann so durch einen Hausarztbesuch oder in Eigenregie die Diuretikadosierung erhöht und eine Ödemausschwemmung forciert werden. Außerdem wirkt sich ein höheres Grundgewicht
(Übergewicht) negativ auf die Herzinsuffizienz aus. Die Herzinsuffizienz ist auch
häufig die Folge jahrelanger arterieller Hypertonie (Myocard- und Coronarienschädigung, s. Tabelle 2, S. 11), außerdem führt eine Herzinsuffizienz über
Regulationsmechanismen
wie
die
Sympathikusaktivierung
und
Katechol-
aminausschüttung zu arterieller Hypertonie. Als Allgemeinmaßnahmen wird unter
anderem eine salzarme Diät zur Senkung eines erhöhten Blutdruckes empfohlen.
Salz erhöht den onkotischen Druck des zirkulierenden Blutes, es bleibt ein
größeres intravasales Volumen, wodurch es zu höherem Blutdruck und Verstärkung der Herzinsuffizienz kommt. Die Fragen 10 und 11 spielen auf diese
Zusammenhänge an, ermöglichen jedoch nicht eine valide Beurteilung des tatsächlichen Wissens des Patienten.
Psychometrische Prüfung der amerikanischen Originalversion
Die bisherigen Ergebnisse der amerikanischen Validierungsstudie des oben dargestellten KCCQ erscheinen sehr positiv. Green et al. (2000) untersuchten die
Validität unter anderem vergleichend mit dem SF-36 als generisches Lebensqualitätsinstrument und dem Living with Heart Failure Questionnaire (LiHF). Sie untersuchten zur Konstruktvalidierung eine Gruppe von N=129 Patienten, die über alle
NYHA-Klassen verteilt waren. Darüber hinaus wurden die Reliabilität und
Änderungssensitvität an zwei weiteren Gruppen von n=39 Patienten untersucht.
An einer Gruppe von dekompensierten Patienten (N=39) wurde die Änderungssensitivität erfasst und anhand der Standardabweichung der Differenzen einer
stabilen Gruppe (ebenfalls N=39) relativiert. Ein höherer Wert spricht für eine
höhere Änderungssensitivität. Der KCCQ erlangte hier mit seiner Skala Funk-
40
tionaler Status (2,77) einen ähnlich hohen Wert wie die NYHA-Klasse selbst (2,86),
wobei dieses gute Ergebnis auf die Unterskala Symptome zurückzuführen ist, die
einen Wert von 3,19 erreicht. Der Gesamtscore des KCCQ (Klinischer Summenwert) ergibt eine responsiveness statistic von 1,74. Im Vergleich hierzu fielen die
Ergebnisse des LiHF und des SF-36 in der gleichen Studie deutlich weniger
änderungssensitiv aus. Der LiHF erreicht mit seinem Gesamtscore die höchste
Änderungssensitivität (0,73). Bei dem SF-36 weisen die Skalen Vitalität (0,60),
Körperliche Funktionsfähigkeit (0,59) und Psychisches Wohlbefinden (0,35) die
drei höchsten Werte auf. Betrachtet man die Veränderungen der dekompensierten
Patienten zu einer 3 Monate späteren Wiederholungsmessung und vergleicht sie
hinsichtlich signifikanter Veränderungen mittels t-Tests, so ergeben sich nur für die
Skalen des KCCQ signifikante Werte (mit Ausnahme der Skala Soziale Einschränkung). Green et al. (2000) vergleichen auf die gleiche Weise nun auch die
Wiederholungsmessung der stabilen Gruppe und fanden erwartungskonform mit
Ausnahme der Skala Soziale Funktionsfähigkeit des SF-36 (p=0,0008) keine
signifikanten Veränderungen.
Leider wurden für die Reliabilität keine Wiederholungsmessungen, sondern nur
Schätzungen über Cronbachs alpha berichtet. Die Skalen des KCCQ weisen gute
psychometrische Eigenschaften auf. Die Maße der Reliabilität, Responsiveness,
Konstruktvalidität und diskriminativen Validität liegen alle in einem guten Bereich.
Die Skalen des KCCQ wiesen mit Ausnahme der zwei-Item-Skala Selbstwirksamkeit befriedigende interne Konsistenzen auf (Cronbachs alpha zwischen
.78 und .95). Die Skala Körperliche Einschränkung wurde direkt mit der Unterskala
(Physical) des LiHF hinsichtlich ihrer Konstruktvalidität vergleichen. Die Korrelation
mit dem 6-Minuten-Geh-Test betrug für die KCCQ Skala r=0.48 und für die LiHF
Skala r=0.41. Die Korrelation mit der NYHA-Klasse betrug für die KCCQ Skala r=.65 und für die LiHF Skala r=-.58. Die Korrelation der beiden Skalen untereinander
betrug r=0.65.
Die wichtigsten Validierungsergebnisse von Green et al. (2000) können der folgenden Tabelle 5 entnommen werden.
41
Tabelle 5: Überblick über die Validierungsergebnisse von Green et al. (2000).
+
GRS
Symptomstabilität
Cronbachs
alpha
-
Selbstwirksamkeit
0.62
0.83
Symptomhäufigkeit/
Symptomschwere
0.88
3.19
0.9
1.48
0.78
0.86
0.86
0.62
Subskalen
Diskrimi
native
Validität*
2.62
F=51, p=0.0001
r=-0.65 NYHA-Klasse
r=0.48 6-min walk test
r=0.84 Körperliche Funktionsfähigkeit
(SF-36)
r=0.65 physich (LiHF)
r=0.45 Gesundheitswahrnehmung (SF36)
r=0.62 emotional domain (LiHF)
r=0.62 Soziale Einschränkung (SF-36)
Körperliche Einschränkung
Lebensqualität
Soziale Einschränkung
Funktionaler Status
Konstruktvalidität
2,77
Klinische Zusammen
F=52, p=0.0001
F=42, p=0.0001
fassung
+GRS Guyatt’s-Responsivenes-Statistic: Quotient aus den mittleren Veränderungen einer hospitalisierten, sich erholenden Gruppe (n=39, Zeitabstand 3 Monate) und der Standardabweichung einer stabilen Gruppen (N=39, Zeitabstand 3
Monate).
*Diskriminative Validität: Signifikanztest (ANOVA) zwischen den NYHA-Klassen.
LiHF: Living with Heart Failure Questionnaire.
SF-36: Short Form 36
Empirische Ergebnisse des Kansas City Cardiomyopathy Questionnaire
Masoudi et al. (2004) analysierten mit dem KCCQ die Lebensqualitätsunterschiede
zwischen älteren (> 65 Jahren n=218) und jüngeren (n=328) Herzinsuffizienten.
Trotz einer signifikant schlechteren mittleren NYHA-Klasse (2,5 versus 2,4) und
einer geringeren Leistung im 6-Minuten-Geh-Test (824 m versus 1064 m) erwies
sich die Lebensqualität der Älteren als besser (60 versus 54, p=0.05). Allerdings
nahm die Lebensqualität der Älteren bei einer Verschlechterung der NYHA-Klasse
auch stärker ab als die der Jüngeren. Ein ähnliches Ergebnis erbrachte die Studie
von Hou et al. (2004), der als Messinstrumente den CHFQ und den LiHF verwendete.
Hauptmann et al. (2004) konnten mit dem KCCQ zeigen, dass dieser mit dem
globalen Selbst- und Fremdurteil der Behandler gut übereinstimmte. Im Abstand
von 6 Wochen wurde der Gesundheitsstatus erneut gemessen, wobei die
Patienten mit einer höheren NYHA-Klasse (III mit Krankenhauseinweisung oder IV)
eine höhere Variabilität aufwiesen. Dies hat insofern Konsequenzen für die Planung von Studien, als Patienten mit höherer NYHA-Klasse häufiger untersucht
werden sollten und gegebenenfalls der Stichprobenumfang zur Erlangung einer
hohen Power erhöht werden müsste.
42
Soto, Jones, Weintraub, Krumholz und Spertus (2004) konnten mit dem KCCQGesamtwert nach Adjustierung anderer klinischer und demographischer Variablen
die Ereignisse Tod oder Rehospitalisierung von 1516 Herzinsuffizienten nach
einem Herzinfarkt für das folgende Jahr vorhersagen. Ein Wert von < 25 im KCCQGesamtwert ging mit einer signifikanten Erhöhung des Risikoquotienten (hazard
ratio 2,2; 95%CI 1,2 bis 3,3) einher.
Clark, Tu, Weiner und Murray (2003) untersuchten mit dem KCCQ und dem CHFQ
sowie Ein-Item-Skalen zum Gesundheitszustand den Zusammenhang der Lebensqualität mit pathophysiologischen und demografischen Daten an 212 Herzinsuffizienten. Der KCCQ, der CHF und die Einzelfragen korrelierten in ihren Unterskalen nur gering miteinander (0.17-0.37). Die Ejektionsfraktion und verschiedene
Komorbiditäten korrelierten nicht mit den Maßen der Lebensqualität. Folgende
Merkmale waren mit einer besseren Lebensqualität assoziiert: höheres Alter,
schwarze Hautfarbe, positive Gesundheitsüberzeugung, höheres Einkommen,
soziale Unterstützung und Kommunikation mit dem Arzt. Je nach Lebensqualitätsmaß konnten zwischen 14%-33% der Lebensqualität erklärt werden, was die
Bedeutsamkeit gerade dieser Verhaltensfaktoren für die Behandlung der Herzinsuffizienten unterstreicht.
Der KCCQ erwies sich auch als brauchbarer Prädiktor für die Entwicklung einer
Depression (n=52 von N=245) innerhalb eines Jahres. Hier bestand ein linearer
Zusammenhang zwischen der Lebensqualität im KCCQ und der späteren Entwicklung einer Depression. Diese wurde mit zunehmenden Risikofaktoren wie
alleine zu leben, Alkoholmissbrauch oder dem Erleben der Behandlung als finanzielle Belastung umso wahrscheinlicher (je zusätzlichen Faktor: 15,5%, 36,2%,
69,2%). Allerdings konnten die objektiveren Maße der Krankheitsschwere die
Depression nicht vorhersagen (Havranek, Spertus, Masoudi, Jones & Rumsfeld,
2004).
Rumsfeld et al. (2003) konnten mit dem KCCQ bei depressiven Herzinsuffizienten
eine geringere Lebensqualität belegen und deren weitere Verschlechterung vorhersagen. Im Querschnitt erwies sich die Lebensqualität der positiv auf Depression
gescreenten Herzinsuffizienten (mit dem MOS-D Medical Outcomes Study Depression Questionnaire: n= 139 depressive versus n= 327 nicht depressive) in
allen Skalen des KCCQ als signifikant niedriger. Nach 6 Wochen erfolgte eine
Wiederholungsmessung, deren Veränderungen genauer untersucht wurden. Eine
Depression sagte am stärksten eine Abnahme der Lebensqualität in den Skalen
43
Symptomskala, Funktionaler Status, Soziale Einschränkung, Lebensqualität und
dem Gesamtwert vorher (OR 2,5, 95%CI 1,5 bis 4,2). Weitere, aber schwächere
Prädiktoren waren eine bekannte Alkoholabhängigkeit (OR 2,4) und Diabetes (OR
1,7). Ebenso sagte auch eine Depression eine Verschlechterung im 6-MinutenGeh-Test vorher.
Die bereits vorliegenden Studienergebnisse mit dem KCCQ sprechen für die hohe
Änderungssensitivität des KCCQ und seine Praxistauglichkeit.
Schlussfolgerungen
Der KCCQ ist in seiner englischsprachigen Fassung ein valides und sehr
änderungssensitives krankheitsspezifisches Lebensqualitätsmessinstrument. Die
Fragen sind eng an den Einschränkungen der Herzinsuffizienten orientiert und
ergeben über die fünf Skalen eine mehrdimensionale Betrachtung sowie auch die
Möglichkeit eines Gesamtscores. Noch unzureichend untersucht erscheinen die
faktorielle Validität, d.h. die Frage, ob die Addierung der Skalen zu einem Gesamtscore sinnvoll ist. Darüber hinaus ist generell unklar, welchen Einfluss eine Depression auf die gemessene Lebensqualität durch den KCCQ hat und ob eine
Depression durch den KCCQ erkannt werden könnte.
2.6 Depression
Mit dem Konstrukt „Depression“ wird eine psychische Störung mit Krankheitswert
bezeichnet. Das Konstrukt Krankheit impliziert ein Ursachenmodell, welches spezifische Bedingungen der Entstehung (hypothetische oder auch noch unbekannte)
und den Verlauf beschreibt. Als Ursachenmodell einer Depression können verschiedene Perspektiven angeführt werden wie beispielsweise das medizinische
organische Erklärungsmodell (z.B. Serotoninmangel), ein psychoanalytische Modell (z.B. gegen das Ich gewandte Aggression), das verhaltenstherapeutische
Modell (Verstärkerverlust) oder andere Modelle.
Krankheiten lassen sich vom Ursachenmodell her unterscheiden oder aber von
ihrem Erscheinungsbild, den Symptomen. Bei dem Erscheinungsbild bzw. den
Diagnosekriterien einer Krankheit sollte, anders als beim Ursachenmodell, unbedingt Einigkeit hinsichtlich der Definition bestehen. Um diese Einigkeit bemühen
sich Expertenkommissionen der WHO. Die WHO gibt seit 1948 regelmäßig überarbeitete Versionen der „Internationale Statistical Classification of Diseases, Inju-
44
ries and Causes of Death“ (heute: Internationale Classification of Diseases, abgekürzt ICD: Dilling, Mombour & Schneider, 1991) heraus.
Parallel hierzu gibt seit 1952 die American Psychiatric Association das „Diagnostic
and Statistical Manual of Mental Disorders“ (abgekürzt DSM; Deutsche Übersetzung: Saß, Wittchen & Zaudig,1998) heraus. Das DSM erfuhr durch die Einführung
des multiaxialen Systems und genauerer Operationalisierungen und deren systematischer Erprobung in Forschung und Praxis internationale Anerkennung. Allgemein nähern sich die beiden Diagnosesysteme seit den 80er Jahren zunehmend
aneinander an. Beiden gemein ist heute das Bemühen, die nosologischen Einheiten möglichst deskriptiv und nicht ätiologisch zu beschreiben.
Beide Klassifikationssysteme der psychischen Störungen machen durch die Art
ihrer Taxonomie gegenstandsimplizierende Annahmen. Möglich wären kategoriale
(echt qualitativ alternative unterschiedliche Kategorien, wie sie noch Kraepelin
postulierte und anstrebte), dimensionale (quantitativ unterscheidbar nach Intensität
oder Häufigkeit, die sich besser eignen, eine Person hinsichtlich verschiedener
Dimensionen zu beschreiben) oder typologische Systematiken (die auch eine
Kombination aus beiden ermöglichen). Beide Systeme, das ICD und das DSM,
sind im Wesentlichen typologische Systematiken.
Damit einher geht die Implikation, dass die Systematik (ICD oder DSM) das Expertenwissen über die Erscheinungsweise der psychischen Störungen ordnet, aber
nicht Definitionen von realen Krankheitsentitäten beschreibt (Bastine, 1998).
Die Frage, was sich hinter dem Konstrukt Depression verbirgt, lässt sich daher
derzeit am besten durch das aktuelle DSM-IV oder die ICD-10 beantworten. Da
sich beide Systeme sehr ähnlich sind und in der Forschung das DSM im Angloamerikanischen Bereich weiter verbreitet ist, gehen wir hier im Weiteren nur auf
das DSM-IV ein.
Hiernach liegt eine Depression vor, wenn die Kriterien einer depressiven Episode
erfüllt und die Symptome nicht durch genauer spezifizierte andere Krankheiten
oder Faktoren erklärt werden können. Die Merkmale einer depressiven Episode
werden im DSM-IV wie folgt beschrieben:
„Das wesentliche Merkmal einer Episode einer Major Depression ist eine mindestens zweiwöchige Zeitspanne
mit entweder depressiver Stimmung oder Verlust des Interesses oder der Freude an fast allen Aktivitäten. Bei
Kindern und Heranwachsenden ist der Affekt mitunter eher reizbar als traurig. Außerdem müssen mindestens
vier zusätzliche Symptome aus einer Kriterienliste bestehen: Veränderungen in Appetit oder Gewicht, in Schlaf
und psychomotorischer Aktivität, Energiemangel, Gefühle von Wertlosigkeit oder Schuld, Schwierigkeiten beim
45
Denken, bei der Konzentration oder der Entscheidungsfindung oder wiederkehrende Gedanken an den Tod
bzw. Suizidabsichten, Suizidpläne oder Suizidversuche. Die Diagnose der Episode einer Major Depression
erfordert, dass ein Symptom entweder neu aufgetreten ist oder sich im Vergleich zu dem der Episode vorhergehenden Befinden deutlich verschlechtert hat. Die Symptome müssen über einen Zeitraum von mindestens
zwei aufeinanderfolgenden Wochen an fast jedem Tag die meiste Zeit des Tages anhalten. Außerdem muss
die Episode mit klinisch bedeutsamem Leiden oder Beeinträchtigungen in sozialen, beruflichen oder sonstigen
wichtigen Funktionsbereichen einhergehen. Bei leichteren Episoden mag die Funktion noch normal erscheinen, erfordert aber deutlich vermehrte Anstrengung.“ (DSM-IV, S. 380).
Die genaueren Diagnosekriterien für das vorliegen einer Episode einer Major
Depression lauten:
„A. Mindestens fünf der folgenden Symptome bestehen während derselben Zwei-Wochen-Periode und stellen
eine Änderung gegenüber der vorher bestehenden Leistungsfähigkeit dar; mindestens eines der Symptome ist entweder (1) Depressive Verstimmung oder (2) Verlust an Interesse oder Freude.
Beachte: Auszuschließen sind Symptome, die eindeutig durch einen medizinischen Krankheitsfaktor,
stimmungsinkongruenten Wahn oder Halluzinationen bedinge sind.
1. Depressive Verstimmung an fast allen Tagen, für die meiste Zeit des Tages, vom Betroffenen selbst
berichtet (z.B. fühlt sich traurig oder leer) oder von anderen beobachtet (z.B. erscheint den Tränen
nahe). (Beachte: kann bei Kindern und Jugendlichen auch reizbare Verstimmung sein).
2. Deutlich vermindertes Interesse oder Freude an allen oder fast allen Aktivitäten, an fast allen Tagen, für
die meiste Zeit des Tages (entweder nach subjektivem Ermessen oder von anderen beobachtet).
3. Deutlicher Gewichtsverlust ohne Diät oder Gewichtszunahme (mehr als 5 % des Körpergewichtes in
einem Monat) oder verminderter oder gesteigerter Appetit an fast allen Tagen. Beachte: Bei Kindern ist
das Ausbleiben der zu erwartenden Gewichtszunahme zu berücksichtigen.
4. Schlaflosigkeit oder vermehrter Schlaf an fast allen Tagen.
5. Psychomotorische Unruhe oder Verlangsamung an fast allen Tagen (durch andere beobachtbar, nicht
nur das subjektive Gefühl von Rastlosigkeit oder Verlangsamung).
6. Müdigkeit oder Energieverlust an fast allen Tagen.
7. Gefühle von Wertlosigkeit oder übermäßige oder unangemessene Schuldgefühle (die auch wahnhaftes
Ausmaß annehmen können) an fast allen Tagen (nicht nur Selbstvorwürfe oder Schuldgefühle wegen
des Krankseins).
8. Verminderte Fähigkeit, zu denken oder sich zu konzentrieren oder verringerte Entscheidungsfähigkeit an
fast allen Tagen (entweder nach subjektivem Ermessen oder von anderen beobachtet).
9. Wiederkehrende Gedanken an den Tod (nicht nur Angst vor dem Sterben), wiederkehrende Suizidvorstellungen ohne genauen Plan, tatsächlicher Suizidversuch oder genaue Planung eines Suizids.
B. Die Symptome erfüllen nicht die Kriterien einer Gemischten Episode […].
C. Die Symptome verursachen in klinisch bedeutsamer Weise Leiden oder Beeinträchtigungen in sozialen,
beruflichen oder anderen wichtigen Funktionsbereichen.
D. Die Symptome gehen nicht auf die direkte körperliche Wirkung einer Substanz (z.B. Droge, Medikament)
oder eines medizinischen Krankheitsfaktors (z.B. Hypothyreose) zurück.
E. Die Symptome können nicht besser durch einfache Trauer erklärt werden, d. h. nach dem Verlust einer
geliebten Person dauern die Symptome länger als zwei Monate an oder sie sind durch deutliche Funktionsbeeinträchtigungen, krankhafte Wertlosigkeitsvorstellungen, Suizidgedanken, psychotische Symptome oder
psychomotorische Verlangsamung charakterisiert.“ (DSM-IV, S. 387 f.).
Deutlich ist, dass das Vorhandensein verschiedener Kombinationen von Merkmalen, wobei hier eines der ersten beiden ein notwendiges Merkmal ist, zur kategorialen Diagnose führen. Diese wiederum wird noch hinsichtlich eines dimensionalen Schweregrades bzw. des Zustandes ergänzt: leicht, mittelschwer, schwer
(ohne versus mit psychotischen Merkmalen), teilremittiert, vollremittiert oder unspezifisch.
Differentialdiagnostisch ist gerade in Hinblick auf unsere Population der Herzinsuffizienten die Frage interessant, inwieweit die Herzinsuffizienz einen Krank-
46
heitsfaktor darstellt, der die Depression direkt physiologisch mitbedingt. Darüber
hinaus ist bei älteren Probanden eine Abgrenzung zu einer Demenzerkrankung
wichtig, da sich hier die Erscheinungsformen überlappen:
„Bei älteren Menschen ist es oft schwierig zu entscheiden, ob kognitive Störungen (z.B. Desorientiertheit,
Apathie, Konzentrationsschwierigkeiten oder Gedächtnisschwäche) besser durch eine Demenz oder eine
Episode einer Major Depression erklärt werden können. Die diagnostische Entscheidung beruht auf einer
gründlichen körperlichen Untersuchung, der Festlegung des Beginns der Störung, der Beurteilung des
Verlaufs, der zeitlichen Abfolge von depressiven und kognitiven Symptomen und des Ansprechens auf
Behandlungsmaßnahmen. Die Beurteilung des prämorbiden Zustands der Person kann zusätzliche Hinweise
für die Differentialdiagnose zwischen einer Episode einer Major Depression und einer Demenz liefern. Bei
einer Demenz findet sich gewöhnlich in der Vorgeschichte eine allmähliche Abnahme der kognitiven Funktionen, während bei einer Episode einer Major Depression der prämorbide Verlauf meist weitgehend unauffällig
ist und kognitive Einbußen erst im Rahmen der Depression und eher plötzlich auftreten.“ (DSM-IV, S. 386).
Die genaue Diagnose einer Depression kann nur von einem Experten vorgenommen werden, der die einzelnen Merkmale eingehend prüft und Alternativen
ausschließen kann. In unserer vorliegenden Studie konnte die Diagnose lediglich
mittels eines Screninginstrumentes, dem Patient Health Questionnaire (PHQ)
(Löwe, Kroenke, Herzog & Gräfe 2004; Kroenke, Spitzer & Williams 2001; Spitzer,
Kroenke & Williams 1999) d. h. über ein Selbstratingverfahren erfasst werden.
Der PHQ basiert allerdings auf obigen Kriterien des DSM, so dass durch die Anwendung des PHQ eine Übereinstimmung mit dem Konstrukt Depression sichergestellt ist. Anders als andere gängige Screeninginstrumente basiert der PHQ
gerade nicht auf einem dimensionalen Ansatz, sondern folgt den Kriterien des
DSM.
Im DSM-IV wird eine Major Depression hinsichtlich des Schweregrades spezifiziert.
Abgegrenzt werden kann von einer Major Depression eine Anpassungsstörung
sowie eine dysthyme Störung. Beide Störungen weisen mit einer Depression
symptomatische Überschneidungen auf und können auch zu einer Depressiven
Episode führen. Eine Anpassungsstörung (bei der ein Patient die Kriterien der
Major Depression nicht ganz erfüllt) setzt allerdings ein belastendes Ereignis,
Situation oder Lebenskrise voraus. Eine dysthyme Störung setzt eine weniger
ausgeprägte Beeinträchtigung der Affektivität über eine Mindestzeit von 2 Jahren
voraus.
Schlussfolgerungen
Das Konstrukt Depression ist die Beschreibung einer psychischen Störung im
Sinne einer Störung mit Krankheitswert. Ihr Erscheinungsbild und die damit ver-
47
bundenen diagnostischen Kriterien ergeben sich aus dem empirisch ermittelten
Expertenwissen. Obgleich eine Depression im heutigen diagnostischen Verständnis ein kategoriales Konstrukt mit verschiedenen Typen darstellt, lässt es sich
dennoch auch als dimensionales Konstrukt beschreiben, in dem das Ausmaß bzw.
der Schweregrad der depressiven Symptomatik betrachtet wird. Der Patient Health
Questionnaire (PHQ) ermöglicht beide Aspekte einer Depression gleichermaßen
mit geringem Aufwand für die Befragten zu erfassen.
2.7 Zusammenhang zwischen Depression, Depressivität und
Lebensqualität
Das Ausmaß an Depressivität hängt bei einer Depression immer sehr stark mit
dem Urteil über die Lebensqualität zusammen. Darf man daher annehmen, es
handele sich um sehr ähnliche, nur gegenläufige Konstrukte?
Die verschiedenen Ausprägungsgrade einer Depression könnten als Ausdruck
einer sehr geringen gesundheitsbezogenen Lebensqualität gesehen werden. Jeder
Kranke wird aufgrund seiner Erkrankung mehr oder weniger depressiv reagieren.
Ist somit Depressivität nicht das gleiche wie Lebensqualität? Ist Depressivität
wohlmöglich die psychische phänomenologische Erlebenskomponente der Lebensqualität? Oder gibt es eine Stimmungskomponente, die beide Konstrukte
miteinander verbindet?
2.7.1 Der theoretische Zusammenhang
Der theoretische Zusammenhang zwischen einer Depression und der Lebensqualität soll durch die Abgrenzung der zugrunde liegenden theoretischen Konstrukte erfolgen; dafür werden die einzelnen Konstrukte noch einmal kurz skizziert.
Lebensqualität
Wie bereits im Kapitel 2.2 dargestellt, handelt es sich bei der gesundheitsbezogenen Lebensqualität um ein dimensionales psychologisches Konstrukt. Es
wird in Analogie zur dimensionalen Trait- bzw. Persönlichkeitsforschung ein Kontinuum von Lebensqualität angenommen, auf dem Personen eingeordnet werden
können. Der gegenwärtige Konsens besteht darin, dass sich die generische und
auch die spezifische Lebensqualität aus verschiedenen Domänen zusammensetzen. An der Spitze dieser Domänen steht die allgemeine Lebenszufriedenheit
(subjectiv wellbeing, SBW) (Shipper, 1996). Das Konstrukt der gesundheits-
48
bezogenen Lebensqualität ist gegenwärtig weitestgehend durch das verwendete
Fragebogeninstrument bzw. die konkrete Fragestellung eines Forschungsparadigmas bestimmt. Die gesundheitsbezogene oder krankheitsspezifische
Lebensqualität trifft keine Unterscheidung zwischen gesund und krank, vielmehr
besteht ihr Wesen darin, dass sie unabhängig von diesen kategorialen diagnostischen Fremdbeurteilungskategorien die subjektive Sicht des Patienten
abbilden und dadurch das medizinische Krankheitsmodell um einen wesentlichen
Evaluationsparameter erweitern.
Die Mechanismen, die die subjektive gesundheitsbezogene Lebensqualität aus
psychologischer Sicht bedingen, sind noch Gegenstand vielfältiger Forschungsbemühungen. Mittels vorhandener Theorien können von außen paradox erscheinende Befunde der Zufriedenheit erklärt und beschrieben werden. So weisen
Krebskranke in der Rehabilitation eine größere Lebensqualität auf als der Durchschnitt der Allgemeinbevölkerung. Die niedrigsten Werte wiesen psychosomatisch
Erkrankte und die höchsten Morbus-Hodgkin-Kranke (in Remission) auf. Erklären
lässt sich dies durch individuelle Anpassungsprozesse, Sinn- und Bedeutungszuweisungen und unterschiedlichen Vergleichstrategien (nach oben oder unten)
und unterschiedlichen Bezugsgruppen (Herschbach, 2002).
Bei der Selbsteinschätzung der Lebensqualität werden anhand der Items subjektive, prinzipiell veränderbare Meinungen oder Bewertungen zu einem gesundheits- oder befindensrelevanten Sachverhalt erfragt. Z.B. „Fällt es Ihnen schwer,
länger spazieren zu gehen?“ D. h. es handelt sich hier nicht um das Messen einer
Disposition oder einer länger andauernden Persönlichkeitseigenschaft wie z.B.
„Gehen Sie gerne länger spazieren?“ Es wird in ersterem Fall ein Urteil erfragt, in
welches dispositionale Faktoren oder Stimmungen mit einfließen können.
In ihrem konstruktionistischen Ansatz schlugen Schwarz und Strack (1999) vor,
dass das Lebenszufriedenheitsurteil von aktuellen (vorübergehenden) und dauerhaft zugänglichen Quellen abhängt. In einem Experiment konnten sie zeigen, dass
das Urteil über die allgemeine Lebensqualität stärker mit spezifischen Domänen
korreliert, wenn diese zuvor durch Manipulation der Fragereihenfolge zugänglicher
gemacht wurden (Schwarz et al. 1991).
Mögliche Mediatoren und Prädiktoren der Lebensqualität
Eine interessante Frage ist, inwieweit die gemessene Lebensqualität oder die
Differenz zweier oder mehrere Messpunkte von allgemeinen Persönlichkeitsmerkmalen abhängt oder von situativen Faktoren. Diese Frage wird seit langem in
der Lebenszufriedenheitsforschung (SWB) diskutiert. Hier unterscheidet man
bottom-up Modelle, die von einer situativen Bedingtheit der Lebenszufriedenheit
ausgehen, und top-down Modelle, die von einer dispositionalen Bedingtheit ausgehen. Heller et al. (2004) analysierten die bisherigen Ergebnisse in einer Meta-
49
analyse. Vier der Persönlichkeitseigenschaften der Big Five korrelieren sehr
deutlich mit der Lebenszufriedenheit, was zunächst für die top-down Modelle
spricht. Die (true-score) Korrelationen mit der Lebenszufriedenheit schätzen die
Autoren aufgrund ihrer Metaanalyse wie folgt ein: Neurotizismus: -0.55, Extraversion: 0.34, Offenheit: 0.10, Verträglichkeit: 0.35 und Gewissenhaftigkeit: 0.36.
Die bottom-up Modelle argumentieren, dass sich das subjektive Wohlbefinden
(SWB) aus untergeordneten Domänen zusammensetze. Die bestuntersuchten
Domänen sind die berufliche und partnerschaftliche Zufriedenheit. Diese Domänen
korrelieren nun auch sehr hoch mit der allgemeinen Lebenszufriedenheit (berufliche: r=0.44 und partnerschaftliche: r=0.51).
Die Autoren versuchten drei verschiedene pfadanalytische Modelle über den
Zusammenhang von domänenspezifischer- und allgemeiner Lebenszufriedenheit
sowie dispositionalen Faktoren miteinander zu vergleichen. Hierbei erwiesen sich
zwei Modelle in ihrer Anpassung an die Daten als statistisch gleich gut:
a) die Lebenszufriedenheit ist ein Mediator zwischen den dispositionalen Eigenschaften und den
Domänen („temperament top down“).
b) Alle dispositionalen Eigenschaften beeinflussen direkt alle Arten von Lebenszufriedenheit, die
allgemeine und die Domänen. Die Domänen wiederum haben auch einen Einfluss auf die allgemeine Lebenszufriedenheit („integrative model“).
Ungeklärt blieb also im Wesentlichen die Frage, in welchem kausalen Verhältnis
die Domänen zu der allgemeinen Lebenszufriedenheit stehen (direkt oder indirekt).
Bezogen auf die gesundheitsbezogene Lebensqualität als Domäne des subjektiven Wohlbefindens lässt sich auf Grund der bisherigen Befunde schließen, dass
diese sehr wahrscheinlich von den Persönlichkeitseigenschaften beeinflusst wird.
Aus Sicht des gegenwärtigen gängigen Anwendungsbereichs (Evaluation medizinischer Interventionen) ist dies eine Störvariable. Wünschenswert aus theoretischer Sicht ist vielmehr der situative Einfluss, der über die Fragen zum Gesundheitszustand gemessen werden soll. Als situative Faktoren, die die gesundheitsbezogene Lebensqualität beeinflussen, sollten im Idealfall Merkmale einer
Erkrankung, deren Verlauf und der Einfluss der Behandlung im weiteren Sinne
gelten.
Die von Heller et al. (2000) analysierten Big Five Persönlichkeitseigenschaften
(Neurotizismus, Extraversion, Offenheit, Verträglichkeit und Gewissenhaftigkeit)
sind nicht die einzigen Konstrukte, um den Einfluss der Persönlichkeit auf die
Beurteilung der subjektiven Lebenszufriedenheit zu untersuchen. (Den stärksten
Einfluss hatte die Dimension Neurotizismus.) Ein ähnliches, aber viel breiter angelegtes Konstrukt stellt das Konstrukt „negative affectivity“ dar.
In Weiterführung der Arbeit von Tellegen (1982) schlagen Watson und Clark
(1984) vor, die verschiedensten hoch interkorrelierenden Konstrukte bzw. Skalen
wie „Trait Anxiety“, „Psychasthenia“, „Social Desirability“, „Repression-
50
Sensitization“, „Ego Resiliency“, „Schizophrenia“, „Psychoneurosis“, „State-Trait
Anxiety (A-trait)“, „Neuroticism (verschiedene Skalen)“ und noch weitere u. a. auch
„Depressionsskalen“ als Indikatoren eines übergeordnete Traits zu betrachten.
Empirisch sind diese genannten Skalen im Bereich r=0.71 bis r=0.88 korreliert.
Das Konstrukt negative affectivity beschreibt stabile interindividuelle Differenzen im
Bereich der Stimmung und des Selbstkonzeptes: Probanden mit einer hohen
Ausprägung dieser Dimension berichten eher von Nervosität, Angespanntheit,
Traurigkeit, Belastungen, Beschwerden und Unzufriedenheit konsistent über
verschiedene Situationen, auch in Abwesenheit von Stressoren. Unter Stressoren
reagieren sie noch stärker als andere. Sie sind eher introspektiv, denken und
grübeln mehr über ihre Unzulänglichkeiten und Fehler nach. Sie sehen bei sich
und auch bei anderen und im Allgemeinen die negativen Seiten. Sie sind sensibel
für kleine Irritationen, Fehler und Frustrationen und reagieren emotional länger auf
diese. Dennoch ist diese Dimension unabhängig von der Fähigkeit, Freude oder
Furcht zu erleben.
Möchte man den Einfluss der Persönlichkeit auf die Lebensqualität bestimmen, so
erscheint das Konstrukt der negativ affectivity als beachtenswert.
Das Konstrukt der Lebensqualität ist dadurch gekennzeichnet, dass es uni- oder
mehrdimensional konzeptualisiert ist und auf ganz unterschiedliche Domänen
bezogen werden kann. In den meisten Fällen stellt die Lebensqualität eine subjektive Selbsteinschätzung dar, die durch situative und dispositionale Faktoren direkt
oder indirekt beeinflusst wird. Wie verhält sich hierzu das Konstrukt der Depression
bzw. Depressivität?
Depression und Depressivität
Eine Depression ist im Gegensatz zum Konstrukt der Lebensqualität kein dimensionales, sondern ein kategoriales psychologisches Konstrukt. Es trennt durch die
Anwendung von technologischem Expertenwissen mittels Fremdbeurteilung Gesunde von Kranken. Eine Depression ist definiert durch das Vorliegen bestimmter
zum Krankheitsbild gehöriger Symptome. Eine Depression darf einerseits auf der
Konstruktebene nicht mit dem Alltagsverständnis und inzwischen üblichen Sprachgebrauch von „Depressivität“ im Sinne einer Stimmungsbeschreibung einer
beeinträchtigten Affektivität verwechselt werden. Andererseits lässt sich auf der
empirischen Ebene eine Kontinuität der Depressivität aus dem Bereich der normalen Stimmungsschwankung bis in den klinischen Bereich einer gestörten Affektivität denken oder nachweisen.
Eine Depression ist eine Erkrankung, bei welcher im Wesentlichen der Affekt
beeinträchtigt bzw. gestört ist, sie lässt sich zusätzlich auch dimensional hinsichtlich ihres Schweregrades beschreiben. Gegen ein rein dimensionales Konstrukt
der Depressivität im Sinne eines affektiven Kontinuums spricht der qualitativ an-
51
dersartige Verlauf von leichten Stimmungsschwankungen und schwereren depressiven Episoden. Während leichte depressive Momente oder Phasen zeitlich gesehen schnell vorübergehen können und eher leicht beeinflussbar sind, bleiben
schwere depressive Episoden (Depressive Störungen) typischerweise 6 Monate
oder länger erhalten und sind nur langfristig und nur teilweise medikamentös oder
psychotherapeutisch behandelbar. 15% der schwer Depressiven sterben durch
Suizid. Die Suizidrate ist gerade bei über 55-jährigen depressiven Patienten um
das vierfache erhöht. Im Gegensatz zu nicht Depressiven lassen sich bei depressiv
Erkrankten auch Normabweichungen hinsichtlich physiologischer Parameter beobachten: Schlaf-EEG, Unterschiede bei evozierten Potentialen im Wach-EEG,
Veränderungen in der Schlafarchitektur, Veränderungen im Bereich der Neurotransmitter (Serotonin, Noradrenalin).
Die Mechanismen, die eine Depression bedingen, sind Gegenstand vielfältiger
Forschungsbemühungen und können durch verschiedene Modellvorstellungen
beschrieben werden (neurobiologisch, psychologisch, verschiedene psychotherapeutische Störungsmodelle). Nicht zuletzt sprechen auch Befunde der Genforschung für das kategoriale Krankheitsmodell der Depression. Eine polymorphe
Genregion (5HTTLPR) steht in engem Zusammenhang mit dem Gen, welches das
Protein für den Serotoninuptake produziert. Dieses Gen existiert als langes oder
kurzes Allel. Personen mit zwei kurzen oder einem kurzen und einem langen Allel
dieses Gens weisen nach stressbezogenen Lebensereignissen signifikant stärkere
depressive Symptome auf (Caspi et al. 2003; Wurtman, 2005). Auch ist hiermit
eine stärkere Aktivität der Amygdala auf angstbezogene Reize korreliert. Dies lässt
eine gemeinsame genetische Ursache von Depression und Angststörungen vermuten und macht den Wirkmechanismus der antidepressiven SSRI-Medikation
nachvollziehbar. Neben obigen Mechanismen gibt es noch andere weitere, die
ebenfalls zu einer Depression führen könnten, wie z.B. eine Reduktion von
Wachstumshormonen während der Gehirnentwicklung und weitere genetisch
bedingte Veränderungen der Transmitteraktivität.
Der situative Einfluss auf eine depressive Episode ist im Vergleich zum gewünschten Einfluss auf die Lebensqualität aus theoretischer Sicht als sehr gering
anzusehen. So ist zwar sehr häufig ein äußeres Ereignis ein Auslöser einer depressiven Episode (z.B. ein schwerer, unverarbeiteter Verlust, der Ausbruch einer
Erkrankung oder Situationen, die eine gelernte Hilflosigkeit induzieren), allerdings
immer in Wechselwirkung mit der mangelnden Anpassungsfähigkeit oder Resilienz
des Individuums. Darüber hinaus dürfte der beste Prädiktor für das Auftreten einer
depressiven Episode eine bereits vorangegangene depressive Episode sein. Das
Rückfallrisiko steigt mit der Anzahl der vorherigen erlebten Episoden an: nach
52
einer Episode auf 50-60%, nach zwei Episoden auf 70% und nach drei auf 90%
(Saß et al. 1998).
Auch die therapeutische Beeinflussbarkeit ist via Psychotherapie oder Psychopharmaka derzeit nur über einen längeren Zeitraum möglich.
Lebensqualität und Depression
Die theoretischen Konstrukte der gesundheitsbezogenen Lebensqualität und
Depression unterscheiden sich vielfältig.
Die gesundheitsbezogene Lebensqualität versteht sich als Kontinuum und Domäne eines übergeordneten Wohlbefindens. Es versteht sich als Ergebnis direkter
situationaler Einflüsse von Erkrankungseinschränkungen auf eine Person. Die
Depression beschreibt eine Erkrankung, die das gesamte Erleben eines Menschen
hin zu einer negativen Sicht seiner selbst, der Zukunft und der Welt (Beck, 1979)
verändert.
Die gesundheitsbezogene Lebensqualität ist eine subjektive Selbstbeurteilung, in
welche auch dispositionale Faktoren bei der Urteilsbildung einfließen. Der empirisch enge Zusammenhang zwischen Depressivität und Lebensqualität erklärt
sich zum einen als Einfluss der Depression als Erkrankung auf Erleben und somit
auch auf das Wahrnehmen situativer Faktoren, zu denen auch die Symptome einer
körperlichen Erkrankung wie z.B. die Herzinsuffizienz gehören. Zum anderen ließe
sich argumentieren, dass eine gemeinsame Drittvariable wie z.B. der Neurotizismus oder negative affectivity den hohen Zusammenhang erklären könnten.
Noch enger wird der Zusammenhang dadurch, dass häufig eine Depression als
Reaktion auf die Wahrnehmung einer körperlichen Erkrankung wie die Herzinsuffizienz bzw. auf die Wahrnehmung einer sehr schlechten Lebensqualität entsteht.
Wichtig ist hier allerdings festzuhalten, dass nicht alle schwer Herzinsuffizienten
eine depressive Episode angesichts ihrer Erkrankung entwickeln. Dies unterstreicht noch einmal den Unterschied zwischen einem allgemeinen dispositionalen
Einfluss auf eine Bewertung und einem Einfluss durch eine zweite Erkrankung,
welche das gesamte Bewertungsvermögen einer Person verändert.
Da es zahlreiche Instrumente gibt, die eine Depression als kontinuierliche Variable
messen, wie z.B. das Beck-Depressionsinventar (Beck, 1987), die Zung SelfRating Depression Scale oder die Hospital Anxiety and Depression Scale, werden
diese Skalen nicht nur als Screeninginstrumente für Depressionen eingesetzt,
sondern können auch als negativ formulierte Well-being Skalen zur Messung der
Lebensqualität verstanden werden, auch wenn dies theoretisch problematisch
erscheint. So werden solche Skalen z.B. von Bech und Rylander (1997) als krankheitsspezifische Lebensqualitätsskalen für Depressive betrachtet. Eine theoretisch
fundierte explizite Lebensqualitätsskala für Depressive wurde von Tuynman-Qua et
al. (1997) konstruiert und validiert.
53
Der Unterschied zwischen einem Screeninginstrument und einem Lebensqualitätsinstrument könnte theoretisch darin bestehen, dass man nicht die Symptome
abfragt, sondern deren Häufigkeit und Beschwerlichkeit einschätzen lässt. Das
Konstrukt „Depression“ wäre dann aber immer noch etwas anderes als die zugehörige Lebensqualität einer depressiven Person. Da das Konstrukt Well-being als
allgemeineres übergeordnetes Konstrukt sehr eng mit dem der Lebensqualität
verwandt ist und ein Mangel an Wohlbefinden ein sicheres Zeichen einer Depression ist, wird es hier empirisch unweigerlich Abgrenzungsschwierigkeiten geben.
Studien, die als Screeninginstrumente für Depressionen dimensionale Skalen mit
einem Cut-off-Wert verwenden, können nun nicht sicher differenzieren, welches
Konstrukt sie eigentlich zu welchen Anteilen erfasst haben: negatives Wohlbefinden als Ausdruck einer geringen Lebensqualität oder einen Indikator einer Depressiven Störung.
In den konkreten Fragen, also auf der Operationalisierungsebene der Konstrukte,
lassen sich Überschneidungen feststellen, die einen artifiziellen Zusammenhang
auf Itemebene bedingen könnten. Diese gehen auf Symptome zurück, die bei
beiden Erkrankungen zum Erscheinungsbild gehören: Beeinträchtigung durch
schnelle Ermüdung und Schwäche und Schlafprobleme. Die Depressivität wird mit
dem Patient Health Questionnaire (PHQ) erfasst, einem an die DSM-Kriterien
angelehnten Selbsteinschätzungsverfahren (Löwe, Gräfe et al. 2004; Löwe,
Kroenke et al. 2004; Kroenke et al. 2001; Spitzer et al. 1999).
Die konkreten symptomüberschneidenden Itemformulierungen des KCCQ und des
Depressionsscreeninginstrumentes (des PHQ) sind in der nachfolgenden Abbildung gegenübergestellt.
PHQ
KCCQ
Wie oft fühlten Sie sich im Verlauf der letzten 2 Wochen
durch folgende Beschwerden beeinträchtigt?...
…Niedergeschlagenheit, Schwermut oder Hoffnungslosigkeit.
…Schwierigkeiten, ein- oder durchzuschlafen, oder
vermehrter Schlaf.
…Müdigkeit oder Gefühl, keine Energie zu haben.
12. Wie oft waren Sie während der letzten 2 Wochen
wegen Ihrer Herzinsuffizienz entmutigt oder deprimiert?
13. In welchem Ausmaß hat Ihre Herzinsuffizienz während
der letzten 2 Wochen Ihre Lebensfreude beeinträchtigt?
14. Wie (zufrieden) würden Sie sich fühlen, wenn Sie den
Rest Ihres Lebens in dem jetzigen Stadium von
Herzinsuffizienz verbringen müssten?
9. Wie oft waren Sie während der letzten 2 Wochen
gezwungen, wegen Atemnot auf einem Stuhl sitzend
oder von mindestens 3 Kissen gestützt zu schlafen?
5. Wie hat zu schnelle Ermüdung während der letzten 2
Wochen Sie im Durchschnitt davon abgehalten, das zu
tun, was Sie tun wollten?
6. Wie beschwerlich war Ihre Ermüdung während der
letzten 2 Wochen?
Abbildung 1: Gegenüberstellung ähnlicher Items des PHQ und des KCCQ.
54
Da man nicht erwarten kann, dass die Patienten zwischen den Anteilen einer
depressions- und herzinsuffizienzbedingten Deprimiertheit und Beeinträchtigung
der Lebensfreude unterscheiden können (zumal sie selber ja nicht sicher wissen
können, ob eine Depression vorliegt), könnte man in den Itemähnlichkeiten einen
Grund für den empirischen Zusammenhang sehen. Allerdings bedeutet dies
natürlich auch, dass, wenn die Diagnose wie in unserem Fall nur über ein Screeninginstrument gestellt wird, eine Erhöhung der falsch positiven Diagnose in der
Gruppe der Herzinsuffizienten wahrscheinlich sein könnte. Zu beachten ist, dass
die Fragen 12-14 des KCCQ die Skala Lebensqualität repräsentieren und dafür
konstruiert wurden, auch eine erhöhte Depressivität als Hinweis für eine Depression zu erfassen.
Aus theoretischer Sicht wäre zu erwarten, dass sich das Vorhandensein einer
Depression auf die Bewertung aller Items auswirkt und nicht nur auf die ähnlichen.
Eine Depression beeinflusst die Wahrnehmung aller Lebensbereiche, sie werden
als beschwerlicher, anstrengender und ermüdender erlebt. Aus diesem Grunde
könnte jedes Item des KCCQ infolge einer Depression anders beantwortet werden.
Die nachfolgenden Abbildungen sollen den Zusammenhang zwischen Depression
und Lebensqualität noch einmal grafisch verdeutlichen. Hierbei werden zwei denkbare Kausalitätsannahmen in Anlehnung an das Modell „temperament top down“
sowie an das „integrative model“ von Heller et al. (2004) gemacht. Der Einfluss der
Persönlichkeit (Disposition) und einer Depression werden einmal als indirekte
Mediatoren über das allgemeine Wohlbefinden vorgeschlagen, das andere Mal
verliert das Wohlbefinden seine mediierende Funktion und wird selbst als eine
Folge der krankheitsspezifischen Lebensqualität sowie der Persönlichkeitsdisposition dargestellt. Die übrigen Einschränkungen der Modelle folgen einer
Plausibilitätsannahme des Autors. Die beiden hypothetischen Modelle verdeutlichen, dass die verschiedenen Konstrukte unterschiedlichen Kategorien von Urteilen angehören.
55
Herzinsuffizienz
Ebene Fremdbeurteilung Diagnose
Depression
Erlebte Symptome, Belastungen
Persönlichkeit: Big Five,
negative affectivity
Ebene überdauernder Einstellungen
subjektives Wohlbefinden
krankheitsspez. Lebensqualität
Ebene Meinungen, Urteile, Zustände
Abbildung 2: Grafische Veranschaulichung des Zusammenhangs der Konstrukte Depression
und krankheitsspezifische Lebensqualität als pfadanalytisches Modell, welches
den empirischen Zusammenhang in Anlehnung an „temperament top down“
von Heller et al. (2004) abbildet.
Herzinsuffizienz
Ebene Fremdbeurteilung Diagnose
Depression
Erlebte Symptome, Belastungen
Persönlichkeit: Big Five,
negative affectivity
Ebene überdauernder Einstellungen
krankheitsspez. Lebensqualität
subjektives Wohlbefinden
Ebene Meinungen, Urteile, Zustände
Abbildung 3: Grafische Veranschaulichung des Zusammenhangs der Konstrukte Depression
und krankheitsspezifische Lebensqualität als pfadanalytisches Modell, welches
den empirischen Zusammenhang in Anlehnung an „an integrative model“ von
Heller et al. (2004) abbildet.
Die Abbildungen verdeutlichen zum einen den für pfadanalytische Modelle typischen Sachverhalt, dass die Richtung eines Zusammenhangs zwischen Kon-
56
strukten nicht leicht zu bestimmen ist; zum anderen wird deutlich, dass die Gleichsetzung von Depression oder Depressivität mit Lebensqualität einem Kategorienfehler
gleichkäme.
Obgleich
der
alltagssprachliche
und
empirische
Zusammenhang sehr eng ist, besteht aus theoretischer Perspektive ein großer
Unterschied zwischen den Konstrukten Depression und Lebensqualität. Eine
empirische Klärung der Zusammenhänge zwischen ihnen bedürfte neben sorgfältigster messtheoretischer Operationalisierung auch Längsschnittdaten, um die
Richtung der Beeinflussung analysieren zu können.
2.7.2 Der phänomenologische Zusammenhang
Aus phänomenologischer Sicht argumentiert de Leval (1999) dahingehend, dass
sich die gesundheitsbezogene Lebensqualität bei Depressiven nicht auf herkömmliche Weise messen lasse. Er beschreibt die Konzepte Depression und Lebensqualität vor dem Hintergrund eines dreidimensionalen Zeithorizontes: Zukunft,
Gegenwart, Vergangenheit. Für Nicht-Depressive stelle die Zeit ein Kontinuum dar.
Für den Depressiven sei dieses Kontinuum unterbrochen. Er komme in einer
langsamen, düsteren, leeren und unglücklichen Gegenwart zum Stehen. Der
Bezug zur Zukunft erscheint vernebelt, negativ oder geht verloren. Die Vergangenheit, in der es den Depressiven meist noch besser ging, rückt in die Ferne. Der
Depressive wolle daher zurück in die Vergangenheit, wo es ihm besser ging. Über
den Umweg einer „therapeutische Zukunft“ (= bessere Vergangenheit) könne der
Depressive erst später zu seiner wirklichen Zukunft zurückkehren. Das Depressivsein zeichne sich nun als Wahrnehmung einer Kluft zwischen der guten Vergangenheit und der krankheitsüberschatteten Gegenwart aus. Umso größer dieser
Unterschied, desto geringer sei die so genannte „intrinsic quality of life“. Die Lebensqualität definiere sich nun über eine Differenz zwischen der erlebten Gegenwart und der gewünschten des Einzelnen: „The appropriateness of future aspirations to the present“. Die Stimmigkeit eines erwarteten gewünschten Zustandes mit
der Gegenwart entscheidet über die Lebensqualität. Umso größer dieser Unterschied, desto geringer ist die so genannte „extrinsic quality of life“. Die intrinsische
Lebensqualität wird als Voraussetzung für eine extrinsische (herkömmliche gesundheitsbezogene) Lebensqualität gesehen. Dem Vorschlag de Levals folgend
müsse man den Wert einer intrinsischen Lebensqualität mit dem der extrinsischen
multiplizieren. Erreicht die intrinsische Lebensqualität bei Depressiven den Wert
Null, so lässt sich auch kein Gesamtwert einer Lebensqualität mehr bestimmen.
Zur Überprüfung dieser Idee konstruierte de Leval die „Three-Time-Dimensions
Synoptic Scale“ (3TSS). Sie besteht aus 30 Fragen zur Erfassung einer Depres-
57
sion, die jeweils in drei Zeitformen, der Vergangenheit, Gegenwart und Zukunft,
gestellt werden. An einer Gruppe von N=110 Depressiven konnte auf diese Weise
für die Mehrzahl der postulierte Zusammenhang zwischen den Zeitformen bestätigt
werden.
Diese phänomenologische Sichtweise ist zwar gegenwärtig noch ungenügend
untersucht, macht aber deutlich, dass die Messung der generischen Lebensqualität
bei Depressiven einer differenzierten Analyse bei der Validierung von Lebensqualitätsinstrumenten und weiterer Forschung bedarf.
2.7.3 Der empirische Zusammenhang
Depressivität geht in der allgemeinen Bevölkerung (Kessler, 2003) und bei Patienten der medizinischen Primärversorgung empirisch mit einer Reduktion der
Lebensqualität einher (Faller, 2005).
Vom allgemeinen Sprachgebrauch her ließe sich der Zusammenhang zwischen
der generischen Lebensqualität und Depressivität als begriffsanalytische Wahrheit
betrachten (vgl. Brandstätter, 1982). Insofern eignet sich dieser Zusammenhang
auch zur Konstuktvalidierung, wie er von Kroenke et al. (2001) verwendet wurde.
Die Autoren untersuchten im Rahmen ihrer psychometrischen Prüfungsstudie des
Patient Health Questionnaire (PHQ) den Zusammenhang zwischen dem mit dem
PHQ gemessenen Ausmaß an Depressivität und den Werten des SF-20 (Medical
Outcomes Study Short-Form General Health Survey). Ein Zusammenhang zwischen höherer Depressivität mit geringerer Lebensqualität wurde in dieser Studie
als Hinweis für die Konstruktvalidität des PHQ gewertet (Abbildung 4).
58
mäßig
mäßig stark
stark
-1.5
-3
-2.5
-2
Effektstärke
-1
-0.5
0
leicht
Psychisch
Sozial
Gesamt
Rollen
Schmerz
Körperlich
Abbildung 4: Zusammenhang zwischen den generischen Lebensqualitätsskalen des SF-20
und verschiedenen Abstufungsgraden von Depressivität (PHQ) (nach Kroenke
et al. 2001).
Der Zusammenhang zwischen Depressionsskalen und gesundheitsbezogener
Lebensqualität konnte vielfach empirisch auch für die Population Herzkranker
belegt werden (Spertus, McDonnel, Woodman & Fihn 2000; Sullivan, LaCroix,
Rzssi & Walker 2001; Rumsfeld et al. 2003). Eine Untersuchung von Ruo et al.
(2003) ist besonders erwähnenswert. In der „heart and soul study“ an KHK Patienten wurde ähnlich wie in unserer Studie der PHQ eingesetzt. Die krankheitsspezifische Lebensqualität wurde über den Seattle Angina Questionnaire (Spertus
et al. 1995) erhoben, der ähnlich dem KCCQ konstruiert wurde. Die generische
Lebensqualität wurde über eine Ein-Item-Skala erhoben. Der Zusammenhang zur
Depressivität wurde hier unter Kontrolle der physiologischen kardialen Krankheitsparameter (linksventrikuläre Auswurffraktion, Ischämie und Belastungs-EKG)
untersucht. Auch hier zeigte sich ein starker Effekt der Depressivität auf allen
Lebensqualitätsdimensionen. Der Zusammenhang zwischen der allgemeinen und
spezifischen (SAQ) Lebensqualität und der Depressivität (PHQ) war sehr groß und
unabhängig von dem Schweregrad des objektiven funktionalen Status. Die Maße
der linksventrikulären Auswurffraktion und der Ischämie zeigten keinen signifikanten Zusammenhang mit der gesundheitsbezogenen Lebensqualität, weder generisch, noch spezifisch.
59
In einer weiteren Studie von Spertus et al. (2000) wurde ebenfalls der Zusammenhang zwischen Depression und Lebensqualität bei ambulanten KHK-Patienten
untersucht. Hier wurde neben dem querschnittlichen Zusammenhang auch ein
längsschnittlicher erfasst. Dies führte zu der Erkenntnis, dass sich alle vier Dimensionen des Seattle Angina Questionnaires (Physische Einschränkung, Anginahäufigkeit, Behandlungszufriedenheit und Krankheitswahrnehmung) in Abhängigkeit
von der Depressivität auch über die Zeit hinweg signifikant verändern. Die Autoren
diskutieren verschiedene Erklärungsmöglichkeiten dieses Zusammenhangs: Physische Korrelate der Depressivität können zu einer Zunahme der KHK-Symptomatik führen (erhöhte Sympathikusaktivität, geringere Herzleistungsvariabilität,
Thrombozytenaktivität, Gefäßenge, Funktion des Endothels, Auslöser für Angina
pectoris). Ebenso könnten auch Verhaltensfaktoren wirksam sein: Depressive
verhalten sich weniger compliant, wodurch sich ihr Gesundheitszustand verändern
könnte.
Ein ähnlicher Zusammenhang konnte von Rumsfeld et al. (2003) mit dem KCCQ
bei Herzinsuffizienten festgestellt werden. Hier erwies sich im Querschnitt die
Lebensqualität der positiv auf Depression gescreenten Herzinsuffizienten (mit dem
MOS-D, Medical Outcomes Study Depression Questionnaire, n= 139 depressive
versus n= 327 nicht depressive) in allen Skalen des KCCQ als signifikant niedriger.
Nach 6 Wochen erfolgte eine Wiederholungsmessung, deren Veränderungen
genauer untersucht wurden. Eine Depression sagte am stärksten eine Abnahme
der Lebensqualität in den Skalen Symptomskala, Funktionaler Status, Soziale
Einschränkung, Lebensqualität und dem Gesamtwert vorher (OR 2,5 95%-CI: 1,5
bis 4,2). Weitere, aber schwächere Prädiktoren waren eine bekannte Alkoholabhängigkeit (OR 2,4) und Diabetes (OR 1,7).
Weitere Belege für die Bedeutsamkeit der physischen Korrelate der Depressivität
(erhöhte Sympathikusaktivität, geringere Herzfrequenzvariabilität) konnten Carney
et al. (1998) durch eine Behandlungsstudie von N=30 Herzinsuffizienzpatienten
erbringen. Hier veränderten sich gerade diese Parameter in Folge einer kognitivbehavioralen Therapie.
Der Zusammenhang zwischen Depressivität und Lebensqualität wird von Ruo et
al. (2003) als wahrscheinlich wechselseitig betrachtet. Aus diesem Grunde kommt
dem Erkennen und der spezifischen Behandlung einer depressiven Störung bei
Herzkranken eine besondere Bedeutung zu. Verringert sich die Depressivität, dann
steigt auch die Lebensqualität und damit auch die Prognose für einen günstigeren
Krankheitsverlauf (Spertus, Jones, McDonell, Fan & Fihn 2002).
Ähnlich untersuchten Krischke und Petermann (2000) den Einfluss von Depressivität (operationalisiert über den BDI) auf die Lebensqualität (SF-36) bei an Krebs
erkrankten Rehabilitanden vor dem Hintergrund der Frage, ob die Depressivität die
60
Messung der Lebensqualität verzerren könnte. Sie fanden Korrelationen zwischen
-.27 und -.71 und kommen zu dem Schluss, dass der Einfluss der Depressivität auf
die gesundheitsbezogene Lebensqualität erheblich ist und daher die Erfassung der
Depressivität in Studien, die die Lebensqualität untersuchen, nicht fehlen dürfe. In
dieser Studie wurde die Dringlichkeit eines Kontrollfaktors „Depressivität“ als
Kovariate belegt, allerdings wurde hier nicht die Validität der Messung selbst
untersucht.
Heinonen, Aro, Aalto und Uutela (2005) untersuchten an 4613 Finnen, welchen
Varianzanteil die vier allgemeinhin akzeptierten Dimensionen der generischen
Lebensqualität (körperliches, funktionales, soziales und emotionales Wohlbefinden) an der Vorhersage eines globalen Lebensqualitätsurteils haben. Tatsächlich
konnten sie mit den ersten drei Dimensionen sowie der Dimension der Leistungszufriedenheit nur 10% der Varianz aufklären. Erst die Dimension des emotionalen
Wohlbefindens erhöhte die Gesamtvarianz auf 20%.
Der Zusammenhang von Depressivität und Lebensqualität ist gut nachvollziehbar
und bedarf bei der Erfassung von gesundheitsbezogener Lebensqualität einer
besonderen Sorgfalt. Für Messinstrumente, die eine krankheitsspezifische Lebensqualität erfassen, ist der Zusammenhang bisher weniger untersucht und nur
eingeschränkt wünschenswert. Hier sollte er sich lediglich in der psychischen/emotionalen Dimension der Messkonstrukte bemerkbar machen und nicht in
den Skalen der krankheitsspezifischen Beeinträchtigungen.
Schlussfolgerungen
Die Analyse des Zusammenhangs zwischen Depression und Lebensqualität verdeutlicht zum einen die theoretische Unterschiedlichkeit und zum anderen aber
auch die empirische Ähnlichkeit der Konstrukte. Der starke Einfluss der Depressivität auf die Lebensqualität und den Krankheitsverlauf herzinsuffizienter Patienten
unterstreicht die Wichtigkeit der sorgfältigen messtheoretischen Trennung der
beiden Konstrukte.
2.8 Herzinsuffizienz und Depression
Neben wenigen Metaanalysen (Barth, Schumacher & Herrmann-Lingen 2004; van
Melle et al. 2004; Wulsin & Singal, 2003; Rugulies, 2002), die den empirischen,
Zusammenhang zwischen einer Depression als Prädiktor für einen negativeren
Krankheitsverlauf im Falle von KHK oder Herzinfarkt aufzeigen, gibt es auch Arbeiten, die den Kenntnisstand zum theoretischen Zusammenhang zwischen De-
61
pression und KHK, Herzinfarkt und Herzinsuffizienz zusammenfassen (Faller,
2005; Carney et al. 2002; O’ Connor, 2000; Rozanski Blumenthal & Kaplan 1999;
Musselman, 1998).
Faller (2005) gibt einen Überblick zur gegenwärtigen Diskussion und dem Kenntnisstand zum Thema Depression und Koronare Herzkrankheit: In der Allgemeinbevölkerung beträgt die Prävalenz einer depressiven Störung 6,6% (Kessler,
2003). Die Prävalenz einer depressiven Störung bei Patienten mit chronischer
Herzinsuffizienz scheint deutlich erhöht zu sein. Die zuverlässigste Schätzung
liefert derzeit wohl eine Studie von Freedland et al. (2003), da an ihr 682 Patienten
teilnahmen und die Diagnosen mit dem strukturierten Interview nach DSM-IV
gestellt wurden. 16% wiesen hier eine minor Depression und 20% eine major
Depression auf.
Bei der Koronaren Herzkrankheit (KHK), der häufigsten Ursache einer chronischen
Herzinsuffizienz, stellt das Vorliegen einer Depression einen unabhängigen
Risikofaktor für eine erhöhte Mortalität dar (Barth et al. 2004; Hemingway &
Marmot, 1999; Glassman & Shapiro, 1998; Musselman et al. 1998).
Auch bei der Herzinsuffizienz, unabhängig von der Ätiologie, gibt es erste Hinweise
dafür, dass eine Depression als unabhängiger Prädiktor sowohl für erhöhte Rehospitalisierung als auch Mortalität verstanden werden muss (Jiang et al. 2001). Jiang
et al. (2004) reanalysierten ihre Daten in Bezug auf die Wirkung von Angst und
Depression auf die Überlebensrate. Je ein Punkt Zuwachs im BDI führte zu einer
Erhöhung des Sterberisikos um 4% innerhalb eines Jahres. Angst als state oder
trait (gemessen mit dem Spielberger STAI) hatte, obgleich es mit dem BDI korrelierte (r=0.52 state; r=0.59 trait), keinen Vorhersagewert für die Sterblichkeit innerhalb eines Jahres. Allerdings verlor der BDI seine Signifikanz, wenn er im CoxModell in Bezug auf die State-Angst-Komponente adjustiert wurde, blieb jedoch
signifikant bei einer Adjustierung mit der Trait-Komponente.
Das Mortalitätsrisiko depressiver, chronisch Herzinsuffizienter ist über einen Beobachtungszeitraum von 5 Jahren dreimal höher ausgefallen (hazard ratio 3,0 Faris
et al. 2002). Murberg & Furze (2004) untersuchten 119 Herzinsuffiziente über
einen Zeitraum von 6 Jahren. Mit der Zung-Selbstrating-Depressions-Skala fanden
sie ein erhöhtes Sterberisiko: Eine Erhöhung des Depressionsscores von nicht bis
mäßig depressiv (10 Punkte) führte zu einer Risikoerhöhung (HR) um das 1,63-
62
fache. In der gleichen Studie wurde auch Neurotizismus erfasst (EPQN), dieser
erwies sich jedoch nicht als Prädiktor.
Ein Problem bei Studien, die den Einfluss psychosozialer Variablen auf das Langzeitüberleben messen, ist häufig das präzise Erfassen psychologischer Konstrukte.
Ein einzelnes Instrument misst immer nur fehlerbehaftet und mehr oder weniger
ungenau das Konstrukt, welches es erfassen sollte (Watson & Clark, 1999). Aus
diesem Grunde schlossen Frasure-Smith und Lespérance (2003) bei ihrer 5-Jahres Überlebensanalyse von N=896 Herzinfarktpatienten für die vier Konstrukte
gleich mehrere Messinstrumente als Indikatoren ein (s. Tabelle 6).
Tabelle 6: Intendierte Konstrukte und verwendete Messinstrumente in der Studie von
Frasure-Smith & Lespérance (2003).
Konstrukte
Depression
Angst
Angst, Depression und
funktionale Beschwerden
Messinstrumente
Depressionsinventar (geteilt für kognitive und somatische Symptome) Beck
(1987)
20 Fragen, Spielberger State-Trait-Anxiety-Inventory (Spielberger et al.
1983)
13 Fragen, modifizierter Somatic Perception Questionnaire (Main 1983)
General Health Questionnaire (Goldberg 1972)
Ärger
Anger-in Anger-out, Subskala der Spielberger Anger expression Scale (AX)
(Spielberger et al. 1988)
Häufigkeit, Intensität und
Dauer des Ärgers
drei visuelle Analogskalen.
Auch seien gerade obige Skalen bzw. Konstrukte möglicherweise Teil eines übergeordneten Konstruktes, welches von Clark und Watson (1984) „negative affectivity“ genannt wurde und u. a. durch eine Tendenz gekennzeichnet ist, negative
Emotionen zu erleben und zu berichten (vgl. auch Kapitel 2.7., S. 47). Dieses
Konstrukt erfassten Frasure-Smith und Lespérance (2003), indem sie obige Skalen
einer Faktorenanalyse unterzogen und die Faktorenwerte des ersten Faktors als
Indikator des Konstruktes negative affectivity verwendeten (zwei weitere Faktoren
wurden „overt anger“ und „social support“ genannt; 51,3% aufgeklärte Varianz).
Darüber hinaus partialisierten sie den gemeinsamen Varianzanteil der negative
affectivity aus obigen Skalen (s. Tabelle 6) heraus, indem sie je eine multiple
Regression mit den Faktorwerten auf die Skala durchführten. Der so entstehende
Fehlerterm ist der Anteil der Skala, der nicht bereits durch das Konstrukt negative
affectivity erklärt wird. In der Cox-Regression zeigte sich, dass in einem voll adjustierten Modell (hinsichtlich Krankheit und Behandlungsfaktoren) lediglich die BeckDepressionsskala ein signifikanter Prädiktor für den 5-Jahresverlauf der Sterblich-
63
keit blieb (hazard ratio 1,46). Der Faktor „negative Affektivität“ verfehlte nur knapp
die Signifikanzgrenze (wahrscheinlich bedingt dadurch, dass er sehr viel
gemeinsame Varianz mit der Depressionsskala aufklärt, diese lud auf dem Faktor
mit 0.7). In einem voll adjustierten Modell, in welchem nur die Faktoren und die um
die
Faktorenwerte
bereinigten
Prädiktoren
eingingen,
erwiesen
sich
die
Residuenwerte der Beck-Depressionskala sowie der Faktor „negative Affektivität“
als signifkante Prädiktoren der erhöhten Sterblichkeit für einen 5-Jahreszeitraum.
Interessant an diesem Ergebnis ist, dass als einzige Prädiktoren die negative
affectivity sowie ein spezifischer Anteil des Beck-Depressionsinventars (auch die
einzelnen Komponenten kognitiv versus somatisch) die Sterblichkeit vorhersagen
konnten. Die sonst in anderen Studien teilweise bedeutsamen Prädiktoren wie
Ärger, Typ A-Persönlichkeit oder soziale Unterstützung (Myrtek, 2001) erwiesen
sich hier durch die Kontrolle des Faktors „negative Affektivität“ als bedeutungslos.
Der ungünstige Einfluss der Depressivität in dieser Studie war auch schon bei
einer geringen Ausprägung (Score < 10) vorhanden, darüber hinaus war das
Risiko für mittelschwere Depressionen (Score 11-18) nach Adjustierung des Modells gleich dem von schweren Depressionen (Score > 18). Hieraus schließen die
Autoren, dass die Diagnose der Depression als kategoriale Diagnose nicht besonders wichtig erscheine. Angesichts des chronischen Krankheitsverlauf und 5-Jahreszeitraums könnte man jedoch spekulieren, dass mit der Erfassung einer subklinischen Depressivität (< 10) auch der Beginn einer Major Depression erfasst
worden sein könnte. Aufschlussreich wäre, das Verhältnis zwischen dem Wirkmechanismus der negative affectivity und dem zusätzlichen Erklärungswert einer
Depression zu untersuchen. Die Autoren sehen die negative affectivity als Indikator
einer Persönlichkeitseigenschaft, eines bestimmten Copingstils und als ein Bindeglied zwischen Emotionen und kardiovaskulären Erkrankungen, welche zusammen
einen schädlichen Einfluss über das Gesundheitsverhalten erklären könnten. Eine
Depression könnte direkten pathophysiologischen Mechanismen näherstehen.
Dem Zusammenhang zwischen KHK, Herzinsuffizienz und Depressivität könnte
eine gemeinsame Ursache zugrundeliegen, eine einseitige oder wechselseitige
Beeinflussung oder eine Ursache durch eine dritte Variable (Faller, 2005). So ist
derzeit wegen mangelnder experimenteller Untersuchungsdesigns unklar, ob es
sich um einen Risikoindikator oder einen kausalen Risikofaktor handelt. Als
pathophysiologischer Wirkmechanismus für letzteren werden eine erhöhte kardio-
64
vaskuläre Reaktivität unter Stress, eine erhöhte Plättchenaggregationsneigung
oder immunologische Dysregulation diskutiert. Stress und Depression führen zu
einer Aktivierung des sympathikoadrenergen Systems und bedingen dadurch ein
erhöhtes Risiko für Ischämie, Herzversagen, Arrhythmie, plötzlichen Herztod und
Arteriosklerose sowie erhöhten Blutdruck und dadurch Epithelschädigungen der
Koronarien. Als Ursache für die erhöhte Mortalität depressiver Herzinsuffizienter
werden proinflammatorische Zytokine diskutiert (Faller, 2005; Grippo, Moffitt &
Johnson, 2002). Neben diesen Mechanismen wird auch der Einfluss des veränderten Verhaltens Depressiver diskutiert. Diese dürften nämlich auch deshalb einen
ungünstigeren Krankheitsverlauf aufweisen, da sie weniger compliant sind (DiMatteo, Lepper & Croghan, 2000). Gerade letzterer Zusammenhang verdeutlicht
die Dringlichkeit auch psychosozialer Intervention.
Psychosoziale Schulungsprogramme haben sich bereits bei der KHK hinsichtlich
eines günstigeren Krankheitsverlaufs als erfolgreich erwiesen. Leider sind bis zum
jetzigen Zeitpunkt keine vergleichbaren Interventionen für depressive Herzinsuffiziente veröffentlicht. Linden, Stossel und Maurice (1996) zeigen in ihrer Metaanalyse zu Schulungsprogrammen bei koronaren Herzerkrankungen (KHK), dass
zusätzlich psychosoziale Interventionen einen deutlich positiven Effekt innerhalb
von zwei Jahren auf kardiale Ereignisse (OR 1,84) und die Mortalität OR 1,7)
haben. Ähnliche Ergebnisse demonstrieren Dusseldorp, van Elderen, Maes,
Meulman und Kraaij (1999). Sie zeigen in ihrer Metaanalyse ebenfalls die Wirksamkeit psychosozialer Interventionsbausteine bei KHK-Patienten auf unmittelbare
Ziele wie Blutdruck, Cholesterin-Werte, Gewicht, Rauchen, Bewegung und Ernährungsgewohnheiten. Erfolge auf diesen Nahzielen wirken sich auch auf die Fernziele Überlebenszeit und kardiale Ereignisse aus. Allerdings fanden sie keinen
positiven Effekt hinsichtlich der Reduktion von Ängstlichkeit und Depressivität.
In der multizentrischen US-amerikanischen ENRICHD-Studie (The ENRICHD
investigators 2000) wurde bei KHK-Patienten u. a. untersucht, inwieweit sich die
Behandlung einer valide diagnostizierten Depression mittels kognitiv-behavioraler
Psychotherapie (11 Einzelsitzungen, anschließender Gruppentherapie und bei
Indikation auch Antidepressiva: SSRI) auf kardiovaskuläre klinische Endpunkte
auswirkt. In dieser Studie konnte kein Effekt der Depressionsbehandlung auf die
klinischen Endpunkte (nach durchschnittlich 29 Monaten) nachgewiesen werden,
lediglich ein positiver Behandlungseffekt auf die Depressivität nach 6 Monaten. Ein
65
überraschender, signifikanter, nicht prognostizierter Effekt war jedoch die erhöhte
Lebenserwartung derjenigen, die eine Behandlung mit Antidepressiva (SSRI)
erhielten (ENRICHD Investigators, 2003).
Dies wirft die interessante Frage auf, ob eine Behandlung durch SSRIs womöglich
in den gemeinsamen pathophysiologischen Zusammenhang, z.B. einer immunologischen Dysregulation, eingreift. Für die Behandlung werden eher interaktionsarme
SSRI, wie Sertralin und Citalopram empfohlen (Heßlinger et al. 2002; Deuschle &
Lederbogen, 2002).
Schlussfolgerungen
Das Risiko einer Depressiven Störung ist bei Herzinsuffizienten 5-6 fach erhöht.
Die Depressivität hat eine prognostische Bedeutung für den Krankheitsverlauf und
die Sterblichkeit. Das Konzept der negative affectivity könnte den Einfluss von
Ärger, Stress und Angst, nicht jedoch vollends den der Depressivität aufklären. Die
hinter dem Zusammenhang von Depressivität und Herzinsuffizienz liegenden
pathophysischen Mechanismen sind derzeit noch nicht ausreichend aufgeklärt.
Offensichtlich ist jedoch die Wichtigkeit des Erkennens einer komorbiden Depressivität, nichtzuletzt deshalb, weil sie auch mit für den Krankheitsverlauf ungünstigerem Verhalten einhergeht.
Für die Validierung des KCCQ, der die Lebensqualität einer Gruppe misst, in der
der Anteil Depressiver ca. 30% beträgt, ergibt sich hieraus die Frage, inwieweit die
Messung der Lebensqualität von der Depressivität beeinflusst wird. Darüber hinaus
ergibt sich die Frage, ob der KCCQ sich auch als Indikator für eine Depression
eignen könnte oder ob ein begleitendes Depressionsscreening erforderlich ist.
2.9 Fragestellung
In der Konstruktion von Lebensqualitätsfragebögen wurden bisher pragmatische
Lösungen präferiert, aus denen generische und krankheitsspezifische Instrumente
hervorgingen. Die Verwendung krankheitsspezifischer Instrumente als Outcomevariablen haben heute einen hohen Stellenwert erlangt. Umso dringlicher stellt sich
die Frage nach der Validität dieser Instrumente. In dieser Arbeit wird der bereits für
den angloamerikanischen Sprachraum validierte KCCQ in seiner deutschen Übersetzung einer psychometrischen Prüfung unterzogen. Neben dieser Prüfung wird
darüber hinaus untersucht, ob eine komorbide Depressivität der Herzinsuffizienten
die Validität beeinträchtigen könnte.
66
1. Welche Itemcharakteristik und Verteilungsform weist der deutsche KCCQ
auf?
Zur Beantwortung dieser Frage wird der KCCQ hinsichtlich Verteilungsform,
Boden- und Deckeneffekten, Schwierigkeit und Trennschärfe untersucht. Die verschiedenen Skalen werden in Bezug auf ihre interne Konsistenz (Cronbachs alpha)
und Itemtrennschärfe untersucht. Das Ziel sollte sein, dass die Boden- und Deckeneffekte der Randkategorien unter 20% liegen.
2. Wie wird der KCCQ von den Befragten erlebt?
Die Befragten werden zum einen direkt hinsichtlich ihrer Akzeptanz (Verständlichkeit, Wichtigkeit, Leichtigkeit, Annehmlichkeit) des KCCQ befragt. Zum anderen
bieten die freien Äußerungen der Befragten indirekte Informationen über die Verständlichkeit und Angemessenheit des KCCQ. Nicht zuletzt können unterschiedliche Missings bei den verschiedenen Fragen können aufschlussreich sein.
3. Wie präzise misst der KCCQ (Reliabilität)?
Die Retest-Reliabilität gibt Auskunft darüber, ob ein Messergebnis reproduzierbar
ist. Sie wird hier durch eine Testwiederholung von 30 herzinsuffizienten Patienten
in körperlich stabilem Zustand im Abstand von einer Woche bestimmt.
4. Misst der KCCQ, was er vorgibt zu messen (Konstruktvalidität)?
Unter Konstruktvalidität versteht man die Übereinstimmung des Messergebnisses
mit Indikatoren inhaltlich ähnlicher Konstrukte. Hier wird der SF-36 Fragebogen
zum Gesundheitszustand (Bullinger & Kirchberger, 1998), ein generisches Instrument, als Indikator für das Konstrukt Lebensqualität bzw. verschiedene Unterskalen von ihm ausgewählt. Die inhaltlich ähnlichen Skalen zwischen SF-36 und
KCCQ werden hinsichtlich ihrer linearen Übereinstimmung (Korrelation) untersucht.
Der SF-36 ist ein internationales Standardinstrument und liegt in einer psychometrisch geprüften deutschen Version vor.
5. Eignet sich der KCCQ für evaluative Fragestellungen (Änderungssensitivität)?
Ob ein Instrument in der Lage ist, Veränderungen im Krankheitsverlauf oder unter
der Behandlung abzubilden, wird als Änderungssensitivität bezeichnet.
Zur Überprüfung der Änderungssensitivität wird eine Kohorte von dekompensierten
Patienten zweimal untersucht: die erste Messung erfolgt im dekompensierten
Zustand, die zweite Messung im rekompensierten Zustand.
67
6. Lassen sich mit dem KCCQ unterschiedliche Lebensqualitätswerte in
Abhängigkeit von der Schwere der Erkrankung feststellen (diskriminative
Validität bzw. known groups validity)?
Zur psychometrischen Prüfung wird der Vergleich zwischen klinisch unterschiedlichen
Gruppen,
das
heißt
Patientengruppen
mit
unterschiedlichem
Schweregrad der Erkrankung (NYHA-Klassen) bzw. dekompensierter und kompensierter Herzinsuffizienz herangezogen. Zwischen den Gruppen sollten sich signifikante und klinisch bedeutsame Unterschiede zeigen. Die statistische Prüfung
erfolgt durch eine Varianzanalyse. Auch hinsichtlich der diskriminativen Validität
lässt sich dann der KCCQ mit dem SF-36 vergleichen.
7. Bleibt die diskriminative Validität des KCCQ für die Bestimmung einer
krankheits-bezogenen Lebensqualität auch für depressive chronisch herzinsuffiziente Patienten erhalten?
Mit der vorliegenden Arbeit wird neben der psychometrischen Prüfung des KCCQ
untersucht, welchen Einfluss die Depressivität auf die Einschätzung der verschiedenen Skalen hat und ob sich dieser nachteilig auf die Validität auswirkt.
Der KCCQ hat den Anspruch, die subjektive Beeinträchtigung durch die Symptome
der Herzinsuffizienz zu erfassen. Es soll daher überprüft werden, inwieweit diese
Messung durch Depressivität beeinträchtigt wird.
Bei einem generischen Messinstrument wie dem SF-36 wird sich wahrscheinlich
Depressivität deutlich auf den verschiedenen Dimensionen des emotionalen
Empfindens (insbesondere den Skalen: emotionale Rollenfunktion und psychisches Wohlbefinden) abbilden. Da ein generisches Instrument die allgemeine
Lebensqualität unabhängig von bestimmten Erkrankungen erfasst, wird die Validität der Messung, auch wenn sie durch etwa eine komorbide Depression stark
verändert würde, aus dieser Perspektive nicht beeinträchtigt. Die Messung der
Lebensqualität mit einem krankheitsspezifischen Fragebogen wie dem KCCQ ist
direkt auf die Auswirkungen einer bestimmten Krankheit, der chronischen Herzinsuffizienz, konzentriert. Würde das Messergebnis durch den Einfluss einer komorbiden Störung verändert, würde dies eine Beeinträchtigung der Validität darstellen. Mit dem KCCQ werden die Symptome der Herzinsuffizienz und deren
Auswirkungen im emotionalen und sozialen Bereich erfasst. Über ein valides
krankheitsspezifisches Messinstrument für Herzinsuffiziente sollten verschiedene
Schweregrade der Herzinsuffizienz abbildbar sein (diskriminative Validität s.o.). Ein
68
gebräuchliches Maß für die Einschätzung der Schwere einer Herzinsuffizienz stellt
die NYHA-Klasse dar (s. Tabelle 3). Die Frage lautet nun, inwieweit die diskriminative Validität durch eine komorbide Depressivität erhalten bleibt oder verloren
geht. Bei der Konstruktion des KCCQ wurde an die hohe Komorbidität depressiver
Störungen gedacht und in die Skala Lebensqualität das Item Nr. 14 eingebaut,
welches sich als Depressionsmarker im SF-36 bewährt haben soll (Green et al.
2000): „Wie oft waren Sie während der letzten 2 Wochen wegen Ihrer Herzinsuffizienz entmutigt oder deprimiert?“ (im SF-36: „Wie oft waren Sie in den vergangenen X Wochen entmutigt und traurig?“). Im Idealfall sollte bei dem Vorliegen
einer Depression nur dieses Item einen Indikator darstellen. Im ungünstigen Fall
verändern sich mehrere Skalen derart, dass der Zusammenhang dieser Skalen mit
der NYHA-Klasse reduziert wird. Darüber hinaus ist aus bisherigen Befunden zu
erwarten, dass die Lebensqualitätswerte der depressiven Patienten durchschnittlich ungünstiger ausfallen (Havranek et al. 2004; Rumsfeld et al. 2003;
Kroenke et al. 2001).
8. Eignet sich der KCCQ auch zu einem Depressionsscreening?
Da die Erfassung der Depressivität von Herzinsuffizienten von besonderer Bedeutung ist, hatten Green et al. (2000) bereits ein Depressions-Screening-Item aus
dem SF-36 für den KCCQ (Item 14) verwendet. Es soll genauer analysiert werden,
ob sich dieses Item oder wohlmöglch andere dazu eignen.
9. Ist es gerechtfertigt, die Items zu verschiedenen Skalen zusammenzufassen und diese auch wiederum zu Summenwerten?
Für die englischsprachige Version wurde auf die Mitteilung einer faktoriellen Validität verzichtet. Diese könnte Auskunft darüber geben, ob die Items einer Skala
tatsächlich die gleiche Dimension erfassen.
Da die Items und die Skalen des KCCQ rational konstruiert wurden, ist eine perfekte Rekonstruktion der Skalen durch unabhängige Faktoren unwahrscheinlich.
Auch ist die Anzahl der zu extrahierenden Faktoren relativ willkürlich und die
Ergebnisse nur für diese Stichprobe gültig. Dennoch liefert eine derartige Analyse
einen guten Eindruck über die Dimensionalität eines Fragebogens.
Neben der Analyse auf der Itemebene soll auch eine Hauptkomponentenanalyse
auf der Ebene der Skalen durchgeführt werden, um zu untersuchen, ob deren
Addition zu der Skala Klinische Zusammenfassung sinnvoll ist.
69
Die Hauptkomponentenanalyse auf der Skalenebene wird getrennt für die Untergruppen „Depressionsscreening positiv versus negativ“ gerechnet, um zusätzlich
einen Vergleich hinsichtlich der differentiellen Validität zu ermöglichen (Für die
Itemebene wäre hierfür das Verhältnis von Fragen zur Anzahl der Patienten zu
ungünstig). Im Idealfall ließe sich für die letzte Fragestellung je ein Faktor extrahiren, der die Skala Klinische Zusammenfassung rechtfertigen könnte.
Praxisrelevante Schlussfolgerungen
Die Überprüfung obiger Hypothesen und Validitätskriterien des KCCQs und ein
eingehender Vergleich mit dem SF-36 und dem PHQ soll ermöglichen einzuschätzen, welche Messinstrumente als Outcomekriterium für die Gruppe herzinsuffizienter Patienten für den Einsatz in Studien zu empfehlen sind.
70
3 Methode
Das Ziel der Studie ist die psychometrische Prüfung (Bestimmung von Reliabilität,
Validität
und
Änderungssensitivität)
des
Kansas
City
Cardiomyopathy
Questionnaire (KCCQ), unter besonderer Berücksichtigung des Vorliegens einer
depressiven Störung. Eine autorisierte deutschsprachige Version, die den Prozess
von Übersetzung und Rückübersetzung durchlaufen hat, wurde der deutschen
Arbeitsgruppe um Prof. Faller vom Testautor (Dr. John A. Spertus, Mid America
Heart Institute, Kansas City, USA) freundlicherweise zur Verfügung gestellt. Die
psychometrische Prüfung erfolgt nach den Kriterien für die internationale kulturelle
Adaptation von Fragebögen (Acquadro, Jambon, Ellis & Marquis, 1996; Bullinger,
Power, Aaronson, Cella & Anderson, 1996; Ware et al. 1996).
Qualitätsstandards für die Messung der Lebensqualität
Die Messung der gesundheitsbezogenen Lebensqualität, des subjektiven Urteils
über den eigenen Gesundheitsstatus, muss wissenschaftlichen Kriterien genügen.
Hierfür gründete die Medical Outcome Trust-Stiftung ein Komitee, welches Richtlinien für die Entwicklung und Übersetzung von Lebensqualitätsinstrumenten entwickelte (Scientific Advisory Committee of the Medical Outcomes Trust, 2002). Aufgrund der recht unterschiedlichen Fragestellungen, die mit einem Lebensqualitätsmessinstrument verfolgt werden können, entwickelten sie acht Kriterien:
Konzeptuelles und messtheoretisches Modell (Conceptual and measurement model)
Meint die Beschreibung des theoretischen Konstruktes, welches gemessen werden soll.
Darlegung und empirische Belege über die Angemessenheit des Messmodells und
Skalenniveaus für dessen Gegenstand – methodischer Zugang z.B. über faktorenanalytische oder Strukturgleichungsmodelle.
Reliabilität (Reliability)
Beschreibt die Genauigkeit eines Instrumentes bzw. inwieweit ein Instrument frei von
einem Zufallsfehler ist. Abgeschätzt wird sie typischerweise über die interne Konsistenz
(Cronbachs alpha, als Schätzung aller möglichen Split-half-Korrelationen) oder über die
Wiederholbarkeit (als test-retest oder inter-observer (interviewer) reliability (als
Intraklassenkorrelation)). Für Gruppenvergleiche sollte die Reliabilität mindestens >.70, für
individuelle Vergleiche >.90 betragen.
Validität (Validity)
Die Validität beschreibt das Ausmaß, in welchem das Instrument tatsächlich das misst,
was es vorgibt zu messen. Hierbei lassen sich unterscheiden:
1. die Inhaltsvalidität (bewertet durch Experten oder Betroffene),
2. die Konstruktvalidität (empirische Überprüfung logischer Zusammenhänge, die das
theoretische Konstrukt impliziert, z.B. Korrelationen mit ähnlichen Konstrukten oder
Überprüfung von Unterschieden bekannter Gruppen (known groups validity) oder
71
3.
die Kriteriumsvalidität (Test gegen ein sicheres Kriterium als Vorhersage oder als
Zusammenhang etwa als Sensitivität, Spezifität oder Operator-Charakteristik).
Änderungssensitivität (Responsiveness)
Die responsiveness oder auch sensitivity to change kann verstanden werden als das
Verhältnis von dem Signal (wirkliche Veränderung über die Zeit) zum Geräusch (Variabilität der Messwerte, die nicht auf die wahre Veränderung zurückzuführen sind). Hier gibt es
verschiedenste Möglichkeiten des mathematischen Modells einer Schätzung, die meistens
eine Variation der Effektstärke ist (Veränderungsmessung als „Signal“ relativiert durch eine
Schätzung des „Geräusches“). Zuvor muss allerdings eine Bedingung hergestellt werden,
bei der eine Veränderung der Messobjekte zu erwarten ist bzw. parallel belegt werden
kann. Zu empfehlen ist besonders der Vergleich von einer sich verändernden mit einer
stabilen Gruppe (z.B. dann als responsiveness statistic).
Interpretierbarkeit (Interpretability)
Die Interpretierbarkeit eines Wertes beschreibt, inwieweit er mit Bedeutung gefüllt werden
kann. Hierfür sind Vergleiche zu vorherigen Messungen notwendig, die verschiedenste
Zusammenhänge beschreiben können (Schweregrade verschiedener Untergruppen,
Unterschiedswerte in Folge verschiedener Ereignisse usw.). Auch kann man hierzu die
minimal bedeutsame Veränderung eines Wertes bestimmen, die für einen Patienten oder
Angehörigen relevant sein könnte.
Belastung (Burden)
Eine Belastung entsteht für die Befragten in Form von Zeitaufwand und Anstrengung, an
der Untersuchung teilzunehmen. Sie kann über subjektive Urteile über das Instrument
erfasst werden. Ein indirektes Maß der Akzeptanz ist die Nichtteilnahme bzw. der Abbruch
von Probanden und deren Gründe. Aber auch die Belastung der Untersucher, in Form des
Aufwandes der Datenerhebung und Verarbeitung muss berücksichtigt werden.
Verschiedene Möglichkeiten der Erfassung (Alternativ modes of administration)
Daten können heutzutage auf vielfältige Weise erhoben werden: Selbsteinschätzung,
Interviewer, Fremdratings, Leistungstests, computerbasiert usw. Wichtig ist es hier, gegebenenfalls den Nachweis zu führen, dass das Ergebnis unabhängig von der verwandten
Methode ist.
Kultur und Sprachenabhängigkeit (Cultural and language adaptions or translation)
Ein Instrument kann verschiedenen kulturellen Bedingungen gegebenenfalls angepasst
oder gar übersetzt werden. Im letzteren Fall ist eine erneute Validierung hinsichtlich der
anderen oben genannten Kriterien besonders wichtig. Zunächst muss aber geklärt sein, ob
auch das Konzept für die andere Kultur die gleiche Bedeutung und Gültigkeit besitzt.
Da der KCCQ bereits konstruiert und übersetzt ist, können nicht alle der obigen
Kriterien erneut untersucht werden. Dass für deutschsprachige Herzinsuffiziente
die gleichen messbaren Konzepte bestehen, wird zunächst einmal unterstellt. Für
die Überprüfung der übersetzten deutschen Version sind daher insbesondere die
Kriterien der Akzeptanz/Burden, Konstruktvalidität, Reliabilität der Änderungssensitivität von Bedeutung.
72
3.1 Patienten
Die für unsere Fragestellung eligiblen Patienten sind konsekutiv rekrutierte Patienten der Herzinsuffizienzambulanz der Medizinischen Poliklinik der Universität
Würzburg.
Die Diagnose einer Herzinsuffizienz für unsere KCCQ-Validierungsstudie wurde
anhand folgender Kriterien gestellt:
•
klinische Zeichen einer manifesten Herzinsuffizienz und echokardiographische Zeichen einer diastolischen linksventrikulären Funktionsstörung oder
•
Echokardiographie, Koronarangiographie oder Radionuklidventrikulographie
mit linksventrikulärer Auswurffraktion <45% (mit oder ohne klinische Zeichen
einer Herzinsuffizienz)
Weitere Einschlusskriterien waren >18 Jahre sowie eine schriftlich vorliegende
Einverständniserklärung.
3.2 Durchführung
3.2.1 Validitätsstichprobe
Die Patienten wurden vom 01.07.2002 bis zum 25.02.2004 konsekutiv erfasst. Die
Patienten wurden gebeten, den Fragebogen möglichst in der Ambulanz auszufüllen. Diejenigen, die das nicht konnten, sollten den Fragebogen mit nach Hause
nehmen und mit einem vorbereiteten frankierten Briefumschlag zurücksenden.
3.2.2 Reliabilitätsstichprobe
Vom 14.11.2002 an wurden die Patienten, die einer erfahrenen kardiologischen
Krankenschwester (study nurse) hinsichtlich ihrer Herzinsuffizienz als ausreichend
stabil erschienen, gebeten, einen zweiten Fragebogen eine Woche später noch
einmal zu bearbeiten. Diese Patienten erhielten den zweiten Fragebogen in einem
Briefumschlag, nachdem sie den ersten in der Ambulanz ausgefüllt hatten. Auf
dem Briefumschlag war das Datum geschrieben, an welchem sie ihn öffnen und
den Fragebogen ausfüllen durften. Diese Patienten sendeten den Fragebogen mit
einem frankierten Briefumschlag wieder zurück. Dies wurde so lange fortgeführt,
bis wir N=30 auswertbare Fragebögen erfasst hatten (14.04.2003).
73
3.2.3 Änderungssensitivitätsstichprobe
Die eligiblen Patienten der Änderungssensitivitätsstudie waren dekompensierte
Patienten aus der medizinischen Universitätsklinik und der medizinischen Poliklinik
der Universität Würzburg. Zwei medizinische Doktorandinnen riefen seit Juli 2003
regelmäßig auf diesen Stationen an und erkundigten sich nach möglichen Patienten bzw. wurden von der Station kontaktiert. Das Ausfüllen der ersten Messung
wurde von den Doktorandinnen begleitet und dann der zweite Fragebogen mit
vorbereitetem Rücksendeumschlag ausgehändigt, mit der Bitte, diesen vier Wochen später auszufüllen und zurückzusenden. Dieses Procedere wurde bis zum
Ende der gesamten Erhebungsphase durchgeführt, da hier die Dropout- und
Teilnahmeverweigerungsraten sehr hoch waren.
3.3 Instrumente
Lebensqualität
Der Kansas City Cardiomyopathy Questionnaire (KCCQ) besteht aus 23 Items, die
sechs Domänen (körperliche Einschränkung, Symptome, Symptomstabilität,
Selbstwirksamkeit, soziale Einschränkungen, Lebensqualität) zugeordnet sind und
zu zwei Summenskalen (funktionaler Status, klinische Zusammenfassung) aggregiert werden (s. Kapitel 2.5). In Analogie zu Green et al. (2000) wird im Weiteren auf die Symptomskala zurückgegriffen und nicht mehr zwischen Symptomschwere und -häufigkeit differenziert. Das Zeitfenster für die erfragten Beschwerden beträgt zwei Wochen. Die Rohwerte werden auf eine Skala von 0 bis 100
transformiert. Hohe Werte zeigen einen guten Zustand an. Die amerikanische Originalversion besitzt sehr gute psychometrische Eigenschaften (Green et al. 2000).
Für die Bestimmung der Konstruktvalidität bedarf es eines bereits validierten
Indikators für das Konstrukt Lebensqualität. Hierfür wurde der allgemein anerkannte SF-36 Fragebogen zum Gesundheitszustand verwandt (Bullinger & Kirchberger, 1998). Er ist ein internationales Standardinstrument und liegt in einer
psychometrisch geprüften deutschen Version vor. Der SF-36 enthält 36 Items, die
zu acht Subskalen zusammengefasst werden: 1. körperliche Funktionsfähigkeit
(z.B. Gehen, Treppensteigen); 2. körperliche Rollenfunktion (Leistungsfähigkeit in
Alltag und Beruf); 3. körperliche Schmerzen (Stärke der Schmerzen und Behin-
74
derung im Alltag); 4. allgemeine Gesundheitswahrnehmung (globale Beurteilung);
5. Vitalität (Energie versus Erschöpfung); 6. soziale Funktionsfähigkeit (soziale
Kontakte); 7. emotionale Rollenfunktion (Beeinträchtigung der Leistungsfähigkeit
durch seelische Probleme); 8. psychisches Wohlbefinden (positive Stimmung
versus Angst und Depression). Aus diesen Skalen werden jeweils durch unterschiedliche Gewichtungen die Gesamtskalen Psychische Summenskala und
Körperliche Summenskala gebildet.
Die autorisierte Version des SF-36, Produkt der Arbeitsgruppe „International
Quality of Life Assessment“ wurde von Bullinger, Kirchberger & Ware (1995) ins
Deutsche übersetzt und psychometrisch geprüft.
Die psychometrische Prüfung wurde an sechs verschiedenen Probandengruppen
durchgeführt. Die Werte von Cronbachs alpha (interne Konsistenz) für die acht
Subskalen lagen zwischen 0,57 (Allgemeine Gesundheitswahrnehmung bei
Hypertonikern) und 0,91 (körperliche Funktion bei Migränikern).
Kontrollüberzeugung
Zur Validierung der Selbstwirksamkeitsskala des KCCQ wird die Skala Internalität
des KKG (Fragebogen zur Erhebung von Kontrollüberzeugungen zu Krankheit und
Gesundheit; Lohaus & Schmidt, 1989) verwendet. Die Skala Internalität des KKG
besteht aus sieben sechsstufigen Ratingskalen.
Screening-Instrument für depressive Störungen
Ein Screening der häufigsten psychischen Störungen (depressive Störung, Angststörungen) soll mit dem Patient Health Questionnaire (PHQ) erfasst werden (Löwe,
Gräfe et al. 2004; Löwe, Kroenke et al. 2004; Kroenke et al. 2001; Spitzer et al.
1999). Der PHQ ist ein innovatives Selbsteinschätzungsinstrument, das neben der
Feststellung des Vorliegens einer psychischen Störung (kategoriale Diagnostik)
darüber hinaus auch die Stärke einer Depression quantifizieren kann (dimensionale Diagnostik). Die deutsche Version des PHQ wurde evaluiert und besitzt
ausgezeichnete psychometrische Kennwerte (Gräfe et al. 2001). Die Reliabilität in
der deutschen Stichprobe (N= 501) betrug als interne Konsistenz Cronbachs alpha
0.88, in der amerikanischen Studie (N=3000 Patienten aus diversen Kliniken) 0.89
(Kroenke et al. 2001). In der amerikanischen Studie wurde auch mit Erfolg belegt,
dass sich die PHQ-Fragebogenversion nicht wesentlich von der originalen interviewbasierten (Prime MD) unterscheidet. Eine Analyse einer Untergruppe von
n=580 Patienten ergab eine Sensitivität von 73% und eine Spezifität von 98% für
75
das Erkennen einer major depression in Bezug auf ein klinisches Interview (SKID).
Insgesamt waren in der Stichprobe 16% an einer depressiven Störung erkrankt,
davon waren 10% eine major depression.
In der deutschen Studie wurde der PHQ an N=501 stationären und ambulanten
Patienten der Universitätsklinik Heidelberg mit der Hospital Anxiety and Depression Scale (HADS) und dem WHO (five) Wellbeing Index (WBI-5) hinsichtlich
der Sensitivität und Spezifität in Bezug auf das strukturierte klinische Interview
nach DSM-IV (SKID) verglichen. Der PHQ war den beiden anderen Instrumenten
in Bezug auf die Diagnose einer major depression signifikant überlegen. In Bezug
auf eine major depression lag die Sensitivität bei einem Cut-off-point von ≥11 bei
98% und die Spezifität bei 80%. In Bezug auf irgendeine depressive Störung lag
die Sensitivität bei einem Cut-off-point von ≥9 bei 87% und die Spezifität bei 76%
(Löwe, Spitzer, Gräfe et al. 2004). Auch gegenüber dem Kriterium eines strukturierten klinischen Interviews gemäß den ICD-10 Kriterien (IDCL) erwies sich der
PHQ als das überlegene Instrument (Löwe, Gräfe et al. 2004).
Die depressiven Patienten sowie eine möglichst ähnliche Gruppe nicht depressiver
Patienten aus obiger Studie wurden nach einem Jahr telefonisch noch einmal
nachuntersucht, um die Änderungssensitivität des PHQ zu bestimmen. Die sich so
ergebenden Gruppen aus unverändert depressiv (n=91), remittiert (n=52) oder
verschlechtert (n=24) – gemäß dem SKID-Interview – unterschieden sich alle
signifikant hinsichtlich der Effektstärke der PHQ-Wiederholungsmessung (Löwe,
Kroenke et al. 2004; Herzog & Gräfe, 2004).
Mit dem SF-20 wurden bei der Konstruktvalidierung des PHQ folgende
Korrelationen beschrieben: Psychisches Wohlbefinden (0.73), Allgemeine Gesundheitswahrnehmung (0.55), Soziale Funktionsfähigkeit (0.52), Körperliche
Rollenfunktion (0.43), Körperliche Funktionsfähigkeit (0.37) und Körperliche
Schmerzen (0.33) (Kroenke et al. 2001). Zur Konstruktvalidität des PHQ vgl. auch
Kapitel 2.6.
76
3.4 Statistik
3.4.1 Operationale Hypothesen
1. Welche Itemcharakteristik und Verteilungsform weist der deutsche KCCQ
auf?
Der KCCQ wird hinsichtlich Verteilungsform, Boden- und Deckeneffekten,
Schwierigkeit und Trennschärfe untersucht. Die verschiedenen Skalen werden in
Bezug auf ihre interne Konsistenz (Cronbachs alpha) und Itemtrennschärfe untersucht. Das Ziel sollte sein, dass die Boden- und Deckeneffekte der Randkategorien
unter 20% liegen.
Höhere Werte der Schwierigkeit entsprechen einer Verbesserung des Zustandes
(weniger Symptome). Da bei allen Skalen im Idealfall der gesamte Skalenbereich
der Skala genutzt wird, könnte streng genommen immer von Boden- oder Deckeneffekten gesprochen werden. Hier soll nur von einem Effekt gesprochen werden,
wenn eine der Randkategorien mehr als die zufällig zu erwartenden Antworten bei
einer Gleichverteilung auf sich vereinigt (also bei 5 Kategorien 100/5= >20%).
2. Wie wird der KCCQ von den Befragten erlebt?
Die Akzeptanz wird über die Bewertung hinsichtlich der Verständlichkeit, Wichtigkeit, Leichtigkeit, Annehmlichkeit des KCCQ erschlossen. Darüber hinaus werden
freie Äußerungen der Befragten analysiert. Auch unterschiedliche Missings bei den
verschiedenen Fragen werden hinsichtlich der Akzeptanz interpretiert.
3. Wie präzise misst der KCCQ (Reliabilität)?
Die Reliabilität wird hier zum einen durch eine Testwiederholung von 30 Patienten
in körperlich stabilem Zustand im Abstand von einer Woche bestimmt. Schuck
(2004) folgend, werden die Pearson-Korrelationen, die Intraklassen-Korrelationen
ICC (Einwegmodell: single measure) und die Konkordanz-Korrelationskoeffizienten
CCC als Maße der Reliabilität berichtet. Diese verschiedenen Koeffizienten entsprechen jeweils verschiedenen inhaltlichen Vorstellungen darüber, was die Retestreliabilitiät genau sein soll (s. Kapitel 3.4.2).
Zum anderen wird an der Hauptstichprobe im Rahmen der Item- und Skalenanalyse die interne Konsistenz (Cronbachs alpha) bestimmt.
77
Der allgemein akzeptierte Grenzwert für Cronbachs alpha ist 0,8 (Nunally, 1978).
Allerdings empfiehlt der Medical Outcomes Trust (1995) je nach Anwendungsbereich eines Instruments für Reliabilitätskoeffizienten insgesamt (d.h. Pearson,
ICC und Cronbachs alpha) einen Minimumwert von 0,70 für die Analyse von
Gruppenunterschieden und einen von 0,90 - 0,95 für die Analyse von Unterschieden zwischen Individuen.
4. Misst der KCCQ, was er vorgibt zu messen (Konstruktvalidität)?
Die Konstruktvalidität wird durch die Übereinstimmung Assoziation des Messergebnisses mit Indikatoren inhaltlich ähnlicher Konstrukte nachgewiesen. In der
vorliegenden Studie werden der SF-36 (Fragebogen zum Gesundheitszustand)
sowie der PHQ und der KKG hierfür eingesetzt. Die Höhe der Korrelationen ist ein
Hinweis auf die inhaltliche Überlappung der Konstrukte. Die folgende Tabelle zeigt,
welche Skalen des KCCQ mit welchen Skalen des SF-36 inhaltliche Ähnlichkeiten
aufweisen und daher korrelieren sollten.
Tabelle 7: Übersicht über die angestrebte Konstruktvalidierung des KCCQ. Die jeweiligen
Korrelationen der Subskalen einer Zeile sollen analysiert werden.
KCCQ
Symptome
Symptomstabilität
Körperliche Einschränkung
SF-36
Körperliche Summenskala
Körperliche Funktionsfähigkeit
Körperliche Summenskala
Skala Internalität des KKG
Selbstwirksamkeit
Soziale Einschränkung
Lebensqualität
KCCQ Funktionaler Status
KCCQ Klinische Zusammenb
fassung
Weitere Skalen
Soziale Funktionsfähigkeit,
Psychisches Wohlbefinden
Psychische Summenskala
Körperliche Summenskala
Psychische Summenskala
Körperliche Summenskala
1
2
PHQ Depressionsskala
1 Fragebogen zur Erhebung von Kontrollüberzeugungen zu Krankheit und Gesundheit; Lohaus u. Schmidt
(1989).
2 Patient Health Questionnaire
5. Eignet sich der KCCQ für evaluative Fragestellungen (Änderungssensitivität)?
Ob ein Instrument in der Lage ist, Veränderungen im Krankheitsverlauf oder unter
der Behandlung abzubilden, wird als Änderungssensitivität bezeichnet. Darüber,
ob die Änderungssensitivität eine langzeitliche Komponente der Validität eines
Messinstrumentes ist oder ob sie als weitere psychometrische Eigenschaft neben
der Reliabilität und Validität gesehen werden darf, bestehen noch Meinungsverschiedenheiten in der Literatur (Hevey & McGee, 1998).
78
Zur Überprüfung der Änderungssensitivität wird eine Kohorte von dekompensierten
Patienten zweimal untersucht: die erste Messung erfolgt im dekompensierten
Zustand, die zweite Messung im rekompensierten Zustand. Zur Berechnung einer
Effektstärke für die Änderungssensitivität gibt es verschiedene Möglichkeiten
(Hevey & McGee, 1998; Igl, Zwingmann & Faller, 2005), die in Kapitel 3.4.2
Statistische Analyseverfahren auf S. 85 genauer erläutert werden.
Da noch kein allgemein akzeptiertes Maß der Änderungssensitivität existiert,
werden die beiden gebräuchlichsten Berechnungsformen angewandt (Schuck,
2000), die standardized effect size (SES) und die standardized response mean
(SRM). Darüber hinaus wird unter Einbezug der Ergebnisse der Reliabilitätsanalyse Guyatt’s-Responsiveness-Index (GRI) dargestellt (Schuck, 2000; Hevey &
Gee, 1998).
Für jede Skala des KCCQ wird die kleinste bedeutsame Veränderung (minimal
clinical important difference) bzw. Effektstärke ermittelt, so dass mit Hilfe eines
Konfidenzintervalles überprüft werden kann, ob dieser Wert überschritten wurde.
Hierfür setzen wir voraus, dass bei der Konstruktion des KCCQ durch die Einbeziehung von Betroffenen gelungen ist, die Skalen so zu gestalten, dass jede Abstufung einer klinisch bedeutsamen Veränderung entspricht.
Ein weiterer Aspekt bei der Untersuchung von Änderungssensitivität ist die Berücksichtigung des Standardmessfehlers mit dem Konzept der Smallest Real
Difference (SRD) (Schuck & Zwingmann, 2003). Dieses Konzept ist besonders
deshalb interessant, weil es die Änderungssensitivität nicht unabhängig von der
Reliabilität beurteilt. Da der Vergleich zwischen dem KCCQ und dem SF-36 auf
Basis von Effektstärken geschehen soll, wird die SRD als Berechnungsgrundlage
für eine zu erwartende Effektstärke (SES und SRM) verwendet (und nicht analog
der Psychotherapieforschung bzw. dem Reliable-Change-Index (Jacobson &
Truax, 1991), demgemäß die verschiedenen Prozente derjenigen bestimmt werden, die den kritischen Wert überschreiten, wie es auch Schuck und Zwingmann
(2003) empfehlen. Dadurch reduziert sich unser Kriterium für diese Auswertung auf
die Frage, ob die mittlere Veränderung den kritischen SRD-Wert überschreitet.
Unter der Annahme einer Normalverteilung würde ein Überschreiten der kritischen
Effektstärke der SRD bedeuten, dass sich mehr als 50% der Patienten reliabel
verbessert hätten. In der Psychotherapieforschung würde man darüber hinaus
noch untersuchen können, ob die reliabel Verbesserten nun auch wieder einer
79
gesunden oder noch der erkrankten Population zuzurechnen wären, was bei einer
chronischen Erkrankung wie der Herzinsuffizienz jedoch nicht sinnvoll erscheinen
kann.
Als Ergebnis der Änderungssensitivitätskohorte wird erwartet, dass Skalen des
KCCQ eine signifikante Effektstärke erreichen, die die hypothetische Effektstärke
der Smallest Real Difference und die hypothetische Effektstärke der Minimal Clinical Important Difference überschreiten. Es wird ferner vorausgesagt, dass die
Effektstärken des KKCQ höher ausfallen als die des SF-36. Darüber hinaus wird
versucht werden, die GRI-Werte von Green et al. zu replizieren.
6. Lassen sich mit dem KCCQ unterschiedliche Lebensqualitätswerte in
Abhängigkeit von der Schwere der Erkrankung feststellen (diskriminative
Validität bzw. known groups validity)?
Zur Bestimmung der known groups validity wird der Vergleich zwischen klinisch
unterschiedlichen Gruppen, das heißt Patientengruppen mit unterschiedlichem
Schweregrad der Erkrankung (NYHA-Klassen) bzw. dekompensierter und kompensierter Herzinsuffizienz herangezogen. Zwischen den Gruppen sollten sich signifikante und klinisch bedeutsame Unterschiede zeigen. Die statistische Prüfung
erfolgt durch eine Varianzanalyse. Auch hinsichtlich der diskriminativen Validität
wird der KCCQ mit dem SF-36 verglichen.
7. Bleibt die diskriminative Validität des KCCQ für die Bestimmung einer
krankheits-bezogenen Lebensqualität auch für depressive chronisch herzinsuffiziente Patienten erhalten?
Bleibt die diskriminative Validität des KCCQ gleich, wenn er von depressiven
Herzinsuffizienten bearbeitet wird?
Bei der Konstruktion des KCCQ wurde an die hohe Komorbidität depressiver
Störungen gedacht und in die Skala Lebensqualität das Item Nr. 14 eingebaut,
welches sich als Depressionsmarker im SF-36 bewährt haben soll (Green et al.,
2000): „Wie oft waren Sie während der letzten 2 Wochen wegen Ihrer Herzinsuffizienz entmutigt oder deprimiert?“ (im SF-36: „Wie oft waren Sie in den vergangenen X Wochen entmutigt und traurig?“). Im Idealfall sollte bei dem Vorliegen
einer Depression nur dieses Item ein Indikator darstellen. Im ungünstigen Fall
verändern sich mehrere Skalen derart, dass der Zusammenhang dieser Skalen mit
der NYHA-Klasse reduziert wird. Darüber hinaus ist aus bisherigen Befunden zu
erwarten, dass die Lebensqualitätswerte der depressiven Patienten durch-
80
schnittlich ungünstiger ausfallen (Kroenke et al. 2001; Rumsfeld et al. 2003;
Havranek et al. 2004).
Die
Gruppenzuteilung
„Depressionsscreening
positiv“
versus
„De-
pressionsscreening negativ“ wird über den PHQ erfolgen. Die PHQ-Diagnosen
minor und major depression führen zu der Gruppenzuordnung „positives
Depressionsscreening“.
Im Allgemeinen Linearen Modell (ALM) wird jede Skala des KCCQ als abhängige
Variable untersucht. Als unabhängige Variablen werden die NYHA-Klasse und der
Faktor Depressionsscreening verwendet. Erwartet werden, in Analogie zu der
psychometrischen Prüfung der Originalversion (Green et al. 2000), signifikante
Haupteffekte der NYHA-Klasse für die Skalen Symptomskala, Physische Einschränkung, Soziale Einschränkung und Lebensqualität. Ein Haupteffekt der
Depressivität wird nur für die Skala Lebensqualität des KCCQ vorhergesagt, weil
gerade diese Skala für Depressivität sensitiv sein sollte. Die Skala Lebensqualität
setzt sich aus den folgenden drei Items zusammen:
„In welchem Ausmaß hat Ihre Herzinsuffizienz während der letzten 2 Wochen Ihre Lebensfreude
beeinträchtigt?“
„Wie würden Sie sich fühlen, wenn Sie den Rest Ihres Lebens in dem jetzigen Stadium von Herzinsuffizienz verbringen müssten?“
„Wie oft waren Sie während der letzten 2 Wochen wegen Ihrer Herzinsuffizienz entmutigt oder
deprimiert?“
Für die Skalen Symptome, Physische Einschränkung, Selbstwirksamkeit (im Umgang mit Symptomen), Soziale Einschränkung (durch Symptome) werden hinsichtlich des Haupteffektes keine Hypothesen formuliert. Da sich diese Skalen direkt
oder indirekt auf Symptome der Herzinsuffizienz beziehen, würde ein Haupteffekt
der Depressivität nicht eindeutig interpretierbar sein und theoretisch verschiedene
Schlussfolgerungen offen lassen:
a) Die depressiven Patienten nehmen ihre Symptome stärker wahr, bewerten sie anders bzw.
leiden mehr unter ihnen und zeigen dies in ihrem Antwortverhalten.
b) Die depressiven Patienten nehmen ihre Symptome sehr genau wahr, bewerten sie vielleicht sogar realistischer als nicht depressive, und nur die nicht depressiven Patienten
schätzen ihre Lebensqualität unrealistisch optimistisch ein.
c) Die depressiven Patienten sind tatsächlich, unabhängig von der NYHA-Klasse und möglichen Kovariaten, stärker beeinträchtigt. Mit der höheren Belastung könnte dann wiederum
eher eine depressive Störung assoziiert sein.
d) Eine gemeinsame Ursache, z.B. Neurotizismus (oder negative affectivity), bedingt eine
schlechtere Einschätzung der Lebensqualität und stellt einen Risikofaktor für die Entwicklung einer Depression dar.
Wie auch immer ein Haupteffekt zustande käme, würde er in Hinblick auf die
tatsächliche Spezifität des KCCQ aufschlussreich sein. Erfasst der KCCQ die
81
Depressivität in Form einer geminderten Lebensqualität, so wird er einem generischen Instrument ähnlicher bzw. erweist sich als weniger herzinsuffizienzspezifisch. Die Konsequenzen im Falle eines Haupteffektes für die praktische
Anwendung des KCCQ in der Forschung wäre allerdings, dass er nicht ohne
begleitendes Depressionsscreening interpretiert werden kann.
Ein Interaktionseffekt zwischen Depressivität und NYHA-Klasse würde bedeuten,
dass der Zusammenhang zwischen der abhängigen Variable (Skala des KCCQ)
und der NYHA-Klasse durch den Einfluss der Depressivität moderiert wird (oder
umgekehrt). Für die Skala Lebensqualität wird aufgrund des Konstruktes Lebensqualität ein Interaktionseffekt erwartet, weil hier der Einfluss der Depressivität den
Zusammenhang mit der NYHA-Klasse überlagern sollte. Ein Interaktionseffekt bei
den anderen Skalen des KCCQ würde bedeuten, dass die diskriminative Validität
im Sinne der known groups validity durch die Depressivität differentiell verändert
würde. Zu befürchten wäre, dass für die Gruppe der depressiven Herzinsuffizienten der Zusammenhang zwischen NYHA-Klasse und krankheitsspezifischer
Lebensqualität nicht mehr gilt oder abgeschwächt wird.
Tabelle 8: Hypothesen im Sinne einer idealen Validität
Haupteffekt
Haupteffekt
NYHA-Klasse
Depressivität
keine Vorhersage
keine Vorhersage
Interaktion
NYHA-Klasse
und Depressivität
keine Vorhersage
ja
keine Vorhersage
nein
keine Vorhersage
keine Vorhersage
keine Vorhersage
Soziale Einschränkung (4)
ja
keine Vorhersage
nein
Lebensqualität (3)
ja
Ja
möglich
Symptomskala (7)
ja
keine Vorhersage
nein
Funktionaler Status (13)
ja
keine Vorhersage
nein
Klinische Zusammenfassung (20)
ja
keine Vorhersage
nein
Skala (Anzahl der Items)
Symptomstabilität (1)
Körperliche Einschränkung (5)
Selbstwirksamkeit (2)
8. Eignet sich der KCCQ auch zu einem Depressionsscreening?
Zur Klärung dieser Frage wird mit Regressionsanalysen versucht werden die
Depressivität vorherzusagen. So kann überprüf werden, ob einige Items besonders
geeignet sein könnten das Depressionsscreeningergebnis vorherzusagen. Gerade
das Item 14 war von Green et al. (2000) als Screeningfrage gedacht. Die
Eigenschaften dieses Items sollen mit denen des BDI hinsichtlich der Sensitivität
82
und Spezifität in der receiver operater characteristic (ROC-Kurve) untersucht
werden.
9. Ist es gerechtfertigt, die Items zu verschiedenen Skalen zusammenzufassen und diese auch wiederum zu Summenwerten?
Für die englischsprachige Version wurde auf die Bestimmung einer faktoriellen
Validität verzichtet. In der vorliegenden Arbeit sollen die Items und in einer weiteren Analyse die Unterskalen des KCCQ einer Hauptkomponentenanalyse mit
Varimax-Rotation unterzogen werden. Auf diese Weise lässt sich klären, ob die
empirische Faktorenstruktur in einem sinnvollen Verhältnis zum Auswertungsalgorithmus steht. Die Hauptkomponentenanalyse auf Itemebene entspricht der
Fragestellung nach der faktoriellen Validität, bei der die Interkorrelationen aller
Items auf die Anzahl der unabhängigen Dimensionen, die nötig sind, den
Zusammenhang der Items zu beschreiben, reduziert werden. Im Idealfall stimmen
hier die Cluster hochladender Items auf den varimax-rotierten Faktoren (orthogonale, d. h. unabhängige Dimensionen) mit den Skalen überein.
Da die Items und die Skalen des KCCQ rational konstruiert wurden, ist eine perfekte Rekonstruktion eher unwahrscheinlich. Auch ist die Anzahl der zu extrahierenden Faktoren sind relativ willkürlich und die Ergebnisse nur für diese Stichprobe
gültig. Dennoch liefert eine derartige Analyse einen guten Eindruck über die Dimensionalität eines Fragebogens.
Die Frage zur Symptomstabilität wird bei den Hauptkomponentenanalysen nicht
berücksichtigt, da sie lediglich als Zusatzinformation gedacht ist und auch nicht bei
der Skala Klinische Zusammenfassung berücksichtigt wird.
Gemäß der Zusammenfassung zu Oberskalen wäre eine einfaktorielle Lösung für
die Hauptkomponentenanalyse auf Item- und Skalenebene wünschenswert.
Tabelle 9: Hypothesen über Faktorenstruktur.
Subskalen
Höchstladung auf Faktor
Selbstwirksamkeit
1
Symptome
1
Physische Einschränkung
1
Lebensqualität
1
Soziale Einschränkung
1
Die Hauptkomponentenanalyse auf der Skalenebene wird getrennt für die Untergruppen „Depressionsscreening positiv versus negativ“ gerechnet, um zusätzlich
83
einen Vergleich hinsichtlich der differentiellen Validität zu ermöglichen (auf Itemebene wäre hierfür das Verhältnis von Fragen zur Anzahl der Patienten zu ungünstig).
Im Idealfall lässt sich die obige Faktorenstruktur für beide Gruppen nachweisen.
Denkbar für die Gruppe der Depressiven wäre, dass z.B. die Lebensqualität über
die Varianzanteile der Depressivität mit der Skala Selbstwirksamkeit eine unabhängige Dimension bzw. einen Faktor bilden kann (s. Tabelle 10).
Tabelle 10: Hypothesen über Faktorenstruktur für positiv auf Depression gescreente Patienten.
Subskalen
Höchstladung auf Faktor
Selbstwirksamkeit
2
Symptome
1
Physische Einschränkung
1
Lebensqualität
2
Soziale Einschränkung
1
Ein solches Ergebnis würde die Berechnung eines übergeordneten Skalenscores
wie den der Klinischen Zusammenfassung aus Sicht der faktoriellen Validität in
Frage stellen.
Praxisrelevante Schlussfolgerungen
Die Überprüfung obiger Hypothesen und Validitätskriterien des KCCQs und ein
eingehender Vergleich mit dem SF-36 und dem PHQ soll ermöglichen einzuschätzen, welche Messinstrumente als Outcomekriterium für die Gruppe herzinsuffizienter Patienten für den Einsatz in Studien zu empfehlen sind.
An
dieser
Stelle
soll
noch
einmal
Tabelle 11 ein Gesamtüberblick gegeben werden.
mit
der
nachfolgenden
84
Tabelle 11: Übersicht über die verschiedenen Designs und Stichproben sowie die
Validierungsreferenzmaße und Methoden.
Design und Stichprobe
Reliabilitätsstudie
Teilstichprobe ambulanter
stabiler Patienten
Änderungssensitivität
stationäre dekompensierte
Patienten
Referenzmaße
Methode
7-8 Tage-Wiederholungsmessung mit
KCCQ
t-Test
r, ICC, CCC
14 Tage-Wiederholungsmessung mit
KCCQ und SF-36
t-Test
Validierung
Symptome
Symptomstabilität
Körperliche Einschränkung
Selbstwirksamkeit
Soziale Einschränkung
Lebensqualität
Funktionaler Status
Klinische Zusammenfassung
Diskriminative Validität
Interaktionshypothese
Faktorielle Validität
Vergleich zwischen NYHA-Klassen
Korrelation mit SF-36
Körperliche Summenskala
Vergleich zwischen ambulanter Reliabilitätsteilstichprobe (t1) versus dekompensierte stationäre Patienten (t1)
Vergleich zwischen NYHA-Klassen
Korrelation mit SF-36
Körperliche Funktionsfähigkeit,
Körperliche Summenskala
Korrelation mit der Skala Internalität des
KKG
Vergleich Baseline versus dekompensierte Patienten (t1)
Vergleich zwischen NYHA-Klassen
Korrelation mit SF-36
Soziale Funktionsfähigkeit
Vergleich zwischen NYHA-Klassen
Korrelation von PHQ-Depressionsskala,
SF-36 Psychisches Wohlbefinden und
Psychische Summenskala
Vergleich zwischen NYHA-Klassen
Korrelation mit SF-36
Körperliche Summenskala
Vergleich zwischen NYHA-Klassen
Korrelation von SF-36 mit
Psychische Summenskala
Körperliche Summenskala
Vergleich zwischen NYHA-Klassen für
alle Skalen (s. o.)
Prüfung der diskriminativen Validität in
Abhängigkeit von dem Ergebnis des
Depressionsscreenings: positiv versus
negativ
Analyse der Faktorenstruktur auf Itemebene.
Analyse der Faktorenstruktur für die
Gruppen Depressionsscreening positiv
versus negativ
Varianzanalyse
r
t-Test
Varianzanalyse
r
r
r
t-Test
Varianzanalyse
r
Varianzanalyse
r
r
Varianzanalyse
r
Varianzanalyse
r
r
Varianzanalyse
Varianzanalyse
HauptkomponentenAnalyse
85
3.4.2 Statistische Analyseverfahren
Voraussetzungen
Für die Auswertung wird für alle erhobenen Fragebogen-Daten Intervallskalenniveau postuliert und auf parametrische Auswertungsverfahren zurückgegriffen.
Die Trennschärfen werden üblicherweise als Korrelationen berechnet. Für Korrelationen gilt gemeinhin die Vorraussetzung einer bivariaten Normalverteilung,
allerdings bezieht sich diese Voraussetzung nur auf die Gültigkeit des zugehörigen
Signifikanztestes. Letzterer ist für Trennschärfen nicht von Interesse, so dass die
Korrelationskoeffizienten bzw. Trennschärfen trotz der unterschiedlichen Verteilungsformen interpretiert werden dürfen (die Berechnung der Trennschärfen
über die Spearmensche Rangkorrelation brächte bei diesen Daten identische
Ergebnisse.)
Reliabilitätsmaße
Für die Bestimmung der Retest-Reliabilität verwenden wir, der Empfehlung von
Schuck (2004) folgend, die Pearson-Korrelation, Intraklassenkorrelation ICC und
den Konkordanzkorrelationskoeffizienten CCC.
Ein Korrelationskoeffizient verlangt für einen maximalen Wert von 1 lediglich einen
linearen Zusammenhang, d. h. es wird keine absolute Übereinstimmung der Retestwerte gefordert, sondern nur ein Zusammenhang, der durch lineare und additive (Y= b·X+a) Transformation noch erklärbar ist.
Der ICC verlangt eine absolute Übereinstimmung (Y=X). Er wertet Niveauunterschiede der zwei Messzeitpunkte zu Lasten der Reliabilitätsschätzung, setzt
allerdings Varianzhomogenität zu beiden Messzeitpunkten voraus. Er entspricht
dem Reliabilitätskonzept von Bland und Altman (1996). Wird diese Voraussetzung
verletzt, kann er die Reliabilität überschätzen (Schuck, 2002).
Der CCC berücksichtigt Verringerungen des Niveaus und Abweichungen von der
Varianzgleichheit als reliabilitätsmindernd (Schuck, 2002; Schuck, 2004). Er
entspricht daher auch der strengen Reliabilitätsdefinition von Bland & Altman
(1996), wonach eine absolute Übereinstimmung bestehen soll und die Messwertpaare vertauschbar sein müssten, ohne dass sich der Koeffizient verändert.
86
Änderungssensitivitätsmaße
Im angloamerikanischen Sprachgebrauch wird zwischen responsiveness und
sensitivity to change unterschieden. Die responsiveness bezeichnet die Eigenschaft eines Messinstrumentes, eine Intervention oder Veränderung auf der Skala
abzubilden (Assoziation zwischen den gemessenen Werten und den wahren
veränderten Werten). Die sensitivity to change bezeichnet die Eigenschaft der
Skala selbst, Veränderungen des wahren Wertes eines Konstruktes abzubilden.
Eine Einschränkung der Änderungssensitivität kommt häufig durch Boden- oder
Deckeneffekte zustande. So kann ein Instrument zwar responsive erscheinen, aber
bildet dennoch die Änderungen des wahren Wertes nicht adäquat auf der Skala ab
(Testa & Simonson, 1996).
Die Änderungssensitivität kann u. a. als Effektstärke dargestellt werden. Effektstärken ermöglichen nach Kazis, Anderson und Meenan (1989) gegenüber einem
herkömmlichen Signifikanztest folgende Vorteile:
1. Über die kleinste klinisch bedeutsame Veränderung, die ein Instrument erfassen kann, lässt
sich auch die kleinste klinisch bedeutsame Effektstärke berechnen, so dass die Bedeutung
eines numerischen Ergebnisses für Patient und Behandler verständlicher wird.
2. Effektstärken können mit anderen Maßen, die bereits bekannter sind, verglichen werden.
3. Mittels Effektstärken können verschiedene Behandlungen verglichen werden.
Da noch kein allgemein akzeptiertes Maß der Änderungssensitivität existiert,
werden die beiden gebräuchlichsten Berechnungsformen der Effektstärke dargestellt (Schuck, 2000; Igl et al. 2005):
a) Relativierung der Mittelwertsdifferenz zwischen T1 und T2 an der Standardabweichung der T1-Werte (standardized effect size: SES);
b) Relativierung der Mittelwertsdifferenz zwischen T1 und T2 an der Standardabweichung der Differenzwerte (standardized response mean: SRM).
Der SES wertet die mittlere Differenz in Relation zur Streuung des ersten Messzeitpunktes. Durch größere Streuungen zum ersten Messzeitpunkt wird die Mittelwertsdifferenz als relativ kleinerer Effekt bewertet. Je homogener die untersuchte
Stichprobe bzw. je geringer die Streuung der Werte, desto relativ stärker fällt ein
Effekt aus. Der SRM wertet die mittlere Differenz in Relation zur Streuung der
Differenz des Prä- und Postmesszeitpunktes. Die Größe der Streuung zum Präoder Postmesszeitpunkt hat keinen Einfluss auf die Effektstärke, lediglich deren
Relation zueinander. Verändern sich die individuellen Messwerte zwischen Präund Postmesszeitpunkt sehr unterschiedlich, dann fällt die Streuung größer aus
87
und der Effekt wird als relativ geringer bewertet. Kommt ein Effekt aber durch eine
sehr gleichmäßige Veränderung aller individuellen Messwerte zustande (d.h., Die
Korrelation zwischen t1 und t2 ist sehr hoch und die Streuung der Differenzen
gleichzeitig sehr gering), dann ergibt die gleiche Mittelwertsdifferenz einen größeren Effekt (Igl et al. 2005).
Da die Diskussion um die Anwendung dieser verschiedenen Effektstärken noch
nicht abgeschlossen ist, werden wir beide Effektstärken darstellen (Hevey & Gee,
1998). Kazis et al. (1989) präferieren die standardized effect size (SES) im Kontext
der Fragestellung nach der Größe bzw. klinischen Bedeutung eines Effektes. In
diesem Falle würde die relativierende Standardabweichung des Prätests eine Art
Kontrollgruppenfunktion übernehmen. Den standardized response mean (SRM)
sehen sie als besser geeignet an, wenn es um die Fragestellung der statistischen
Bedeutsamkeit geht.
Für diese beiden Formen der Effektstärke werden auch Konfidenzintervalle berechnet. Dies hat den Vorteil, dass die statistische Bedeutsamkeit und die Power,
diesen Effekt zu entdecken, beurteilt werden können. Der Vorteil gegenüber einem
t-Test besteht darin, dass die Konfidenzgrenzen der Effektstärke direkt auf Basis
der interessierenden Hypothese, nämlich der vorliegenden Effektgröße selbst, über
eine nonzentrale t-Verteilung berechnet werden können. Bei einem t-Test hingegen würde eine Entscheidungsregel auf Basis der Nullhypothese berechnet. Die
Effektstärken und Konfidenzintervalle ermöglichen einen direkten Blick auf die
Wahrscheinlichkeitsgrenzen dieses Effektes und auch diesbezüglich einen Vergleich zwischen zwei Testverfahren (vgl. Smithson 2003). Darüber hinaus lässt
sich das Ergebnis auch leicht in Bezug auf die kleinste klinisch bedeutsame Veränderungsmessung des KCCQ interpretieren.
Für die Berechung der Konfidenzintervalle wurde auf einen Berechnungsalgorithmus auf Grundlage einer nonzentralen T-Verteilung und Laubschers
Normalapproximation von Smithson (2003) zurückgegriffen. Die Syntax zur Berechnung
lässt
sich
von
der
Hompage
des
Autors
herunterladen
(http://www.anu.edu.au/
psychology/staff/mike/CIstuff/CI.html).
Ein anderes Maß für die Änderungssensitivität ist Guyatt’s-Responsiveness-Index.
Er verlangt ein aufwändigeres Design als die Bestimmung der Effektstärken SES
und SRM, weil er die Mittelwertsdifferenzen der Veränderung an der Standard-
88
abweichung der Differenzwerte einer als konstant geltenden Base-line-Phase oder
an einer anderen konstanten Stichprobe (Standardabweichung der Differenzwerte)
relativiert (Hevey & Gee, 1998; Schuck, 2000). In unserem Fall können wir für die
Berechung des GRI-Nenners auf die Reliabilitätskohorte mit stabilen Werten
zurückgreifen
Prüfung der Unterschiedshypothesen
Für einzelne Gruppenvergleiche werden t-Tests verwendet. Für Vergleiche zwischen den NYHA-Klassen werden einfaktorielle Varianzanalysen durchgeführt. Zur
Analyse des zweifaktoriellen Designs bzw. der Interaktion von NYHA-Klasse und
Depressionsscreening wird das ALM (Allgemeine Lineare Modell) analog einer
zweifaktoriellen Varianzanalyse genutzt (Varianzaufklärung im Sinne gleichgroßer
Zellenbesetzung mit Typ III). Der t-Test erwies sich in Monte-Carlo-Studien als
robust, wenn die Stichproben gleich groß sind und eingipflig verteilte Grundgesamtheiten verglichen werden oder auch wenn ungleich große Stichproben mit
gleichen Varianzen verglichen werden. Die Varianzanalyse gilt ebenfalls als sehr
robust gegenüber den Voraussetzungsverletzungen bei größeren Stichprobengrößen (> 10) (Bortz, 1993).
Prüfung der Interaktionshypothese
Im Falle der Analyse des Interaktionseffektes liegen zwischen den NYHA-Klassen
bei einigen Variablen ungleiche Varianzen vor, sowie eine Zellenbesetzung in
einem Fall von n= 8, so dass in diesem Fall das Ergebnis des Signifikanztestes mit
Vorsicht interpretiert werden muss. Als Ergänzung wurden daher Einzelvergleiche
zwischen depressiv positiv und negativ gescreenten Patienten auf allen NYHAStufen getrennt durchgeführt (hier sind die Varianzen nicht unterschiedlich). Hierbei wurde auf eine α-Fehler-Adjustierung verzichtet, weil hier jeder einzelne Vergleich von Interesse ist und nicht mit einem der t-Tests eine umfassende Hypothese entschieden würde.
Analyse der Faktorenstruktur
Die Analyse der Faktorenstruktur geht von der Korrelationsmatrix aus. Die Hauptkomponentenanalyse ist eine Unterform der Faktorenanalyse, bei der die Faktoren
zueinander orthogonal bleiben. Bei der Hauptkomponentenanalyse werden die
Kommunalitäten als 1 angenommen, was impliziert, dass jede Variable ohne
Fehleranteil durch die anderen bzw. die Faktorenlösung erschöpfend erklärt werden könne. Unter dieser Annahme wird dann in einem rein mathematischen Ver-
89
fahren die Dimension der Korrelationsmatrix reduziert (der Rang der Matrix bestimmt). Die Anzahl der Faktoren, die anschließend zur besseren Anschaulichkeit
einer bestimmten Rotation (Varimax) unterzogen werden, kann nach verschiedenen Kriterien bestimmt werden: inhaltliche Gründe, Screetest, Kaiser-GuttmanKriterium (>1) oder andere schätzende Verfahren.
Die Hauptkomponentenanalyse unterliegt wegen ihres rein mathematischen deskriptiven Charakters keiner statistischen Voraussetzung. Beachtenswert sind
lediglich die Voraussetzungen für die Korrelation sowie ein möglichst günstiges
Verhältnis von Stichprobengröße zur Anzahl der Variablen, um ein möglichst
replizierbares Ergebnis zu erhalten (mindestens 3:1) (Überla, 1971).
3.4.3 Teststärke
Bei der Berechung der benötigten mindestgroßen Stichprobe für die psychometrische Prüfung des KCCQ haben wir uns zum Teil an den Daten von Green et
al. (2000) orientiert. Dort werden für die Ergebnisse Reliabilität und Änderungssensitivität jeweils eine Stichprobe von N=39 dargestellt. Die Stichprobengröße für
die Messwiederholung wurde mit N=30 so gewählt, dass davon ausgegangen
werden kann, eine hinreichend gute Schätzung für die Reliabilität zu erhalten und
die Patienten möglichst wenig zu belasten (die Power für die Absicherung einer
Korrelation von 0.7 beträgt mit N=30 P= 0.99 bei einem α-Fehlerniveau von 0.05).
Zur Berechnung des Stichprobenumfanges gehen wir davon aus, dass erst ein
mittlerer oder größerer Effekt für unsere Fragestellung von klinischer Bedeutung
ist.
Zur Feststellung der Unterschiede zwischen den NYHA-Klassen mit einem mittleren Effekt (d=0.25) oder für die Überprüfung der Interaktion mit dem Faktor
Depressionsscreening wird eine Stichprobe von N=180 benötigt (bei einer Power
von 0.8 und α-Fehlerniveau= 0.05; berechnet mit dem Programm „Gpower“ von
Erfelder, Faul & Buchner, 1996).
90
4 Ergebnisse
4.1 Patienten
Die Anzahl der konsekutiv rekrutierten Patienten der Herzinsuffizienzambulanz der
Medizinischen Poliklinik der Universität Würzburg, die potentiell an unserer Studie
hätten teilnehmen können, betrug N=416 Patienten. Von diesen Patienten wurden
jedoch nur 363 in die Studie aufgenommen. 53 Patienten konnten wegen Desorientiertheit (3), Ablehnung der Kooperation (16), Untransportierbarkeit (3), Ausschluss einer Herzsymptomatik (24) sowie Versterben (7) nicht in die Studie eingeschlossen werden.
Von den 363 Patienten wurden bei 251 Patienten psychologische Daten erhoben.
D.h. 112 Patienten, die die Herzambulanz besuchten, nahmen nicht an unserer
psychologischen Erhebung teil. 32 von ihnen lehnten es ab, unseren Fragebogen
entgegen zu nehmen, 80 nahmen ihn entgegen, aber gaben ihn nicht zurück,
wobei von diesen drei angaben, dass sie Schwierigkeiten mit dem Ausfüllen
hätten.
Die 112 Patienten, die nicht unsere psychologischen Fragebögen bearbeiteten,
unterscheiden sich hinsichtlich NYHA-Klasse und Alter nicht signifikant von den
Teilnehmern.
Von 6 zusätzlichen Patienten konnten psychologische Daten erhoben werden,
ohne dass die Untersuchung in der Herzinsuffizienzambulanz abgeschlossen
wurde. Für diese Patienten konnte zumindest die NYHA-Klasse zum Zeitpunkt der
Erhebung aus Arztbriefen ergänzt werden. Somit ergaben sich für uns 257 Patienten mit Lebensqualitätsdaten. Davon waren n=181 (70%) Männer und n=76
(30%) Frauen.
Von diesen 257 Patienten werden für bestimmte Analysen, die auf die NYHAKlasse oder andere medizinische Parameter zurückgreifen, 23 ausgeschlossen,
weil hier der Abstand zwischen dem Ausfüllen unseres Fragebogens und der
Erfassung der medizinischen Parameter mehr als zwei Monate betrug.
4.1.1 Patientenkollektiv
Die nachfolgende Stichprobenbeschreibung bezieht sich auf die Patienten, die an
unserer Studie teilnahmen und von denen zum gleichen Zeitpunkt die Studiendaten der Herzinsuffizienzambulanz vorliegen (N=234).
91
Die nachfolgende Tabelle zeigt die Stichprobenbeschreibung getrennt nach dem
Depressions-Screening-Status positiv versus negativ. Durch das Depressionsscreening mit dem PHQ werden 31 (13.2%) Patienten der Diagnose Major Depression zugeordnet. 40 (17.1%) weitere Patienten erhalten die Diagnose einer
Minor Depression. Insgesamt werden daher 71 (30.3%) Patienten als positiv auf
Depression gescreent bezeichnet.
Tabelle 12: Stichprobenbeschreibung: Gesamt und Vergleich zwischen depressiv positiv
(n=71) versus negativ (n=163) gescreenten Patienten .
Variablen
Gesamt
n
Depressionsscreening
positiv
n
Depressionsscreening
negativ
n
N
pWert
Demografie
Alter (Mittelwert, SD)
Geschlecht Frauen (%)
Bildung ohne Schulabschluss (%)
Kardiologische Parameter
Ischämische Ätiologie (%)
FS (Mittelwert, SD)
NYHA-Klasse (Mittelwert, SD)
64
SD 12.6
29.9
77
49.0
23.3
SD 9.3
2.38
SD .87
32.4
53.1
8.8
21.1
23.3
12.3
22
234
70
174
103
190
234
66
SD 11
33.8
79.4
43.8
24.5
SD 8.7
2.7
SD 0.9
24.5
54.4
5.9
20.6
20.6
14.7
26.5
71
24
54
28
59
71
63
SD 13
28.2
75.9
51.4
22.9
SD 9.5
2.2
SD 0.8
35.6
52.6
10.1
21.4
24.5
11.3
20.1
163
234
0.12
46
120
234
226
0.44
0.61
75
210
0.37
131
190
0.28
163
Myokardinfarkt (%)
60
13
47
Kardiale Dekompensation (%)
102
31
71
Reanimation (%)
20
4
16
PTCA / Stent (%)
48
14
34
Bypass (%)
53
14
39
Herzschrittmacher (%)
28
10
18
Vorhofflimmern (%)
50
18
32
Nicht-Kardiologische Parameter
Hypertonus (%)
58.8
133
64.7
44
56.3
89
Adipositas (MBI > 30) (%)
40.8
93
36.8
25
42.5
68
Diabetes (%)
30.3
69
35.3
24
28.1
45
Hypercholesterin
59.9
133
50.7
34
63.9
99
Creatinin >1.1 (%)
37.6
73
52.5
32
30.8
41
Apoplex
14.1
32
11.8
8
15.1
24
pAVK
19.8
22
24.2
8
17.9
14
COPD
39.5
51
48.8
20
35.2
31
Rauchen (%)
16.2
37
17.6
12
15.6
25
Alkoholabusus (%)
8.8
20
10.4
7
8.1
13
Behandlung
ACE-Hemmer (%)
69.7
159
66.2
45
71.3
114
Betablocker (%)
68.0
155
64.7
44
69.4
111
Herzglykoside (%)
34.2
78
36.8
25
33.1
53
Diuretika (%)
77.6
177
82.4
56
75.6
121
Aldost. Antagonist (Spironolactone)
28.5
65
36.8
25
25
40
(%)
Nitrate (%)
14.5
33
13.2
9
15
24
Cholesterinhemmer (CSE39.9
91
36.8
25
41.3
66
Hemmer) (%)
Thrombozytenaggregationshemmer
73.9
173
73.2
52
74.2
121
Krankenhausaufenthalt innerhalb
57.7
135
59.1
42
57.1
93
12 Monate (%)
Anmerkung: Die Spalte N gibt die Grundgesamtheit an, auf die sich die jeweiligen Prozentangaben beziehen.
Abkürzungen:
NYHA: New York Heart Association
FS: Left ventricular fractional shortening (%)
PTCA / Stent: percutane transluminale coronare Angioplastie
PAVK: periphere arterielle Verschlusskrankheit
COPD: chronic obstructive pulmonary disease
ACE: angiotensin converting enzyme
234
<0.001
185
192
227
227
227
228
227
0.17
0.88
0.44
1
0.61
0.51
0.30
226
228
228
222
194
227
111
129
228
227
0.30
0.46
0.34
0.08
<0.01
0.67
0.45
0.18
0.70
0.61
228
228
228
228
0.53
0.54
0.65
0.30
228
0.08
228
0.84
228
0.56
228
0.87
234
0.77
Insgesamt unterscheiden sich die positiv auf Depression gescreenten Patienten
von den übrigen nur hinsichtlich der Schwere ihrer NYHA-Klasse und eines
92
häufigeren auffälligen Kreatininwertes. Der Kreatininwert verschlechtert sich aufgrund einer schlechteren Durchblutung der Niere u.a. in Folge einer eingeschränkten Herzleistung oder zunehmender arterieller Verkalkung/Plaquebildung.
4.1.2 Teilstichprobe Reliabilität
Für die Bestimmung der Reliabilität wurden 30 Patienten, eine Untergruppe der
234 Patienten, im Abstand von ca. einer Woche noch einmal befragt. Diese
Untergruppe besteht aus 24 männlichen Patienten im durchschnittlichen Alter von
57.8 Jahren (SD=11.6) und 6 weiblichen Patienten im durchschnittlichen Alter von
61.9 Jahren (SD=8.7). Die NYHA-Klassen-Anteile setzen sich wie folgt zusammen:
I 20.0%, II 53.3%, III 23.3% und IV 3.3%.
4.1.3 Teilstichprobe Änderungssensitivität
Für die Bestimmung der Änderungssensitivität wurden Patienten (zusätzlich)
einbezogen, die wegen akuter Dekompensation ihrer Herzinsuffizienz stationär in
der Medizinischen Klinik oder der Medizinischen Poliklinik der Universität Würzburg
behandelt wurden.
Insgesamt wurden 101 eligible Patienten kontaktiert. 21 Patienten lehnten die
Teilnahme an der Untersuchung ab, 40 sandten den Bogen nicht zurück, drei
verstarben in dem Vierwochenintervall.
37 Patienten schickten die Bögen zurück und konnten in die Auswertung eingehen.
Es wurde sichergestellt, dass die Patienten zum Zeitpunkt der zweiten Messung
nicht erneut in das gleiche Krankenhaus eingewiesen worden waren.
Diese Änderungssensitivitätskohorte besteht aus 22 männlichen Patienten im
durchschnittlichen Alter von 69 Jahren (SD=13.5) und 15 weiblichen im durchschnittlichen Alter von 75 Jahren (SD 10.3). Die NYHA-Klassen-Anteile setzen sich
wie folgt zusammen: I 0%, II 18%, III 55% und IV 27% (n=4 Missings).
Post-hoc-Poweranalyse
Die eligiblen Patienten und die Fallzahlen fielen etwas niedriger als kalkuliert aus.
Es konnte eine Stichprobe von N=234 Patienten erfasst werden. Das bedeutet,
dass die Power für einen mittleren Effekt (spezielle Hypothese: Interaktionseffekt
oder Haupteffekt im einfaktoriellen Design) ausgehend von unseren Kalkulationsvoraussetzungen nun 0.90 beträgt.
93
Bei der Bemessung der Stichprobengröße für die Änderungssensitivität stand ein
Abwägen zwischen der Entlastung der Patienten und einer hinreichend großen
Stichprobe im Vordergrund. Da diese Kohorte sehr schwer zu rekruieren war und
auch die höchsten Dropoutraten aufwies, konnte in der gesamten Zeit der Datenerhebung lediglich eine Fallzahl von N=37 erreicht werden, die aber auch über eine
hinreichend gute Power für mittlere Effekte verfügt.
4.2 Alters- und Geschlechtseffekte
Die Skalen des KCCQ wiesen folgende Zusammenhänge mit dem Alter auf (s.
Tabelle 13)
Tabelle 13: Zusammenhang zwischen Alter und KCCQ-Skalen (Pearson-Korrelationskoeffizienten).
KCCQ Skalen
Körperliche Einschränkung
Symptome
Symptomstabilität
Soziale Einschränkung
Selbstwirksamkeit
Lebensqualität
Funktionaler Status
Klinische Zusammenfassung
Korrelation mit
r=-0.23
r=-0.25
r=-0.09
r=-0.10
r= 0.03
r= 0.03
r=-0.27
r=-0.15
Alter
p=0.001
p<0.001
p=0.17
p=0.16
p=0.69
p=0.66
p<0.001
p=0.03
Anmerkung zur Skalierung: hohe Werte in einer Skala entsprechen immer einer höheren Lebensqualität
Die Zusammenhänge waren eher schwach, meist negativ und nur teilweise
statistisch signifikant. Der Funktionale Status nimmt mit höherem Alter ab und die
Körperliche Einschränkung sowie die Beeinträchtigung durch die Herzinsuffizienzsymptome nehmen zu.
Signifikante Geschlechtsunterschiede zeigten sich auf den Skalen Körperliche
Einschränkung, Symptome, Soziale Einschränkung, Lebensqualität, Funktionaler
Status und Klinische Zusammenfassung (s. Tabelle 14). In diesen Skalen wiesen
Männer jeweils bessere Werte auf. Die Unterschiede sind klein bis mittelgroß.
94
Tabelle 14: Geschlechtsunterschiede auf den Skalen des KCCQ (t-Test).
Skalen
Symptomstabilität
Symptomskala
Körperliche Einschränkung
Soziale Einschränkung
Lebensqualität
Selbstwirksamkeit
Funktionaler Status
Klinische Zusammenfassung
Ge
schlecht
n
Männer
161
Frauen
68
Männer
Frauen
M
SD
t-Wert
df
p-Wert
52
20
52
23
-.080
227
.936
164
71
24
70
62
24
2.512
232
.013
Männer
158
65
25
Frauen
66
58
24
2.025
222
.044
Männer
156
61
27
Frauen
65
52
29
2.264
219
.025
Männer
163
58
25
Frauen
70
49
26
2.297
231
.023
Männer
164
71
23
Frauen
70
70
24
.262
232
.794
Männer
164
69
23
Frauen
70
60
22
2.598
232
.010
Männer
164
64
22
Frauen
70
55
22
2.828
232
.005
Beispielhaft soll der Geschlechtseffekt genauer analysiert werden: Die bivariate
Korrelation zwischen Geschlecht und den Skalen Funktionaler Status und Lebensqualität betragen r=-0.15 (p=0.023) bzw. r=-0.17 (p=0.010). Unter Kontrolle der
Variable NYHA-Klasse verschwindet der Geschlechtseffekt jedoch für beide Variablen gleichermaßen (jeweils r=-0.06, p=0.3). Unter Kontrolle der Variablen Alter
und Ejektionsfraktion (FS) bleibt er für die Skala Lebensqualität signifikant erhalten
(r=-0.18, p=0.013) aber nicht für die Skala Funktionaler Status (r=-0.14, p=0.06).
Dies bedeutet, dass der Geschlechtseffekt auf der Skala Funktionaler Status durch
die durch Alter und Krankheitsschwere bedingten Unterschiede erklärt werden
kann. Der Geschlechtseffekt der Skala Lebensqualität wird jedoch nur durch die
Krankheitsschwere (NYHA-Klasse) erklärt und nicht durch das Alter.
4.3 Item- und Skalenanalyse
Abbildungen mit der Rohwertverteilung der Antworten zu den einzelnen Fragen
und den Skalen des KCCQ sind im Anhang beigefügt. Nach der Darstellung der
statistischen Kennwerte der Items werden im Folgenden skalenweise die Trennschärfe, Cronbachs alpha und Schwierigkeitsindizes dargestellt.
95
Für die nachfolgende Berechnung wurden die Daten entsprechend der
Auswertungsvorschrift des Autors wie folgt weiterverarbeitet.
Tabelle 15: Umkodierung einzelner Antwortkategorien der KCCQ-Fragen.
Items:
Umkodierung:
Fragen 1(a-f)
9 → Missing
Frage 2
6→3
Frage 4
6→5
Frage 6
6→5
Frage 8
6→5
Fragen 15(a-d)
9 → Missing
Es sei an dieser Stelle auch noch einmal die Polung der Skalen und Items beschrieben. Für jede Skala und jede Frage gilt: Ein höherer Wert entspricht immer
einer höheren Lebensqualität (dies gilt auch für die eigentlich widersprüchliche
Benennung wie „Symptomskala“, die eigentlich das Gegenteil nahelegen würde).
Die nachfolgende Tabelle 16 zeigt die Mittelwerte, Minima und Maxima für die
Antwortverteilungen der Items.
Für die Errechnung der Schwierigkeit wurden alle Items auf eine Skala von 0 bis 1
transformiert, damit der Mittelwert als Schwierigkeit interpretiert werden kann. Der
Median hätte den Nachteil, dass dieser wegen der häufigen Symptomfreiheit in
einzelnen Skalen die Schwierigkeit aufgrund der geringen Häufigkeit in einigen
Kategorien überschätzt. So läge die Schwierigkeit der Items 1a, 1b, 3, 4 und 9
jeweils bei 100%, was inhaltlich nicht mehr stimmen würde. Der Mittelwert ermöglicht daher trotz der unterschiedlichen Verteilungsformen eine sinnvolle interpretierbare Schätzung der Schwierigkeit. In der Tabelle 17 sind neben dem Mittelwert
auch die Standardabweichung und Schiefe mit angezeigt.
96
Tabelle 16: Anzahl der gültigen Werte, Missings und Itemkennwerte (Mittelwert, Median,
Modus, Standardabweichung, Minimum, Maximum und Perzentile) für alle Items
des KCCQ.
N
Fragen
Mittelwert
Median
Modus
SD
Min
Gültig
Fehlend
KCCQ1a
241
16
4.2
5
5
1.0
1
KCCQ1b
237
20
4.1
5
5
1.1
KCCQ1c
244
13
3.8
4
5
KCCQ1d
236
21
3.2
3
KCCQ1e
241
16
3.4
KCCQ1f
219
38
KCCQ2
252
KCCQ3
Max
Perzentile
25
50
75
5
4
5
5
1
5
3
5
5
1.3
1
5
3
4
5
3
1.3
1
5
2
3
4
3
4
1.3
1
5
2
3
4
2.6
2
1
1.4
1
5
1
2
4
5
3.1
3
3
0.8
1
5
3
3
3
249
8
4.1
5
5
1.4
1
5
3
5
5
KCCQ4
253
4
4.4
5
5
1.0
1
5
4
5
5
KCCQ5
252
5
4.1
4
2
2.1
1
7
2
4
6
KCCQ6
253
4
3.4
4
4
1.1
1
5
3
4
4
KCCQ7
255
2
4.6
5
7
2.1
1
7
3
5
7
KCCQ8
250
7
3.7
4
5
1.1
1
5
3
4
5
KCCQ9
253
4
4.1
5
5
1.4
1
5
3
5
5
KCCQ10
255
2
3.7
4
4
1.2
1
5
3
4
5
KCCQ11
254
3
4.0
4
4
0.9
1
5
4
4
5
KCCQ12
254
3
3.4
4
4
1.2
1
5
2
4
4
KCCQ13
253
4
2.9
3
4
1.2
1
5
2
3
4
KCCQ14
254
3
3.4
3
3
1.1
1
5
3
3
4
KCCQ15a
232
25
3.1
3
4
1.3
1
5
2
3
4
KCCQ15b
202
55
3.3
4
5
1.4
1
5
2
4
5
KCCQ15c
240
17
3.7
4
5
1.2
1
5
3
4
5
KCCQ15d
243
14
3.1
3
4
1.2
1
5
2
3
4
Die Items sind als KCCQ-Fragebogen im Anhang.
97
Tabelle 17: Schwierigkeitsindizes: Die Antworten sind auf eine Skala von 0-1 transformiert.
Schwierigkeit (Mittelwert), Standardabweichung (SD), Schiefe und Standardfehler
der Schiefe.
N
Min
Max
Schwierigkeit
(Mittelwert)
KCCQ1a
241
0
1
0.80
0.26
-1.14
Standardfehler
der
Schiefe
0.16
KCCQ1b
237
0
1
0.78
0.27
-0.98
0.16
KCCQ1c
244
0
1
0.69
0.32
-0.71
0.16
KCCQ1d
236
0
1
0.55
0.32
-0.13
0.16
KCCQ1e
241
0
1
0.59
0.33
-0.34
0.16
KCCQ1f
219
0
1
0.40
0.36
0.46
0.16
KCCQ2
252
0
1
0.52
0.21
0.01
0.15
KCCQ3
249
0
1
0.77
0.34
-1.22
0.15
KCCQ4
253
0
1
0.84
0.24
-1.46
0.15
KCCQ5
252
0
1
0.51
0.35
0.13
0.15
KCCQ6
253
0
1
0.61
0.29
-0.31
0.15
KCCQ7
255
0
1
0.60
0.35
-0.20
0.15
KCCQ8
250
0
1
0.68
0.28
-0.38
0.15
KCCQ9
253
0
1
0.78
0.34
-1.23
0.15
KCCQ10
255
0
1
0.67
0.30
-0.81
0.15
KCCQ11
254
0
1
0.75
0.22
-0.94
0.15
KCCQ12
254
0
1
0.61
0.29
-0.21
0.15
KCCQ13
253
0
1
0.47
0.30
-0.04
0.15
KCCQ14
254
0
1
0.60
0.28
-0.17
0.15
KCCQ15a
232
0
1
0.52
0.32
-0.08
0.16
KCCQ15b
202
0
1
0.58
0.35
-0.25
0.17
KCCQ15c
240
0
1
0.68
0.31
-0.57
0.16
KCCQ15d
243
0
1
0.53
0.31
-0.07
0.16
Fragen
SD
Schiefe
Die nachfolgende Tabelle 18 zeigt die itemkorrigierten Trennschärfen für diejenigen Items, die zusammen die Skala Klinische Zusammenfassung bilden. Diejenigen Items, die nicht zu dieser Skala addiert werden (2, 10, 11) wurden nicht mitberücksichtigt. Die tatsächliche Summenwertberechnung unterscheidet sich jedoch
dahingehend, dass die Unterskalen zur Skala Klinische Zusammenfassung addiert
werden und nicht alle einzelnen Items. Aus diesem Grunde werden implizit die
Items minimal unterschiedlich gewichtet.
98
Tabelle 18: Itemkorrigierte Trennschärfen und Cronbachs alpha für die Skala Klinische
Zusammenfassung.
Cronbachs alpha: .94
Fragen
korrigierte Item-Skala-Korrelation
KCCQ1a
KCCQ1b
KCCQ1c
KCCQ1d
KCCQ1e
KCCQ1f
KCCQ3
KCCQ5
KCCQ7
KCCQ9
KCCQ4
KCCQ6
KCCQ8
KCCQ12
KCCQ13
KCCQ14
KCCQ15a
KCCQ15b
KCCQ15c
KCCQ15d
alpha, wenn das Item entfernt würde
0.48
0.52
0.61
0.68
0.74
0.58
0.46
0.82
0.80
0.53
0.54
0.79
0.76
0.74
0.62
0.63
0.64
0.47
0.63
0.74
0.94
0.94
0.93
0.93
0.93
0.94
0.94
0.93
0.93
0.94
0.94
0.93
0.93
0.93
0.93
0.94
0.93
0.94
0.93
0.93
Skalenweise Zusammenfassung der Itemanalyse
Im Folgenden sollen skalenweise die Verteilung der Skalen und die Items der
jeweiligen Skala mit ihren Kennwerten diskutiert werden. Die Itemschwierigkeit wird
dabei als Mittelwert einer auf 0 bis 1 transformierten Skala angegeben, so dass
dieser Wert analog zu dichotomen Items als Lösungswahrscheinlichkeit interpretiert werden kann.
Ein Wert von 0.7 auf dieser Skala bedeutet in diesem Sinne, dass der Mittelwert
die mittlere Lösungswahrscheinlichkeit auf 30% schätzt. Eine Lösung entspricht
der Angabe von Symptomen, d.h. weniger Lebensqualität. Ein hoher Wert der
Schwierigkeit (1-Lösung) von 0.7 bedeutet also, dass eher wenige Patienten Symptome angaben. Im Folgenden soll eine sehr hohe Schwierigkeit (d.h. weniger
Symptome und bessere Lebensqualität) als Bodeneffekt und die Angabe von
vielen Symptomen als Deckeneffekt bezeichnet werden.
Der theoretische Zu-
sammenhang für die Güte eines Tests zwischen Schwierigkeit und Trennschärfe
der Items ist bei Skalen nicht mehr analog den dichotomen Items gegeben, weshalb auf eine Zusammenschau dieser beiden Kriterien verzichtet wird.
Höhere Werte der Schwierigkeit entsprechen einer Verbesserung des Zustandes
(weniger Symptome). Die Bezeichnung der Rohwerte als linksschief (bzw. rechtssteil) bedeutet daher, dass mehr Patienten eine bessere Lebensqualität aufweisen
99
und implizit weniger oder keine Beschwerden haben. Diese Linksschiefe ist dann
auch Ausdruck eines deutlich ausgeprägten Bodeneffektes (Boden, weil keine
Symptome vorliegen). Da bei allen Skalen immer der gesamte Skalenbereich der
Skala genutzt wurde, könnte streng genommen immer von Boden- oder Deckeneffekten gesprochen werden. Hier soll nur von einem Effekt gesprochen werden,
wenn eine der Randkategorien mehr als die zufällig zu erwartenden Antworten bei
einer Gleichverteilung auf sich vereinigt (also bei 5 Kategorien 100/5=20%). Die
Items werden im Folgenden bei weiteren Aufzählungen einfach als Zahl benannt
(z.B. KCCQ3, 2: bezeichnet die beiden Items KCCQ3 und KCCQ2).
Auf den Seiten 6 bis 32 sind im Anhang alle Items als Rohwertverteilung und
Tabelle mit den unterschiedlichen Antwortkategorien dargestellt.
Symptome
Die Skala Symptome setzt sich aus den sieben Items zur Symptomhäufigkeit
(KCCQ3, 5, 7, 9) und Schwere (KCCQ4, 6, 8) zusammen.
KCCQ3
KCCQ5
KCCQ7
KCCQ9
KCCQ4
KCCQ6
KCCQ8
Wie oft hatten Sie während der letzten 2 Wochen Schwellungen der Füße, Knöchel oder Beine
morgens beim Aufwachen?
Wie hat zu schnelle Ermüdung während der letzten 2 Wochen Sie im Durchschnitt davon
abgehalten, das zu tun, was Sie tun wollten?
Wie oft hat Atemnot während der letzten 2 Wochen Sie im Durchschnitt davon abgehalten, das
zu tun, was Sie tun wollten?
Wie oft waren Sie während der letzten 2 Wochen gezwungen, wegen Atemnot auf einem Stuhl
sitzend oder von mindestens 3 Kissen gestützt zu schlafen?
Wie beschwerlich waren die Schwellungen der Füße, Knöchel oder Beine während der letzten 2
Wochen?
Wie beschwerlich war Ihre Ermüdung während der letzten 2 Wochen?
Wie beschwerlich war Ihre Atemnot während der letzten 2 Wochen?
Die Items zu Schwellungen (KCCQ3), Atemnot (KCCQ7) und Schlafprobleme
(KCCQ9) weisen von ihrer Rohwerteverteilung her Bodeneffekte und eine hohe
mittlere Schwierigkeit auf (KCCQ3: 0.77; KCCQ7: 0.60; KCCQ9: 0.78). Der Modalwert ist hier jeweils die symptomfreie Kategorie (bei KCCQ3: 60%; bei KCCQ5:
33%; bei KCCQ9: 63.5%). Das Item Ermüdung (KCCQ5) weist ebenfalls 22%
symptomfreie Antworten auf, darüber hinaus aber auch zwei Gipfel bei den Kategorien „mehrmals am Tag“ und „1 bis 2 mal pro Woche“, wodurch insgesamt die
Schwierigkeit niedriger ausfällt (KCCQ5: 0.51).
Die Items zur Schwere der Symptome erfragen eine subjektive Einschätzung zu
den Symptomen, was verständlich macht, dass bei diesen Items, abgesehen von
der hier auch jeweils relativ hohen Kategorie der Symptomfreiheit (KCCQ4: 48%;
KCCQ6: 12%; KCCQ8: 24%), noch am ehesten eine annähernde Normalverteilung
erkennbar ist. Die Schwierigkeit dieser Items ist ebenfalls wegen der hohen Anzahl
100
symptomfreier Patienten und einer Tendenz zur Linksschiefe recht hoch (KCCQ4 :
0.84; KCCQ6: 0.61; KCCQ8: 0.68).
Die nachfolgende Tabelle gibt u. a. die Trennschärfe (corrected item-total correlation) in Bezug auf den Skalenwert wieder. Die Skala Symptome weist mit einem
Cronbachs alpha von 0.89 eine gute interne Konsistenz auf. Lediglich die Trennschärfe der Frage 3 (Schwellungen) fällt mit 0.58 recht niedrig aus und weist auch
in Bezug auf die Oberskala Klinische Zusammenfassung mit 0.46 die niedrigste
Trennschärfe auf, wobei diese Werte durchaus noch akzeptabel bzw. auch niedrige Trennschärfen von Vorteil sein können.
Tabelle 19: Itemkorrigierte Trennschärfen und Cronbachs alpha für die Skala Symptome.
Cronbachs alpha: .89
Fragen
korrigierte Item-Skala-Korrelation
KCCQ3
KCCQ5
KCCQ7
KCCQ9
KCCQ4
KCCQ6
KCCQ8
alpha, wenn das Item entfernt würde
0.58
0.78
0.82
0.61
0.63
0.76
0.78
0.89
0.87
0.87
0.89
0.89
0.87
0.87
Die Items dieser Skala haben mit 2-7 Missings eine sehr geringe Verweigerungsrate. Dies lässt vermuten, dass sie leicht verständlich und für die Patienten gut zu
beantworten waren.
Auch die freien Angaben der Patienten zu diesen Items (nur 3 Nennungen) sind
keine Kritik, sondern als genauere Ergänzungen zu verstehen, wobei bei der Frage
KCCQ9 ein Patient anmerkte, dass er aus anderen Gründen schlecht schlafe.
Die nachfolgende Abbildung 5 zeigt die Verteilungsform der Skala, wobei die
Werte in Zehnerschritten zusammengefasst wurden.
101
Skala Symptome
30
20
Prozent
10
0
0-9.9
10-19.9 20-29.9 30-39.9 40-49.9 50-59.9 60-69.9 70-79.9 80-89.9
90-100
Skala Symptome
Abbildung 5: Skala Symptome, zur grafischen Veranschaulichung auf Zehnerschritte umkodiert. Höhere Werte bedeuten eine höhere Lebensqualität bzw. weniger
Symptome.
Die Verteilung der Skala Symptome weist mehrere Gipfel auf und ist dabei insgesamt linksschief. Mit 27% der Antworten im Randbereich der Skala liegt ein deutlicher Bodeneffekt vor.
Dieser Bodeneffekt lässt sich auf den relativ hohen Anteil an Patienten, deren
NYHA-Klasse 1 beträgt, zurückführen und ist in gewisser Weise erwünscht. Wichtiger ist in diesem Falle die Diskriminationsfähigkeit im Deckenbereich, die gut zu
sein scheint.
Körperliche Einschränkung
Die Skala Körperliche Einschränkung umfasst folgende Fragen:
Herzinsuffizienz wirkt sich auf verschiedene Menschen unterschiedlich aus. Manche spüren
Atemnot, während andere Ermüdung empfinden. Bitte geben Sie an, in welchem Ausmaß Herzinsuffizienz (Atemnot oder Ermüdung) während der zwei letzten Wochen Ihre Fähigkeit, folgende
Tätigkeiten auszuführen, beeinträchtigt hat.
KCCQ1a
KCCQ1b
KCCQ1c
KCCQ1d
KCCQ1e
KCCQ1f
Sich selbst ankleiden
Duschen /Baden
Ca. 100 –200 m auf ebener Strecke gehen
Garten oder Hausarbeit Einkaufstaschen tragen
Ohne Pause eine Treppe hoch steigen
Laufen oder joggen (z.B. wenn Sie den Bus erreichen wollen)
102
Es gibt neben der Beantwortung der Frage nach der Beeinträchtigung auch die
Antwortalternative, dass die Aktivität aus anderen Gründen nicht ausgeführt werden konnte. Letztere Kategorie wurde beim Laufen oder Joggen mit 9% der Antworten im Vergleich zu den anderen Fragen am häufigsten gewählt. Der Modalwert
bei 1f (Laufen oder Joggen) liegt mit 26% bei der Kategorie „extrem beeinträchtigt“.
Die Verteilung ist eindeutig rechtsschief mit einem Deckeneffekt, da hier die
meisten Personen am stärksten beeinträchtigt sind. Die Lösungswahrscheinlichkeit
(1-Schwierigkeit: 1-0.4) der Frage KCCQ1f ist mit 0.6 die höchste.
Sehr ähnlich ist hierzu im Vergleich die Frage zum Treppensteigen ohne Pause
(1e). Die Verteilung ist ebenfalls rechtsschief mit einem Deckeneffekt (Modalwert
bei „extrem Beeinträchtigt“) und einer geringen Schwierigkeit von 0.59.
Das Item 1d (Garten- oder Hausarbeit …) weist am ehesten eine Normalverteilungsform auf. Die übrigen Items dieser Skala sind linksschief mit einem
Modalwert in der untersten Kategorie „überhaupt nicht beeinträchtigt“ (Bodeneffekte). Die Schwierigkeit fällt daher bei diesen Items deutlich höher aus:
KCCQ1a: 0.80; KCCQ1b: 0.78; KCCQ1c: 0.69; KCCQ1d: 0.55.
Die nachfolgende Tabelle 20 gibt u. a. die Trennschärfe (corrected item-total
correlation) in Bezug auf den Skalenwert wieder. Die Skala weist mit einem Cronbachs alpha von 0.87 eine gute interne Konsistenz auf. Die Trennschärfen der
Frage 1a (Ankleiden) und 1f (Laufen oder Joggen) fallen mit 0.55 und 0.53 niedriger aus. Dies mag daran liegen, dass die Frage nach dem Ankleiden wahrscheinlich nur zwischen den wenigen schwer Erkrankten (NYHA-Klasse IV) noch
differenziert und die Frage 1f (Joggen) nur zwischen den wenigen sehr leicht
Erkrankten (NYHA-Klasse I). Insofern leisten diese Items trotz der relativ geringeren Trennschärfe eine wichtige Aufgabe für die Sensitivität und Differenzierungsfähigkeit des gesamten Fragebogens.
Tabelle 20: Itemkorrigierte Trennschärfen und Cronbachs alpha für die Skala Körperliche
Einschränkung.
Cronbachs alpha: .87
Fragen
KCCQ1a
KCCQ1b
KCCQ1c
KCCQ1d
KCCQ1e
KCCQ1f
korrigierte Item-Skala-Korrelation
0.56
0.60
0.71
0.82
0.80
0.55
alpha, wenn das Item entfernt würde
0.86
0.86
0.84
0.82
0.82
0.87
103
Die Anzahl der Missings ist leicht erhöht gegenüber den übrigen Items und
schwankt zwischen 7 (KCCQ1d Gartenarbeit …) und 14 (KCCQ1f Laufen oder
Joggen). Bei der Frage KCCQ1f „Laufen oder Joggen (z.B. wenn Sie den Bus
erreichen wollen)“ liegt mit 14 Missings die höchste Verweigerungsrate dieser
Skala vor, wahrscheinlich weil diese Tätigkeiten für die meisten Patienten als für
ihre Situation zu unangemessen erlebt werden könnten. So schrieb beispielsweise
auch ein Patient als Kritik: „Laufen oder joggen… für mich schon lange eine indiskutable Frage.“
Die nachfolgende Abbildung 6 zeigt die Verteilungsform der Skala, wobei die
Werte in Zehnerschritten zusammengefasst wurden.
Körperliche Einschränkung
30
20
Prozent
10
0
0-9.9
10-19.9 20-29.9 30-39.9 40-49.9 50-59.9 60-69.9 70-79.9 80-89.9
90-100
Körperliche Einschränkung
Abbildung 6: Skala Körperliche Einschränkung, zur grafischen Veranschaulichung auf
Zehnerschritte umkodiert. Höhere Werte bedeuten eine geringere Einschränkung und höhere Lebensqualität.
Die Skala Körperliche Einschränkung erscheint insgesamt linksschief, der Bodeneffekt liegt nur bei 16%, der Deckeneffekt bei 3.6%.
Lebensqualität
Die Skala Lebensqualität umfasst folgende Fragen:
KCCQ12 In welchem Ausmaß hat Ihre Herzinsuffizienz während der letzten 2 Wochen Ihre Lebensfreude
beeinträchtigt?
KCCQ13 Wie würde Sie sich fühlen, wenn Sie den Rest Ihres Lebens in dem jetzigen Stadium von
Herzinsuffizienz verbringen müssten?
KCCQ14 Wie oft waren Sie während der letzten 2 Wochen wegen Ihrer Herzinsuffizienz entmutigt oder
deprimiert?
104
Die drei Items zur Lebensqualität erfragen, inwieweit die Herzinsuffizienz die
Lebensfreude (KCCQ12) oder den Gefühlszustand (KCCQ13) beeinträchtigen
oder Entmutigung und Deprimiertheit (KCCQ14) auslösen.
Die Verteilungsform der Frage KCCQ12 hat ihren Modalwert bei „etwas beeinträchtigt“ (29%). 21% fühlten sich überhaupt nicht beeinträchtigt (Bodeneffekt) und
nur 3.5% fühlten sich extrem beeinträchtigt. Die Schwierigkeit liegt mit 0.61 im
mittleren Bereich.
Die Frage KCCQ13 erfragt die Zufriedenheit mit dem jetzigen Zustand der Herzinsuffizienz. Die Verteilungsform hat ihren Modalwert bei „größtenteils zufrieden“
(28%). Am seltensten wurde „vollkommen zufrieden (7%) gewählt. Die Kategorien
„ziemlich zufrieden“ und „größtenteils unzufrieden“ wurden mit 24% etwa gleich
häufig gewählt und die Kategorie überhaupt nicht zufrieden
mit 16%. Die
Schwierigkeit dieser Frage beträgt 0.47.
Die Verteilungsform der Frage KCCQ14 hat ihren Modalwert bei der Kategorie
„gelegentlich“ entmutigt und deprimiert (36%). 21% gaben an, „niemals“ deprimiert
zu sein (Bodeneffekt). 5.5% fühlten sich ständig deprimiert. Die Schwierigkeit
dieser Frage liegt bei .60.
Die Frage KCCQ14 war als Depressions-Screeningfrage gedacht und könnte
daher ebenso wie die anderen in Bezug auf den Gesamtscore niedrige Trennschärfen aufweisen. Tatsächlich liegen sie eher im höheren Bereich KCCQ12:
0.74; KCCQ13: 0.62; KCCQ14: 0.62. Diese überraschend hohen Trennschärfen
könnten sich daraus ergeben, dass die Fragen die depressiven Symptome nur in
Bezug auf die Herzinsuffizienz erfragen, was das Vorliegen dieser Symptome
voraussetzt und die gemeinsame Varianz erhöht. Umgekehrt dürfte dadurch aber
auch wiederum die Eignung als Depressions-Screeningfrage gemindert werden.
Die Trennschärfen in Bezug auf die Lebensqualitätsskala liegen verständlicherweise noch höher, wie die nachfolgende Tabelle zeigt. Die interne Konsistenz ist
mit einem Cronbachs alpha von 0.87 als gut einzuschätzen.
Tabelle 21: Itemkorrigierte Trennschärfen und Cronbachs alpha für die Skala Lebensqualität.
Cronbachs alpha: .87
Fragen
korrigierte Item-Skala-Korrelation
alpha, wenn das Item entfernt würde
KCCQ12
0.77
0.81
KCCQ13
0.74
0.84
KCCQ14
0.76
0.82
105
Die Fragen zur Lebensqualität haben mit 4 und 3 Missings eine sehr geringe
Verweigerungsrate.
Zwei Patienten sprechen die attributionstheoretische Implikation dieser Fragen an:
„Weniger deprimiert, weil ich nichts tun konnte, sondern mehr aus psychischen
Gründen. Erst einmal mit dieser Diagnose fertig werden“ und „Ist sehr subjektiv zu
beurteilen bzw. zu definieren (auch 15). Wenn es einem schlecht geht, und man
müde ist, hat man zu nichts Lust. Wenn es einem gut geht, vergisst man dies (wohl
die Symptome, Anm. von TS) äußerst schnell.“
Ein dritter Patient spricht eine Dimension an, die er bei dieser Skala vermisst: „Nr.
14 Die meiste Zeit Angst vor Verschlimmerung.“
Die nachfolgende Abbildung 7 zeigt die Verteilungsform der Skala, wobei die
Werte in Zehnerschritten zusammengefasst wurden.
Lebensqualität
30
20
Prozent
10
0
0-9.9
10-19.9 20-29.9 30-39.9 40-49.9 50-59.9 60-69.9 70-79.9 80-89.9
90-100
Lebensqualität
Abbildung 7: Skala Lebensqualität, zur grafischen Veranschaulichung auf Zehnerschritte
umkodiert. Höhere Werte entsprechen einer höheren Lebensqualität.
Die Verteilungsform der Skala Lebensqualität erscheint teilweise normalverteilt mit
einem Höchstwert von 18% für die Werte von 50-59, aber auch leicht linksschief.
Der Bodeneffekt liegt bei 12.0%, der Deckeneffekt bei 5.3%.
Soziale Einschränkung
Die Items zur sozialen Beeinträchtigung beziehen sich auf die Bereiche Hobbies
und Freizeitaktivitäten (KCCQ15a), intime Beziehungen (KCCQ15b), Besuch bei
106
Familienmitgliedern oder Freunden außerhalb der Wohnung (KCCQ15c) und
Arbeit / Hausarbeit (KCCQ15d):
In welchem Ausmaß beeinflusst Ihre Herzinsuffizienz Ihre Lebensweise?
Bitte geben Sie an, wie Ihre Herzinsuffizienz Ihre Teilnahme an folgenden Tätigkeiten
während der letzten 2 Wochen beeinträchtigt haben könnte.
KCCQ15a
KCCQ15b
KCCQ15c
KCCQ15d
Hobbies Freizeitaktivitäten.
Intime Beziehungen mit Menschen, die Sie lieben.
Besuche bei Familienmitgliedern oder Freunden außerhalb Ihrer Wohnung.
Arbeit / Hausarbeit.
Die Fragen KCCQ15b und KCCQ15c weisen beide einen Bodeneffekt auf (Modalwert bei „überhaupt nicht beeinträchtigt“) und sind daher in ihrem Schwiergkeitsindex etwas höher: KCCQ15b: 0.58 und KCCQ15c: 0.68.
Die Fragen KCCQ15a und KCCQ15d ähneln eher einer Normalverteilung. Der
Modalwert liegt jeweils in der Kategorie „etwas beeinträchtigt“. Die Schwierigkeit
dieser Items ist daher etwas niedriger (KCCQ15a: 0.52 und KCCQ15d: 53).
Die interne Konsistenz dieser Skala ist ausreichend gut (Cronbachs alpha: 0.86).
Die Trennschärfe der Frage KCCQ15b (intime Beziehungen) ist mit r=0.63 am
niedrigsten.
Tabelle 22: Itemkorrigierte Trennschärfen und Cronbachs alpha für die Skala Soziale Einschränkung.
Cronbachs alpha: .86
Fragen
korrigierte Item-Skalen-Korrelation
KCCQ15a
KCCQ15b
KCCQ15c
KCCQ15d
0.73
0.63
0.74
0.77
alpha, wenn das Item entfernt würde
0.82
0.87
0.82
0.81
Die niedrige Trennschärfe von Frage KCCQ15b (intime Beziehung) fällt in Bezug
auf den Gesamttestwert mit r=0.47 noch niedriger aus. Erklären könnte man dies
dadurch, dass das erfragte Verhalten sicherlich von noch mehr Faktoren als allein
dem Grad der Herzinsuffizienz bzw. der Lebensqualität abhängt. Darüber hinaus
wird die Stichprobe bei dieser Frage am selektivsten: ganze 8% verweigerten hier
eine Antwort und 13% wählten die Kategorie „nicht zutreffend oder aus anderen
Gründen nicht beantwortet“. Somit beantworten insgesamt fast ein Viertel (22%)
diese Frage nicht.
Deutlich niedriger, aber immer noch überdurchschnittlich hoch sind auch die Verweigerungsraten der Fragen KCCQ15a: 5%, KCCQ15c: 5% und KCCQ 15d: 3%.
Zum einen könnte dies ein Effekt der Frage KCCQ15b sein, zum anderen könnte
es auch an dem schwerer verständlichen Format der Fragen liegen. Dieses Format
107
ähnelt sehr den Fragen KCCQ 1a-1f, welche ebenfalls erhöhte Verweigerungsraten aufgewiesen haben.
Die vereinzelte Kritik zweier Patienten an diesen Fragen in Bezug auf die Präzision
der Frage erscheint erwähnenswert:
„Nicht detailliert genug. Alltägliche Situationen, die meist Stress, Druck, Ängste
erzeugen können, werden bei der Fragestellung nicht berücksichtigt“
„Bei "Hobbies / Freizeitaktivitäten" sollte unterschieden werden nach körperlichen
Tätigkeiten (Wandern, Sport etc.) und geistigen Aktivitäten (Lesen, Briefmarken
sammeln etc.).“
Die nachfolgende Abbildung 8 zeigt die Verteilungsform der Skala, wobei
•
die Werte in Zehnerschritten zusammengefasst wurden.
Soziale Einschränkung
20
Prozent
10
0
0-9.9
10-19.9 20-29.9 30-39.9 40-49.9 50-59.9 60-69.9 70-79.9 80-89.9
90-100
Soziale Einschränkung
Abbildung 8: Skala Soziale Einschränkung, zur grafischen Veranschaulichung auf Zehnerschritte umkodiert. Höhere Werte entsprechen einer geringeren Einschränkung.
Die Verteilungsform der Skala Soziale Einschränkung erscheint tendenziell linksschief und unsymmetrisch. Der Bodeneffekt liegt bei 12.7%, der Deckeneffekt bei
5.9%
Selbstwirksamkeit
Die Fragen zur Selbstwirksamkeit beinhalten die Aspekte Wissen zum Selbstmanagement im Umgang mit den Symptomen (KCCQ10) und Prävention weiterer
Verschlechterung (KCCQ11).
108
KCCQ10
KCCQ11
Herzinsuffizienz-Symptome können sich aus verschiedenen Gründen verschlechtern. Wie
sicher sind Sie, dass Sie wissen, was zu tun oder wer anzurufen ist, wenn sich Ihre Herzinsuffizienz verschlechtert?
Wie gut verstehen Sie, was Sie selbst tun können, um Ihre Herzinsuffizienz-Symptome nicht
zu verschlechtern (z.B. Gewichtskontrolle, weniger Salz in der Diät usw.)
Beide Verteilungen dieser Fragen sind deutlich linksschief mit einem Modalwert bei
„ziemlich sicher“ bzw. „ich verstehe es größtenteils“ und weisen jeweils einen
Bodeneffekt auf.
Die interne Konsistenz dieser recht kurzen Skala ist mit einem Cronbachs alpha
von 0.61 eher unbefriedigend. Aufgrund der nur zwei Fragen lässt sich nicht entscheiden, welches Item die Skala schlechter repräsentiert. Der Vergleich mit dem
Gesamtwert des KCCQ erbringt auch keinen Zugewinn an Information. Würde man
diese Skala in die Skala Klinische Zusammenfassung integrieren, erhalten die
Frage KCCQ10 eine Trennschärfe von r=0.17 und Frage KCCQ11 von r=0.15.
Die Entscheidung des Testautors, diese Skala nicht mit den übrigen zu addieren,
sondern die Items als zusätzliche Information zu nutzen, erscheint angesichts
dieser Eigenschaften als günstig.
Tabelle 23: Itemkorrigierte Trennschärfen und Cronbachs alpha für die Skala Selbstwirksamkeit.
Cronbachs alpha: .62
Fragen
KCCQ10
KCCQ11
korrigierte Item-Skala-Korrelation
alpha, wenn das Item entfernt würde
.47
.47
-
Die nachfolgende Abbildung 9 zeigt die Verteilungsform der Skala, wobei die
Werte in Zehnerschritten zusammengefasst wurden.
109
Selbstwirksamkeit
40
30
20
Prozent
10
0
0-9.9
10-19.9
20-29.9
30-39.9
50-59.9
60-69.9
70-79.9
80-89.9
90-100
Selbstwirksamkeit
Abbildung 9: Skala Selbstwirksamkeit, zur grafischen Veranschaulichung auf Zehnerschritte
umkodiert. Ein höherer Wert entspricht einer höheren Selbstwirksamkeit.
Die Verteilungsform der Skala Selbstwirksamkeit erscheint linksschief und normalverteilungsähnlich. Der Bodeneffekt liegt bei 16.2%, der Deckeneffekt bei 1.7%.
Symptomstabilität
Die Frage nach der Symptomstabilität ist mit einem Item aus psychometrischer
Sicht schwer zu bewerten. Ihre Nützlichkeit und der Informationsgewinn dürfte für
die praktische Anwendung des KCCQs im Alltag für den Behandler jedoch am
höchsten sein. Die Verteilungsform ist symmetrisch mit einem deutlichen Modalwert bei „unverändert“ (=46%). „Keine Symptome“ innerhalb der letzten zwei Wochen gehabt zu haben, gaben immerhin 16% an. Die Verweigerungsrate beträgt
bei dieser Frage lediglich 2%. Die Trennschärfe in Bezug auf den KCCQ-Gesamtwert Klinische Zusammenfassung würde - wenn man die Frage integrieren würde r=0.54 betragen. Dieser Wert erscheint recht hoch, wenn man bedenkt, dass diese
Frage zwar individuell über die Zeit hoch mit dem Gesamtwert korrelieren dürfte, in
Bezug auf eine Stichprobe jedoch weniger. Denn hier kann sich vor allem der
Zustand der Gesünderen verschlechtern und der Zustand der Beeinträchtigten
verbessern. Dieser hohe Wert spricht daher indirekt für eine hohe Stabilität der
Lebensqualität.
110
Die nachfolgende Abbildung 10 zeigt die Verteilungsform der Skala, wobei die
Werte in Zehnerschritten zusammengefasst wurden.
Symptomveränderung
70
60
50
40
30
Prozent
20
10
0
1.00
2.00
3.00
4.00
5.00
Symptomveränderung
Abbildung 10: Skala Symptomstabilität zur grafischen Veranschaulichung auf Zehnerschritte
umkodiert. Ein höherer Wert entspricht einer Verbesserung der Symptomatik,
ein niedriger eine Verschlechterung, 3 = „unverändert“.
Die Verteilungsform der Skala Symptomstabilität erscheint deutlich eingipflig und
symmetrisch.
Trennschärfe und Verteilungsform der Summenskalen
Die mathematische Aufbereitung der Daten des Testautors gibt keine Aufaddierung aller Items zu einem Gesamtwert, sondern die Aufaddierung der Unterskalen
zu einer Gesamtskala vor. Im Falle von ungleich langen Unterskalen ergeben sich
hierdurch minimale Unterschiede. Aus dieser Perspektive lassen sich ebenfalls die
Trennschärfen der Unterskalen berechnen (s. Tabelle 24).
Tabelle 24: Itemkorrigierte Trennschärfen und Cronbachs alpha für die Skala Klinische
Zusammenfassung mit den Unterskalen Körperliche Einschränkung, Symptome,
Lebensqualität und Soziale Einschränkung.
Cronbachs alpha: .87
Fragen
Körperliche Einschränkung
Symptome
Lebensqualität
Soziale Einschränkung
korrigierte Item-Skalen-Korrelation
0.67
0.75
0.72
0.77
alpha, wenn das Item entfernt
würde
0.86
0.83
0.84
0.82
111
Bedingt durch die niedrigere Itemanzahl in dieser Berechnung fällt die interne
Konsistenz niedriger aus (0.87 versus 0.94), wenn die einzelnen Skalen als
Rechengrundlage dienen. Die Unterschiede zwischen den Skalen in Bezug zur
Trennschärfe sind relativ gering. Das Ausschließen keiner der Skalen würde die
interne Konsistenz verbessern.
Funktionaler Status
30
20
Prozent
10
0
0-9.9
10-19.9 20-29.9 30-39.9 40-49.9 50-59.9 60-69.9 70-79.9 80-89.9
90-100
Funktionaler Status
Abbildung 11: Skala Funktionaler Status, zur grafischen Veranschaulichung auf Zehnerschritte umkodiert. Ein höherer Wert entspricht einer höheren Lebensqualität.
Die Verteilungsform der Skala Funktionaler Status erscheint tendenziell linksschief
und normalverteilt, allerdings mit einem deutlichen Bodeneffekt. Der Bodeneffekt
liegt bei 20.5%.
112
Klinische Zusammenfassung
20
Prozent
10
0
0-9.9
10-19.9 20-29.9 30-39.9 40-49.9 50-59.9 60-69.9 70-79.9 80-89.9
90-100
Klinische Zusammenfassung
Abbildung 12: Skala Klinische Zusammenfassung, zur grafischen Veranschaulichung auf
Zehnerschritte umkodiert.
Die Verteilungsform der Skala Klinische Zusammenfassung erscheint sehr uneinheitlich. Der Bodeneffekt liegt bei 9.4%.
4.4 Akzeptanz des KCCQ bei den Patienten
Bisher wurde schon häufig auf die Anmerkungen der Patienten sowie auf die
Missings bei der Besprechung der jeweiligen Skala Bezug genommen. Einen
auffällig hohen Wert lieferte hier nur Frage 15b nach der Beeinträchtigung von
intimen Beziehungen mit 8%. Leicht erhöht waren die Missings der Fragen
KCCQ1a-1f und KCCQ15a-15d, was an dem gemeinsamen, im Vergleich zu den
anderen Fragen unterschiedlichen Fragenformat, liegen könnte.
Am Ende des Fragebogens wurden die Patienten befragt, inwieweit sie den KCCQ
verständlich (KCCQ17a), wichtig (KCCQ17b), leicht zu beantworten (KCCQ17c)
und angenehm (KCCQ17d) fanden. Die Patienten beantworten diese Fragen auf
einer 5 stufigen Ratingskala (gar nicht (1), wenig (2), etwas (3), ziemlich (4), sehr
(5)). Die Häufigkeitstabellen der Bewertungen sind vollständig im Anhang wiedergegeben.
113
Die Verständlichkeit wurde von 4% als „wenig“ bzw. 0,8% „gar nicht verständlich“
bezeichnet. Immerhin fast 9% fanden ihn nur „etwas“ verständlich. Für 85% war
der KCCQ mit „ziemlich“ bzw. „sehr“ ausreichend verständlich. 81% fanden die
Fragen „ziemlich“ und „sehr“ wichtig. 80% hielten die Fragen für „ziemlich“ und
„sehr“ leicht zu beantworten. Als „ziemlich“ und „sehr“ angenehm urteilten hingegen nur noch 72%.
4.5 Zusammenfassung der Itemanalyse
Zur Gesamtskala „Klinische Zusammenfassung“ gehören insgesamt 20 Fragen. In
Bezug auf diese Skala und die jeweiligen Unterskalen zeichnen sich die Items
hinsichtlich der Trennschärfe durch gute Eigenschaften aus. Die Verteilungsform
und damit auch die Schwere der Lösbarkeit der Items scheinen durch den Untersuchungsgegenstand stark eingeschränkt zu sein. Nur 6 der Fragen weisen nach
unserer obigen Definition keinen Boden- oder Deckeneffekt auf (Frage KCCQ1c,
1d 2, 6, 13, 15a). Die Frage KCCQ1f (Laufen oder Joggen) weist den einzigen
Deckeneffekt auf. Alle anderen 15 Fragen weisen Bodeneffekte auf.
Die Schwierigkeit der Items fällt hierdurch eher hoch aus. Die durchschnittliche
Schwierigkeit über alle 23 Items hinweg beträgt 0.63 (Min=0.4, Max=0.84,
SD=0.12). Bei allen Items werden alle Antwortmöglichkeiten ausgeschöpft. Die
Trennschärfen der Items in Bezug auf ihre jeweilige Skala liegen durchschnittlich
bei 0.68. In Bezug auf die Skala Klinische Zusammenfassung beträgt die mittlere
Trennschärfe 0.63 (Max 0.82, Min 0.44, SD=0.12). Die Interne Konsistenz des
KCCQ bzw. der Skala Klinische Zusammenfassung beträgt Cronbachs alpha 0.94.
Die nachfolgende Tabelle zeigt die Boden- und Deckeneffekte auf der Skalenebene, indem die Prozentwerte der Bereiche 0-10 und 90-100 der Skalen wiedergegeben werden. Ein Boden- oder Deckeneffekt sollte nicht größer als 20%
sein.
114
Tabelle 25: Zusammenfassung der Verteilungsformen der Skalen des KCCQ: Bodeneffekt,
Deckeneffekt, Symmetrie und Verteilungsform.
Skalen des KCCQ
Symptomstabilität
Symptome
Körperliche Einschränkung
Soziale Einschränkung
Lebensqualität
Selbstwirksamkeit
Funktionaler
Status
Klinische Zusammenfassung
Bodeneffekt
%
Deckeneffekt %
6.6
26.5
4.8
0.9
16.1
3.6
12.7
5.9
12
5.2
16.2
1.7
20.5
9.4
durchnittliche
Itemschwierigkeit
M (SD)
Interne Konsistenz
(Cronbachs
alpha)
symmetrisch
Verteilung
ja
nein
normal
linksschief
nein
linksschief
0.52
0.70 (10)
0.68 (12)
.90
.87
0.74 (0.4)
.88
0.76 (0.02)
.88
.65
.92
leicht
0.9
0.71 (0.05)
0.66 (13)
leicht
linksschief
leicht
linksschief
linksschief
leicht
linksschief
1.3
0.65 (11)
.94
nein
linksschief
nein
nein
Anmerkung: % des Boden und Deckeneffektes geben die Prozentwerte der Skalenbereiche 0-10 und 90-100 der Skalen
wieder. Datenbasis N=234.
Die Tabelle 25 macht deutlich, dass die KCCQ Skalen nur in geringen Umfang
bedeutsame Bodeneffekte aufweisen, nämlich in der Skala Symptome und Funktionaler Status. Diese Bodeneffekte sind natürlich abhängig von der Stichprobe. Für
die Differenzierung zwischen den schwerer Kranken ist es wichtig, möglichst
wenige Deckeneffekte aufzuweisen. Die Deckeneffekte des KCCQ sind sehr
gering, was aber auch wiederum eine Konsequenz der geringen Fallzahl in der
vierten NYHA-Klasse widerspiegelt. Keine der Skalen, mit Ausnahme der
Symptomskala, sind normalverteilt.
Die höheren Missings bei den ähnlich formatierten Fragen KCCQ1a-1f sowie
KCCQ15a-15d lassen vermuten, dass dies auch an der Formatierung liegen
könnte. Die Auswahl der Items sowie die Auslassung der Items KCCQ2 (Symptomstabilität) sowie 10 und 11 (Selbstwirksamkeit) aus dem Gesamtwert Klinische
Zusammenfassung erscheinen aufgrund der psychometrischen Charakteristika
gerechtfertigt.
115
.67
.75
.47
.47
KCCQ3
KCCQ5
KCCQ7
KCCQ9
KCCQ4
KCCQ6
KCCQ8
.77
.51
.60
.78
.84
.61
.68
.58
.78
.82
.61
.63
.76
.78
KCCQ1a
KCCQ1b
KCCQ1c
KCCQ1d
KCCQ1e
KCCQ1f
KCCQ12
KCCQ13
KCCQ14
KCCQ15a
KCCQ15b
KCCQ15c
KCCQ15d
.80
.78
.69
.55
.59
.40
.61
.47
.60
.53
.58
.68
.53
.56
.60
.71
.82
.80
.55
.77
.74
.76
.73
.63
.74
.77
Symptomhäufigkeit
Symptome
Symptomschwere
Körperliche Einschränkung
Lebensqualität
Soziale Einschränkung
Trennschärfe
für Klinische
Zusammenfassung
KCCQ10
KCCQ11
.62
.89
.87
.87
.86
Klinischer Summenwert
Selbstwirksamkeit
(20 Items) Cronbachs aplha = 0.94
-
zusammenfassende
Skalen
.52
(13 Items) Cronbachs alpha = 0.92
Trennschärfe
pro Skala
KCCQ2
Funktionaler Status
Item-schwierigkeit
Symptomstabilität
Subskalen
Cronbachs
alpha
Items
Tabelle 26: Itemanalysekennwerte: Schwierigkeit und Trennschärfe für die Skalen des
KCCQ.
.49
.82
.80
.53
.54
.79
.76
.48
.52
.61
.68
.74
.58
.74
.62
.63
.64
.47
.63
.74
4.6 Reliabilität
Die Reliabilitätsstichprobe besteht aus N=30 herzinsuffizienten Patienten, davon
24 Männer im durchschnittlichen Alter von 57.8 Jahren (SD=11.6) und 6 Frauen im
durchschnittlichen Alter von 61.9 Jahren (SD=8.7). Die Stichprobe setzt sich aus
folgenden NYHA-Klassen-Anteilen zusammen: I 20%, II 53.3%, III 23.3% und IV
3.3%.
Als Maß zur Reliabilitätsmessung wird neben dem Pearson-Korrelations-Koeffizienten auch die einfaktorielle (unjustierte) Intraklassenkorrelation ICC und den
116
Concordance Correlation Coefficient CCC verwendet. Der ICC wertet Niveauunterschiede der zwei Messzeitpunkte zu Lasten der Reliabilitätsschätzung, setzt
allerdings Varianzhomogenität zu den beiden Messzeitpunkten voraus. Der CCC
berücksichtigt Verringerungen des Niveaus und der Varianzgleichheit als
reliabilitätsmindernd (Schuck, 2004).
Tabelle 27: Retest-Reliabilitätskoeffizienten Intraklassen-Korrelationskoeffizient (ICC),
Konkordanz-Korrelationskoeffizient (CCC) und Pearsons Korrelationskoeffizient
(r) sowie die Schätzung der Homogenität mit Cronbachs alpha für die Skalen des
KCCQ.
Skala
Retest-Reliabilität
Homogenität
ICC
CCC
r
Symptome (7)
0.94
0.93
0.94
Cronbachs
alpha
0.89
Körperliche Einschränkung (5)
0.87
0.86
0.86
0.88
Soziale Einschränkung(4)
0.82
0.82
0.84
0.84
Lebensqualität (3)
0.89
0.88
0.89
0.86
Selbstwirksamkeit (2)
0.79
0.78
0.79
0.56
Funktionaler Status (13)
0.93
0.93
0.93
0.92
Klinischer Summenwert (20)
0.93
0.92
0.93
0.94
Der Intraklassen- bzw. Konkordanz-Korrelationskoeffizient (ICC bzw. CCC) sollte
>0.80 ausfallen. Bis auf den Wert der Skala Selbstwirksamkeit (ICC=0.79) konnten
sehr gute Werte >0.80 gemessen werden. An den nur geringen Abweichungen
zwischen der Pearson-Korrelation und dem CCC lässt sich erkennen, dass es nur
geringe Niveau- und Varianzunterschiede zwischen den Messzeitpunkten gab.
Daher fällt auch der ICC ähnlich hoch aus, der allerdings auch aus Gründen der
Varianzhomogenitätsvoraussetzungen hoch ausfallen könnte, was aber hier durch
den ebenso hohen CCC ausgeschlossen ist.
Die Wiederholungsmessung nach 7-8 Tagen ergab nur für die Skala Soziale Einschränkung eine signifikante Veränderung (s. Tabelle 27) (t=2.2; df=29, p=0.03).
Diese Veränderung erscheint inhaltlich und auch unter Berücksichtigung der Ergebnisse der Änderungssensitivitätsanalyse, in der die Skala als wenig änderungssensitiv erscheint, sehr überraschend.
117
Tabelle 28: Mittelwerte (M) der Baseline und Reliabilitätsmessung nach 7-8 Tagen. Prüfstatistik der Differenzen der Skalen des KCCQ der Reliabilitätskohorte.
Skala
Symptome
Körperliche Einschränkung
Soziale Einschränkung
Lebensqualität
Selbstwirksamkeit
Funktionaler Status
Klinischer Summenwert
Baseline
M
SD
76.0
26.3
68.4
27.5
59.7
24.1
63.9
22.4
73.7
20.6
67.0
21.5
72.2
25
7-8 Tage
M
SD
74.8
27.7
70.0
26.3
65.0
22.3
65.8
23.7
74.2
22.7
68.9
21.4
72.4
24.7
Differenz
M
-1.1
1.6
5.3
1.9
0.4
1.9
0.2
t-Wert
(df= 29)
-0.7
0.6
2.2
1.0
0.2
1.3
0.1
p-Wert
0.50
0.53
0.03
0.33
0.87
0.19
0.91
4.7 Änderungssensitivität
Die Änderungssensitivitätskohorte besteht aus 22 männlichen Patienten im durchschnittlichen Alter von 69 Jahren (SD=13.5) und 15 weiblichen im durchschnittlichen Alter von 75 Jahren (SD=10.3). Die NYHA-Klassen-Anteile setzen sich wie
folgt zusammen: I 0%, II 18%, III 55% und IV 27% (n=4 Missings).
Die Patienten wurden während ihres Krankenhausaufenthaltes befragt und sendeten vier Wochen später den gleichen Fragebogen von ihnen ausgefüllt zurück.
Die Verteilungen der Antworten auf die Frage zur Symptomstabilität zeigen, dass
die Herstellung der Versuchsplanbedingung „dekompensiert“ versus „rekompensiert“ nicht optimal gelungen zu sein scheint. Offensichtlich führen die ersten ärztlichen Interventionen sehr schnell zu einer ersten Verbesserung, so dass sich ein
Teil der „Dekompensierten“ zum ersten Messzeitpunkt schon als verbessert begreifen (gebessert 54%, unverändert 16%). Vier Wochen später jedoch hat sich bei
einigen der Zustand nach der Entlassung auch schon wieder relativ verschlechtert,
so dass sich die „rekompensierten“ selbst als wieder verschlechtert beschreiben
(22% verschlechtert, 28% unverändert).
Zur Vergleichbarkeit mit der Studie von Green et al. (2000) ist in der
nachfolgenden Tabelle Guyatt’s-Responsiveness-Index (GRI s. S. 85) dargestellt.
118
Tabelle 29: Guyatt’s-Responsiveness-Index (GRI), Mittelwertsdifferenzen der Änderungssensitivitätskohorte dividiert durch die Standardabweichung der Differenzen der
Reliabilitätskohorte sowie die Vergleichswerte aus Green et al. (2000).
Skala
n
Mittelwertsdiffea
renz
SD der Diffeb
renzen
Symptomstabilität
36
1.39
24.6
Symptome
35
10.60
9.5
Körperl. Einschränkung
36
8.67
14.1
Soziale Einschränkung
32
1.63
13.2
Lebensqualität
36
-1.15
10.9
Selbstwirksamkeit
37
2.71
14.1
Funktionaler Status
37
9.39
9.6
Klinischer Summenwert
37
4.39
7.9
Guyatt’s
Responsiveness
Index
c
GRS aus
Green et al.
2000
0.06
1.12
3.19
0.62
1.48
0.12
0.62
-0.11
0.86
0.19
0.83
0.97
2.77
0.56
1.74
Anmekrung:
a) Die Mittelwertsdifferenzen sind aus der Stichprobe der Änderungssensitivitätsstudie (n=33) berechnet.
b) Die Standardabweichungen der Differenzen sind aus der Stichprobe der Reliabilitätsstudie (n=30)
berechnet.
c) GRS= Guyatt’s-Responsivenes-Statistic (entspricht GRI).
Die höchsten GRI-Werte erhalten die Skalen Symptome (GRI=1.12) und Körperliche Einschränkung (GRI=0.62). Der GRI der Skala Selbstwirksamkeit ist mit 0.19
deutlich niedriger und dürfte angesichts der schlechten psychometrischen Eigenschaften dieser Skala schwer zu interpretieren sein. Dieser Effekt, wie die übrigen
auch, ist darüber hinaus auch deutlich niedriger als die kleinste klinisch zu erwartende bedeutsame Veränderung (s. u.).
Green et al. (2000) hatten ihre Wiederholungsmessung erst drei Monate später
und nicht wie wir vier Wochen nach dem Krankenhausaufenthalt durchgeführt. Die
berichteten GRS (=GRI)-Werte liegen zwei- bis dreifach über den unsrigen.
Angesichts der Erholung nach einer kardialen Dekompensation erweisen sich vor
allem die symptomspezifischen Fragen als änderungssensitiv. Diese Skalen bilden
am ehesten mit ihrer relativ größten Ähnlichkeit zur NYHA-Klasse (s. Kapitel 2.1)
die Veränderung der Symptome eines rekompensierten Herzinsuffizienten vier
Wochen nach einer Dekompensation ab.
Ein Blick auf die nachfolgende Tabelle 30 zeigt das Ergebnis des Mittelwertsvergleichs mittels t-Test zur Bewertung der statistischen Bedeutsamkeit der Mittelwertsdifferenz im Zähler des GRI. Hier wurden nur die Mittelwertsdifferenzen der
Skalen Symptome und Funktionaler Status signifikant.
119
Tabelle 30: Mittelwerte zu T1 und T2 (Wiederholungsmessung nach 4 Wochen) Skalen des
KCCQ der Änderungssensitivitätskohorte (t-Test).
Skala
T1
T2
t-Test
M
SD
M
SD
df
Symptome (7)
44.7
19.9
55.3
29.3
34
0.01
Körperliche Einschränkung (5)
50.9
23.8
59.5
26.3
35
0.12
Soziale Einschränkung (4)
47.7
25.0
49.3
30.1
31
0.81
Lebensqualität (3)
46.5
19.6
45.4
23.5
35
0.80
Selbstwirksamkeit (2)
66.6
26.2
69.3
24.2
36
0.49
Funktionaler Status (13)
47.1
18.4
56.5
22.9
36
>0.01
Klinischer Summenwert (20)
47.2
17.1
51.6
21.7
36
0.19
p-Wert
Der SF-36 (s. Tabelle 31) weist ebenfalls nur wenige Effekte auf. Die Ein-ItemSkala Gesundheitsveränderung ist signifikant verbessert, darüber hinaus ist die
Verbesserung der Skala Vitalität nah an der Signifikanzgrenze. Die Skalen Körperliche Rollenfunktion, Körperliche Schmerzen, Soziale Funktionsfähigkeit weisen
Verschlechterungen auf, die Skala Allgemeine Gesundheitswahrnehmung sogar
eine signifikante.
Tabelle 31: Mittelwerte zu T1 und T2 (Wiederholungsmessung nach 4 Wochen) Skalen des
SF-36 der Änderungssensitivitätskohorte (t-Test).
Skala
T1
T2
SD
25.4
M
30.6
SD
30.1
df
p-Wert
Körperliche Funktionsfähigkeit (pfi)
M
25.1
33
0.28
Körperliche Rollenfunktion (rolph)
18.0
31.9
17.2
33.9
31
0.91
Körperliche Schmerzen (pain)
58.6
38.2
52.4
30.1
33
0.31
Allg. Gesundheitswahrnehmung (ghp)
45.0
18.6
38.4
18.7
30
0.01
Vitalität (vital)
32.4
24.1
39.8
21.6
30
0.08
Soziale Funktionsfähigkeit (social)
60.6
31.0
54.2
30.1
32
0.22
Emotionale Rollenfunktion (rolem)
35.6
42.8
40.0
47.5
29
0.56
Psychisches Wohlbefinden (mhi)
53.7
21.8
55.8
20.8
30
0.54
2.2
1.1
3.08
1.0
34
.001
Standard. körperliche Summenskala (ksk)
32.4
9.2
30.9
9.9
26
0.40
Standard. psychische
Summenskala (psk)
42.1
10.6
42.5
12.7
26
0.86
Gesundheitsveränderung (rawhtran)
In der nachfolgenden Tabelle 32 sind die Effektstärken der minimalen standardized
effect sizes (SES) und standardized response means (SRM) abgebildet, die einen
klinisch bedeutsamen Effekt widerspiegeln könnten. Die kleinste klinisch bedeutsame Veränderung hat inhaltlich die Bedeutung, dass sie die kleinste mögliche
120
Veränderung für eine Person darstellt, indem diese in irgendeinem Item (ceteris
paribus) einen höheren Wert ankreuzt. Betrachtet man dieses Konzept nun auf der
Mittelwertsebene, so würde dies implizit verlangen, dass sich jeder Patient der
Kohorte um einen Punkt in einem Item verändern müsste, damit der kritische
Mittelwert überschritten würde. Die so ermittelten Vorhersagen für eine Effektstärke
werden in den Tabelle 35 und Tabelle 36 mit den empirischen Effektstärken verglichen.
Tabelle 32: hypothetische minimale Differenz der KCCQ-Skalen, deren Standardabweichung
und daraus errechnet die klinisch bedeutsame SES und SRM.
Skalen des KCCQ
Symptomstabilität
Minimale
Differenz
auf der 0100 Skala
SD zu
a
T1
SD der
b
Differenzen
Klinisch
bedeutsame
SES
Klinisch
bedeutsame
SRM
1.19
0.64
25.00
21.1
39.0
Symptome
3.13
24.8
23.3
0.13
0.13
Körperliche Einschränkung
4.16
24.9
33.3
0.17
0.13
Soziale Einschränkung
6.25
28.0
40.4
0.22
0.16
Lebensqualität
8.30
26.2
28.4
0.32
0.29
Selbstwirksamkeit
12.50
22.9
21.7
0.55
0.58
Funktionaler Status
1.79
22.8
21.4
0.08
0.08
Klinische
1.19
22.2
20.6
Zusammenfassung
0.05
0.06
a) Die Standardabweichungen für T1 wurden aus der Stichprobe der KCCQ-Validirungsstudie (N=234)
berechnet.
b) Die Standardabweichungen der Differenzen wurden aus der Stichprobe der Änderungssensitivitätsstudie
(n=33) berechnet.
In Tabelle 33 ist die kleinste echte Differenz (SRD) auf die Effektstärken bezogen
dargestellt. Auffallend ist, dass die SRD-Werte weit über denen der minimalen
klinisch bedeutsamen Differenz liegen.
Tabelle 33: hypothetische Smallest Real Difference der KCCQ-Skalen, deren Standardabweichung und daraus errechnet die Effektstärken SES und SRM.
Smallest
real
Difference
SRD
SD zu T1
Symptome
14.5
Körperliche Einschränkung
SD der
Differenb
zen
SRD als
Effektstärke
SES
SRD als
Effektstärke
SRM
24.8
23.3
0.59
0.62
21.5
24.9
33.3
0.86
0.64
Soziale Einschränkung
28.4
28,0
40.4
1.01
0.70
Lebensqualität
20.8
26.2
28.4
0.79
0.73
Selbstwirksamkeit
25.1
22.9
21.7
1.10
1.16
Funktionaler Status
14.4
22.8
21.4
0.63
0.67
Skalen des KCCQ
a
Klinische
14.0
22.2
20.6
0.63
Zusammenfassung
a) Die SD für T1 wurden aus der Stichprobe der Änderungssensitivitätsstudie ( n=33) berechnet.
0.68
121
b) Die SD der Differenzen wurden aus der Stichprobe der Änderungssensitivitätsstudie (n=33) berechnet.
Die folgende Tabelle zeigt die empirischen Effektstärken (SES und SRM) der
Skalen des KCCQ. Die fettgedruckten Effektstärken sind diejenigen, deren Konfidenzintervall die Null nicht mit einschließt. Dies trifft lediglich auf die Skalen
Symptome, Körperliche Einschränkung (nur bei SES) und den daraus gebildeten
Funktionalen Status zu. Das Konfidenzintervall (nur bei SES) der Skala Symptome
liegt dabei sogar außerhalb der klinisch bedeutsamen Differenz. Dies bedeutet,
dass sich der „wahre Wert“ mit einer Irrtumswahrscheinlichkeit von 5% von einem
klinisch nicht bedeutsamen Wert unterscheidet.
Tabelle 34: Effektstärken SES und SRM für die Skalen des KCCQ aus der Änderungssensitivitätsstudie. Die fettgedruckten Effekte sind signifikant.
Variable
n
SES
Effektstärke SES
Effektstärke SRM
95%-konfidenzInterval
UnterObergrenze
grenze
95%-konfidenzInterval
UnterObergrenze
grenze
Power
SRM
Power
Symptomstabilität
36
.05
-.28
.37
.05
.04
-.29
.36
.04
Symptome
35
.51
.15
.86
.83
.45
.10
.80
.74
Körperl. Einschränkung
36
.36
.02
.70
.57
.27
-.06
.60
.35
Soziale Einschränkung
32
.06
-.29
.41
.05
.04
-.31
.39
.04
Lebensqualität
36
-.06
-.38
.27
.05
-.04
-.37
.28
.04
Selbstwirksamkeit
37
.10
-.22
.43
.09
.12
-.21
.44
.10
Funktionaler Status
37
.51
.16
.85
.86
.45
.11
.79
.77
Klinischer Summenwert
37
.26
-.07
.58
.33
.22
-.11
.55
.26
Die Power der vorgefundenen Effektstärken ist nur für die Skala Symptome und
daher auch für den Funktionalen Status in einem befriedigenden Bereich. Die
Tabelle 35 und Tabelle 36 stellen die gefundenen Effektstärken noch einmal direkt
den hypothetischen Effektstärken der kleinsten echten Differenz und der klinisch
bedeutsamen Effektstärke gegenüber. Dabei sind zum Vergleich auch noch die
Effektstärken der Skalen aus der Reliabilitätskohorte aus Tabelle 39 hinzugefügt.
Man erkennt gut, dass in den plausiblen Skalen deutlichere Effekte aufgetreten
sind als unter stabilen Bedingungen (Reliabilität). Aber nur die Effektstärke der
Skala Symptome liegt signifikant mit einer Irrtumswahrscheinlichkeit von 5% über
der klinisch bedeutsamen Effektstärke. Dabei ist der Effekt allerdings immer noch
so gering, dass er nicht von einem Effekt aufgrund der Messfehlerstreuung abgegrenzt werden kann.
Letzteres Kriterium ist angesichts der hohen Werte der SRD auch kaum zu erfüllen.
122
Tabelle 35: Vergleich der Effektstärke SES für den KCCQ mit den Effektstärken der klinischen Bedeutsamkeit und der Smalles Real Difference (SRD).
SES
Änderungssensitivitätskohorte
SES
Reliabilitätskohorte
Klinisch
bedeutsame
SES
SRD als
Effektstär
ke
SES
Symptomstabilität
0.05
0,00
1.19
-
Symptomskala
0.51
-0.05
0.13
0.59
Körperl. Einschränkung
0.36
0.09
0.17
0.86
Soziale Einschränkung
0.06
0.22
0.22
1.01
Lebensqualität
-0.06
0.09
0.32
0.79
Selbstwirksamkeit
0.10
0.02
0.55
1.10
Funktionaler Status
0.51
0.01
0.08
0.63
Klinischer Summenwert
0.26
0.09
0.05
0.63
Variable
Tabelle 36: Vergleich der Effektstärke SRM für den KCCQ mit den Effektstärken der klinischen Bedeutsamkeit und der Smallest Real Difference (SRD).
SRD als
Effektstär
ke
SRM
SRM
Änderungssensitivitätskohorte
SRM
Reliabilitätskohorte
Symptomstabilität
0.04
0.000
1.19
-
Symptomskala
0.45
-0.13
0.13
0.62
Körperl. Einschränkung
0.27
0.24
0.17
0.64
Variable
Klinisch
bedeutsame
SRM
Soziale Einschränkung
0.04
0.18
0.22
0.70
Lebensqualität
-0.04
0.18
0.32
0.73
Selbstwirksamkeit
0.12
0.03
0.55
1.16
Funktionaler Status
0.45
0.02
0.08
0.67
Klinischer Summenwert
0.22
0.24
0.05
0.68
Beim Vergleich der Änderungssensitivitätskohorte mit der Reliabilitätskohorte fallen
die Effektstärken der Skalen Lebensqualität und Selbstwirksamkeit in der SES und
SRM sogar geringer aus. Im SRM fällt sogar auch noch die Effektstärke der Skala
Klinischer Summenwert geringer aus (0.24 versus 0.22).
Die Effektstärken des SF-36 zeigen ein überraschendes Bild (s. Tabelle 37).
123
Tabelle 37: Effektstärken SES und SRM für die Skalen des SF-36 aus der Änderungssensitivitätsstudie
Effektstärke SES
Variable
n
SES
95%-KonfidenzInterval
UnterObergrenze grenze
Effektstärke SRM
Power
SRM
95%-KonfidenzInterval
UnterObergrenze grenze
Power
Körperliche Funktionsfähigkeit (pfi)
34
.22
-.12
.56
.23
.19
-.15
.53
.19
Körperliche Rollenfunktion (rolph)
32
-.02
-.37
.32
.03
-.02
-.37
.33
.03
Körperliche Schmerzen (pain)
34
-.16
-.50
.18
.15
-.17
-.51
.17
.17
Allg. Gesundheitswahrnehmung (ghp)
31
-.35
-.71
.01
.47
-.49
-.86
-.11
.75
Vitalität (vital)
31
.31
-.05
.67
.39
.32
-.04
.68
.41
Soziale Funktionsfähigkeit (social)
33
-.21
-.55
.14
.21
-.22
-.56
.13
.23
Emotionale Rollenfunktion (rolem)
30
.10
-.26
.46
.08
.11
-.25
.46
.08
Psychisches Wohlbefinden (mhi)
31
.10
-.25
.45
.08
.11
-.24
.46
.09
Gesundheitsveränderung (rawhtran)
Standard. körperliche Summenskala
(ksk)
Standard. psychische
Summenskala (psk)
35
.76
.38
1.13
.99
.61
.25
.97
.94
27
-.17
-.55
.21
.13
-.16
-.54
.22
.13
27
.03
-.35
.41
.04
.03
-.34
.41
.04
Die Skalen Körperliche Rollenfunktion, Allgemeine Gesundheitswahrnehmung,
Körperliche Schmerzen und Soziale Funktionsfähigkeit weisen negative Vorzeichen auf. Dies bedeutet, dass sich der Zustand der Patienten hier im Durchschnitt
auf diesen Skalen, wenn auch nur minimal und nicht statistisch bedeutsam,
verschlechtert hat. Alle Skalen des SF-36 sind so gepolt, dass ein höherer Werte
einer höheren Lebensqualität entspricht, lediglich die Frage zur Gesundheitsveränderung ist anders gepolt, ein hoher Wert deutet auf eine Verschlechterung und
ein kleiner Wert auf eine Verbesserung im Vergleich zum Zustand des vorherigen
Jahres hind. Eine statistisch bedeutsame Verbesserung zeigt der SF-36 nur mit
der Ein-Item-Skala Gesundheitsveränderung (SES=0.76) an, was bedeutet, dass
sich der Gesundheitszustand im Mittel im Vergleich zum Vorhahr verschlechtert
hat. Eine noch recht hohe Effektstärke weist der SF-36 in der Skala Vitalität
(SES=0.31) auf, welche inhaltlich betrachtet auch noch hätte größer ausfallen
können, da Fragen mit Zustandsbeschreibungen wie „voller Schwung“, „voller
Energie“, „erschöpft“ und „müde“ durchaus die Symptome einer kardialen
Dekompensation darstellen könnten (s. Kapitel 2.1). Im Vergleich hierzu konnte der
KCCQ auf den Skalen Symptome und Körperliche Einschränkung bedeutsame
Effektstärken abbilden.
Die Ergebnisse zur Änderungssensitivität zeigen, dass die Effekte in unserer
Stichprobe deutlich geringer ausfallen als bei Green et al. (2000). Lediglich die
124
Skalen Symptome und Körperliche Einschränkung erweisen sich als bedeutsam
änderungssensitiv im Vergleich zur klinischen Bedeutsamkeit und gegenüber dem
SF-36. Auf diesen Skalen werden vor allem NYHA-Klassen-ähnliche Symptome
erfasst.
Die großen Differenzen der GRI-Werte zu Green et al. (2000) lassen sich dadurch
etwas reduzieren, dass nur diejenigen Patienten betrachtet werden, die sich in der
Skala Symptomstabilität als „verbessert“ bezeichneten. Die folgende Tabelle zeigt
die GRI-Werte für diese selektive Untergruppe im Vergleich zu den Gesamtwerten
und den Werten von Green et al. (2000).
Tabelle 38: GRI für die Änderungssensitivitätskohorte im Vergleich zur „verbesserten“
Untergruppe dieser Stichprobe und den Werten von Green et al. (2000).
Guyatt’s
Responsiveness
Index:
„verbesserte“
Untergruppe
Guyatt’sResponsivenesStatistic GRS aus
Green et al. 2000
n
Guyatt’s
Responsiveness
Index
Symptomstabilität
36
0.06
16
1.40
-
Symptome
35
1.12
15
2.26
3.19
Körperl. Einschränkung
36
0.62
16
0.78
1.48
Soziale Einschränkung
32
0.12
13
0.07
0.62
Lebensqualität
36
-0.11
15
0.56
0.86
Selbstwirksamkeit
37
0.19
16
0.83
0.83
Funktionaler Status
37
0.97
16
1.64
2.77
Klinischer Summenwert
37
0.56
16
1.17
1.74
Variable
n
Anmerkung: Die Mittelwertsdifferenzen sind aus der Stichprobe der Änderungssensitivitätsstudie (n=33)
berechnet.
Die Standardabweichungen der Differenzen sind aus der Stichprobe der Reliabilitätsstudie (n=30) berechnet.
Die Mittelwertsdifferenzen sind aus einer Unterstichprobe (Skala Symptomstabilität T2 > 50) der Stichprobe
der Änderungssensitivitätsstudie (n=16) berechnet.
In der nachfolgenden Tabelle werden zum vollständigen Vergleich auch die Effektstärken für die Reliabilitätskohorte wiedergegeben. Hier ergab sich erwartungsgemäß keine signifikante Veränderung. Die nominal höchste Effektstärke im Sinne
einer Verbesserung der Lebensqualität weist hier die Skala Soziale Einschränkung
auf, allerdings ist der Effekt nicht signifikant.
125
Tabelle 39: Effektstärken SES und SRM für die Reliabilitätskohorte N=30.
Variable
n
SES
Symptomstabilität
30
00
Symptomskala
30
Körperl. EinSchränkung
30
Soziale Einschränkung
30
Effektstärke SES
Effektstärke SRM
95%-konfidenzInterval
UnterObergrenze
grenze
95%-konfidenzInterval
UnterObergrenze
grenze
Power
SRM
Power
.00
.00
0.03
00
.00
.00
.03
-.05
-.40
.31
.04
-.13
-.48
.23
.10
.09
-0.27
.45
.07
.24
-.12
.61
.25
.22
-.14
.58
.22
.18
-.18
.54
.16
Lebensqualität
30
.09
-.27
.44
.07
.18
-.18
.54
.16
Selbstwirksamkeit
30
.02
-.34
.38
.03
.03
-.33
.39
.04
Funktionaler Status
30
.01
-.35
.36
.03
.02
-.34
.38
.03
Klinischer Summenwert
30
.09
-.27
.45
.07
.24
-.12
.61
.25
4.8 Konstruktvalidität
Im Folgenden werden die Ergebnisse der Konstruktvalidierung skalenweise dargestellt. Die nachfolgende Tabelle 40 zeigt schon einmal im Überblick alle Korrelationen zwischen den KCCQ-Skalen, den SF-36 Skalen, der NYHA-Klasse sowie den
Depressionsinventaren BDI und PHQ.
126
Tabelle 40: Korrelationen zwischen den Skalen des KCCQ und denjenigen des SF-36, der
NYHA-Klasse sowie den Depressionsinventaren BDI und PHQ.
Selbstwirksamkeit
Funktionaler Status
.60***
.52**
.18**
.75***
.72***
Körperliche Rollenfunktion
.11
.56***
.47***
.54***
.53**
.13
.56***
.61***
Körperliche Schmerzen
.08
.48***
.40***
.31***
.40**
.27***
.49***
.46***
Allg. Gesundheitswahrnehmung
.12
.53***
.50***
.52***
.54**
.15*
.56***
.61***
Vitalität
.09
.71***
.55***
.63***
.67**
.25**
.69***
.74***
Soziale Funktionsfähigkeit
.08
.57***
.38***
.59***
.61**
.15*
52***
.64***
Emotionale Rollenfunktion
.13
.43***
.31***
.40***
.53**
.18**
.40***
.49***
Psychisches Wohlbefinden
.14*
.46***
.40***
.48***
.63**
.27***
.47***
.58***
Körperl. Stand. Summenskala
.12
.66***
.65***
.56***
.47**
.17*
.71***
.67***
Psych. Stand. Summenskala
.13
.48***
.30***
.53***
.67**
.25***
.42***
.59***
NYHA-Klasse
-.09
-.59***
-.49***
-.46***
-.46***
-.11
-.59***
-.58***
Beck Depressions Inventar
-.24*
-.55***
-.45***
-.56***
-.61***
-.26**
-.53***
-.63***
Depressionsscore des PHQ
-.11
-.60***
-.44***
-.54***
-.65***
-.22**
-.56***
-.65***
Internalität
-.082
-.24**
-.22**
-.26**
-.21**
-.27**
-.24**
-.26**
Zusammenfassung
Lebensqualität
.69***
Klinische
Einschränkung
.67***
Soziale
.19**
Einschränkung
Symptome
Körperliche Funktionsfähigkeit
Körperliche
Symptomstabilität
KKG PHQ BDI
Skalen des SF-36
Skalen des KCCQ
Anmerkung: N=234. Bedingt durch Missings liegen die tatsächlichen Stichprobengrößen für die Korrelationen mit dem SF-36
zwischen n=190 und n=230. Die Stichprobengrößen der Korrelationen für den BDI liegen zwischen n=145 und
n=151, für den PHQ zwischen n=211 und n=223.
* =p<0.05, ** = p<0.01, *** = p<0.001 (zweiseitig).
Symptome
Die Skala Symptome umfasst folgende Fragen:
KCCQ3
KCCQ5
KCCQ7
KCCQ9
KCCQ4
KCCQ6
KCCQ8
Wie oft hatten Sie während der letzten 2 Wochen Schwellungen der Füße, Knöchel oder Beine
morgens beim Aufwachen?
Wie hat zu schnelle Ermüdung während der letzten 2 Wochen Sie im Durchschnitt davon
abgehalten, das zu tun, was Sie tun wollten?
Wie oft hat Atemnot während der letzten 2 Wochen Sie im Durchschnitt davon abgehalten, das
zu tun, was Sie tun wollten?
Wie oft waren Sie während der letzten 2 Wochen gezwungen, wegen Atemnot auf einem Stuhl
sitzend oder von mindestens 3 Kissen gestützt zu schlafen?
Wie beschwerlich waren die Schwellungen der Füße, Knöchel oder Beine während der letzten 2
Wochen?
Wie beschwerlich war Ihre Ermüdung während der letzten 2 Wochen?
Wie beschwerlich war Ihre Atemnot während der letzten 2 Wochen?
127
Die Skala Symptome bezieht sich ausschließlich auf herzinsuffizienztypische
Symptome. Der SF-36 erfasst als generisches Instrument keine spezifischen
Symptome, sondern eher allgemeine Einschränkungen der Lebensqualität.
Die Unterskala Körperliche Funktionsfähigkeit des SF-36 weist Items auf, die
Einschränkungen erfassen, die auch bei der Herzinsuffizienz eine Rolle spielen:
a) anstrengende Tätigkeiten, z.B. schnell laufen, schwere Gegenstände heben, anstrengenden Sport treiben,
b) mittelschwere Tätigkeiten, z.B. einen Tisch
verschieben, staubsaugen, kegeln, Golf spielen,
c) Einkaufstaschen heben und tragen,
d) mehrere Treppenabsätze steigen,
e) einen Treppenabsatz steigen,
f) sich beugen, knien, bücken,
g) mehr als 1 Kilometer zu Fuß gehen,
i) eine Straßenkreuzung weit zu Fuß gehen,
j) sich baden oder anziehen.
Die Korrelation zwischen der Skala Symptome und der Körperlichen Funktionsskala beträgt r=0.67*** (N=227).
Darüber hinaus lässt sich die Skala Symptome auch mit der Standardisierten
Körperlichen Summenskala des gesamten SF-36 vergleichen. Diese Korrelation
beträgt r=0.66*** (N=198).
Symptomstabilität
Die Frage der Symptomstabilität in dem KCCQ bezieht sich auf einen Zeitraum von
2 Wochen und lautet:
KCCQ2
Haben sich Ihre Beschwerden (Atemnot, Ermüdung, oder Schwellen der Knöchel) im Vergleich
zu Ihrem Zustand vor 2 Wochen geändert?
Das ähnliche Item im SF-36 bezieht sich auf einen Vergleich zum Zeitraum vor
einem Jahr. Aus dieser Diskrepanz heraus lässt sich verstehen, warum die Korrelation dieser beiden Fragen mit r=-0.18** (n= 226) sehr niedrig ausfällt. Der Zusammenhang ist negativ, da beide Skalen gegenläufig gepolt sind.
Ein geeigneteres Vorgehen zur Validierung besteht daher darin zu überprüfen, ob
sich in dieser Skala die Gruppen der stabilen Patienten (Reliabilitätskohorte) von
der Gruppe der dekompensierten Patienten (Änderungssensitivitätskohorte) zum
Zeitpunkt T2 unterscheiden. Der Unterschied des mittleren KCCQ-Wertes beider
Stichproben (50.8 versus 56.9) ist statistisch nicht bedeutsam (t=-1; df=64;
p=0.31).
Ein weiterer Test dieser Skala besteht in einem Vergleich zwischen denjenigen aus
der Änderungssensitivitätskohorte, die eine Symptomverbesserung in der Skala
128
Symptome zeigen, und denjenigen, die gleich blieben oder sich verschlechterten.
Die nachfolgende Tabelle zeigt die Häufigkeitsverteilungen der Antworten der
Frage Symptomstabilität für diese Gruppen.
Tabelle 41: Kreuztabelle für die Gruppe der in der Symptomskala verbesserten versus
unveränderten oder verschlechterten Patienten und der Variable
Symptomstabilität.
Viel
schlechter
Ergebnis
der Skala
Symptome
Antwortalternativen der Skala Symptomstabilität
etwas
etwas
viel
unverändert
schlechter
besser
besser
gesamt
gleich oder
verschlechtert
3
3
3
2
0
11
verbessert
0
2
8
9
4
23
3
5
11
11
4
34
Gesamt
Es ist anhand der Tabelle 41 gut zu erkennen, dass sich die Verteilung der Frage
nach Symptomstabilität in Abhängigkeit von der Verbesserung auf der Symptomskala deutlich unterscheidet (Chi2 = 11; df= 4, p=0.026). Dennoch ordnen sich
streng genommen fast ein Drittel (12) aller Patienten auf dieser Skala falsch ein.
Körperliche Einschränkung
Die Skala Körperliche Einschränkung umfasst folgende Fragen:
Herzinsuffizienz wirkt sich auf verschiedene Menschen unterschiedlich aus. Manche spüren
Atemnot, während andere Ermüdung empfinden. Bitte geben Sie an, in welchem Ausmaß Herzinsuffizienz (Atemnot oder Ermüdung) während der zwei letzten Wochen Ihre Fähigkeit, folgende
Tätigkeiten auszuführen, beeinträchtigt hat.
KCCQ1a
KCCQ1b
KCCQ1c
KCCQ1d
KCCQ1e
KCCQ1f
Sich selbst ankleiden
Duschen /Baden
Ca. 100 –200 m auf ebener Strecke gehen
Garten oder Hausarbeit Einkaufstaschen tragen
Ohne Pause eine Treppe hoch steigen
Laufen oder joggen (z.B. wenn Sie den Bus erreichen wollen)
Die Skala Körperliche Einschränkung erfasst die Einschränkung in alltäglichen
Situationen, die für einen Herzinsuffizienten relevant sein könnten. Ähnlich versucht der SF-36 mit der Skala Körperliche Funktionsfähigkeit die Einschränkungen
der Mobilität einer Person genau zu erfassen. Die Korrelation zwischen diesen
beiden Skalen beträgt r=0.69*** (n=219). Die Korrelation mit der Standardisierten
Körperlichen Summenskala beträgt r=0.66 (n=198).
Selbstwirksamkeit
Die Fragen zur Selbstwirksamkeit beinhalten den Aspekt des Wissens zum
Selbstmanagement im Umgang mit den Symptomen (11) und der Prävention
weiterer Verschlechterung (12).
129
KCCQ10
KCCQ11
Herzinsuffizienz-Symptome können sich aus verschiedenen Gründen verschlechtern. Wie
sicher sind Sie, dass Sie wissen, was zu tun oder wer anzurufen ist, wenn sich Ihre Herzinsuffizienz verschlechtert?
Wie gut verstehen Sie, was Sie selbst tun können, um Ihre Herzinsuffizienz-Symptome nicht
zu verschlechtern (z.B. Gewichtskontrolle, weniger Salz in der Diät usw.)
Für die Konstruktvalidierung dieser Skala wurde die Skala Internalität des KKG
(Fragebogen zur Erhebung von Kontrollüberzeugungen zu Krankheit und Gesundheit) vorgesehen. Eine Person hat eine hohe internale Kontrollüberzeugung,
wenn der Wert auf dieser Skala eher niedrig ist. Die Korrelation beträgt r=-0.27**
(n=156), was zwar einen Zusammenhang andeutet, jedoch mit einem geringen
Anteil gemeinsamer Varianz.
Green et al. (2000) berichten, dass sie kein passendes Kriterium zur Konstruktvalidierung hätten und beanspruchen zunächst eine Augenscheinvalidität für diese
Fragen.
Ein indirekter Hinweis für die Validität der Selbstwirksamkeitsskala ist nach Green
et al. (2000) der Vergleich zwischen der Änderungssensitivitätskohorte und der
Reliabilitätskohorte. Zwischen den Stichproben gibt es zwar eine Mittelwertsdifferenz mit der richtigen Tendenz (M=74.2, SD=23 versus M=68.3, SD=24, die
aber nicht signifikant ist (t= 0.85, df= 65, p=0.4).
Lediglich der Vergleich von nur denjenigen Patienten der Änderungskohorte, die
sich in der Skala Symptome gebessert haben, wird bei uns ebenso wie bei Green
et al. (2000) signifikant (M=69.3 SD=19 versus M=77 SD=18, t= 2.13, df= 23,
p=0.044).
Soziale Einschränkung
Die Items zur sozialen Beeinträchtigung beziehen sich auf die Bereiche Hobbies
und Freizeitaktivitäten (15a), Intime Beziehungen (15b), Besuch bei Familienmitgliedern oder Freunden außerhalb der Wohnung (15c) und Arbeit / Hausarbeit
(15d):
In welchem Ausmaß beeinflusst Ihre Herzinsuffizienz Ihre Lebensweise?
Bitte geben Sie an, wie Ihre Herzinsuffizienz Ihre Teilnahme an folgenden Tätigkeiten während der letzten 2
Wochen beeinträchtigt haben könnte.
KCCQ15a Hobbies Freizeitaktivitäten
KCCQ15b Intime Beziehungen mit Menschen, die Sie lieben
Besuche bei Familien-mitgliedern oder Freunden außerhalb Ihrer Wohnung
KCCQ15c
KCCQ15d Arbeit / Hausarbeit
130
Die Skala des SF-36 Soziale Funktionsfähigkeit besteht aus zwei zueinander sehr
ähnlichen Items, die körperliche oder seelische Probleme im Kontakt zu anderen
erfragen. Die Korrelation zwischen den beiden Skalen beträgt r=0.59*** (n=217).
Die Korrelation weist einen hohen gemeinsamen Varianzanteil auf (35%), so dass
es wahrscheinlich erscheint, dass beide Skalen das gleiche Konstrukt erfassen.
Lebensqualität
Die Skala Lebensqualität umfasst folgende Fragen:
KCCQ12
KCCQ13
KCCQ14
In welchem Ausmaß hat Ihre Herzinsuffizienz während der letzten 2 Wochen Ihre Lebensfreude beeinträchtigt?
Wie würde Sie sich fühlen, wenn Sie den Rest Ihres Lebens in dem jetzigen Stadium von
Herzinsuffizienz verbringen müßten?
Wie oft waren Sie während der letzten 2 Wochen wegen Ihrer Herzinsuffizienz entmutigt oder
deprimiert?
Die drei Items zur Lebensqualität erfragen also, inwieweit die Herzinsuffizienz die
Lebensfreude (12) oder den Gefühlszustand (13) beeinträchtigen oder Entmutigung und Deprimiertheit (14) auslösen.
Hierzu am ähnlichsten verhalten sich die Skala Psychisches Wohlbefinden des SF36, die Skala Vitalität und als naheliegendes ähnliches Konstrukt die Depressionsskalen des PHQ und BDI. Die Skala Psychisches Wohlbefinden setzt sich aus fünf
Items zusammen, in denen verschiedene Gefühlsqualitäten der letzten vier Wochen erfragt werden: sehr nervös, so niedergeschlagen, dass Sie nichts aufheitern
konnte, ruhig und gelassen, entmutigt und traurig, glücklich. Auf ähnliche Weise
erfasst die Skala Vitalität mit drei Items die Merkmale voller Schwung, voller Energie, erschöpft und müde.
Die Korrelationen mit diesen Skalen betragen für die Skala Lebensqualität des
KCCQ: r=0.63** (Psychisches Wohlbefinden, n=222) und r=0.67** (Vitalität,
n=222).
Die Korrelation mit dem Depressionssummenwert aus dem PHQ beträgt r=-0.65***
(n=222), mit dem BDI r=-0.61*** (n=150).
Die Standardisierte Psychische Summenskala des SF-36 korreliert mit der Skala
Lebensqualität des KCCQ mit r=0.67** (n=197).
Das Gemeinsame an obigen Skalen ist, dass sie versuchen, Lebensqualität eher
durch negative Formulierungen zu erfassen, so dass hier in erster Linie das Konstrukt Depressivität erfasst werden könnte und durch seine geringe Ausprägung
auf die Lebensqualität geschlossen wird. Erfreulich sind daher die hohen Korrelationen mit den positiv formulierten Gefühlszuständen der Skalen des SF-36 (Psychi-
131
sches Wohlbefinden und teilweise die Skala Vitalität). Die durchweg hohen Korrelationen sprechen für die Erfassung einer gemeinsamen Lebensqualitätsdimension.
KCCQ Funktionaler Status
Der Funktionale Status des KCCQ ist eine Zusammenfassung der Skalen
Symptome und Körperliche Einschränkung. Vergleichbar wäre hierzu die
Summenskala des SF-36, die besonders die körperliche Dimension abbildet. Der
Zusammenhang der beiden Variablen beträgt r=0.71*** (n=198). Die hohe Korrelation spricht für die Erfassung des gemeinsamen Konstruktes. Da der SF-36 einen
großen Schwerpunkt auf die körperliche Funktionalität legt, gelingt es hier vermutlich bei den Herzinsuffizienten Patienten, einen hohen Anteil an gemeinsamer
Varianz zu erfassen.
KCCQ Klinische Zusammenfassung
Die Skala Klinische Zusammenfassung ist der Summenwert aller Skalen des
KCCQ, mit Ausnahme der beiden Skalen Symptomstabilität und Selbstwirksamkeit.
Der Zusammenhang mit der Körperlichen Summenskala des SF-36 beträgt
r=0.67*** (n=198) und mit der Psychischen Summenskala r=0.59*** (n=198).
Die Korrelation mit dem PHQ-Summenwert der Depressionsskala beträgt r=0.65***
(N=223).
Die Skala Klinische Zusammenfassung stellt eine speziell für Herzinsuffiziente
relevante Zusammenfassung ihrer krankheitsbezogenen Lebensqualität dar. Da
bei Herzinsuffizienten in erster Linie ihre allgemeine körperliche Leistungsfähigkeit
eingeschränkt ist, bestätigt die hohe Korrelation mit der Körperlichen Summenskala des SF-36 die Erfassung dieses Konstruktes. Plausibel erscheint auch die
etwas niedrigere Korrelation mit der Psychischen Summenskala des SF36. Die
hohe Korrelation mit der Depressionsskala erscheint als gegenläufiges Konstrukt
zur Lebensqualität verständlich, darüber hinaus erscheint es durch den hohen
Anteil von depressiven Patienten plausibel.
4.9 Diskriminative Validität (known groups validity)
Zur psychometrischen Prüfung des KCCQ wurde auch die Möglichkeit genutzt,
klinisch unterschiedliche Gruppen, das heißt Patientengruppen mit unterschiedli-
132
chem Schwergrad der Erkrankung (NYHA-Klassen), hinsichtlich ihrer Lebensqualität zu vergleichen. Im Idealfall sollten sich die Gruppen der verschiedenen
NYHA-Klassen signifikant unterscheiden.
Die nachfolgenden Tabellen geben die Mittelwerte und Standardabweichungen für
die Skalen des KCCQ (s. Tabelle 42) und des SF-36 (s.Tabelle 44) wieder. Ob sich
die Mittelwerte zur nächst höheren NYHA-Klasse signifikant unterscheiden, ist für
den KCCQ der Tabelle 43 und für den SF-36 der Tabelle 45 zu entnehmen.
Tabelle 42: Die Skalen des KCCQ in Abhängigkeit von der NYHA-Klasse.
p=0.55
p<0.001
NYHA I
n=38
M
SD
55
12
91
11
NYHA II
n=91
M
SD
54
19
75
21
NYHA III
n=81
M
SD
50
23
59
23
NYHA IV
n=23
M
SD
50
31
39
21
F(3, 130)=24.5
p<0.001
84
67
57
38
F(3, 133)=23.4
p<0.001
75
22
63
24
54
27
23
24
F(3, 145)=20.8
F(3, 102)=1.3
F(3, 150)=46.9
p<0.001
p=0.27
p<0.001
72
75
87
24
20
12
62
73
71
23
23
18
47
67
58
23
22
21
30
71
39
22
28
17
F(3, 153)=42.8
p<0.001
80
15
67
18
54
20
33
17
Skalen des KCCQ
asymptotisch Fverteilt
Symptomstabilität
Symptome
Körperliche
Einschränkung
Soziale Einschränkung
Lebensqualität
Selbstwirksamkeit
Funktionaler Status
Klinische
Zusammenfassung
F(3, 65)=0.70
F(3, 125)=45.8
p
18
21
24
23
Anmerkung: Wegen Varianzinhomogenität wurden für die einfaktorielle Anova die asymptotisch F-verteilte Brown-ForsytheStatistik verwendet.
Die Mittelwerte der Skalen Symptomstabilität und Selbstwirksamkeit unterscheiden
sich nicht bedeutsam. Für beide Skalen ist dieses Ergebnis durchaus plausibel.
Die Selbstwirksamkeit sowie die Stabilität der Symptome kann unabhängig von der
NYHA-Klasse sein.
Die übrigen signifikanten Mittelwertsunterschiede sind in der nachfolgenden
Abbildung grafisch veranschaulicht.
133
NYHA-Klasse
I
II
0
III
Lebensqualität KCCQ
IV
20
40
60
80
100
Symptomskala
Körperliche Einschränkung
Soziale Einschränkung
Selbstwirksamkeit
Lebensqualität
Funktionaler Status
Klinischer Summenwert
Abbildung 13: KCCQ-Skalen in Abhängigkeit von der NYHA-Klasse.
Alle Skalen, für die die diskriminative Validität von Bedeutung ist, weisen signifikante Mittelwertsunterschiede auf. Auch die Einzelvergleiche (s. Tabelle 43)
zwischen den NYHA-Klassen sind bei den Skalen, für die man eine besonders
hohe Abhängigkeit von der NYHA-Klasse fordern kann, nämlich Symptome und
Körperliche Einschränkung, hoch signifikant. Für die Skala Lebensqualität und
Soziale Einschränkung, für welche ein Zusammenhang mit der NYHA-Klasse
plausibel, aber nicht zwingend ist, sind nicht alle Einzelvergleiche signifikant. Die
Lebensqualität scheint somit zwischen der NYHA-Klasse I und II nicht ausreichend
zu trennen, was inhaltlich nachvollziehbar erscheint, da die leichteren körperlichen
Einschränkungen eher noch akzeptiert werden könnten. Ähnliches könnte man für
die Skala Soziale Einschränkung, die nicht zwischen der NYHA-Klasse II und III
unterscheidet, vermuten.
Der geringere Effekt auf diesen beiden Skalen ließe sich ferner dadurch erklären,
dass gerade diese Skalen durch mehrere andere Faktoren als die Krankheitsschwere (abgebildet als NYHA-Klasse) wie z.B. Krankheitsverarbeitungsfaktoren
134
beeinflusst werden. Insgesamt betrachtet weist der KCCQ plausible und ausreichende diskriminative Validität auf.
Tabelle 43: Kontrasteffekt der einfaktoriellen Varianzanalyse und Einzelvergleiche mit der
unabhängigen Variable NYHA-Klasse und den Skalen des KCCQ als abhängige
Variablen.
Kontrasteffekt NYHAKlasse
Einzelvergleiche (Tamhane) zwischen den
NYHA-Klassen
Skalen des KCCQ
I – II
II – III
III – IV
n.s.
n.s.
n.s
n.s.
Symptome
p<0.01
p<0.01
p<0.01
p<0.01
Körperliche Einschränkung
p<0.01
p<0.01
p<0.05
p<0.01
Soziale Einschränkung
p<0.01
p<0.05
n.s.
p<0.01
Lebensqualität
p<0.01
n.s.
p<0.01
p<0.05
n.s.
n.s.
n.s.
n.s.
Funktionaler Status
p<0.01
p<0.01
p<0.01
p<0.01
Klinische
sung
p<0.01
p<0.01
p<0.01
p<0.01
Symptomstabilität
Selbstwirksamkeit
Zusammenfas-
Anmerkung: Wegen Varianzinhomogenität wurden für die einfaktorielle Anova die asymptotisch F-verteilte Brown-ForsytheStatistik verwendet und für die Einzelvergleiche Tamhane-Einzelvergleiche
Auch der SF-36 weist eine gute diskriminative Validität in Bezug auf die NYHAKlasse auf. Die nachfolgende Tabelle 44 verdeutlicht, dass sich alle Skalen des
SF-36 signifikant unterscheiden.
Tabelle 44: Die Skalen des SF-36 in Abhängigkeit von der NYHA-Klasse.
Skalen des SF-36
Gesundheitsveränderung
Körperliche Funktionsfähigkeit
Körperliche Rollenfunktion*
Körperliche Schmerzen
Allg. Gesundheitswahrnehmung
Vitalität
Soziale Funktionsfähigkeit
Emotionale Rollenfunktion
Psychisches Wohlbefinden
Körperl. Stand Summenskala
Psych. Stand Summenskala
asymptotisch
F-verteilt
F(3, 136)=7.7
F(3, 202)=46.7
F(3, 97)=7.88
F(3, 139)=17,4
F(3, 172)=24.6
F(3, 123)=13.7
F(3, 155)=8.4
F(3, 128)=6.1
F(3, 146)=37.2
F(3, 117)=5.1
p
p<0.001
p<0.001
p<0.001
p<0.001
p<0.001
p<0.001
p<0.001
p=0.001
p<0.001
p=0.002
NYHA = I
n=38
M
SD
NYHA = II
n=89
M
SD
NYHA = III
n=78
M
SD
NYHA = IV
n=23
M
SD
2.9
73
61
79
55
59
78
71
68
46
47
3,4
53
31
65
46
46
75
50
63
38
46
3.7
37
17
53
37
37
60
38
57
31
42
4.2
16
0
51
29
22
43
17
49
27
36
1,2
20
44
23
17
20
23
42
20
9
13
1.0
25
40
28
16
20
22
47
19
9
10
1.1
25
32
30
15
20
30
45
19
8
11
1.0
12
0
36
14
13
28
37
20
6
10
Anmerkung: Wegen Varianzinhomogenität wurden für die einfaktorielle Anova die asymptotisch F-verteilte Brown-ForsytheStatistik verwendet.
*Für die Skala Körperliche Rollenfunktion konnte der Signifikanztest wegen einer Gruppe mit der Varianz=0 nicht durchgeführt werden.
Der auffällige Wert von 0 für alle NYHA-Klasse-IV Patienten in der Skala Körperliche Rollenfunktion des SF-36 kommt dadurch zustande, dass der SF-36 hier aus
vier Fragen besteht, die nur zwei Antwortoptionen haben. Da alle Patienten so
135
eingeschränkt sind, dass sie alle diese Fragen gleichsinnig beantworteten, entstanden die beiden Nullen für Mittelwert und Standardabweichung. Die Mittelwertsunterschiede zwischen den NYHA-Klassen sind der Übersichtlichkeit wegen
noch einmal in der folgenden Abbildung 14 zusammengefasst.
I
III
NYHA-Klasse
0
II
IV
Lebensqualität SF-36
20
40
60
80
100
Körperliche
Funktionsfähigkeit
Körperliche Rollenfunktion
Körperliche Schmerzen
Allgemeine
Gesundheitswahrnehmung
Vitalität
Soziale Funktionsfähigkeit
Emotionale Rollenfunktion
Psychisches Wohlbefinden
Körperl. Stand
Summenskala
Psych. Stand Summenskala
Abbildung 14: SF-36-Skalen in Abhängigkeit von der NYHA-Klasse
Auffallend ist, dass alle Skalen des SF-36 signifikante Mittelwertsunterschiede in
Abhängigkeit von der NYHA-Klasse aufweisen. Dies könnte an der Betonung der
Funktionalität liegen, die sich in vielen Skalen widerspiegelt. Jedoch sind die
Effekte zwischen den jeweiligen NYHA-Klassen teilweise auch geringer, so dass
nur die Skalen Körperliche Funktionsfähigkeit und Vitalität durchweg signifikante
Einzelvergleiche aufweisen (s. Tabelle 45). Gerade bei diesen Skalen könnte man
dies auch inhaltlich am ehesten erwarten.
Fast alle Skalen des KCCQ und des SF-36 verändern sich erwartungsgemäß in
Abhängigkeit von der NYHA-Klasse. Die Ausnahmen sind Skalen zur Symptomstabilität bzw. Gesundheitsveränderung (beide nicht in den Abbildungen). Die
136
Skalen zur Symptomstabilität (KCCQ) und Gesundheitsveränderung (SF-36)
bestehen beide je aus einer Frage. Jedoch nur die des SF-36 weist einen signifikanten Effekt auf. Die Werte der Skala Gesundheitsveränderung werden gewöhnlich nicht transformiert. Die Kategorie 3 bedeutet: „Etwa wie vor einem Jahr“ und 4
bedeutet: „Derzeit etwas schlechter“ (Die Skala reicht von 1: „Derzeit besser“ bis 5:
„Derzeit viel schlechter“). Eine Veränderung in Abhängigkeit von der NYHA-Klasse
könnte hier aufgrund eines Selektionseffektes erwartet werden. Dieser könnte bei
dem SF-36 größer ausfallen, da dieser nach einer Veränderung in Bezug auf das
letzte Jahr fragt, der KCCQ hingegen nach einer Veränderung in den letzten zwei
Wochen. In einem längeren Zeitraum ist es wahrscheinlicher, dass die Krankheit
vorangeschritten ist und eine höhere NYHA-Klasse erreicht wird. Daher ist verständlich, dass die Skala des SF-36 mit dieser Frage einen signifikanten Haupteffekt aufweisen kann und der KCCQ nicht.
Der SF-36 weist in allen Skalen einen signifikanten Kontrasteffekt auf (s. Tabelle
45), was bedeutet, dass eine zufällige Abhängigkeit in den Daten unwahrscheinlich
ist. In den Einzelvergleichen zeigt sich jedoch, dass der KCCQ mit seinen Skalen
zwischen den NYHA-Klassen besser zu trennen vermag. Hier sind die Differenzen
der Skalen Symptome, Körperliche Einschränkung und die Summenskalen in allen
Einzelvergleichen zwischen den NYHA-Klassen signifikant. Beim SF-36 trifft dies
nur für die Skalen Körperliche Funktionsfähigkeit und Vitalität zu.
137
Tabelle 45: Kontrasteffekt der einfaktoriellen Varianzanalyse und Einzelvergleiche mit der
unabhängigen Variable NYHA-Klasse und den Skalen des SF-36 als abhängige
Variablen.
Skalen des SF-36
Kontrasteffekt NYHAKlasse
Einzelvergleiche (Tamhane) zwischen
den NYHA-Klassen
Gesundheitsveränderung
p<0.01
I – II
n.s
II – III
n.s.
III – IV
n.s
Körperliche Funktionsfähigkeit
p<0.01
p<0.01
p<0.01
P<0.01
Körperliche Rollenfunktion
p<0.01
p<0.01
n.s.
P<0.01
Körperliche Schmerzen
p<0.01
p<0.05
p<0.05
n.s.
Allgemeine
p<0.01
n.s.
p<0.01.
n.s.
Vitalität
p<0.01
p<0.01
p<0.01
P<0.01
Soziale Funktionsfähigkeit
p<0.01
n.s.
p<0.01
n.s.
Emotionale Rollenfunktion
p<0.01
n.s.
n.s.
n.s.
Psychisches Wohlbefinden
p<0.01
n.s.
n.s.
n.s.
Körperl. Stand Summenskala
p<0.01
p<0.01
p<0.01
n.s.
Psych. Stand Summenskala
p<0.01
n.s.
n.s.
n.s.
Gesundheitswahr-
nehmung
Anmerkung: Wegen Varianzinhomogenität wurde für die einfaktorielle Anova die asymptotisch F-verteilte Brown-ForsytheStatistik verwendet und für die Einzelvergliche Tamhane-Einzelvergleiche
4.10 Vergleich der diskriminativen Validität (known groups validity) für auf Depression positiv versus negativ gescreente
Patienten
Die Zellengröße der ALM-Analyse mit den Faktoren NYHA-Klasse und
Depressionsscreening sowie die Verteilung der Geschlechter zeigt die folgende
Tabelle.
Tabelle 46: Zellenhäufigkeiten der ALM–Analyse NYHA-Klasse * Depressionsscreening
(Männer/Frauen).
Depressionsscreening
NYHA I
NYHA II
NYHA III
NYHA IV
positiv
8 (6/2)
20 (18/2)
27 (14/13)
15
(9/6)
negativ
30 (28/2)
71 (48/23)
54 (37/17)
8
(4/4)
38 (34/4)
91 (66/25)
81 (51/30)
23 (13/10)
Anmerkung: (Männer/Frauen)
An dieser Zellenverteilung ist zu erkennen, dass die beiden unabhängigen Variablen NYHA-Klasse und Depressionsscreening nicht stochastisch unabhängig
voneinander sind (Chi2=17.6; df=3; p<0.001). Zu vermuten ist hier, dass mit zuneh-
138
mender Herzinsuffizienz (NYHA) die Wahrscheinlichkeit steigt, depressiv zu werden – sofern nicht andere Gründe für diese Verteilung der Zellenhäufigkeiten in
Frage kommen.
Wegen der geringen Zellenbesetzung musste auf den Kontrollfaktor Geschlecht
verzichtet werden. Dieser selbst weist alleine einen schwachen, aber statistisch
bedeutsamen Haupteffekt in allen Skalen des KCCQ (außer der Symptomstabilität)
auf. Die Geschlechtszugehörigkeit ist nicht unabhängig von der NYHA-Klasse
verteilt (Chi2=10.9; df=3; p=0.01), jedoch ist sie unabhängig in Bezug auf das
Depressionsscreening (Chiquadrat= 0.79; df= 1; p=0.39). Daraus folgt, dass sich
eine Konfundierung durch die Variable Geschlecht (und deren Einfluss auf die
Skalen) am ehesten in Bezug auf den Haupteffekt der NYHA-Klasse bemerkbar
machen könnte. Da die Männer im Mittel über alle Skalen (außer Symptomstabilität) höhere Lebensqualitätswerte aufweisen, wäre zu befürchten, dass die
Lebensqualität der niedrigeren NYHA-Klassen überschätzt wird. Aufgrund der
Tabelle 46 lässt sich berechnen, welche Verteilung allein durch Konfundierung zu
erwarten sein würde. In der nachfolgenden Abbildung 15 wurde der Prozentsatz an
Männern mit dem durchschnittlich höheren Wert der Männer von ca. 8 Punkten
(des KCCQ) multipliziert, so dass im Vergleich zu den vorhandenen Effekten
derjenige einer möglichen Konfundierung eingeschätzt werden kann. Es ist gut zu
erkennen, dass die Größenordnung des Effektes durch eine Konfundierung sehr
gering ausfällt, sofern man die zu kleinen Zellenbesetzung als Grundlage der
Schätzung akzeptiert.
139
nicht depressiv
depressiv
100
KCCQ
80
60
40
20
7,5
6
5,4 7,2
5,4
4,1
4
4,8
0
NYHA I
NYHA II
NYHA III
NYHA IV
Abbildung 15: Möglicher Einfluss durch eine Konfundierung aufgrund ungleicher
Geschlechtsverteilungen innerhalb der Zellen des zweifaktoriellen Designs
NYHA-Klasse*Depressionsscreening.
Der Creatininwert ist in unserer Stichprobe bei den positiv auf Depression gescreenten signifikant höher. Um auszuschließen, dass dies ein Indikator sein
könnte, dass die Depressiven innerhalb der einzelnen NYHA-Klassen stärker
beeinträchtigt sind, wurde für den Creatininwerte eine Varianzanalyse (ALM)
durchgeführt. In Bezug auf die unabhängigen Variablen zeigten sich keine signifikanten Effekte: NYHA-Klasse (F=0.8, df=3, p=0.48), Depressionsscreening
(F=1.37, df=1, p=0.24), Interaktionseffekt (F=1.2, df=3, p=0.30). Auch als Kovariate
in Bezug auf die Lebensqualitätsskalen erreicht der Creatininwert keine Signifikanz. Andere Variablen wie Alter, Bildung etc. wurden nicht als Kovariablen hinzugezogen, da diese nicht in statistischer oder inhaltlicher Weise mit den hier untersuchten Variablen in Zusammenhang stehen. Die nachfolgende Tabelle 47 fasst
die Ergebnisse der ALM-Analyse für alle Skalen des KCCQ zusammen.
140
Tabelle 47: Haupteffekte der NYHA-Klasse und des Depessionsscreenings, deren
Interaktionseffekt und dessen Power für den vorliegenden Effekt für die Skalen
des KCCQ.
Skalen des KCCQ
Haupteffekt NYHAKlasse
Haupteffekt
Depressionsscreening
Interaktion
NYHA×
Depressionsscreening
Power für
den
Interaktionseffekt
Symptomstabilität
p=0.63
p=0.17
p=0.089.
0.55
Symptome
p<0.001
p<0.001
p<0.77
0.12
Körperliche Einschränkung
p<0.001
p=0.049
p<0.064
0.61
Soziale Einschränkung
p<0.001
p<0.001
p<0.071
0.59
Lebensqualität
p<0.001
p<0.001
p=0.005
0.86
Selbstwirksamkeit
p=0.30
p<0.001
p=0.185
0.42
Funktionaler Status
p<0.001
p<0.001
p=0.33
0.31
Klinische Zusammenfas-
p<0.001
p<0.001
p=0.34
0.30
sung
Der Tabelle 47 ist zu entnehmen, dass fast alle Skalen in den Haupteffekten
signifikant abhängig sind von dem Status der NYHA-Klasse und des Depressionsscreenings. Lediglich die Skala Symptomstabilität weist plausiblerweise keinen
dieser Effekte auf. Die Skala Selbstwirksamkeit weist keinen Haupteffekt der
NYHA-Klasse auf, jedoch einen des Faktors Depressionsscreening. Was den
Haupteffekt der NYHA-Klasse angeht, wurde dieser bereits hinsichtlich der
diskriminativen Validität interpretiert. Von besonderem Interesse ist es nun, zu
beobachten, ob die diskriminative Validität (d.h. der NYHA-Haupteffekt) für depressive und nicht depressive Herzinsuffiziente gilt. Dass alle Skalen einen
Depressionsscreeninghaupteffekt aufweisen, deutet darauf hin, dass die Depressivität die generelle Selbsteinschätzung beeinflusst. Ob dabei die diskriminative
Validität verloren geht, zeigt der Interaktionseffekt an. Die Interaktionseffekte sind
bis auf die Ausnahme der Skala Lebensqualität sehr gering und daher nicht
statistisch signifikant. Die Power ist für diese kleinen Interaktionseffekte entsprechend gering. Die Skalen Körperliche Einschränkung und Soziale Einschränkung
erreichen mit einer Power von ca. 0.60 fast die Signifikanzgrenze.
Die Inaugenscheinnahme der Haupt- und Interaktionseffekte mit der folgenden
Abbildung 16 offenbart den starken Einfluss, den eine depressive Störung auf die
Lebensqualität hat.
141
Symptome
Symptomstabilität
100
100
80
80
60
60
40
40
20
20
0
0
NYHA I
NYHA II
NYHA III
NYHA I
NYHA IV
Körperliche Einschränkung
NYHA III
NYHA IV
Soziale Einschränkung
100
100
80
80
60
60
40
40
20
20
0
NYHA II
0
NYHA I
NYHA II
NYHA III
NYHA IV
NYHA I
Selbstwirksamkeit
100
80
80
60
60
40
40
20
20
0
NYHA II
NYHA III
NYHA III
NYHA IV
Lebensqualität
100
NYHA I
NYHA II
NYHA IV
0
NYHA I
Funktionaler Status
NYHA II
NYHA III
NYHA IV
Klinische Zusammenfassung
100
100
80
80
60
60
40
40
20
20
0
0
NYHA I
NYHA II
NYHA III
NYHA IV
NYHA I
NYHA II
NYHA III
NYHA IV
Abbildung 16: KCCQ Skalen in Abhängigkeit von der NYHA-Klasse und dem Depressionsscreening. Weiße Balken = Depressionsscreening: negativ, schwarze Balken =
Depressionsscreening: positiv.
Mit Ausnahme der Symptomstabilität weisen alle Skalen des KCCQ einen Haupteffekt der Depression auf, sogar die Skalen Körperliche Einschränkung und
Symptome. Bei den Skalen Soziale Einschränkung und Lebensqualität liegt ein
142
ähnlicher Interaktionseffekt vor. Bei ihnen ist der Depressionseffekt in der NYHAKlasse I besonders stark und signifikant (s Tabelle 48). Der einzige signifikante
Interaktionseffekt der Skala Lebensqualität als Grafik (s. Abbildung 16) zeigt, dass
sich die positiv versus negativ Gescreenten am deutlichsten in den NYHA-Klassen
I, II und IV unterscheiden. Die Differenz in der vierten NYHA-Klasse wird allerdings
wegen der kleinen Zellenhäufigkeit als Einzelvergleich nicht signifikant. Die Skala
Soziale Einschränkung wie auch die Skala Selbstwirksamkeit weisen ihre größte
Mittelwertsdifferenz in der ersten NYHA-Klasse auf (s. Abbildung 16). Die Skala
Körperliche Einschränkungen hingegen weist in der ersten NYHA-Klasse keine
Differenz zwischen positiv und negativ gescreenten Depressiven auf, jedoch signifikante Differenzen in den Klassen zwei und drei.
Bei der Betrachtungen der Abbildung 16 zeichnet sich ein Trend ab, wonach die
Differenzen zwischen den positiv versus negativ gescreenten Patienten in den
unteren NYHA-Klassen, insbesondere der ersten, am deutlichsten ausfallen.
Dieser Trend ist deutlich anhand der Skala Klinische Zusammenfassung zu erkennen, wo sich dieser Effekt summiert. Dies könnte man inhaltlich so interpretieren,
dass die Wahrnehmung objektiv eher geringer Symptombeschwerden subjektiv
stärkeren Verzerrungen unterliegt. Darüber hinaus könnte dies auch durch einen
Bodeneffekt bedingt sein, da weniger belastete Herzinsuffiziente mehrere Möglichkeiten haben, sich schlechter einzuschätzen, als diejenigen, die die Skala schon
ausgeschöpft haben.
Die Tabelle 48 zeigt die Haupt- und Interaktionseffekte zwischen dem
Depressionsscreening und der NYHA-Klasse in Form von Einzelvergleichen.
Hierbei lässt sich unschwer eine Abhängigkeit der Signifikanz von der Fallzahl der
jeweiligen Zellen, insbesondere der NYHA-Klasse IV, erkennen.
143
Tabelle 48: Einzelvergleiche zwischen positiv und negativ depressionsgescreenten Patienten innerhalb der NYHA-Klassen für die Skalen des KCCQ.
KCCQ-Skalen
Depressionsscreening
NYHA I
positiv (n=8)
versus
negativ (n=30)
NYHA II
positiv (n=20)
versus
negativ (n=71)
NYHA III
positiv (n=27)
versus
negativ (n=54)
NYHA IV
positiv (n=15)
versus
negativ (n=8)
Symptomstabilität
p=0.57
p=0.90
p=0.79
p=0.078
Symptome
p<0.001
p<0.001
p=0.014
p=0.11
Körperliche Einschränkung
p=0.96
p=0.002
p<0.001
p=0.65
Soziale Einschränkung
p<0.001
p=0.06
p=0.075
p=0.89
Lebensqualität
p<0.001
p<0.001
p=0.061
p=0.13
Selbstwirksamkeit
p=0.013
p=0.15
p=0.039
p=0.052
Funktionaler Status
p=0.18
p<0.001
p<0.002
p=0.52
Klinische Zusammenfassung
p<0.001
p<0.001
p=0.005
p=0.23
Für die Bewertung der Ergebnisse des KCCQ hinsichtlich des Haupteffektes
Depressionsscreening und des Interaktionseffektes ist es von Interesse, auch den
SF-36 dahingehend zu analysieren, ob eine komorbide Störung einen Einfluss auf
das Messergebnis hat. Für den SF-36 wäre gerade ein Haupteffekt für das
Depressionsscreening, neben dem Haupteffekt der NYHA-Klasse, sehr wünschenswert. Ein Interaktionseffekt würde bedeuten, dass die lebensqualitätseinschränkende Wirkung einer Depression für die NYHA-Klassen in den jeweiligen
Skalen unterschiedlich ausfallen.
Die Tabelle 49 und Tabelle 50 geben das Ergebnis der ALM-Analyse für den SF36 wieder. Hier zeigt sich ein sehr erwartungskonformes Bild: alle Skalen, bis auf
Psychisches Wohlbefinden sowie die Psychische Summenskala, weisen signifikante Haupteffekte der NYHA-Klasse auf. Der Haupteffekt des Depressionsscreenings zeichnet sich in allen Skalen ab. Interaktionseffekte treten bei den Skalen
Körperliche Rollenfunktion, Soziale Funktionsfähigkeit und Psychische Summenskala auf.
144
Tabelle 49: Haupteffekte der NYHA-Klasse und des Depessionsscreenings, deren
Interaktionseffekt und dessen Power für den vorliegenden Effekt für die Skalen
des SF-36.
Skalen des SF-36
Haupteffekt
NYHA-Klasse
Haupteffekt
Depressionsscreening
Interaktion
NYHA×
Depressionsscreening
Power für den
Interaktionseffekt
Gesundheitsveränderung
p=0.049
p<0.001
p<0.19
0.41
Körperliche Funktionsfähigkeit
p<0.001
p<0.004
p<0.68
0.15
Körperliche Rollenfunktion
p<0.001
p<0.001
p=0.011
0.81
Körperliche Schmerzen
p<0.001
p<0.001
p=0.41
0.26
Allg.Gesundheitswahrnehmung
p<0.001
p<0.001
p=0.07
0.58
Vitalität
p<0.001
p<0.001
p=0.07
0.58
Soziale Funktionsfähigkeit
p<0.001
p<0.001
p=0.03
0.70
Emotionale Rollenfunktion
p=0.048
p<0.001
p=0.06
0.61
Psychisches Wohlbefinden
p=0.14 .
p<0.001
p=0.13
0.49
Körperl. Stand Summenskala
p<0.001
p=0.043
p=0.61
0.17
Psych. Stand Summenskala
p=0.17.
p<0.001
p=0.007
0.85
Betrachtet man diese Interaktionseffekte grafisch, so fällt auch hier wieder auf,
dass die Differenz zwischen positiv und negativ gescreenten Depressiven in der
ersten NYHA-Klasse am deutlichsten ausfällt (s. Abbildung 17).
145
Körperliche Funktionsfähigkeit
Körperliche Rollenfunktion
100
100
80
80
60
60
40
40
20
20
0
0
NYHA I
NYHA II
NYHA III
NYHA I
NYHA IV
NYHA II
NYHA III
NYHA IV
Körperliche Schmerzen
Allgemeine Gesundheitswahrnehmung
100
100
80
80
60
60
40
40
20
20
0
0
NYHA I
NYHA II
NYHA III
NYHA I
NYHA IV
Soziale Funktionsfähigkeit
100
80
80
60
60
40
40
20
20
NYHA I
NYHA II
NYHA III
NYHA IV
NYHA I
100
80
80
60
60
40
40
20
20
NYHA II
NYHA III
NYHA IV
NYHA II
NYHA III
NYHA IV
Emotionale Rollenfunktion
100
NYHA I
NYHA IV
0
Psychisches Wohlbefinden
0
NYHA III
Vitalität
100
0
NYHA II
0
NYHA I
NYHA II
NYHA III
NYHA IV
Körperliche Summenskala
Psychische Summenskala
100
100
80
80
60
60
40
40
20
20
0
0
NYHA I
NYHA II
NYHA III
NYHA IV
NYHA I
NYHA II
NYHA III
NYHA IV
Abbildung 17: SF-36-Skalen in Abhängigkeit von der NYHA-Klasse und dem Depressionsscreening. Weiße Balken = Depressionsscreening: negativ, schwarze Balken =
Depressionsscreening: positiv.
146
In der Skala Rollenfunktion ist die Differenz zwischen positiv und negativ Gescreenten in der ersten NYHA-Klasse am größten. In der NYHA-Klasse IV liegt ein
deutlicher Bodeneffekt vor. Hier hatten alle Herzinsuffizienten der vierten NYHAKlasse den Tiefstwert von null Punkten erreicht. Diese Skala scheint also hinsichtlich Herzinsuffizienz und Depressivität besonders sensitiv zu sein. Der Interaktionseffekt könnte darauf beruhen, dass in den unteren NYHA-Klassen (I und II) sich die
Beeinträchtigung hinsichtlich der Rollenfunktion eher gering auswirkt, und daher
der Effekt einer depressiven Störung hier noch erfasst werden kann. Dies gilt
jedoch nicht mehr in den NYHA-Klassen III und IV.
Tabelle 50: Einzelvergleich zwischen positiv und negativ depressionsgescreenten Patienten
innerhalb der NYHA-Klassen für die Skalen des SF-36.
Skalen des SF-36
Depressionsscreening:
NYHA I
Positiv versus
negativ
NYHA II
Positiv versus
negativ
NYHA III
Positiv versus
negativ
NYHA IV
Positiv versus
negativ
Gesundheitsveränderung
p=0.059
p=0.097
p=0.61
p=0.012
Körperliche Funktionsfähigkeit
p=0.22
p=0.005
p=0.029
p=0.41
Körperliche Rollenfunktion
p=0.003
p<0.001
p=0.48
-*
Körperliche Schmerzen
p=0.074
p=0.049
p<0.001
p=0.74
Allg. Gesundheitswahrnehmung
p<0.001
p=0.14
p=0.022
p=0.35
Vitalität
p<0.001
p<0.001
p<0.001
p=0.18
Soziale Funktionsfähigkeit
p<0.001
p=0.13
p=0.003
p=0.11
Emotionale Rollenfunktion
p<0.001
p=0.003
p=0.11
p=0.76
Psychisches Wohlbefinden
p<0.001
p<0.001
p<0.001
p=0.35
Körperl. Stand. Summenskala
Psych. Stand. Summenskala
p=0.40
p=0.07
p=0.007
p=0.88
p<0.001
p=0.004
p<0.001
p=0.046
*Für die Skala Körperliche Rollenfunktion konnte der Signifikanztest wegen einer Gruppe mit der Varianz=0 nicht durchgeführt werden.
Der allgemeine Trend, dass die Differenzen zwischen den positiv und negativ
gescreenten Patienten in den unteren NYHA-Klassen deutlicher ausfallen und
dadurch die Interaktionseffekte wahrscheinlicher machen, könnte ein Skalierungsproblem darstellen. Am deutlichsten wird dies in der SF-36-Skala Körperliche
Rollenfunktion, wo aufgrund eines Deckeneffektes der potentielle Effekt des
Depressionsscreenings in der NYHA-Klasse IV gar nicht mehr erfasst werden
konnte. Bei den anderen Skalen könnte es ähnlich sein. Dies entspräche einer
mangelnden sensitiveness der Skalen im Sinne von Testa und Simonson (1996),
147
die die Änderungssensitivität hinsichtlich responsiveness und sensitiveness unterscheiden. Letzteres stellt ein Defizit der Skalierung dar, bestimmte Veränderungen
(oder hier Differenzen) aufgrund eines Bodeneffektes zu erfassen.
4.11 Detailanalyse des Zusammenhanges zwischen Einzelfragen
und Depressionsscreening
Für den theoretischen Zusammenhang zwischen Depression und Lebensqualität
und für die Beurteilung praxisrelevanter Schlussfolgerungen für das Verhältnis
zwischen KCCQ und den zusätzlichen Einsatz von Depressionsscreening-Instrumenten ist es von Interesse, die Einzelkorrelationen zwischen allen Fragen und
dem Ergebnis des Depressionsscreenings zu kennen.
Tabelle 51: Punktbiseriale Korrelationen zwischen den Fragen des KCCQ und dem
Depressionsscreening-Ergebnis sowie Korrelationen der Fragen mit der Schwere
des PHQ-Depressionsscreening-Scores.
Subskalen
Symptomstabilität
Symptomhäufigkeit
Symptome
Symptomschwere
Körperliche Einschränkung
Soziale Einschränkung
DepressionsSchwerescore
-.06
-.24**
-.20**
-.15*
-.45**
-.44**
-.29**
-.14*
-.39**
.33**
-.11
KCCQ10
KCCQ11
KCCQ3
KCCQ5
KCCQ7
KCCQ9
KCCQ4
KCCQ6
KCCQ8
KCCQ1a
KCCQ1b
KCCQ1c
KCCQ1d
KCCQ1e
KCCQ1f
KCCQ12
KCCQ13
KCCQ14
KCCQ15a
KCCQ15b
KCCQ15c
KCCQ15d
-.32**
-.25**
-.27**
-.25**
-.29**
.22**
-.39**
-.32**
-.46**
-.30**
-.23**
-.33**
-.34**
-.41*
-.36**
-.37**
-.36**
-.39**
-.22**
-.59**
-.51**
-.66**
-.47**
-.39**
-.52**
-.49**
KCCQ2
Selbstwirksamkeit
Lebensqualität
DepressionsScreening
Items
-.20**
-.17*
-.25**
-.58**
-.58**
-.39**
-.31**
-.60**
-.54**
148
Die Korrelationen zwischen dem Depressionsschwerescore und den Fragen des
KCCQ fallen alle durchweg höher aus als die punktbiseriale Korrelation mit dem
DepressionsScreening-Ergebnis (positiv versus negativ).
Die höchsten Korrelationen (fettgedruckt) weisen die Fragen der Skala Lebensqualität (KCCQ12-14) sowie die Fragen der Symptomskala (KCCQ5, 6, 7) auf. Die
Fragen KCCQ5 und KCCQ6 erfragen Ermüdung und die Frage KCCQ7 die
Häufigkeit von Atemnot.
In Abbildung 1 auf (S.53) wurden bereits in der theoretischen Diskussion der
Konstrukte Depression und Lebensqualität die ähnlichsten Fragen einander gegenübergestellt. Diese waren die Items 5, 6, 9, 13, 14 und 15 (kursiv in Tabelle
52). Erkennbar an der obigen Tabelle ist nun gut, dass diese zwar über tendenziell
höhere Korrelationen mit der Diagnose Depressionverfügen, die anderen Items
aber ebenfalls deutliche Korrelationen aufweisen. So weist die Frage KCCQ7
(Atemnot) die zweithöchste Korrelation mit r=0.44 auf. Dies entspricht der theoretischen Auffassung, dass eine Depression das gesamte Beurteilungsvermögen
umfasst und die Korrelation nicht auf ein Ähnlichkeitsartefakt von Items zu reduzieren ist.
Entscheidend für praktische Schlussfolgerungen wäre die Frage, ob sich mit dem
KCCQ eine depressive Störung vorhersagen lassen könnte.
In einer linearen Regressionsgleichung mit dem Kriterium des PHQ-Schwerescores mit der Methode „schrittweise“ (nur signifikante Prädiktoren mit p<0.05 werden
in die Gleichung aufgenommen und solche mit p>0.10 ausgeschlossen) ergeben
sich zwei Modellvarianten der Vorhersage. Das Modell 2 enthält lediglich die Variablen KCCQ14 und KCCQ6 und erreicht nur ein multiples korrigiertes R-Quadrat
von .46. Ohne die Frage KCCQ6 (nur KCCQ14) ergibt sich ein multiples korrigiertes R-Quadrat von .39.
149
Tabelle 52: Regressionsanalyse, Vorhersage des Depressionsschwerescore PHQ, Methode
„schrittweise“.
Modell
R2
1
.389
2
.461
Prädiktoren
Standardisiertes Beta
KCCQ14
-.62
Quadratsumme
Regression
Mittel der
Quadrate
df
983.73
1
983.73
Residuen
1546.88
116
13.34
Gesamt
2530.61
117
KCCQ14
-.47
Regression
1166.97
2
583.48
KCCQ6
-.31
Residuen
1363.64
115
11.86
Gesamt
2530.61
117
F
p
73.77
p<.0001
49.21
p<.0001
Für das Kriterium des Depressionsscreening verschlechtert sich das multiple
korrigierte R-Quadrat auf .17. Mit einer Modellvariante aus den Fragen KCCQ5, 10
und 14 kann die Varianzaufklärung nur unwesentlich auf .23 erhöht werden.
Tabelle 53: Regressionsanalyse, Vorhersage des Depressionsscreening PHQ, Methode
„schrittweise“.
Modell
R2
Prädiktoren
Standardisiertes Beta
Quadratsumme
Regression
1
.17
KCCQ14
KCCQ14
2
.23
KCCQ10
KCCQ14
3
.25
-.42
Mittel der
Quadrate
df
4.37
1
4.37
Residuen
20.92
119
.18
Gesamt
25.29
120
-.39
Regression
5.72
2
2.86
-.23
Residuen
19.57
118
.17
Gesamt
25.29
120
-.28
Regression
6.42
3
2.14
KCCQ10
-.21
Residuen
18.87
117
.16
KCCQ5
-.20
Gesamt
25.29
120
F
p
24.87
p<.0001
17.24
p<.0001
13.27
p<.0001
Zwar muss hier in Rechnung gestellt werden, dass auch unser Depressionsscreening nur ein Screening ist und keine validierte Diagnose, dennoch erscheint
die geringe Varianzaufklärung der eigentlich als Screening-Item gedachten Frage
14 als unzureichend, so dass ein Depressionsscreening durch den KCCQ nicht
ersetzt werden kann.
Die Abbildung 18 zeigt den Verlauf von Sensitivität und 1-Spezifität für die Frage
14 in Bezug auf das Ergebnis des Depressionsscreening im Vergleich zu den
alternativen Screeningverfahren PHQ und BDI.
Die Sensitivität der Frage 14 im Verhältnis zu ihrer Spezifität zeigt folgenden Verlauf: Wenn man bei der Frage 14 einen Cutoff-Wert so wählt, dass nur die Kate-
150
gorien „selten“ und „niemals“ ausgeschlossen werden, beträgt die Sensitivität 0.87
und die Spezifität 0.61. Wählt man die Grenze noch höher, so beträgt die Sensitivität .97, aber die Spezifität nur noch 0.33. Reduziert man den Cut-off-Wert nur auf
die Kategorien „ständig“ und „die meiste Zeit“ entmutigt und deprimiert, so sinkt die
Sensitivität auf .42, aber die Spezifität steigt auf .94.
Nutzt man hingegen den BDI mit einem Cut-off-Wert von >9, so beträgt in unserer
Stichprobe die Sensitivität 0.87 und die Spezifität 0.70.
Verwendet man hingegen den PHQ-Score mit einem Cut-off-Wert von >8, so beträgt in unserer Stichprobe die Sensitivität 0.92 und die Spezifität .87. Diese letzten
Werte sind deutlich besser als der BDI und das KCCQ-Item, jedoch muss hierbei
berücksichtigt werden, dass das Kriterium schon auf dem PHQ, wenn auch auf
Basis eines anderen Auswertungsalgorithmus, beruht.
1,0
,8
,5
Sensitivität
KCCQ 14
,3
PHQ Summenscore
0,0
0,0
BDI Summenscore
,3
,5
,8
1,0
1 - Spezifität
BDI
PHQ
KCCQ14
Fläche
Standardfehler
.85
.95
.81
.032
.018
.037
Asympt.
Sign.
<0.001
<0.001
<0.001
Untergrenze
95%-CI
.79
.91
.74
Obergrenze
95%-CI
92.
.98
.88
Abbildung 18: Receiver Operating Characteristic (ROC)-Kurve für die Variablen Frage 14
(umgepolt), PHQ Summenscore und BDI Summenscore in Bezug auf das Kriterium Depessionsscreening positiv (für n= 48 depressive und n= 99 nicht de-
151
pressive)
4.12 Faktorielle Validität
Die Faktorielle Validität gibt Auskunft darüber, ob die Items der konstruierten
Skalen innerhalb der Skala eine ähnliche Dimensionalität aufweisen und inwieweit
die verschiedenen Skalen empirisch unabhängigen Dimensionen entsprechen.
Der unten folgende Screeplot zeigt den Verlauf der Eigenwerte der extrahierten
Hauptkomponenten. Der Eigenwert eines extrahierten Faktors gibt die Summe der
quadrierten Ladungen der Items auf diesen Faktoren wieder (gemeinsame Varianz
des Faktors mit den Items). Theoretisch beginnt eine Hauptkomponentenanalyse
mit so vielen Faktoren wie Items in der Analyse sind. Dadurch, dass sich einige
Items sehr ähnlich sind, lassen sich die Dimensionen/Faktoren reduzieren. Eine
Dimension muss daher mindestens eine höhere Varianz aufweisen, als ein Item
bereits hat. Dies bedeutet, dass der Eigenwert eines Faktors größer eins sein
sollte (Guttman-Kaiser-Kriterium). Aber Faktoren mit Eigenwerten zwischen eins
und zwei treten auch bei der Analyse von Zufallsdaten auf, so dass entweder eine
Simulationsstudie Aufschluss über die Zufallsgrenze des Eigenwertes geben kann
oder eine einfache Inaugenscheinnahme des Screeplotverlaufs.
1
0
9
8
7
6
5
4
3
2
1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Faktoren
152
Abbildung 19: Screeplot: Auf der Y-Achse sind die Eigenwerte und auf der X-Achse die
extrahierten Faktoren zu sehen.
An dem Screeplot erkennt man, wie stark der Erklärungswert einer zusätzlichen
Dimension abnimmt. Zwischen dem vierten und dem fünften Faktor ist die Abnahme deutlich höher als zwischen den Faktoren 2, 3 und 4. Obgleich der fünfte
Faktor noch formal mit 1,07 das Eigenwertkriterium erfüllt, erscheint er aufgrund
des Screeplots für die Darstellung der Dimensionen der Items vernachlässigbar.
Aus diesem Grunde wird im Folgenden die Hauptkomponentenanalyse auf die
Extraktion von vier Faktoren beschränkt. Die kumulierte erklärte Varianz beträgt
dann 67%. Die Extraktion eines fünften Faktors hätte lediglich eine zusätzliche
Varianzaufklärung von 4,8% erbracht.
Tabelle 54: Ergebnis der Hauptkomponentenanalyse: Eigenwerte (Spalte Gesamt), Anteile
erklärter Varianz sowie diese Werte nach der Varimaxrotation.
Komponente
Rotierte Summe der
quadrierten Ladungen
Anfängliche Eigenwerte
Gesamt
% der Varianz
Kumulierte %
1
9.60
43.65
43.65
2
1.92
8.71
52.36
3
1.71
7.79
60.15
4
1.47
6.66
66.81
5
1.07
4.87
71.68
6
.90
4.09
75.77
7
.67
3.06
78.83
8
.60
2.73
81.56
9
.50
2.25
83.81
10
.47
2.15
85.97
11
.41
1.86
87.83
12
.38
1.71
89.54
13
.33
1.52
91.06
14
.30
1.36
92.42
15
.29
1.30
93.72
16
.28
1.27
95.00
17
.24
1.08
96.07
18
.23
1.03
97.10
19
.21
.95
98.05
20
.17
.78
98.83
21
.16
.71
99.54
22
.10
.46
100.00
Extraktionsmethode: Hauptkomponentenanalyse.
Gesamt
6.28
3.72
3.05
1.65
% der Varianz
28.54
16.90
13.87
7.50
Kumulierte %
28.54
45.44
59.32
66.81
Die extrahierten vier Faktoren werden nach der Variamaxmethode rotiert und
ergeben ein neues Ladungsmuster auf den Faktoren, welches nach dem Kriterium
der minimalen Anzahl maximaler Ladung pro Faktor (Varimax) ausgerichtet ist.
153
Tabelle 55: Ergebnis der Hauptkomponentenanalyse: Rotierte Komponentenmatrix mit vier
Faktoren. Die jeweils höchste Ladung eines Items auf einem Faktor ist fett gedruckt.
Soziale
Einschränkung
Lebensqualität
Selbst
wirksamkeit
Symptome
Körperliche Einschränkung
Faktoren
1
2
3
4
KCCQ1a
.05
.74
.37
.15
KCCQ1b
.04
.77
.26
.18
KCCQ1c
.35
.72
.14
.03
KCCQ1d
.43
.73
.07
-.07
KCCQ1e
.49
.69
.06
-.04
KCCQ1f
.44
.48
-.08
-.17
KCCQ3
.14
.05
.83
.03
KCCQ4
.14
.15
.84
-.02
KCCQ5
.66
.31
.39
.18
KCCQ6
.66
.31
.38
.17
KCCQ7
.58
.39
.46
.13
KCCQ8
.55
.36
.46
.13
KCCQ9
.25
.24
.69
-.05
KCCQ10
.06
.10
-.06
.84
KCCQ11
.12
-.01
.06
.81
KCCQ12
.80
.10
.29
.13
KCCQ13
.74
.04
.18
.21
KCCQ14
.71
.13
.26
.15
KCCQ15a
.82
.19
.03
-.04
KCCQ15b
.64
.19
.00
-.07
KCCQ15c
.74
.23
.15
.01
KCCQ15d
.75
.32
.07
-.01
Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung. Die
Rotation ist in 7 Iterationen konvergiert.
Auf dem ersten Faktor laden am höchsten die Fragen der Skalen soziale Einschränkung sowie Lebensqualität. Darüber hinaus laden hier am höchsten vier
Fragen aus der Skala Symptome (insgesamt sieben Items). Es sind im Einzelnen
die Fragen zur Häufigkeit und Schwere von Atemnot und Ermüdung.
Durch den zweiten Faktor werden die Items der Skala Körperliche Einschränkung
repräsentiert.
Der dritte Faktor repräsentiert am meisten gemeinsame Varianz mit den restlichen
Items der Skala Symptome, nämlich Häufigkeit und Schwere von Schwellungen
154
am Morgen sowie die Notwendigkeit, auf einem Stuhl oder durch Kissen gestützt
zu schlafen.
Diesen drei Items ist neben der gemeinsamen Ladung auf einem Faktor gemein,
dass sie besonders schwere Symptome der Herzinsuffizienz beschreiben, die in
unserer Stichprobe am wenigsten vorkommen. D.h. dass dieser Faktor ein Artefakt
sein könnte, der durch die gemeinsame extrem linksschiefe Verteilung dieser
Variablen zustande kommt.
Der vierte Faktor repräsentiert die Skala Selbstwirksamkeit.
Der erste Faktor klärt 28,5% Varianz auf und kann als Repräsentant eines geringen Ausmaßes an sozialer Einschränkung, Lebensqualität und Beeinträchtigung
durch Atemnot und Ermüdung angesehen werden. Positiv formuliert hieße dies,
dass höhere Lebensqualität eher mit der Abwesenheit der klassischen Symptome
der Herzinsuffizienz (Atemnot und Ermüdung) in unserer Stichprobe assoziiert ist.
Diese Merkmale scheinen stärker korreliert zu sein, was inhaltlich plausibel erscheint. Die größere Anzahl der Patienten unserer Stichprobe leidet nicht an den
schwereren Symptomen, so dass die meiste Varianz die Gemeinsamkeit des
weniger Beeinträchtigtseins darstellt. So lässt sich aus dem Ergebnis der Rotation
folgern, dass die geringe Beeinträchtigung durch Atemnot und Ermüdung eher mit
einer geringen Beeinträchtigung im sozialen und Lebensqualitätsbereich einhergeht als mit einer geringen Beeinträchtigung in der körperlichen Einschränkung,
die durch den zweiten Faktor repräsentiert wird.
Die
Skala
Körperliche
Einschränkung
wird
durch
das
Ergebnis
der
Hauptkomponentenanalyse in ihrer Validität als eigenständige Skala bestätigt.
Durch den zweiten Faktor werden 17% der Gesamtvarianz aufgeklärt. Dies kann
hypothetisch so interpretiert werden, dass eine geringe körperliche Einschränkung
unabhängig von den eher psychischen Dimensionen erlebt wird. Mit den psychischen Skalen wie Lebensqualität und Sozialer Einschränkung sind eher die schwereren Symptome wie unbeschwertes Atmen und weniger Ermüdung assoziiert.
Der dritte Faktor, der noch 14% der Varianz auf sich vereinigt, könnte ein besonders stichprobenabhängiges Ergebnis sein. Auf ihm laden besonders hoch die
Items zum Thema „Wassereinlagerung“ wie Schwellungen (Beschwerlichkeit und
Häufigkeit) an den Beinen sowie die Häufigkeit der Atemnot im Liegen bei Nacht
(Wasser in der Lunge). Eine hohe Ladung bedeutet aber hier auch wiederum eher
die Abwesenheit dieser Symptome, was durch unsere Stichprobe bedingt sein
155
könnte, in welcher die NYHA-Klasse 4, für die diese Symptome am typischsten
sind, am meisten unterrepräsentiert ist.
Der vierte Faktor klärt nur noch 7% der Varianz auf und repräsentiert insbesondere
die Skala Selbstwirksamkeit. Durch ihn wird die Unabhängigkeit dieser Skala von
den anderen in ihrer faktoriellen Validität bestätigt. Dieses Ergebnis bestätigt somit
die Auswertungsvorschrift, dass diese Skala nicht mit den anderen aufaddiert
werden sollte.
Insgesamt betrachtet zeigt die Hauptkomponentenanalyse, dass nur die Skalen
Körperliche Einschränkung und Selbstwirksamkeit über eine faktorielle Validität
verfügen. Die Skala Lebensqualität und Soziale Einschränkung laden gemeinsam
auf einem Faktor, wodurch die Frage aufgeworfen wird, ob diese Items tatsächlich
unterschiedliche Konstrukte erfassen können. Die Fragen des KCCQ zur Lebensqualität liegen auf der gleichen Dimension wie die zur Sozialen Einschränkung.
Somit erscheint die Trennung dieser Skalen überflüssig. Die Items der Skala
Symptome laden nicht einmal einheitlich auf einem Faktor, was zum Teil aber
stichprobenbedingt sein könnte.
Angesichts dieses Ergebnisses kann hinterfragt werden, ob das Kriterium der
faktoriellen Validität, die die Trennschärfe zwischen den verschiedenen Skalen
betrachtet, hier in Form der Hauptkomponentenanalyse die angemessene Methode ist. Das gemeinsame Analysieren von Items zu psychischen sowie körperlich
medizinischen Sachverhalten legt eher eine Kausalstruktur nahe und nicht eine
Unabhängigkeit der Skalen. So wäre das Ergebnis der völligen Unabhängigkeit der
psychischen von der körperlichen Verfassung eher überraschend. Insofern wäre
denkbar, in diesem Falle die faktorielle Validität mittels eines theoriegeleiteten
Strukturgleichungsmodells zu belegen, in welchem die Abhängigkeiten der Dimensionen zuvor spezifiziert und dann empirisch bestätigt werden können.
4.13 Hauptkomponentenanalyse der Unterskalen getrennt für
positiv versus negativ gescreente Patienten
Nachfolgend werden die Ergebnisse zweier varimaxrotierter Hauptkomponentenanalysen auf der Skalenebene für negativ und positiv auf Depression gescreente
depressive Herzinsuffiziente verglichen. In die Analyse gingen N=178 nicht-
156
depressive und N=73 depressive Patienten ein. Fehlende Werte wurden durch
Mittelwerte ersetzt.
Für die negativ gescreente Gruppe wurden nach dem Kaiser-Guttman-Kriterium
(Kommunalität >1) ein Faktor extrahiert. Er hat einen Eigenwert von 2,76 und klärt
55,3% der Varianz auf.
Tabelle 56: Ergebnis der Hauptkomponentenanalyse für negativ auf Depression gescreente
Herzinsuffiziente: Kommunalitäten (Gesamt) und erklärte Gesamtvarianz.
Summen von quadrierten Faktorladungen
Anfängliche Eigenwerte
für Extraktion
Komponente
Gesamt
% der Varianz
Kumulierte %
Gesamt
% der Varianz
Kumulierte %
1
2.76
55.29
55.29
2.76
55.29
55.29
2
.97
19.31
74.60
3
.58
11.60
86.21
4
.40
8.06
94.26
5
.29
5.74
100.00
Für die positiv auf Depression gescreente Gruppe ergab sich ebenfalls die Extraktion nur eines Faktors. Er hat einen Eigenwert von 2,66 und klärt 53,2% der Varianz auf.
Tabelle 57: Ergebnis der Hauptkomponentenanalyse für positiv auf Depression gescreente
Herzinsuffiziente: Kommunalitäten (Gesamt) und erklärte Gesamtvarianz.
Summen von quadrierten Faktorladungen
Anfängliche Eigenwerte
für Extraktion
Komponente
Gesamt
% der Varianz
Kumulierte %
Gesamt
% der Varianz
Kumulierte %
1
2.66
53.22
53.22
2.66
53.22
53.22
2
.98
19.59
72.81
3
.66
13.10
85.91
4
.46
2.66
95.13
5
.24
4.87
100.00
Die Komponentenmatrix fällt für beide Gruppen sehr ähnlich aus (s. Tabelle 58).
Sie unterscheiden sich lediglich hinsichtlich der Skala Selbstwirksamkeit. Für die
negativ auf Depression gescreenten Patienten beträgt die Ladung auf dem Hauptfaktor 0,27 und fällt somit am niedrigsten aus.
Tabelle 58: Komponentenmatrix für negativ und positiv gescreente depressive Herzinsuffiziente im Vergleich.
157
Skalen
Körperliche
negativ gescreente
positiv gescreente
Depressive
.74
.79
Skala Symptome
.74
.79
Selbstwirksamkeit
.27
-.25
Lebensqualität
.84
.77
Soziale Einschränkung
.85
.83
Einschränkung
Für die positiv auf Depression gescreenten Patienten beträgt die Ladung der Skala
Selbstwirksamkeit auf dem Hauptfaktor -0,25.
Die Ergebnisse erscheinen angesichts der Ergebnisse der Konstruktvalidierung
und Trennschärfe der einzelnen Skalen plausibel. Die Skala Selbstwirksamkeit hat
mit den übrigen Skalen kaum gemeinsame Varianz. Dieser Effekt verstärkt sich für
die Gruppe der positiv auf Depression gescreenten Herzinsuffizienten. Hier entsteht sogar ein negativer Zusammenhang. Zwar reduziert sich hier auch die Ladung der Lebensqualität von .84 für negativ auf Depression gescreente auf .77 für
die depressiven Patienten, allerdings entsteht nicht wie im Falle einer unzureichenden differentiellen faktoriellen Validität ein zweiter Faktor, der die Skala
Lebensqualität zusammen mit der Selbstwirksamkeit erklärt. Dies bedeutet, dass
die Aufaddierung der Skalen zu der Summenskala Klinische Zusammenfassung
auch für die Untergruppe der Depressiven gerechtfertigt erscheint und keine Einbuße an Validität zu befürchten ist.
4.14 Partialkorrelationen von KCCQ, SF-36 und NYHA-Klasse
Der Summenscore der Klinischen Zusammenfassung des KCCQ korreliert mit -.58
(p<0.001) mit der NYHA-Klasse. Den gleichen Wert erreicht die Korrelation des
Körperlichen Summenscores des SF-36 mit der NYHA-Klasse. Partialisiert man
aus diesen Korrelationen die Depressivität heraus (PHQ), so verringern sich beide
auf den Wert -.48 (KCCQ) bzw. -.49 (SF-36). Dies verdeutlicht, dass die Instrumente wahrscheinlich Ähnliches erfassen, und zwar relativ unabhängig von der
Depressivität der Patienten. Die Partialkorrelation des SF-36 Körperlicher
Summenscore beträgt mit der NYHA-Klasse nach Bereinigung durch die KCCQSkala Klinische Zusammenfassung nur noch -.29 (p<0.001). Bereinigt man den
158
Zusammenhang des KCCQ mit der NYHA-Klasse um die SF-36-Skala, so ergibt
sich eine etwas höhere Partialkorrelation von -.38 (p<0.001). Die Psychische
Summenskala des SF-36 korreliert mit der NYHA-Klasse zu -.26 (p<0.001). Bereinigt man diese Korrelation um die Varianzanteile des KCCQ, so ergibt sich eine
nicht signifikante positive Partialkorrelation von r=0.16 (p=0.02).
Der KCCQ scheint also zum einen spezifischer die funktionale Einschränkung der
Patienten zu erfassen. Zum anderen bildet er dabei einen großen Anteil generische Lebensqualität bereits mit ab.
159
5 Diskussion
Mit der zunehmenden Bedeutung der gesundheitsbezogenen Lebensqualität als
Outcomekriterium in medizinischen Behandlungs- und Versorgungsstudien sollte
auch die entsprechende Entwicklung geeigneter Instrumente einhergehen. Der in
dieser Studie in seiner deutschen Übersetzung psychometrisch überprüfte Kansas
City Cardiomyopathy Questionnaire (KCCQ) ist ein krankheitsspezifisches Lebensqualitätsmessinstrument für herzinsuffiziente Patienten. Im Unterschied zu
einem generischen Lebensqualitätmessinstrument wie dem SF-36 erwartet man
von einem krankheitsspezifischen eine höhere Änderungssensitivität und nimmt
dafür eine auf die spezifische Krankheit eingeschränkte Messung der Lebensqualität in Kauf. Für den Einsatz in Studien wird daher häufig empfohlen, wenn
möglich zwei Lebensqualitätsmessinstrumente, ein spezifisches und ein generisches, einzusetzen (Wolinsky et al. 1998). Die Überprüfung der Frage, ob bzw.
inwieweit die krankheitsspezifische Lebensqualität wirklich spezifisch ist und nicht
durch komorbide Erkrankungen beeinflusst ist, wurde bisher wenig untersucht.
Die vorliegende Studie untersuchte die psychometrischen Eigenschaften des
KCCQ sowie darüber hinaus die Frage, inwieweit der KCCQ ein valides krankheitsspezifisches Messinstrument bleibt, wenn die Patienten zusätzlich an einer depressiven Störung erkrankt sind.
Patienten
Die Anzahl der eligiblen Patienten unserer Studie fiel mit n=234 etwas geringer aus
als erwartet. Auch die Zahl derjenigen, die die Teilnahme verweigerten, war mit
einem Drittel recht hoch. Von den in die Studie aufgenommenen Patienten (N=363)
verweigerten 32 direkt das Ausfüllen der Lebensqualitätsfragebögen und 80 verweigerten dies passiv durch das Nichtzurücksenden der Bögen.
Die guten Ergebnisse der Akzeptanz des KCCQ müssen also mit Vorsicht interpretiert werden, da es sich um einen Selektionseffekt handeln könnte. Schließlich
könnten theoretisch rund 24% die Teilnahme im Nachhinein verweigert haben, da
sie den Fragebogen als inakzeptabel oder zu sehr belastend empfanden. Allerdings kann man diese Verweigerung alternativ darauf zurückführen, dass nicht nur
der KCCQ auszufüllen war, sondern auch noch weitere Bögen, insgesamt 13
160
Seiten DIN A4. Lediglich die Änderungssensitivitätskohorte brauchte nur den
KCCQ ausfüllen.
Als Folge dieser hohen Verweigerung muss berücksichtigt werden, dass die Repräsentativität der Stichprobe beeinträchtigt sein kann. Gleichwohl konnten wir
insgesamt eine für unsere Fragestellung ausreichende Zahl von chronisch Herzinsuffizienten für die Teilnahme gewinnen.
Für unsere Fragestellung war es erforderlich, die Patienten hinsichtlich ihrer Depressivität zu diagnostizieren. Aufgrund begrenzter Ressourcen war es hierbei
nicht möglich, strukturierte klinische Interviews mit jedem Patienten durchzuführen.
Der Patient Health Questionnaire (PHQ) ermöglichte es jedoch mit kurzen Fragen
anhand der DSM-IV-Kriterien, Hinweise auf eine depressive Störung schnell und
effektiv über einen Fragebogen zu erfassen. Darüber hinaus bietet der PHQ
ebenfalls die Analyse eines Schwere-Wertes. Löwe, Spitzer et al (2004) ermittelten
für den PHQ gegenüber dem SKID-Interview eine Sensitivität von 83% (95%-CI
72-91) und eine Spezifität von 90% (95%-CI 87-93) für das Entdecken einer Major
Depression.
Ergänzend wurde als weiteres dimensionales Depressionsmaß das BeckDepressionsinventar (BDI) eingesetzt. Barth et al. (2004) diskutieren in ihrer
Metaanalyse, in welcher Depression als Risikofaktor zur Sterblichkeit bei Koronaren Herzerkrankungen analysiert wird, dass es sich aus den bisherigen Studien
nicht ableiten ließe, zur Erfassung der Depressivität ein Selbstratingverfahren oder
ein klinisches Interview vorzuziehen. Es hat sich hierbei vielmehr gezeigt, dass
gerade der BDI mit einem Grenzwert ≥10 auch subklinische Depressivität erfassen
kann, die bereits eine erhöhte Mortalität vorhersagen kann.
Nach den PHQ-Kriterien wurden in der vorliegenden Studie 30,3% der Patienten
als depressiv (13,2% major depression und 17,1% minor depression) diagnostiziert.
Die positiv auf Depression gescreenten Patienten wiesen durchschnittlich eine
höhere NYHA-Klasse auf und hatten häufiger einen auffälligen Kreatininwert
(>1.1). Für die varianzanalytische Auswertung wäre eine annähernd gleiche Zellenhäufigkeit des 4×2 NYHA-Klassen-Depressionsscreening-Versuchsplans erstrebenswert gewesen. Die NYHA-Klassen IV und I sind jedoch schwächer besetzt.
Dies dürfte allerdings für eine eher repräsentative Verteilung sprechen, was wiederum für die Beurteilung der Schweregradindizes der Fragen von Vorteil ist.
161
Alters- und Geschlechtseffekte
Ein höheres Alter der Patienten geht einher mit einer größeren Einschränkung
bzw. Symptombelastung auf den Skalen des KCCQ. Die eher subjektiven Skalen
wie Selbstwirksamkeit, Lebensqualität und soziale Einschränkung weisen keinen
Zusammenhang mit dem Alter auf.
Die Männer der Stichprobe verfügten über eine durchschnittlich höhere Lebensqualität. Lediglich die Skalen Symptomstabilität und Selbstwirksamkeit zeigten
keinen Unterschied. Eine geringere Lebensqualität bei herzinsuffizienten Frauen
wurde bereits mehrfach berichtet (Cline et al. 1999; Jaarsma et al. 1999; Chin &
Goldman, 1998; Riedinger et al. 2001), allerdings auch der umgekehrte Effekt
einer niedrigeren Lebensqualität der Männer (Hobbs, 2002). Dies legt den Verdacht nahe, dass diese Effekte durch eine tatsächliche stärkere Beeinträchtigung
der Frauen in der jeweiligen Stichprobe entstanden. Riedinger et al. (2001)
konnten zeigen, dass der Geschlechtseffekt der Lebensqualität im funktionalen
Status (als Lebensqualität in Form von der Bewältigung kurzfristiger Aufgaben) und
sozialer Aktivitäten erhalten bleibt, sofern man die Variablen NYHA-Klasse, Alter
und Ejektionsfraktion kontrolliert.
In der vorliegenden Stichprobe lässt sich der Geschlechtseffekt durch die Kontrolle
der NYHA-Klasse nicht nur in der funktionsbezogenen Lebensqualität (Funktionaler Status), sondern auch in der Skala psychische Lebensqualität und in der Skala
Soziale Einschränkung vollständig aufklären. D.h. es gibt keinen Hinweis auf eine
direkte Abhängigkeit der Lebensqualität von dem Geschlecht. Allerdings haben in
unseren Daten die Variablen Alter und linksventrikulären Ejektionsfraktion ähnlich
wie bei Riedinger et al. (2001) alleine keinen Erklärungswert in Bezug auf den
Zusammenhang zwischen Geschlecht und der Skala Lebensqualität, jedoch einen
auf den Zusammenhang zwischen Geschlecht und der Skala Funktionaler Status
(funktionale Komponente). Dass die funktionale und soziale Komponente des
Geschlechtseffekts in unseren Daten - anders als bei Riedinger et al. (2001) durch die NYHA-Klasse vollständig erklärt wird, könnte damit zusammenhängen,
dass in unseren Daten das Depressionsscreeningergebnis bereits stochastisch
unabhängig von dem Geschlecht ist. Das könnte bedeuten, dass der von Riedinger
et al. (2001) gefundene Geschlechtseffekt der Lebensqualität durch ein
Depressionsscreening als Folge ungleicher Verteilung der Depressivität über die
Geschlechter vielleicht hätte aufgeklärt werden können. In den vorliegenden Er-
162
gebnissen gibt es keinen Hinweis einer direkten Geschlechtsabhängigkeit der
Lebensqualität.
Welche Itemcharakteristik und Verteilungsform weist der deutsche KCCQ
auf?
Insgesamt betrachtet, ergab die Itemanalyse für die deutschsprachige Version des
KCCQ sehr befriedigende Ergebnisse. Eine Ausnahme stellen die Frage 1
(Symptomstabilität) und die Fragen der Skala Selbstwirksamkeit (10 und 11) dar,
auf die als Skala noch später genauer eingegangen wird. Alle übrigen Fragen
konnten durch eine gute Ausnutzung des Skalenbereichs und mit guten ItemSkalen-Korrelationen überzeugen. Eine Gemeinsamkeit dieser Items ist jedoch mit
wenigen Ausnahmen ein Bodeneffekt und eine dadurch relativ hohe Schwierigkeit.
Eine repräsentative Stichprobe vorausgesetzt, ermöglicht eine hohe ItemSchwierigkeit besser zwischen den schwerer Kranken zu differenzieren. Da sich
die Bodeneffekte auf der Itemebene befinden und sich nach der Skalenbildung nur
auf zwei Skalen (Symptome und Funktionaler Status) durchsetzen, erscheint dies
wenig problematisch, wenn nicht sogar vorteilhaft. Die Verteilungsform der Skalen
selbst ist linksschief und kann in Kombination mit mehrgipfligen Verteilungsformen
in Hinblick auf eine parametrische Auswertung problematisiert werden. Allerdings
sollte man diesen Nachteil nicht besonders werten, da zum einen die meisten
Verfahren recht robust sind und meist alternative Verfahren zur Verfügung stehen
(Bortz, 1993); zum anderen ist die Verteilungsform in erster Linie eine Funktion der
Stichprobe und somit auch eine wichtige Informationsquelle. Weiterhin konnten auf
der Skalenebene mit Ausnahme der Skala Selbstwirksamkeit gute interne Konsistenzen (Cronbachs alpha >.87) festgestellt werden.
Die Trennschärfen in Bezug auf den Gesamtscore Klinische Zusammenfassung
betrugen zwischen .48 und .82. Innerhalb der Unterskalen bewegten sie sich
zwischen .56 und .84, mit der Ausnahme der Skala Selbstwirksamkeit (zwei Items:
.47).
Die guten internen Konsistenzen und die guten Trennschärfen der Skalen sprechen dafür, dass die Auswahl und Konstruktion der Fragen mit Ausnahme der
Skala Selbstwirksamkeit zu relativ homogenen Skalen auch in der deutschen
Übersetzung gut gelungen ist.
163
Wie präzise misst der KCCQ (Reliabilität)?
An einer Unterstichprobe mit Wiederholungsmessung konnte gezeigt werden, dass
die Skalen des KCCQ mit Ausnahme der Skala Selbstwirksamkeit (rCCC= .78)
einen Konkordanzkorrelationskoeffizienten (CCC) zwischen rCCC =0.86 und
rCCC=0.93 aufweisen.
Die Beurteilung anhand der verschiedenen Koeffizienten hängt von der gewünschten Definition der Reliabilität ab. Soll diese lediglich ein Maß für einen
linearen Zusammenhang sein (Y= b·x+a), weil man etwa annimmt, dass Differenzen in der Höhe und hinsichtlich einer linearen Transformation nicht als Messfehler
gewertet werden sollen, so ist der Pearson-Korrelationskoeffizient das entsprechend passende Modell. Bei einem Konzept der Reliabilität im Sinne von Bland
und Altman (1996), die eine absolute Übereinstimmung der Werte für einen Wert
von 1 und eine Vertauschbarkeit der Messwertpaare ohne Veränderung des Koeffizienten fordern, ist der Einweg-Intraklassenkorrelationskoeffizient mit absoluter
Übereinstimmung das Modell der Wahl. Allerdings hat dieser den Nachteil, dass er
als Voraussetzung die Varianzgleichheit zwischen den Messzeitpunkten verlangt
(daher auch die Vertauschbarkeit der Messzeitpunkte). Für den Fall, dass die
Voraussetzung der Varianzgleichheit verletzt ist, kann der ICC die Konkordanz
fälschlich überschätzen (Schuck, 2002). In diesem Fall wäre es ratsam, den CCC
zu verwenden, dessen Konzept von Reliabilität lautet, dass eine absolute Übereinstimmung der Werte gefordert ist (Y=X) und darüber hinaus bei Abweichung von
diesem Kriterium auch eine Abweichung von der Varianzgleichheit als reliabilitätsmindernd gewertet wird (das heißt hier ist eine Vertauschbarkeit der Werte nicht
mehr gegeben bzw. könnte sich positiv oder negativ auswirken; Schuck, 2004).
In der Skala Soziale Einschränkung liegt in der Reliabilitätskohorte eine signifikante Veränderung der Mittelwerte vor. Diese wirkt sich auf den ICC und den CCC
mindernd aus (ICC und CCC= .82 versus r=0.84). Bei den übrigen Skalen lag der
CCC meist ein Zehntel unter dem ICC und dem Pearson-Koeffizienten. (s. Tabelle
27). Diese geringfügigen Unterschiede müssten von den Modellen her auf die
numerisch unterschiedlichen Varianzen zurückzuführen sein. Der signifikante
Mittelwertsunterschied der Skala Soziale Einschränkung innerhalb unserer
Reliabilitätskohorte erscheint angesichts der niedrigen Änderungssensitivität in
unserer Änderungssensitivitätskohorte (GRI= 0.12) wie auch bei Green et al.
(2000) (GRI= 0.62) recht überraschend. Zum zweiten Messzeitpunkt der
164
Reliabilitätskohorte hatten sich die Messwerte der Skala Soziale Einschränkung
leicht verbessert (Differenz= 5.34), wobei diese Differenz so groß ist, als ob sich
der Durchschnitt um knapp eine Antwortkategorie verbessert hätte. Ein ähnlicher
Effekt liegt bei Green et al. (2000) in der Skala Soziale Funktionsfähigkeit des SF36 vor. Hier verbesserten sich die Patienten ebenfalls hoch signifikant in der Skala
Soziale Funktionsfähigkeit, verschlechterten sich jedoch nur leicht im KCCQ in der
Sozialen Einschränkung. Leider haben wir hierzu keine Vergleichsdaten zur Verfügung. Man könnte mutmaßen, der SF-36 sei hier vielleicht änderungssensitiver,
was jedoch gerade durch die vergleichenden Ergebnisse des GRI-Index (KCCQ:
Soziale Einschränkung=.62 versus SF-36 Sozialer Funktionsfähigkeit=.22) bei
Green et al. (2000) nicht bestätigt werden kann.
Als Erklärung für den starken Verbesserungseffekt in unserer Reliabilitätskohorte
kommt neben dem Zufall noch ein reaktiver Messeffekt in Frage (Campbell, 1957;
Petermann & Noack, 1993; Gigerenzer, 1981). Ausformuliert könnte man Folgendes spekulieren: Die Bewusstwerdung der sozialen Einschränkung durch die
Erkrankung könnte für viele bei der ersten Messung unangenehme Gefühle aktiviert haben. Nach der Messung waren sie bemüht, sich in einem anderen Licht zu
sehen oder nach Hinweisen für Sozialkontakte zu suchen oder gar ihr Verhalten zu
verändern. Eine Woche später beantworten sie dann die gleichen Fragen etwas
günstiger. Bei Green et al. (2000) könnte dieser Effekt durch das viel längere
Messwiederholungsintervall in der Reliabilitätskohorte (3 Monate) verhindert worden sein.
Ist es gerechtfertigt, die Items zu verschiedenen Skalen zusammenzufassen
und diese auch wiederum zu Summenwerten?
Mit Hilfe einer Hauptkomponentenanalyse konnte auf der Ebene der Skalen und
der Items gezeigt werden, dass die Interkorrelationen der Skalen die Extraktion nur
eines Hauptfaktors als gerechtfertigt erscheinen lassen. Somit kann auch die
Summierung der Skalen zu den übergeordneten Summenskalen Funktionaler
Status und Klinische Zusammenfassung als sinnvoll gelten. Darüber hinaus konnte
gezeigt werden, dass dies auch gilt, wenn dieser Sachverhalt für positiv versus
negativ gescreente depressive herzinsuffiziente Patienten in Form der Hauptkomponentenanalyse auf der Skalenebene getrennt untersucht wird. Hier unterschied sich lediglich die Ladung der Skala Selbstwirksamkeit, die nicht mit den
anderen Skalen addiert wird, auf einem Hauptfaktor.
165
Somit erweist sich die Addierung der Skalen im Falle depressiver Patienten nicht
als selektiv validitätsmindernd.
Betrachtet man die Ergebnisse der Hauptkomponentenanalyse auf der Itemebene,
so werden die Skalen im Sinne einer faktoriellen Validität nicht ausreichend gut
durch die Faktoren reproduziert. Der erste Faktor klärt 28,5% Varianz auf. Auf ihm
laden jeweils am höchsten die Items der Skalen Soziale Einschränkung, Lebensqualität und die Fragen zur Beeinträchtigung durch Atemnot und Ermüdung.
Einerseits bestätigt dieser Faktor die Summierung der Skalen zu einen Gesamtscore. Andererseits stellt er aber auch die faktorielle Validität der einzelnen Skalen,
wegen ihrer mangelnden Trennschärfe untereinander, in Frage.
Die Hauptkomponentenanalyse auf Itemebene zeigt, dass nur die Skalen Körperliche Einschränkung und Selbstwirksamkeit über eine faktorielle Validität im klassischen Sinne verfügen. Die Skala Lebensqualität und Soziale Einschränkung laden
gemeinsam auf einem Faktor, wodurch die Frage aufgeworfen wird, ob diese Items
tatsächlich unterschiedliche Konstrukte erfassen. Die Fragen des KCCQ zur Lebensqualität liegen auf der gleichen Dimension wie die zur Sozialen Einschränkung. Somit erscheint die Trennung dieser Skalen überflüssig. Die Items der Skala
Symptome laden nicht einmal einheitlich auf einem Faktor, was zum Teil aber
stichprobenbedingt sein kann.
Die Skala Körperliche Einschränkung wird durch das Ergebnis der Hauptkomponentenanalyse in ihrer Validität als eigenständige Skala bestätigt (17%
Varianzaufklärung). Der dritte Faktor, der noch 14% der Varianz auf sich vereinigt,
muss mit Vorsicht interpretiert werden, da er ein stichprobenbedingte Artefakt sein
könnte. Auf ihm laden die restlichen Fragen der Skala Symptome, die sich durch
eine besondere schiefe Verteilung auszeichnen. Diesen drei Items ist neben der
gemeinsamen Ladung auf einem Faktor gemein, dass sie Symptome beschreiben,
die in unserer Stichprobe am seltensten vorkommen. Dies sind die Häufigkeit und
Schwere von Schwellungen am Morgen sowie die Notwendigkeit, auf einem Stuhl
oder durch Kissen gestützt zu schlafen. Die gemeinsame Ladung auf einem Faktor
könnte man allerdings auch als Abbildung einer zugrunde liegenden kausalen
Struktur der Herzinsuffizienz verstehen. Da die Assoziation zwischen diesen Items
einer Globalherzinsuffizienz entspricht (und diese zumeist die Folge einer vorangehenden Links- oder Rechtsherzinsuffizienz ist), ist die Globalherzinsuffizienz
eher in den höheren NYHA-Klassen zu finden, die in unserer Studie unter-
166
repräsentiert sind. D. h. die Extraktion eines eigenständigen Faktors könnte auf
diese Untergruppe der Globalherzinsuffizienten zurückzuführen sein.
Der vierte Faktor klärt nur noch 7% der Varianz auf und repräsentiert die Items der
Skala Selbstwirksamkeit. Hierdurch wird die faktorielle Validität und Unabhängigkeit dieser Skala verdeutlicht.
Das insgesamt eher negative Ergebnis hinsichtlich der faktoriellen Validität verdeutlicht allerdings auch ein methodisches Problem: So sollte hinterfragt werden,
ob das Kriterium der faktoriellen Validität, die die dimensionale Eindeutigkeit der
Items in Bezug auf ihre Skala betrachtet, hier geprüft in Form der Hauptkomponentenanalyse, die angemessene Methode ist. Das gemeinsame Analysieren von Items zu psychischen sowie körperlich medizinischen Sachverhalten birgt
das Problem, dass zwischen ihnen zusätzliche Abhängigkeiten über die Dimensionalität der Items hinaus bestehen, die sich ebenfalls in dem Ergebnis der Hauptkomponentenanalyse niederschlagen. So wäre z.B. das Ergebnis der völligen
Unabhängigkeit der psychischen von der körperlichen Verfassung eher überraschend, dies wäre aber eine Voraussetzung, um das Ergebnis der faktoriellen
Validität sinnvoll interpretieren zu können. So spricht der dritte Faktor (s.o.) für die
Abhängigkeit dieser Methode von vielleicht zugrunde liegenden Zusammenhängen
(Untergruppe der Globalherzinsuffizienten). Insofern wäre es zu erwägen, die
faktorielle Validität besser mittels eines theoriegeleiteten Strukturgleichungsmodells zu belegen, in welchem möglichst alle denkbaren Abhängigkeiten wie
Diagnose und Schweregrad zuvor spezifiziert und dann empirisch aufgeklärt werden können. Die Anwendung der Hauptkomponentenanalyse zur Validierung
gesundheitsbezogener Lebensqualitätsfragebögen ist also nicht nur wegen der
starken Stichprobenabhängigkeit, sondern gerade auch wegen der darin verborgenen Abhängigkeit der psychischen von körperlichen Zuständen (und umgekehrt)
zu hinterfragen. So wäre die ungenügende faktorielle Reproduktion der Konstrukte
bzw. Skalen Soziale Einschränkung und Lebensqualität durchaus als Kausalbeziehung deutbar: Soziale Einschränkung führt auf Dauer zu einer beeinträchtigten
Lebensqualität bzw. Depressivität, oder auch umgekehrt. In einem Strukturmodell
hätte man dies als Wirkrichtung oder auch Assoziation vorhersagen können, in
unserer Hauptkomponentenanalyse wird diese gemeinsame Varianz nun vermutlich irrtümlich als gemeinsames Konstrukt interpretiert, welches gegen die faktorielle Validität zweier getrennter Skalen spricht. Ähnlich führen zwangsläufig die
167
Items, die eher mit einer Globalherzinsuffizienz assoziiert sind, zur Identifikation
einer solchen impliziten Skala bzw. Faktors. Würden jedoch getrennte Analysen für
verschiedene Herzinsuffizienztypen und -Klassen durchgeführt bzw. diese Variablen in ein Strukturgleichungsmodell mit aufgenommen werden, so hätte man erst
die Voraussetzung dafür geschaffen, dass die Hauptkomponentenanalyse die
Skalen reproduzieren kann.
Wie wird der KCCQ von den Befragten erlebt?
Die Analyse der Missinghäufigkeiten bei den unterschiedlichen Fragen führte zu
der Hypothese, dass die Formatierung der Fragen KCCQ1a-f sowie KCCQ15a-d
einigen Patienten Probleme bereitet haben könnte. Insgesamt wurde der Fragebogen von einer deutlichen Mehrheit (ca. 80%) der Patienten hinsichtlich Verständlichkeit, Relevanz, Schwierigkeit und Annehmlichkeit ausreichend positiv bewertet.
Die Praktikabilität des KCCQ mag man daher und auch wegen seiner eher geringen Anzahl an Fragen für den Patienten als sehr gut bezeichnen. Allerdings
müssen diese Ergebnisse in Hinblick auf einen möglichen Selektionseffekt in
Bezug auf die hohe Teilnahmeverweigerung mit Vorsicht interpretiert werden.
Für den Kliniker/Auswerter stellt der KCCQ schon eher einen nicht zu vernachlässigenden Aufwand dar. Eine Auswertung in der Routineversorgung ist nicht
ohne programmierfähige Software möglich. Die Auswertungsvorschrift und
Transformation der Skalen von 0-100 lassen eine Auswertung von Hand oder
unmittelbar nach der Beantwortung durch Inaugenscheinnahme nicht zu. Nach
dem Errechnen der Scores würde als nächstes ein Interpretationsproblem auftreten, da es keine Vergleichsnormen gibt. Die Werte eines Patienten allein blieben
für den KCCQ-unerfahrenen Behandler zunächst relativ bedeutungslos, mit
Ausnahme einer Verlaufsbeobachtung über mehrere Messzeitpunkte.
Misst der KCCQ, was er vorgibt zu messen (Konstruktvalidität)?
Für die Konstruktvalidierung wurden die Skalen des KCCQ mit den konstruktähnlichen Skalen des SF-36 über Pearson-Korrelations-Koeffizienten verglichen.
Korrelationen r>0.50 gelten im Allgemeinen als Hinweis für eine ausreichende
Übereinstimmung (Guyatt et al. 1993). Die Skala Symptome wies substanzielle
Korrelationen mit der Skala Körperliche Funktionsfähigkeit (r=0.67) und der
Standardisierten Körperlichen Summenskala des SF-36 (r=0.66) auf. Dies bedeutet, dass die Skala Symptome ein ähnliches Konstrukt wie die beiden Skalen des
SF-36 erfasst.
168
Die Skala Körperliche Einschränkung erfasst die Einschränkung in alltäglichen
Situationen, die für einen Herzinsuffizienten relevant sein könnten. Die ähnlichste
Skala des SF-36 ist die Skala Körperliche Funktionsfähigkeit, die die Einschränkungen der Mobilität einer Person erfasst. Die Korrelation mit dieser Skala fiel mit
r=0.70 sehr hoch aus. Dies zeigt, dass die Skala Körperliche Einschränkung einen
hohen gemeinsamen Varianzanteil mit einer bereits validierten Skala erfasst.
Die Fragen zur Selbstwirksamkeit beinhalten den Aspekt des Wissens zum
Selbstmanagement im Umgang mit den Symptomen und zur Prävention weiterer
Verschlechterung. Für die Konstruktvalidierung dieser Skala hatten wir die Skala
Internalität des KKG (Fragebogen zur Erhebung von Kontrollüberzeugungen zu
Krankheit und Gesundheit) vorgesehen. Die Korrelation zwischen den beiden
Skalen fiel allerdings unbefriedigend gering aus (r=-0.27). Der niedrige Zusammenhang zeigt, dass es sich bei der Skala des KCCQ nicht um das gleiche Konstrukt
wie bei der internalen Kontrollüberzeugung handeln kann. Die Skala hinsichtlich
ihrer internen Konsistenz zu beurteilen, ist relativ schwer, da die absolute Höhe
von Cronbachs alpha nicht unabhängig von der Anzahl geeigneter Items einer
Skala ist. Das ursprüngliche Ergebnis betrug 0.61 (mit n= 234). Überschlägt man
jedoch nach der Spearman-Brown-Formel zur Testverlängerung den Anstieg des
Wertes bei gleich guten Items, dann erscheint er eher gering. Mit 5 Items hätte die
Skala einen Wert von 0.80, mit 7 von 0.85 erreicht. Die Trennschärfen sind dementsprechend auch gering ausgefallen. Die geringe Übereinstimmung mit der
Skala Internalität des KKG könnte zum Teil auf die geringe Homogenität zurückzuführen sein, zum anderen aber auch auf eine inhaltliche Diskrepanz der Konstrukte. Inhaltlich betrachtet stellen die Fragen der Skala Selbstwirksamkeit quasi
einen Wissen-Verstehens-Test dar, der allerdings nicht überprüft werden kann.
Insofern misst die Frage mutmaßlich die Bereitschaft, Wissenslücken zu erkennen
und einzugestehen. Diese letztere Eigenschaft könnte mit einer negativen Selbsteinschätzung depressiver Patienten assoziiert sein. Die Korrelation mit dem BDI
fiel zwar auch niedrig aus, aber nicht niedriger als mit dem Konstrukt der internalen
Kontrollüberzeugung (r=-0.26. versus r=-0.27; n=151). Green et al. (2000) berichten, dass sie kein passendes Kriterium zur Konstruktvalidierung hätten, und beanspruchen zunächst eine Augenscheinvalidität für diese Fragen. Als indirekten
Beleg für die Validität werten sie, dass sich ihre Änderungssensitivitätskohorte
hinsichtlich dieser Fragen signifikant von der Reliabilitätskohorte unterscheidet.
169
Das bedeutet, dass ein gerade dekompensierter Patient den eigenen Einfluss auf
die Symptome eher niedriger einschätzen sollte als einer, dessen Symptome seit
längerem vorhersagbar sind (Reliabilitätskohorte). Dieses Ergebnis konnten wir
allerdings nicht replizieren. In Hinblick darauf, dass sich unsere Änderungssensitivitätsergebnisse generell von den Green et al. (2000) unterscheiden, lässt
dieses Ergebnis auch die Interpretation zu, dass unsere dekompensierten Patienten vielleicht viel weniger dekompensiert waren als die amerikanischen Patienten.
Erklären ließe sich das auch aufgrund der hohen Verweigerungsrate in unserer
Kohorte von 60%. Bei Green et al. (2000) wird keine direkte Teilnahmeverweigerung berichtet, lediglich, dass 5 von 59 Patienten den Fragebogen nicht zurückgaben und drei nicht mehr auffindbar waren. Die übrigen Patienten konnten wegen
Todes, Herztransplantation (9) oder eines erneuten Ereignisses (3) nicht weiter
befragt werden. Lediglich der Vergleich ausschließlich derjenigen Patienten der
Änderungskohorte, die sich in der Skala Symptome gebessert haben, wird bei uns
ebenso wie bei Green et al. (2000) signifikant.
Die Augenscheinvalidität der Items der Selbstwirksamkeitsskala erscheint dadurch
eingeschränkt, dass bei ihnen gegen Grundregeln der Itemkonstruktion verstoßen
wurde, nämlich Einfachheit und Eindeutigkeit (vgl. Lienert & Raatz, 1994;
Angleitner, John & Löhr, 1986): „Wie sicher sind Sie, dass Sie wissen, was zu tun
oder wer anzurufen ist, wenn sich Ihre Herzinsuffizienz verschlechtert?“ Diese
Frage besteht eigentlich aus drei hypothetischen Fragen: 1. Die Sicherheit über
das Wissen, 2. das Wissen, wer anzurufen ist, und 3. was man tun könnte. Die
zweite Frage dieser Skala ist auf den ersten Blick schon etwas eindeutiger: „Wie
gut verstehen Sie, was Sie selbst tun können, um Ihre Herzinsuffizienz-Symptome
nicht zu verschlechtern.“ Aber auch hier könnte man darüber nachdenken, ob hier
gefragt ist, ob ich es verstehe, vielleicht einfach glaube oder gar selber umsetze?
Nicht zuletzt könnten diese Fragen auch eine Verfälschung durch soziale Erwünschtheit enthalten (Nederhof, 1985). Die niedrige Konsistenz dieser Skala,
mangelnde Konstruktvalidität und die daraus resultierende geringe Teststärke bei
obigen Vergleichen lassen sich auf die inhaltliche Uneindeutigkeit dieser Fragen
zurückführen.
Die Items zur sozialen Beeinträchtigung beziehen sich auf die Bereiche Hobbies
und Freizeitaktivitäten (15a), Intime Beziehungen (15b), Besuch bei Familienmitgliedern oder Freunden außerhalb der Wohnung (15c) und Arbeit / Hausarbeit
170
(15d). Die Skala des SF-36 Soziale Funktionsfähigkeit besteht aus zwei zueinander sehr ähnlichen Items, die erfragen, ob körperliche oder seelische Probleme die
Kontakte zu anderen beeinträchtigt haben. Die Korrelation zwischen den Skalen
des KCCQ und des SF-36 zur sozialen Beeinträchtigung fällt befriedigend aus
(r=0.59). Die Frage 15b nach intimen Beziehungen wies die geringste Trennschärfe und die höchste Zahl von Missings auf. Möglicherweise ist dies ein Hinweis
darauf, dass die Frage ungern und vielleicht wegen ihres Inhaltes nicht immer
wahrheitsgemäß beantwortet wird. Die Fragen des KCCQ in dieser Skala erscheinen auf den ersten Blick recht unterschiedlich, was jedoch nicht durch eine
niedrige interne Konsistenz, die mit einem Cronbachs alpha von 0.86 recht hoch
ausfällt, bestätigt wird.
Die drei Items zur Lebensqualität erfragen, inwieweit die Herzinsuffizienz die
Lebensfreude und den Gefühlszustand beeinträchtigt oder Entmutigung und
Deprimiertheit auslöst. Hierzu am ähnlichsten verhalten sich die Skalen Psychisches Wohlbefinden des SF-36, die Skala Vitalität, die Depressionsskala des PHQ
und der BDI. Die Skala Psychisches Wohlbefinden setzt sich aus fünf Items
zusammen, in denen verschiedene Gefühlsqualitäten der letzten vier Wochen
erfragt werden: sehr nervös, so niedergeschlagen, dass Sie nichts aufheitern
konnte, ruhig und gelassen, entmutigt und traurig sowie glücklich. Auf ähnliche
Weise erfasst die Skala Vitalität des SF-36 mit drei Items die Merkmale voller
Schwung, voller Energie sowie erschöpft und müde. Die Korrelationen mit diesen
Skalen fallen mit r>0.60 ausreichend gut aus. Dies verdeutlicht, dass der KCCQ
mit den drei eindeutig formulierten Fragen zur Lebensqualität es schafft, einen
recht großen Bereich von Lebensqualität und Depressivität relativ homogen
abzubilden. Die Skala zeigt auch, dass es mit drei Items gut möglich ist eine hohe
interne Konsistenz (Cronbachs alpha=0.87) zu erreichen.
Die Frage der Symptomstabilität im KCCQ bezieht sich auf einen Zeitraum von 14
Tagen. Das Pendant im SF-36 bezieht sich als Vergleich auf einen Zeitraum von
einem Jahr. Aus dieser Diskrepanz heraus lässt sich verstehen, warum die
Korrelation dieser beiden Fragen sehr niedrig ausfällt. Ein weiterer Prüfungsversuch dieser Frage, anhand des Vergleichs der Werte der Änderungssensitivitätskohorte mit der Reliabilitätskohorte, erwies das Item ebenfalls nicht als
valide. Zwar unterscheiden sich die Antwortverteilungen zwischen denen, die sich
auf der Skala Symptome verbessert haben und den übrigen, allerdings werden
171
hierbei immer noch ein Drittel falsch zugeordnet. Diese Ergebnisse können aber
auch darauf zurückzuführen sein, dass unsere Validierungskriterien selbst ungeeignet bzw. nicht reliabel sind. Inhaltlich erscheinen gerade diese Fragen des SF36 und des KCCQ sehr anfällig für Gedächtniseffekte oder Einflüsse des momentanen Befindens. Osoba et al. (1998) nutzen eine ähnliche Frage in ihrem „subjective significance questionnaire“ (SSQ), bezogen jedoch mehrere Fragen dieser
Art direkt auf Domain-Bereiche eines Vergleichfragebogens (QLQ-C30) und den
Zeitraum seit dessen letzter Bearbeitung (4 Wochen). Sie konnten so für die einzelnen subjektiven Angaben der Änderung (no change, a little better, moderately
better, very much better usw.) Effektstärken berechnen, die der Einteilung von
Cohen (1988) sehr ähnlich waren. Diese Ergebnisse ermöglichten nun eine
bessere Beurteilung (subjektive Verankerung) von Effektstärken dieses Fragebogens. Die subjektive Veränderungseinschätzung (SSQ-Ratings) korrelierte jedoch
nur sehr schwach (r=0.23 bis 0.45) mit den Änderungswerten in der jeweiligen
zugeordneten Domäne und sogar jeweils höher mit der globalen Lebensqualitätseinschätzung (r=0.36 bis 0.50). Die Autoren vermuten als Gründe hierfür Schwächen in der Formulierung der Ein-Item-Skalen, um das Konstrukt der Domäne
angemessen zu vermitteln. Weiter diskutieren sie Gedächtnisprobleme in Folge
des langen Intervalls (4 Wochen). Obgleich diese Ergebnisse nicht sehr ermutigend sind, gibt es in der modernen Forschung zur Fragebogenkonstruktion, gerade
auch wegen der Probleme der gängigen Skalenkonstruktionsmethoden, einen
Trend zu möglichst inhaltlich validen Items bzw. auch Ein-Item-Skalen (Yousfi
2003).
Der Funktionale Status des KCCQ ist eine Zusammenfassung der Skalen Symptome und Körperliche Einschränkung. Vergleichbar wäre hierzu die Körperliche
standardisierte Summenskala des SF-36, die besonders die körperliche Dimension
abbildet. Der Zusammenhang der beiden Variablen fällt mit r=.71 sehr überzeugend aus.
Die Skala Klinische Zusammenfassung ist der Summenwert aller Skalen des
KCCQ mit Ausnahme der beiden Skalen Symptomstabilität und Selbstwirksamkeit.
Die Korrelation mit der Körperlicher Standardisierten Summenskala des SF-36 fällt
dabei höher aus (r=.67) als mit der Psychischen Summenskala (r=.59). Dies mag
darauf zurückzuführen sein, dass die symptomorientierten Fragen im KCCQ
172
überwiegen und auch die emotionsbezogene Skala Lebensqualität sich auf die
Symptome als Voraussetzung beziehen.
Die Korrelation des Klinischen Summenwertes mit dem Konstrukt Depression
(PHQ, Summenwert der Depressionsskala) fällt jedoch fast ebenso hoch aus (r=.65). Dies wirft die Frage auf, ob sich hinter dem Konstrukt Lebensqualität nicht
doch im Wesentlichen eine umgekehrte Depressionsskala verbirgt (vgl. Ruo et al.
2003). Ein hoher Anteil der vorhersagbaren Varianz von Lebensqualität kann auf
Persönlichkeitsaspekte zurückgeführt werden (Diener, Suh, Kucas & Smith, 1999;
Herschbach, 2002). Insofern erscheint das krankheitsspezifische Konstrukt der
Lebensqualität die Wechselwirkung zwischen Symptomen, allgemeinen Persönlichkeitszügen und verschiedener Mustern der Krankheitsverarbeitung (ggf. Depressivität) zu erfassen. Unter diesem weiter gefassten Aspekt betrachtet, könnte
eine hohe Assoziation zwischen der Depression und der Lebensqualität (ein
Haupteffekt der Depression auf die Lebensqualität unter Kontrolle der NYHAklasse in unserem Versuchsplan) toleriert werden, da man sie als Teil des Konstruktes gesundheitsbezogene Lebensqualität verstehen könnte. Bei den Herzinsuffizienten jedoch kann die Krankheitsverarbeitung leicht zu einer depressiven
Störung führen. Der hohe Anteil von 30% positiv auf Depression gescreenten
Patienten
könnte
somit
Lebensqualitätsgesamtwert
vorausgesetzt,
dass
auch
und
eine
zu
dem
der
hohen
Depressionswert
Depression
auch
Korrelation
zwischen
beigetragen
immer
mit
haben,
niedrigeren
Lebensqualitätswerten einhergeht. Andererseits wurde jedoch mit dem response
shift ein messtheoretisches Problem diskutiert und beschrieben, welches,
besonders bei schweren körperlichen chronischen Erkrankungen, durch eine
Veränderung der Bewertung des Patienten zu einer Verbesserung seiner selbst
eingeschätzten Lebensqualität führen kann (Güthlin, 2004). Beide Zustände,
Depression oder Adaptation (response shift) führen zu einer erheblichen und
gegenläufigen
Diskrepanz
symptombezogenen
in
der
subjektiven
Bewertung
Situation,
die
methodisch
bei
der
der
aktuellen
Erfassung
der
Lebensqualität unbedingt einer Kontrolle bedarf, damit Evaluationsergebnisse nicht
durch den Faktor Depression möglicherweise konfundiert werden.
173
Eignet
sich
der
KCCQ
für
evaluative
Fragestellungen
(Änderungs-
sensitivität)?
Die Eigenschaft eines Messinstrumentes, Veränderungen im Krankheitsverlauf
oder unter der Behandlung abzubilden, wird als Änderungssensitivität bezeichnet
(sensitivity to change; Schuck, 2000). Dafür wurde eine Kohorte von kardial
dekompensierten stationären Patienten zu zwei Zeitpunkten untersucht. Die erste
Messung erfolgte möglichst früh im dekompensierten Zustand, die zweite Messung
im rekompensierten vier Wochen später. Es wurden die zwei gebräuchlichsten
Effektstärken, die standardized effect size (SES) und die standardized response
mean (SRM; Schuck, 2000), für die Änderungssensitivitäts- und die Reliabilitätskohorte berechnet sowie deren Konfidenzintervalle. Daneben wurde zur Vergleichbarkeit mit Green et al. (2000) noch der Guyatt’s-Responsiveness-Index (GRI), als
ein weiteres Maß für die Änderungssensitivität, berechnet. Unter der Annahme,
dass bei der Konstruktion der Skalen mit Hilfe von Betroffenen erreicht wurde,
dass die kleinsten numerischen Ratingkategorien mit der kleinsten bedeutsamen
klinischen Veränderung für einen Patienten zusammenfallen, wurde in Anlehnung
an Kazis et al. (1989) der kleinste klinisch bedeutsame Veränderungswert für jede
Skala des KCCQ bestimmt. Aus diesen Veränderungswerten wurden die noch
klinisch bedeutsamen minimalen standardized effect sizes (SES) und standardized
response means (SRM) berechnet. Die kleinste klinisch bedeutsame Veränderung
hat inhaltlich die Bedeutung, dass sie die kleinste mögliche Veränderung für eine
Person darstellt, indem diese in irgendeinem Item (ceteris paribus) einen höheren
Wert ankreuzt. Vergleicht man diesen Wert auf der Gruppenebene, so verlangt er
implizit, dass sich jeder Patient der Kohorte um einen Punkt in einem Item verändert, damit der Wert überschritten wird.
Als weiterer Orientierungspunkt zur Beurteilung der Effektstärke wurde die SRD
(Smallest Real Difference) berechnet. Sie gibt den Differenzbetrag einer Wiederholungsmessung an, der noch innerhalb des 95% Vertrauensintervalls (Standardmessfehler der Differenzwerteverteilung) liegt und überschritten werden sollte. Die
Häufigkeit der Überschreitung dieser Grenze kann nun auch als Änderungssensitivität gewertet werden, die anders als die Effektstärke auch von der Reliabilität des
Fragebogens beeinflusst ist (Schuck & Zwingmann, 2003). Da der Vergleich zwischen dem KCCQ und dem SF-36 auf Basis von Effektstärken betrachtet wurde,
haben wir zunächst die SRD als Berechnungsgrundlage für eine zu erwartende
174
Effektstärke (SES und SRM) benutzt und nicht analog der Psychotherapieforschung die verschiedenen Prozentwerte derjenigen bestimmt, die den kritischen
Wert überschreiten, wie es Schuck und Zwingmann (2003) empfehlen. Dadurch
reduzierte sich dieses Kriterium für diese Auswertung auf die Frage, ob die mittlere
Veränderung den kritischen Wert überschreitet.
Bei dem Einsatz des Fragebogens zur Bewertung von Veränderungen auf Seiten
der Patienten als Individuen oder auf der Gruppenebene gibt es statistische Kennwerte im Sinne einer Weiterentwicklung des RCI (Reliable-Change-Index,
Jacobson & Truax, 1991) und der Effektstärke durch Steyer, Hannöver u. Telser
(1997), die die messfehlerbedingte Regression zur Mitte und dadurch den
Standardmessfehler auch bei der Berechnung der Effektstärke mitberücksichtigen.
Eine Anwendung immer neuerer Berechnungsarten würde jedoch deutlich zu
Lasten der Vergleichbarkeit gehen (Schuck und Zwingmann, 2003).
Die Ergebnisse der Änderungssensitivitätskohorte sollten idealerweise zeigen,
dass die veränderungsrelevanten Skalen eine signifikante Effektstärke erreichen,
die die Effektstärke der SRM (Smallest Real Difference) und die Effektstärke der
minimal clinical important difference sowie die Effektstärken des SF-36 als Vergleichstandard überschreiten. Darüber hinaus sollten die Ergebnisse von Green et
al. (2000) repliziert werden.
Die Replizierung der Effekte von Green et al. (2000) gelang nur bedingt. Bei Green
et al. (2000) und in unseren Daten erreichten zwar die gleichen Skalen die relativ
höchsten Werte in der Änderungssensitivität (GRI), jedoch fielen sie bei uns deutlich niedriger aus (Tabelle 38, S. 124).
Die vorliegenden Daten lagen in allen Skalen weit unter denen der Arbeitsgruppe
um Green. Dies lässt vermuten, dass unser Design zur Veränderungsmessung
nicht genügend natürliche Veränderung aufwies, wofür es leider einige Hinweise
gibt. Anderenfalls müsste man folgern, dass die deutsche Version weniger änderungssensitiv sei.
Die Verteilung der Antworten auf der Frage der Symptomstabilität sowie die Einschätzung der Selbstwirksamkeit der Änderungssensitivitätskohorte sprechen für
die erste Interpretation: Sie zeigen, dass die Herstellung der Bedingung „dekompensiert“ versus „rekompensiert“ nicht gut gelungen ist. Die „Dekompensierten“
verstanden sich zum Teil bei der ersten Messung auf der Ein-Item-Skala als schon
175
verbessert, und zwei Wochen später beschrieben sich die „Rekompensierten“
wieder als verschlechtert.
Zwar könnte eine Ein-Item-Skala über die letzten zwei Wochen sicherlich Verfälschungen unterliegen (Igl et al. 2005), jedoch ist hier ihr Ergebnis zunächst als ein
Indikator dafür zu werden, dass der Versuchsplan nur unzureichend umgesetzt
werden konnte.
Die Berechnung des GRI unterlag mehren Einschränkungen: Im Idealfall müsste
eine Gruppe, die sich verändert, sowie eine stabile Gruppe randomisiert und
gleichzeitig erhoben werden. In unserem Fall liegen zwei unterschiedliche, zeitlich
verschobene Stichproben vor: Die änderungssensitive Gruppe besteht aus Dekompensierten, die Reliabilitätsgruppe ist eine selektierte Untergruppe aus stabilen
Patienten. Das Intervall zwischen beiden Gruppen ist unterschiedlich lang (8 Tage
versus 4 Wochen) und zu verschiedenen Zeitpunkten verlaufen. Bei Green et al.
(2000) waren es je drei Monate. Die Differenz der Intervalle wirft die Frage auf, ob
die eine Gruppe mehr als die andere unterschiedlichen Einflüssen unterworfen war
(Veränderung durch natürliche Veränderung oder in Folge von Gedächtniseffekten). Diese Möglichkeit schränkt die Vergleichbarkeit unserer Werte mit denen
von Green et al. ein. Den höchsten GRI-Wert erhielten die Skalen Symptome
(GRI=1.1) und Körperliche Einschränkung (GRI=0.62). Diese Skalen bilden am
ehesten (wegen ihrer Ähnlichkeit zur NYHA-Klasse s. Kapitel 2.1) die Veränderung
eines rekompensierten Herzinsuffizienten vier Wochen nach einer Dekompensation ab. Der Effekt der Skala Selbstwirksamkeit ist mit 0.19 deutlich niedriger und
dürfte angesichts der unklaren psychometrischen Eigenschaften dieser Skala nicht
eindeutig zu interpretieren sein. Dieser Effekt, wie die übrigen auch, ist darüber
hinaus auch deutlich niedriger als die kleinste klinisch zu erwartende bedeutsame
Veränderung in Effektstärkeneinheiten (s. u.). Dass nur die symptomorientierten
Skalen einen relativ hohen Wert erreichen, ist sehr wahrscheinlich auf unser Design zurückzuführen: Die Art der Veränderung war eine Erholung bzw. medizinische Behandlung nach einer Dekompensation, es war keine psychosoziale Intervention, die auf eine Veränderung der Lebensqualität abzielt.
Lediglich diese Skalen (Symptome, Körperliche Einschränkung und die daraus
gebildeten Skalen Funktionaler Status und Klinische Zusammenfassung) der
Änderungssensitivitätskohorte erreichen eine größere Differenz als die vorhergesagte kleinste bedeutsame Differenz der Effektstärke.
176
Allerdings sind diese Effekte nicht so groß, dass man sie unter Berücksichtigung
des Messfehlers als statistisch bedeutsam einschätzten kann. Alle Mittelwertsdifferenzen der Skalen sind geringer als die minimal real difference, so dass es nur
auf wenige Patienten zutreffen dürfte, sich auf den Skalen reliabel verändert zu
haben.
Grigioni et al. (2003) zeigten, dass die Behandlung der Herzinsuffizienz auf Parameter abzielt, die sich nicht unmittelbar auf den Maßen der Lebensqualität abbilden (LiHF). Hieraus folgern sie, dass psychologische Interventionen mehr gefördert und untersucht werden müssten, da sie für das subjektive Wohlbefinden
wesentlich effektiver sein könnten.
Die Effektstärken der SF-36-Skalen sind durchweg nicht statistisch bedeutsam
(Konfidenzintervall schließt 0 mit ein). Überraschenderweise zeigen die Skalen
Körperliche Rollenfunktion, Allgemeine Gesundheitswahrnehmung, Körperliche
Schmerzen und Soziale Funktionsfähigkeit negative Vorzeichen in der Effektstärke. Dies bedeutet, dass sich der Zustand der Patienten hier im Durchschnitt auf
diesen Skalen, wenn auch nur minimal und nicht statistisch bedeutsam, verschlechtert hat. Eine Erklärung hierfür könnte sein, dass diese Items eher in
Hinblick auf die zurückliegende Dekompensation beantwortet wurden, da das
Frageintervall des SF-36 mit vier Woche bis an die Dekomepensation heranreichte. Darüber könnten einige Fragen des SF-36 „Ich erfreue mich ausgezeichneter Gesundheit“ durch ihre positive Formulierung einen Kontrasteffekt hervorgerufen haben. Ferner könnten die negativ formulierten Fragen des SF-36 so wirken,
dass die Aufmerksamkeit auf den Tiefpunkt der Leistungseinschränkung geführt
wird („Hatten Sie in der vergangenen 4 Wochen aufgrund Ihrer körperlichen Gesundheit
irgendwelche Schwierigkeiten bei der Arbeit oder anderen alltäglichen Tätigkeiten im Beruf
bzw. zu Hause?“).
Eine statistisch bedeutsame Verbesserung zeigt der SF-36 nur mit der Frage zur
Gesundheitsveränderung (SES=0.76; 95% CI 0.38-1.1) an. Die signifikante
Veränderung nur in dieser Skala lässt vermuten, dass es Auswirkungen der Dekompensation gab, aber sich diese nicht auf den anderen Skalen abbilden ließ.
Eine vergleichsweise noch recht hohe Effektstärke weist der SF-36 in der Skala
Vitalität (0.31) auf, welche inhaltlich betrachtet eigentlich auch hätte noch größer
ausfallen können, da Fragen mit Zustandsbeschreibungen wie „voller Schwung“,
„voller Energie“, „erschöpft“ und „müde“ durchaus die Symptome einer kardialen
177
Dekompensation erfassen könnten (s. Kapitel 2.1). Dass im Vergleich hierzu der
KCCQ auf den Skalen Symptome und Körperliche Einschränkung bedeutsame
Effektstärken abbilden konnte, weist ihn für die Population der Herzinsuffizienten
als geeignetes und änderungssensitiveres Instrument aus.
Beim Vergleich der Änderungssensitivitätskohorte mit der Reliabilitätskohorte fallen
die Effektstärken der Skalen Lebensqualität und Soziale Einschränkung in der SES
und SRM sogar geringer aus. In der SRM-Effektstärke fällt auch die Skala Klinischer Summenwert geringer aus (0.24 versus 0.22, beide nicht signifikant). Dieser
Effekt könnte auf zweierlei Art interpretiert werden: Die Skalen Lebensqualität und
Soziale Einschränkungen erfassen stabilere, überdauernde Merkmale, die sich
nicht so schnell verändern, auch wenn die Krankheit sich kurzfristig rapide verschlechtert hat. Hierfür spräche, dass Persönlichkeitseigenschaften generell als
stärkster Prädiktor für die Lebensqualität gelten können (Heller et al. 2004; Diener
et al. 1999). Headey und Waring (1992) vermuten eine Art „Baseline“ oder „Set
point“ für das Wohlbefinden bzw. Glücksempfinden, wodurch ein direkter situationaler Einfluss auf die Lebensqualität gemindert würde (vgl. Herschbach, 2002).
Die höheren Veränderungen in der Reliabilitätskohorte auf diesen Skalen könnten
auf das geringere Zeitintervall zwischen den Messungen attribuiert werden. Ein
kurzes Zeitintervall könnte einen reaktiven Messeffekt (Artefakt), d. h. eine Veränderung des zu messenden Objekts durch die erste direkte Befragung, wahrscheinlicher machen (Campbell, 1957; Petermann & Noack, 1993, Gigerenzer,
1981).
Mehrere Faktoren könnten die im Vergleich zu Green et al. (2000) niedrigen GRIWerte erklären: Dass durch einen denkbaren reaktiven Messeffekt vergrößerte
Rauschen in der Reliabilitätskohorte, ein zu kleines Wiederholungsintervall und
eine symptombezogene Regenerierung in der Änderungssensitivitätskohorte. 6.
Lassen sich mit dem KCCQ unterschiedliche Lebensqualitätswerte in
Abhängigkeit von der Schwere der Erkrankung feststellen (diskriminative
Validität bzw. known groups validity)?
Zur psychometrischen Prüfung des KCCQ wurden Patientengruppen mit unterschiedlichem Schweregrad der Erkrankung (NYHA-Klassen) hinsichtlich ihrer
Lebensqualität verglichen. Für die meisten Skalen des KCCQ konnte eine erwartete Abhängigkeit von der NYHA-Klasse nachgewiesen werden. Die Ausnahmen
sind das Item zur Symptomstabilität und die Skala Selbstwirksamkeit. Die Skala
178
Selbstwirksamkeit scheint von der NYHA-Klasse in unseren Daten unabhängig zu
sein, was in Bezug auf die Validität der Skala schwer zu beurteilen ist. Eigentlich
könnte das Wissen mit der fortschreitenden Erkrankung zunehmen, aber andererseits könnten auch stärkere Symptome den Patienten mehr verunsichern.
Der SF-36 weist in allen Skalen eine signifikante Abhängigkeit von der NYHAKlasse auf. In den Einzelvergleichen zeigt sich jedoch, dass der KCCQ mit seinen
Skalen zwischen den NYHA-Klassen besser zu trennen vermag. Hier sind die
Differenzen der Skalen Symptome, Körperliche Einschränkung und die Summenskalen in allen Einzelvergleichen zwischen den NYHA-Klassen signifikant. Beim
SF-36 trifft dies nur für die Skalen Körperliche Funktionsfähigkeit und Vitalität zu.
Somit weisen beide Fragebögen zwei Skalen auf, die zwischen allen NYHAKlassen trennen können. Bei dem KCCQ summieren sich dann noch die Tendenzen aus allen Skalen, so dass auch die übergeordneten Summenskalen trennen
können.
Die weniger symptomorientierten Skalen Lebensqualität und Soziale Einschränkung des KCCQ können nicht zwischen allen NYHA-Klassen in den Einzelvergleichen signifikant trennen. Dies mag inhaltlich bedeuten, dass diese Skalen durch
mehrere andere Faktoren als die NYHA-Klasse wie z.B. Krankheitsverarbeitungsfaktoren beeinflusst werden.
Bullinger (2002) hält die Annahme der Parallelität zwischen dem klinischen funktionalen Status und der gemessenen Lebensqualität, die bei der diskriminativen
Validität vorausgesetzt wird, für theoretisch nicht zwingend.
Je nach theoretischer Modellannahme über die Lebensqualität, analog einer Persönlichkeitseigenschaft oder einer eher sozialpsychologischen Sichtweise, ergeben sich unterschiedliche Herangehensweisen an dieses Kriterium. Betrachtet man
die Lebensqualität als messbare Eigenschaft, so muss diese nicht notwendigerweise mit der NYHA-Klasse assoziiert sein. Betrachtet man sie hingegen als eher
situatives Urteil über den eigenen Gesundheitszustand, so erscheint eine Assoziation je nach Skala als wichtiges Validitätskriterium. Für die Skalen Symptome
und Physische Einschränkung erscheint so eine gute diskriminative Validität mit
dem Kriterium der NYHA-Klasse als zwingend, für die restlichen Skalen jedoch
nicht.
179
Bleibt die diskriminative Validität des KCCQ für die Bestimmung einer
krankheits-bezogenen Lebensqualität auch für depressive chronisch herzinsuffiziente Patienten erhalten?
Unsere Hypothese über die known groups validity in Abhängigkeit von der Depressivität wurde anhand eines 4×2 varianzanalytischen Versuchsplans mit den
unabhängigen Variablen NYHA-Klasse und Depressionsscreening überprüft. Sie
lautete, dass im Idealfall nur die Skala Lebensqualität als abhängige Variable einen
Interaktionseffekt aufweisen sollte. Über einen möglichen Haupteffekt haben wir
keine Hypothesen aufgestellt, da er im Sinne der diskriminativen Validität und je
nach inhaltlichem Verständnis des Konzeptes Lebensqualität tolerierbar erscheint.
Weniger tolerierbar ist er jedoch für den Forscher, der den Faktor Depression nicht
kontrolliert, wodurch die interne Validität von Studienergebnissen stark beeinträchtigt wird. Aufgrund der bisherigen Datenlage in der Literatur ist ersichtlich,
dass es den Haupteffekt gibt (Kroenke et al. 2001, Spertus et al. 2000, Sullivan et
al. 2001, Rumsfeld et al. 2003) und dass er aufgrund seiner Stärke unbedingt
kontrolliert werden muss (Krischke & Petermann, 2000).
Der Haupteffekt betrifft auch die Frage, wie spezifisch die krankheitsspezifische
Lebensqualität im Gegensatz zu einem generischen Instrument erfasst wird.
Der Haupteffekt, welcher besagt, dass die positiv auf Depression gescreenten
Patienten durchweg eine niedrigere Lebensqualität aufweisen, erwies sich in allen
Skalen des KCCQ als signifikant. In der Skala Körperliche Einschränkung zeigt
sich dieser Effekt jedoch eher nur bei den NYHA-Klassen II und III, weshalb er
auch am schwächsten ausfällt (p=0.049). Denkbar wäre hier, dass in den NYHAKlassen I und IV ein Boden- bzw. Deckeneffekt den Depressionshaupteffekt
unterdrücken konnte.
Das Problem, welches hier allerdings bei der Interpretation eines Haupteffektes
auftritt, ist ein wohl bekanntes, aber gerne ignoriertes (Goode, 2001). Bartoshuk
(1991) weist auf dieses Problem immer wieder hin: Wenn man zwei verschiedene
Gruppen im Sinne eines quasiexperimentellen Designs miteinander vergleicht,
könne man niemals wissen, ob bei einem Effekt dieser darauf zurückzuführen ist,
dass sich die Gruppen tatsächlich unterscheiden oder ob für beide Gruppen
lediglich das Verständnis der Ratingskala verschieden ist. In unserem Sinne hieße
das, dass nicht ausgeschlossen werden kann, dass ein depressiver Patient die
Formulierung „wie beschwerlich … “ ganz anders versteht als ein nichtdepressiver.
180
Obgleich dieses Problem für die vorliegende Studie nicht zu lösen ist, sollen einige
Hypothesen über den in unseren Daten gefundenen Haupteffekt diskutiert werden.
Es wurde versucht, mögliche Konfundierungen zu entdecken und auszuschließen.
Im Falle des Geschlechtseffektes liegt eine sehr geringe Konfundierung vor, die
wegen der zu kleinen Zellenbesetzung nicht als zusätzliche unabhängige Variable
kontrolliert werden konnte.
Die gefundenen niedrigen Interaktionseffekte mit Ausnahme bei der Skala Lebensqualität und die konsistenten Haupteffekte der Depressivität bzw. die sämtlich
hohen Korrelationen zwischen den Maßen der Depressivität und den Lebensqualitätsskalen zeigen, dass eine depressive Störung durchgängig mit einer
niedrigeren Einschätzung der Lebensqualität einhergeht. Dies macht deutlich, dass
der KCCQ nicht nur die Lebensqualität in Bezug auf die Herzinsuffizienz misst,
sondern auch die Einschränkungen durch eine depressive Störung miterfasst.
Lang et al. (2000) konnten in ihrer Studie zur Lebensqualität in verschiedenen Altersgruppen zeigen, dass Depressivität bei Älteren im Gegensatz zu Jüngeren und
Mittelalten mit einem erhöhten Belastungserleben einhergeht. Schwierigkeiten
werden von älteren Depressiven vor allem im Kontext ihrer Haushaltsführung
beschrieben. Die Autoren nehmen an, dass gerade im Alter die Lebensqualität
maßgeblich durch eine Auseinandersetzung mit funktionalen Verlusten und
Einbußen bestimmt ist. In diesem Sinne sind die stärker eingeschränkten herzinsuffizienten Patienten besonders anfällig für eine depressive Störung und eine
Einbuße an Lebensqualität.
Die Fragen des KCCQ beziehen sich immer explizit auf die Auswirkung der Herzinsuffizienzsymptome und versuchen so, hauptsächlich deren Anteil an der
Lebensqualitätseinschränkung zu erfassen. Dass diese bedingte Beantwortung
von den Patienten nicht geleistet werden kann und sie vermutlich nicht trennen
können zwischen einer Deprimiertheit in Folge einer Depression oder ihrer Herzinsuffizienzsymptome, unterstützen die Forschungsergebnisse zu Attributions- bzw.
Fehlattributionsprozessen (Kahneman & Tversky, 1982; Kruglanski & Ajzen, 1983;
Higgins, 1989). Ihnen gemäß würde man annehmen, dass das Urteil stark von
salienten Faktoren und Urteilsheuristiken (z.B. Verfügbarkeit) abhängig ist. Eine
depressive Stimmung könnte so als salientes Merkmal ein subjektiv logischer
Grund sein, die durch die Frage angesprochenen Symptome als besonders beschwerlich und auch als häufiger einzuschätzen. Da eine alternative Attribution für
181
eine depressive Stimmung in den Fragen des KCCQ nicht angeboten wird, wäre
es gemäß der Grice’schen Konversationslogik zu erwarten, dass die Patienten
möglichst informativ, relevant und erschöpfend antworten. Sie betrachten die
Frage des KCCQ als relevant und akzeptieren so die angebotene Ursache für ihr
Gesamtbefinden. Es wäre interessant zu überprüfen, ob sich der Haupteffekt des
Depressionscreeningstatus durch eine vorangehende Frage einer plausiblen
alternativen Ursache, wie z.B. „Leiden Sie häufig an Ermüdung und Traurigkeit in
Folge mangelnder Vitamine?“ aufheben ließe.
Neben dieser kognitiven Sicht auf den Urteilsprozess wird im Allgemeinen angenommen, dass Depressive mehr Symptome wahrnehmen. Interessanterweise
können wir aufgrund der Skala Symptome, die sich aus der Unterskala Symptomhäufigkeit und Symptomschwere zusammensetzt auch bestimmen, ob die positiv
gescreenten Depressiven nur die Schwere ihrer Symptome überschätzen oder
auch deren Häufigkeit. Die Fragen zur Schwere sind tendenziell geringer mit dem
Depressionsstatus korreliert als die Fragen zur Häufigkeit der gleichen Symptome
(Tabelle 51, S. 147). Auch die einfache Alternativerklärung, dass die positiv gescreenten depressiven Patienten insgesamt doch schwerer krank sein könnten,
lässt sich anhand der medizinischen Parameter in unseren Daten nicht nachweisen. Die Effektgröße der Lebensqualitätseinbuße durch eine Depression entspricht
in unseren Daten jeweils der nächsthöheren NYHA-Klasse der nicht depressiven
Herzinsuffizienten. Eine Unterschätzung der NYHA-Klasse erscheint aber unwahrscheinlich, da man eher erwarten könnte, dass die NYHA-Klasse vom Arzt wegen
der depressiven Symptome eher überschätzt werden könnte. In der Psychologie
wurde die Frage, wie Menschen zu einem Urteil kommen, lange Zeit im Forschungsparadigma der Heuristiken und Urteilsfehler konzeptualisiert und erforscht.
Bekannt wurden hierbei vor allem die Studien von Tversky und Kahnemann
(1982). Die Autoren nannten es z.B. Verfügbarkeitsheuristik, wenn man etwas als
wahrscheinlicher einschätzte, was einem schneller in den Sinn kam. Dieser Ansatz
wurde vielfach kritisiert und mit alternativen Mechanismen erklärt. Betsch und
Fiedler (1999) konnten beispielsweise durch Priming zeigen, dass es die Aktivierung eines Konzeptes ist, die die Wahrscheinlichkeitsschätzung vorhersagt. In
diesem Sinne könnte man vermuten, dass den Depressiven ihre Beschwerden, die
im KCCQ erfragt werden, einfach präsenter bzw. leichter zugänglich sind. Aufgrund der Merkmale einer Depression, wie Antriebsminderung, Müdigkeit,
182
Schwächegefühlen etc., könnten die Depressiven ihre Symptomatik entsprechend
verstärkt erleben und als beschwerlicher enkodieren und leichter abrufen. Dass
Depressive einen besseren Zugang zu negativen Gedächtnisinhalten haben und
daher vielleicht auch ihre Symptome präsenter haben, entspräche der Stimmungskongruenzhypothese (Teasdale & Taylor, 1981), deren Bestätigung im Rahmen
einer experimentellen Psychopathologie allerdings uneinheitlich ausfällt (Gallassi,
Morreale & Pagni, 2001). Empirisch lässt sich jedoch eher finden, dass Depressive
ein schlechteres (autobiografisches) Gedächtnis in Reaktion auf positive Stimuli
zeigen, aber gleich gute Leistungen in Bezug auf negative Stimuli (Williams &
Scott, 1988; Kuyken & Dalgleish, 1995). Es wäre daher also auch zu überlegen,
dass die positiv auf Depression gescreenten ihre Symptome vielleicht sogar nur
präziser als die Nichtdepressiven wiedergeben und die Nichtdepressiven ihre
Lebensqualität nach oben verzerren, weil sie die Häufigkeit und Beschwerlichkeit
ihrer Symptome systematisch unterschätzen. Dafür dass nicht depressive „Gesunde“ positiven unrealistischen Illusionen unterliegen, haben Taylor und Brown
(1988, 1994) zahlreiche experimentelle Befunde gesammelt. Auch ist es ein
Merkmal gerade Nichtdepressiver, dass sie sich an immer wieder neue verschlechterte Situationen ihres Gesundheitszustandes gewöhnen können und sich
ihre Lebensqualität sogar steigen kann (Herschbach, 2002, Sprangers & Schwarz,
1999). Umgekehrt wird diskutiert, dass eine depressive Störung im Zuge einer
Krankheitsverarbeitung dann entsteht, wenn die Werte und Ziele des Betroffenen
sich nicht der neuen Situation anpassen (Carver & Scheier, 2000).
Aus den gesammelten Befunden von Heller et al. (2004) zur situativen versus
personalen Beeinflussung der Lebensqualität kann man für die krankheitsspezifische Lebensqualität mutmaßen, dass diese ebenfalls dem Einfluss des
allgemeinen Wohlbefindens und der Persönlichkeit (im Sinne des negative affectivity-Konzeptes nach Watson und Clark 1984) unterliegt. Gerade über diese beiden
Variablen könnte sich der Einfluss der Depressivität auf die Beurteilung der krankheitsspezifischen Lebensqualität auswirken. Die genaueren Zusammenhänge
dieses komplexen Zusammenspiels bedürfen der weiteren Forschung.
Die Zielsetzung von krankheitsspezifischen Instrumenten, die Änderungssensitivität zu steigern (Guyatt, 1993), ist für den KCCQ, wie die Ergebnisse von
Green (2000) und zum Teil diese Arbeit zeigen gelungen. Allerdings dürfen die
absoluten Werte nicht als rein auf die Herzinsuffizienz bezogene Lebensqualität
183
interpretiert werden. Obwohl der KCCQ dies durch die Itemformulierung zu erreichen versucht bzw. dadurch auch die Änderungssensitivität steigert, ist dies nicht
eindeutig gelungen. Die Annahme, dass ein Patient Anteile seiner Lebensqualität
bei der Urteilsbildung genau trennen kann, erscheint zunächst unbegründet. Allerdings gibt es Hinweise, dass die Präzision des Urteils sehr mit konversationslogischen Gestaltung eines Fragebogens zusammenhängt (Schwarz et al. 1991).
Die Berechnung von Normwerten erscheint daher nicht erstrebenswert, es sei
denn, man würde sie als allgemeine Lebensqualität in Folge einer Herzinsuffizienz
interpretieren wollen.
Die diskriminative Validität (known groups validity) ist durch den Haupteffekt nicht
beeinträchtigt, jedoch durch einen Interaktionseffekt. Dieser trat signifikant nur in
der Skala Lebensqualität auf, die psychisches Befinden misst. Dies war erwartet
worden, weil hier der Einfluss der Depressivität auf die Skala ungleich größer sein
sollte. Die diskriminative Validität der Skala Lebensqualität ist also nicht mehr
gegeben, wenn die Patienten komorbid an einer depressiven Störung leiden.
Da im Rahmen dieser Studie die Depression nur mittels eines Screeninginstrumentes (PHQ) diagnostiziert wurde, stellt sich die Frage, in wie weit dies
die Ergebnisse einschränkt. Es ist nicht ausgeschlossen, dass auch eine bloße
Aggravationstendenz ähnliche Effekte hervorbringen würde. So könnten viele
falsch positiv diagnostizierte Depressive ebenfalls die Skalen des KCCQ aggravieren und den Haupteffekt bedingen. Allerdings würde hierdurch kein Interaktionseffekt vorhersagbar. Barth et al. (2004) berichten, dass es aufgrund ihrer Metaanalyse keinen Anhaltspunkt gibt, dass eine validiert klinische Diagnose einem
dimensionalen Screeninginstrument bei der Prognose für KHK-Patienten überlegen ist. Umgekehrt gibt es jedoch dafür Belege, dass die Vorhersage einer KHK
aufgrund einer klinisch validierten Depressionsdiagnose besser ist als aufgrund
eines Fragebogens der depressive Symptome erfragt (Rugulies, 2002; Wulsin,
2003).
Eignet sich der KCCQ auch zu einem Depressionsscreening?
Die obige Eigenschaft der Skala Lebensqualität als Vorteil zu nutzen, indem man
die Skala (bzw. das Item 14) als Screeninginstrument betrachtet, erwies sich
wegen der geringen Sensitivität und Spezifität gegenüber alternativen Verfahren
(PHQ und BDI) in der receiver operating characteristic (ROC-Kurve, s. S. 150) als
unpraktikabel. Auch in einem Regressionsmodell konnte keine Kombination aus
184
Items des KCCQ entdeckt werden, die eine Depression befriedigend vorhersagen
könnten.
Schlussfolgerung aus den Ergebnissen der Validierung der deutschen Version des KCCQ
Die Ergebnisse der Item- und Skalenanalyse, der Reliabilität, der Änderungssensitivität, der faktoriellen Validität und diskiminativen Validität haben gezeigt, dass
die Erwartungen an die Valditätskriterien mit geringen Einschränkungen erfüllt
werden konnten.
Die positive Akzeptanz des KCCQ muss mit der Einschränkung interpretiert werden, dass immerhin 24% die Bearbeitung der Fragebögen verweigert haben, von
denen uns keine Akzeptanzurteile vorliegen. Die Ergebnisse der Item- und Skalenanalyse erfüllen bis auf wenige Ausnahmen die Erwartungen. Die Homogenität und
Trennschärfe der Skalen, die zu den Gesamtwerten addiert worden waren, sprechen für eine gelungene Übersetzung des KCCQ. Einschränkend muss bedacht
werden, dass die Ergebnisse stark von der Zusammensetzung der Stichprobe in
Bezug auf die Zusammensetzung der NYHA-Klassen-Verteilung abhängig sind
und nur mit dieser Einschränkung verallgemeinert werden dürfen. Lediglich bei der
Skala Selbstwirksamkeit fielen schon durch logische Kriterien der Augenscheinvalidität Mängel der Itemformulierungen auf. Diese mangelnde Eindeutigkeit und
leichten Verzerrbarkeit durch die soziale Erwünschtheit spiegelten sich dann auch
in den empirischen Validitätkriterien wieder, die nicht befriedigend erfüllt werden
konnten. Eine weitere Einschränkung betrifft unser Design, mit welchem es nicht
gelungen war, ebenso starke Effekte bei der Änderungssensitivität wie Green et al
(2000) zu erzielen. Dies könnte auf ungünstige Selektionseffekte der Patienten und
des falschen Zeitpunktes der Erhebung bei den „Dekompensierten“ zurückzuführen sein, wodurch die Ergebnisse der Änderungssensitivität nicht in der gleichen Höhe der Effektstärke wie in der amerikanischen Version repliziert werden
konnten.
Praktische Schlussfolgerungen
Ähnlich wie bei Krischke und Petermann (2000) ergeben sich aus obigen Ergebnissen die praktische Schlussfolgerung, dass auf ein Depressionsscreening auf
keinen Fall verzichtet werden darf. Mögliche Konfundierungen in Studien, die die
Depressivität nicht kontrollieren und den KCCQ einsetzen, würden erheblich aus-
185
fallen. Der Konfundierungseffekt entspräche in unserer Studie auf den Lebensqualitätsskalen dem einer Verschlechterung um ca. eine NYHA-Klasse.
Die Verwendung eines zusätzlichen generischen Instrumentes muss je nach
Studienziel abgewogen werden. Der KCCQ erfasst keine reine krankheitsspezifische Lebensqualität, die sich spezifisch von der allgemeinen Lebensqualität
des SF-36 unterscheidet. So korreliert der Summenscore der Klinischen Zusammenfassung mit r=-0.58 genauso hoch mit der NYHA-Klasse wie der Körperliche Summenscore des SF-36. Partialisiert man aus diesen Korrelationen die
Depressivität heraus (PHQ), so verringern sich beide auf den Wert r=-0.48 (KCCQ)
bzw. r-0.49 (SF-36). Dies verdeutlicht, dass die aufgeklärte Varianz der Instrumente bzw. ihre Spezifität bei der Erfassung von „Herzinsuffizienzvarianz“ angesichts einer komorbiden Störung sehr ähnlich und relativ unabhängig von der
Depressivität der Patienten ist.
Die Partialkorrelation des SF-36 Körperlicher standardisierter Summenscore mit
der NYHA-Klasse beträgt nach Bereinigung durch die KCCQ-Skala Klinische
Zusammenfassung nur noch -.29 (p<0.001). Dies bedeutet, dass der SF-36 wenig
spezifische Varianz über den KCCQ hinaus erfasst: nur ca. 8% in Bezug auf den
Zusammenhang mit der NYHA-Klasse. Umgekehrt reduziert sich für diese Variablen der Zusammenhang zwischen KCCQ und der NYHA-Klasse unter Bereinigung
der Varianz des SF-36 auf -.38, was einem spezifischen eigenen Varianzanteil von
ca. 14% entspricht. Die psychische Summenskala des SF-36 korreliert mit der
NYHA-Klasse zu -.26 (p<0.001). Bereinigt man diese Korrelation um die Varianzanteile des KCCQ, so ergibt sich eine positive Partialkorrelation von r=0.16
(p=0.02). Diese entspricht wiederum nur einem Zusammenhang von nur 2,5%
gemeinsamer Varianz mit der NYHA-Klasse. Den Vorzeichenwechsel könnte man
so interpretieren, dass der KCCQ die Information der NYHA-Klasse inklusive deren
emotionaler Belastung aufklärt, so dass die verbleibenden Residuen nur noch
zufällig korrelieren. Darüber hinaus wäre denkbar, dass die positive Korrelation
auch der Ausdruck eines response shifts ist, der mit höherer NYHA-Klasse, d.h.
auch längerer Krankheitsdauer und längerer Adaptation eine höhere Zufriedenheit
mit der Situation andeuten könnte.
Hieraus kann man unter Berücksichtigung der Beschränkung für unsere Studie
folgern, dass der KCCQ etwas spezifischer die funktionale Einschränkung der
Patienten als der SF-36 erfasst.
186
Darüber hinaus muss auch bedacht werden, dass der SF-36, angewendet auf eine
Population krankheitsmäßig homogener Patienten, sehr ungünstige Skaleneigenschaften entwickelt: Seine faktorielle Validität geht verloren und viele Skalen (wie
bei uns etwa die Körperliche Rollenfunktionsskala für die NYHA-Klasse-IV-Patienten) weisen ungünstige Boden- oder Deckeneffekte auf (vgl. Wolinsky et al. 1998).
Was die Erfassung einer generischen Lebensqualität angeht, scheinen die beiden
Instrumente sich in Hinblick auf die Population Herzinsuffizienter wenig zu unterscheiden, vermutlich, weil eine Herzinsuffizienz die generische Lebensqualität
ganz wesentlich beeinflusst. Insofern erscheint für die Population der Herzinsuffizienten der Einsatz zweier Instrumente, eines generischen und eines spezifischen,
nicht zwingend notwendig zu sein. Lediglich, wenn man Populationen Herzinsuffizienter mit geringem Schweregrad untersucht, könnte ein generisches Instrument
zusätzliche Varianz aufklären.
Ausblick
Ein Ziel sollte es für die weitere Entwicklung von Lebensqualitätsinstrumenten sein,
die, wie wir am KCCQ zeigen konnten, doch eher theoretische Trennung zwischen
generisch und spezifisch zu überwinden. Für die häufig bemühte Vergleichbarkeit
(Vorteil der generischen Instrumente) wäre es besser, gut validierte und möglichst
kurze Module (z.B. emotionales Befinden, Sozialkontakte, Rollenfunktion, etc.) mit
guter Änderungssensitivität und ohne Boden- und Deckeneffekte zu entwickeln, die
dann um ein rein symptomspezifisches Modul, je nach untersuchter Population,
nur noch ergänzt werden müssen. Dies hätte den Vorteil, dass die Skalen der
Module über verschiedene Studien und Krankheitsbilder vergleichbar wären und
die Studienpatienten nicht ähnliche Fragen doppelt beantworten müssten. Das
Konzept der allgemeinen Lebensqualität sollte dann allerdings eher an dem Konzept der „reintegration to normal living“ (Wood & Williams, 1987) als theoretische
Konstruktionsgrundlage ausgerichtet sein als an dem Funktionalitätskonzept (Spilker 1996). Auf diese Weise wären Instrumente für die Messung der generischen
Lebensqualität noch allgemeiner einsetzbar und die krankheitsspezifische Lebensqualität würde noch spezifischer ausfallen. Hierdurch wären einerseits die Vergleichbarkeit über verschiedene Krankheitsbilder besser gegeben und andererseits
die Änderungssensitivität der spezifischen Skalen höher.
Der European Organisation for Research and Treatment of Cancer Quality of Life
Core Questionnaire 30 (EORTC QLQ-30) entspricht weitestgehend diesen
187
Kriterien. Er gilt als der verbreiteste Fragebogen für die Erfassung der generischen
Lebensqualität bei Krebspatienten und wird für verschiedene Krebserkrankungen
um spezifische Module erweitert (Fayers und Bottomley, 2002, Aaronson et al.
1988).
Dass der KCCQ auch auf den emotionsbezogenen Skalen sowie hinsichtlich der
sozialen Einschränkung änderungssensitiv ist, müsste in einer Studie untersucht
werden, die entsprechende Interventionen zur Förderung genau dieser Bereiche
einsetzt. Ein Hinweis darauf, dass der KCCQ auch hier genügend änderungssensitiv sein dürfte, liefern die Haupteffekte des Depressionsscreenings auf diesen
Skalen.
Für weitere Studien zur Änderungssensitivität bei Herzinsuffizienten sollte durch
vielfältige Maßnahmen versucht werden (z. B. Übergabe des Fragebogens durch
den behandelnden Arzt), die Verweigerungsrate, der wohl möglich stärker Dekompensierten, zu senken. Viel Aufmerksamkeit verdient die Wahl der Messzeitpunkte, die bei der Wiederholungsmessung nach einer Dekompensation eher weit
auseinander liegen sollten, um saliente Gedächtniseffekte auf den verschiedensten
Skalen zu verhindern. Darüber hinaus sollte versucht werden die Änderungssensitivität auch der emotionsbezogenen Skalen an einem validierten Behandlungssetting zu validieren.
Eine weitere Aufgabe bei der Validierung des KCCQ oder anderen Instrumenten
besteht darin, die Validität dadurch zu untersuchen, dass die Patienten nach dem
schriftlichen Bearbeiten noch einmal interviewt werden, um das angemessene
Verständnis der Fragen zu überprüfen. Nicht zuletzt eröffnet der vorliegende
Haupteffekt der Depression auf den Lebensqualitätsskalen vielfache Forschungsperspektiven. Könnte er durch entsprechende konversationslogische Ausdrucksmöglichkeiten des Patienten verringert werden?
Der response shift ist ein aktuelles Forschungsfeld und verdeutlicht die
Anpassungsleistung, die von eher schwer erkrankten Patienten teilweise geleistet
werden kann. Bei Herzinsuffizienten so scheint es jedoch geschieht das Gegenteil:
die Depressivität nimmt mit der NYHA-Klasse dramatisch zu, was als ein Überforderung der Anpassungsfähigkeit gedeutet werden könnte. Die Erforschung dieser
Anpassungsprozesse, dürfte langfristig zu einer theoretisch besseren Fundierung
der gesundheitsbezogenen Lebensqualität führen und auch zur Entwicklung zu-
188
sätzlicher Behandlungsstrategien, die ergänzend auf die Verbesserung Lebensqualität ausgerichtet werden könnten.
189
6 Zusammenfassung
Die Erfassung der Lebensqualität bei chronischen Erkrankungen ist für die Bewertung des Behandlungserfolges zunehmend wichtiger geworden. Hierfür können
generische und krankheitspezifische Instrumente eingesetzt werden. Der Kansas
City Cardiomyopathy Questionnaire (KCCQ) ist ein krankheitsspezifisches Messinstrument für die Erfassung der Lebensqualität bei chronischer Herzinsuffizienz.
Herzinsuffizienzspezifische Beschwerden und Einschränkungen werden in fünf
Domänen
erfasst:
Körperliche
Einschränkung,
Symptome
(Häufigkeit
und
Schwere), Selbstwirksamkeit, soziale Einschränkungen, Lebensqualität. Diese
Subskalen können zu zwei zusammenfassenden Skalen „Funktionaler Status“ und
„Klinische Zusammenfassung“ aggregiert werden. In der Skala Funktionaler Status
werden nur die körperlichen Symptome und Einschränkungen zusammengefasst,
in der Skala Klinische Zusammenfassung alle obigen Subskalen mit Ausnahme der
Selbstwirksamkeit. Ergänzend verfügt der KCCQ noch über eine Frage zur
Symptomstabilität der Herzinsuffizienz. Die bereits validierte englischsprachige
Originalversion verfügt über sehr gute psychometrische Eigenschaften (Green et
al. 2000).
Die deutsche Übersetzung des KCCQ wird in dieser Studie an einer Stichprobe
von N=234 chronisch herzinsuffizienten Patienten der Herzinsuffizienzambulanz
der Universität Würzburg hinsichtlich ihrer psychometrischen Eigenschaften
untersucht. An einer Unterstichprobe stabiler herzinsuffizienter Patienten (n=30)
wurde die Reliabilität und an einer weiteren Stichprobe von dekompensierten
stationären Patienten (N=37) die Änderungssensitivität (als Erholungseffekt vier
Wochen später) bestimmt.
Die Itemanalyse erbrachte insgesamt ein sehr befriedigendes Ergebnis. Lediglich
die Fragen zur Symptomstabilität und zur Selbstwirksamkeit weisen in ihren
psychometrischen Eigenschaften Schwächen auf. Alle übrigen Fragen konnten
durch eine gute Ausnutzung des Skalenbereichs, wenige Deckeneffekte und gute
Item-Skalen-Korrelationen überzeugen. Die Verteilungsform der Skalen selbst ist
linksschief, d.h. die Itemschwierigkeit ist eher hoch und ermöglicht so eine gute
Differenzierung zwischen den schwerer Kranken mit geringerer Lebensqualität.
190
Die Reliabilität erwies sich ähnlich wie in der amerikanischen Originalfassung als
sehr gut. Die alle Domänen zusammenfassende Skala Klinische Zusammenfassung weist eine hohe interne Konsistenz (Cronbachs alpha .94) sowie eine
hohe Retestreliabilität auf (rCCC= .92).
Die faktorielle Validität der Unterskalen bzw. Domänen konnte mittels der Hauptkomponentenanalyse nicht vollständig belegt werden, was methodenkritisch diskutiert wird. Die Addierung der Unterskalen zu den beiden zusammenfassenden
Skalen erscheint jedoch aufgrund der Ergebnisse einer Hauptkomponentenanalyse
auf Skalenebene gerechtfertigt.
Die Konstruktvalidität wurde anhand von Korrelationen mit den Skalen des SF-36,
eines generischen Lebensqualitätsmessinstruments, bewertet. Die Skala Klinische
Zusammenfassung korreliert z.B. mit der Skala Körperliche Standardisierte Summenskala des SF-36 mit r=.67 ausrechend hoch.
Gegenüber dem SF-36 erwies sich der KCCQ als änderungssensitiver. Die Effektstärke der Skala Funktionaler Status des KCCQ beträgt z.B. .51 (95%-CI .16-.85).
Die Replizierung der sehr hohen Änderungssensitivitätswerte der amerikanischen
Originalversion gelang jedoch nicht.
Die diskriminative Validität der Skalen wurde anhand der Mittelwertsdifferenzen der
vier Schweregradklassen gemäß der Einteilung der New York Heart Association
(NYHA) geprüft.
Da für herzinsuffiziente Patienten ein deutlich erhöhtes Risiko besteht, auch an
einer depressiven Störung zu leiden (Komorbidität ca. 30%), wurde geprüft, ob die
diskriminative Validität auch für die Population von depressiven herzinsuffizienten
Patienten gilt. Die Verdachtsdiagnose einer Depression wurde durch ein Screening
mit der deutschen Version des Patient Health Questionnaire (PHQ) gestellt. Die
positiv auf Depression gescreenten Patienten zeigen bei gleicher NYHA-Klasse
eine signifikant schlechtere Lebensqualität auf allen Skalen des KCCQ, dennoch
bleibt der Zusammenhang zwischen der Schwere der Erkrankung (NYHA-Klasse)
und der Lebensqualität erhalten. Lediglich für die Subskala Lebensqualität, die das
psychische Befinden misst, gilt, dass ihre Einschätzung durch die depressiven
Herzinsuffizienten nicht mehr mit der Schwere der Herzinsuffizienz kovariiert.
Die Ergebnisse zeigen, dass das Konstrukt Lebensqualität des KCCQ im Vergleich
zu dem generischen Instrument (SF-36) nur wenig spezifischer ist. So hat eine
Herzinsuffizienz auch in einem generischen Instrument einen sehr starken Einfluss
191
auf die Lebensqualität, und umgekehrt wird auch die krankheitsspezifische Lebensqualität sehr stark von einer komorbiden Depression beeinflusst. Vor dem
Hintergrund dieser Ergebnisse wird in Hinblick auf die theoretische Trennung
zwischen generischer und krankheitsspezifischer Lebensqualität die Notwendigkeit
des Einsatzes zweier Instrumente in Studien diskutiert. Weiterer Forschungsbedarf
besteht bei der Überprüfung der Änderungssensitivität aller Skalen des KCCQ in
Folge einer medizinischen oder psychosozialen Intervention. Der Einsatz eines
zusätzlichen Depressionsscreening-Instrumentes wird vor dem Hintergrund der
vorliegenden Ergebnisse unbedingt empfohlen. Die Konfundierung der Lebensqualitätswerte durch eine nicht kontrollierte depressive Störung würde erhebliche
Auswirkungen auf das Ergebnis haben.
192
Literatur
Aaronson, N. K., Bullinger, M. & Ahmedzai, S. (1988). A modular approach to
quality-of-life assessment in cancer clinical trials. Recent Results Cancer
Research, 111, 231-249.
Acquadro, C., Jambon, B., Ellis, D. & Marquis, P. (1996). Language and translation
issues. In B. Spilker (Ed.), Quality of life and pharmacoeconomics in clinical
trials (2nd ed., pp. 575-585). Philadelphia: Lippincott-Raven.
Allport, G. W. (1961). Pattern and growth in personality. New York: Holt Rhinehart
& Winston.
Angleitner, A., John, O. P. & Löhr, F.J. (1986). It is what you ask and how you ask
it: An itemmetric analysis of personality questionnaires. In A. Angleitner & J.
S. Wiggins (Eds.), Personality assessment via questionnaires: Current
issues in theory and measurement (pp. 61-108). Berlin: Springer.
Barefoot, J. C., Helms, M. J., Mark, D. B., Blumenthal, J. A., Califf, R.M., Haney, T.
L., O’Connor, C.M., Siegler, I. C. & Williams, R.B. (1996). Depression and
long term mortality risk in patients with coronary artery disease. American
Journal of Cardiology, 78, 613-617.
Barth, J., Schumacher, M. A. & Herrmann-Lingen, C. (2004). Depression as a risk
factor for mortality in patients witht coronary heart disease: A meta-analysis.
Psychosomatic Medicine, 66, 802-813.
Bartoshuk, L. M. (1991). Ratio scaling, taste genetics, and taste pathologies. In S.
J. Jr. Bolanowski & G. A. Gescheider (Eds.), In honor of the memory of S. S.
Stevens. Hillsdale, NJ, England: Lawrence Erlbaum Associates, Inc.
Bech, P. & Rylander, A. (1997). The ECST quality of life task force. European
Psychiatry, 12, 161-162.
Beck, A. T. & Steer, R. A. (1987). Manual for the Beck Depression Inventory. San
Antonio Tex: Psychological Corp.
Beck, A. T., Rush, J., Shaw, B. & Emery, G. (1979). Cognitive Therapy of
Depression. New York: Guilford Press.
Bennet, S. J., Oldridge, N. B., Eckert, G. J., Embree, J. L., Browning, S., Hou, N.,
Deer, M. & Murray, M. D. (2002). Discriminant properties of commonly used
quality of life measures in heart failure. Quality of Life Research, 11, 349459.
Bergener, M., Bobbitt., R. A., Kressel, S. et al. (1976). The sickness impact profile:
conceptual formulation and methodology for the development of health
status measure. International Journal of Health Service, 6, 393.
Berry, C. & McMurray, J. (1999). A review of quality-of-life evaluations in patients
with congestive heart failure. Pharmacoeconomics, 16, 247-271.
Betsch, T. & Fiedler, K. (1999). Understanding conjunction effects: the role of
implicit mental models. European Journal of Social Psychology, 29, 75-93.
193
Bland, J. M. & Altman, D. G. (1996). Measurement error and correlation coefficient.
British Medicine Journal, 313, 41-42.
Bleumink, G. S., Knetsch, A. M., Sturkenboom, C. J. M., Straus, S. M. J. M.,
Hofman, A., Deckers, J. W., Witteman, J. A. C. M. & Stricker, B. H. Ch.
(2004). Quantifying the heart failure epidemic: Prevalence, incidence rate,
lifetime rist and prognosis of heart failure. European Heart Journal, 25,
1614-1619.
Bortz, J. (1993). Statistik für Sozialwissenschaftler. Springer-Verlag: Heidelberg.
Brandtstätter, J. (1982). Apriorische Elemente in psychologischen Forschungsprogrammen. Zeitschrift für Sozialpsychologie, 13, 267-277.
Brostrom, A., Stromberg, A., Dahlstrom, U. & Fridlund, B. (2003). Sleep difficulties,
daytime sleepiness, and health-related quality of life in patients with chronic
heart failure. Journal of Cardiovasculare Nursing, 19, 234-42.
Brook, R., Ware, J., Davies-Avery, A. et al. (1979). Overview of adult health status
measures field in RAND’s health insurance study. Medical Care, 17 (suppl),
1.
Bull, F. C., Kreuter, M. W. & Scharff, D. P. (1999). Effects of tailored, personalized
and general health messages on physical activity. Patient Education and
Counseling, 36, 181-192.
Bullinger, M., Kirchberger, I. & Ware, J. (1995). Der deutsche SF-36 health survey.
Zeitschrift für Gesundheitswissenschaften, 3, 21-36.
Bullinger, M. (1997). Gesundheitsbezogene Lebensqualität und subjektive Gesundheit. Psychotherapie Psychosomatik Medizinische Psychologie, 47, 7691.
Bullinger, M. (1999). Cognitive theories and individual quality of life assessment. In
C. A. O’Boyle, H. M. McGee & C. R. B. Joyce, Individual quality of life:
Approaches to conceptualisation and measurement. U.K. Harwood: Academic Reading.
Bullinger, M. & Kirchberger, I. (1998). SF-36 Fragebogen zum Gesundheitszustand. Göttingen: Hogrefe-Verlag.
Bullinger, M., Power, M. J., Aaronson, N. K., Cella, D. F. & Anderson, R. T. (1996).
Creating and evaluating cross-cultural instruments. In B. Spilker (Ed.),
Quality of life and pharmacoeconomics in clinical trials (2nd ed., pp. 659668). Philadelphia: Lippincott-Raven.
Bullinger, M., Ravens-Sieberer, U. & Siegrist, J. (2000). Gesundheitsbezogene
Lebensqualität in der Medizin - eine Einführung. In M. Bullinger, J. Siegrist &
U. Ravens-Sieberer (Eds.), Lebensqualitätsforschung aus medizinpsychologischer und -soziologischer Perspektive. Jahrbuch der Medizinischen Psychologie 18. Göttingen: Hogrefe.
Bulpitt, C. J., Fletcher, A. E., Dossenger, L. et al. (1998). Quality of life in chronic
heart failure: Cilazapril and captopril versus placebo. Heart, 79, 593-598.
Califf, R. M., Vidaillet, H. & Goldman, L. (1998). Advanced congestive heart failure:
what do patients want? American Heart Journal, 135, 320-326.
194
Calman, K. C. (1984). Quality of life in cancer patients – an hypothesis. Journal of
Medicine Ethics, 10, 124-127.
Campbell, A., Converse, P. E. & Rogers, W. L. (1976). The quality of American life.
New York: Russel Sage Foundation.
Campbell, D. T. (1957). Factors relevant to the validity of experiments in social
settings. Psychological Bulletin, 54, 297-312.
Carney, R., Blumenthal, J. A., Catellier, D., Freedland, K. E., Berkman, L. F.,
Watkins, L., Czajkowski, S. M., Hayano, J. & Jaffe, A. S. (2003). Depression
as a risk factor for mortality after acute myocardial infarction. American
Journal of Cardiology, 92, 1277-1288.
Carney, R., Stein, P., Freedland, K. et al. (2000). Treatment of depression increases heart rate variability in patients with coronary heart disease.
Psychosomatics, 60, 118.
Carney, R. M., Freedland, K., Miller, G. E. & Jaffe, A. S. (2002). Depression as a
risk factor for cardiac mortality and morbidity: A review of potential mechanism. Journal of Psychosomatic Research, 53, 897-902.
Carney, R. M., Freedland, K., Sheline, Y. I. & Weiss, E. S. (1997). Depression and
coronary heart disease: A review for cardiologists. Cinical Cardiology, 20,
196-200.
Carver, C. S. & Scheier, M. (2000). Scaling back goals and recalibration of the
affect system are processes in normal adaptive self-regulation: Understanding response shift phenomena. Social Science and Medicine, 50,
1715-1722.
Caspi, A., Sugden, K., Moffitt, T. E., Tayler, A., Craig, I. W., Harrington, H., McClay,
J., Mill, J., Marin, J., Braithwaite, A. & Poulton, R. (2003). Influence of life
stress on depression: Moderation by a polymorphism in the 5-HTT gene.
Science, 301, 386-389.
Cattel, R. B. (1967). The scientific analysis of personality. Harmondsworth:
Penguin.
Cella, D. (1998). Quality of life. In J. C. Holland (ed), Psychooncology (pp. 11351146). New York: Oxford University Press.
Chin, M. H. & Goldman, L. (1998). Gender differences in 1-year survival and
quality of life among patients admitted with congestive heart failure. Medical
Care, 36, 1033-1046.
Clark, D. O., Tu, W., Weiner, M. & Murray, M. D. (2003). Correlates of healthrelated quality of life among lower-income, urban adults with congestive
heart failure. Heart Lung, 32, 391-401.
Cline, C.M., Willenheimer, R. B., Erhardt, L. R., Wiklund, I. & Israelsson, B. Y.
(1999). Health-related quality of life in elderly patients with heart failure.
Scandinavian Cardiovascular Journal, 33, 278-85.
Cohen, J. (1988). Statistical Poweranalysis for the Behavioral Sciences. (2nd ed.).
New York: NY, Academic.
Cowley, A. J. & Skene, A. M. (1994). Treatment of severe heart failure: Quantity or
quality of life? A trial of enoximone. British Heart Journal, 72, 226-30.
195
Deuschle, M. & Lederbogen, F. (2002). Depression and cardiovascular disease:
pathogenetic factors of the stress concept. Fortschritte der Neurologie
Psychiatrie, 70(5), 268-275.
Diener, E., Suh, E. M., Kucas, R. E. & Smith, H. L. (1999). Subjektive well-being.
three decades of progress. Psychological Bulletin, 125, 276-302.
Dietz, R. (2004). Aktueller Stand zu Epidemiologie, Diagnostik, Therapie und
Kosten der chronischen Herzinsuffizienz. Journal of Public Health – Zeitschrift für Gesundheitswissenschaften, 12, 25-26.
Dietz, R. & Rauch, B. (2004). Chronische Herzinsuffizienz, eine verkante Gefahr?
Journal of Public Health – Zeitschrift für Gesundheitswissenschaften, 12, 25.
Dilling, H., Mombour, W. & Schneider, M. H. (1991). Weltgesundheitsorganisation:
Internationale Klassifikation psychischer Störungen (ICD-10). Kapitel V (F):
Klinisch diagnostische Leitlinien. Bern Huber.
DiMatteo, M. R., Lepper. H. S., Croghan, T. W. (2000). Depression is a risk factor
for noncompliance with medical treatment. Meta-analysis of the effects of
anxiety and depression on patients adherence. Archiv of Internal Medicine,
160, 2101-2107.
Dixon, T., Lim, L. & Oldridge, N. B. (2002). The MacNew health-related quality of
life instrument: Reference data for users. Quality of life Research, 11, 173183.
Dusseldorp, E., van Elderen, T., Maes, S., Meulman, J. & Kraaij, V. (1999). A
meta-analysis of psychoeducational programs for coronary heart disease
patients. Health Psychology, 18, 506-519.
Dupuy, H. (1978). Self-representations of general psychological well-being of
American adults. Paper presented at the American Public Health
Association Meeting. Los Angeles, CA, 17. October 1978.
Ekman, I., Fagerberg, B. & Lundman, B. (2002). Health-related quality of life and
sense of coherence among elderly patients with severe chronic heart failure
in comparison with healthy controls. Heart Lung, 31, 94-101.
Erdfelder, E., Faul, F. & Buchner, A. (1996). GPOWER: A general power analysis
program. Behavior Research Methods. Instruments & Computers, 28, 1-11.
Faller, H. (2001). Patientenschulung: Konzept und Evaluation. Praxis Klinische
Verhaltensmedizin und Rehabilitation, 54, 97-106.
Faller, H., Steinbüchel, T., Schowalter, M., Spertus, J., Störk, S., Angermann, C. E.
(2005). Der Kansas City Cardiomyopathy Questionnaire (KCCQ) - ein neues
krankheitsspezifisches Messinstrument zur Erfassung der Lebensqualität
bei chronischer Herzinsuffizienz. Psychometrische Prüfung der deutschen
Version. Psychotherapie Psychosomatik Medizinische Psychologie, 55, 200208.
Faller, H. (2005). Depression, ein prognostischer Faktor bei koronarer Herzkrankheit. Psychotherapeut, 50, 265-273.
Faris, R., Purcell, H., Henein, M. Y. & Coats, A. J. (2003). Clinical depression is
common and significantly associated with reduced survival in patients with
196
non-ischaemic heart failure. European Journal of Heart Failur, 5(3), 399400.
Fayers, P., Bottomley, A. & EORTC Quality of Life Group (2002). Quality of life
research within the EORTC - the EORTC QLQ-C30. European Organisation
for Research and Treatment of Cancer. European Journal of Cancer, 38
(suppl 4), 125-33.
Feldman, A. M., Bristow, M. R., Parmley, W. W. et al. (1993). Effects of vesnarione
on morbidity and mortality in patients with heart failure. New England Journal of Medicine, 329, 149-155.
Fishman, B. & Loscalzo, M. (1987). Cognitive-behavioral intervention in pain
management: principles in application. In R. Payne & K. M. Foley (Eds.),
Medical clinics North America. Philadelphia: W. B. Saunders.
Fletcher, A., McLoone, P. & Bulpitt, C. (1988). Quality of life on angina therapy: A
randomised controlled trial of transdermal glyceryl trinitrate against placebo.
Lancet, 2, 4-7.
Freedland, K. E., Rich, M. W., Skala, J. A., Carney, R. M., Davila-Roman, V. G. &
Jaffe, A. S. (2003). Prevalence of depression in hospitalized patients with
congestive heart failure. Psychosomatic Medicine, 65(1),119-28.
Frasure-Smith, N., Lespérance, F., Gravel, G., Masson, A., Juneau, M., Talajic, M.
& Bourassa, M. G. (2000). Social support , depression, and mortality during
the first year after myocardial infarction. Circulation, 101, 1919-1924.
Frasure-Smith, N. & Lespérance, F. (2003). Depression and other psychological
risks following myocardial infarction. Archives of General Psychiatry, 60,
627-636.
Fryback, D. G., Dasbach, E. J., Klein, R. et al. (1993). The beaver dam health
outcomes study: Initial catalog of health-state quality of life factors. Medicine
Decision Making, 13, 89-102.
Gallassi, R., Morreale, E. & Pagni, P. (2001). The relationship between depression
and cognition. Archives of Gerontology and Geriatrics, 7 (suppl.), 163-171.
Gallina, A., Giacomarra, G., Preveti, A. et al. (1998). Comparison of patient’s point
of view on quality of life in cases of congestive Heart failure. Heart Failure
Society, 126, 6-13.
Gigerenzer, G. (1981) Messen und Modellbildung. München: Reinardt.
Glassman, A. H. & Shapiro, P. A. (1998). Depression and the course of coronary
artery disease. American Journal of Psychiatry, 155, 4-11.
Goldberg, D. P. (1972). The detection of psychiatric illness by questionnaire.
London, England: Oxford University Press.
Goodyer, L., Miskelly, F. & Milligan, P. (1995). Does encouraging good compliance
improve patients’ clinical condition in heart failure? British Journal of Clinical
Practice, 49, 173-176.
Gräfe, K., Quenter, A., Buchholz, C., Wild, B., Zipfel, S., Herzog, W. & Löwe, B.
(2001). Der Gesundheitsfragebogen für Patienten (PHQ-D) - Wie gut
diagnostiziert
ein
Screeningfragebogen
psychische
Störungen?
Nervenheilkunde, 20 (suppl 3), 99.
197
Green, C. P., Porter, C. B., Bresnahan, D. R. & Spertus, J. A. (2000). Development
and evaluation of the Kansas City Cardiomyopathy Questionnaire: A new
health status measure for heart failure. Journal of American College of
Cardiology, 35, 1245-1255.
Grigioni, F., Carigi, S., Grandi, S., Potena, L., Coccolo, F. et al. (2003). Distance
between Patients’ subjective perceptions and objectively evaluated disease
severity in chronic Heart failure. Psychotherapy and Psychosomatics, 72,
166-170.
Grippo, A. J., Moffitt, J. A., Johnson, A. K. (2002). Cardiovascular alterations and
autonomic imbalance in an experimental model of depression. American
Journal of Physiology, Regulatory, Integrative and Comparativ Physiology,
282 (5), 1333-1341.
Gunderson, T., Wiklund, I., Sedberg, K. et al. (1995). Effects of 12 weeks of
ramipril treatment on the quality of life in patients with moderate congestive
heart failure: results of a placebo-controlled trial. Cardiovasculare Drugs and
Therapy, 9, 589-594.
Güthlin, C. (2004). Response Shift: Alte Probleme der Veränderungsmessung, neu
angewendet auf gesundheitsbezogene Lebensqualität. Zeitschrift für
Medizinische Psychologie, 13, 165-174.
Guyatt, G. H. (1993). Measurement of health-related quality of life in heart failure.
Journal of American College of Cardiology, 22 (4 suppl. A), 185-191.
Guyatt, G. H. (1993). Measurement of health-related quality of life in heart failure.
Journal of American College of Cardiology, 4, 185-191.
Guyatt, G. H., Feeny, D. H. & Patrick, D. L. (1993). Measuring health-related
quality of life. Annals of Internal Medicine, 118, 622-629.
Guyatt, G. H., Nogradi, S., Halcrow, S. et al. (1989). Development and testing of a
new mesure of health status for clinical trials in heart failure. Journal of
General Internal Medicine, 4, 101-107.
Guyatt, G. H., Sullivan, M. J. J., Fallen, E. et al. (1988). A controlled trial of digoxin
in congestive heart failure. American Journal of Cardiology, 61, 371-375.
Hak, T., Willems, D., van der Wal, G., Visser, F. (2004). A qualitative validation of
the minnesota living with heart failure questionnaire. Qualitiy of Life
Research, 13, 417-426.
Hairi, A. R., Drabant, E. M., Munoz, K. E. Kolachana, B. S., Mattay, V. S., Egan, M.
F. & Weinberger, D. R. (2005). A susceptibility gene for affective disorders
and the response of the human amygdale. Archives of General Psychiatry,
62, 146-152.
Heinonen, H,. Aro, A. R., Aalto, A. M. & Uutela, A. (2005). Is the evaluation of the
global quality of life determined by emotional status? Quality of Life
Research, 13, 1347-1356.
Hauptman, P., Masoudi, F. A., Weintraub, W. S., Pina, I., Jones, P. G. & Spertus,
J. A. (2004). Variability in the clinical status of patients with advanced heart
failure. Journal of Cardiac Failure, 10, 397-402.
198
Havranek, E. P., Spertus, J. A., Masoudi, F. A., Jones, P. G. & Rumsfeld, J. S.
(2004). Predictors of the onset of depressive symptoms in patient with heart
failure. Journal of American College of Cardiology, 44, 2333-2338.
Headey, B. & Waring, A. (1992) Understanding happiness: A theory of subjective
well–being. Melborourne: Longman Cheshire.
Heller, D., Watson, D. & Illies, R. (2004).The role of person versus situation in life
satisfaction: A critical examination. Psychological Bulletin, 130, 574-600.
Hemingway, H. & Marmot, M. (1999) Psychosocial factors in the aetiology and
prognosis of coronary heart disease: Systematic review of prospective
cohort studies. British Medicine Journal, 318,1460-1467.
Herold, G. (2000). Innere Medizin. Eine vorlesungsorientierte Darstellung. Gerd
Herold: Köln.
Herschbach,
P.
(2002).
Das
„Zufriedenheitsparadox“
in
der
Lebensqualitätsforschung“: Wovon hängt unser Wohlbefinden ab?
Psychotherapie Psychosomatik medizinische Psychologie, 52,141-150.
Heßlinger, B., Härter, M., Barth, J., Klecha, D., Bode, C., Walden, J., Bengel, J. &
Berger, M. (2002). Komorbidität von depressiven Störungen und
kardiovaskulären Erkrankungen. Der Nervenarzt, 73, 205-218.
Hevey, D. & McGee, H. M. (1998). The effect size statistic: useful in health
outcomes research? Journal of Health Psychology, 3, 163-170.
Higgins, E. T. (1989). Knowledge accessibility and activation: Subjectivity and
suffering from unconscious sources.In J. S. Uleman & J. A. Bargh (Eds.),
Unintended thought (pp. 75-123). New York: Guilford.
Hillers, T. K., Gyatt, G. H., Oldridge, N., Crowe, J., Willan, A., Griffith, L. & Feeny,
D. (1994). Quality of life after myocardial infarction. Journal of Clinical
Epidemiology, 47, 1287-1296.
Ho, K. K. L., Anderson, K. M., Karmel, W. B. et al. (1993). Survival after the onset
of congestive heart failure in the Framingham Heart Study subjects.
Circulation, 88, 107-115.
Hobbs, F. D., Kenkre, J. E., Roalfe, A. K., Davis, R. C., Hare, R. & Davies, M. K.
(2002). Impact of heart failure and left ventricular systolic dysfunction on
quality of life: A cross-sectional study comparing common chronic cardiac
and medical disorders and a representative adult population. European
Heart Journal, 23, 1806-1808.
Höfer, S., Lynette, L., Guyatt, G. & Oldridge, N. (2004). The macnew hart disease
health-relatet quality of life instrument: A summary. Health and Quality of
Life Outcomes, 2, 1-9.
Höfer, S., Benzer, W., Schussler, G., von Steinbüchel, N. & Oldridge, N. B. (2003)
Health-related quality of life in patients with coronary artery disease treated
for angina: validity and reliability of German translations of two specific
questionnaires. Quality of Life Research, 12, 199-212.
Hoppe, U. C. & Erdmann, E. (2001). Leitlinien zur Therapie der chronischen
Herzinsuffizienz. Herausgegeben vom Vorstand der Deutschen Gesellschaft
für Kardiologie – Herz- und Kreislaufforschung. Bearbeitet im Auftrag der
199
Kommission für klinische Kardiologie in Zusammenarbeit mit der
Arzneimittelkommission der Deutschen Ärzteschaft. Zeitschrift für
Kardiologie, 90, 218-237.
Hou, N., Chui, M. A., Eckert, G. J., Oldridge, N. B., Murray, M. D. & Bennett, S. J.
(2004). Relationenship of age and sex to health-related quality of life in
patients with heart failure. American Journal of Critical Care, 13, 153-161.
Hunt, S. M., McEwen, J., McKenna, S. P. (1984). Perceived health: Age and sex
norms in a community. Journal of Epidemiology and Community Health, 38,
156-60.
Hunt, S. M., MCKenna, S. P, McEwen, J. et al. (1980) A quantitative approach to
perceived health status: A validation study. Journal of Epidemiology and
Community Health, 34, 281-286.
Igl, W., Zwingmann, C. & Faller, H. (2005). Änderungssensitivität. Serie Methoden
in der Rehabilitationsforschung. Rehabilitation, 44, 100-106.
Igl, W., Zwingmann, C., Schuck, P. & Faller, H. (2004). Empirische Befunde zur
Änderungssensitivität des SF-36/SF-12. In C. Maurischat, M. Morfeld, T.
Kohlmann & M. Bullinger (Eds.), Lebensqualität: Nützlichkeit und
Psychometrie des Health Survey SF-36/SF-12 in der medizinischen
Rehabilitation (pp. 79–90). Lengerich: Pabst.
Jaarsma, T., Halfens, R., Huijer, Abu-Saad, H. et al. (1999). Quality of life in older
patients with systolic and diastolic heart failure. European Journal of Heart
Failure, 1, 151-160.
Jacobson, N. S. & Truax, P. (1991). Clinical significance: A statistical approach to
defining meaningful change in psychotherapy research. Journal of
Consulting and Clinical Psychology, 1, 12-19.
Jenkinson, C., Jenkinson, D., Shepperd, S. et al. (1997). Evaluation of treatment
for congestive heart failure in patients aged 60 years and older using
generic measure of health status (SF-36) and COOP charts. Age Ageing,
26, 7-13.
Jenkinson, C. & Layte, R. (1997). Development and testing of the UK SF-12.
Health Services Research, 2, 14-18.
Jiang, W., Alexander, J., Christopher, E., Kuchibhatla, M., Gaulden, L. H., Cuffe, M.
S., Blazing, M. A., Davenprot, C., Califf, R. M., Krishnan, R. R. & O'Connor,
C. M. (2001). Relationship of depression to increased risk of mortality and
rehospitalization in patients with congestive heart failure. Archives of Internal
Medicine, 161, 1849-1856.
Jiang, W., Kuchibhatla, M., Cuffe, M., Christopher, E., Alexander, J., Clary, G. L.,
Blazing, M. A., Gaulden, L. H., Califf, R. M., Krishnan, R. R. & O'Connor, C.
M. (2001). Prognostic value of anxiety and depression in patients with
chronic heart failure. Circulation, 30, 3452-3456.
Juenger, J., Schellberg, D., Kraemer, S., Haunstetter, A., Zugck, C., Herzog, W. &
Haass, M. (2002). Health related quality of life in patients with congestive
heart failure: Comparison with other chronic diseases and relation to
functional variables. Heart, 87, 235-241.
200
Kahneman, D. & Tversky, A. (1982). On the study on statistical intuitions. In D.
Kahneman, P. Slovic & A. Tversky (Eds.), Judgement under uncertainty:
heuristics and biases (pp. 493-508). Cambridge, England: Cambridge
University Press.
Kaplan, R. M., Bush, J. W. & Berry, C. C. (1976). Health status: types of validity for
an index of well-being. Health Services Research, 11, 478-507.
Kazis, L. E., Anderson, J. J. & Meenan, R. F. (1989). Effect sizes for interpreting
changes in health status. Medical Care, 27, 178-189.
Kelly, G. A. (1955) The psychology of personal construct. Vol. I and Vol II. New
York: Norton.
Kessler, R. C., Berglund, P., Demler, O., Jin, R., Koretz, D., Merikangas, K. R.,
Rush, A. J., Walters, E. E. & Wang, P. S.; National Comorbidity Survey
Replication (2002). The epidemiology of major depressive disorder: results
from the National Comorbidity Survey Replication (NCS-R). The Journal of
the American Medical Association, 289 (23), 3095-105.
Klein,
W. (1999). Gesundheitsökonomische Überlegungen zum Thema
Herzinsuffizienz – Kosten der Krankheit. Journal für Kardiologie, 6, 612-616.
Klocek, M., Kubinyi, A., Bacior, B. & Kawecka-Jaszez, K. (2005). Effect of phyisical
training on quality of life and oxygen consumption in patients with congestive
heart failure. International Journal of Cardiology, 103, 323-329.
Koenig, H. G. (1998). Depression in hospitalized older patients with congestive
heart failure. General Hospital Psychiatry, 20, 29-43.
Konstam, V., Salem, D., Pouleur, H. et al. (1996). Baseline quality of life as a
predictor of mortality and hospitalisation in 5.025 patients with congestive
heart failure. American Journal of Cardiology, 78, 890-895.
Krischke, N. R. & Petermann, F. (2000). Depression und Lebensqualität in der
Rehabilitation Krebskranker. In M. Bullinger, J. Siegrist, U. Ravens-Sieberer
(Eds.), Lebensqualitätsforschung aus medizinpsychologischer und soziologischer Perspektive. Jahrbuch der Medizinischen Psychologie 18.
Göttingen: Hogrefe.
Kroenke, K., Spitzer, R. L. & Williams, J. B. W. (2001). The PHQ-9. Validity of a
brief depression severity measure. Journal of General Internal Medicine, 16,
606-613.
Kruglanski, A. W. & Ajzen, I. (1983). Bias and error in human judgement. European
Journal of Social Psychology, 13, 1-14.
Krumholz, H. M., Chen, Y. T., Wang, Y., Vaccarino, V., Radford, M.J., Horwitz, R. I.
(2000). Predictors of readmission among elderly survivors of admission with
heart failure. American Heart Journal, 139, 72-77.
Kubo, S. H., Gollub, S., Bourge, R. et al. (1992). Beneficial effects of pimobendan
on exercise tolerance and quality of life in patients with heart failure: results
of a multicenter trial. Circulation, 85, 942-949.
Kuyken, W. & Dalgleish, T. (1995). Autobiographical memory and depression.
British Journal of Clinical Psychology, 34, 89-92.
201
Lang, F.R., Rieckmann, N. & Schwarzer, R. (2000) Lebensqualität über die
Lebensspanne: Die Rolle von Depressivität und Alter in der
Alltagsgestaltung. In M. Bullinger, J. Siegrist & U. Ravens-Sieberer (Eds.),
Lebensqualitätsforschung aus medizinpsychologischer und -soziologischer
Perspektive. Jahrbuch der Medizinischen Psychologie 18. Göttingen:
Hogrefe.
Lewin, K. (1935). A dynamic theory of personality. New York: McGraw-Hill.
Lienert, G. A. & Raatz, U. (1994). Testaufbau und Testanalyse. Weinheim: PVU.
Linden, W., Stossel, C. & Maurice, J. (1996). Psychosocial interventions for
patients with coronary artery disease. Archives of Internal Medicin, 156,
745-752.
Lindenberg, S. (1986). The paradox of privatization in consumption. In A.
Diekmann, & P. Mitter (Eds.), Paradoxical Effects of social Behavior.
Heidelberg/Wien: Physica.
Lohaus, A. & Schmidt, G. M. (1989). Fragebogen zur Erhebung von
Kontrollüberzeugungen zu Krankheit und Gesundheit. Göttingen: Hogrefe.
Löwe, B., Gräfe, K., Zipfel, S., Witte, S., Loerch, B. & Herzog, W. (2004).
Diagnosing ICD-10 depressive episodes: superior criterion validity of the
patient healt questionnarie. Psychotherapy and Psychosomatics, 73, 386390.
Löwe, B., Kroenke, K., Herzog, W., Gräfe, K. (2004). Measuring depression
outcome with a brief self-report instrument: sensitivity to change of the
Patient Health Questionnaire (PHQ-9). Journal of Affective Disorders, 81,
61-66.
Löwe, B., Spitzer, R. L., Gäfe, K., Kroenke, K., Quenter, A., Zipfel, S., Buchholz,
C., Witte, S &. Herzog, W. (2004). Comparative validity of three screening
questionnaires for DSM-IV depressive disorders and physicians’ diagnoses.
Journal of Affective Disorders, 78, 131-140.
MacIntyre, K., Capwell, S., Stewart, S., Chalmers, J. W. T., Boyd, J., Finlayson, A.,
Redpath, A., Pell, J. P. & McMarray, J. J. V. (2000). Evidence of improving
prognosis in heart failure: trends in case fatality in 66 547 patients
hospitalized between 1986 and 1995. Circulation, 102, 1126-1131.
Main, C. J. (1983). The modified somatic perception questionnaire (MSPQ).
Journal of Psychosomatic Research, 27, 503-514.
Masoudi, F. A., Rumsfald, J. S., Havranek, E. P., House, J. A., Peterson, E. D.,
Krumholz, H. M., Spertus, J. A. & Cardiovasular Outcomes Research
Consortium (2004). Age, functional capacity, and health-related quality of life
in patients with heart failure. Journal of Cardiac Failure, 10, 368-73.
Massie, B. M., Berk, M. R., Bozena, S. C. et al. (1992). Can further benefit be
achieved by adding flosequienan to patients with congestive heart failure
who remain symptomatic on diuretic, digoxin and an angiostensin converting
enzyme inhibator? Circulation, 88, 492-501.
Medical Outcomes Trust (1995). Instrument review criteria. Medical Outcomes
Trust. Bulletin, 3, 1-4.
202
Murberg, T. & Furze, G. (2004) Depressive symptoms and mortality in patients with
congestive heart failure: A six-year follow-up study. Medical Science
Monitor, 10, 643-648.
Musselman, D. L., Evans, D. L., Nemeroff, C. B. (1998). The relationship of
depression to cardiovascular disease. Archives of General Psychiatry, 55,
580-592.
Nederhof, A. J. (1985). Methods of coping with social desirability bias: A review.
European Journal of Social Psychology, 15, 263-280.
Ni, H., Nauman, D. J., Burgess, D. et al. (1998) Comparison of SF-12 and
minnesota living with heart failure questionnaire regarding their sensitivities
to the effect of program interventions on restoring quality of life (Abstract
212). Heart Failure Society, 212, 13-26.
Nunnally, J. (1978). Psychometric Theory. (2nd ed.). New York: McGraw-Hill.
O’Boyle, C. A., McGee, H., Hickey, A., O’Malley, K. & Joyce, C. R. (1992).
Individual quality of life in patient undergoing hip replacement. Lancet,
339,1088-1091.
O’Connor, C. M., Furbel, P. A. & Serebrunany, V. L. (2000). Depression and
ischemic heart diesease. American Heart Journal, 140, 63-69.
Oort,F. J. Visser, M. R. & Sprangers, M. A. (2005). An application of structural
equation modeling to detect response shifts and true change in quality of life
data from cancer patients undergoing invasive surgery. Quality of Life
Research, 14, 599-609.
Ormel, J., Lindenberg, S., Steverink, N. & Vonkorff, M. (1997). Quality of life and
social production functions: A framework for understanding health effects.
Social Science & Medicine, 45, 1051-1063.
Osoba, D., Rodrigues, G., Myles, J., Zee, B., Pater, J. (1998). Interpreting the
significance of change in health-related quality-of-life scores. Journal of
Clinical Oncology, 16, 139-144.
Packer, M. (1990). The placebo effect in heart failure. American Heart Journal,
120, 1759-1782.
Petermann, F. (1993). Die Messung von Veränderung. In E. Roth (Ed.),
Sozialwissenschaftliche Methoden: Lehr und Handbuch für Forschung und
Praxis. (3. völlig überarb. und erweiterte Auflage, pp. 573-584). München:
Oldenbourg.
Petermann, F. & Noack, H. (1993) Nicht-reaktive Messverfahren. In E. Roth (Ed.),
Sozialwissenschaftliche Methoden: Lehr und Handbuch für Forschung und
Praxis. (3. völlig überarb. und erweiterte Auflage, pp. 440-469). München:
Oldenbourg.
Rector, T. S. (1991). Usefulness of OPC-8212, a quinolone derivative, for chronic
congesitive heart failure in patients with ischemic heart disease or idiopathic
dilated cadiomyopahty. American Journal of Cardiology, 68, 1203-1210.
Rector, T. S., Johnson, G. & Dunkman, W. B. (1993). Evaluation by patients with
heart failure of the effects of enalapril compared with hydralazine plus
isosorbide dinitrate on quality of life. Circulation, 87 (suppl. VI), 171-176.
203
Rector, T. S., Kubo, S. H. & Cohn, J. N. (1987). Patient’s self-assessment of their
congesitve heart failure, Part 2: content, reliability and validity of an new
measure, the Minnesota Living with Heart Failure Questionnaire. Heart
Failure, 3, 198-209.
Rector, T. S., Tschuperlin, L. K., Kubo, S. H. et al. (1995) Use of the living with
heart failure questionnaire to ascertain patients’ perspectives on
improvement in quality of life versus risk of drug-induced death. Journal of
Cardicac Failure, 1, 201-206.
Reed, G. D. & Brewer, M. B. (1979). A schematic model of dispositional attribution
in interpersonal perception. Psychological Review, 86, 61-79.
Revenstorf, D. (1976). Lehrbuch der Faktorenanalyse. Stuttgart: Kohlhammer.
Rich, M. W., Beckam, V., Wittenberg, C. et al. (1995). A multidisciplinary
intervention to prevent the readmission of elderly patients with congesitive
heart failure. New England Journal of Medicine, 333, 1150-1155.
Rich, M. W. & Freedland, K. E. (1988). Effect of DRGs on three-month readmission
rate of geriatric patients with congestive heart failure. American Journal of
Public Health, 78, 680-682.
Riedinger, M. S., Dracup, K. A., Brecht, M.-L. et al. (2001) Quality of life in patients
with heart failure: do gender differences exist? Heart Lung, 30, 105-116.
Riedmayr, I., Tammen, A. R., Behr, T. M., Wittig, C., Bullinger, M., Reichert, B. &
Angermann, C. E. (1998). Perspektiven von Patienten mit terminaler
Herzinsuffizienz: Lebensqualität und psychisches Befinden vor und im
ersten Jahr nach Herztransplantation. Zeitschrift für Kardiologie, 87, 808816.
Riegel, B., Moser, D. K., Glaser, D., Carlson, B., Deaton, C., Armola, R., Sethares,
K., Shively, M., Evangelista, L. & Albert. N. (2002). The Minnesota Living
with
Heart Failure Questionnaire: sensitivity to differences and
responsiveness to intervention intensity in a clinical population. Nursing
Research, 51, 209-218.
Rogers, W. J., Johnstone, D. E, Yusuf, S. et al. (1995). Quality of life among 5025
patients with left ventricular dyfunction randomised between placebo and
enalapril: the studies of left ventricular dysfunction. Journal of American
College of Cardiology, 23, 393-400.
Romanelli, J., Fauerbach, J. A., Bush, D. E. & Ziegelstein, R. C. (2002). The
significance of depression in older patients after myocaridal infarction.
Journal of the American Geriatrics Society, 50, 817-822.
Rose, M., Fliege, H., Hildebrandt, M., Bronner, E., Scholler, G., Danzer, G. &
Klapp, B. F. (2000). "Gesundheitsbezogene Lebensqualität", ein Teil der
"allgemeinen Lebensqualität"? In M. Bullinger, J. Siegrist & U. RavensSieberer (Eds.), Lebensqualitätsforschung aus medizinpsychologischer und
-soziologischer Perspektive. Jahrbuch der Medizinischen Psychologie 18.
Göttingen: Hogrefe.
Rozanski, A., Blumenthal, J. A. & Kaplan, J. (1999). Impact of psychological factors
on the pathogenesis of cardiovascular disease and implications for therapy.
Circulation, 99, 2192-2217.
204
Rugulies, R. (2002). Depression as a predictor for coronary heart disease: A
review and meta-analysis. American Journal of Preventive Medicine, 23, 5161.
Rumsfeld, J. S. (2003). History of depression, angina, and quality of life following
acute corononary syndroms. American Heart Journal, 145, 493-499.
Rumsfeld, J. S., Havranek, E., Masoudi, F. A., Person, E. D., Jones, P., Tooley, J.
F., Krumholz, H. M. & Spertus J. A. (2003). Depressive symptoms are the
strongest predictor of short-term in health status in patients with heart
failure. Journal of American College of Cardiology, 42, 1811-1817.
Ruo, B., Rumsfeld, J. S., Hlatky, M. K., Liu, H., Browner, W. S. & Whooley, M. A.
(2003). Depressive symptoms and health-related quality of life: The heart
and soul study. Journal of the American Medical Association, 290, 215-221.
Sanderson, J. E., Chan, S. K. W., Yu, C. M. et al. (1998). β-Blockers in heart
failure: A comparison of a vasodilation β-blocker with metoprolol. Heart, 79,
86-92.
Sartorius, N. (1990). A WHO method for the assessment of health-related quality of
life (WHOQOL). In S. Walker & R. Rosser (Eds.), Quality of life assessment:
Key Issues in the 1990s. Dordrecht: Kluwer Academic Publishers.
Saß, H., Wittchen, H.-U. & Zaudig, M. (1998). Diagnostisches und Statistisches
Manual Psychischer Störungen DSM-IV (2. verbesserte Auflage). Göttingen:
Hogrefe.
Schuck, P. (2000). Designs und Kennziffern zur Ermittlung der
Änderungssensitivität von Fragebögen in der gesundheitsbezogenen
Lebensqualitätsforschung. Zeitschrift für Medizinische Psychologie, 9, 125130.
Schuck, P. (2002). Alternativen zur Pearson Produkt-Moment-Korrelation als Maß
für die Reproduzierbarkeit von Messungen [Abstract]. In Verband Deutscher
Rentenversicherungsträger (Ed.) Teilhabe durch Rehabilitation, 11.
Rehabilitationswissenschaftliches Kolloquium vom 4. bis 6. März 2002 in
München (Tagungsband, Bd. 33, pp. 64-66). Frankfurt/Main: DRV-Schriften.
Schuck, P. (2004). Assessing reproducibility for interval data in health-related
quality of life questionaires: Which coefficient should be used? Quality of
Life Research, 13, 571-586.
Schuck, P. & Zwingmann, C. (2003). The 'smallest real difference' as a measure of
sensitivity to change: A critical analysis. International Journal of
Rehabilitation Research, 26 (2), 85-91.
Schwarz, N. & Strack, F. (1999). Reports of subjective well-being: Judgmental
processes and their methodological implications. In D. Kahneman, E. Diener
& N. Schwarz (Eds.), Well-being: The foundation of hedonic Psychology (pp.
61-84). New York: Russell Sage Foundation.
Schwarz, N., Strack, F. & Mai, H. (1991). Assimilation and contrast effects in partwhole question sequences: A conversational logic analysis. Public Opinion
Quarterly, 55, 3-23.
205
Scientific Advisory Committee of the Medical Ourtcomes Trust (2002) Assessing
health status and quality-of-life instruments: Attributes and review criteria.
Quality of Life Research, 11, 193-202.
Shipper, H., Clinch, J. J. & Olweny, C. L. M. (1996). Quality of life studies:
Definitions and conceptual issues. In B. Spilker (Ed.), Quality of life and
pharmacoeconomics in clinical trials (2nd ed., pp. 11-22). Philadelphia:
Lippincott-Raven. Smithson MJ (2003) Confidence Intervals. Quantitative
Applications in the Social Sciences Series No. 140. Thousand Oaks, CA:
Sage.
Soto, G. E., Jones, P., Weintraub, W. S., Krumholz, H. M. & Spertus, J. A. (2004).
Prognostic value of health status in patients with heart failure after acute
myocardial infarction. Circulation, 110, 546-551.
Spertus, J. A., Jones, P., McDonell, M., Fan, V. & Fihn, S. D. (2002). Health status
predicts long-term outcome in outpatients with coronary disease. Circulation,
106, 43-49.
Spertus, J. A., McDonnel, M., Woodman, C. L. & Fihn, S. D. (2000). Association
between depression and worse disease specific functional status in
outpatients with coronary artery disease. American Heart Journal, 140, 105110.
Spertus, J. A., Winder, J. A., Dewhurst, T. A., Deyo, R. A., Prodzinski, J.,
McDonnel, M. & Fihn, S. D. (1995). Development and evaluation of the
Seattle Angina Questionnaire: A new functional status measure for coronary
artery disease. Journal of the American College of Cardiology, 25, 333-341.
Spielberger, C. D., Gorsuch, R. L., Lushene, R., Vagg, P. R. & Jacobs, G. A.
(1983). Manual for the state-trait anxiety inventory (Form Y). Palo Alto,
Californien: Consulting Psychologist Press.
Spielberger, C. D., Krasner, S. S. & Solomon, E. P. (1988). The experience,
expression, and control of anger. In M. P. Janisse (Ed.) Health Psychology:
Individual differences and stress (pp 98-108). New York, NY: Springer
Verlag NY Inc.
Spilker, B. (Eds.) (1996) Quality of life and pharmacoeconomics in clinical trials.
(2nd ed.) Philadelphia: Lippincott-Raven.
Spilker, B. & Revicki, D. A. (1996). Taxonomy of quality of life. In B. Spilker (Ed.),
Quality of life and pharmacoeconomics in clinical trials (2nd ed., pp. 25-31).
Philadelphia: Lippincott-Raven.
Spilker, B. (1996a) Introduction. In B. Spilker (Ed.), Quality of life and
pharmacoeconomics in clinical trials (2nd ed.). Philadelphia: LippincottRaven.
Spitzer, P. L., Kroenke, K., Williams, J. B. W. and the Patient Health Questionnaire
Primary Care Study Group (1999). Validation and utility of a self-report
version of PRIME-MD. The Journal of the American Medical Association,
282, 1737-1744.
Spranger, M. A. G. & Schwartz, C. E. (1999). Integration response shift into health
related quality of life research: A theoretical model. Social Science Medicine,
48, 1507-1515.
206
Stewart, S., MacIntyre, K., Hole, D.J., Capwell, S. & MacMurray, J. J. V. (2001).
More “malignant” than cancer? Five-year survival following a first admission
for heart failure. European Journal of Heart failure, 3, 315-322.
Stewart, A. & Ware, J. (Eds.) (1992). Measuring functioning and well-being: The
Medical Outcomes Study approach. Duke University Press.
Sullivan, M. D., LaCroix, A. Z., Rzssi, J. E. & Walker, E. A. (2001). Depression and
self-reported physical health in patients with coronary disease: Mediating
and moderating factors. Psychosomatic Medicine, 63, 248-256.
Tandon, P. K., Stander, H., Dyke, S. H. et al. (1988). Assessment of quality of life
of patients with heart failure: A randomised, controlled drug trial. Heart Fail,
4, 39-54.
Taylor, S. E. & Brown, J. D. (1988). Illusion and well-being: A social psychological
perspective on mental health. Psychological Bulletin, 103, 193-210.
Taylor, S. E. & Brown, J. D. (1994). Positive illusions and well-being revisited:
Orating fact from fiction. Psychological Bulletin, 116, 21-27.
Teasdale, J. D. & Taylor, R. (1981). Induced mood and accessibility of memories:
An effect of mood states or of induction procedure? British Journal of
Clinical Psychology, 20, 39-48.
Tellegen, A. (1982). Brief manual for the differential personality questionnaire.
Unpublished manuscript, University of Minnesota, Minneapolis.
Testa, M. A. & Simonson, D. C. (1996). Assessment of quality-of-life outcomes.
New England Journal of Medicine, 334, 835–840.
The ENRICHD investigators (2000). Enhancing recovery in coronary heart disease
patients (ENRICHD): Study design and methods. American Heart Journal,
139,1-9.
The ENRICHD investigators (2003). Effect of treating depression and low
perceived social support on clinical events after myocadial infarction: The
enhancing recovery in corononary heart disease patients (ENRICHD)
Randomized Trial. The Journal of the American Medical Association, 289
(18), 3106-3116.
Tuynman-Qua, F., de Jonghe, F. & McKenna, S. P. (1997). Quality of life in
depression scale (OLDS): Development, reliability, validity, responsiveness
and application. European Psychiatry, 12, 199-202.
Tyni-Lenne, R., Gordon, A., Janason, E. et al. (1997). Skeletal muscle endurance
training improves periphal oxidative capacity, exercise tolerance, and healthrelatede quality of life in women with chronic congestive heart failure
secondary to either ischemic cardiomyopathy or idiopathic dilated
cardiomyopathy. American Joural of Cardiology, 80, 1025-1029.
Überla, K. (1971). Faktorenanalyse. Berlin: Springer.
van Melle, J.P., de Jonge, P., Spljkerman, T. A., Tijssen, J. G. P., Ormel, J., van
Veldhuisen, D. J., van den Brink, R. H. S.& van den Berg, M. P. (2004).
Prognostic association of depression following myocardial infarction with
mortality and cardiovascular events: A meta-analysis. Psychosomatic
Medicine, 66, 814-822.
207
Vinson, J. M., Rich, M.W., Sperry, J. C., Shah, A. S. & McNamara, T. (1990). Early
readmission of elderly patients with congestive heart failure. Journal of the
American Geriatric Society, 38, 1290-1295.
Visser, M. C., Fletcher, A. E., Parr, G. et al. (1994). A comparison of three quality
of life instruments in patients with angina pectoris: The Sickness Impact
Profile, the Nottingham Health Profile, and the Quality of Well Being Scale.
Journal of Clinical Epidemiology, 47, 157-63.
Ware, J. E. Jr., Gandek, B. L., Keller, S. D. and the IQOLA Project Group (1996).
Evaluating instruments used cross-nationally: methods from the IQOLA
Project. In B. Spilker (Ed.), Quality of life and pharmacoeconomics in clinical
trials (2nd ed., pp. 681-692). Philadelphia: Lippincott-Raven.
Ware, J. E. & Sherbourne, C. D. (1992). The MOS 36-item Short-Form Health
Survey (SF-36): conceptual framework and item selection. Medical Care, 30,
473-85.
Watson, D. & Clark, L. A. (1984). Negative affectivity: The disposition to experience
aversive emotional states. Psychological Bulletin, 96, 465-490.
Whooley, M. A. & Simon, G. E. (2000). Managing depression in medical
outpatients. New England Journal of Medicine, 343, 1942-1950.
Wiklund, I., Lindvall, K., Swedberg, K., et al. (1987). Self-assesment of quality of
life in severe heart failure. Scandinavian Journal of Psychology, 28, 220225.
Williams, J. M. & Scott, J. (1988). Autobiographical memory in depression.
Psychological Medicine, 18, 689-695.
Wilson, I. B. & Cleary, P. D. (1995). Linking clinical variables with health-related
quality of life. A conceptual model of patient outcomes. Journal of the
American Medical Association, 273, 59-65.
Wolinsky, F. D., Wyrwich, K. W. et al. (1998) Generic versus disease-specific
health status measures. Evaluation and the Health Professions, 21, 216228.
Wood, C. (1987). Are happy people healthier? Journal of the Royal Society of
Medicine, 80, 354-356.
Wood, D. S. & Williams, J. I. (1987). Reintegration to normal living as a proxy to
quality of life. Journal of Chronic Disease, 40, 491-499.
Wu, A.W., Damiano, A. M., Lynn, J. et al. (1995). Predicting future functional status
for seriously ill hospitalised adults: The SUPPORT prognostic model. Annals
of Internal Medicine, 122, 342-350.
Wulsin, L. R. & Singal, B. M. (2003). Do depressive symptoms increase the risk for
the onset of coronary disease? A systematic quantitative review.
Psychosomatic Medicine, 65, 201-210.
Wurtman, R. J. (2005). Genes, stress, and depression. Metabolism, 54, 16-29.
Yousfi, S. (2003). Multivariate Methoden der Testkonstruktion. Universität
Heidelberg. URL: http://www.ub.uni-heidelberg.de/archiv/4389 (URN:
urn:nbn:de:bsz:16-opus-43890).
208
Zipfel, S., Löwe, B., Schneider, A., Herzog, W., Bergmann, G. (1999). Quality of
life, depression and coping behavior in patients awaiting heart transplant.
Psychotherapie Psychosomatik Medizinische Psychologie, 49, 187-94.
A1
ANHANG
A2
KCCQ-Fragebogen
Folgende Fragen beziehen sich auf Ihre Herzinsuffizienz und wie Ihr Leben davon
beeinflusst wird. Wir bitten Sie, folgende Fragen zu lesen und zu beantworten. Dabei gibt
es keine richtigen oder falschen Antworten. Bitte geben Sie die Antwort an, die am besten
auf Sie zutrifft.
1. Herzinsuffizienz wirkt sich auf verschiedene Menschen unterschiedlich aus. Manche
spüren Atemnot, während andere Ermüdung empfinden. Bitte geben Sie an, in welchem
Ausmaß Herzinsuffizienz (Atemnot oder Ermüdung) während der zwei letzten Wochen
Ihre Fähigkeit, folgende Tätigkeiten auszuführen, beeinträchtigt hat. (Bitte ein Kästchen
in jeder Zeile ankreuzen)
1
Tätigkeit
Grad der Beeinträchtigung
2
3
4
extrem
sehr
mäßig
etwas
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
Sich selbst ankleiden
Duschen /Baden
Ca. 100 –200 m auf
ebener Strecke gehen
Garten oder Hausarbeit
Einkaufstaschen tragen
Ohne Pause eine
Treppe hoch steigen
Laufen oder joggen
(z.B. wenn Sie den Bus
erreichen wollen)
5
überhaupt
nicht
aus anderen
Gründen
beeinträchtigt oder
Aktivität nicht
ausgeführt
❏
❏
❏
❏
❏
❏
❏9
❏9
❏9
❏9
❏9
❏9
2. Haben sich Ihre Beschwerden (Atemnot, Ermüdung, oder Schwellen der Knöchel) im
Vergleich zu Ihrem Zustand vor 2 Wochen geändert?
Meine Herzinsuffizienz-Symptome sind jetzt:
viel
schlechter
etwas
schlechter
unverändert
etwas
besser
viel
besser
Ich hatte
während der
letzten 2
Wochen keine
Symptome
❏1
❏2
❏3
❏4
❏5
❏6
3. Wie oft hatten Sie während der letzten 2 Wochen Schwellungen der Füße, Knöchel
oder Beine morgens beim Aufwachen?
jeden
Morgen
3 mal pro Woche
oder öfter, aber
nicht jeden Tag
1-2 mal pro Woche
weniger als einmal
pro Woche
niemals während
der letzten 2
Wochen
❏1
❏2
❏3
❏4
❏5
A3
4. Wie beschwerlich waren die Schwellungen der Füße, Knöchel oder Beine während der
letzten 2 Wochen?
extrem
beschwerlich
sehr
beschwerlich
mäßig
beschwerlich
etwas
beschwerlich
überhaupt nicht
beschwerlich
Ich hatte
keine
Schwellungen
❏1
❏2
❏3
❏4
❏5
❏6
5. Wie hat zu schnelle Ermüdung während der letzten 2 Wochen Sie im Durchschnitt
davon abgehalten, das zu tun, was Sie tun wollten?
ständig
mehrmals am
Tag
mindestens
einmal am Tag
❏1
❏2
❏3
3 mal oder öfter pro
Woche, aber nicht
jeden Tag
1 bis 2 mal
pro Woche
❏4
weniger als
einmal pro
Woche
niemals
während
der letzten 2
Wochen
❏6
❏7
❏5
6. Wie beschwerlich war Ihre Ermüdung während der letzten 2 Wochen? Sie war:
extrem
beschwerlich
sehr
beschwerlich
mäßig
beschwerlich
etwas
beschwerlich
überhaupt nicht
beschwerlich
Ich spürte
keine
Ermüdung
❏1
❏2
❏3
❏4
❏5
❏6
7. Wie oft hat Atemnot während der letzten 2 Wochen Sie im Durchschnitt davon
abgehalten, das zu tun, was Sie tun wollten?
ständig
mehrmals am
Tag
mindestens
einmal am
Tag
3 mal oder
öfter pro
Woche, aber
nicht jeden
Tag
1 bis 2 mal pro
Woche
weniger als
einmal pro
Woche
niemals
während der
letzten 2
Wochen
❏1
❏2
❏3
❏4
❏5
❏6
❏7
8. Wie beschwerlich war Ihre Atemnot während der letzten 2 Wochen? Sie war:
extrem
beschwerlich
sehr
beschwerlich
mäßig
beschwerlich
etwas
beschwerlich
überhaupt nicht
beschwerlich
Ich
verspürte
keine
Atemnot
❏1
❏2
❏3
❏4
❏5
❏6
9. Wie oft waren Sie während der letzten 2 Wochen gezwungen, wegen Atemnot auf
einem Stuhl sitzend oder von mindestens 3 Kissen gestützt zu schlafen?
jede
Nacht
3 mal oder öfter pro
Woche, aber nicht
jede Nacht
1 bis 2 mal pro
Woche
weniger als einmal
pro Woche
niemals
während der letzten
2 Wochen
❏1
❏2
❏3
❏4
❏5
10. Herzinsuffizienz-Symptome können sich aus verschiedenen Gründen verschlechtern.
Wie sicher sind Sie, dass Sie wissen, was zu tun oder wer anzurufen ist, wenn sich Ihre
Herzinsuffizienz verschlechtert?
überhaupt nicht
sicher
nicht sehr
sicher
teilweise
sicher
ziemlich
sicher
vollkommen
sicher
❏1
❏2
❏3
❏4
❏5
A4
11. Wie gut verstehen Sie, was Sie selbst tun können, um Ihre HerzinsuffizienzSymptome nicht zu verschlechtern (z.B. Gewichtskontrolle, weniger Salz in der Diät usw.)?
Ich verstehe es
überhaupt nicht
Ich verstehe es nicht
sehr gut
Ich verstehe es
teilweise
Ich verstehe es
größtenteils
Ich verstehe es
vollkommen
❏1
❏2
❏3
❏4
❏5
12. In welchem Ausmaß hat Ihre Herzinsuffizienz während der letzten 2 Wochen Ihre
Lebensfreude beeinträchtigt?
extrem
beeinträchtigt
sehr
beeinträchtigt
mäßig beeinträchtigt
etwas
beeinträchtigt
überhaupt nicht
beeinträchtigt
❏1
❏2
❏3
❏4
❏5
13. Wie würde Sie sich fühlen, wenn Sie den Rest Ihres Lebens in dem jetzigen Stadium
von Herzinsuffizienz verbringen müßten?
überhaupt nicht
zufrieden
größtenteils
unzufrieden
ziemlich
zufrieden
größtenteils
zufrieden
vollkommen
zufrieden
❏1
❏2
❏3
❏4
❏5
14. Wie oft waren Sie während der letzten 2 Wochen wegen Ihrer Herzinsuffizienz
entmutigt oder deprimiert?
ständig
die meiste Zeit
gelegentlich
selten
niemals
❏1
❏2
❏3
❏4
❏5
15. In welchem Ausmaß beeinflusst Ihre Herzinsuffizienz Ihre Lebensweise?
Bitte geben Sie an, wie Ihre Herzinsuffizienz Ihre Teilnahme an folgenden Tätigkeiten
während der letzten 2 Wochen beeinträchtigt haben könnte. (Bitte ein Kästchen auf jeder
Zeile ankreuzen)
Grad der Beeinträchtigung
Tätigkeit
1
Hobbies
Freizeitaktivitäten
Intime Beziehungen mit
Menschen, die Sie lieben
Besuche bei Familienmitgliedern oder
Freunden außerhalb
Ihrer Wohnung
Arbeit / Hausarbeit
2
3
4
5
überhaupt
nicht
nicht zutreffend
oder aus anderen
Gründen nicht
beantwortet
extrem
sehr
mäßig
etwas
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏9
❏9
❏9
❏
❏
❏
❏
❏
❏9
A5
16 .Wie sehr haben Sie während der letzten 2 Wochen das Gefühl, Ihre
Herzinsuffizienz-Symptome beeinflussen zu können?
überhaupt nicht
nicht sehr
teilweise
ziemlich
vollkommen
❏1
❏2
❏3
❏4
❏5
Sie haben nun das Ende dieses Fragebogens erreicht. Zum Schluss würden
wir gerne Ihre Meinung zu diesem Fragebogen erfahren.
Wie haben Sie diesen Fragebogen zur Beurteilung Ihrer Lebensqualität erlebt?
gar nicht
wenig
etwas
ziemlich
sehr
verständlich
❏1
❏2
❏3
❏4
❏5
wichtig
❏1
❏2
❏3
❏4
❏5
leicht zu
❏1
❏2
❏3
❏4
❏5
❏1
❏2
❏3
❏4
❏5
beantworten
angenehm
A6
Skalenrohwerteverteilung der KCCQ-Fragen
I
Abbildung 20: Fragen 1a bis 1i des KCCQ (Skala Körperliche Einschränkung).
Herzinsuffizienz wirkt sich auf verschiedene Menschen unterschiedlich aus.
Manche spüren Atemnot, während andere Ermüdung empfinden. Bitte geben Sie
an, in welchem Ausmaß Herzinsuffizienz (Atemnot oder Ermüdung) während der
zwei
letzten
Wochen
Ihre
Fähigkeit,
folgende
Tätigkeiten
auszuführen,
beeinträchtigt hat. (Bitte ein Kästchen in jeder Zeile ankreuzen)
1
Tätigkeit
Sich selbst ankleiden
Duschen /Baden
Ca. 100 –200 m auf
ebener Strecke gehen
Garten oder Hausarbeit
Einkaufstaschen tragen
Ohne Pause eine
Treppe hoch steigen
Laufen oder joggen
(z.B. wenn Sie den Bus
erreichen wollen)
Grad der Beeinträchtigung
2
3
4
extrem
sehr
mäßig
etwas
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
5
überhaupt
nicht
aus anderen
Gründen
beeinträchtigt oder
Aktivität nicht
ausgeführt
❏
❏
❏
❏
❏
❏
❏9
❏9
❏9
❏9
❏9
❏9
Die rechte Spalte (9) wird auswertungstechnisch als Missing gewertet.
A7
KCCQ1a
60
50
40
30
Prozent
20
10
0
1
2
3
4
5
9
KCCQ1a
Antwort
extrem
sehr
mäßig
etwas
überhaupt nicht
aus anderen Gründen
ausgeführt
Missing
Gesamt
beeinträchtigt
oder
Aktivität
nicht
Häufigkeit
5
13
41
54
128
6
Prozent
1,9
5,1
16,0
21,0
49,8
10
257
3,9
100
Abbildung 21: Rohwerteverteilung und Häufigkeitstabelle der Frage 1a.
2,3
A8
KCCQ1b
60
50
40
30
Prozent
20
10
0
1
2
3
4
5
9
KCCQ1b
Antwort
extrem
sehr
mäßig
etwas
überhaupt nicht
aus anderen Gründen
ausgeführt
Missing
Gesamt
beeinträchtigt
oder
Aktivität
nicht
Häufigkeit
5
15
47
50
120
8
Prozent
1,9
5,8
18,3
19,5
46,7
12
257
4,7
100
Abbildung 22: Rohwerteverteilung und Häufigkeitstabelle der Frage 1b.
3,1
A9
KCCQ1c
50
40
30
20
Prozent
10
0
1
2
3
4
5
9
KCCQ1c
Antwort
extrem
sehr
mäßig
etwas
überhaupt nicht
aus anderen Gründen
ausgeführt
Missing
Gesamt
beeinträchtigt
oder
Aktivität
nicht
Häufigkeit
20
21
55
53
95
3
Prozent
7,8
8,2
21,4
20,6
37,0
10
257
3,9
100
Abbildung 23: Rohwerteverteilung und Häufigkeitstabelle der Frage 1c.
1,2
A 10
KCCQ1d
30
20
Prozent
10
0
1
2
3
4
5
9
KCCQ1d
Antwort
extrem
sehr
mäßig
etwas
überhaupt nicht
aus anderen Gründen
ausgeführt
Missing
Gesamt
beeinträchtigt
oder
Aktivität
nicht
Häufigkeit
24
51
58
57
46
14
Prozent
9,3
19,8
22,6
22,2
17,9
7
257
2,7
100
Abbildung 24: Rohwerteverteilung und Häufigkeitstabelle der Frage 1d.
5,4
A 11
KCCQ1e
30
20
Prozent
10
0
1
2
3
4
5
9
KCCQ1e
Antwort
extrem
sehr
mäßig
etwas
überhaupt nicht
aus anderen Gründen
ausgeführt
Missing
Gesamt
beeinträchtigt
oder
Aktivität
nicht
Häufigkeit
29
37
55
61
59
7
Prozent
11,3
14,4
21,4
23,7
23,0
9
257
3,5
100
Abbildung 25: Rohwerteverteilung und Häufigkeitstabelle der Frage 1e.
2,7
A 12
KCCQ1f
30
20
Prozent
10
0
1
2
3
4
5
9
KCCQ1f
Antwort
extrem
sehr
mäßig
etwas
überhaupt nicht
aus anderen Gründen
ausgeführt
Missing
Gesamt
beeinträchtigt
oder
Aktivität
nicht
Häufigkeit
67
55
34
28
35
24
Prozent
26,1
21,4
13,2
10,9
13,6
14
257
5,4
100
Abbildung 26: Rohwerteverteilung und Häufigkeitstabelle der Frage 1f.
9,3
A 13
2. Haben sich Ihre Beschwerden (Atemnot, Ermüdung, oder Schwellen der
Knöchel) im Vergleich zu Ihrem Zustand vor 2 Wochen geändert?
Meine Herzinsuffizienz-Symptome sind jetzt:
viel
schlechter
etwas
schlechter
unverändert
etwas
besser
viel
besser
Ich hatte
während der
letzten 2
Wochen keine
Symptome
❏1
❏2
❏3
❏4
❏5
❏6
Anmerkung: Die rechte Saplte (6) wird auswertungstechnisch als 3 (unverändert) gewertet.
KCCQ2
50
40
30
20
Prozent
10
0
1
2
3
4
5
6
KCCQ2
Antwort
viel schlechter
etwas schlechter
unverändert
etwas besser
viel besser
Ich hatte während der letzten 2 Wochen keine Symptome
Missing
Gesamt
Häufigkeit
12
24
120
38
16
42
5
257
Abbildung 27: Frage, Rohwerteverteilung und Häufigkeitstabelle der Frage 2
(Symptomstabilität).
Prozent
4,7
9,3
46,7
14,8
6,2
16,3
1,9
100
A 14
3. Wie oft hatten Sie während der letzten 2 Wochen Schwellungen der Füße,
Knöchel oder Beine morgens beim Aufwachen?
jeden
Morgen
3 mal pro Woche
oder öfter, aber
nicht jeden Tag
1-2 mal pro
Woche
weniger als
einmal pro
Woche
niemals
während der
letzten 2 Wochen
❏1
❏2
❏3
❏4
❏5
KCCQ3
70
60
50
40
30
Prozent
20
10
0
1
2
3
4
5
KCCQ3
Antwort
jeden Morgen
3 mal pro Woche oder öfter, aber nicht jeden Tag
1-2 mal pro Woche
weniger als einmal pro Woche
niemals während der letzten 2 Wochen
Missing
Gesamt
Häufigkeit
25
17
26
29
152
8
257
Prozent
9,7
6,6
10,1
11,3
59,1
3,1
100
Abbildung 28: Frage, Rohwerteverteilung und Häufigkeitstabelle der Frage 3 (Skala
Symptome).
A 15
Wie beschwerlich waren die Schwellungen der Füße, Knöchel oder Beine
während der letzten 2 Wochen?
extrem
beschwerlich
sehr
beschwerlich
mäßig
beschwerlich
etwas
beschwerlich
überhaupt nicht
beschwerlich
❏1
❏2
❏3
❏4
❏5
Ich hatte
keine
Schwellunge
n
❏6
Anmerkung: Die rechte Spalte (6) wird auswertungstechnisch als 5 gewertet.
KCCQ4
50
40
30
20
Prozent
10
0
1
2
3
4
5
6
KCCQ4
Antwort
extrem beschwerlich
sehr beschwerlich
mäßig beschwerlich
etwas beschwerlich
überhaupt nicht beschwerlich
Ich hatte keine Schwellungen
Missing
Gesamt
Häufigkeit
3
15
28
50
36
121
4
257
Prozent
1,2
5,8
10,9
19,5
14,2
47,8
1,6
100
Abbildung 29: Frage, Rohwerteverteilung und Häufigkeitstabelle der Frage 4 (Skala
Symptome).
A 16
5. Wie hat zu schnelle Ermüdung während der letzten 2 Wochen Sie im
Durchschnitt davon abgehalten, das zu tun, was Sie tun wollten?
ständig
mehrmals am
Tag
mindestens
einmal am
Tag
3 mal oder öfter
pro Woche,
aber nicht
jeden Tag
1 bis 2 mal
pro Woche
❏1
❏2
❏3
❏4
❏5
weniger
niemals
als einmal
während der
pro
letzten 2 Wochen
Woche
❏6
❏7
KCCQ5
30
20
Prozent
10
0
1
2
3
4
5
6
7
KCCQ5
Antwort
ständig
mehrmals am Tag
mindestens einmal am Tag
3 mal oder öfter pro Woche, aber nicht jeden Tag
1 bis 2 mal pro Woche
weniger als einmal pro Woche
niemals während der letzten 2 Wochen
Missing
Gesamt
Häufigkeit
23
58
38
20
37
21
55
5
257
Prozent
8,9
22,6
14,8
7,8
14,4
8,2
21,4
1,9
100
Abbildung 30: Frage, Rohwerteverteilung und Häufigkeitstabelle der Frage 5 (Skala
Symptome).
A 17
6. Wie beschwerlich war Ihre Ermüdung während der letzten 2 Wochen? Sie war:
extrem
beschwerlich
sehr beschwerlich
mäßig
beschwerlich
etwas
beschwerlich
überhaupt nicht
beschwerlich
❏1
❏2
❏3
❏4
❏5
Ich spürte
keine
Ermüdung
❏6
Anmerkung: Die rechte Spalte (6) wird auswertungstechnisch als 5 gewertet.
KCCQ6
40
30
20
Prozent
10
0
1
2
3
4
5
6
KCCQ6
Antwort
extrem beschwerlich
sehr beschwerlich
mäßig beschwerlich
etwas beschwerlich
überhaupt nicht beschwerlich
Ich spürte keine Ermüdung
Missing
Gesamt
Häufigkeit
14
40
72
74
24
29
4
257
Prozent
5,4
15,4
28,0
28,8
9,3
11,3
1,6
100
Abbildung 31: Frage, Rohwerteverteilung und Häufigkeitstabelle der Frage 6 (Skala
Symptome).
A 18
7. Wie oft hat Atemnot während der letzten 2 Wochen Sie im Durchschnitt davon
abgehalten, das zu tun, was Sie tun wollten?
ständig
mehrmals
am Tag
mindestens
einmal am
Tag
3 mal oder öfter
pro Woche, aber
nicht jeden Tag
1 bis 2 mal pro
Woche
❏1
❏2
❏3
❏4
❏5
weniger als
einmal pro
Woche
niemals
während der
letzten 2 Wochen
❏6
❏7
KCCQ7
40
30
20
Prozent
10
0
1
2
3
4
5
6
7
KCCQ7
Antwort
ständig
mehrmals am Tag
mindestens einmal am Tag
3 mal oder öfter pro Woche, aber nicht jeden Tag
1 bis 2 mal pro Woche
weniger als einmal pro Woche
niemals während der letzten 2 Wochen
Missing
Gesamt
Häufigkeit
15
44
40
18
28
25
86
2
257
Prozent
5,8
17,1
15,6
7,0
10,9
9,7
33,1
0,8
100
Abbildung 32: Frage, Rohwerteverteilung und Häufigkeitstabelle der Frage 7 (Skala
Symptome).
A 19
Wie beschwerlich war Ihre Atemnot während der letzten 2 Wochen? Sie war:
extrem beschwerlich
sehr beschwerlich
mäßig beschwerlich
❏1
❏2
❏3
etwas
überhaupt nicht
Ich verspürte
beschwerlich
beschwerlich
keine Atemnot
❏4
❏5
Anmerkung: Die rechte Spalte (6) wird auswertungstechnisch als 5 gewertet.
KCCQ8
40
30
20
Prozent
10
0
1
2
3
4
5
6
KCCQ8
Antwort
extrem beschwerlich
sehr beschwerlich
mäßig beschwerlich
etwas beschwerlich
überhaupt nicht beschwerlich
Ich verspürte keine Atemnot
Missing
Gesamt
Häufigkeit
7
31
73
57
21
61
7
257
Prozent
2,7
12,1
28,4
22,2
8,2
23,7
2,7
100
Abbildung 33: Frage, Rohwerteverteilung und Häufigkeitstabelle der Frage 8 (Skala
Symptome).
❏6
A 20
9. Wie oft waren Sie während der letzten 2 Wochen gezwungen, wegen Atemnot
auf einem Stuhl sitzend oder von mindestens 3 Kissen gestützt zu schlafen?
jede
Nacht
3 mal oder öfter pro
Woche, aber nicht jede
Nacht
1 bis 2 mal pro Woche
weniger als einmal pro
Woche
niemals
während der letzten 2
Wochen
❏1
❏2
❏3
❏4
❏5
KCCQ9
70
60
50
40
30
Prozent
20
10
0
1
2
3
4
5
KCCQ9
Antwort
jede Nacht
3 mal oder öfter pro Woche, aber nicht jede Nacht
1-2 mal pro Woche
weniger als einmal pro Woche
niemals während der letzten 2 Wochen
Missing
Gesamt
Häufigkeit
21
27
18
25
162
4
257
Prozent
8,2
10,5
7,0
9,7
63,0
1,6
100
Abbildung 34: Frage, Rohwerteverteilung und Häufigkeitstabelle der Frage 9 (Skala
Symptome).
A 21
10. Herzinsuffizienz-Symptome können sich aus verschiedenen Gründen
verschlechtern. Wie sicher sind Sie, dass Sie wissen, was zu tun oder wer
anzurufen ist, wenn sich Ihre Herzinsuffizienz verschlechtert?
überhaupt nicht
sicher
nicht sehr
sicher
teilweise
sicher
ziemlich
sicher
vollkommen
sicher
❏1
❏2
❏3
❏4
❏5
KCCQ10
50
40
30
20
Prozent
10
0
1
2
3
4
5
KCCQ10
Antwort
überhaupt nicht sicher
nicht sehr sicher
teilweise sicher
ziemlich sicher
vollkommen sicher
Missing
Gesamt
Häufigkeit
18
28
38
103
68
2
257
Prozent
7,0
10,9
14,8
40,1
26,5
0,8
100
Abbildung 35: Frage, Rohwerteverteilung und Häufigkeitstabelle der Frage 10 (Skala
Selbstwirksamkeit).
A 22
11. Wie gut verstehen Sie, was Sie selbst tun können, um Ihre HerzinsuffizienzSymptome nicht zu verschlechtern (z.B. Gewichtskontrolle, weniger Salz in der
Diät usw.)?
Ich verstehe es
überhaupt nicht
Ich verstehe es nicht
sehr gut
Ich verstehe es
teilweise
Ich verstehe es
größtenteils
Ich verstehe es
vollkommen
❏1
❏2
❏3
❏4
❏5
KCCQ11
60
50
40
30
Prozent
20
10
0
1
2
3
4
5
KCCQ11
Antwort
Ich verstehe es überhaupt nicht
Ich verstehe es nicht sehr gut
Ich verstehe es teilweise
Ich verstehe es größtenteils
Ich verstehe es vollkommen
Missing
Gesamt
Häufigkeit
4
12
41
122
75
3
257
Prozent
1,6
4,7
16,0
47,5
29,2
1,2
100
Abbildung 36: Frage, Rohwerteverteilung und Häufigkeitstabelle der Frage 11 (Skala
Selbstwirksamkeit).
A 23
12. In welchem Ausmaß hat Ihre Herzinsuffizienz während der letzten 2 Wochen
Ihre Lebensfreude beeinträchtigt?
extrem
beeinträchtigt
sehr
beeinträchtigt
mäßig beeinträchtigt
etwas
beeinträchtigt
überhaupt nicht
beeinträchtigt
❏1
❏2
❏3
❏4
❏5
KCCQ12
40
30
20
Prozent
10
0
1
2
3
4
5
KCCQ12
Antwort
extrem beeinträchtigt
sehr beeinträchtigt
mäßig beeinträchtigt
etwas beeinträchtigt
überhaupt nicht beeinträchtigt
Missing
Gesamt
Häufigkeit
9
55
60
75
55
3
257
Prozent
3,5
21,4
23,3
29,2
21,4
1,2
100
Abbildung 37: Frage, Rohwerteverteilung und Häufigkeitstabelle der Frage 12 (Skala
Lebensqualität).
A 24
13. Wie würde Sie sich fühlen, wenn Sie den Rest Ihres Lebens in dem jetzigen
Stadium von Herzinsuffizienz verbringen müßten?
überhaupt nicht
zufrieden
größtenteils
unzufrieden
ziemlich
zufrieden
größtenteils
zufrieden
vollkommen
zufrieden
❏1
❏2
❏3
❏4
❏5
KCCQ13
30
20
Prozent
10
0
1
2
3
4
5
KCCQ13
Antwort
überhaupt nicht zufrieden
größtenteils unzufrieden
ziemlich zufrieden
größtenteils zufrieden
vollkommen zufrieden
Missing
Gesamt
Häufigkeit
40
62
62
71
18
4
257
Prozent
15,6
24,1
24,1
27,6
7,0
1,6
100
Abbildung 38: Frage, Rohwerteverteilung und Häufigkeitstabelle der Frage 13 (Skala
Lebensqualität).
A 25
14. Wie oft waren Sie während der letzten 2 Wochen wegen Ihrer
Herzinsuffizienz entmutigt oder deprimiert?
ständig
die meiste Zeit
gelegentlich
selten
niemals
❏1
❏2
❏3
❏4
❏5
KCCQ14
40
30
20
Prozent
10
0
1
2
3
4
5
KCCQ14
Antwort
ständig
die meiste Zeit
gelegentlich
selten
niemals
Missing
Gesamt
Häufigkeit
14
36
93
57
54
Prozent
5,4
14,0
36,2
22,2
21,0
3
257
1,2
100
Abbildung 39: Frage, Rohwerteverteilung und Häufigkeitstabelle der Frage 14 (Skala
Lebensqualität).
A 26
In welchem Ausmaß beeinflusst Ihre Herzinsuffizienz Ihre Lebensweise?
Bitte geben Sie an, wie Ihre Herzinsuffizienz Ihre Teilnahme an folgenden Tätigkeiten während der letzten 2 Wochen beeinträchtigt haben könnte. (Bitte ein
Kästchen auf jeder Zeile ankreuzen)
Grad der Beeinträchtigung
Tätigkeit
1
Hobbies Freizeitaktivitäten
Intime Beziehungen mit
Menschen, die Sie lieben
Besuche bei Familienmitgliedern oder
Freunden außerhalb
Ihrer Wohnung
Arbeit / Hausarbeit
2
3
4
5
überhaupt
nicht
nicht zutreffend oder aus
anderen
Gründen nicht
beantwortet
extrem
sehr
mäßig
etwas
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏
❏9
❏9
❏9
❏
❏
❏
❏
❏
❏9
Die rechte Spalte (9) wird auswertungstechnisch als Missing gewertet.
Abbildung 40: Frage 15a bis 15d (Skala Soziale Einschränkung).
A 27
KCCQ15a
30
20
Prozent
10
0
1
2
3
4
5
9
KCCQ15a
Antwort
extrem
sehr
mäßig
etwas
überhaupt nicht
nicht zutreffend oder aus anderen Gründen nicht beantwortet
Missing
Gesamt
Häufigkeit
28
55
52
61
36
13
12
257
Prozent
10,9
21,4
20,2
23,7
14,0
5,1
4,7
100
Abbildung 41: Rohwerteverteilung und Häufigkeitstabelle der Frage 15a (Skala Soziale
Einschränkung).
A 28
KCCQ15b
30
20
Prozent
10
0
1
2
3
4
5
9
KCCQ15b
Antwort
extrem
sehr
mäßig
etwas
überhaupt nicht
nicht zutreffend oder aus anderen Gründen nicht beantwortet
Missing
Gesamt
Häufigkeit
25
43
32
44
58
34
21
257
Prozent
9,7
16,7
12,5
17,1
22,6
13,2
8,2
100
Abbildung 42: Rohwerteverteilung und Häufigkeitstabelle der Frage 15b (Skala Soziale
Einschränkung).
A 29
KCCQ15c
40
30
20
Prozent
10
0
1
2
3
4
5
9
KCCQ15c
Antwort
extrem
sehr
mäßig
etwas
überhaupt nicht
nicht zutreffend oder aus anderen Gründen nicht beantwortet
Missing
Gesamt
Häufigkeit
13
35
48
57
87
5
12
257
Prozent
5,1
13,6
18,7
22,2
33,9
1,9
4,7
100
Abbildung 43: Rohwerteverteilung und Häufigkeitstabelle der Frage 15c (Skala Soziale
Einschränkung).
A 30
KCCQ15d
30
20
Prozent
10
0
1
2
3
4
5
9
KCCQ15d
Antwort
extrem
sehr
mäßig
etwas
überhaupt nicht
nicht zutreffend oder aus anderen Gründen nicht beantwortet
Missing
Gesamt
Häufigkeit
24
60
57
64
38
7
7
257
Prozent
9,3
23,3
22,2
24,9
14,8
2,7
2,7
100
Abbildung 44: Rohwerteverteilung und Häufigkeitstabelle der Frage 15d (Skala Soziale
Einschränkung).
A 31
A 32
Bewertung der Akzeptanz des KCCQ
Sie haben nun das Ende dieses Fragebogens erreicht. Zum Schluß würden
wir gerne Ihre Meinung zu diesem Fragebogen erfahren.
Wie haben Sie diesen Fragebogen zur Beurteilung Ihrer Lebensqualität erlebt?
gar nicht
wenig
etwas
ziemlich
sehr
verständlich
❏1
❏2
❏3
❏4
❏5
wichtig
❏1
❏2
❏3
❏4
❏5
leicht zu
❏1
❏2
❏3
❏4
❏5
❏1
❏2
❏3
❏4
❏5
beantworten
angenehm
Abbildung 45: Fragen, Rohwerteverteilungen und Häufigkeitstabellen der Fragen zur Bewertung des Fragebogens (17a bis 17d)
KCCQ17a
60
50
40
30
Prozent
20
10
0
1
2
3
4
5
KCCQ17a
Antwort: verständlich
gar nicht
wenig
etwas
ziemlich
sehr
Missing
Gesamt
Häufigkeit
2
10
23
133
72
Prozent
0,8
3,9
8,9
51,8
28,0
17
257
6,6
100
Abbildung 46: Rohwerteverteilungen und Häufigkeitstabellen der Frage 17a (Verständlich).
A 33
KCCQ17b
50
40
30
20
Prozent
10
0
1
2
3
4
5
KCCQ17b
Antwort: wichtig
gar nicht
wenig
etwas
ziemlich
sehr
Missing
Gesamt
Häufigkeit
4
14
25
83
105
Prozent
1,6
5,4
9,7
32,3
40,9
26
257
10,1
100
Abbildung 47: Rohwerteverteilungen und Häufigkeitstabellen der Frage 17b (wichtig).
A 34
KCCQ17c
50
40
30
20
Prozent
10
0
1
2
3
4
5
KCCQ17c
Antwort: leicht zu beantworten
gar nicht
wenig
etwas
ziemlich
sehr
Missing
Gesamt
Häufigkeit
4
14
29
110
77
Prozent
1,6
5,4
11,3
42,8
30,0
23
257
8,9
100
Abbildung 48: Rohwerteverteilungen und Häufigkeitstabellen der Frage 17c (leicht zu
beantworten).
A 35
KCCQ17d
50
40
30
20
Prozent
10
0
1
2
3
4
5
KCCQ17d
Antwort: angenehm
gar nicht
wenig
etwas
ziemlich
sehr
Häufigkeit
10
20
35
107
61
Prozent
3,9
7,8
13,6
41,6
23,7
24
257
9,3
100
Missing
Gesamt
Abbildung 49: Rohwerteverteilungen und Häufigkeitstabellen der Frage 17d (angenehm).
Tabelle 59: Mittelwert, Modus, SD, Min und Max der Bewertungen der Eigenschaften des
KCCQ.
Mittelwert
Modus
SD
Min
Max
n
Missing
verständlich
wichtig
leicht zu
beantworten
angenehm
4,1
4
0,79
1
5
240
17
4,2
5
0,97
1
5
231
26
4,0
4
0,92
1
5
234
23
3,8
4
1,05
1
5
233
24
A 36
A 37
Freie Antworten der Befragten
18. Hatten Sie mit einer oder mehreren Fragen irgendwelche Schwierigkeiten?
Wenn ja, dann beschreiben Sie bitte nachfolgend, welche Schwierigkeiten Sie mit
welcher Frage hatten.
Allgemeine Kritik
Anknüpfungszeitpunkt für 2-Wochen-Zeitfenster in sämtl. Fragen unklar (vor od.
nach Krankenhausaufenthalt, Nachuntersuchung. Zeitpunkt des Ausfüllens des
Fragebogens etc.), gleiches gilt für die zweite Messung..........
Die Fragen ähneln sich sehr!
Schwierig war die Einordnung.
Viele Fragen könnte ich beantworten, wenn sie sich auf meinen Bandscheibenschaden beziehen würden. Müdigkeit und starke Belastung, auch Schmerzen sind
daran schuld.
Anregung: Fragebogen auch in Englisch
Zu den einzelnen Items
zu Frage 1: Beeinträchtigung durch starke Schmerzen zwischen Schulterblatt und
Wirbelsäule. Behandlung desshalb beim Orthopäden. Bisher ohne Erfolg.
Anmerkungen: Frage 1: laufen oder joggen für mich schon lange indiskutabel
Frage.
1: Gartenarbeit, Treffen steigen (1. Etage)
Probleme mit Nr.1, 8, 12
Frage 3: Paßte bei mir nicht ganz, da die Schwellung meist abends war. Bis zum
Morgen war sie meist wieder verschwunden.
Nr. 3: Schwellungen: manchmal das rechte Auge
zu 5: nach ca. 4 Std.muß ich immer 1 Std. Pause einlegen
Nr.5-8: Bei Ermüdung mache ich langsam und finde mich damit ab; Atemnot habe
ich nur bei Anstrengung.
Nr. 9: Schlechter Schlaf mehr als dreimal pro Woche, aber sitzend oder gestützt
nicht zwingend
11. Wie kann man Symptome beeinflussen?
A 38
Frage 11: Da ich bis jetzt nichts von meiner Herzinsuff wusste, weiß ich auch nicht,
was ich tun kann, damit sich die Symptome nicht verschlechtern.
Zu Fr.14: weniger deprimiert, weil ich nichts tun konnte, sondern mehr aus psychischen Gründen. Erst einmal mit dieser Diagnose fertig werden.
Frage 14 ist sehr subjektiv zu beurteilen bzw. zu definieren(auch 15) Wenn es
einem schlecht geht, und man müde ist, hat man zu nichts Lust. Wenn es einem
gut geht, vergisst man dies äußerst schnell.
Nr. 14: Die meiste Zeit Angst vor Verschlimmerung
Mit Frage 15 hatte ich Schwierigkeiten, da ich noch nicht arbeite, kann ich kein
Urteil abgeben
Frage 15 nicht detailliert genug. Alltägliche Situationen, die meist Stress, Druck,
Ängste erzeugen können, werden bei der Fragestellung nicht berücksichtigt
Nr. 15b: praktisch nicht mehr möglich, wahrscheinlich jahrelanger BetablockerEinnahme
15 Bei "Hobbies/Freizeitaktivitäten" sollte unterschieden werden nach körperlichen
Tätigkeiten (Wandern, Sport etc.) und geistigen Aktivitäten (Lesen, Briefmarken
sammeln etc.).
15: Arbeit/Hausarbeit auch indiskutabel Frage 1:Garten/Hausarbeit seit 1996 nicht
mehr möglich
Persönliche Ergänzungen der Patienten
Ich hatte Schwierigkeiten, weil ich bis vor kurzem nicht wusste, was meine Beschwerden sind, wie die Krankheit heisst und was sie bedeutet. Man hat mir nie
gesagt, dass ich Herzinsuffizienz habe.
allgemein, Chemotherapiebedingt.
Beim Laufen Atemnot und Wasser im Körper, was mich sehr belastet
Meine Schwierigkeiten bestehen deshalb, weil ich erst vor sechs Wochen operiert
wurde und deshalb zur Zeit mit allen Aktivitäten und Arbeiten zurückhaltend sein
bzw. Schonung üben muss.
Angst. Wenig Schlaf durch Atemnot, Müdigkeit.
Die große Hitze in den letzten Wochen hat die Beschwerden ausgelöst.
Herzprobleme habe ich bereits seit 25 Jahren, jedoch ohne größere Probleme.
Verschlechterung seit Anfang 2001 (bis dahin körperlich zufrieden).
Ich habe grundsätzlich mit der Frage, ob eine Herzinsuffizienz vorliegt, meine
Probleme, da ich bis dato nichts davon wusste.
Danksagung
Die vorliegende Dissertation wäre nicht ohne die hohe Bereitschaft der
herzinsuffizienten Patienten der Würzburger Universitätsklinik möglich gewesen,
die sich bereit erklärten, die recht umfangreichen Fragen zu beantworten.
Die Dissertation ist ein Ergebnis des Projektes „Optimierung der Betreuung
chronisch herzinsuffizienter Patienten: Bedürfnisanalyse, Manualentwicklung,
Lebensqualität“, die durch die Ernst und Berta Grimmke-Stiftung ermöglicht und
gefördert wurde. Es handelte sich um ein gemeinsames Projekt des Institutes für
Psychotherapie und Medizinische Psychologie bzw. Herrn Prof. H. Faller und der
Herzinsuffizienz-Ambulanz der Universitären Poliklinik bzw. Frau Prof. Christiane
E. Angermann. Die Projektleitung hatte Frau Dr. Schowalter.
Für die sehr gute Zusammenarbeit möchte ich an dieser Stelle noch einmal allen
Beteiligten danken. Insbesondere möchte ich Herrn Dr. Stefan Störk aus der
Herzinsuffizienzambulanz für sein hohes Engagement für dieses Projekt danken.
Für die Unterstützung durch die Annahme des Themas und die Begutachtung
dieser Promotion, möchte ich Herrn Prof. J. Bengel danken.
Von der Entwicklung der Hypothesen bis zum Ausformulieren der Arbeit war es
doch ein langer Weg. Für die unterstützende und korrigierende Begleitung auf
diesem Weg möchte ich Herrn Prof. Faller außerordentlich danken.
Mein Dank gilt weiterhin meiner Familie und Freunden, die mir zur Seite standen,
insbesondere Safir Yousfi für die anregenden Diskussionen und Franziska Böttrich
sowie Annett Pröger.
Thomas Steinbüchel
Herunterladen