5.4.1 Studien zur Reliabilität Inter-Rater

5.4.1 Studien zur Reliabilität
Inter-Rater-Reliabilität
Der Nachweis der Messgenauigkeit erfordert bei einem Interview mit anschließendem Rating, wie es die SPK sind, die Untersuchung der Inter-Rater-Reliabilität.
In einer Reliabilitätsstudie (DeWitt et al. 1999) an einer heterogenen Stichprobe
(N = 30) übertrafen alle Skalen den Cohenschen Cut-off-Punkt (Cohen 1988) von
κ = .5 und 22 Skalen sogar einen Cut-off-Punkt von κ = .7 (Kriterium nach Hill
u. Lambert 2004).
Dagegen erzielten Sundin et al. (1994) in einer Inter-Rater-Reliabilitätsstudie,
die in Schweden mit dem PSYCAP (Scales of Psychological Capacities), einer
schwedischen Version der SPK, durchgeführt wurde, durchgehend weniger gute
Ergebnisse. Die Rater waren zwar ebenfalls sehr erfahrene Kliniker, hatten aber
kein oder nur ein minimales Ratertraining und keine Rekalibrierungssitzungen
erhalten. Zudem waren in der Stichprobe viele psychotische Patienten, für die nach
Wallerstein et al. (1989) die SPK nicht geeignet sind.
Lundin und Waldron (2004) haben Audioaufzeichnungen und Transkripte analytischer Stunden als Einschätzungsbasis für die SPK zugrunde gelegt und damit
eine Inter-Rater-Reliabilität (Shrout u. Fleiss 1979) von ICC = .69 erreicht.
Leuzinger-Bohleber und Fischmann (2007) berichten von einer Inter-Rater-Reliabilitätsstudie, in der ein ICC von .61 erreicht wurde. Diese vergleichsweise geringe
Übereinstimmung der Rater bei beiden Studien könnte damit zusammenhängen,
dass die Daten nicht mit dem halbstrukturierten SPK-Interview erhoben wurden.
Staun et al. geben eine Inter-Rater-Reliabilität von r = .9 für die von der Münchner
SPK-Gruppe trainierten Rater der Hanse-Neuro-Psychoanalyse-Studie an (Staun
et al. 2010).
Zur Prüfung der Reliabilität der deutschen Version haben Huber und Klug zunächst ein dreiwöchiges Ratertraining bei den amerikanischen Testautoren in
San Francisco absolviert, nach Mercer und Loesch also ein Ratertraining nach
der formalen Methode (Kalibrierung durch die Testautoren, Mercer u. Loesch
1979). Mithilfe des nach München übernommenen Fallmaterials wurde eine erste
deutsche Inter-Rater-Reliabilitätsstudie an 38 depressiven Patienten mit drei neu
trainierten Ratern durchgeführt, die zu hohen Reliabilitäten führte: Im Durchschnitt ergab sich ein ICC von .82 mit einer Spannbreite von .54–.89 (Klug u.
Huber 2003; Huber et al. 2006). 31 von 35 Subdimensionen erreichten den Cutoff-Wert von .7; alle Koeffizienten lagen > .5.
Die Reliabilitätskoeffizienten liegen damit alle in einem sehr befriedigenden Bereich
und erfüllen internationale Standards gut – sie sind höher als die von den amerikanischen Testautoren berichteten. Wir führen diese guten Ergebnisse auf die strikte
Einhaltung allgemein anerkannter Standards für das Ratertraining zurück.
Es sei noch darauf hingewiesen, dass keiner der Rater eine abgeschlossene psychotherapeutische Ausbildung hatte. Die drei Rater erzielten die hohe ÜbereinDorothea Huber et al.
131
stimmung trotz ihres unterschiedlichen beruflichen Hintergrunds, und auch der
verhaltenstherapeutisch orientierte Kollege hatte keine Probleme, sich in Konzeption und Gebrauch der SPK einzuarbeiten.
Trotz der sehr guten Reliabilitäten werden in allen folgenden deutschen Teilstudien
die Audioaufzeichnungen immer von zwei Ratern eingeschätzt. Wir sehen hierin
einen zusätzlichen Beitrag zur Erhöhung der Auswertungsobjektivität. Dadurch
ist es auch möglich, für jede Teilstudie getrennt Inter-Rater-Reliabilitäten anzugeben. Die durchschnittlichen Reliabilitäten liegen zwischen ICC = .62 und .87
und unterscheiden sich nicht wesentlich für die verschiedenen diagnostischen
Gruppen: In der „Known-groups“-Konstruktvalidierungsstudie betrug der ICC
für die gesunden Kontrollen .82, für die Depressiven .72 und für die BorderlinePatienten .81.
Interne Konsistenz und Interkorrelationen
Es wurden eine Item-Analyse und die Interkorrelationen der 35 Subdimensionen der SPK anhand der depressiven Gesamtstichprobe (N = 133; s. Tab. 5-3)
berechnet. Cronbachs α, ein Maß für die interne Konsistenz, betrug .74, was
die sinnvolle Berechnung eines Summenwerts ermöglicht; der SPK-Gesamtwert
(Summenwert über alle 35 Subdimensionen) ist also als ein Globalmaß für die
Beeinträchtigung des psychischen Funktionierens zu verstehen.
Auf der anderen Seite sind nur 19 von insgesamt 595 Interkorrelationen der
35 Subdimensionen r > .40 und drei r > .50. Dies demonstriert die relative Unabhängigkeit der Subdimensionen voneinander und rechtfertigt die Verwendung von
35 Subdimensionen zur Beschreibung depressiver Patienten.
Test-Retest-Reliabilität (Stabilität)
Soll ein Instrument Veränderung messen, muss zunächst nachgewiesen werden,
dass seine Testergebnisse stabil bzw. reproduzierbar sind, wenn keine Veränderungen stattgefunden haben.
DeWitt berichtet über eine Test-Retest-Studie, die an 20 Personen, nämlich Personal, Patienten aus somatischen Abteilungen und Verwandten von Patienten
durchgeführt wurde (DeWitt 2007). Das Intervall zwischen Test und Retest betrug
vier bis sieben, durchschnittlich 5,2 Monate. Es ergab sich eine sehr gute Stabilität
mit einem Korrelationskoeffizienten von r = .73 zwischen der ersten und zweiten
Messung für die gesamte Skala.
Die Untersuchung zur Stabilität (Test-Retest-Reliabilität) der deutschen Version
wurde wiederum an depressiven Patienten durchgeführt, wobei das Zeitintervall
zwischen Test und Retest zehn Wochen betrug. Die Stabilitätskoeffizienten (ermittelt mit dem Produkt-Moment-Korrelations-Koeffizienten nach Pearson) liegen für
die 35 Subdimensionen zwischen r = .65 und r = .96 und für den SPK-Gesamtwert
(Summenwert über alle 35 Subdimensionen) bei r = .88 (Huber et al. 2005, 2006).
Damit liegt im Vergleich zu anderen Rating-Verfahren eine sehr gute Stabilität vor.
132
5 Die Skalen Psychischer Kompetenzen (SPK)
Tab. 5-3 Soziodemografische Variablen und Diagnosen der depressiven Gesamtstichprobe
(N = 133)
M = 33.1 (SD = 6.4)
Alter (Jahre)
Geschlecht
Familienstand
Schulabschluss
Beschäftigung
weiblich
70 %
männlich
30 %
ledig
72 %
verheiratet
16 %
geschieden/getrennt
12 %
feste Partnerschaft
59 %
Kind(er)
29 %
Haupt-/Realschule
29 %
Abitur
67 %
Sonstiges
4 %
Vollzeit
53 %
Teilzeit
13 %
arbeitslos
5 %
Ausbildung/Studium
16 %
Hausarbeit/Sonstiges
13 %
Erste Diagnose (ICD-10)
F32.1
mittelgradige depressive Episode
46 %
F32.2
schwere depressive Episode
13 %
F33.1
rezidivierende depressive Störung – mittelgradig
29 %
F33.2
rezidivierende depressive Störung – schwer
13 %
Zweite Diagnose (ICD-10)
F34.1
Dysthymia
38 %
Sonstige
6 %
Keine
56 %
Dauer der Störung (1. Diagnose) in Monaten
M = 69.9 (SD = 75.4)
ICD = International Statistical Classification of Diseases and Related Health Problems; M = Mittelwert;
SD = Standardabweichung
Dorothea Huber et al.
133