Aus dem Zentrum für Geriatrie und Gerontologie der Albert-Ludwigs-Universität Freiburg i. Br. Automatische MRT-basierte Diagnostik zur Verlaufsvorhersage leichter kognitiver Störungen I N A U G U R A L - D I S S E RTAT I O N zur Erlangung des Medizinischen Doktorgrades der Medizinischen Fakultät der Albert-Ludwigs-Universität Freiburg i. Br. Vorgelegt 2014 von Anne Elisabeth Johanna Pilatus geboren in Georgsmarienhütte Dekanin Prof. Dr. Kerstin Krieglstein 1. Gutachter PD Dr. med. Stefan Klöppel 2. Gutachterin Prof. Dr. med. Irina Mader Jahr der Promotion 2014 II Inhaltsverzeichnis Abkürzungsverzeichnis V Tabellenverzeichnis VIII Abbildungsverzeichnis IX 1 Einführung 1 1.1 Hintergrund und Zielstellung . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Demenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.2 Epidemiologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.3 Diagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.4 Alzheimer-Demenz . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.5 Vaskuläre Demenzen . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.6 Frontotemporale Demenzen . . . . . . . . . . . . . . . . . . . . 7 1.3 Leichte kognitive Störungen . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4 White Matter Hyperintensities . . . . . . . . . . . . . . . . . . . . . . . 9 1.5 Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5.1 Definition und Funktionsweise . . . . . . . . . . . . . . . . . . . 11 1.5.2 Anwendungsbereiche . . . . . . . . . . . . . . . . . . . . . . . . 13 1.5.3 SVM in der Demenzdiagnostik . . . . . . . . . . . . . . . . . . . 13 1.5.4 SVM in der Prognostik leichter kognitiver Störungen . . . . . . 15 Fragestellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.6 III Inhaltsverzeichnis 2 Material und Methoden 18 2.1 Studienaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2 Studienpopulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3 Referenzstandard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.1 Referenzstandard bei Demenz . . . . . . . . . . . . . . . . . . . 20 2.3.2 Referenzstandard bei leichter kognitiver Störung . . . . . . . . . 21 Testmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.4.1 Fragebögen zur Erhebung des Referenzstandards . . . . . . . . . 21 2.4.2 Neuropsychologische Testung . . . . . . . . . . . . . . . . . . . 23 2.4.3 MRT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.4.4 Angaben zur automatischen Auswertung der Bildgebung . . . . 28 Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.5.1 Charakterisierung des Probandenkollektivs . . . . . . . . . . . . 30 2.5.2 Auswertung der Daten zur diagnostischen Sicherheit der Ärzte . 31 2.5.3 Auswertung der SVM-Ergebnisse . . . . . . . . . . . . . . . . . 31 2.4 2.5 3 Ergebnisse 3.1 33 Probandenkollektiv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.1.1 Screeningprozess . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.1.2 Charakterisierung des Probandenkollektivs . . . . . . . . . . . . 35 3.2 Analysen zur diagnostischen Sicherheit der Ärzte . . . . . . . . . . . . 39 3.3 Analyse der SVM-Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 42 4 Diskussion 47 4.1 Beurteilung des Probandenkollektivs . . . . . . . . . . . . . . . . . . . 47 4.2 Bedarf an zusätzlichen diagnostischen Methoden bei MCI . . . . . . . . 48 4.3 Zur Anwendbarkeit der SVM . . . . . . . . . . . . . . . . . . . . . . . . 50 5 Zusammenfassung 55 Literaturverzeichnis 56 Danksagungen 67 IV Inhaltsverzeichnis A Votum der Ethikkommission 68 B Fragebögen 70 V Abkürzungsverzeichnis AD Alzheimer-Demenz ADNI Alzheimer´s Disease Neuroimaging Initiative BDI-II Beck Depression Inventory-II CERAD Consortium to Establish a Registry of Alzheimer’s Disease CDR Clinical Dementia Rating CT Computertomographie DIA-S Depression im Alter-Skala DSM-IV Diagnostic and Statistical Manual of Mental Disorders-IV FLAIR Fluid Attenuated Inversion Recovery FTD Frontotemporale Demenz GDS Geriatric Depression Scale ICD-10 International Classification of Diseases-10 VU Verlaufsuntersuchung LADIS Leukaraiosis and Disability MCI Mild cognitive impairment MP-RAGE Magnetization Prepared Rapid Gradient Echo MRT Magnetresonanztomographie NIA National Institute on Aging NINCDS/ADRDA National Institute of Neurological and Communicative Diseases and Stroke/Alzheimer’s Disease and Related Disorders Association NINDS-AIREN National Institute of Neurological Disorders and Stroke and Association Internationale pour la Recherché et l’Enseignement en Neurosciences VI Inhaltsverzeichnis PET Positronenemissionstomographie ROC Receiver Operating Characteristic SVM Support vector machine T1 Längsrelaxationszeit T2 Querrelaxationszeit TE Echozeit TR Repetitionsszeit VD Vaskuläre Demenz WMH White matter hyperintensities ZGGF Zentrum für Geriatrie und Gerontologie des Universitätsklinikums Freiburg VII Tabellenverzeichnis 1.1 Demenzdiagnosen nach ICD-10 . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Vaskuläre Demenzen nach ICD-10 . . . . . . . . . . . . . . . . . . . . . 7 2.1 CDR Schweregrade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.2 CERAD-Testbatterie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3 Depressionsfragebögen . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.4 MRT-Sequenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.5 Charakteristika der Trainingsprobanden . . . . . . . . . . . . . . . . . . 29 2.6 Sechs-Punkte-Skala zur Konversionswahrscheinlichkeit aus ärztlicher Sicht 32 3.1 Gründe für einen Studienausschluss . . . . . . . . . . . . . . . . . . . . 35 3.2 Charakteristika der MCI-Patienten . . . . . . . . . . . . . . . . . . . . 36 3.3 Vergleich stabiler und konvertierender MCI-Patienten . . . . . . . . . . 37 3.4 Ärztliche Einschätzung nach MRT . . . . . . . . . . . . . . . . . . . . . 40 3.5 SVM-Vorhersage (Cut off-Wert 50%) . . . . . . . . . . . . . . . . . . . 43 3.6 Angaben zur Signifikanz für richtig und falsch eingeordnete Probanden 45 VIII Abbildungsverzeichnis 1.1 Häufigkeitsverteilung der Demenzformen . . . . . . . . . . . . . . . . . 4 1.2 Typische Darstellung von WMH . . . . . . . . . . . . . . . . . . . . . . 10 1.3 Abbildung zur Funktionsweise einer Support Vector Machine . . . . . . 12 2.1 Vorbearbeitung der MRT-Bilder vor Anwendung der SVM . . . . . . . 28 3.1 Übersicht über den Einschlussprozess . . . . . . . . . . . . . . . . . . . 33 3.2 Verteilung der Demenzformen unter den dementen Probanden . . . . . 38 3.3 Diagnostische Sicherheit der Ärzte vor und nach MRT . . . . . . . . . . 39 3.4 Diagnostische Genauigkeit der Ärzte bei verschieden großer subjektiver diagnostischer Sicherheit . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.5 Merkmalsausprägungen bei verschiedenen diagnostischen Sicherheiten . 41 3.6 ROC-Kurve zur Beurteilung der SVM-Ergebnisse . . . . . . . . . . . . 43 3.7 Merkmalsausprägungen für durch die SVM richtig bzw. falsch einge- 3.8 schätzte Probanden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 WMH-Perzentilen für falsch zugeordnete Probanden . . . . . . . . . . . 46 IX 1 Einführung 1.1 Hintergrund und Zielstellung Demenzen und deren Vorstufen sind häufige neurodegenerative Erkrankungen, die unter anderem aufgrund des demographischen Wandels zunehmend an Bedeutung gewinnen. Mehr als 50% der Demenzdiagnosen werden vom Hausarzt gestellt, oft ohne Ausschöpfung der diagnostischen Möglichkeiten (Kaduszkiewicz et al., 2008),(Lademann and Kolip, 2005). Zwei kürzlich erschienene Studien zeigten, dass die Positronenemissionstomographie (PET), die allerdings nur an spezialisierten Zentren möglich sind und nach den Leitlinien nicht zur Standarddiagnostik gehören, die diagnostische Sicherheit von Ärzten in der Demenzdiagnostik verbessern können (Frederiksen et al., 2012), (Ossenkoppele et al., 2013). Die Nutzung der Magnetresonanztomographie (MRT) zur Demenzdiagnostik ist schon in den Leitlinien verankert und flächendeckender möglich (Jessen, 2010). Da die Richtigkeit der Auswertung stark von der Expertise der Radiologen abhängt, kann eine automatische Auswertung der Bilder insbesondere außerhalb spezialisierter Gedächtnissprechstunden gute Ergebnisse erzielen (Orru et al., 2012). In der vorliegenden Arbeit wird anhand einer Diagnostikstudie die Anwendbarkeit einer automatischen Auswertung von MRT-Bildern mithilfe einer sogenannten Support Vector Machine (SVM, siehe Abschnitt 1.5) in der Diagnostik neurodegenerativer Erkrankungen untersucht. Insbesondere geht es dabei um die Frage, ob mithilfe der SVM eine höhere diagnostische Sicherheit bei der Verlaufsvorhersage leichter kognitiver Störungen erreicht werden kann. Im Folgenden sollen zunächst die relevanten Diagnosen definiert und ein Überblick über die Leitlinien der Demenzdiagnostik gegeben werden. Außerdem wird auf die Funktionsweise der SVM und den Forschungsstand zu ihrer Anwendbarkeit eingegangen. 1 1 Einführung 1.2 Demenz 1.2.1 Definition Unter Demenzen werden chronische neurodegenerative Erkrankungen verstanden, die sich entsprechend der International Classification of Diseases-10 (ICD-10) (Graubner, 2014) durch folgende Symptome äußern: • Störung des Gedächtnisses • zusätzliche Störung in mindestens einem weiteren neuropsychologischen Bereich, z.B. der Orientierung • Einschränkung der Alltagskompetenz durch diese Störungen Die Symptome können eine Reihe weiterer psychischer Auffälligkeiten nach sich ziehen, wie zum Beispiel Veränderungen der Persönlichkeitsstruktur oder der Emotionen, und verstärken sich in aller Regel im Laufe der Zeit. Zur Abgrenzung von angeborenen kognitiven Defiziten muss es sich bei den genannten Störungen um den Verlust von ehemals vorhandenen Fähigkeiten handeln, um von Demenz sprechen zu können. Im Gegensatz zum Delir liegt bei der Demenz keine Bewusstseinstrübung vor. Erst wenn die Symptome mindestens sechs Monate bestehen, kann nach ICD-10 die Diagnose eines demenziellen Syndroms (F00–F03) gestellt werden, das verschiedene Ursachen haben kann (siehe Tabelle 1.1). Bis heute ist keine kurative Therapie der Erkrankungen möglich. Die mit Abstand häufigste Entität stellt die Alzheimer-Demenz (AD) mit einem Anteil von ca. 65% dar, gefolgt von rein vaskulären Demenzen (VD) und Mischformen von Alzheimer- und vaskulärer Demenz mit je 15%. Frontotemporale Demenzen (FTD) machen etwa 5% aus (siehe Abbildung 1.1) (Lieb et al., 2008),(Sütterlin et al., 2011). 1.2.2 Epidemiologie Demenzen betreffen in der weit überwiegenden Zahl Menschen höheren Lebensalters; ab dem 65. Lebensjahr steigen Inzidenz und Prävalenz stark an. Folgende Zahlen gel- 2 1 Einführung ICD-Code Diagnose F00 Demenz bei Alzheimer-Krankheit F01 vaskuläre Demenz F02 Demenz bei andernorts klassifizierten Krankheiten (z.B. Lewykörperchen-Demenz, Frontotemporale Demenz, Demenz bei Chorea Huntington) F03 nicht näher bezeichnete Demenz Tabelle 1.1: Demenzdiagnosen nach ICD-10 ten laut aktueller Gesundheitsberichterstattung des Bundes zum Thema Altersdemenz (Lademann and Kolip, 2005) für Deutschland: Während die Prävalenz bei den unter 60-Jährigen bei weniger als 0,5% liegt, steigt sie unter den 65- bis 69-Jährigen in Deutschland auf 1 bis 1,6% und bei den über 90Jährigen auf über 30% an. Dies bedeutet ungefähr eine Verdopplung der Prävalenz alle fünf Lebensjahre ab dem 65. Lebensjahr (Lademann and Kolip, 2005), (Wallesch and Förstl, 2004). Insgesamt kann man in der Bundesrepublik von einer Prävalenz von 7,3% in der Bevölkerung älter als 65 Jahre ausgehen. Ungefähr 240.000 Neuerkrankungen treten pro Jahr auf, entsprechend einer Inzidenz von 1,4% bezogen auf die Bevölkerung ab 65 Jahren (Lademann and Kolip, 2005). Dies entspricht ungefähr einer Million Betroffener allein in Deutschland (Wallesch and Förstl, 2004). Frauen machen dabei zwei Drittel der Patienten aus. Wichtige Risikofaktoren für die Entwicklung einer Demenzerkrankung sind neben Alter und weiblichem Geschlecht kardiovaskuläre Erkrankungen (sowohl für die Entwicklung vaskulärer Demenzen als auch der Alzheimer-Demenz), leichte kognitive Störungen (siehe Abschnitt 1.3) und genetische Prädispositionen. 3 1 Einführung Abbildung 1.1: Häufigkeitsverteilung der Demenzformen (Sütterlin et al., 2011) 1.2.3 Diagnostik Nach den S3-Leitlinien für Demenzen (Jessen, 2010) wird eine möglichst frühzeitige ausführliche Diagnostik trotz fehlender kurativer therapeutischer Optionen empfohlen, um eine adäquate Behandlung und Versorgung der Patienten gewährleisten zu können. Die Diagnostik von Demenzen umfasst dabei den S3-Leitlinien entsprechend zunächst eine ausführliche Anamnese, inklusive Fremdanamnese durch Angehörige oder andere nahestehende Personen, die Einschränkungen und Veränderungen oft genauer beschreiben können als die Betroffenen selbst. Die in der Anamnese geschilderten Probleme sollten dann mithilfe neuropsychologischer Testungen objektiviert werden. Zur Demenzdiagnostik gehören zudem eine körperliche Untersuchung mit neurologischem Fokus, die Erhebung eines psychopathologischen Befundes und die Überprüfung wichtiger Laborparameter zur Differentialdiagnostik. Das Labor sollte Blutbild, Schilddrüsenwerte, Nierenwerte, Vitamin B12, Nüchtern-Blutglukose, Elektrolyte und Entzündungsparameter umfassen. Die Leitlinien empfehlen zusätzlich die Anwendung eines bildgebenden Verfahrens, also die Computertomographie (CT) und die Magnetresonanztomographie (MRT). Mithilfe der bildgebenden Diagnostik können einerseits Differentialdiagnosen von Demenzen 4 1 Einführung wie beispielsweise zerebrale Raumforderungen oder einen Normaldruckhydrocephalus ausgeschlossen werden, andererseits können sie Hinweise auf die Art der vorliegenden Demenz geben. PET-Untersuchungen oder Liquordiagnostik können als weiterführende Maßnahmen bei bestehenden Unklarheiten oder Hinweisen auf beispielsweise entzündliche Erkrankungen angewandt werden, werden jedoch nach S3-Leitlinien nicht zur Basisuntersuchung gezählt und nicht generell empfohlen. Auch eine genetische Diagnostik, z.B. auf den ApoE-Genotyp bei Verdacht auf eine Alzheimer-Erkrankung, wird nicht generell empfohlen (Jessen, 2010). Den Goldstandard in der Demenzdiagnostik stellt aktuell die pathologische Untersuchung von Hirngewebe post mortem dar (Lieb et al., 2008), (Hüll and Förstl, 2009). MRT in der Demenzdiagnostik Eine Bildgebung bei Demenzverdacht wird von den aktuellen S3-Leitlinien (vgl. Jessen, 2010) ausdrücklich empfohlen. Ein wichtiger Grund hierfür ist ihre Bedeutung in der Abklärung von Differentialdiagnosen wie Normaldruckhydrocephalus, entzündlichen Veränderungen und Tumoren. Abgesehen davon sind jedoch auch Atrophien als Korrelat der Neurodegeneration zu erkennen, die in der Zusammenschau mit den Symptomen die Demenzdiagnose absichern können. Lokalisation und Ausprägung von Atrophien können dabei Hinweise auf die Art der Demenz geben, zum Beispiel sprechen hippocampale Atrophien eher für eine Alzheimer-Demenz, während frontale und temporale Atrophien auf eine frontotemporale Demenz hindeuten. Im Gegensatz zum CT können mit der MRT auch vaskuläre Veränderungen sehr gut dargestellt werden, sodass eine weitere wichtige Aufgabe die Abgrenzung vaskulärer Demenzen von anderen Demenzformen darstellt (Hüll and Förstl, 2009). 1.2.4 Alzheimer-Demenz Wie im Abschnitt 1.2.1 beschrieben, handelt es sich bei der Alzheimer-Demenz um die mit Abstand häufigste Demenzform, mit einem Anteil von 65%. Die Diagnose zu Lebzeiten des Patienten ist eine Ausschlussdiagnose, da als Goldstandard die neuropathologische Untersuchung post mortem angesehen wird. Sie erfordert deshalb eine 5 1 Einführung sehr gründliche differentialdiagnostische Abklärung, wie sie z.B. in den S3-Leitlinien empfohlen wird (siehe Abschnitt 1.2.3), (Hüll and Förstl, 2009), (Jessen, 2010). Der klassische Verlauf beginnt mit Merkfähigkeitsstörungen, häufig begleitet von einem schleichenden sozialen Rückzug. Eine klare Unterscheidung zwischen Depression und Demenz ist in diesem Stadium oft schwierig. Im Verlauf treten weitere kognitive Probleme hinzu, insbesondere zunächst eine Störung des Neugedächtnisses. Auch apraktische und visokonstruktive Defizite sind häufig, die sich z.B. im Verlust der Orientierungsfähigkeit äußern. Mit der Zeit aggravieren die kognitiven Defizite und es können zusätzlich motorische Schwierigkeiten, Inkontinenz und begleitende psychische Störungen wie Apathie, Depression oder auch Wahnsymptome und Halluzinationen folgen (Hüll and Förstl, 2009). Für die Alzheimer-Demenz sind im MRT vor allem Atrophien typisch, beginnend im entorhinalen Kortex und Hippocampus mit anschließender Ausdehnung auf die gesamten medialen Temporallappen und später die Parietallappen. Dabei ist zu beachten, dass sich bei 20% der Erkrankten im Anfangsstadium keine Auffälligkeiten finden. Zusätzlich zu den Atrophien können auch Veränderungen im Marklager auftreten, z.B. sogenannte Mikroblutungen als Hinweis auf eine Amyloidangiopathie (Hüll and Förstl, 2009). 1.2.5 Vaskuläre Demenzen Vaskuläre Veränderungen sind bei mindestens 30% aller Demenzen beteiligt (Lieb et al., 2008). Dabei lassen sich verschiedene Mechanismen mit unterschiedlichen cerebralen Schäden, Symptomen und Verläufen differenzieren, zu denen es zumindest teilweise wie bei der Alzheimer-Demenz Vorstufen in Form vaskulärer leichter kognitiver Störungen gibt. Nach ICD-10 (Graubner, 2014) werden vaskuläre Demenzen wie folgt klassifiziert: Gemischte Demenzen werden nach ICD-10 unter den Alzheimer-Demenzen (F00.2) geführt. Für sie gibt es bisher keine einheitlichen Diagnosekriterien (vgl. Jessen, 2010). Entsprechend der unterschiedlichen Pathogenese der verschiedenen vaskulären Demenzen sind auch die Symptome nicht einheitlich. Insgesamt finden sich jedoch häufig ein im Vergleich zur Alzheimer-Demenz plötzlicher Beginn (insbesondere bei strategischem Infarkt), eine stufenweise Verschlechterung und fokale neurologische Symptome. 6 1 Einführung ICD-Code Diagnose F01.0 Vaskuläre Demenz mit akutem Beginn F01.1 Multiinfarkt-Demenz F01.2 subkortikale vaskuläre Demenz F01.3 gemischte kortikale und subkortikale vaskuläre Demenz F01.8 sonstige vaskuläre Demenz F01.9 vaskuläre Demenz, nicht näher bezeichnet Tabelle 1.2: Vaskuläre Demenzen nach ICD-10 Für eine subkortikale Demenz sind beispielsweise Gangstörungen, Blaseninkontinenz, Konzentrationsstörungen und eine zunehmende Affektlabilität typisch (vgl. Lieb et al., 2008,American Psychiatric Association et al., 2000). 1.2.6 Frontotemporale Demenzen Die im Vergleich zu AD und VD seltene Frontotemporale Demenz wird in der ICD10 unter F02.0/G31.0 als umschriebene Hirnatrophie kodiert (Graubner, 2014). Nach den Symptomen lassen sich verschiedene Ausprägungsformen unterscheiden (vgl. S3Leitlinien, Jessen, 2010): 1. Frontale Verlaufsform mit Hauptsymptom Wesensveränderung (M. Pick) (am häufigsten) 2. Primär-progressive Aphasie mit Hauptsymptom nicht-flüssige Aphasie 3. Semantische Demenz mit Hauptsymptom flüssige Aphasie In den S3-Leitlinien werden für die FTD die Diagnosekriterien nach Neary empfohlen, die diese drei Gruppen berücksichtigen. Sie stützen sich vor allem auf die klinischen Merkmale der jeweiligen Form. Für die häufigste, frontale Verlaufsform ist eine Bildgebung, die frontal oder temporal betonte Atrophien zeigt, neben den Symptomen explizit als Diagnosemerkmal erwähnt (Neary et al., 1998). 7 1 Einführung 1.3 Leichte kognitive Störungen Unter dem Begriff „leichte kognitive Störung“, im englischen Sprachgebrauch als „mild cognitive impairment“ (MCI) bezeichnet, werden Erkrankungen unterschiedlicher Ursachen zusammengefasst, die sich als über das altersübliche Maß hinausgehende, objektivierbare kognitive Leistungsminderungen äußern, ohne dabei das Ausmaß einer Demenz zu erreichen. Folgende Kriterien müssen nach ICD-10 (F06.7) zur Diagnosestellung eines MCI erfüllt sein (Graubner, 2014): ICD-10 Kriterien: • objektivierbare Gedächtnis-, Lern- und Konzentrationsstörungen • Kriterien der Demenz nicht erfüllt (Alltagskompetenz erhalten) • Kriterien eines Delirs nicht erfüllt (Bewusstsein erhalten) Aus den sehr klinisch orientierten Kriterien folgt, dass sich hinter der Diagnose MCI verschiedene Ursachen verbergen können. Am häufigsten findet man sie als Vorstufe einer Alzheimer-Demenz, sie kann sich jedoch auch zu anderen Demenzformen entwickeln, stabil bleiben oder sich sogar zurückbilden. Je nach Art der kognitiven Störung lassen sich verschiedene Untergruppen einteilen, die sich auch hinsichtlich der Progredienz zur Demenz unterscheiden, im klinischen Alltag jedoch nur in spezialisierten Zentren Anwendung finden. Interessant ist insbesondere die Abgrenzung eines „single domain amnestic MCI“ mit rein das Gedächtnis betreffenden Einschränkungen und einer hohen Konversionsrate zur Alzheimer-Demenz von anderen MCI-Formen, den sogenannten „non-amnestic MCIs“, deren Verlauf größere Variabilität aufweist. Nach einer Überarbeitung der Diagnosekriterien für Alzheimer-Demenz nach NINCDS/ADRDA von Dubois et al. kann man diese single domain amnestic MCIs bereits unter der Alzheimer Diagnose als Prodromalstadium einordnen (Petersen, 2003), (Dubois and Albert, 2004). Für betroffene Patienten bedeutet die Diagnose MCI ein stark erhöhtes Risiko für die Entwicklung einer Demenz. Die Konversionsrate innerhalb eines Jahres liegt bei >12% (Petersen, 2003),(Petersen et al., 2001) im Vergleich zu einer Rate von ca. 1% für 8 1 Einführung gesunde Menschen gleichen Alters. Welche Patienten stabil bleiben, lässt sich bisher nicht mit Sicherheit vorhersagen. Dieses hängt zu einem Großteil mit der beschriebenen Heterogenität in der Ausprägung leichter kognitiver Störungen zusammen. In den letzten Jahren hat es im Bereich der Prognostik einige ermutigende Studienergebnisse für die Anwendung von MRT gegeben, auch kombiniert mit der Auswertung durch SVM, die Genauigkeiten von bis zu 87% erreichten (siehe Abschnitt 1.5, vlg. Haller et al., 2012, Orru et al., 2012). Dabei gibt es Hinweise, dass einerseits der Grad der Atrophie entscheidend ist, andererseits jedoch auch Läsionen der weißen Substanz eine Rolle spielen (Carmichael et al., 2012), (Haller et al., 2012). In Zukunft könnte die Beantwortung dieser Frage vor allem für neue, erst noch zu entwickelnde Antidementiva entscheidend sein, um sie gezielt und frühzeitig bei Patienten mit drohender Progredienz einsetzen zu können. Aktuell ist keine kurative Therapie leichter kognitiver Störungen möglich. 1.4 White Matter Hyperintensities Unter WMH, auch als Leukaraiosis oder Marklagerläsionen bezeichnet, versteht man Veränderungen der weißen Substanz, die sich im MRT in der T2-Sequenz als Hyperintensitäten darstellen (vgl. z.B. Fazekas et al., 1987). Eine Einteilung ist zum Einen nach dem Grad der Ausprägung möglich, z.B. mittels visuellem Fazekas-Score (Fazekas et al., 1987) oder auch mittels computergestützter Auswertung des WMH-Volumens (vgl. Poggesi et al., 2011, Klöppel et al., 2011). Zum Anderen kann man die WMH nach ihrer Lokalisation unterscheiden, z.B. nach subkortikaler versus periventrikulärer Lage (Fazekas et al., 1996). Vor allem die periventrikulären Läsionen sind mit kognitiven Störungen assoziiert (vgl. Bolandzadeh et al., 2012, Jellinger, 2008, Hüll and Förstl, 2009). Bezüglich der verschiedenen Analysemethoden des Schweregrades kamen van Straaten et al. zu dem Schluss, dass die Einteilung mittels Volumenmessung besser mit der klinischen Ausprägung kognitiver Störungen korreliert als eine Einteilung mittels visuellem Fazekas-Score (van Straaten et al., 2006). Neuropathologische Grundlage der Marklagerläsionen ist vermutlich eine durch Hypoperfusion und Ödeme (aufgrund von Störungen der Bluthirnschranke) verursachte Ax9 1 Einführung Abbildung 1.2: Typische Darstellung von WMH onschädigung und Demyelinisierung. Wie auch die Lakunen, die sehr häufig gleichzeitig mit WMH zu finden sind, werden WMH als Ausdruck einer zerebralen Mikroangiopathie gesehen (Jellinger, 2008), die in schwerer Ausprägung die Ursache für die vaskuläre Demenz ist. Nach einer Metaanalyse von Debette and Markus, 2010, steigt das Risiko für eine Demenz bei Vorhandensein schwerer WMH auf fast das Doppelte an (Hazard ratio 1,9). Staekenborg et al. stellten zudem fest, dass MCI-Patienten, die nicht zur Alzheimerdemenz sondern zu anderen Formen konvertierten, signifikant mehr WMH im Vergleich zu anderen Patienten hatten (Staekenborg et al., 2009). Auch in der LADIS-Studie mit über 600 Patienten zeigte sich, dass schwergradige WMH mit einem schlechteren Abschneiden in neuropsychologischen Tests einhergehen (Inzitari et al., 2009), (Verdelho et al., 2010). Neben der Assoziation mit subkortikaler Demenz und Alzheimer Demenz (Fazekas et al., 1996), (Hüll and Förstl, 2009) werden WMH außerdem mit weiteren Erkrankungen, aber auch mit normalen Alterungsprozessen in Verbindung gebracht. So finden sie sich bei mindestens 69% aller kognitiv gesunden über 75-Jährigen (Ylikoski et al., 1995, 10 1 Einführung Debette and Markus, 2010, Gold, 2009), wenn auch in geringerer Ausprägung als bei Patienten mit kognitiven Störungen (Poggesi et al., 2011), (Debette and Markus, 2010). Im Rahmen der LADIS-Studie konnte zudem ein Zusammenhang zwischen Depression und tiefen WMH gezeigt werden, sowie eine Korrelation von schweren periventrikulären und frontalen WMH mit motorischen Schwierigkeiten und damit verbunden vermehrten Stürzen (Poggesi et al., 2011). Desweiteren gelten sie als Risikofaktor für Schlaganfälle (Debette and Markus, 2010), (Oksala et al., 2009). 1.5 Support Vector Machine 1.5.1 Definition und Funktionsweise Die Support Vector Machine (SVM) wird hier als Verfahren zur computergestützten automatischen Auswertung von magnetresonanztomographischen Bildern hinsichtlich der Zuordnung zu einer von mindestens zwei zur Auswahl stehenden Gruppen, z.B. zwei Differenzialdiagnosen, eingesetzt. Es handelt sich bei der SVM um ein lernfähiges Programm, das mithilfe von Mustererkennung Entscheidungen auf Individualebene zulässt, nachdem es mithilfe von Beispielbildern trainiert wurde, deren Gruppenzugehörigkeit vorher bekannt ist. Grundlage ist dabei die Analyse der Voxels (Bildpunkte), die sich als Vektoren darstellen lassen (Ashburner and Friston, 2000). Bevor die Analyse des Bildes beginnen kann, muss mithilfe von Algorithmen zunächst eine Vorverarbeitung des Originalbildes stattfinden. Schon diese Präprozessierung der Bilder hat Auswirkungen auf die Genauigkeit des Gesamtergebnisses (Chu et al., 2011), (Crinion et al., 2007). Die Vorbereitung umfasst als wichtigsten Punkt eine Normalisierung mit räumlicher Anpassung an einen Standard, um eine Vergleichbarkeit der Bilder herzustellen. Dabei können Veränderungen im Bild, die nichts mit den Mustern der zur Auswahl stehenden Differentialdiagnosen zu tun haben (wie zum Beispiel im Bereich der neurodegenerativen Erkrankungen fokale Veränderungen nach Schlaganfällen), Fehler verursachen. Eine Möglichkeit diese zu vermeiden besteht im Maskieren der veränderten Bereiche (cost function masking), sodass sie nicht die Transformation beeinflussen können (Brett et al., 2001), (Crinion et al., 2007). Im neuroradiologischen Bereich wird im Regelfall 11 1 Einführung Abbildung 1.3: Abbildung zur Funktionsweise einer Support Vector Machine im zweidimensionalen Raum (Orru et al., 2012) neben der räumlichen Anpassung zusätzlich eine Trennung von Liquor, grauer und weißer Substanz mithilfe von Algorithmen durchgeführt. Nur das interessierende Gewebe wird anschließend extrahiert und für die Analyse genutzt. Es ist also möglich, nicht nur das komplette Gehirn sondern auch gezielt einzelne interessierende Bereiche zu untersuchen (Ashburner and Friston, 2000). Die SVM berechnet nach der Vorbereitung der Bilder die Hyperebene, die die Vektoren der Beispielbilder der zu unterscheidenden Gruppen möglichst gut trennt. Für die Trennschärfe spielen dabei insbesondere die Vektoren eine Rolle, die sich sehr nahe an der Hyperebene befinden. Sie werden als Unterstützungsvektoren bezeichnet und geben dem Programm den Namen (Orru et al., 2012), (vgl. Abbildung 1.3). Ist mithilfe der Trainingsdaten eine stabile Trennung der Gruppen/Diagnosen gegeben, wovon frühestens bei 20 Patienten pro Gruppe auszugehen ist, kann die bestimmende Matrix, also der trainierte Classifier, auf neue Bilder mit unbekannter Gruppenzugehörigkeit angewandt werden. Es wird vereinfacht gesagt die Ähnlichkeit des neuen Bildes zu den Bildern der zwei Trainingsgruppen überprüft und darüber das neue Bild einer Gruppe mit einer Wahrscheinlichkeit zugeordnet. Neben der SVM-Methode gibt es noch weitere Möglichkeiten mit lernfähigen Programmen MRT-Daten auszuwerten, die jedoch seltener verwendet werden (Orru et al., 2012)und hier nicht näher erläutert werden sollen. Nach aktueller Studienlage sind die Ergebnisse der verschiedenen Analysemethoden aber vergleichbar genau (Klöppel et al., 2011), (Chen and Herskovits, 2010). 12 1 Einführung 1.5.2 Anwendungsbereiche In der neuroradiologischen Forschung wird die SVM vor allem im Bereich der Demenzdiagnostik (siehe Abschnitt 1.5.3) und der Prognostik (siehe Abschnitt 1.5.4) von leichten kognitiven Störungen angewendet. Folgende weitere Erkrankungen spielen außerdem eine Rolle: • Depression (siehe z.B. Nouretdinov et al., 2011) • Schizophrenie (siehe z.B. Costafreda et al., 2011) • Angststörungen (siehe z.B. Etkin and Wager, 2007) • Autismus (siehe z.B. Ecker et al., 2010) • Morbus Huntington (siehe z.B. Klöppel et al., 2009) • Morbus Parkinson (siehe z.B. Duchesne et al., 2009) • Epilepsie (siehe z.B. Bernasconi et al., 2004) 1.5.3 SVM in der Demenzdiagnostik Die Anwendbarkeit lernfähiger Programme zur automatischen Auswertung von MRTs wird im Bereich der Demenzdiagnostik seit fast zwanzig Jahren erforscht. Die bisherigen Ergebnisse werden in einem Review von Orru et al., 2012, sehr übersichtlich zusammenfasst: Der Schwerpunkt lag in 20 von 31 für relevant befundenen Studien in der Differenzierung von Gesunden und an Alzheimer-Demenz Erkrankten.Hier lag die diagnostische Genauigkeit zwischen 82,7% (Arimura et al., 2008) und 94,5% (Magnin et al., 2009), wenn man nur die Studien ohne Zuhilfenahme von PET (bis zu 95% Genauigkeit, siehe Salas-Gonzalez et al., 2010) oder Diffusion Tensor Imaging (bis zu 100% Genauigkeit, siehe Grana et al., 2011) zugrundelegt. Unter Genauigkeit versteht man dabei den Anteil der von der SVM richtig zugeordneten an allen ausgewerteten Bildern. Weitere 10 Studien befassten sich mit der Differenzierung von MCI-Patienten und Gesunden. Hier wurden Genauigkeiten zwischen 71% (Cui et al., 2011) und 97% (Plant 13 1 Einführung et al., 2010) erreicht. Die höchste Genauigkeit wurde erzielt, wenn zusätzlich zur üblicherweise genutzten Analyse der grauen Substanz die weiße Substanz mitbetrachtet wurde (Plant et al., 2010). Dies könnte ein Hinweis auf die Wichtigkeit von vaskulären Veränderungen sein, die sich vor allem über Veränderungen in der weißen Substanz detektieren lassen. Nur in wenigen Studien war das Thema die Differenzierung verschiedener Demenztypen, in beiden Fällen ging es dabei um die Unterscheidung von Frontotemporaler Demenz und Alzheimer Demenz. Die Genauigkeit betrug im Mittel knapp über 90% (89,2% (Klöppel et al., 2008b) bis 91,7% (Dukart et al., 2011)), wobei Dukart et al. zusätzlich zum MRT Bilder aus der Positronenemissionstomographie heranzogen. Das Review erwähnt keine Studien zu der Differenzierung von Alzheimer-Demenz, vaskulärer Demenz und gemischter Demenz. Auch in eigener Recherche in der MedlineDatenbank wurden keine entsprechenden Studien gefunden. Es gibt jedoch Versuche, den Schweregrad vaskulärer Veränderungen mithilfe von SVM automatisch zu bestimmen, z.B. über die automatische Analyse von WMH (vgl. z.B. Lao et al., 2008, Kawata et al., 2010, Admiraal-Behloul et al., 2005). So entwickelten Kawata et al. (2009) einen Algorithmus zur automatischen Berechnung der WMH area ratio, die mit dem Schweregrad vaskulärer Demenzen korreliert (vgl. z.B. Breteler et al., 1994, Gootjes et al., 2004), und erreichten eine Übereinstimmung mit den manuellen Berechnungen von erfahrenen Neuroradiologen von 78,2 ± 11,0% (Korrelationskoeffizient 0,992). Der Vorteil von automatischen MRT-Auswertungen liegt in der Unabhängigkeit von der Erfahrung und Güte des Neuroradiologen. Zudem werden in die Auswertung auch sehr kleine oder nicht sofort ins Auge springende Veränderungen einbezogen, die selbst von erfahrenen Neuroradiologen kaum erfasst werden können. Dass die automatische Auswertung tatsächlich mit einer visuellen Auswertung durch Neuroradiologen mithalten kann, zeigten Klöppel et al. (2008) in einer Studie. Hier erreichte die SVM bei der Differenzierung von Alzheimer-Demenz und Gesunden bzw. Frontotemporaler Demenz im direkten Vergleich mit sechs erfahrenen Neuroradiologen eine mindestens gleich gute Genauigkeit wie die Ärzte, mit Sensitivitäten und Spezifitäten von knapp 90% und eine Genauigkeit von 89,2%. Die Diagnosen waren dabei mit einer postmortalen neuropathologischen Untersuchung als Goldstandard verifiziert worden (Klöppel et al., 14 1 Einführung 2008b), (Klöppel et al., 2008a). Sensitivität und Spezifität von 90% sind im Bereich der Alzheimer-Diagnostik relativ hohe Werte. Laut einer Metaanalyse von Knopmann et al. (2001) wurden in Studien für die Diagnostik von Alzheimer-Demenzen nach den Richtlinien der NINCS-ADRDA oder des DSM im Mittel eine Sensitivität von 81% und eine Spezifität von 70% erreicht bei Vergleich mit dem Goldstandard neuropathologische Untersuchung (Knopman et al., 2001). Wenn die Anwendung von SVM in der Demenzdiagnostik Einzug in den klinischen Alltag erhalten soll, so müssen sich die Ergebnisse als stabil über verschiedene Zentren und MRT-Scanner erweisen. Es gibt bereits Hinweise, dass dieses Ziel erreichbar ist. So erbrachte beispielsweise eine Multicenter-Studie von Klöppel et al. (2008) mit Patienten aus den USA und Großbritannien bei der Differenzierung von Alzheimer Demenz und Kontrollen relativ konstante Genauigkeiten für alle Gruppen im Bereich von 81% bis 95% (Klöppel et al., 2008b). Desweiteren verwendeten mehrere der im Review von Orru 2012 zusammengefassten Studien (z.B. Abdulkadir et al., 2011, Chincarini et al., 2011) Daten der Alzheimer´s Disease Neuroimaging Initiative (ADNI), die Patienten aus vielen amerikanischen und kanadischen Zentren rekrutiert, ohne dass die Genauigkeit durch die Verschiedenartigkeit der Scanner verschlechtert wurde im Vergleich zu monozentrischen Studien. 1.5.4 SVM in der Prognostik leichter kognitiver Störungen Neben der Anwendung in der Demenzdiagnostik wird der Nutzen einer SVM im Bereich der Prognostik leichter kognitiver Störungen überprüft, für die es bisher keine sichere Möglichkeit der Verlaufsabschätzung gibt (siehe Abschnitt 1.3). Das Review von Orru fasst auch für diesen Bereich die wichtigsten zehn Studien zusammen (Orru et al., 2012). Für die korrekte Zuordnung von MCI-Patienten, die innerhalb eines bestimmten Zeitraums entweder eine Demenz entwickeln oder stabil bleiben, konnte demnach eine Genauigkeit von bis zu 98,4% (Haller et al., 2011) erreicht werden. Insgesamt schwanken die Ergebnisse jedoch mit Genauigkeiten von 60,8% (Davatzikos et al., 2011) bis zu den genannten 98,4% stärker als im Bereich der Differentialdiagnostik verschiedener Demenzen. 15 1 Einführung Ein Grund für diese stärkere Streuung könnte durch die Definition des Begriffs MCI bedingt sein, die alle kognitiven Störungen, die nicht das Ausmaß einer Demenz erreichen, in einer Kategorie zusammenfasst, obwohl sehr unterschiedliche Ursachen und damit auch unterschiedliche Morphologien zugrunde liegen können. Dazu passt die Feststellung von Davatzikos et al. (Davatzikos et al., 2011), dass die Gruppe der nicht konvertierenden MCI-Patienten sehr viel heterogener als die der konvertierenden war. Auch Fan et al. stellten 2008 fest, dass bei Patienten mit viel Atrophie eine Konversion zu Alzheimer Demenz sehr wahrscheinlich war, während alle Patienten ohne viel Atrophie schwieriger zu klassifizieren waren (Fan et al., 2008). Es fällt auf, dass die zusätzliche Analyse der weißen Substanz im MRT (wie bei Plant et al., 2010: Genauigkeit 95,8%) bzw. die additive Verwendung von Diffusion Tensor Imaging (wie bei Haller et al., 2011, Genauigkeit 98,4%) einen Vorteil gegenüber der reinen Analyse der grauen Substanz zu bringen scheint. 1.6 Fragestellung Nach aktueller Studienlage ist wie beschrieben bisher nicht sicher vorherzusagen, welche Patienten mit leichter kognitiver Störung stabil bleiben und welche eine Demenz entwickeln. Wie im Abschnitt 1.5 beschrieben gibt es Hinweise, dass die Analyse von MRT-Bildern mithilfe automatischer Verfahren einen Beitrag zur Verbesserung der diagnostischen Sicherheit bei dieser Frage leisten könnte. Um dies weiter zu untersuchen, wurde eine prospektive Diagnostikstudie mit einer SVM im Hinblick auf die folgenden Fragestellungen durchgeführt: • Bringt die in der Studie verwendete automatische Auswertung von MRT-Bildern durch eine SVM einen Zusatznutzen zur Standarddiagnostik in der Verlaufsvorhersage leichter kognitiver Störungen? • Wie hoch ist die Genauigkeit der Verlaufsvorhersage leichter kognitiver Störungen durch die SVM? • Haben Veränderungen in der weißen Substanz oder bekannte zerebrale Vorerkrankungen einen Einfluss auf die Ergebnisse der SVM? 16 1 Einführung • Gibt es einen Zusammenhang zwischen dem Grad der Veränderungen in der weißen Substanz und der diagnostischen Sicherheit der Ärzte? • Kann mithilfe der SVM die diagnostische Sicherheit der Ärzte verbessert werden? 17 2 Material und Methoden 2.1 Studienaufbau Zur Untersuchung des Nutzens einer automatischen MRT-Beurteilung von weißer und grauer Substanz in der Diagnostik von Demenzen und der Prognostik von leichten kognitiven Störungen wurde eine prospektive Diagnostikstudie in der Gedächtnissprechstunde des Zentrums für Geriatrie und Gerontologie des Universitätsklinikums Freiburg (ZGGF) durchgeführt. Die Studie wurde durch die Ethikkomission Freiburg bewilligt, das positive Votum findet sich im Anhang. Der Schwerpunkt dieser Arbeit liegt auf der Auswertung hinsichtlich der Verlaufsvorhersage leichter kognitiver Störungen. 2.2 Studienpopulation Die Studienpopulation bestand aus MCI- und Demenzpatienten des ZGGF, die auf zwei Studienarme aufgeteilt aufgeteilt wurden: MCI-Patienten wurden hinsichtlich ihres Verlaufs beobachtet, während Demenzpatienten hinsichtlich der Art ihrer Demenzerkrankung untersucht wurden. Die Einschluss- und Zuteilungskriterien sind im Folgenden beschrieben. In das Screeningverfahren für die Studie wurden alle Patienten eingeschlossen, die sich im Rekrutierungszeitraum vom 20.06.2011 bis zum 22.04.2013 erstmals zu einer Gedächtnisabklärung im ZGGF vorstellten. Das Screening bestand aus einer ärztlichen Einschätzung des Patienten mithilfe eines Fragebogens (siehe Abschnitt 2.4.1) und war für alle potenziellen Probanden gleich; eine Zuteilung zu der Gruppe mit Demenzerkrankungen oder zu der Gruppe mit leichter kognitiver Störung erfolgte erst nach Einschätzung der Gedächtnisleistung und Alltagskompetenz des Patienten durch den Arzt 18 2 Material und Methoden im ZGGF auf dem erwähnten Fragebogen. Zur Abschätzung des Schweregrades der kognitiven Defizite wurde der Gesamtwert aus dem Clinical Dementia Rating (CDR) zugrunde gelegt (siehe Abschnitt 2.4.2). Nach folgenden Ein- und Ausschlusskriterien erfolgte dann die Rekrutierung in die Studie: Einschlusskriterien: • Mindestalter von 40 Jahren • leichte bis moderate Demenz bzw. MCI durch den Arzt diagnostiziert • CDR-Gesamtwert – Demenzpatienten: max. 1 – MCI-Patienten: 0,5 Patienten mit einem CDR-Gesamtwert von 0,5 und der Verdachtsdiagnose MCI wurden dabei dem Studienarm zur Prognose der leichten kognitiven Störung zugeteilt. Patienten mit einem CDR-Gesamtwert von maximal 1 und der Verdachtsdiagnose einer Demenz wurden dem Studienarm zur Ermittlung der Art der Demenz und des Ausmaßes vaskulärer Veränderungen zugeordnet. Es wurden nur Patienten mit beginnender bis moderater Demenz eingeschlossen, da die Art der Demenz vor allem in diesen frühen Stadien sicher unterscheidbar und therapieentscheidend ist. Ausschlusskriterien: • kein aktuelles MRT (z.B. aufgrund von Kontraindikationen) • nicht neurodegenerative kognitive Beeinträchtigung (z.B. traumatisch bedingt) • kein informed consent möglich Nicht ausgeschlossen wurden Patienten, die durch andere Erkrankungen bereits kernspintomographisch relevante Veränderungen der Hirnstruktur aufwiesen, z.B. Patienten mit Zustand nach Apoplex oder Hirntumor. Durch den Einschluss von Patienten mit solchen Vorerkrankungen sollte eine große Generalisierbarkeit der Studienergebnisse erreicht werden, um möglichst sichere Aussagen über eine Anwendbarkeit im Klinikalltag treffen zu können. 19 2 Material und Methoden 2.3 Referenzstandard Der zum Vergleich mit den Ergebnissen der automatischen Analyse herangezogene Referenzstandard unterschied sich bei den beiden Studienarmen, da für die Abschätzung des Verlaufs der leichten kognitiven Störung eine Verlaufsuntersuchung VU als Referenz sinnvoll erschien. Diese war für die Feststellung der Art der Demenz nicht vonnöten. 2.3.1 Referenzstandard bei Demenz Im Studienarm zur Demenzdifferenzierung wurde als Referenzstandard zum Vergleich mit den Ergebnissen der automatischen Auswertung die fachärztliche Diagnose nach Durchführung aller diagnostischen Maßnahmen herangezogen. Sensitivität und Spezifität liegen für den gewählten Referenzstandard nach Studien nicht ganz bei 100%. Dies wurde aus praktischen Gründen in Kauf genommen, obwohl als Goldstandard in der Demenzdiagnostik aktuell eine postmortale pathologische Untersuchung angesehen werden kann (siehe Einleitung 1.2.3 ). Folgende Maßnahmen wurden zur Diagnosestellung durch die Ärzte des ZGGF durchgeführt: • ausführliche Anamnese und körperliche Untersuchung durch den Arzt, sofern möglich einschließlich Fremdanamnese • CDR • umfassende neuropsychologische Testung, bestehend aus: – ausführliche Testung, standardmäßig nach der Testbatterie des Consortium to Establish a Registry of Alzheimer’s Disease (CERAD) – Depressionstestung, z.B. mittels Geriatrischer Depressionsskala (GDS) • MRT des Kopfes mit Beurteilung durch einen Neuroradiologen • ggf. zusätzliche nuklearmedizinische Untersuchung (PET) 20 2 Material und Methoden 2.3.2 Referenzstandard bei leichter kognitiver Störung Im Studienarm zur Abschätzung des Verlaufs leichter kognitiver Störungen wurde ebenfalls die fachärztliche Diagnose nach Durchführung der diagnostischen Maßnahmen zugrunde gelegt. Hier wurde jedoch das Ergebnis der Verlaufsuntersuchung zwölf Monate nach Erstvorstellung als Referenzstandard gewertet. Erhielt ein Patient zum Beispiel bei der VU wie bei der Erstvorstellung die Diagnose einer leichten kognitiven Störung, wurde er als stabil bzw. nicht zur Demenz konvertiert gewertet. Patienten, die bei der Erstvorstellung die Diagnose MCI erhielten, in der VU jedoch kognitiv unauffällig waren, wurden ebenfalls als nicht konvertiert gewertet. Erhielt ein Patient bei der VU dagegen die Diagnose einer Demenz, während bei der Erstvorstellung nur eine leichte kognitive Störung festgestellt worden war, wurde der Patient als zur Demenz konvertiert gewertet. Folgende Maßnahmen wurden bei der Verlaufsuntersuchung durchgeführt: • ausführliche Anamnese und körperliche Untersuchung durch den Arzt, sofern möglich einschließlich Fremdanamnese • CDR • umfassende neuropsychologische Testung, bestehend aus: – ausführliche Testung, standardmäßig nach der CERAD -Testbatterie – Depressionstestung, z.B. mittels GDS Eine kernspintomographische Untersuchung wurde nicht routinemäßig erneut durchgeführt. 2.4 Testmethoden 2.4.1 Fragebögen zur Erhebung des Referenzstandards Zum Screening der Neupatienten im ZGGF und zur Feststellung des Referenzstandards, also der fachärztlichen Konsensdiagnose, wurden insgesamt zwei Fragebögen entworfen (siehe Anhang): Ein Screening- und Diagnosebogen für alle potenziellen Probanden 21 2 Material und Methoden und ein Fragebogen speziell für die Dokumentation der Verlaufsuntersuchung von MCIPatienten. Die Angaben zur Diagnose auf allen Fragebögen wurden mit den offiziellen Angaben im Arztbrief verglichen, bei Widersprüchen wurde, wenn möglich, Rücksprache mit dem behandelnden Arzt gehalten oder im Zweifelsfall die Diagnose aus dem Arztbrief übernommen. Screeningfragebogen Der zweiseitige Screeningfragebogen bestand aus drei Teilen: 1. eigentliche Screening-Fragen (für alle Neupatienten im ZGGF) 2. CDR (für alle Neupatienten im ZGGF) 3. Fragen zur endgültigen Diagnose nach der Bildgebung (nur für Studienteilnehmer) Im ersten Teil konnten die Ärzte Angaben zu ihrer (Verdachts-)Diagnose für alle gescreenten Patienten vor einer Bildgebung machen. Hier wurde zudem abgefragt, wie sicher diese Diagnose dem ausfüllenden Arzt erschien. Es gab dabei auf Wunsch der Ärzte des ZGGF drei Möglichkeiten anzukreuzen: subjektive diagnostische Sicherheit >90%, 70-90% oder <70%. Bestand der Verdacht auf eine leichte kognitive Störung, wurde zusätzlich die prognostische Einschätzung abgefragt: Hielt der Arzt eine Konversion zur Demenz oder einen stabilen Verlauf für wahrscheinlicher? Desweiteren wurden Angaben zu einer möglichen bereits vorliegenden Bildgebung erhoben mit Zusatzinformationen zur Art (PET, CT oder MRT) und Aktualität dieser Bildgebung (älter oder jünger als zwei Jahre). Auch etwaige Kontraindikationen einer Kernspintomographie und im MRT sichtbare Vorerkrankungen sollten angegeben werden. Die Angaben zum CDR waren als Einschlusskriterium von besonderer Relevanz. Der Punktwert in jedem Bereich konnte auf der zweiten Seite des Fragebogens angegeben werden, auf der die im Internet verfügbare deutsche Tabellenversion abgedruckt war (http://alzheimer.wustl.edu/cdr/PDFs/Translations/German%20Switzerland.pdf). Der letzte Teil des Fragebogens sollte von den Ärzten nur für an der Studie teilnehmende Patienten nach der Bildgebung ausgefüllt werden. Es wurde erneut die Diagnose 22 2 Material und Methoden und Prognose (für MCI-Patienten) abgefragt, wieder mit Angaben zur diagnostischen Sicherheit. Entschied sich der Arzt für eine Demenzdiagnose, so wurde diese als Referenzstandard gewertet. Für MCI-Patienten wurde die hier angegebene Prognose durch den Arzt als dessen gültige Einschätzung zum Verlauf betrachtet, die zum Vergleich mit dem Referenzstandard aus der Verlaufsuntersuchung dienen sollte. Fragebogen zur Verlaufsuntersuchung Mithilfe des einseitigen Fragebogens zur Verlaufsuntersuchung für alle MCI-Patienten, die sich nach sechs bis zwölf Monaten wieder vorstellten, wurden Angaben zum Verlauf der leichten kognitiven Störung erhoben. Die Ärzte sollten erneut Angaben zum CDR machen. Zudem wurde die aktuelle Diagnose abgefragt: Lag weiterhin eine leichte kognitive Störung vor oder war eine Progredienz zur Demenz eingetreten? Die hier gemachten Angaben wurden dabei als Referenzstandard gewertet. Falls weiterhin ein MCI vorlag, sollte der Arzt entscheiden, ob er den Zustand eher für stabil oder instabil für das kommende Jahr einschätzte. Falls eine Demenz neu diagnostiziert wurde, sollten Angaben zur Art der Demenz gemacht werden. In jedem Fall sollte der Arzt angeben, wie sicher er sich in seiner Einschätzung war. Wie beim Screeningfragebogen gab es die Möglichkeiten >90%, 70-90% oder <70% als Sicherheiten anzukreuzen. 2.4.2 Neuropsychologische Testung Clinical Dementia Rating (CDR) Beim Clinical Dementia Rating handelt es sich um ein etabliertes semistrukturiertes Interview zur Bewertung der Einschränkungen von Demenzpatienten in verschiedenen Bereichen, das 1982 von der Washington University School of Medicine entwickelt wurde (Hughes et al., 1982). Es berücksichtigt folgende sechs Kategorien, in denen jeweils eine Angabe über den Grad der Einschränkung getroffen wird: 1. Gedächtnis 2. Orientierungsvermögen 3. Urteilsvermögen und Problemlösung 23 2 Material und Methoden 4. Leben in der Gemeinschaft 5. Haushalt und Hobbys 6. Körperpflege Den Schweregraden sind dabei jeweils Punktwerte zugeordnet (siehe Tabelle 2.1), mit deren Hilfe sich eine Beurteilung des Gesamtschweregrades berechnen lässt, entweder mithilfe eines Gesamtscores, der über einen Algorithmus der Washington University ermittelt wird (http://www.biostat.wustl.edu/ adrc/cdrpgm/index.html), oder mithilfe eines sogenannten sum of boxes-Scores, bei dem die Punktwerte in den einzelnen Kategorien addiert werden (Morris, 1993). Als Einschlusskriterium für die Studie wurde der Gesamtscore herangezogen. Grad der Einschränkung Punktwert keine 0 fraglich 0,5 leicht 1 mäßig 2 schwer 3 Tabelle 2.1: CDR Schweregrade Für die Studie wurde der CDR als Maß des Schweregrades der Erkrankung zugrunde gelegt, da er im Gegensatz zu den meisten neuropsychologischen Tests die Einschränkungen im Alltag stark berücksichtigt, die den Unterschied zwischen leichten kognitiven Störungen und Demenzen ausmachen. Morris et al. konnten zeigen, dass allein mithilfe des CDR bis zu 83% der MCI- und Alzheimer-Patienten korrekt eingeschätzt werden können (Morris, 1993). CERAD-Testbatterie Das vom amerikanischen National Institute on Aging NIA ins Leben gerufene Consortium to Establish a Registry of Alzheimer’s Disease (CERAD) stellte 1988 die neuropsychologische CERAD-Testbatterie zusammen (Morris et al., 1988). Ziel war es, 24 2 Material und Methoden einen Standard für die zukünftige Alzheimer-Demenzdiagnostik insbesondere in Studien zu bilden, um eine gute Vergleichbarkeit von Ergebnissen zu gewährleisten (Morris et al., 1989). Inzwischen hat sich die Testbatterie auch in Europa etabliert (Satzger et al., 2001). Im ZGGF ist sie die meistbenutzte Testbatterie für Neupatienten in der Gedächtnissprechstunde. Die deutschsprachige Version wurde von der Memory Clinic Basel erstellt. In ihrer Dissertation konnte Aebi 2002 für diese deutsche Fassung nachweisen, dass nicht nur Alzheimer-Demenzen, sondern verschiedene Demenzformen mit einer Genauigkeit von bis zu 92% (Spezifität: 97%, Sensitivität: 87%) richtig von gesundem Altern unterschieden werden können. Die Testbatterie ist dabei allerdings nicht zur Differenzierung der unterschiedlichen Demenzen geeignet (Aebi, 2002). Acht Einzeltests, die verschiedene kognitive Bereiche überprüfen, sind in der CERADTestbatterie enthalten (siehe Tabelle 2.2), (Morris et al., 1989). Die in den Einzeltests erreichten Rohpunktwerte werden unter Berücksichtigung von Alter, Geschlecht und Ausbildungsjahren mit einem Normwert verglichen. Das Ergebnis wird für jeden Test als Standardabweichung von diesem jeweiligen Normwert angegeben (z-Wert). Die Berechnung erfolgt dabei über ein von der Memory Clinic Basel zur Verfügung gestellten Algorithmus. Im ZGGF gelten z-Werte unter -1,5 als Hinweis auf eine leichte kognitive Störung. Liegen mindestens zwei Werte unter -2,0, ist das Ergebnis vereinbar mit einer Demenz. Chandler et al. entwickelten 2005 eine Methode, um einen Composite Score aus allen CERAD-Einzeltestergebnissen zu bilden, der gegenüber dem MMSE als traditionellem Screeningtest für die kognitive Leistungsfähigkeit Vorteile insbesondere bei der Detektion von leichten kognitiven Störungen aufweist (Chandler et al., 2005). In der Studie von Chandler et al. wurde eine Sensitivität und Spezifität von 81,4% bzw. 63,2% für die Trennung von MCI-Patienten und Gesunden und von 81,1% bzw. 67,8% für die Trennung von MCI- und Alzheimer-Patienten erreicht. Für die Berechnung des Composite Scores wird die Summe der Rohpunktwerte unter Ausschluss des MMSE-Ergebnisses nach Alter, Geschlecht und Ausbildungsdauer folgendermaßen korrigiert: Summenwert − (−0.171 × Alter + 0.093 × Geschlecht + 0.5 × Ausbildungsjahre) 25 2 Material und Methoden Test Aufgabenstellung überprüfte kognitive Funktionen verbale Flüssigkeit, Aufzählen möglichst vieler Tier- Sprache, semantisches Gedächt- Kategorie Tiere namen innerhalb einer Minute nis, Denkgeschwindigkeit, exekutive Funktion modifizierter Bo- Benennen von 15 gezeichneten visuelle Wahrnehmung, Wortfin- ston Naming Test Objekten dung Mini Mental Status Screening mit Aufgaben aus ver- allgemeines kognitives Funkti- Examination schiedenen Bereichen onsniveau Gedächtnis Wiedergeben einer Wortliste mit verbales Lernen 10 Wörtern (3 Trials) verbaler Spätabruf verzögerte freie Wiedergabe der verbales episodisches Gedächtnis 10 Wörter der Wortliste Wortliste Wieder- erkennen Wiedererkennen der Wortlisten- Abruf- versus Speicherdefizit Wörter aus einer Auswahl von 20 Wörtern Konstruktive Pra- Abzeichnen von 4 Figuren Visuokonstruktion nonverbaler Zeichnen der Figuren des Vor- nonverbales Gedächtnis Spätabruf tests aus der Erinnerung heraus xis Tabelle 2.2: CERAD-Testbatterie 26 2 Material und Methoden Fragebogen Aufbau Maximalpunktzahl Depressionsverdacht bei Punktzahl BDI-II 21 Items mit je 4 63 >13 Antwortmöglichkeiten DIA-S 10 Ja/Nein-Fragen 10 >3 GDS (kurz) 15 Ja/Nein-Fragen 15 >5 Tabelle 2.3: Depressionsfragebögen Der Composite Score, im Folgenden auch als CERAD Gesamtscore bezeichnet, wird neben dem MMSE-Ergebnis in der Auswertung der Daten dieser Studie zur Charakterisierung der kognitiven Leistungsfähigkeit der Probanden herangezogen. Depressionstestung Die gezielte Überprüfung von depressiven Symptomen bei Demenzverdacht wird von den S3-Leitlinien empfohlen wegen der Bedeutung einer Depression als mögliche Ursache kognitiver Störungen aber auch als häufiges Begleitsymptom von Demenzen (Jessen, 2010). Bei Neupatienten im ZGGF wurden deshalb im Regelfall neben der Erhebung des psychopathologischen Befundes Depressionsfragebögen genutzt. Dabei handelte es sich entweder um die Depression im Alter-Skala (DIA-S) (Heidenblut and Zank, 2010), die GDS in ihrer Kurzform (Yesavage et al., 1982), (Lesher and Berryhill, 1994) oder das Beck´s Depression Inventar II (BDI-II) (Kühner et al., 2007). Alle drei Tests sind Selbstbewertungsbögen, die typische Symptome einer Depression abfragen, allerdings sind nur GDS und DIA-S speziell für das geriatrische Setting konzipiert. Zum Aufbau und zu den Cut-off-Werten der einzelnen Tests siehe Tabelle 2.3. 2.4.3 MRT Für die Studie wurde ein 3 Tesla-Magnetresonanztomograph (Magnetom Trio) der Firma Siemens verwendet. Bei den Studienteilnehmern wurden jeweils eine T1-gewichtete MP-RAGE-Sequenz (Magnetization Prepared Rapid Gradient Echo) und eine T2- 27 2 Material und Methoden Abbildung 2.1: Vorbearbeitung der MRT-Bilder vor Anwendung der SVM. Von links nach rechts dargestellt: 1. Originalbild, 2. nach Normalisierung der Größe, 3. nach Segmentierung, 4. nach Modulation, 5. nach Filterung gewichtete FLAIR-Sequenz (Fluid Attenuated Inversion Recovery) mit einer 32 KanalSpule durchgeführt. Die Schichtdicke beider Sequenzen betrug 1 mm, die Voxelgröße 1 mm x 1 mm x 1 mm. Zu den Echo-(TE) und Repetitionszeiten (TR) siehe Tabelle 2.4. Sequenz TR in ms TE in ms FLAIR 5000 388 MP-RAGE 1440 2,15 Tabelle 2.4: MRT-Sequenzen 2.4.4 Angaben zur automatischen Auswertung der Bildgebung Die Analyse der grauen Substanz wurde mithilfe einer Support Vector Machine vorgenommen, während die weiße Substanz mit einem hausintern entwickelten Programm analysiert wurde (siehe Klöppel et al., 2011). Beide Schritte sind im Folgenden erklärt. Analyse der grauen Substanz Für die Analyse der grauen Substanz wurde die MP-RAGE-Sequenz herangezogen. Die Bilder wurden mithilfe des Programms VBM8 (http://dbm.neuro.uni-jena.de/vbm/ n. d.) vorbearbeitet hinsichtlich Separation von Liquor, grauer und weißer Substanz und Normalisierung der Größe. Den Ablauf der Vorbearbeitung zeigt beispielhaft Abbildung 2.1. Anschließend wurde eine SVM (libsvm) angewendet (Chang and Lin, 2001), die 28 2 Material und Methoden vorher mithilfe von Bildern der Alzheimer´s Disease Neuroimaging Initiative (ADNI) trainiert worden war (entsprechend der Publikation von Abdulkadir et al., 2011).Insgesamt wurden 260 MRT-Bilder von Patienten mit leichten kognitiven Störungen zum Training genutzt, davon 157 mit stabilem Verlauf über mindestens 365 Tage und 103 mit Konversion innerhalb des Beobachtungszeitraums der ADNI-Studie von 36 Monaten. Die wesentlichen Charakteristika der Trainingsprobanden finden sich in Tabelle 2.5. Alter (in Jahren) männlich MMSE MCI stabil MCI konvertiert (n=157) (n=103) 75±7,4 74±7 101 59 27,4±1,8 26,5±1,8 Tabelle 2.5: Charakteristika der Trainingsprobanden Das Ergebnis der Anwendung der SVM war für jedes Patienten-MRT ein Wert zwischen Null und Eins für ein Diagnosepaar, entsprechend dem Grad der Ähnlichkeit des untersuchten Bildes mit den Bilderpools der beiden zur Auswahl stehenden Differenzialdiagnosen, in diesem Fall MCI konvertierend/ MCI stabil. Für das Bild eines MCI-Patienten bedeutete beispielsweise die Zahl 0,8 nach Anwendung des Classifiers zur Unterscheidung konvertierendes oder stabiles MCI eine laut SVM 80%ige Wahrscheinlichkeit in die Konvertierendengruppe zu gehören oder umgekehrt formuliert eine 20%ige Wahrscheinlichkeit für einen stabilen Verlauf. Analyse der weißen Substanz Für die Analyse der weißen Substanz wurde die FLAIR-Sequenz herangezogen. Alle Bilder von MCI- und Demenzpatienten wurden auf ihren Gehalt an WMH im Temporalund Frontallappen überprüft, entsprechend dem Vorschlag von Klöppel et al., 2011.Die SVM-Trainingsdaten wurden dabei nicht mit einbezogen. Die so bestimmten WMH-Volumina wurden ins Verhältnis zum Gesamtvolumen des jeweiligen Lappens gesetzt. Anschließend wurde eine Skala zur WMH-Belastung berechnet. Die bei dem Patienten mit den wenigsten Veränderungen vorhandene WMH-Last 29 2 Material und Methoden bildete dabei das untere Ende der Skala, die WMH-Last bei dem Patienten mit den meisten Veränderungen das obere Ende. Aus der Skala ergaben sich Prozentränge der WMH-Belastung für jeden Patienten. 2.5 Statistik Zur statistischen Auswertung der Daten wurden die Programme „Excel 2010“ von Microsoft, „Numbers ‘09“ von Apple Inc. und „PSPP“ (Version 0.8.1) genutzt. PSPP ist eine frei im Internet verfügbare Statistiksoftware. Statistische Tests wurden bei einem Alpha-Niveau von <0,05 als signifikant gewertet. 2.5.1 Charakterisierung des Probandenkollektivs Zunächst wurden zur Charakterisierung des Probandenkollektivs von MCI-Patienten Merkmale wie Geschlecht und Zusatzerkrankungen auf ihre absolute und relative Häufigkeit überprüft. Mittelwerte und Standardabweichungen wurden für Alter, Testergebnis im MMSE und die Anzahl der Ausbildungsjahre bestimmt. Anschließend wurde überprüft, ob sich ein- und ausgeschlossene Patienten hinsichtlich Geschlecht (ChiQuadrat), Ausbildungsjahre (Mann-Whitney-U-Test) und Alter (t-Test) unterscheiden. Die eingeschlossenen Demenzpatienten wurden nach dem gleichen Schema kurz charakterisiert. Die eingeschlossenen MCI-Probanden mit- und ohne Verlaufsuntersuchung wurden ebenfalls hinsichtlich oben genannter Merkmalsausprägungen zunächst beschrieben und anschließend auf Gruppenunterschiede getestet. Dabei wurden zusätzlich die Ergebnisse der SVM sowie die Analyse der WMH-Last auf Gruppenunterschiede überprüft. In einem dritten Schritt erfolgte nach gleicher Methode ein Vergleich der Probanden mit Verlaufsuntersuchung, unterteilt nach stabilem Verlauf versus Konversion. 30 2 Material und Methoden 2.5.2 Auswertung der Daten zur diagnostischen Sicherheit der Ärzte Um festzustellen, wie hoch die Sicherheit der Ärzte bei ihrer Verlaufsabschätzung war, wurde, wie im Abschnitt 2.4 beschrieben, im Screening-Fragebogen auf die diagnostische Sicherheit vor und nach MRT eingegangen. Für das Probandenkollektiv mit Referenzstandard wurde die Häufigkeit der verschiedenen Sicherheitsangaben für die Ergebnisse vor und nach MRT analysiert. Mithilfe von Kreuztabellen wurden zudem Sensitivität, Spezifität und diagnostische Genauigkeit der Ärzte bestimmt. Des Weiteren wurde der Zusammenhang von diagnostischer Sicherheit und diagnostischer Genauigkeit überprüft. Eine denkbare Abhängigkeit der diagnostischen Sicherheit von zerebralen Zusatzerkrankungen, dem Patientenalter, dem Abschneiden in der neuropsychologischen Testung und der Belastung mit WMH wurde ebenfalls untersucht. Dazu wurde das Probandenkollektiv in Gruppen mit verschiedenen Angaben zur diagnostischen Sicherheit (>90%, 70-90% oder <70%) aufgeteilt und die Ausprägung der genannten Merkmale auf Gruppenunterschiede untersucht. Dafür wurde der KruskalWallis-Test herangezogen. 2.5.3 Auswertung der SVM-Ergebnisse Als Maß für die Güte der SVM-Ergebnisse wurde der Anteil richtig diagnostizierter Fälle (diagnostische Genauigkeit) herangezogen. Zusätzlich wurden ROC-Kurven (Receiver Operating Characteristic) berechnet. Um zu überprüfen, ob Zusatzerkrankungen, Alter, Ergebnisse der neuropsychologischen Testung oder WMH-Last einen Einfluss auf die diagnostische Genauigkeit ausüben, wurden Kruskal-Wallis-Tests durchgeführt. Zum Vergleich der SVM-Ergebnisse mit der ärztlichen Verlaufsabschätzung wurde für letztere ebenfalls eine ROC-Kurve berechnet und die diagnostische Genauigkeit bestimmt. Um die ROC-Kurve berechnen zu können, wurde die ärztlicherseits geschätzte Konversionswahrscheinlichkeit benötigt. Diese wurde aus den Angaben zum Verlauf und zur diagnostischen Sicherheit bestimmt. Wie im Abschnitt 2.4 beschrieben, waren die Angaben >90% Sicherheit, 70-90% Sicherheit und <70% Sicherheit auf dem Fragebogen möglich. Für die ROC-Kurve wurde aus diesen Angaben nach folgendem 31 2 Material und Methoden Schema eine sechs-Punkte-Skala zur Konversionswahrscheinlichkeit bestimmt: Die Angabe „stabiles MCI“ in Kombination mit einer Sicherheit von mehr als 90% wurde beispielsweise als Konversionswahrscheinlichkeit unter 10% gewertet. Die Angabe „stabiles MCI“ in Kombination mit einer Sicherheit geringer als 70% wurde als eine Konversionswahrscheinlichkeit im Intervall von 30-50% gewertet unter der Annahme, dass bei einer Konversionswahrscheinlichkeit größer 50% „konvertierendes MCI“ angegeben worden wäre. War „konvertierendes MCI“ angekreuzt worden, wurde entsprechend bei einer Sicherheit geringer als 70% eine Konversionswahrscheinlichkeit im Intervall von 50-70% angenommen. Die Details zur Skala finden sich in Tabelle 2.6. Der Mittelwert des jeweiligen Intervalls wurde dann zur Berechnung der ROC-Kurve zugrunde gelegt. Prognose Sicherheit Konversionswahrscheinlichkeit Intervall Mittelwert stabil >90% <10% 5% stabil 70 bis 90% 10 bis 30% 20% stabil <70% >30 bis <50% 40% konvertierend <70% 50 bis <70% 60% konvertierend 70 bis 90% 70 bis 90% 80% konvertierend >90% >90% 95% Tabelle 2.6: Sechs-Punkte-Skala zur Konversionswahrscheinlichkeit aus ärztlicher Sicht 32 3 Ergebnisse 3.1 Probandenkollektiv 3.1.1 Screeningprozess Im Zeitraum vom 20. Juni 2011 bis zum 22. April 2013 erfolgten insgesamt 880 Neuvorstellungen im ZGGF, die in das Screening aufgenommen wurden. Abbildung 3.1 zeigt eine Übersicht über den Einschlussprozess dieser Patienten für die Studie. Screening (n = 880) nicht relevante Diagnose (n = 274) MCI (n = 206) Einschluss (n = 65) Verlaufsuntersuchung vorhanden (n = 35) Demenz (n = 380) Ausschluss (n = 141) Einschluss (n = 91) Ausschluss (n = 289) keine Verlaufsuntersuchung (n = 30) Abbildung 3.1: Übersicht über den Einschlussprozess Insgesamt konnten 156 Personen als Studienteilnehmer gewonnen werden. 91 Personen (58,3%) erhielten die ärztliche Diagnose Demenz, während 65 Personen (41,7% der Teilnehmer) die Diagnose MCI erhielten. Ihre MRT-Bilder sollten hinsichtlich des Verlaufs der leichten kognitiven Störung analysiert werden. Als Referenzstandard war 33 3 Ergebnisse hier wie im Abschnitt 2.3 beschrieben eine Verlaufsuntersuchung nach einem Jahr festgelegt worden. Zum Zeitpunkt der Auswertung für die vorliegende Arbeit war bei 35 Patienten eine Verlaufsuntersuchung in einem zeitlichen Abstand von mindestens 140 Tagen zur Erstvorstellung bzw. mindestens 60 Tagen bis zur Konversion bereits erfolgt. Sofern nicht anders vermerkt, sind nur diese Patienten mit Referenzstandard in den Analysen der folgenden Abschnitte berücksichtigt. Von 206 gescreenten MCI-Patienten wurden 141 aus verschiedenen Gründen von der Studie ausgeschlossen. In Tabelle 3.1 finden sich die erfassten Gründe für einen Ausschluss. Teilweise sind hierbei Patienten doppelt aufgeführt, sofern mehrere Ausschlusskriterien für einen Patienten zutrafen. Der häufigste Ausschlussgrund mit 83% war ein fehlendes MRT, wobei nicht in allen Fällen ersichtlich war, warum keine Bildgebung geplant worden war. Bei einem Drittel der Neuvorstellungen lag bereits eine mehr oder weniger aktuelle Bildgebung vor, sodass den Ärzten wahrscheinlich eine erneute Untersuchung nicht zwingend erforderlich schien. Kontraindikationen gegen eine MRTUntersuchung waren nur bei insgesamt sechs der gescreenten MCI-Patienten Grund für einen Ausschluss: Herzschrittmacher (2x), beidseitige Hüft-Totalendoprothese (2x), Klaustrophobie (1x), beidseitige metallische Schulterimplantate (1x). Insgesamt vier Patienten lehnten eine MRT-Untersuchung von vornherein ab, zwei erschienen nicht zu ihrer geplanten Untersuchung. Insgesamt 24 Patienten mussten trotz aktueller MRT-Bildgebung von der Studie ausgeschlossen werden. Hierunter fielen 19 MCI-Patienten, denen bereits weniger als 60 Tage nach der Erstvorstellung, meist im Rahmen der MRT-Befundbesprechung, eine Konversion zur Demenz attestiert wurde. Durch einen Ausschluss dieser Fälle sollte verhindert werden, dass Patienten fälschlicherweise hinsichtlich des Verlaufs einer leichten kognitiven Störung analysiert würden, bei denen vermutlich schon bei Erstvorstellung die Demenz vorgelegen hatte und nur aufgrund fehlender Informationen (Fremdanamnese) nicht erkannt worden war. In fünf Fällen entsprach der CDR nicht den in den Einschlusskriterien festgelegten 0,5. 34 3 Ergebnisse Ausschlussgrund Häufigkeit (n gesamt=141) relativ (%) absolut 83 117 33,3 47 27 38 22,7 32 - Kontraindikationen 4,3 6 - Ablehnung 2,8 4 - nicht zum MRT erschienen 1,4 2 13,5 19 3,5 5 kein aktuelles MRT - Bildgebung bereits vorhanden — jünger als 2 Jahre — MRT Konversion < 60 Tage CDR > 0,5 Tabelle 3.1: Gründe für einen Studienausschluss 3.1.2 Charakterisierung des Probandenkollektivs Beschreibung der Probanden mit leichter kognitiver Störung Die wesentlichen Merkmale des Probandenkollektivs finden sich in Tabelle 3.2 in der Spalte „eingeschlossene Patienten“. Sofern nicht anders angegeben, sind die Anzahl oder die Mittelwerte ± Standardabweichung dargestellt. Zu den eingeschlossenen Patienten wurden dabei auch diejenigen gerechnet, die aufgrund einer fehlenden Verlaufsuntersuchung nicht in die in den folgenden Abschnitten beschriebene Auswertung aufgenommen werden konnten. Es konnten keine signifikanten Unterschiede zwischen ein- und ausgeschlossenen MCI-Patienten gefunden werden. Ebenso wenig ergaben sich Hinweise auf einen signifikanten Unterschied der eingeschlossenen Probanden mit und ohne Verlaufsuntersuchung, außer in Bezug auf die Ergebnisse der automatischen Auswertung der MRT-Bilder. Hier fiel auf, dass bei den Patienten ohne Verlaufsuntersuchung das SVM-Ergebnis im Mittel niedriger war als bei den in der Auswertung berücksichtigten Patienten mit Verlaufsuntersuchung(43% versus 35%). Die 35 eingeschlossenen Patienten mit Verlaufsuntersuchung waren im Mittel 73 Jahre alt. Ihr Ausgangswert im MMSE lag durchschnittlich bei 25 Punkten. 51,43% der Pro- 35 3 Ergebnisse MCI (Einschluss) MCI (Ausschluss) p-Wert gesamt mit VU ohne VU (n=65) (n=35) (n=30) (n=141) 73,4±7,5 73,1±6,9 73,6±8,2 73,3±9 0,97 30 (46,2%) 18 (51,4%) 12 (40%) 67 (47,2%) 0,93 Ausbildungsjahre 12,5±4,6 13,3±4,6 10,6±4,1 11,4±3,2 0,55 MMSE 25,6±3,1 25,1±3,3 26,1±2,9 25,1±3,3 0,18 CERAD Comp. Score 69,8±9,8 72±9,5 65,5±9,2 72,1±9,2 0,35 -psychiatrisch 25 (38,5%) 14 (40%) 11 (36,7%) 19 (13,4%) 0,9 -zerebral 11 (16,9%) 8 (22,9%) 3 (10%) 31 (21,8%) 0,47 -andere 14 (21,5%) 5 (14,3%) 9 (30%) 39 (27,5%) k.A. 39,6±17,9 43,8±18,2 34,7±16,4 k.A. 0,013 53±24,9 55,8±27 49,7±22,2 k.A. 0,17 52,6±25,9 57,1±29,5 47,4±20,3 k.A. 0,07 Alter (in Jahren) männlich Komorbiditäten MRT-Auswertung SVM-Ergebnis WMH-Perzentile -frontal -temporal Tabelle 3.2: Charakteristika der MCI-Patienten banden waren männlichen Geschlechts. Acht Patienten wiesen die folgenden zerebralen Vorerkrankungen auf: • Apoplex (2x) • vaskuläre Enzephalopathie (2x) • Multiple Sklerose • Normaldruckhydrocephalus • Meningeom • zerebrales Aneurysma Die Erfassung dieser Komorbiditäten war dabei primär über die Angaben auf den Fragebögen erfolgt. Zusätzlich wurden die Arztbriefe der eingeschlossenen Patienten auf Nebendiagnosen überprüft. Die Erfassung der Erkrankungen erfolgte im Hinblick 36 3 Ergebnisse auf eine mögliche Beeinflussung der automatischen MRT-Auswertung durch zerebrale Veränderungen unabhängig von der Diagnose MCI. MCI stabil MCI konvertiert (n=24) (n=11) 73,1±7,2 73,2±6,4 0,75 13 5 0,63 13,3±5 13,3±3,8 0,82 MMSE 25,6±3,6 24±1,9 0,09 CERAD Composite Score 73,5±9,5 68,1±9,1 0,27 10 4 -zerebral 7 1 -andere 3 2 45,2±17,3 40,8±20,8 0,52 -frontal 59,8±26,7 47±26,9 0,21 -temporal 56,3±29,7 58,9±30,5 0,75 Alter (in Jahren) männlich Ausbildungsjahre p-Wert Komorbiditäten -psychiatrisch SVM-Ergebnis WMH-Perzentile Tabelle 3.3: Vergleich stabiler und konvertierender MCI-Patienten In Tabelle 3.3 sind die Charakteristika der eingeschlossenen MCI-Patienten mit Verlaufsuntersuchung aufgeschlüsselt nach stabilem Verlauf versus Konversion. Die Verlaufsuntersuchung fand im Mittel nach 390 ±154 Tagen statt [199-784]. Der durchschnittliche Zeitraum bis zur Konversion betrug 310 ± 82 Tage [199-442]. Insgesamt entwickelten 11 von 35 Personen (31%) innerhalb des Beobachtungszeitraums eine Demenz. Folgende Demenzformen waren dabei vertreten: Alzheimer-Demenz (8x), Mischdemenz (2x) und Frontotemporale Demenz (1x). Beim Vergleichen der Gruppen fällt auf, dass für die Konvertierenden der durchschnittliche Ausgangswert im MMSE etwas niedriger und das Alter etwas höher waren als für die Probanden mit stabilem Verlauf. Der Unterschied ist jedoch nicht signifikant. Die Ergebnisse der SVM unterscheiden sich nicht signifikant zwischen den beiden Gruppen. 37 3 Ergebnisse Beschreibung der Probanden mit Demenz Da die Bilddaten der eingeschlossenen Demenzpatienten in die Perzentilenberechnung der Belastung mit WMH eingingen (siehe Abschnitt 2.4.4), soll die Gruppe der an Demenz erkrankten Studienteilnehmer (n=91) ebenfalls kurz beschrieben werden. Die Verteilung der verschiedenen Demenzformen zeigt Abbildung 3.2. Mit einer Häufigkeit von 62% Prozent war eine reine Alzheimer-Demenz die am häufigsten gestellte Diagnose. Im Vergleich zu der im Abschnitt 1.2.1 beschriebenen Verteilung finden sich deutlich mehr frontotemporale Demenzen (10%). Dies lässt sich durch die Rekrutierung der Probanden in einem spezialisierten Zentrum erklären. Abbildung 3.2: Verteilung der Demenzformen unter den dementen Probanden 42,9% Prozent der dementen Studienteilnehmer waren männlich (n=39). Das durchschnittliche Alter lag bei 75±8 Jahren, die erreichte Punktzahl im MMSE bei 21±4 Punkten und die Ausbildungsdauer bei 11±3 Jahren. Bei 14 Patienten lagen zerebrale Vorerkrankungen vor. 38 3 Ergebnisse 3.2 Analysen zur diagnostischen Sicherheit der Ärzte Um zu überprüfen, ob überhaupt bzw. in welchen Situationen ein Bedarf an zusätzlichen diagnostischen Möglichkeiten für die prognostische Einschätzung von Patienten mit leichter kognitiver Störung besteht, wurden die erhobenen Daten bezüglich der diagnostischen Sicherheit und Genauigkeit der Ärzte untersucht. Abbildung 3.3 zeigt die diagnostische Sicherheit der Ärzte vor und nach MRT für alle Patienten mit Folgeuntersuchung. Es fällt auf, dass die Einbeziehung des MRT-Befundes die Sicherheit der Ärzte deutlich erhöhte. Während vor der Untersuchung nur in einem Fall eine Sicherheit von über 90% angegeben worden war, vergrößerte sich diese Zahl mit dem MRT-Befund auf sieben. Gleichzeitig sank die Zahl der Fälle, in denen sich die Ärzte sehr unsicher waren (<70%) um mehr als die Hälfte von 22 auf zehn. Die mittlere Sicherheit nach MRT lag damit bei 70,1% im Vergleich zu 52,1% vorher. Trotz der insgesamt höheren Sicherheit durch die Bildgebung fühlten sich die Ärzte in ihrer Einschätzung nur zu einem Fünftel sehr sicher. Abbildung 3.3: Diagnostische Sicherheit der Ärzte vor und nach MRT Die diagnostische Genauigkeit (Anteil richtig vorhergesagter Verläufe an allen begutachteten Fällen) verbesserte sich unter Hinzuziehen der Bildgebungsbefunde ebenfalls von 68,6% auf 71,4%. Insbesondere erbrachte das MRT hier eine Verbesserung der Sensitivität, also des Anteils der richtig als konvertierend Eingeschätzten an allen 39 3 Ergebnisse Konvertierten, von 54%auf 82%. Dennoch wurde auch unter Zuhilfenahme der MRTUntersuchung bei 28,6% der Patienten der Verlauf falsch eingeschätzt. Insbesondere der Anteil stabil bleibender Patienten, die vom Arzt als konvertierend eingestuft wurden, war dabei mit 33% unter Zuhilfenahme der Bildgebung relativ hoch. Die weiteren Details zur Beschreibung der Qualität der ärztlichen Einschätzung nach MRT lassen sich den Tabellen 3.4a und 3.4b entnehmen. konvertiert stabil total Arzt: konvertiert 9 8 17 Diagnostische Genauigkeit 71,4 Arzt: stabil 2 16 18 Sensitivität 81,8 11 24 35 Spezifität 66,7 Total Angabe (a) Kreuztabelle zur ärztlichen Einschätzung nach Wert in % (b) Gütemaße zur ärztlichen Einschätzung nach MRT MRT Tabelle 3.4: Ärztliche Einschätzung nach MRT Abbildung 3.4 zeigt die diagnostische Genauigkeit der Ärzte bei unterschiedlich ausgeprägter subjektiv empfundener Sicherheit nach MRT. Es wird deutlich, dass große Genauigkeit und große Sicherheit miteinander einhergehen. Das Ergebnis ist nach Homogenitätsprüfung mittels Chi-Quadrat-Test beinahe signifikant (p=0,06). Während die Genauigkeit der Vorhersage bei einer geringen Sicherheit nur bei 50% lag, wurde für die Patienten, bei denen sich die Ärzte zu mehr als 90% sicher waren, der Verlauf der leichten kognitiven Störung tatsächlich in allen Fällen richtig vorhergesagt. Diagnostische Sicherheit der Ärzte unter verschiedenen Bedingungen Wie im vorigen Abschnitt beschrieben, waren sich die Ärzte in ihrer Diagnose bei vier Fünftel aller Patienten weniger als 90% sicher. Mithilfe von Kreuztabellen und Kruskal-Wallis-Analysen wurden verschiedene Faktoren hinsichtlich ihres Einflusses auf die subjektive Sicherheit untersucht, um Hinweise zu erhalten, in welchen Situationen die Sicherheit besonders gering und damit ein zusätzliches diagnostisches Tool wie die SVM-Analyse besonders von Nutzen sein könnte. Abbildung 3.5 zeigt graphisch die Ergebnisse der Analysen für die Faktoren Alter, MMSE, CERAD Composite Score (als Maß für die kognitiven Fähigkeiten/Einschränkungen), 40 3 Ergebnisse Ärztliche Sicherheit und Genauigkeit 100!% 75!% 50!% 25!% 0!% <70% 70-90% >90% Genauigkeit Abbildung 3.4: Diagnostische Genauigkeit der Ärzte bei verschieden großer subjektiver diagnostischer Sicherheit Abbildung 3.5: Merkmalsausprägungen bei verschiedenen diagnostischen Sicherheiten 41 3 Ergebnisse zerebrale Vorerkrankungen und die WMH-Perzentilen. Das mittlere Alter ist dabei in Jahren angegeben. Zerebrale Vorerkrankungen (ZNS) und MR-Qualität sind in Prozent aller untersuchten Fälle angegeben, die WMH-Last in Prozenträngen und die Ergebnisse der neuropsychologischen Tests (MMSE und CERAD Composite Score) in Punkten. Die Ausprägungen dieser Merkmale unterschieden sich laut Kruskal-Wallis-Test alle nicht signifikant in dem nach diagnostischer Sicherheit aufgeteilten Probandenkollektiv mit Verlaufsuntersuchung. Bilder von sehr schlechter Qualität gehen mit einer eher niedrigen Sicherheit einher. Dies passt zu dem schon beschriebenen Ergebnis, dass die Zuhilfenahme eines MRT-Bildes die diagnostische Sicherheit erhöht. Bei aufgrund der Bildqualität schwer beurteilbaren MRT-Bildern scheint der Zugewinn an Sicherheit entsprechend geringer zu sein.Zerebrale Vorerkrankungen hatten dagegen zumindest im Rahmen dieser Studie keine geringere Sicherheit der Ärzte zur Folge. 3.3 Analyse der SVM-Ergebnisse Die Analyse des SVM-Outputs für alle Probanden mit Verlaufsuntersuchung ergab eine prognostische Abschätzung durch die SVM auf Zufallsniveau: Die „Area under the Curve“ (AUC) aus der ROC-Kurve, die Anhaltspunkte für die Güte diagnostischer Tests gibt, betrug 0,43 (siehe Abbildung 3.6). Die AUC zur Beschreibung der ärztlichen Vorhersage lag dagegen deutlich höher (0,8). Dies deckt sich mit den Ergebnissen im vorigen Abschnitt (3.2). Der Kurvenverlauf mit steilem Anstieg nahe der y-Achse verdeutlicht das gute Abschneiden der Ärzte auch grafisch. Die Kurve für die SVM bewegt sich dagegen relativ genau auf der Diagonalen, die das Zufallsniveau markiert. Ein optimaler Cut off-Wert, um die Ergebnisse der SVM-Analyse bestmöglich in die Gruppen „konvertierend“ und „stabil“ aufzuteilen, war aus der Kurve somit nicht abzulesen. Für die Berechnung der diagnostischen Genauigkeit wurde deshalb unabhängig von der ROC-Kurve ein Cut off-Wert von 50% festgelegt: All den Patienten wurde die SVM-Einstufung „konvertierend“ zugeordnet, deren SVM-Analyse einen Wert von >50% ergeben hatte, die also eher der Trainingsdaten-Konvertierendengruppe ähnlich waren. 42 3 Ergebnisse 1 Sensitivität 0,75 0,5 SVM Ärzte 0,25 0 0 0,25 0,5 0,75 1 1-Spezifität Abbildung 3.6: ROC-Kurve zur Beurteilung der SVM-Ergebnisse Die diagnostische Genauigkeit der SVM lag für diesen Cut off-Wert bei 51,4%, die Sensitivität unter 50%. Die weiteren Details zu den SVM-Ergebnissen bei diesem Cut off-Wert lassen sich den Tabellen 3.5a und 3.5b entnehmen. konvertiert stabil total SVM: konvertiert 4 10 14 Diagnostische Genauigkeit 51,4 SVM: stabil 7 14 21 Sensitivität 36,4 11 24 35 Spezifität 58,3 Total Angabe Wert in % (b) Gütemaße zu den SVM-Ergebnissen (a) Kreuztabelle: SVM-Ergebnisse Tabelle 3.5: SVM-Vorhersage (Cut off-Wert 50%) Untersuchung möglicher Einflussfaktoren auf das SVM-Ergebnis Um Hinweise auf mögliche Ursachen für die schlechte Trennung von stabilen und konvertierenden Patienten durch die SVM zu erhalten, wurde die Verteilung folgender 43 3 Ergebnisse Faktoren in den nach SVM-Ergebnis aufgeteilten Gruppen (richtige Vorhersage versus falsche Vorhersage) überprüft: • Alter • WMH-Belastung • zerebrale Vorerkrankungen • Ergebnis der neuropsychologischen Testung (MMSE, CERAD-Composite-Score) • eingeschränkte Bildqualität Zur Analyse wurden Kreuztabellen erstellt und die Ähnlichkeit der Ausprägung der aufgezählten Faktoren in den Gruppen „falsch vorhergesagt“ versus „richtig vorhergesagt“ mittels Mann-Whitney- und Chi-Quadrat-Test überprüft. Abbildung 3.7 zeigt eine grafische Darstellung der Ergebnisse inklusive Standardabweichung. Das Alter ist in Jahren angegeben, zerebrale Vorerkrankungen (ZNS) und MR-Qualität sind in Prozent aller Fälle dargestellt, WMH-Belastungen in Prozenträngen und MMSE und CERAD Composite Score in erreichten Punkten. Es ergaben sich keine signifikanten Hinweise auf Gruppenunterschiede. Die genauen Werte finden sich in Tabelle 3.6. Abbildung 3.7: Merkmalsausprägungen für durch die SVM richtig bzw. falsch eingeschätzte Probanden 44 3 Ergebnisse Signifikanzniveau Alter 0,7 MMSE 0,69 CERAD Gesamtsscore 0,32 Komorbiditäten (ZNS) 0,38 MR-Qualität 1 WMH-Perzentile -frontal 0,11 -temporal 0,11 Tabelle 3.6: Angaben zur Signifikanz für richtig und falsch eingeordnete Probanden Es fällt jedoch auf, dass die durch die SVM falsch einsortierten Probanden eine höhere WMH-Last mit einer mittleren Perzentile von 59,8 (frontal) bzw. 59,5 (temporal) im Vergleich zu 52,0 bzw. 54,8 für richtig Zugeordnete aufwiesen (Signifikanz: 0,11). Außerdem ist die Häufigkeit von zusätzlichen ZNS-Erkrankungen in der Gruppe der falsch zugeordneten Probanden erhöht (Signifikanz: 0,38). Die vier MRT-Bilder mit schlechter Bildqualität waren dagegen gleichmäßig über beide Gruppen verteilt (Signifikanz: 1). Um zu überprüfen, ob die SVM die falsch eingeschätzten Probanden mit hohem WMH bevorzugt einer Kategorie zuweist, wurden die falsch Zugeordneten noch weiter aufgeteilt in fälschlich als konvertierend und fälschlich als stabil Vorhergesagte (siehe Abbildung 3.8). Die richtig Eingeschätzten wurden nach dem gleichen Schema in zwei Gruppen aufgeteilt. Eine Analyse mittels Kruskal-Wallis-Test ergab ein Signifikanzniveau von 0,32 für die frontale WMH-Last und von 0,45 für die temporale WMH-Last. Obwohl sich mittels der Analyse keine signifikanten Unterschiede hinsichtlich WMHLast zwischen den Gruppen feststellen lassen konnten, scheint die frontale WMH-Last die SVM zu beeinflussen (siehe Abbildung 3.8 und 3.9): In der Gruppe von Patienten, die trotz stabilem Verlauf der Konvertierendengruppe zugeordnet wurden, war die frontale WMH-Belastung auffallend hoch (im Mittel auf der 68,8ten Perzentile), während der Mittelwert für fälschlich stabil Eingeschätzte bei 47,4 lag und damit eher dem Mittelwert der frontalen WMH für richtig zugeordnete Probanden ähnlich war (52,0). Für temporale WMH ließ sich ein solcher Trend nicht ausmachen. 45 3 Ergebnisse 70 52,5 35 17,5 0 WMHtemp WMHfrontal SVMstabil-konv (n=7) SVMkonv-stabil (n=10) Abbildung 3.8: WMH-Perzentilen für falsch zugeordnete Probanden Zur näheren Untersuchung eines möglichen Zusammenhangs zwischen SVM-Vorhersage und den frontalen WMHs wurde zusätzlich zu den Prozenträngen der WMH-Last auf die Rohdaten der WMH-Analyse zurückgegriffen (Angabe des WMH-Volumens in Litern). Auch hier erbrachte die Analyse mittels Kruskal-Wallis-Test kein signifikantes Ergebnis. Zudem eine Streukurve erstellt, um die SVM-Konversionswahrscheinlichkeit in Abhängigkeit von der Ausprägung frontaler WMH getrennt nach falsch und richtig prognostizierten Verläufen (Cut off-Wert: 50%) zu veranschaulichen. Es ergab sich jedoch wiederum keine signifikante Korrelation. 46 4 Diskussion 4.1 Beurteilung des Probandenkollektivs Trotz einer Studiendauer von zwei Jahren und den relativ weit gefassten Einschlusskriterien mit erlaubten Vorerkrankungen konnten nur relativ wenige MCI-Patienten in die Studie eingeschlossen werden (65 von 115 neuen MCI-Patienten), von denen etwa die Hälfte (35 Probanden) eine Verlaufsuntersuchung aufwies und damit in die eigentlichen Datenanalysen eingehen konnte. Diese geringe Fallzahl schränkte die Auswertungsmöglichkeiten und Aussagekraft der Studienergebnisse ein. Außerdem variierte der Beobachtungszeitraum der Probanden bis zur Verlaufsuntersuchung erheblich. Auch wenn im Mittel die geplanten 12 Monate relativ gut eingehalten wurden, schwankte der Zeitraum von 199 bis 784 Tagen. Eine erneute Auswertung in ein oder zwei Jahren, wenn voraussichtlich bereits mehr Patienten mit termingerechter Folgeuntersuchung in die Auswertung einbezogen werden können, erscheint deshalb sinnvoll. Bei der Auswertung der Studiendaten wurde zunächst anhand verschiedener Merkmale überprüft, ob mithilfe des Einschlussverfahrens eine repräsentative Stichprobe aus allen Neupatienten des ZGGFs gewonnen werden konnte. Die Tests auf Merkmalsverteilungen ergaben dabei keine signifikanten Unterschiede zwischen ein- und ausgeschlossenen Patienten (vgl. Tabelle 3.2). Somit kann davon ausgegangen werden, dass die Probanden zumindest hinsichtlich Alter, Geschlechterverteilung, Zusatzerkrankungen, Ausbildungsstand und kognitiven Fähigkeiten dem üblichen Patientenkollektiv in der rekrutierenden Gedächtnissprechstunde entsprechen. 47 4 Diskussion 4.2 Bedarf an zusätzlichen diagnostischen Methoden bei MCI Über die Auswertung der Studiendaten sollte ermittelt werden, inwiefern überhaupt Bedarf an weiteren diagnostischen Methoden zur Verlaufsabschätzung leichter kognitiver Störungen besteht. Wie in der Einleitung beschrieben, gibt es nach aktueller Studienlage bisher kein spezielles Vorgehen zur sicheren Prognostik leichter kognitiver Störungen. Im klinischen Alltag des ZGGF des Universitätsklinikums Freiburg besteht im Normalfall die Diagnostik zur Gedächtnisabklärung aus Anamnese, körperlicher und laborchemischer Untersuchung, neuropsychologischer Testung und einer durch einen Neuroradiologen beurteilten Bildgebung. Um festzustellen, inwieweit diese Methoden für eine adäquate MCI-Prognostik ausreichend sind, wurden die erzielte diagnostische Genauigkeit der Ärzte und deren subjektive Sicherheit bei der Diagnose als Parameter herangezogen. Es zeigte sich, dass die Ärzte mit ihrer Prognose in 71,4% der Fälle richtig lagen. Umgekehrt formuliert waren fast 30% der Verläufe falsch beurteilt worden. Damit besteht hinsichtlich der Genauigkeit der Verlaufsvorhersage ein Verbesserungspotenzial. Es ist zu beachten, dass in der Mehrzahl der Fehleinschätzungen durch den Arzt eine Konversion als wahrscheinlich erachtet worden war, obwohl der Patient nach einem Jahr noch keine Demenz aufwies. Eine mögliche Erklärung hierfür könnte sein, dass die Patienten erst nach der Verlaufsuntersuchung konvertierten und der Zeitraum von einem Jahr bis zur Kontrolle eventuell nur knapp überschritten wurde. Unter dieser Annahme wäre die hohe Fehlerquote der Ärzte zu einem Teil durch das kurze Zeitintervall bis zur Verlaufsuntersuchung verursacht. Für zukünftige Studien könnte man zur Überprüfung dieser Vermutung eine weitere Folgeuntersuchung planen oder den Zeitraum bis zur ersten Verlaufsuntersuchung etwas länger wählen. Nicht nur die ermittelte Genauigkeit sondern auch die Analyse der diagnostischen Sicherheit der Ärzte zeigt einen Bedarf an weiteren diagnostischen Methoden für MCIPatienten an. Wie in Abschnitt 2.4.1 beschrieben, konnte auf dem für diese Studie konzipierten Fragebogen die diagnostische Sicherheit auf einer Sechs-Punkte-Skala angegeben werden. In 80% aller Fälle waren sich die Ärzte bei ihrer Verlaufsabschätzung 48 4 Diskussion weniger als 90% sicher. Im Mittel lag die Sicherheit bei 70,1%. Diese Zahlen decken sich gut mit den Ergebnissen von beispielsweise Ossenkoppele et al., 2013, in deren Studie zur diagnostischen Sicherheit freie Angaben zwischen 0% und 100% gemacht werden konnten. Sie berechneten eine mittlere Sicherheit von 69% bei der Einschätzung von MCI-Patienten ohne zusätzliche PET-Untersuchung. Die Auswertung der Studiendaten aus dem ZGGF lässt trotz nicht erreichter Signifikanz ahnen, dass Unsicherheit der Ärzte und falsche Verlaufsvorhersage miteinander einhergehen (siehe Abbildung 3.4). Wie im Ergebnisteil beschrieben lag die Genauigkeit der Vorhersage bei einer geringen Sicherheit nur bei 50%, während für die Patienten, bei denen sich die Ärzte zu mehr als 90% sicher waren, der Verlauf der leichten kognitiven Störung tatsächlich in allen Fällen richtig vorhergesagt wurde. Diese Zahlen sprechen dafür, dass die Ärzte sich in ihren Fähigkeiten richtig einschätzen: Eine niedrige subjektiv empfundene diagnostische Sicherheit geht zumindest im ZGGF auch mit einer schlechteren Genauigkeit in der Verlaufsvorhersage einher. Dies unterstreicht, dass die niedrige subjektive diagnostische Sicherheit der Ärzte tatsächlichen Verbesserungsbedarf in der Diagnostik anzeigt. Bestimmte Konstellationen, in denen eine Verlaufsabschätzung den Ärzten besonders schwer fiel und bei denen ein zusätzliches diagnostisches Verfahren demnach besonders sinnvoll wäre, konnten in dieser Studie nicht ausgemacht werden (vgl. Abbildung 3.5). Denkbar wären zum Beispiel Schwierigkeiten bei der Einschätzung jüngerer Patienten oder bei der Beurteilung von Patienten mit zusätzlichen zerebralen Erkrankungen gewesen. Hierfür ergaben sich jedoch keine Hinweise. Ebenso wenig war ein Trend bezüglich WMH-Last und diagnostischer Sicherheit auszumachen. Einzig eine schlechte Bildqualität schien die Sicherheit der Ärzte negativ zu beeinflussen; auch dieses Ergebnis war im Kruskal-Wallis-Test jedoch nicht signifikant. Höhere Fallzahlen wären für die Untersuchung der verschiedenen Faktoren sehr hilfreich gewesen. Zum Beispiel hätte bei mehr Probanden auch die Sicherheit in Zusammenhang mit der Art der leichten kognitiven Störung untersucht werden können. Da jedoch unter den 35 eingeschlossenen Patienten mit Verlaufsuntersuchung zu 86% amnestische MCIs vorlagen, schien eine weitere Unterteilung des ohnehin kleinen Kollektivs in so ungleiche Gruppen nicht sinnvoll. 49 4 Diskussion 4.3 Zur Anwendbarkeit der SVM Zur automatischen Verlaufsvorhersage der MCI-Patienten wurde ein Classifier verwendet, der durch die SVM auf der Grundlage von ADNI-Daten berechnet worden war. ADNI-Daten wurden und werden bei vielen anderen Studien zum gleichen Thema (z.B. Cui et al., 2011, Li et al., 2013, Zhang and Shen, 2012) ebenfalls herangezogen. Im Gegensatz zu vielen der bisher veröffentlichten Studien wurde der Classifier jedoch nicht auf weitere ADNI-Bilder angewendet, sondern auf MRT-Bilder eines relativ weit gewählten Kollektivs von MCI-Patienten mit Vorerkrankungen und mit Bildern von teilweise eingeschränkter Qualität (siehe Abschnitt 3.1.2), um den typischen Patientenstamm in einer Gedächtnisstunde möglichst gut abzubilden. Erreicht wurde dabei eine Genauigkeit in der Verlaufsvorhersage von nur 51,4% (AUC: 0,43, Sensitivität: 36,4%, Spezifität: 58,6%). Schwierigkeiten der SVM deuteten sich schon bei der Charakterisierung des Probandenkollektivs an: Bei guter Vorhersagequalität der SVM wäre zu erwarten gewesen, dass die mittlere vorhergesagte Konvertierungswahrscheinlichkeit für die tatsächlich konvertierten Probanden deutlich über der für stabil gebliebene Probanden liegt. Stattdessen lag der Mittelwert für beide Gruppen bei knapp über 40% mit einer sehr großen Streuung (siehe Tabelle 3.3). Die Konvertierungswahrscheinlichkeit für die stabil bleibenden Probanden (45,2%) wurde im Mittel sogar geringfügig höher berechnet als für die Konvertierenden (40,8%). Das in dieser Studie mit der SVM erzielte Ergebnis ist insgesamt deutlich weniger gut, als nach der aktuellen Studienlage zur Anwendung von SVMs auf Bilder von MCI-Patienten zu erwarten gewesen wäre: Verfahren zur automatischen Auswertung von Bildgebungsbefunden erzielten nach einer im Abschnitt 1.5.4 näher beschriebenen umfassenden Metaanalyse zu diesem Thema von Orru et al., 2012, eine Genauigkeit zwischen 60,8%(Davatzikos et al., 2011) und 98,4% (Haller et al., 2011). Auch die Ergebnisse von Studien zur Verlaufsvorhersage mit anderen Methoden als der Auswertung von MRT-Bildern sind deutlich besser: So erreichten PET-Untersuchungen nach einer Metaanalyse von Zhang et al., 2012, im Mittel eine Sensitivität von 77% (FDG-PET) bzw. 93%(PIB-PET), eine Spezifität von 74%(FDG-PET) bzw. 56% (PIB-PET) und 50 4 Diskussion eine AUC von knapp 0,85. Die Analyse von Liquor auf Amyloid und tau-Protein ergab in einer größeren Studie eine AUC um 0,76 (Mattsson N et al., 2009). Ebenso erzielte die Kombination verschiedener Verfahren, wie sie zwischenzeitlich in mehreren Studien überprüft wurde (z.B. Landau et al., 2010, Li et al., 2013), gute Ergebnisse mit AUCs von über 0,8. Es stellt sich die Frage nach den Ursachen für die geringe Qualität der SVM-Verlaufsvorhersage bei MCI-Patienten im Rahmen der am ZGGF durchgeführten Studie. Die geringe Fallzahl von nur 35 eingeschlossenen Probanden ist dabei aus zwei Gründen problematisch: Neben der Tatsache, dass sie ein zufällig schlechtes Ergebnis wahrscheinlicher macht, erschwert sie aussagekräftige Analysen zur Ursachenfindung. Als alleiniger Grund für eine Vorhersagequalität auf so niedrigem Niveau wie hier vorliegend ist sie dennoch nicht anzunehmen, zumal auch andere SVM-Studien mit eher wenig Probanden deutlich bessere Ergebnisse erbracht hatten (z.B. Plant et al., 2010: insgesamt 22 MCI-Patienten, erreichte Genauigkeit: 96%). Mit einer erneuten Auswertung der Daten in einem Jahr mit voraussichtlich mehr vorliegenden Verlaufsuntersuchungen ließe sich dieser Punkt überprüfen. Zu beachten ist außerdem, dass in der am ZGGF durchgeführten Studie auch abgesehen von der geringen Teilnehmerzahl weder der zugrunde gelegte Referenzstandard noch das Probandenkollektiv optimal waren: Die Folgeuntersuchung fand nach relativ verschiedenen, teilweise sehr kurzen Beobachtungszeiträumen statt (Schwankungsbreite 585 Tage, siehe Abschnitt 4.1), wodurch möglicherweise einigen Patienten in der Dokumentation frühzeitig ein stabiler Verlauf attestiert wurde, obwohl nach zwölf Monaten eine Demenz vorgelegen hätte. Es ist außerdem in Erwägung zu ziehen, dass die als Referenzstandard zugrunde gelegte ärztliche MCI-Diagnose eventuell nicht in jedem Fall korrekt war. So wurde, wie im Abschnitt 3.2 beschrieben, die subjektive diagnostische Sicherheit im Mittel nur mit 70% angegeben. Hierbei ist allerdings zu beachten, dass es nicht hauptsächlich um die Frage „MCI“ versus „kein MCI“, sondern vor allem um die Einschätzung „konvertierend“ versus „stabil“ ging. Um die Sicherheit des Referenzstandards zu erhöhen, könnte man zum Beispiel alle Patienten sowohl bei der Eingangs- als auch bei der Verlaufsuntersuchung von zwei Ärzten beurteilen las- 51 4 Diskussion sen. Für zukünftige Studien bietet es sich außerdem an, bezüglich des Zeitpunktes der Folgeuntersuchung strenger vorzugehen. Im Abschnitt 3.3 des Ergebniskapitels wurde trotz der geringen Fallzahl analysiert, ob bestimmte Probandencharakteristika gehäuft in der Gruppe mit den durch die SVM falsch vorhergesagten Fällen auftraten. Die Betrachtung von Abbildung 3.7 und Tabelle 3.6 lässt vermuten, dass zerebrale Vorerkrankungen die Ergebnisqualität der SVM negativ beeinflussen, auch wenn das Ergebnis mit einem p-Wert von 0,38 nicht signifikant ist. Die MRT-Qualität scheint dagegen nach diesen Zahlen kaum eine Rolle zu spielen. Insgesamt lagen allerdings nur vier Bilder mit mittelschweren bis stark ausgeprägten Artefakten vor, sodass die Aussagekraft hinsichtlich dieses Ergebnisses sehr unsicher ist. Es gab keinen Hinweis auf einen Zusammenhang des SVM-Ergebnisses mit dem Alter oder dem Abschneiden in der neuropsychologischen Testung. Zusätzlich zu den gerade beschriebenen Charakteristika wurde analysiert, wie hoch die WMH-Last in der Gruppe der durch die SVM falsch eingeschätzten Probanden im Vergleich zu allen richtig eingeschätzten Probanden war. Hier gab es zwar keine signifikanten Ergebnisse, es zeigte sich aber ein Trend hin zu höherer WMH-Last bei falsch Einsortierten, insbesondere war der Mittelwert der frontalen WMH-Belastung bei fälschlich als konvertierend eingestuften Probanden erhöht. Bei ausgeprägten WMHs ist davon auszugehen, dass nicht nur in der FLAIR-Sequenz, die zur Analyse der WMHBelastung herangezogen worden war, Veränderungen vorhanden sind. Auch die von der SVM benutzte MPRAGE-Sequenz kann in diesen Fällen Veränderungen in Form von Mikroinfarkten aufweisen. Sowohl die gehäuften Vorerkrankungen als auch die hohe WMH-Belastung bei den falsch zugeordneten Probanden stützen die These, dass das verwendete SVM-Verfahren durch zusätzliche Bildveränderungen negativ beeinflusst wird, da sie unter anderem die Vorbereitung der Bilder (z.B. die Segmentation von grauer und weißer Substanz) erschweren. Nicht auszuschließen ist weiterhin, dass das Problem in der Art der Vorverarbeitung der Bilder oder in der SVM selbst lag. Die Auswertung von Bildern mit den hier verwendeten Methoden wurde jedoch bereits in mehreren Studien mit guten Ergebnissen erprobt (z.B. Klöppel et al., 2011), sodass grobe Fehler in den Programmen nicht wahrscheinlich sind. 52 4 Diskussion Eine weitere mögliche Ursache für die geringe Genauigkeit der SVM bei der MCIVorhersage könnten unterschiedliche Charakteristika des Trainings- und Probandenkollektivs sein. Insbesondere die folgenden drei Gesichtspunkte erscheinen dabei interessant: Die Patienten der ADNI-Studie wurden 36 Monate beobachtet (siehe ADNI-Protokoll: Petersen et al., 2008). Der mögliche Konversionszeitraum war damit deutlich länger als in der am ZGGF durchgeführten Studie mit einem Beobachtungszeitraum von durchschnittlich 390 Tagen. Möglich wäre es demnach, dass einige Probanden zwar nicht nach 12 Monaten aber innerhalb der 36 Monate (also der ADNI-Beobachtung entsprechend) konvertierten und von der mit ADNI-Daten trainierten SVM dementsprechend als konvertierend eingestuft wurden. Dies bietet eine Erklärung für die zehn fälschlich als konvertierend eingeschätzten Fälle, allerdings nicht für die sieben Fälle, die fälschlicherweise als eher stabil eingeschätzt wurden. Ein zweiter Unterschied zwischen Trainings- und Probandendaten besteht darin, dass im Rahmen der ADNI-Studie nur Patienten mit amnestischem MCI eingeschlossen wurden (Petersen et al., 2008), während bei der Rekrutierung von Probanden im ZGGF die Art der leichten kognitiven Störung keine Rolle spielte. Sie wurde aber dennoch erfasst: Nur 14% der eingeschlossenen Probanden (n=5) hatten kein amnestisches MCI. Von diesen fünf Probanden mit nicht amnestischem MCI wurden zwei mithilfe der SVM richtig eingeschätzt und drei falsch. Eine Ungleichverteilung hin zu falschen Vorhersagen bei Patienten mit nicht amnestischem MCI ist damit nicht auszumachen. Schließt man die fünf Fälle bei der Berechnung der ROC-Kurve aus, ergibt sich keine wesentliche Veränderung der AUC (0,44 statt 0,43). Damit scheidet dieser Punkt zumindest im hier vorliegenden Fall als Ursache für das schlechte Ergebnis der SVM aus. Ein dritter großer Unterschied zwischen ADNI- und ZGGF-Daten bestand im Ausschluss von Patienten mit neurologischen und psychiatrischen Vorerkrankungen in der ADNI-Studie (Petersen et al., 2008) im Gegensatz zum Einschluss dieser Patienten in der vorliegenden Studie. Wie beschrieben wurden Vorerkrankungen gehäuft bei falscher Verlaufsvorhersage durch die SVM beobachtet. Möglicherweise könnte dies auch dadurch bedingt sein, dass die SVM nicht anhand von Bildern mit zusätzlichen Veränderungen trainiert worden war. 53 4 Diskussion Zusammenfassend kommen folgende Ursachen für das schlechte SVM-Ergebnis in Frage: • Instabilität der SVM gegenüber zusätzlichen MRT-Veränderungen (Vorerkrankungen, WMH) • Unstimmigkeiten zwischen Trainings- und Probandendaten • ungünstig gewähltes Probandenkollektiv (klein, unterschiedliche Beobachtungszeiträume) • Probleme der SVM oder bei der Vorverarbeitung der Bilder Für die Zukunft wäre es interessant nach Ausschluss der genannten möglichen Fehlerquellen an einem größeren Kollektiv zu überprüfen, ob die SVM-Ergebnisse tatsächlich durch zerebrale Vorerkrankungen oder andere zusätzliche MRT-Veränderungen beeinflusst werden. 54 5 Zusammenfassung Die Analyse von kernspintomographischen Aufnahmen (MRT) zur Verlaufsvorhersage bei leichter kognitiver Störung ist vom Expertenwissen der Radiologen abhängig. Da dies außerhalb spezialisierter Einrichtungen meist nicht verfügbar ist, wurde im Rahmen einer klinischen Studie die Frage untersucht, ob automatische diagnostische Verfahren, z.B. eine „support vector machine“ (SVM) die Auswertung von MRT-Bildern und damit die Verlaufsvorhersage bei leichten kognitiven Störungen verbessern können. Im Geriatriezentrum der Uniklinik Freiburg (ZGGF) konnten innerhalb von zwei Jahren 35 MCI-Patienten in die Studie eingeschlossen werden, die zu einer Verlaufsuntersuchung nach durchschnittlich 390 Tagen erschienen. Elf Patienten hatten innerhalb dieses Zeitraumes eine Demenz entwickelt. In 30% der Fälle war der Verlauf von den Ärzten des ZGGF nicht korrekt vorausgesagt worden. Nach Selbsteinschätzung der Ärzte war zudem nur in 20% aller Fälle die diagnostische Sicherheit hoch. Dies kann als Hinweis auf einen Bedarf an zusätzlichen diagnostischen Methoden gesehen werden. Die Analyse der SVM ergab eine Vorhersagequalität von lediglich 51,4% richtigen Zuordnungen mit einer Sensitivität von 36% und einer Spezifität von 58% bezüglich des Erkennens einer Konversion. Die Genauigkeit der SVM lag damit unterhalb der Erwartungen. Dies kann an unterschiedlichen Eigenschaften der verwendeten Trainingsdaten oder an einer nicht optimalen Datenverarbeitung liegen. Möglicherweise problematisch sind außerdem zusätzliche zerebrale Erkrankungen. Solche Fälle wurden in Vorstudien vorab ausgeschlossen. 55 Literaturverzeichnis Abdulkadir, A., Mortamet, B., Vemuri, P., Jack, Clifford R, J., Krueger, G., and Klöppel, S. (2011). Effects of hardware heterogeneity on the performance of SVM alzheimer’s disease classifier. NeuroImage, 58(3):785–792. PMID: 21708272. Admiraal-Behloul, F., van den Heuvel, D. M. J., Olofsen, H., van Osch, M. J. P., van der Grond, J., van Buchem, M. A., and Reiber, J. H. C. (2005). Fully automatic segmentation of white matter hyperintensities in MR images of the elderly. NeuroImage, 28(3):607–617. PMID: 16129626. Aebi, C. (2002). Validierung der neuropsychologischen Testbatterie CERAD-NP Eine Multicenter-Studie. PhD thesis, Universität Basel, Basel. American Psychiatric Association, American Psychiatric Association, and Task Force on DSM-IV (2000). Diagnostic and statistical manual of mental disorders: DSM-IVTR. American Psychiatric Association, Washington, DC. Arimura, H., Yoshiura, T., Kumazawa, S., Tanaka, K., Koga, H., Mihara, F., Honda, H., Sakai, S., Toyofuku, F., and Higashida, Y. (2008). Automated method for identification of patients with alzheimer’s disease based on three-dimensional MR images. Academic radiology, 15(3):274–284. PMID: 18280925. Ashburner, J. and Friston, K. J. (2000). Voxel-based morphometry–the methods. NeuroImage, 11(6 Pt 1):805–821. PMID: 10860804. Bernasconi, N., Duchesne, S., Janke, A., Lerch, J., Collins, D. L., and Bernasconi, A. (2004). Whole-brain voxel-based statistical analysis of gray matter and white matter in temporal lobe epilepsy. NeuroImage, 23(2):717–723. PMID: 15488421. 56 Literaturverzeichnis Bolandzadeh, N., Davis, J. C., Tam, R., Handy, T. C., and Liu-Ambrose, T. (2012). The association between cognitive function and white matter lesion location in older adults: a systematic review. BMC Neurology, 12(1):126. PMID: 23110387. Breteler, M. M., van Swieten, J. C., Bots, M. L., Grobbee, D. E., Claus, J. J., van den Hout, J. H., van Harskamp, F., Tanghe, H. L., de Jong, P. T., and van Gijn, J. (1994). Cerebral white matter lesions, vascular risk factors, and cognitive function in a population-based study: the rotterdam study. Neurology, 44(7):1246–1252. PMID: 8035924. Brett, M., Leff, A. P., Rorden, C., and Ashburner, J. (2001). Spatial normalization of brain images with focal lesions using cost function masking. NeuroImage, 14(2):486– 500. PMID: 11467921. Carmichael, O., Mungas, D., Beckett, L., Harvey, D., Tomaszewski Farias, S., Reed, B., Olichney, J., Miller, J., and Decarli, C. (2012). MRI predictors of cognitive change in a diverse and carefully characterized elderly population. Neurobiology of aging, 33(1):83–95. PMID: 20359776. Chandler, M. J., Lacritz, L. H., Hynan, L. S., Barnard, H. D., Allen, G., Deschner, M., Weiner, M. F., and Cullum, C. M. (2005). A total score for the CERAD neuropsychological battery. Neurology, 65(1):102–106. PMID: 16009893. Chang, C.-C. and Lin, C.-J. (2001). LIBSVM: A Library for Support Vector Machines. Chen, R. and Herskovits, E. H. (2010). Machine-learning techniques for building a diagnostic model for very mild dementia. NeuroImage, 52(1):234–244. PMID: 20382237. Chincarini, A., Bosco, P., Calvini, P., Gemme, G., Esposito, M., Olivieri, C., Rei, L., Squarcia, S., Rodriguez, G., Bellotti, R., Cerello, P., De Mitri, I., Retico, A., and Nobili, F. (2011). Local MRI analysis approach in the diagnosis of early and prodromal alzheimer’s disease. NeuroImage, 58(2):469–480. Chu, C., Ni, Y., Tan, G., Saunders, C. J., and Ashburner, J. (2011). Kernel regression for fMRI pattern prediction. NeuroImage, 56(2):662–673. PMID: 20348000. 57 Literaturverzeichnis Costafreda, S. G., Fu, C. H., Picchioni, M., Toulopoulou, T., McDonald, C., Kravariti, E., Walshe, M., Prata, D., Murray, R. M., and McGuire, P. K. (2011). Pattern of neural responses to verbal fluency shows diagnostic specificity for schizophrenia and bipolar disorder. BMC Psychiatry, 11(1):18. Crinion, J., Ashburner, J., Leff, A., Brett, M., Price, C., and Friston, K. (2007). Spatial normalization of lesioned brains: performance evaluation and impact on fMRI analyses. NeuroImage, 37(3):866–875. PMID: 17616402. Cui, Y., Liu, B., Luo, S., Zhen, X., Fan, M., Liu, T., Zhu, W., Park, M., Jiang, T., Jin, J. S., and Alzheimer’s Disease Neuroimaging Initiative (2011). Identification of conversion from mild cognitive impairment to alzheimer’s disease using multivariate predictors. PloS one, 6(7):e21896. PMID: 21814561. Davatzikos, C., Bhatt, P., Shaw, L. M., Batmanghelich, K. N., and Trojanowski, J. Q. (2011). Prediction of MCI to AD conversion, via MRI, CSF biomarkers, and pattern classification. Neurobiology of aging, 32(12):2322.e19–27. PMID: 20594615. Debette, S. and Markus, H. S. (2010). The clinical importance of white matter hyperintensities on brain magnetic resonance imaging: systematic review and meta-analysis. BMJ, 341(jul26 1):c3666–c3666. Dubois, B. and Albert, M. L. (2004). Amnestic MCI or prodromal alzheimer’s disease? Lancet neurology, 3(4):246–248. PMID: 15039037. Duchesne, S., Rolland, Y., and Verin, M. (2009). Automated computer differential classification in parkinsonian syndromes via pattern analysis on MRI. Academic radiology, 16(1):61–70. PMID: 19064213. Dukart, J., Mueller, K., Horstmann, A., Barthel, H., Müller, H. E., Villringer, A., Sabri, O., and Schroeter, M. L. (2011). Combined evaluation of FDG-PET and MRI improves detection and differentiation of dementia. PloS one, 6(3):e18111. PMID: 21448435. Ecker, C., Marquand, A., Mourao-Miranda, J., Johnston, P., Daly, E. M., Brammer, M. J., Maltezos, S., Murphy, C. M., Robertson, D., Williams, S. C., and Murphy, D. 58 Literaturverzeichnis G. M. (2010). Describing the brain in autism in five dimensions–magnetic resonance imaging-assisted diagnosis of autism spectrum disorder using a multiparameter classification approach. The Journal of neuroscience: the official journal of the Society for Neuroscience, 30(32):10612–10623. PMID: 20702694. Etkin, A. and Wager, T. D. (2007). Functional neuroimaging of anxiety: a meta-analysis of emotional processing in PTSD, social anxiety disorder, and specific phobia. The American journal of psychiatry, 164(10):1476–1488. PMID: 17898336. Fan, Y., Batmanghelich, N., Clark, C. M., and Davatzikos, C. (2008). Spatial patterns of brain atrophy in MCI patients, identified via high-dimensional pattern classification, predict subsequent cognitive decline. NeuroImage, 39(4):1731–1743. Fazekas, F., Chawluk, J., Alavi, A., Hurtig, H., and Zimmerman, R. (1987). MR signal abnormalities at 1.5 t in alzheimer’s dementia and normal aging. American Journal of Roentgenology, 149(2):351–356. Fazekas, F., Kapeller, P., Schmidt, R., Offenbacher, H., Payer, F., and Fazekas, G. (1996). The relation of cerebral magnetic resonance signal hyperintensities to alzheimer’s disease. Journal of the neurological sciences, 142(1-2):121–125. PMID: 8902731. Frederiksen, K., Hasselbalch, S., Hejl, A.-M., Law, I., Hojgaard, L., and Waldemar, G. (2012). Added diagnostic value of 11C-PiB-PET in memory clinic patients with uncertain diagnosis. Dementia and Geriatric Cognitive Disorders EXTRA, 2(1):610– 621. PMID: 23341826 PMCID: PMC3551383. Gold, G. (2009). Defining the neuropathological background of vascular and mixed dementia and comparison with magnetic resonance imaging findings. Frontiers of neurology and neuroscience, 24:86–94. PMID: 19182466. Gootjes, L., Teipel, S. J., Zebuhr, Y., Schwarz, R., Leinsinger, G., Scheltens, P., Müller, H.-J., and Hampel, H. (2004). Regional distribution of white matter hyperintensities in vascular dementia, alzheimer’s disease and healthy aging. Dementia and geriatric cognitive disorders, 18(2):180–188. PMID: 15211074. 59 Literaturverzeichnis Grana, M., Termenon, M., Savio, A., Gonzalez-Pinto, A., Echeveste, J., Perez, J., and Besga, A. (2011). Computer aided diagnosis system for alzheimer disease using brain diffusion tensor imaging features selected by pearson’s correlation. Neuroscience Letters, 502(3):225–229. Graubner, B. (2014). ICD-10-GM 2014 Systematisches Verzeichnis : Internationale statistische Klassifikation der Krankheiten und verwandter Gesundheitsprobleme, 11. Revision-German Modification Version 2014. Deutscher Aerzte-Verlag, Köln, 1. auflage edition. Haller, S., Lovblad, K. O., and Giannakopoulos, P. (2011). Principles of classification analyses in mild cognitive impairment (MCI) and alzheimer disease. Journal of Alzheimer’s disease: JAD, 26 Suppl 3:389–394. PMID: 21971478. Haller, S., Missonnier, P., Herrmann, F. R., Rodriguez, C., Deiber, M.-P., Nguyen, D., Gold, G., Lovblad, K.-O., and Giannakopoulos, P. (2012). Individual classification of mild cognitive impairment subtypes by support vector machine analysis of white matter DTI. American Journal of Neuroradiology, 34(2):283–291. Heidenblut, S. and Zank, S. (2010). [development of a new screening instrument for geriatric depression. the depression in old age scale (DIA-S)]. Zeitschrift für Gerontologie und Geriatrie, 43(3):170–176. PMID: 19760357. Hughes, C. P., Berg, L., Danziger, W. L., Coben, L. A., and Martin, R. L. (1982). A new clinical scale for the staging of dementia. The British journal of psychiatry: the journal of mental science, 140:566–572. PMID: 7104545. Hüll, M. and Förstl, H. (2009). Organische (und symptomatische) psychische störungen. In Berger, M., editor, Psychische Erkrankungen: Klinik und Therapie, pages 264–344. Elsevier GmbH, Urban und Fischer Verlag, München, 3 edition. Inzitari, D., Pracucci, G., Poggesi, A., Carlucci, G., Barkhof, F., Chabriat, H., Erkinjuntti, T., Fazekas, F., Ferro, J. M., Hennerici, M., Langhorne, P., O’Brien, J., Scheltens, P., Visser, M. C., Wahlund, L.-O., Waldemar, G., Wallin, A., Pantoni, L., and LADIS Study Group (2009). Changes in white matter as determinant of global 60 Literaturverzeichnis functional decline in older independent outpatients: three year follow-up of LADIS (leukoaraiosis and disability) study cohort. BMJ (Clinical research ed.), 339:b2477. PMID: 19581317. Jellinger, K. A. (2008). Morphologic diagnosis of "vascular dementia a critical update. Journal of the neurological sciences, 270(1-2):1–12. PMID: 18455191. Jessen, P.-D. D. F. (2010). Methodik der leitlinienentwicklung (a). In Diagnose-und Behandlungsleitlinie Demenz, pages 1–8. Springer. Kaduszkiewicz, H., Wiese, B., and van den Bussche, H. (2008). Self-reported competence, attitude and approach of physicians towards patients with dementia in ambulatory care: results of a postal survey. BMC health services research, 8:54. PMID: 18321394. Kawata, Y., Arimura, H., Yamashita, Y., Magome, T., Ohki, M., Toyofuku, F., Higashida, Y., and Tsuchiya, K. (2010). Computer-aided evaluation method of white matter hyperintensities related to subcortical vascular dementia based on magnetic resonance imaging. Computerized Medical Imaging and Graphics, 34(5):370–376. Klöppel, S., Abdulkadir, A., Hadjidemetriou, S., Issleib, S., Frings, L., Thanh, T. N., Mader, I., Teipel, S. J., Hüll, M., and Ronneberger, O. (2011). A comparison of different automated methods for the detection of white matter lesions in MRI data. NeuroImage, 57(2):416–422. PMID: 21569857. Klöppel, S., Chu, C., Tan, G. C., Draganski, B., Johnson, H., Paulsen, J. S., Kienzle, W., Tabrizi, S. J., Ashburner, J., Frackowiak, R. S. J., and PREDICT-HD Investigators of the Huntington Study Group (2009). Automatic detection of preclinical neurodegeneration: presymptomatic huntington disease. Neurology, 72(5):426–431. PMID: 19188573. Klöppel, S., Stonnington, C. M., Barnes, J., Chen, F., Chu, C., Good, C. D., Mader, I., Mitchell, L. A., Patel, A. C., Roberts, C. C., Fox, N. C., Jack, Clifford R, J., Ashburner, J., and Frackowiak, R. S. J. (2008a). Accuracy of dementia diagnosis: a 61 Literaturverzeichnis direct comparison between radiologists and a computerized method. Brain: a journal of neurology, 131(Pt 11):2969–2974. PMID: 18835868. Klöppel, S., Stonnington, C. M., Chu, C., Draganski, B., Scahill, R. I., Rohrer, J. D., Fox, N. C., Jack, Clifford R, J., Ashburner, J., and Frackowiak, R. S. J. (2008b). Automatic classification of MR scans in alzheimer’s disease. Brain: a journal of neurology, 131(Pt 3):681–689. PMID: 18202106. Knopman, D. S., DeKosky, S. T., Cummings, J. L., Chui, H., Corey-Bloom, J., Relkin, N., Small, G. W., Miller, B., and Stevens, J. C. (2001). Practice parameter: diagnosis of dementia (an evidence-based review). report of the quality standards subcommittee of the american academy of neurology. Neurology, 56(9):1143–1153. PMID: 11342678. Kühner, C., Bürger, C., Keller, F., and Hautzinger, M. (2007). Reliabilität und validität des revidierten beck-depressionsinventars (BDI-II): befunde aus deutschsprachigen stichproben. Der Nervenarzt, 78(6):651–656. Lademann, J. and Kolip, P. (2005). Gesundheit von Frauen und Männern im mittleren Lebensalter. Robert-Koch-Institut. Landau, S., Harvey, D., Madison, C., Reiman, E., Foster, N., Aisen, P., Petersen, R., Shaw, L., Trojanowski, J., Jack, C., Weiner, M., and Jagust, W. (2010). Comparing predictors of conversion and decline in mild cognitive impairment. Neurology, 75(3):230–238. PMID: 20592257 PMCID: PMC2906178. Lao, Z., Shen, D., Liu, D., Jawad, A. F., Melhem, E. R., Launer, L. J., Bryan, R. N., and Davatzikos, C. (2008). Computer-assisted segmentation of white matter lesions in 3D MR images using support vector machine. Academic radiology, 15(3):300–313. PMID: 18280928. Lesher, E. L. and Berryhill, J. S. (1994). Validation of the geriatric depression scale– short form among inpatients. Journal of clinical psychology, 50(2):256–260. PMID: 8014251. 62 Literaturverzeichnis Li, S., Okonkwo, O., Albert, M., and Wang, M.-C. (2013). Variation in variables that predict progression from MCI to AD dementia over duration of follow-up. American journal of Alzheimer’s disease (Columbia, Mo.), 2(1):12–28. PMID: 24524014 PMCID: PMC3919474. Lieb, K., Frauenknecht, S., and Brunnheber, S. (2008). Intensivkurs Psychiatrie und Psychotherapie. Elsevier GmbH, Urban und Gischer Verlag, München, 6. auflage edition. Magnin, B., Mesrob, L., Kinkingnehun, S., Pelegrini-Issac, M., Colliot, O., Sarazin, M., Dubois, B., Lehericy, S., and Benali, H. (2009). Support vector machine-based classification of alzheimer’s disease from whole-brain anatomical MRI. Neuroradiology, 51(2):73–83. PMID: 18846369. Mattsson N, Zetterberg H, Hansson O, and et al (2009). CSf biomarkers and incipient alzheimer disease in patients with mild cognitive impairment. JAMA, 302(4):385– 393. Morris, J. C. (1993). The clinical dementia rating (cdr): Current version and scoring rules. Neurology, 43:2412–2414. Morris, J. C., Heyman, A., Mohs, R. C., Hughes, J. P., van Belle, G., Fillenbaum, G., Mellits, E. D., and Clark, C. (1989). The consortium to establish a registry for alzheimer’s disease (CERAD). part i. clinical and neuropsychological assessment of alzheimer’s disease. Neurology, 39(9):1159–1165. PMID: 2771064. Morris, J. C., Mohs, R. C., Rogers, H., Fillenbaum, G., and Heyman, A. (1988). Consortium to establish a registry for alzheimer’s disease (CERAD) clinical and neuropsychological assessment of alzheimer’s disease. Psychopharmacology bulletin, 24(4):641–652. PMID: 3249766. Neary, D., Snowden, J. S., Gustafson, L., Passant, U., Stuss, D., Black, S. a., Freedman, M., Kertesz, A., Robert, P. H., and Albert, M. (1998). Frontotemporal lobar degeneration a consensus on clinical diagnostic criteria. Neurology, 51(6):1546–1554. 63 Literaturverzeichnis Nouretdinov, I., Costafreda, S. G., Gammerman, A., Chervonenkis, A., Vovk, V., Vapnik, V., and Fu, C. H. (2011). Machine learning classification with confidence: Application of transductive conformal predictors to MRI-based diagnostic and prognostic markers in depression. NeuroImage, 56(2):809–813. Oksala, N. K. J., Oksala, A., Pohjasvaara, T., Vataja, R., Kaste, M., Karhunen, P. J., and Erkinjuntti, T. (2009). Age related white matter changes predict stroke death in long term follow-up. Journal of neurology, neurosurgery, and psychiatry, 80(7):762– 766. PMID: 19237385. Orru, G., Pettersson-Yeo, W., Marquand, A. F., Sartori, G., and Mechelli, A. (2012). Using support vector machine to identify imaging biomarkers of neurological and psychiatric disease: A critical review. Neuroscience & Biobehavioral Reviews, 36(4):1140–1152. Ossenkoppele, R., Prins, N. D., Pijnenburg, Y. A., Lemstra, A. W., van der Flier, W. M., Adriaanse, S. F., Windhorst, A. D., Handels, R. L., Wolfs, C. A., Aalten, P., Verhey, F. R., Verbeek, M. M., van Buchem, M. A., Hoekstra, O. S., Lammertsma, A. A., Scheltens, P., and van Berckel, B. N. (2013). Impact of molecular imaging on the diagnostic process in a memory clinic. Alzheimer’s & Dementia, 9(4):414–421. Petersen, R., Albert, M., DeKosky, S., Salmon, D., and Tarriot, P. (2008). Confidential alzheimer´s disease neuroimaging protocol (adni). Petersen, R. C. (2003). Mild cognitive impairment clinical trials. Nature reviews. Drug discovery, 2(8):646–653. PMID: 12904814. Petersen, R. C., Doody, R., Kurz, A., Mohs, R. C., Morris, J. C., Rabins, P. V., Ritchie, K., Rossor, M., Thal, L., and Winblad, B. (2001). Current concepts in mild cognitive impairment. Archives of neurology, 58(12):1985–1992. PMID: 11735772. Plant, C., Teipel, S. J., Oswald, A., Böhm, C., Meindl, T., Mourao-Miranda, J., Bokde, A. W., Hampel, H., and Ewers, M. (2010). Automated detection of brain atrophy patterns based on MRI for the prediction of alzheimer’s disease. NeuroImage, 50(1):162–174. PMID: 19961938. 64 Literaturverzeichnis Poggesi, A., Pantoni, L., Inzitari, D., Fazekas, F., Ferro, J., O’Brien, J., Hennerici, M., Scheltens, P., and Erkinjuntti, T. (2011). 2001-2011: A decade of the LADIS (leukoaraiosis and DISability) study: What have we learned about white matter changes and small-vessel disease? Cerebrovascular Diseases, 32(6):577–588. Salas-Gonzalez, D., Gorriz, J. M., Ramirez, J., Illan, I. A., Lopez, M., Segovia, F., Chaves, R., Padilla, P., and Puntonet, C. G. (2010). Feature selection using factor analysis for alzheimer’s diagnosis using 18F-FDG PET images. Medical physics, 37(11):6084–6095. PMID: 21158320. Satzger, W., Hampel, H., Padberg, F., Bürger, K., Nolde, T., Ingrassia, G., and Engel, R. R. (2001). Zur praktischen anwendung der CERAD-Testbatterie als neuropsychologisches demenzscreening. Der Nervenarzt, 72(3):196–203. Staekenborg, S. S., Koedam, E. L. G. E., Henneman, W. J. P., Stokman, P., Barkhof, F., Scheltens, P., and Flier, W. M. v. d. (2009). Progression of mild cognitive impairment to dementia contribution of cerebrovascular disease compared with medial temporal lobe atrophy. Stroke, 40(4):1269–1274. PMID: 19228848. Sütterlin, S., Hofmann, I., and Klingholz, R. (2011). Demenz Report. Berlin-Institut, Berlin, 1. auflage edition. van Straaten, E. C. W., Fazekas, F., Rostrup, E., Scheltens, P., Schmidt, R., Pantoni, L., Inzitari, D., Waldemar, G., Erkinjuntti, T., Mäntylä, R., Wahlund, L.-O., Barkhof, F., and LADIS Group (2006). Impact of white matter hyperintensities scoring method on correlations with clinical data: the LADIS study. Stroke; a journal of cerebral circulation, 37(3):836–840. PMID: 16439704. Verdelho, A., Madureira, S., Moleiro, C., Ferro, J. M., Santos, C. O., Erkinjuntti, T., Pantoni, L., Fazekas, F., Visser, M., Waldemar, G., Wallin, A., Hennerici, M., Inzitari, D., and LADIS Study (2010). White matter changes and diabetes predict cognitive decline in the elderly: the LADIS study. Neurology, 75(2):160–167. PMID: 20625169. 65 Literaturverzeichnis Wallesch, C. and Förstl, H. (2004). Epidemiologie und Gesundheitsökonomie. Thieme Verlag, Stuttgart- New York. Yesavage, J. A., Brink, T. L., Rose, T. L., Lum, O., Huang, V., Adey, M., and Leirer, V. O. (1982). Development and validation of a geriatric depression screening scale: a preliminary report. Journal of psychiatric research, 17(1):37–49. PMID: 7183759. Ylikoski, A., Erkinjuntti, T., Raininko, R., Sarna, S., Sulkava, R., and Tilvis, R. (1995). White matter hyperintensities on MRI in the neurologically nondiseased elderly analysis of cohorts of consecutive subjects aged 55 to 85 years living at home. Stroke, 26(7):1171–1177. PMID: 7604409. Zhang, D. and Shen, D. (2012). Predicting future clinical changes of MCI patients using longitudinal and multimodal biomarkers. PLoS ONE, 7(3). PMID: 22457741 PMCID: PMC3310854. Zhang, S., Han, D., Tan, X., Feng, J., Guo, Y., and Ding, Y. (2012). Diagnostic accuracy of 18F-FDG and 11C-PIB-PET for prediction of short-term conversion to alzheimer´s disease in subjects with mild cognitive impairment: PET for prediction. International Journal of Clinical Practice, 66(2):185–198. 66 Danksagungen Ich bedanke mich sehr bei Herrn PD Dr. Stefan Klöppel für die Überlassung des Themas für meine Dissertation und die ausgezeichnete Betreuung. Mein herzlicher Dank richtet sich auch an Frau Professor Dr. Irina Mader für die Übernahme des zweiten Gutachtens. Ich bedanke mich außerdem sehr bei Jessica Peter für die schnelle und kompetente Hilfe bei statistischen und neuropsychologischen Fragen und für viele andere hilfreiche Ratschläge zu meiner Arbeit sowie bei Ahmed Abdulkadir für die Unterstützung in technischen und informatischen Fragen. Ein herzliches Dankeschön gilt auch dem Ärzteteam des ZGGF (Herrn Professor Hüll, Herrn Dr. Heimbach, Frau Dr. Prinz, Frau Dr. Ott und Frau Dr. Terhorst) für das Ausfüllen der Fragebögen und die freundliche Beantwortung meiner Fragen. Für die reibungslose Organisation der Studie danke ich zudem Frau Kotz, Frau Schlegel-Steigert und Frau Natterer. Jörn Ruschenburg danke ich sehr für die Motivation und die Hilfe bei allen computertechnischen Problemen. Mein besonderer Dank gilt außerdem meiner Familie für die ununterbrochene Unterstützung, ohne die diese Arbeit nicht möglich gewesen wäre. 67 Anhang A Votum der Ethikkommission 68 Anhang B Fragebögen 70 Automatische MRT-Diagnostik in der Gedächtnissprechstunde Bildgebung: □ nicht geplant □ geplant Datum: ______________ □ durchgeführt Patientenaufkleber Klinische Diagnose anhand aktueller Befundlage 1. Was ist Ihre Diagnose des Patienten? (Mehrfachnennungen möglich) (nach neuropsychologischer Testung/klinischem Eindruck/mitgebrachter Bildgebung) □ Demenz (bei CDR=1) Hauptdiagnose Differential-Diagn. □ AD □ VD □ AD □ VD □ FTD □ LBD □ FTD □ LBD □ Andere: □ Andere: □ MCI (CDR=0,5) Prognose: □ stabil □ konvertiert innerhalb 1 Jahres □ Sonstiges (Bogen nicht ausfüllen) 2. Was ist bekannt über Patient? (Mehrfachnennung möglich) □ Demenz in der Familie □ v.a. Gedächtnisprobleme in der Testung □ Hohes Lebensalter rasche Verschlechterung von (Mehrfachnennung möglich) □ Gedächtnis □ Hygiene □ Haushalt □ Orientierung □ Freizeitgestaltung 3. Wie sicher ist die aktuelle diagnostische Einschätzung? □ < 70% □ 70 - 90% □ > 90% 4. Welche Bildgebung des Kopfes steht Ihnen momentan zur Verfügung? □ keine □ MRT □ CT □ PET, welches? 5. Wie alt ist die Bildgebung? □ < 2 Jahre □ ≥ 2 Jahre 6. Gibt es Kontraindikationen gegen ein MRT? □ ja □ nein 7. Gibt es weitere ZNS-Erkrankungen? Psychiatrisch oder somatisch? □ somatisch (z.B. Schlaganfall, Tumor, NPH): □ psychiatrisch (z.B. Depression): wenn ja, welche: □ nein 8. Wie kann der Patient zur MRT-Untersuchung gelangen? □ kann alleine kommen □ braucht Begleitung □ braucht professionellen Transport (z.B. Krankenwagen) Klinische Diagnose unter Einbeziehung der neu durchgeführten Bildgebung (MRT, CT, PET) 9. Welche Bildgebung des Kopfes steht Ihnen neu zur Verfügung? (Mehrfachnennungen möglich) □ MRT □ CT □ PIB PET □ FDG PET □ sonstiges: □ Demenz (bei CDR=1) Hauptdiagnose Differential-Diagn. □ AD □ VD □ AD □ VD □ FTD □ LBD □ FTD □ LBD □ Andere □ Andere □ MCI (CDR=0,5) Prognose: □ stabil □ konvertiert innerhalb 1 Jahres □ Sonstiges 11. Wie sicher ist die aktuelle Diagnose mit der neu durchgeführten Bildgebung? □ < 70% □ 70 - 90% □ > 90% Automatische MRT-Diagnostik in der Gedächtnissprechstunde Datum: _________ Klinische Diagnose anhand aktueller Befundlage 1. Was ist Ihre Diagnose des Patienten? Patientenaufkleber □ MCI (CDR = 0,5) Prognose: □ stabil □ konver#ert innerhalb 1 Jahr Wie sicher ist die aktuelle prognostische Einschätzung? □ < 70% □ 70 - 90% □ > 90% □ Demenz (bei CDR ≤ 1) Diagnose: □ AD □ VD □ FTD □ LBD DD (optional): □ AD □ VD □ FTD □ LBD Wie sicher ist die aktuelle prognostische Einschätzung? □ < 70% □ 70 - 90% □ > 90% 2. Wie hoch ist der CDR des Patienten? □ Sons#ge: __________ □ Sons#ge: __________