Die Medizinische Dokumentation als Arbeitsfeld im Epidemiologischen Krebsregister Niedersachsen Marit Beyer, Kirsten Panienski Oldenburger Forschungs- und Entwicklungsinstitut für Informatik-Werkzeuge und –Systeme (OFFIS), Escherweg 2, 26121 Oldenburg {marit.beyer, kirsten.panienski}@offis.uni-oldenburg.de Das Epidemiologische Krebsregister Niedersachsen (EKN) befindet sich seit 1995 in der Erprobungsphase mit dem Ziel, alle bösartigen Neubildungen flächendeckend zu erfassen. Dabei sollen bevölkerungsbezogen Inzidenz, Prävalenz und Mortalität nach zeitlichen und insbesondere räumlichen Trends beobachtet werden. Ein weiterer Schwerpunkt ist die Bereitstellung von Daten für epidemiologische Studien (Fall-Kontroll-Studien, KohortenStudien) sowie die Unterstützung bei der Aufstellung von Hypothesen zur Krebsätiologie. Als Rahmenbedingung für ein Krebsregister fordert das Bundeskrebsregistergesetz (Bundestag 1994), dass jedes Register aus je einer „selbständigen, räumlich, organisatorisch und personell voneinander getrennten“ Vertrauens- und Registerstelle aufgebaut ist (Appelrath, Michaelis et al. 1996). Dabei gehen in die Vertrauensstelle die Krebsmeldungen des Landes ein und werden dort für die Bearbeitung temporär gespeichert. Hier erfolgt die Vorbereitung der eingehenden Meldungen für die Bearbeitung, Verdichtung und Speicherung in der Registerstelle. Unter anderem werden hier die personenidentifizierenden Daten von den epidemiologischen Daten der eingehenden Meldungen getrennt. Die Identitätsdaten werden danach chiffriert bzw. verschlüsselt. Das heißt, es werden anhand dieser Daten einwegverschlüsselte Kontrollnummern (eine Art Pseudonym) gebildet, die es ermöglichen, dass später eingehende Tumormeldungen zur einer bereits registrierten Person, ohne deren Identifikation, erkannt und mit den schon vorhandenen Meldungen zusammengeführt werden können. Außerdem erfolgt in der Vertrauensstelle die Erfassung von Papiermeldungen und die Kodierung medizinischer Angaben z. B. bei Todesbescheinigungen. Die Registerstelle erhält die verschlüsselten Krebsmeldungen von der Vertrauensstelle, verdichtet diese und wertet die Daten aus. In der Vertrauensstelle erfolgt die Chiffrierung der Personendaten, die Kontrollnummerngenerierung und die einheitliche Geocodierung von Adressen je nach Melder. Weiterhin werden in der Vertrauensstelle Todesbescheinigungen erfasst und codiert. Zur Unterstützung der Arbeitsprozesse in der Registerstelle wie beispielsweise die Bearbeitung der eingegangenen Meldungen oder auch deren Auswertung werden die Werkzeuge CARELIS und CARESS eingesetzt. Mit CARELIS, eine wissensbasierte Komponente, können die Meldungen vollständig bearbeitet werden (Abgleich, Korrektur, Aufbereitung der Meldungen usw.). Das epidemiologische Informationssystem CARESS, ermöglicht eine komfortable und umfassende Auswertung der Registerdatenbank. Es unterstützt alle relevanten Aufgabenbereiche wie Ad-Hoc-Anfragen, Inzidenzmonitoring, Berichterstellung oder ähnliches. Nach diesem Kurzüberblick über die Funktionalität des gesamten Krebsregisters und die dabei verwendeten Softwaretools wird nachfolgend das Tätigkeitsfeld der Medizinischen Dokumentarinnen in der Registerstelle beschrieben. Die Arbeitsprozesse in der Registerstelle Im Land Niedersachsen sind jährlich ca. 40.000 Neuerkrankungen (ohne Hauterkrankungen) an Krebs zu erwarten. Daher ist mit etwa 200.000 Meldungen pro Jahr aus Ärzteschaft, Kliniken, Tumorzentren, Nachsorgeleitstellen, Pathologien und Gesundheitsämtern zu rechnen. Dabei handelt es sich um Neuerkrankungsmeldungen, ergänzende Tumormeldungen oder um klinische Abschlüsse bzw. Todesbescheinigungen, die in die Vertrauensstelle eingehen, in der sie zur Weiterbearbeitung für die Registerstelle vorbereitet und anschließend an diese weitergeleitet werden (siehe Einleitung). Das nachfolgende Flussdiagramm zeigt die verschiedenen Arbeitsabläufe in der Registerstelle. Workflow über die Arbeitsprozesse in der Registerstelle Datenimport & Prüfungen Nachbereitung nichtimportierter Meldungen Registerdatenbank Datenabgleich 2. Konvertierung Prüfung der Daten mit CHECK und CONVERT Datenbearbeitung 1. Konvertierung Legende: Vorbereitung Alternativer Prozess Vordefinierter Prozess Zentralspeicher Abb. 1: Datenbearbeitung in der Registerstelle Zunächst werden die eingegangenen Daten in die Registerdatenbank importiert. Damit eine hohe Qualität des auszuwertenden Datenbestandes gewährleistet werden kann, muss eine Überprüfung dieser Neumeldungen früh in den Prozess der Datenbearbeitung eingebunden werden. Deshalb werden die Daten bereits während des Imports auf Validität und Konsistenz geprüft. An dieser Stelle sei darauf hingewiesen, dass eine Überprüfung der Meldungen auf Vollständigkeit bereits in der Vertrauensstelle erfolgt. Das heißt, es wird nach nationalen Richtlinien (Manual des ABKD1) entschieden, wie mit unvollständigen Datensätzen verfahren wird. Demnach wurde festgelegt, dass ein Datensatz nicht gespeichert werden darf, wenn der Nachname, das Geburts-, Diagnose- und Sterbejahr oder das Geschlecht unbekannt sind oder die Diagnose nicht im gültigen Wertebereich von ICD-9 bzw. ICD-10 liegt. Eine Klärung z. 1 ABKD = „Arbeitskreis bevölkerungsbezogener Krebsregister Deutschlands“ B. durch Rückfrage an die Melder ist hier unbedingt erforderlich. Bei anderen fehlenden Werten wie Geburtstag, Postleitzahl oder Vorname ist eine Speicherung des Datensatzes möglich, wenn beispielsweise die Rückfrage erfolglos war. Daher beschränken sich die Prüfungen der Daten auf Vollständigkeit (wie eben beschrieben) in der Registerstelle auf Häufigkeitsauszählungen wie beispielsweise die Anzahl der Meldungen pro Datenlieferung, Anzahl der Tumormeldungen, Verteilung der Meldungen auf die Diagnosemonate usw. Die Validitäts- und Konsistenzkontrollen prüfen die Attributsausprägungen der Daten auf gültige Werte laut Datenschema bzw. deren Kombinationen. Das bedeutet, dass nur Datensätze importiert werden, deren Merkmalsausprägungen auf Werte abgebildet werden können, die im Datenschema als gültig definiert wurden. Werden bei den Importprüfungen Datensätze mit unzulässigen Attributsausprägungen ermittelt, können diese zunächst nicht in die Registerdatenbank importiert werden sondern müssen von der Dokumentarin zuvor korrigiert werden. Hierzu bietet CARELIS ein komfortables Tool. Die Berichtigung der Daten ist nur notwendig, wenn die Validitäts- und Konsistenzprüfungen Fehler oder Unklarheiten entdeckt haben. Daher ist dieser Vorgang im Flussdiagramm als alternativer Prozess dargestellt. Nun folgt der (stochastische) Abgleich der Meldungen. Dabei werden die Neumeldungen untereinander und mit jeder existierenden Registermeldung abgeglichen. Diese Prozedur läuft ohne jegliche Benutzerinteraktion und überprüft auf Basis der Kontrollnummern (standardisierte und anschließend chiffrierte Bestandteile der personenbezogenen Daten), ob ein ermitteltes „Übereinstimmungsmuster“ zweier Datensätze eher für oder gegen deren Zusammengehörigkeit spricht, indem die Muster mit Gewichten bewertet werden. Die Höhe eines vergebenen Gewichts richtet sich nach dem Grad der Übereinstimmung der Kontrollnummern. Pro Übereinstimmung erhöht sich das Gewicht. So gleicht das RecordLinkage-System systematisch anhand der Pseudoausprägungen Meldung für Meldung ab. Für die Entscheidung der Zusammengehörigkeit zweier Datensätze sind empirische Grenzwerte bestimmt worden. Unterhalb des unteren Grenzwertes wird davon ausgegangen, dass die Datensätze nicht zusammen gehören („Cut-of-point“). Liegt das Gewicht oberhalb des oberen Grenzwertes, werden beide Meldungen als zu einer Person zugehörig behandelt. In diesem Fall werden die Patientendaten (nicht die Tumordaten) automatisch vereinigt (siehe Abbildung 2). Liegt das Gewicht zwischen der unteren und oberen Grenze, dann erfolgt zwar eine Zuordnung der Meldungen aber keine automatische Vereinigung der Personendaten. Diese Datensätze müssen interaktiv von der Dokumentarin nachbereitet werden. Sie entscheidet dann die Zusammengehörigkeit anhand des ermittelten Gewichts und der Tumordaten. Das Ergebnis des Abgleichs präsentiert CARELIS in Form von transitiven Hüllen. Gab es zu einem Datensatz keine weitere (Patienten-)Zuordnung, kein Gewicht lag über dem unteren Grenzwert, wird dieser allein in einer Hülle abgelegt. Hat das Record-Linkage-System anhand der Pseudoausprägungen entschieden, dass eine Zusammengehörigkeit der Meldungen besteht bzw. bestehen könnte (=Match), werden diese Meldungen zusammen in einer Hülle abgelegt. Demnach werden für alle eingegangen Neumeldungen je nach Abgleichergebnis Hüllen erzeugt (siehe Abbildung 2). Bestof Patient verschlüsselte Personenangaben Einzelmeldungen Abb. 2: Ausschnitt CARELIS Die obige Abbildung soll das Ergebnis des Abgleichs verdeutlichen. Das Beispiel zeigt die Zuordnung von sieben Meldungen, sowohl aus der Nachsorgeleitstelle wie auch vom Pathologen stammend. Die gebildeten Pseudoausprägungen für die Personendaten sind identisch. Das heißt, hier wurde während des Abgleichs, aufgrund der Übereinstimmungen (im Namen, Geschlecht, Wohnort etc.) ein Gewicht ermittelt, welches über dem oberen Grenzwert liegt. Daraus folgt, dass diese Patientensätze automatisch vereinigt werden. Für die Auswertungen wird ein bester bzw. informativster Patientendatensatz („Patienten-Best-of“) bestehend aus Patient_id, Staatsangehörigkeit, Geschlecht, Geburtsmonat, Geburtsjahr usw. gebildet. Die Abbildung zeigt, dass die genaueren Informationen beispielsweise zum Geburtsmonat (Mon) oder zur Mehrlingseigenschaft (Me) das Best-of ergänzen. An den Abgleich schließen sich weitere Prüfungen der Daten auf Konsistenz an. Mit Hilfe des Softwareprogramms CHECK (Parkin, Chen et al. 1994) des IARC2 werden unter anderem die Attributkombinationen von Lokalisation und Histologie/Dignität geprüft. Außerdem ermöglicht CHECK die Kontrolle der Daten (Geburtsdatum und Inzidenzdatum) auf richtige Datumsformate, indem u. a. geprüft wird, ob das Geburtsdatum nicht nach dem Diagnoseoder auch Inzidenzdatum liegt. Das Programm ist so angelegt, dass inkonsistente Angaben oder unübliche Kombinationen zurückgewiesen bzw. abgelehnt werden. Die so selektierten fehlerhaften Datensätze werden von der medizinischen Dokumentarin korrigiert. Die nachfolgende Konvertierung (Umwandlung, Umformung etc.) der Daten wie das Flussdiagramm in Abb. 1 zeigt, schließt sich nicht in jedem Fall an, sondern nur, wenn es sich um die Bearbeitung von Pathologendaten handelt. 2 IARC = International Agency for Research on Cancer Das Krebsregister Niedersachsen traf mit den Pathologischen Instituten die Vereinbarung, dass nur Lokalisation und Histologie kodiert geliefert werden. Für die Auswertung der Daten ist jedoch die Diagnose oft maßgeblich. Daraus folgt, dass diese noch aus den Lokalisationsund Histologieangaben konvertiert werden muss. Für diesen Arbeitsprozess wurde von des IARC das Konvertierungsprogramm „CONVERT“ (Ferlay 1994) zur Verfügung gestellt, welches die Erzeugung des Diagnosecodes nach ICD-10 (oder nach ICD-9) ermöglicht. Sind die bisher beschriebenen Arbeitsprozesse erfolgt, kann die automatische oder interaktive Aufbereitung der Daten beginnen. Bei der automatischen Aufbereitung werden alle Hüllen nacheinander durchlaufen. Handelt es sich um Hüllen, wo zwei oder mehr Datensätze einander zugeordnet (siehe Abb. 2) und zu einem Patientendatensatz verdichtet wurden, prüft ein Regelwerk, ob auch die Tumormeldungen einen Fall beschreiben und zu einem Tumorgeschehen zusammengefasst werden können. Die medizinische Entscheidungsfindung trifft das Regelwerk anhand der Attributausprägungen der Tumoren wie Diagnose, Lokalisation, Histologie usw. Es werden Tumormeldungen automatisch vereinigt, wenn deren Lokalisationen identisch nach der Definition des IARC-Reports No. 19 (Parkin, Chen et al. 1994) sind und die Histologien sich in der gleichen Histologie-Gruppe nach Berg befinden (siehe Beispielregel). Für die zugeordneten Tumorsätze wird ähnlich dem Patienten-Best-of ein bester und informativster Tumordatensatz gebildet. Dafür wird entsprechend dem Regelwerk pro Attribut nur der valideste und spezifischste Wert in das Tumoren-Best-of übernommen. Das folgende Beispiel dient zur Veranschaulichung des Regelwerks. LokalisationenIdentischHistologienInGleicherBergGruppe Bedingung: (∃ tum1 ∈ Tumpat : (lok1 ∈ Lokpat ∧ hist1 ∈ Histpat)) ∧ (∃ tum2 ∈ Tumpat : (tum2 tum1 ∧ hist2 ∈ Histpat ∧ lok2 ∈ Lokpat ∧ LokGruppe(lok1) = LokGruppe(lok2) ∧ HistoGruppe(hist1) = HistoGruppe(hist2))) Aktion: Vereinige Tumoren (tum1, tum2) Zeichenerklärung: ∃: Existenzquantor („Es gibt ein...“); ∈: „...ist Element von...“; ∧: „...und...“; : „...impliziert...“ LokGruppe(): Funktion, die die Nummer der Lokalisationsgruppe ermittelt HistoGruppe(): Funktion, die die Histologiegruppe nach Berg ermittelt Abb. 3: Beispielregel für die automatische Tumorvereinigung Erläuterung der Regel: Es gibt einen Tumor 1(tum1) für den gilt: dieser ist Element der Tumorsätze eines Patienten (Tumpat). die diesem Tumor zugewiesene Lokalisation (lok1) ist Element der Menge der zum Tumor vorkommenden (dreistelligen) Lokalisationen (Lokpat) und die ihm zugewiesene Histologie (hist1) ist Element der zum Tumor vorkommenden Histologien (Histpat). Und es gibt einen Tumor 2 (tum2): für den selbiges wie für Tumor 1 gilt. Und sind die Lokalisationen der beiden Tumoren in der gleichen Lokalisationsgruppe(LokGruppe(lok1) = Lok-Gruppe(lok2)) und die Histologien sind in der gleichen Histologiegruppe nach Berg, dann erfolgt die Tumorvereinigung. Die Regeln sind formal in Prädikatenlogik definiert, denn diese leicht beherrschbare und eindeutige „Sprache“ ermöglicht eine relativ einfache Umsetzung der Regeln in den Programmcode. Ähnlich der Beispielregel für die automatische Tumorvereinigung existieren Regeln zur Best-of-Bildung der Patientendaten, zur Kennzeichnung vorläufiger Meldungen3 und für die Best-of Tumorattribute. Die automatische Aufbereitung der Hüllen ist erfolgreich, wenn die Regeln zum Tumor-Bestof keine Unklarheiten bzw. keine Inkonsistenzen in den Merkmalsausprägungen entdecken, also alle Werte gültig sind. Die Daten werden automatisch in die Registerdatenbank übernommen. Ermitteln die Best-of-Regeln eine Unklarheit, beispielsweise wenn einander zugeordnete Tumoren Widersprüche in ihren Merkmalsausprägungen (gleiche Lokalisation vs. ungleiche Histologie etc.) aufweisen, kann nicht mehr automatisch aufbereitet werden. Das Regelwerk erzeugt dann eine Unklarheitsmeldung und derartige Meldungen müssen durch die Dokumentarin interaktiv aufbereitet werden. Handelt es sich von vornherein um problematische Meldungen wie Systemerkrankungen und Tumoren der Dignitäten 1, 6 und 9, erfolgt immer eine interaktive Aufbereitung. Die nächste Abbildung zeigt die interaktive Oberfläche von CARELIS vor und nach der Vereinigung der Tumormeldungen. Zu bearbeittende Hülle Registermeldung Neumeldung gelieferte Werte Best-ofWerte Klartexte zu den Meldungen Vereinigte und zu einem Best-ofDatensatz verdichtete Meldungen Best-of Abb. 4: Interaktive Oberfläche CARELIS 3 vorläufige Meldungen = Meldungen mit unbekanntem Wohnort oder Wohnort Nicht-Niedersachsen Dabei ist ein Match zwischen einer Registermeldung, untere Meldung mit Diagnosedatum 06/98, und einer Neumeldung, darüberliegend (im großen Bild) zu sehen. Die Meldungen werden aufgrund ihrer Stati, Register- oder Neumeldung, unterschiedlich eingefärbt (im Bild nicht sichtbar). Die Aufgabe der Dokumentarin besteht nun darin, die beiden Meldungen hinsichtlich ihrer Übereinstimmung in Diagnose, Histologie, Lokalisation etc. zu überprüfen und zu entscheiden, ob und ggf. wie die Meldungen zu einem „Best-of-Tumor“ zusammengefasst werden können. Bei der Bearbeitung kann – sofern vorhanden – zur Entscheidungsfindung der mitgelieferte Diagnosetext benutzt werden (siehe kleine Fenster in Abb.4). Werden die Informationen aus den verschiedenen Tumormeldungen, wie abgebildet, zu einem Tumor-Best-of verdichtet, erfolgt die Auswahl der Attributausprägungen überwiegend automatisch, anhand des schon beschriebenen Regelwerkes für das Tumoren-Best-of. Die Dokumentarin muss nach der Vereinigung nur die Merkmalsausprägungen ergänzen, die aufgrund von Unklarheiten bzw. Unstimmigkeiten keinen Eintrag (leeres Feld) erhalten haben. Sind alle Unklarheiten korrigiert und wurden alle Attribute mit Werten belegt, werden die Plausibilitätsprüfungen des Datenimports wiederholt und erst anschließend werden die Daten in die Registerdatenbank übernommen. Die in Abbildung 1 nochmals dargestellte Konvertierung der Daten ist notwendig, weil die Melder zum Teil unterschiedliche Klassifikationssysteme verschiedener Versionen (ICD-9, ICD-10, ICD-O-1, ICD-O-2 etc.) zur Kodierung der Daten benutzen. Derzeit liefern die Nachsorgeleitstellen die Meldungen nach der ICD-9. Die Pathologen kodieren beispielsweise die Histologie nach dem THS (Tumorhistologieschlüssel) und die Lokalisation nach der ICDO-1 oder ICD-O-2. Das Krebsregister Niedersachsen verwendet im Tumor-Best-of den Diagnoseschlüssel ICD-10 und die ICD-O-2 für Histologie und Lokalisation um langfristig auf einen einheitlichen Datenbestand zurückgreifen zu können. Zum Vergleich mit anderen nationalen und internationalen Registern kann der Datenbestand bei Bedarf jederzeit wieder zurück in die ICD-9 konvertiert werden. Für diesen Arbeitsprozess steht ebenfalls das IARC-Programm CONVERT zur Verfügung, mit dessen Hilfe die Konvertierung der verschiedenen Daten nach einer einheitlichen Form möglich ist. Die „Umwandlung“ der Daten nach ICD-9 wird bei Bedarf für Auswertungen vorgenommen. Eine Konvertierung der Daten nach ICD-10 erfolgt durch die Dokumentarin innerhalb der interaktiven Aufbereitung. Aber auch hier ist es möglich erst nach vollständiger Aufbereitung und Speicherung aller Neumeldungen die Konvertierung anzuschließen. Nach Ablauf der beschriebenen Arbeitsprozesse stehen für die epidemiologische Auswertung weitestgehend vollständige und widerspruchsfreie Daten zur Verfügung. Die Medizinische Dokumentation unterstützt die Verbesserung der Datenqualität indem sie die eingehenden Daten prüft, korrigiert oder vervollständigt. Weiterhin werden aufgrund der Erfahrungen bei der Meldungsbearbeitung Dokumentationsstandards definiert, die eine einheitliche Datenbearbeitung gewährleisten. Bei systematischen Fehlkodierungen muss die Kommunikation mit dem Melder folgen und zu Konsequenzen führen. Beispielsweise sollten dem Melder Kodieranleitungen zur Verfügung gestellt werden. In einem Krebsregister gibt die Medizin inhaltliche Vorgaben für die Entwicklung der Software. Daher ist ein ständiger Austausch zwischen Medizinern und Informatikern notwendig. An diesem konzeptionellen Arbeitsprozess sind auch die Dokumentarinnen beteiligt. Insbesondere die Spezifikationen für die Umsetzung der zu erfassenden Attribute und deren Ausprägungen wurden maßgeblich durch die Medizinischen Dokumentarinnen definiert. Damit stellen sie aufgrund ihrer besonderen Qualifikation ein geeignetes Bindeglied zwischen beiden Wissenschaftszweigen dar und verbessern somit den „Kommunikationsprozess“. So konnte in Zusammenarbeit mit den Informatikern ein Softwaretool entwickelt werden, das eine effektive und ergonomische Bearbeitung der Tumordaten ermöglicht (Hinrichs, Panienski 1999). References: Appelrath, H.-J., J. Friebe, et al. (1996). CARLOS (Cancer Registry Lower-Saxony): Tätigkeitsbericht für den Zeitraum 1.1.-31.12.1996. Oldenburg, OFFIS. Appelrath, H.-J., J. Michaelis, et al. (1996). “Empfehlung an die Bundesländer zur technischen Umsetzung der Verfahrensweisen gemäß Gesetz über Krebsregister (KRG).” Informatik, Biometrie und Epidemiologie in Medizin und Biologie 27(2). Bundestag, D. (1994). “Gesetz Bundesgesetzblatt I(79): 3351-3355. über Krebsregister (Krebsregistergesetz KRG).” Ferlay, J. (1994). ICD Conversion Programs for Cancer. Lyon, IARC (International Agency for Research on Cancer), World Health Organization (WHO). Hinrichs, H., K. Panienski (1999). Experiences with Knowledge-Based Data Cleansing at the Epidemiological Cancer Registry of Lower-Saxony. XPS-99: Knowledge-Based Systems. F. Puppe. Berlin, Springer. 1570: 218-225. Parkin, D. M., V. W. Chen, et al. (1994). Comparability and Quality Control in Cancer Registration. Lyon, IARC (International Agency for Research on Cancer): 118.