Ein Informationssystem für epidemiologische Auswertungen im Epidemiologischen Krebsregister Niedersachsen F. Wietek 1 Einleitung Beim Aufbau des Epidemiologischen Krebsregister Niedersachsen (EKN) steht neben der Etablierung der Registerstrukturen und der Integration der Melder die Entwicklung eines epidemiologischen Auswertungssystems zur umfassenden Unterstützung der Arbeit der Registerstelle im Vordergrund. Die Konzeption des Systems CARESS (CARLOS Epidemiologic and Statistical Data Exploration System) basiert auf einem Prototypen, der in den letzten Jahren am Institut OFFIS, dem die Aufgaben der Registerstelle auch dauerhaft übertragen werden sollen, im Rahmen des Projektes CARLOS (Cancer Registry Lower-Saxony) erstellt wurde [4]. Neben dem Bestand an Falldaten und grundlegenden demographischen Daten soll über CARESS vor allem auch auf digitalisierte raumbezogene Hintergrundinformationen und Vergleichsdaten, etwa anderer Register, zugegriffen werden. Im folgenden werden nach einer Skizzierung der Gesamtarchitektur des Systems die verschiedenen, auf differenzierte Aufgabenstellungen und Nutzergruppen ausgelegten Benutzungsschnittstellen vorgestellt sowie kurz auf die zugrundeliegenden Datenbankkonzepte eingegangen. Grundkonzept Auf der Grundlage eines modernen Datenbanksystems, das Strukturen statistischer und geographischer Datenbanken vereint, ergibt sich für CARESS eine mehrschichtige Architektur, die Anforderungen verschiedener Benutzergruppen gerecht wird: • Eine menübasierte graphische Benutzungsoberfläche erlaubt die komfortable Durchführung parametrisierbarer Standardauswertungen vor allem deskriptiver Art (Erstellung von Graphiken, Tabellen, thematischen Karten) etwa im Rahmen eines Inzidenzmonitorings. • In einem graphischen Netzwerkeditor lassen sich Auswertungsverfahren und Datensätze beliebig miteinander kombinieren, im Rahmen einer explorativen Datenanalyse modifizieren und vergleichend gegenüberstellen. • Eine visuelle Anfragesprache bietet die Möglichkeit für Ad-hoc-Anfragen an den Datenbestand. • Zur einfachen Erstellung von Berichten sind über eine Skript-Sprache interessierende Auswertungsmengen definierbar und automatisiert durchführbar. Insgesamt steht eine komfortable Deskription des Datenbestandes im Vordergrund, die die Grundlage für weiterführende, externe analytische Studien liefert. Routine-Auswertungen und Monitoring Zur Durchführung routinemäßiger Auswertungen auf dem Registerdatenbestand besitzt CARESS eine menübasierte Benutzungsoberfläche, die dem Bediener eine Menge vordefinierter Auswertungstechniken anbietet. Als Zielgruppe werden hier etwa medizinische Dokumentationskräfte angesprochen, die vom System bei der Wahl einer interessierenden Studienpopulation über die im Datenschema verfügbaren tumor- 1 Oldenburger Forschungs- und Entwicklungsinstitut für Informatik-Werkzeuge und -Systeme (OFFIS) -1- und patientenbezogenen Attribute sowie bei der Selektion epidemiologischer Maßzahlen und Visualisierungsverfahren angeleitet werden. Für alle Auswertungen spezifiziert der Nutzer die relevanten Ausprägungen der Attribute des Falldatensatzes sowie die jeweils gewünschte Aggregierungsebene. Neben Zeitraum (in verschieden großen Teilintervallen), Alter des Patienten (i.a. in 5-Jahres-Gruppen), Geschlecht und Diagnose (ICD-Codierung nach 3- oder 4-Stellern sowie in speziellen Gruppierungen und analog Histologie nach ICD-O) sowie verschiedenen weiteren medizinischen Parametern, wie Dignität, Grading oder Ausbreitung des Tumors, Anlaß und Sicherung der Diagnose, spielt der Raumbezug eine besondere Rolle. Über eine kartographische Darstellung des Landes Niedersachsen - wahlweise auf Gemeinde-, Kreis- oder Bezirksebene - können Gebiete unter Zugriff auf zusätzliche raumbezogene Hintergrundinformationen (wie Flächennutzungen oder soziodemographische Angaben) selektiert und gruppiert werden. Weiterhin bietet das System über einen Geo-Server Zugriff auf Daten aus dem Amtlich Topographisch-Kartographischen Informationssystem (ATKIS) [1], das in verschiedenen Objektklassen geographische Objekte der Deutschen Grundkarte zur Verfügung stellt. Auf der Grundlage der Parameterselektion können Inzidenz- und Mortalitätsdaten zum betreffenden Patientenbestand mit verschiedenen Techniken in Tabellen, Diagrammen und thematischen Karten visualisiert werden. Alle Verfahren sind parametrisierbar und erlauben insbesondere die interaktive Spezifikation der interessierenden epidemiologischen Maßzahlen, wie Bevölkerungs- und Fallzahlen, rohe, direkt und indirekt (unter Bezug auf verschiedene Standardpopulationen) standardisierte sowie kumulative Raten, relatives Risiko, SMR und CMF (vgl. Abb. 1). Weiterhin sind Maße räumlicher Clusterung (wie z.B. Moran’s I [7]), differenzierte Clusteranalysen (vgl. [2, 6]) und Indizes zur Qualitätssicherung im Register (DCO- oder HV-Anteil, M/IIndex usw.) abrufbar. Schließlich sollen auch Überlebenszeitanalysen unterstützt werden. Explorative Datenanalyse Für über den Routinebetrieb hinausgehende Fragestellungen, deren Untersuchung erfahrenen Epidemiologen bzw. Statistikern vorbehalten sein sollte, bietet CARESS mit einem graphischen Netzwerkeditor ein flexibles Werkzeug zur freien Selektion und Verknüpfung von Datensätzen, Auswertungs- und Visualisierungsmethoden. Durchzuführende Untersuchungen werden als ein Netz von Verfahren zur Anbindung an Datenbanken, Selektion interessierender Teildatensätze, Berechnung statistisch-epidemiologischer Maßzahlen sowie Visualisierung und Speicherung von Auswertungsergebnissen repräsentiert. Diese Herangehensweise erlaubt die Gegenüberstellung von Analyseverfahren bzw. die vergleichende Betrachtung von Datensätzen in einem explorativen Analyseprozeß. Die Grundlage der Arbeiten zu diesem Systemmodul bildet die Epi-Workbench [3]. Der modulare Aufbau des Systems gestattet die flexible Modifikation und Integration weiterer Verfahren, wodurch auch die externe Vergleichbarkeit der Auswertungen gefördert wird, sowie die Anbindung externer Datenquellen (z.B. amtliche Todesursachenstatistik, Vergleichsdaten anderer Register, das Niedersächsische Umweltinformationssystem NUMIS aus dem WWW u.a.) oder Datenanalysesysteme (Spezialverfahren oder Statistikpakete wie SPSS oder S-PLUS) über standardisierte Schnittstellen. Weiterhin soll eine visuelle Anfragesprache, evtl. unter Nutzung von MS-ACCESS, einen bedienungsfreundlichen und umfassenden Zugriff auf die zugrundeliegende Datenbank gestatten. Der Netzeditor ist konzeptionell unabhängig von der konkreten Anwendung im Krebsregister und auch auf anderen Gebieten der statistischen, insb. epidemiologischen Datenanalyse einsetzbar. Die Menüebene von CARESS stützt sich in der Form auf die Netzeditorebene ab, daß die angebotenen Auswertungsverfahren Schablonen von Netzen definieren, die durch die Attribute der gewählten Studienpopulation sowie die jeweili-2- gen Maßzahlen dynamisch parametrisiert und ausgeführt werden (s. Abb. 1). Hierdurch wird ein einheitliches Systemkonzept definiert, das unterschiedlichen Benutzergruppen jeweils verschiedene Sichtweisen auf die Funktionalität des Gesamtsystems bietet. Datenquelle EKN-Falldaten ParameterRestriktion und -Aggregierung Berechnung v. Maßzahlen und Klassifikation Visualisierung der Ergebnisse Abb. 1: Vereinfachte Übersetzung menübasierter Auswertungen in eine Netzwerk-Repräsentation Zur Unterstützung der Berichterstellung sowie des Exports von Daten für Forschungszwecke soll eine Skriptsprache definiert werden, mit der nicht nur Untersuchungsnetze spezifziert, sondern auch Sequenzen unterschiedlicher Parametereinstellungen der Netzknoten programmiert werden können, so daß Standardfolgen von Auswertungen automatisiert durchgeführt und deren Ergebnisse in geeigneter Form abgespeichert werden können. Datenbankunterstützung Für eine effektive Realisierung von CARESS ist die Berücksichtigung von Techniken aus Nicht-StandardDatenbanksystemen erforderlich. Aus dem Registerbestand, einer Menge fallbezogener Mikrodatensätze, sind - auf der Basis einer variablen Klassifikation der Studienpopulation in Teilpopulationen über eine Vielzahl möglicher Parameter - mehrdimensionale, (bis zu mehreren Megabyte) große Makrodatenfelder mit Fallzahlen, Raten oder anderen Maßzahlen zu berechnen und miteinander zu verknüpfen. Häufig durchgeführte Aggregierungen sollten hierbei zwischengespeichert werden, so daß bei Bedarf wieder auf diese zurückge-3- griffen werden kann. Insbesondere das interaktive Vorgehen bei der explorativen Datenanalyse erfordert hier den Einsatz von Konzepten multidimensionaler oder statistischer Datenbanken [5]. Über die Knoten des Netzeditors erfolgt der Zugriff auf die Datenbasis, die Datensätze als „statistische Objekte“ zur Weiterverarbeitung zur Verfügung stellt. Eine mögliche Umsetzung auf der Basis objektrelationaler Technologien wird derzeit evaluiert und diskutiert. Weiterhin macht die Anbindung von ATKIS die Entwicklung eines Geo-Servers zur Verwaltung raumbezogener Daten nötig. Hierbei handelt es sich um Datenbestände von bis zu mehreren Gigabyte, so daß spezielle Speicher- und Zugriffsstrukturen vorzusehen sind. Auch diese Arbeiten sind konzeptionell unabhängig von CARESS - im Rahmen unseres Projektes InterGIS sollen z.B. intelligente Dienste zur Bereitstellung geographischer Daten und deren Auswertung auf Internet-Basis etabliert werden. Ausgehend von einem Dienst zur Akquirierung solcher Daten aus ATKIS sollen Mechanismen verfügbar gemacht werden, die neben den Daten selbst auch GIS-Basisfunktionalität bieten. Stand der Arbeiten In der aktuellen Version von CARESS sind menübasierte Benutzungsoberfläche und graphischer Editor noch nicht in einem Werkzeug zusammengefaßt. Die menübasierte Oberfläche setzt somit direkt über eine Bibliothek statistisch-epidemiologischer Verfahren auf der Datenbank auf. Neben der Konzeption einer Integration der beiden Komponenten konzentrieren sich die Arbeiten derzeit auf • die Evaluation der bestehenden Systeme, u.a. in Kooperation mit dem Hamburger Krebsregister, • die Ergänzung des implementierten Katalogs epidemiologischer Maßzahlen und Verfahren sowie • die detaillierte Konzeption und Realisierung einer Datenbankschnittstelle für Geo- und statistische Daten, die deren effiziente Bereitstellung gewährleistet. Literatur 1. Appelrath, H.-J.; Christoffers, F.; Friebe, J.: ATKIS-basierter Raumbezug im Niedersächsischen Krebsregister. Erscheint in: 10. Symposium "Informatik für den Umweltschutz". 1996. 2. 3. Besag, J.; Newell, J.: The Detection of Clusters in Rare Diseases. J. R. Statist. Soc. 154 (1), 1991, 143-155. Kamp, V.; Appelrath, H.-J.; Ihmels, R.; Risau, J.; Wietek, F.: Die Unterstützung einer modernen Gesundheitsberichterstattung durch ein flexibles Informationssystem. In: Kunath, H.; Lochmann, U.; Straube, R.; Jöckel, K.-H.; Köhler, C. O. (eds.): Medizin und Information. München: MMV Medizin Verlag 1995, 538-540. 4. Kamp, V.; Appelrath, H.-J.; Ihmels, R.; Risau, J.; Wietek, F.: Ein aktives Informationssystem zur Unterstützung epidemiologischer Auswertungen im geplanten Niedersächsischen Krebsregister. In: Kunath, H.; Lochmann, U.; Straube, R.; Jöckel, K.-H.; Köhler, C. O. (eds.): Medizin und Information. München: MMV Medizin Verlag 1995, 335-339. 5. 6. Michalewicz, Z. (ed.): Statistical and Scientific Databases. Chichester, England: Ellis Horwood Limited 1991. Schlattmann, P.: Statistische Methoden zur Darstellung der räumlichen Verteilung von Krankheiten unter besonderer Berücksichtigung von Mischverteilungen. Dissertation, Arbeitsgruppe Epidemiologie des Instituts für Soziale Medizin. Freie Universität Berlin 1993. 7. Walter, S. D.: The Analysis of Regional Patterns in Health Data. Am. J. Epidemiol. 136 (6), 1992, 730-759. -4-