Ein Informationssystem für epidemiologische Auswertungen im

Werbung
Ein Informationssystem für epidemiologische Auswertungen im Epidemiologischen
Krebsregister Niedersachsen
F. Wietek
1
Einleitung
Beim Aufbau des Epidemiologischen Krebsregister Niedersachsen (EKN) steht neben der Etablierung der
Registerstrukturen und der Integration der Melder die Entwicklung eines epidemiologischen Auswertungssystems zur umfassenden Unterstützung der Arbeit der Registerstelle im Vordergrund. Die Konzeption des
Systems CARESS (CARLOS Epidemiologic and Statistical Data Exploration System) basiert auf einem Prototypen, der in den letzten Jahren am Institut OFFIS, dem die Aufgaben der Registerstelle auch dauerhaft
übertragen werden sollen, im Rahmen des Projektes CARLOS (Cancer Registry Lower-Saxony) erstellt wurde [4]. Neben dem Bestand an Falldaten und grundlegenden demographischen Daten soll über CARESS vor
allem auch auf digitalisierte raumbezogene Hintergrundinformationen und Vergleichsdaten, etwa anderer
Register, zugegriffen werden. Im folgenden werden nach einer Skizzierung der Gesamtarchitektur des Systems die verschiedenen, auf differenzierte Aufgabenstellungen und Nutzergruppen ausgelegten Benutzungsschnittstellen vorgestellt sowie kurz auf die zugrundeliegenden Datenbankkonzepte eingegangen.
Grundkonzept
Auf der Grundlage eines modernen Datenbanksystems, das Strukturen statistischer und geographischer
Datenbanken vereint, ergibt sich für CARESS eine mehrschichtige Architektur, die Anforderungen verschiedener Benutzergruppen gerecht wird:
•
Eine menübasierte graphische Benutzungsoberfläche erlaubt die komfortable Durchführung parametrisierbarer Standardauswertungen vor allem deskriptiver Art (Erstellung von Graphiken, Tabellen, thematischen Karten) etwa im Rahmen eines Inzidenzmonitorings.
•
In einem graphischen Netzwerkeditor lassen sich Auswertungsverfahren und Datensätze beliebig miteinander kombinieren, im Rahmen einer explorativen Datenanalyse modifizieren und vergleichend gegenüberstellen.
•
Eine visuelle Anfragesprache bietet die Möglichkeit für Ad-hoc-Anfragen an den Datenbestand.
•
Zur einfachen Erstellung von Berichten sind über eine Skript-Sprache interessierende Auswertungsmengen definierbar und automatisiert durchführbar.
Insgesamt steht eine komfortable Deskription des Datenbestandes im Vordergrund, die die Grundlage für
weiterführende, externe analytische Studien liefert.
Routine-Auswertungen und Monitoring
Zur Durchführung routinemäßiger Auswertungen auf dem Registerdatenbestand besitzt CARESS eine
menübasierte Benutzungsoberfläche, die dem Bediener eine Menge vordefinierter Auswertungstechniken
anbietet. Als Zielgruppe werden hier etwa medizinische Dokumentationskräfte angesprochen, die vom System bei der Wahl einer interessierenden Studienpopulation über die im Datenschema verfügbaren tumor-
1
Oldenburger Forschungs- und Entwicklungsinstitut für Informatik-Werkzeuge und -Systeme (OFFIS)
-1-
und patientenbezogenen Attribute sowie bei der Selektion epidemiologischer Maßzahlen und Visualisierungsverfahren angeleitet werden.
Für alle Auswertungen spezifiziert der Nutzer die relevanten Ausprägungen der Attribute des Falldatensatzes sowie die jeweils gewünschte Aggregierungsebene. Neben Zeitraum (in verschieden großen Teilintervallen), Alter des Patienten (i.a. in 5-Jahres-Gruppen), Geschlecht und Diagnose (ICD-Codierung nach
3- oder 4-Stellern sowie in speziellen Gruppierungen und analog Histologie nach ICD-O) sowie verschiedenen weiteren medizinischen Parametern, wie Dignität, Grading oder Ausbreitung des Tumors, Anlaß und
Sicherung der Diagnose, spielt der Raumbezug eine besondere Rolle. Über eine kartographische Darstellung
des Landes Niedersachsen - wahlweise auf Gemeinde-, Kreis- oder Bezirksebene - können Gebiete unter
Zugriff auf zusätzliche raumbezogene Hintergrundinformationen (wie Flächennutzungen oder soziodemographische Angaben) selektiert und gruppiert werden. Weiterhin bietet das System über einen Geo-Server Zugriff auf Daten aus dem Amtlich Topographisch-Kartographischen Informationssystem (ATKIS) [1], das in
verschiedenen Objektklassen geographische Objekte der Deutschen Grundkarte zur Verfügung stellt.
Auf der Grundlage der Parameterselektion können Inzidenz- und Mortalitätsdaten zum betreffenden Patientenbestand mit verschiedenen Techniken in Tabellen, Diagrammen und thematischen Karten visualisiert
werden. Alle Verfahren sind parametrisierbar und erlauben insbesondere die interaktive Spezifikation der
interessierenden epidemiologischen Maßzahlen, wie Bevölkerungs- und Fallzahlen, rohe, direkt und indirekt
(unter Bezug auf verschiedene Standardpopulationen) standardisierte sowie kumulative Raten, relatives Risiko, SMR und CMF (vgl. Abb. 1). Weiterhin sind Maße räumlicher Clusterung (wie z.B. Moran’s I [7]), differenzierte Clusteranalysen (vgl. [2, 6]) und Indizes zur Qualitätssicherung im Register (DCO- oder HV-Anteil, M/IIndex usw.) abrufbar. Schließlich sollen auch Überlebenszeitanalysen unterstützt werden.
Explorative Datenanalyse
Für über den Routinebetrieb hinausgehende Fragestellungen, deren Untersuchung erfahrenen Epidemiologen bzw. Statistikern vorbehalten sein sollte, bietet CARESS mit einem graphischen Netzwerkeditor ein
flexibles Werkzeug zur freien Selektion und Verknüpfung von Datensätzen, Auswertungs- und Visualisierungsmethoden. Durchzuführende Untersuchungen werden als ein Netz von Verfahren zur Anbindung an
Datenbanken, Selektion interessierender Teildatensätze, Berechnung statistisch-epidemiologischer Maßzahlen sowie Visualisierung und Speicherung von Auswertungsergebnissen repräsentiert. Diese Herangehensweise erlaubt die Gegenüberstellung von Analyseverfahren bzw. die vergleichende Betrachtung von
Datensätzen in einem explorativen Analyseprozeß.
Die Grundlage der Arbeiten zu diesem Systemmodul bildet die Epi-Workbench [3]. Der modulare Aufbau
des Systems gestattet die flexible Modifikation und Integration weiterer Verfahren, wodurch auch die externe
Vergleichbarkeit der Auswertungen gefördert wird, sowie die Anbindung externer Datenquellen (z.B. amtliche
Todesursachenstatistik, Vergleichsdaten anderer Register, das Niedersächsische Umweltinformationssystem
NUMIS aus dem WWW u.a.) oder Datenanalysesysteme (Spezialverfahren oder Statistikpakete wie SPSS
oder S-PLUS) über standardisierte Schnittstellen. Weiterhin soll eine visuelle Anfragesprache, evtl. unter
Nutzung von MS-ACCESS, einen bedienungsfreundlichen und umfassenden Zugriff auf die zugrundeliegende Datenbank gestatten.
Der Netzeditor ist konzeptionell unabhängig von der konkreten Anwendung im Krebsregister und auch auf
anderen Gebieten der statistischen, insb. epidemiologischen Datenanalyse einsetzbar. Die Menüebene von
CARESS stützt sich in der Form auf die Netzeditorebene ab, daß die angebotenen Auswertungsverfahren
Schablonen von Netzen definieren, die durch die Attribute der gewählten Studienpopulation sowie die jeweili-2-
gen Maßzahlen dynamisch parametrisiert und ausgeführt werden (s. Abb. 1). Hierdurch wird ein einheitliches
Systemkonzept definiert, das unterschiedlichen Benutzergruppen jeweils verschiedene Sichtweisen auf die
Funktionalität des Gesamtsystems bietet.
Datenquelle
EKN-Falldaten
ParameterRestriktion und
-Aggregierung
Berechnung v.
Maßzahlen und
Klassifikation
Visualisierung
der Ergebnisse
Abb. 1: Vereinfachte Übersetzung menübasierter Auswertungen in eine Netzwerk-Repräsentation
Zur Unterstützung der Berichterstellung sowie des Exports von Daten für Forschungszwecke soll eine
Skriptsprache definiert werden, mit der nicht nur Untersuchungsnetze spezifziert, sondern auch Sequenzen
unterschiedlicher Parametereinstellungen der Netzknoten programmiert werden können, so daß Standardfolgen von Auswertungen automatisiert durchgeführt und deren Ergebnisse in geeigneter Form abgespeichert werden können.
Datenbankunterstützung
Für eine effektive Realisierung von CARESS ist die Berücksichtigung von Techniken aus Nicht-StandardDatenbanksystemen erforderlich. Aus dem Registerbestand, einer Menge fallbezogener Mikrodatensätze,
sind - auf der Basis einer variablen Klassifikation der Studienpopulation in Teilpopulationen über eine Vielzahl
möglicher Parameter - mehrdimensionale, (bis zu mehreren Megabyte) große Makrodatenfelder mit Fallzahlen, Raten oder anderen Maßzahlen zu berechnen und miteinander zu verknüpfen. Häufig durchgeführte
Aggregierungen sollten hierbei zwischengespeichert werden, so daß bei Bedarf wieder auf diese zurückge-3-
griffen werden kann. Insbesondere das interaktive Vorgehen bei der explorativen Datenanalyse erfordert hier
den Einsatz von Konzepten multidimensionaler oder statistischer Datenbanken [5]. Über die Knoten des Netzeditors erfolgt der Zugriff auf die Datenbasis, die Datensätze als „statistische Objekte“ zur Weiterverarbeitung zur Verfügung stellt. Eine mögliche Umsetzung auf der Basis objektrelationaler Technologien wird derzeit evaluiert und diskutiert.
Weiterhin macht die Anbindung von ATKIS die Entwicklung eines Geo-Servers zur Verwaltung raumbezogener Daten nötig. Hierbei handelt es sich um Datenbestände von bis zu mehreren Gigabyte, so daß spezielle Speicher- und Zugriffsstrukturen vorzusehen sind. Auch diese Arbeiten sind konzeptionell unabhängig
von CARESS - im Rahmen unseres Projektes InterGIS sollen z.B. intelligente Dienste zur Bereitstellung geographischer Daten und deren Auswertung auf Internet-Basis etabliert werden. Ausgehend von einem Dienst
zur Akquirierung solcher Daten aus ATKIS sollen Mechanismen verfügbar gemacht werden, die neben den
Daten selbst auch GIS-Basisfunktionalität bieten.
Stand der Arbeiten
In der aktuellen Version von CARESS sind menübasierte Benutzungsoberfläche und graphischer Editor
noch nicht in einem Werkzeug zusammengefaßt. Die menübasierte Oberfläche setzt somit direkt über eine
Bibliothek statistisch-epidemiologischer Verfahren auf der Datenbank auf. Neben der Konzeption einer Integration der beiden Komponenten konzentrieren sich die Arbeiten derzeit auf
•
die Evaluation der bestehenden Systeme, u.a. in Kooperation mit dem Hamburger Krebsregister,
•
die Ergänzung des implementierten Katalogs epidemiologischer Maßzahlen und Verfahren sowie
•
die detaillierte Konzeption und Realisierung einer Datenbankschnittstelle für Geo- und statistische Daten,
die deren effiziente Bereitstellung gewährleistet.
Literatur
1.
Appelrath, H.-J.; Christoffers, F.; Friebe, J.: ATKIS-basierter Raumbezug im Niedersächsischen Krebsregister.
Erscheint in: 10. Symposium "Informatik für den Umweltschutz". 1996.
2.
3.
Besag, J.; Newell, J.: The Detection of Clusters in Rare Diseases. J. R. Statist. Soc. 154 (1), 1991, 143-155.
Kamp, V.; Appelrath, H.-J.; Ihmels, R.; Risau, J.; Wietek, F.: Die Unterstützung einer modernen Gesundheitsberichterstattung durch ein flexibles Informationssystem. In: Kunath, H.; Lochmann, U.; Straube, R.; Jöckel, K.-H.;
Köhler, C. O. (eds.): Medizin und Information. München: MMV Medizin Verlag 1995, 538-540.
4.
Kamp, V.; Appelrath, H.-J.; Ihmels, R.; Risau, J.; Wietek, F.: Ein aktives Informationssystem zur Unterstützung
epidemiologischer Auswertungen im geplanten Niedersächsischen Krebsregister. In: Kunath, H.; Lochmann, U.;
Straube, R.; Jöckel, K.-H.; Köhler, C. O. (eds.): Medizin und Information. München: MMV Medizin Verlag 1995,
335-339.
5.
6.
Michalewicz, Z. (ed.): Statistical and Scientific Databases. Chichester, England: Ellis Horwood Limited 1991.
Schlattmann, P.: Statistische Methoden zur Darstellung der räumlichen Verteilung von Krankheiten unter besonderer Berücksichtigung von Mischverteilungen. Dissertation, Arbeitsgruppe Epidemiologie des Instituts für Soziale
Medizin. Freie Universität Berlin 1993.
7.
Walter, S. D.: The Analysis of Regional Patterns in Health Data. Am. J. Epidemiol. 136 (6), 1992, 730-759.
-4-
Herunterladen