1 CARESS Workshop Analytische Informationssysteme für epidemiologische Krebsregister 2 Agenda CARESS - CARLOS Epidemiological and Statistical Data Analysis Engine CARESS Überblick (30 Minuten) Architektur, Historie, Konzepte CARESS Demo - Die alte Version (15 Minuten) Beispiele für die Definition von Untersuchungsregionen, Räumliche Auswertungen Beispiele für die Gesundheitsberichterstattung CARESS Demo - Die neuen Version (20 Minuten) Ad-Hoc-Datenanalysen Überlebenszeitanalyse als Beispiel für R Anbindung CARESS Neue Version - Stand und Planung (5 Minuten) Pause (15 Minuten) Forschung & Entwicklung und Raum für Diskussionen (60 Minuten) Aktuelle CARESS Entwicklungen: Statistik, Facettenklassifikation, Verzerrte Karten, … Aktuelle CARESS Forschungsthemen: AutoMais, Visuelle Analyse Yvette Teiken, Martin Rohde 25.11.2010 3 CARESS Ziele Analyseszenarien in Epidemiologischen Krebsregistern Ziel: Umfangreiche Analyseunterstützung Ad-Hoc-Anfragen Wissen Analytische Anwendungen und Verfahren Explorativen Datenanalysen Qualitätssicherung Organisatorisches und Rechtliches Information Monitoring Infrastruktur für Daten und Informationslogistik Gesundheitsberichterstattung Bsp. Entdeckung von Einflussfaktoren auf Erkrankungen Daten Ziel: Analytisches Informationssystem für Krebsepidemiologie Integrierter Datenbestände Flexible Aggregation der Daten Analyse mit Hilfe komplexer statistischer Verfahren Analyse unter Berücksichtigung des Raumbezugs Yvette Teiken, Martin Rohde 25.11.2010 4 CARESS Lösungsansatz Datenanalysetechniken Integration verschiedener Daten Datentransformation, Datenqualitätsmanagement Fälle, Melder, Soziodemografische und Umweltdaten Integration verschiedener Datenanalysetechniken OLAP (Online Analytical Processing) Fast Analysis of Shared Multidimensional Information Statistik Epidemiologische & räumlich-statistische Verfahren Explorative Datenanalyse Annahmen (Hypothesen) bildend, Visualisierungen Integration Geografische Daten Konzepte für die Berichterstellung Konfiguration von Berichten Cross Media Publishing Yvette Teiken, Martin Rohde 25.11.2010 5 CARESS Multidimensionales Datenmodell Dimensionen Patientenanzahl Fakten/Kennzahlen Data Cube … <60 40-59 124 Gesamt 60-69 60+ Alter 70+ ... Nds. Flächenstaat HH 1998 Gesamt Stadtstaat Gesamt Zeit HB 8/98 9/98 Dimensionen (Klassifikationshierarchien) Gebiet Yvette Teiken, Martin Rohde 25.11.2010 6 CARESS Historie Von 1994 bis Heute Historie Ab 1993 CARESS (1. Generation) Eigener Geoserver InterGIS UNIX, EKN-Schema, feste Analyseschemata Ab 1999 CARESS (2. Generation) Multidimensionales Datenmodell MADEIRA NT/Windows 2000 Portierung Ab 2003 CARESS (3. Generation) Neue „Windows-Oberfläche“ Excel-Anbindung, flexible konfigurierbare Auswertungen Datenmodell für Statistik auf Data Cubes Ab 2008 Neuentwicklung CARESS (4. Generation) Standardkomponenten, Standardschnittstellen Serviceorientierte Architektur Yvette Teiken, Martin Rohde 25.11.2010 7 CARESS Historie Aktueller Stand Einer der zentralen Gründe für die Neuentwicklung 1.41 2.12 Bessere Integration von statistischen Verfahren 0.71 2.83 Unabhängige Entwicklung der statistischen Verfahren 0 1 1.5 2 2.5 3 3.5 3.53 vom analytischen Informationssystem 5.65 4.24 70000 4.95 20000 10000 0 SDR, SMR/SIR, Kumulative Rate, rohes relatives Risiko, 0 -1 R-Package „Cancer“ Krebsepidemiologie (Eigenentwicklung) 1 2 30000 3 40000 50000 60000 Verwendung vorhandener R-Packages, z.B. periodR 0 10 20 30 40 50 0 1 2 3 4 CMF/CIF, Erwartete Fallzahlen bzw. Raten Indirekt standardisierte Raten,… Simulation der Konstanzmethode (nach Schüler und Bopp) Yvette Teiken, Martin Rohde 25.11.2010 8 CARESS Analyseverfahren Beispiele Verwendung der Methoden der Periodenanalyse basierend auf dem Ansatz zur Berechnung der Sterbetafeln Kohortenbasierte Analyse möglich Ederer II- oder Hakulinen-Methode für relatives Überleben absolute und relative Überlebensraten (beides bedingt oder 80 60 40 R Package „SurvivalAnalysis“ (auf Basis des Packages „periodR“) 20 Moran‘s I und Geary‘s c cumulative relative relative follow-up-year specific 0 R Package „ClusterGeo“ (auf Basis des Packages „spdep“) cumulative relative survival at end of follow-up year 100 Survival estimation 0 1 cumulative absolute absolute follow-up-year specific 2 3 4 5 year of follow-up kumulativ) und Standardfehler Graphische und tabellarische Darstellung der Ergebnisse R Package „Diagram“ für spezielle Diagramme (Eigenentwicklung) Z.B. Zeitverlauf von Infektionskrankheiten Yvette Teiken, Martin Rohde 25.11.2010 9 Technische Realisierung Aktuelle Entwicklungsschwerpunkte Data Warehouse: Einheitliche, auswertungsorientierte, qualitätsgesicherte und historisierte Datenbank als Datenbasis („Single Point of Truth“) On-line Analytical Processing (OLAP): Performance durch Anbindung eines OLAP-Servers über standardisierte XML/A- bzw. MDX-Schnittstelle Statistik: Umfassende und erweiterbare Statistik-Funktionalität durch Anbindung der Statistik- Software R Project Raumbezug: Anbindung eines geografischen Informationssystems zur engen Verknüpfung statistischer und raumbezogener Daten Usability: Windows Presentation Foundation (WPF) zur Realisierung von Benutzungsoberflächen Integrationsfähigkeit: Schnittstellen zu MS-Office-Produkten und Web-Service- Programmierschnittstellen Internetfähigkeit: Zugriff über Internet durch Smart-Client-Technologie Mandantenfähigkeit: Nutzung einer Software-Instanz durch mehrere Mandanten durch flexibles, konfigurierbares Datenmodell Yvette Teiken, Martin Rohde 25.11.2010 10 CARESS Technologien Standardschnittstellen und -anfragesprachen Unterstützung von Standardschnittstellen Multidimensional Expressions (MDX) XML for Analysis (XMLA) Open GIS Simple Feature Access (OGC Standards) R als Lingua Franca der Statistik Systeme, welche die Schnittstellen unterstützen: PostgreSQL, MS SQL Server als RDBMS Pentaho Mondrian oder SQL Server Analysis Services als OLAP-Server PostgreSQL (später SQL Server 8) als Geodatenbank R Project als Statistiksoftware Yvette Teiken, Martin Rohde 25.11.2010 11 CARESS Architektur der neuen Version CARESS Client .NET 3.5 WPF Statistik CARESS-Services R Project .NET 3.5 WCF Geodatenbank PostGIS OLAP-Server Pentaho/Mondrian MS SQL-Server Server Data Warehouse inkl. Star-/Snowflake Yvette Teiken, Martin Rohde 25.11.2010 12 MUSTANG/CARESS Innovationsmodell Projekte und Plattformentwicklung CARESS (Krebsregister) INITIAL (LIGA) Gesundheit NRW (LIGA) MUSTANG - Agile Softwareentwicklung - Testgetriebene Entwicklung - Continuous Integration - Modellgetriebene Entwicklung - Interne .NET-Schulungen InfoAnalytics AG (Spin-off) Anwendungsorientierte Forschung Diss.-Thema „Analytisches PM“ DA „Überwachung Annotierter Strategy Maps“ Diss.-Thema „Modellgetriebene Bereitstellung“ DA „Metamodell für Reporting“ Diss.-Thema „Software Produktlinien“ IP „Karten mit Virtual Earth“ Diss.-Thema „Intelligente Datenanalyse“ OFFIS e.V., Bereich „Gesundheit“, Themenfeld „Datenmanagement und -analyse“ Yvette Teiken, Martin Rohde PG „Visual Analytics“ 13 CARESS Raumbezug bei der Datenanalyse Drei Ebenen Auswahl zu betrachtender Regionen Dynamische Klassifizierung (Ad-Hoc-Kategorien) Auswahl von Regionen anhand geografischer Merkmale Z.B. Abstand von Emissionsquellen Auswahl von Regionen in einer Karte Prädikatbasierte Auswahl (Versorgungsstrukturen, …) Statistische Verfahren Clusterindizes – Nachbarschaft für Berechnung Räumliche Regression Auswahl von Regionen und Ergebnisdarstellung Interpolationsverfahren Ergebnisdarstellung Thematisch eingefärbte Karten Punktdarstellungen Diagramme in Karten Yvette Teiken, Martin Rohde 25.11.2010 14 CARESS Berichtswesen Zusammenfassung von Ergebnissen zu Berichtsmappen Konfigurationsmöglichkeiten Visualisierungen (und Layouteinstellungen) Auswertungsreihen für gleichartige Ergebnisse Zusatzinformationen für die Berichtsgenerierung Cross Media Publishing MUSTANG XML-Export Formatierung der Berichte (XSLT) für Veröffentlichungen im Internet (HTML) für Veröffentlichungen als PDF-Dateien für ein Portal (mit Ad-Hoc-Anfragen) Management-Cockpits / Management-Mappen Yvette Teiken, Martin Rohde 25.11.2010 15 CARESS und SurvA DEMO 25.11.2010 16 Zeitplan Neuentwicklung 6.12.2010: Testinstallation einer „kleinen“ Version im EKN Diagramm, Karte, evtl. Tabelle Teilautomatisierte Übernahme der Altdaten Q1 2011: Installation in den (anderen) epidemiologischen Krebsregstern Erweiterung um Tabellen-Komponenten Q2 2011: Speicherung Persistierung von Analyseergebnissen Q3 2011: Berichtswesen Q4 2011: Räumlich-statistische Analysen Yvette Teiken, Martin Rohde 25.11.2010 17 Zugang zur Demo Version Kleine Demo zum Ausprobieren Diagramm Karte Überlebenszeit Analyse Zugang mittels Remotedesktop Fünf Zugänge Mehrfachverteilung Zwangsabmeldung Begrenzter Zeitraum Verfügbarkeit: Ende nächster Woche Bei Interesse in Liste eintragen Benachrichtigung per Mail Yvette Teiken, Martin Rohde 25.11.2010 18 Aktuelle Weiterentwicklungen Versorgungsforschung, Statistische Verfahren Themenschwerpunkt „ Versorgungsforschung“ im OFFIS-Bereich Gesundheit Professur für Angewandte Statistik (Prof. Dr. Kneib) Räumlich/kartographische Verfahren: räumliche (nicht kategorielle) Glättungsverfahren Geglättete kleinräumige Karten Einbindung von Interpolationsverfahren (z.B. Kriging) Verbindung mit den Krebsdaten Einbindung räumlicher Regressionsverfahren Beantragte Projekte Vorlaufforschung: „Methoden für die Versorgungsplanung“ Abschätzung der Fallzahl kommende Jahre, … Weitere Drittmittelprojekte (EFRE, EU, BMBF) beantragt Yvette Teiken, Martin Rohde 25.11.2010 19 Aktuelle Weiterentwicklungen Melder-/Patienten-/Umweltbezogene Daten Punktdaten Kennzahlen Punktgröße Farbe Zusatzinformationen Statistik Einzugsgebiete Interpolation Yvette Teiken, Martin Rohde 25.11.2010 20 Aktuelle Weiterentwicklungen Facettenklassifikation Facettenklassifikation Einfacher Zugang zu Kennzahl (im EKN etwa 300 Kennzahlen) Klassifizierung von Kennzahlen über verschiedene Facetten Facetten: Dimensionskategorien (Granularitästebenen und einzelne Ausprägungen) Facetten: Z.B. „Moratlität“, „Inzidenz“, „Allgemein“ und weitere Beschreibungen (z.B. „Qualitätskennzahl“, „Risikokennzahl“, …) Yvette Teiken, Martin Rohde 25.11.2010 21 Aktuelle Weiterentwicklungen Visual Analytics Kartenanamorphosen Algorithmus, der die Länder im Verhältnis zum Kennzahlwert vergrößert oder verkleinert . Relative Bedeutung von Objekten besser wahrnehmbar als bei Choropletenkarten Mehrere Kennzahlen auf thematischen Karten darstellbar Vortragender 25.11.2010 22 Visuelle Analyse Multitouch Video Yvette Teiken, Martin Rohde 25.11.2010 23 AutoMais Ziel: Automatisierte Erzeugung von CARESS Schema Beschreibung von Aspekten mittels Modellierungssprachen Erzeugung von Software und Schemas mittels modellgetriebener Software Entwicklung Beispiele: Beschreibung von Würfeln Konsistenzbedinungen Integrationsaspekte Integration Endanwender Erste Ansätze: Altendatenübernahme Yvette Teiken, Martin Rohde 25.11.2010 CARESS Team