Data Warehouse und Auswertungstool für epidemiologische

Werbung
1 CARESS Workshop
Analytische Informationssysteme für epidemiologische Krebsregister
2 Agenda
CARESS - CARLOS Epidemiological and Statistical Data Analysis Engine
CARESS Überblick (30 Minuten)
Architektur, Historie, Konzepte
CARESS Demo - Die alte Version (15 Minuten)
Beispiele für die Definition von Untersuchungsregionen, Räumliche Auswertungen
Beispiele für die Gesundheitsberichterstattung
CARESS Demo - Die neuen Version (20 Minuten)
Ad-Hoc-Datenanalysen
Überlebenszeitanalyse als Beispiel für R Anbindung
CARESS Neue Version - Stand und Planung (5 Minuten)
Pause (15 Minuten)
Forschung & Entwicklung und Raum für Diskussionen (60 Minuten)
Aktuelle CARESS Entwicklungen: Statistik, Facettenklassifikation, Verzerrte Karten, …
Aktuelle CARESS Forschungsthemen: AutoMais, Visuelle Analyse
Yvette Teiken, Martin Rohde
25.11.2010
3 CARESS Ziele
Analyseszenarien in Epidemiologischen Krebsregistern
Ziel: Umfangreiche Analyseunterstützung
Ad-Hoc-Anfragen
Wissen
Analytische
Anwendungen
und Verfahren
Explorativen Datenanalysen
Qualitätssicherung
Organisatorisches und
Rechtliches
Information
Monitoring
Infrastruktur
für Daten und
Informationslogistik
Gesundheitsberichterstattung
Bsp. Entdeckung von Einflussfaktoren auf Erkrankungen
Daten
Ziel: Analytisches Informationssystem für Krebsepidemiologie
Integrierter Datenbestände
Flexible Aggregation der Daten
Analyse mit Hilfe komplexer statistischer Verfahren
Analyse unter Berücksichtigung des Raumbezugs
Yvette Teiken, Martin Rohde
25.11.2010
4 CARESS Lösungsansatz
Datenanalysetechniken
Integration verschiedener Daten
Datentransformation, Datenqualitätsmanagement
Fälle, Melder, Soziodemografische und Umweltdaten
Integration verschiedener Datenanalysetechniken
OLAP (Online Analytical Processing)
Fast Analysis of Shared Multidimensional Information
Statistik
Epidemiologische & räumlich-statistische Verfahren
Explorative Datenanalyse
Annahmen (Hypothesen) bildend, Visualisierungen
Integration Geografische Daten
Konzepte für die Berichterstellung
Konfiguration von Berichten
Cross Media Publishing
Yvette Teiken, Martin Rohde
25.11.2010
5 CARESS Multidimensionales Datenmodell
Dimensionen
Patientenanzahl
Fakten/Kennzahlen
Data Cube
…
<60
40-59
124
Gesamt
60-69
60+
Alter
70+
...
Nds.
Flächenstaat
HH
1998
Gesamt
Stadtstaat
Gesamt
Zeit
HB
8/98
9/98
Dimensionen
(Klassifikationshierarchien)
Gebiet
Yvette Teiken, Martin Rohde
25.11.2010
6 CARESS Historie
Von 1994 bis Heute
Historie
Ab 1993 CARESS (1. Generation)
Eigener Geoserver InterGIS
UNIX, EKN-Schema, feste Analyseschemata
Ab 1999 CARESS (2. Generation)
Multidimensionales Datenmodell MADEIRA
NT/Windows 2000 Portierung
Ab 2003 CARESS (3. Generation)
Neue „Windows-Oberfläche“
Excel-Anbindung, flexible konfigurierbare Auswertungen
Datenmodell für Statistik auf Data Cubes
Ab 2008 Neuentwicklung CARESS (4. Generation)
Standardkomponenten, Standardschnittstellen
Serviceorientierte Architektur
Yvette Teiken, Martin Rohde
25.11.2010
7 CARESS Historie
Aktueller Stand
Einer der zentralen Gründe für die Neuentwicklung
1.41
2.12
Bessere Integration von statistischen Verfahren
0.71
2.83
Unabhängige Entwicklung der statistischen Verfahren
0
1
1.5
2
2.5
3
3.5
3.53
vom analytischen Informationssystem
5.65
4.24
70000
4.95
20000
10000
0
SDR, SMR/SIR, Kumulative Rate, rohes relatives Risiko,
0
-1
R-Package „Cancer“ Krebsepidemiologie (Eigenentwicklung)
1
2
30000
3
40000
50000
60000
Verwendung vorhandener R-Packages, z.B. periodR
0
10
20
30
40
50
0
1
2
3
4
CMF/CIF, Erwartete Fallzahlen bzw. Raten
Indirekt standardisierte Raten,…
Simulation der Konstanzmethode (nach Schüler und Bopp)
Yvette Teiken, Martin Rohde
25.11.2010
8 CARESS Analyseverfahren
Beispiele
Verwendung der Methoden der Periodenanalyse basierend
auf dem Ansatz zur Berechnung der Sterbetafeln
Kohortenbasierte Analyse möglich
Ederer II- oder Hakulinen-Methode für relatives Überleben
absolute und relative Überlebensraten (beides bedingt oder
80
60
40
R Package „SurvivalAnalysis“ (auf Basis des Packages „periodR“)
20
Moran‘s I und Geary‘s c
cumulative relative
relative follow-up-year specific
0
R Package „ClusterGeo“ (auf Basis des Packages „spdep“)
cumulative relative survival at end of follow-up year
100
Survival estimation
0
1
cumulative absolute
absolute follow-up-year specific
2
3
4
5
year of follow-up
kumulativ) und Standardfehler
Graphische und tabellarische Darstellung der Ergebnisse
R Package „Diagram“ für spezielle Diagramme (Eigenentwicklung)
Z.B. Zeitverlauf von Infektionskrankheiten
Yvette Teiken, Martin Rohde
25.11.2010
9 Technische Realisierung
Aktuelle Entwicklungsschwerpunkte
Data Warehouse: Einheitliche, auswertungsorientierte, qualitätsgesicherte und historisierte
Datenbank als Datenbasis („Single Point of Truth“)
On-line Analytical Processing (OLAP): Performance durch Anbindung eines OLAP-Servers
über standardisierte XML/A- bzw. MDX-Schnittstelle
Statistik: Umfassende und erweiterbare Statistik-Funktionalität durch Anbindung der Statistik-
Software R Project
Raumbezug: Anbindung eines geografischen Informationssystems zur engen Verknüpfung
statistischer und raumbezogener Daten
Usability: Windows Presentation Foundation (WPF) zur Realisierung von
Benutzungsoberflächen
Integrationsfähigkeit: Schnittstellen zu MS-Office-Produkten und Web-Service-
Programmierschnittstellen
Internetfähigkeit: Zugriff über Internet durch Smart-Client-Technologie
Mandantenfähigkeit: Nutzung einer Software-Instanz durch mehrere Mandanten durch
flexibles, konfigurierbares Datenmodell
Yvette Teiken, Martin Rohde
25.11.2010
10 CARESS Technologien
Standardschnittstellen und -anfragesprachen
Unterstützung von Standardschnittstellen
Multidimensional Expressions (MDX)
XML for Analysis (XMLA)
Open GIS Simple Feature Access (OGC Standards)
R als Lingua Franca der Statistik
Systeme, welche die Schnittstellen unterstützen:
PostgreSQL, MS SQL Server als RDBMS
Pentaho Mondrian oder SQL Server Analysis Services als
OLAP-Server
PostgreSQL (später SQL Server 8) als Geodatenbank
R Project als Statistiksoftware
Yvette Teiken, Martin Rohde
25.11.2010
11 CARESS
Architektur der neuen Version
CARESS
Client
.NET 3.5 WPF
Statistik
CARESS-Services
R Project
.NET 3.5 WCF
Geodatenbank
PostGIS
OLAP-Server
Pentaho/Mondrian
MS SQL-Server
Server
Data Warehouse
inkl. Star-/Snowflake
Yvette Teiken, Martin Rohde
25.11.2010
12 MUSTANG/CARESS Innovationsmodell
Projekte und Plattformentwicklung
CARESS
(Krebsregister)
INITIAL
(LIGA)
Gesundheit
NRW
(LIGA)
MUSTANG
- Agile Softwareentwicklung
- Testgetriebene Entwicklung
- Continuous Integration
- Modellgetriebene Entwicklung
- Interne .NET-Schulungen
InfoAnalytics AG
(Spin-off)
Anwendungsorientierte Forschung
Diss.-Thema
„Analytisches PM“
DA „Überwachung
Annotierter
Strategy Maps“
Diss.-Thema
„Modellgetriebene
Bereitstellung“
DA „Metamodell
für Reporting“
Diss.-Thema
„Software
Produktlinien“
IP „Karten mit
Virtual Earth“
Diss.-Thema
„Intelligente
Datenanalyse“
OFFIS e.V., Bereich „Gesundheit“,
Themenfeld „Datenmanagement und -analyse“
Yvette Teiken, Martin Rohde
PG „Visual
Analytics“
13 CARESS Raumbezug bei der Datenanalyse
Drei Ebenen
Auswahl zu betrachtender Regionen
Dynamische Klassifizierung (Ad-Hoc-Kategorien)
Auswahl von Regionen anhand geografischer Merkmale
Z.B. Abstand von Emissionsquellen
Auswahl von Regionen in einer Karte
Prädikatbasierte Auswahl (Versorgungsstrukturen, …)
Statistische Verfahren
Clusterindizes – Nachbarschaft für Berechnung
Räumliche Regression
Auswahl von Regionen und Ergebnisdarstellung
Interpolationsverfahren
Ergebnisdarstellung
Thematisch eingefärbte Karten
Punktdarstellungen
Diagramme in Karten
Yvette Teiken, Martin Rohde
25.11.2010
14 CARESS Berichtswesen
Zusammenfassung von Ergebnissen zu Berichtsmappen
Konfigurationsmöglichkeiten
Visualisierungen (und Layouteinstellungen)
Auswertungsreihen für gleichartige Ergebnisse
Zusatzinformationen für die Berichtsgenerierung
Cross Media Publishing
MUSTANG XML-Export
Formatierung der Berichte (XSLT)
für Veröffentlichungen im Internet (HTML)
für Veröffentlichungen als PDF-Dateien
für ein Portal (mit Ad-Hoc-Anfragen)
Management-Cockpits / Management-Mappen
Yvette Teiken, Martin Rohde
25.11.2010
15 CARESS und SurvA DEMO
25.11.2010
16 Zeitplan Neuentwicklung
6.12.2010: Testinstallation einer „kleinen“ Version im EKN
Diagramm, Karte, evtl. Tabelle
Teilautomatisierte Übernahme der Altdaten
Q1 2011:
Installation in den (anderen) epidemiologischen Krebsregstern
Erweiterung um Tabellen-Komponenten
Q2 2011: Speicherung
Persistierung von Analyseergebnissen
Q3 2011: Berichtswesen
Q4 2011: Räumlich-statistische Analysen
Yvette Teiken, Martin Rohde
25.11.2010
17 Zugang zur Demo Version
Kleine Demo zum Ausprobieren
Diagramm
Karte
Überlebenszeit Analyse
Zugang mittels Remotedesktop
Fünf Zugänge
Mehrfachverteilung Zwangsabmeldung
Begrenzter Zeitraum
Verfügbarkeit: Ende nächster Woche
Bei Interesse in Liste eintragen
Benachrichtigung per Mail
Yvette Teiken, Martin Rohde
25.11.2010
18 Aktuelle Weiterentwicklungen
Versorgungsforschung, Statistische Verfahren
Themenschwerpunkt „ Versorgungsforschung“ im OFFIS-Bereich Gesundheit
Professur für Angewandte Statistik (Prof. Dr. Kneib)
Räumlich/kartographische Verfahren:
räumliche (nicht kategorielle) Glättungsverfahren
Geglättete kleinräumige Karten
Einbindung von Interpolationsverfahren (z.B. Kriging)
Verbindung mit den Krebsdaten
Einbindung räumlicher Regressionsverfahren
Beantragte Projekte
Vorlaufforschung: „Methoden für die Versorgungsplanung“
Abschätzung der Fallzahl kommende Jahre, …
Weitere Drittmittelprojekte (EFRE, EU, BMBF) beantragt
Yvette Teiken, Martin Rohde
25.11.2010
19 Aktuelle Weiterentwicklungen
Melder-/Patienten-/Umweltbezogene Daten
Punktdaten
Kennzahlen
Punktgröße
Farbe
Zusatzinformationen
Statistik
Einzugsgebiete
Interpolation
Yvette Teiken, Martin Rohde
25.11.2010
20 Aktuelle Weiterentwicklungen
Facettenklassifikation
Facettenklassifikation
Einfacher Zugang zu Kennzahl (im EKN etwa 300 Kennzahlen)
Klassifizierung von Kennzahlen über verschiedene Facetten
Facetten: Dimensionskategorien (Granularitästebenen und einzelne Ausprägungen)
Facetten: Z.B. „Moratlität“, „Inzidenz“, „Allgemein“ und weitere Beschreibungen (z.B.
„Qualitätskennzahl“, „Risikokennzahl“, …)
Yvette Teiken, Martin Rohde
25.11.2010
21 Aktuelle Weiterentwicklungen
Visual Analytics
Kartenanamorphosen
Algorithmus, der die Länder im Verhältnis zum Kennzahlwert vergrößert oder verkleinert .
Relative Bedeutung von Objekten besser wahrnehmbar als bei Choropletenkarten
Mehrere Kennzahlen auf thematischen Karten darstellbar
Vortragender
25.11.2010
22 Visuelle Analyse
Multitouch Video
Yvette Teiken, Martin Rohde
25.11.2010
23 AutoMais
Ziel: Automatisierte Erzeugung von CARESS
Schema
Beschreibung von Aspekten mittels
Modellierungssprachen
Erzeugung von Software und Schemas mittels
modellgetriebener Software Entwicklung
Beispiele:
Beschreibung von Würfeln
Konsistenzbedinungen
Integrationsaspekte
Integration Endanwender
Erste Ansätze:
Altendatenübernahme
Yvette Teiken, Martin Rohde
25.11.2010
CARESS Team
Herunterladen