Cloud Computing für Big-Data-Analysen in der Medizin Sekundärnutzung klinischer Daten Business Intelligence Data Warehouse Sekundärnutzung klinischer Daten lokal Extract LIS SQL KIS/ KAS CSV … Transform Load Aggregation ... ... PIDgen Fakten Query-Tool XLS Terminology ... Dimensi onen Statistik Visualisierung ... WWW … Was ist mit … Freitext? 99.9% 71% 80% 53% Ansatz Faktenextraktion Deidentifizierung Fokus – Cloud Services für Big-Data-Analysen im Gesundheitswesen – Erschließung unstrukturierter Daten – Datenschutz Größe – 4 Mio EUR – 46,5 Personenjahre lokal c l o u d Extract LIS Transform Load SQL PIDgen KIS/ KAS … Aggregation WWW CSV Terminology Fakten Query-Tool Texte XLS DeIdent ... Textmining ... ... Dimensi onen Statistik Visualisierung … Architektur KRANKENHAUS STUDIENPORTAL ETL Anonymisierung Data Mining Strukturierte Daten Anonymisierter Text Annotationen TRUSTED CLOUD Text Mining Data Warehouse 1 C 2 3 A • • • Structured Data Annotation Data K-Anonym Export B D Datenextraktion 1 Deidentifizierung 2 IDAT-Translator 3 --------------------------------------------------------------- Person (entspricht Name) --------------------------------------------------------------- surname <string> - familyname <string> - affix <string> (Graf von) - titel <string> (Dr., Prof., ....,) - sex [f|m] <enumeration> Division --------------------------------------------------------------- organisation (Universität, Rhön Kliniken) <string> - clinic (Bsp. Uniklinik, Waldkrankenhaus) <string> - department (Innere Medizin) <string> - city (Freiburg) <string> - service? (Sprechstunde, Ambulanz..) <string> --------------------------------------------------------------- --------------------------------------------------------------- Date --------------------------------------------------------------- Day <byte> 11 - Month <byte> 1..12 - Year <byte> 1921 - Weekday <byte> 1..7 - Holiday <string> (Weihnachten, Ostern ..) --------------------------------------------------------------- Location ID --------------------------------------------------------------- entity [MedicalRecordId, ???] <enumeration> - - value <string> --------------------------------------------------------------- AGE --------------------------------------------------------------- days <int> # in Tage, da Alterangaben bei Neugeborenen eingeschlossen werden müssen --------------------------------------------------------------- street <string> (Tennenbacherstrasse.) - housenumber <string> (11a) - city code <int> (79132) rule "IdatPerson" - city <string> (Freiburg) - countrywhen <string> - building? (Beispiel Bahnhof, Flughafen, Post) ------------------------------------------------------------------- --------------------------------------------------------------then --------------------------------------------------------------- BIOMETRICS --------------------------------------------------------------- entity <enumeration> [size, weight] # eav schema - unit <enumeration> [metric] - value idat:PersonIDAT() ContactData (entspricht Phone) idat.setFirstname(„XXXXX“); OTHER ----------------------------------------------------------------------------------------------------------------------------idat.setFamilyname(StringUtils.left(idat.getFamilyname(),1)); # all other - phoneNumber <int> -- countryCode (+49) idat.setAffix(null); -- areaCode (761) idat.setTitel(null); -- phoneNumber (65465468) - email ([email protected]) idat.setSex(idat.getSex()); end --------------------------------------------------------------- 13 Klinikportal Studien Konfiguration Steuerung lokaler klinischer Komponenten Deidentifizierung Klinisches Portal Oberfläche für Anwender und Administratoren Übersicht aller Teilschritte Letzte klinische Instanz vor der Cloud 1 C 2 3 A 4 5 B • • • Structured Data Annotation Data K-Anonym Export D TEXT-MINING IN DER CLOUD 4 Klinik A Klinik B VPN VPN VPN EP EP Worker Worker VLAN C Worker EP VLAN A VLAN B Broker Worker Klinik C Broker Broker Worker Worker Worker Worker Worker TEXT-MINING IN DER CLOUD • Verschiedene Standard-Text-Mining-Komponenten für medizinische Daten – – – – – – – Diagnosen Prozeduren Funktionstests (EKG) TNM-Klassifikation Medikamente Laborwerte Personendaten (Name, Alter, etc.) • Weitere anwendungsspezifische Komponenten • Durch Einsatz des Apache UIMA-Frameworks beliebig in der Cloud skalierbar – ca. 100.000 Arztbriefe pro Stunde mit 8 Instanzen TEXT-MINING IN DER CLOUD TEXT-MINING IN DER CLOUD 5 19 1 C 2 3 6 A 4 5 • • • Structured Data Annotation Data K-Anonym Export B D Zentrales Studienportal 6 • Zugriff auf Daten • Mehrwertdienste – Statistische Analyse – Data-Mining • Averbis Healthcare Analytics, Pentaho, Qlikview, i2b2 ... Anwendungsmöglichkeiten Im Projekt wurden 4 konkrete Anwendungsszenarien umgesetzt: • Qualitätsmonitoring medizinischer Produkte • Retrospektives Befüllen von Registern am Beispiel des Endoprothesenregisters Deutschland • Klinische Leitlinien/Plausibilität von Verordnungen • Zusammenarbeit mit P3 zur Überprüfung von Verordnungen im Bereich der Psychiatrie • Biodatenbanken • Extraktion von Tumorentitäten und -graduierung (z.B. TNM-Kodierungen) aus großen Pathologiedatenbeständen • Pharmakovigilanz • Detektion von Nebenwirkungen an verschiedenen Fallbeispielen 22 Anwendungsmöglichkeiten Text Mining unterstützt verschiedene Prozesse in Klinik, Forschung und Administration Behandlung Forschung DiagnoseSupport Prädiktive Analysen Machbarkeitsstudien Coding & Billing HypothesenValidierung Patientenrekrutierung QualitätsManagement Semantische Interoperabilität Commercial Insights für Pharma Pharma Anwendungsmöglichkeiten Text Mining unterstützt verschiedene Prozesse in Klinik, Forschung und Administration Behandlung Forschung DiagnoseSupport Prädiktive Analysen Machbarkeitsstudien Coding & Billing HypothesenValidierung Patientenrekrutierung QualitätsManagement Semantische Interoperabilität Commercial Insights für Pharma Pharma Diagnose-Support Zeige mir alle Patienten mit typischen Morbus Pompe-Symptomen, aber ohne eine Morbus Pompe-Diagnose Anwendungsmöglichkeiten Text Mining unterstützt verschiedene Prozesse in Klinik, Forschung und Administration Behandlung Forschung DiagnoseSupport Prädiktive Analysen Machbarkeitsstudien Coding & Billing HypothesenValidierung Patientenrekrutierung QualitätsManagement Semantische Interoperabilität Commercial Insights für Pharma Pharma Machbarkeitsstudien Machbarkeitsstudien Datenschutz Modell 3 Modell 2 Modell 1 Die cloud4health-Modellszenarien Anonymisierung in Klinik keine Reidentifizierung ohne Einwilligung (retrospektiv) Pseudonymisierung in Klinik Reidentifizierung und follow-up in Klinik Einwilligung (prospektiv) Pseudonymisierung klinik-übergreifend Reidentifizierung und follow-up übergreifend Leistungsfähigkeit / Komplexität Konkretes und generisches Datenschutzkonzept Konkrete Datenschutzkonzepte für 3 Use Cases (Pilotanwendungen) • • • Nachschlagewerk von 9 Dokumenten Alle datenschutzrechtlich relevanten Prozesse und Maßnahmen kontinuierliche Fortschreibung Generisches Datenschutzkonzept • • • Abstraktion von konkreten Anwendungsfällen Abstraktion von konkreten Akteuren Blaupause für künftige Ableitungen Zusammenfassung cloud4health - Sekundärnutzung medizinischer Daten • Cloud Computing − Dynamische Infrastruktur und Dienste • Strukturierte und unstrukturierte Daten − Deidentifizierung und Text Mining • Vielfältige Anwendungsbeispiele − Forschung, Industrie, Versorgung … • Datenschutz … besten Dank für Ihre Aufmerksamkeit! www.averbis.com Kontakt: [email protected]