cloud4health Cloud-Architektur für die datenschuzkonforme Sekundärnutzung strukturierter und freitextlicher Daten Ines Leb Lehrstuhl für Medizinische Informatik Telemed 03.07.2013 LMI :: LEB :: CLOUD4HEALTH 2 Agenda Motivation Vorgehen Architektur Datenschutz Anwendungsszenarien LMI :: LEB :: CLOUD4HEALTH 3 Was ist mit ... Freitext 99.9% 80% 71% 53% LMI :: LEB :: CLOUD4HEALTH 4 Ansatz Text Mining Text Annotation Deidentifikation LMI :: LEB :: CLOUD4HEALTH cloud4health Fokus Cloud Services für Big Data Analysen in der Medizin Volumen 4 Mio EUR 46,5 Personenjahre Dauer 3 Jahre, Beginn 01.12.2011 5 LMI :: LEB :: CLOUD4HEALTH 6 Sekundärnutzung klinischer Daten BI Data Warehouse ETL LMI :: LEB :: CLOUD4HEALTH 7 local Extract CDMS Transform Load SQL PIDgen HIS Aggregation CSV Terminology … ... ... Facts Query-Tool XLS DeIdent ... Dimen sions Statistics Visualization ... WWW … LMI :: LEB :: CLOUD4HEALTH 8 local cloud Extract CDMS Transform Load SQL PIDgen HIS Aggregation CSV Terminology … letters ... Facts Query-Tool XLS DeIdent Textmining ... ... WWW Dimen sions Statistics Visualization … LMI :: LEB :: CLOUD4HEALTH 9 Architektur Datenextraktion Krankenhaus STUDIENPORTAL ETL Anonymisierung Deidentifikation Strukturierte Daten Anonymisierter Text TRUSTED CLOUD Annotationen Text Mining Text Annotation Text Mining Data Mining Datenzugriff Data Datenanalyse Warehouse Data Mining LMI :: LEB :: CLOUD4HEALTH 10 Architektur Datenextraktion C Deidentifikation Datenzugriff A Text Mining Text Annotation • • • Structured Data Annotation Data K-Anonym Export Datenanalyse Data Mining B D LMI :: LEB :: CLOUD4HEALTH 11 1 C 2 3 A • • • Structured Data Annotation Data K-Anonym Export B D LMI :: LEB :: CLOUD4HEALTH Datenextraktion 12 1 LMI :: LEB :: CLOUD4HEALTH 13 2 Deidentifizierung Metadaten Namenslisten Patterns Maschinelle Lernverfahren LMI :: LEB :: CLOUD4HEALTH 14 3 IDAT-Translator --------------------------------------------------------------- Person (entspricht Name) --------------------------------------------------------------- surname <string> - familyname <string> - affix <string> (Graf von) - titel <string> (Dr., Prof., ....,) - sex [f|m] <enumeration> --------------------------------------------------------------- Date --------------------------------------------------------------- Day <byte> 11 - Month <byte> 1..12 - Year <byte> 1921 - Weekday <byte> 1..7 - Holiday <string> (Weihnachten, Ostern ..) --------------------------------------------------------------- Location Division --------------------------------------------------------------- organisation (Universität, Rhön Kliniken) <string> - clinic (Bsp. Uniklinik, Waldkrankenhaus) <string> - department (Innere Medizin) <string> - city (Freiburg) <string> - service? (Sprechstunde, Ambulanz..) <string> --------------------------------------------------------------- ID --------------------------------------------------------------- entity [MedicalRecordId, ???] <enumeration> - - value <string> --------------------------------------------------------------- AGE --------------------------------------------------------------- days <int> # in Tage, da Alterangaben bei Neugeborenen eingeschlossen werden müssen --------------------------------------------------------------- street <string> (Tennenbacherstrasse.) - housenumber <string> (11a) - city code <int> (79132) rule (Freiburg) "IdatPerson" - city <string> - country <string> when - building? (Beispiel Bahnhof, Flughafen, Post) ------------------------------------------------------------------- --------------------------------------------------------------then --------------------------------------------------------------- idat:PersonIDAT() ContactData (entspricht Phone) idat.setFirstname(„XXXXX“); BIOMETRICS --------------------------------------------------------------- entity <enumeration> [size, weight] # eav schema - unit <enumeration> [metric] - value OTHER ----------------------------------------------------------------------------------------------------------------------------idat.setFamilyname(StringUtils.left(idat.getFamilyname(),1)); # all other - phoneNumber <int> -- countryCode (+49) idat.setAffix(null); -- areaCode (761) idat.setTitel(null); -- phoneNumber (65465468) - email ([email protected]) idat.setSex(idat.getSex()); end --------------------------------------------------------------- LMI :: LEB :: CLOUD4HEALTH 15 1 C 2 3 A 4 5 • • • Structured Data Annotation Data K-Anonym Export B D LMI :: LEB :: CLOUD4HEALTH Cloud Infrastruktur 16 4 LMI :: LEB :: CLOUD4HEALTH Text Mining 17 5 LMI :: LEB :: CLOUD4HEALTH 18 1 C 2 3 6 A 4 5 • • • Structured Data Annotation Data K-Anonym Export B D LMI :: LEB :: CLOUD4HEALTH 19 6 Zentrales Studienportal Zugriff auf Daten Mehrwertdienste Statistische Analyse Datamining i2b2, R, tranSMART, ... LMI :: LEB :: CLOUD4HEALTH Herausforderung - Datenschutz Gesundheitsdaten = „sensible Daten“ (§3 Abs. 9 BDSG) Verschiedene Gesetze müssen betrachtet werden Landeskrankenhausgesetze Arzt- und Arbeitsrecht Eigentums-, Nutzungs-, Persönlichkeitsrechte der Patienten Bundes- (BDSG) und Landesdatenschutzgesetze Besonderheiten in der medizinischen Forschung Informierte Einwilligung Begrenzt auf genau definierte Forschungsfragen „Seltene“ Daten Ziele National abgestimmtes Generisches Datenschutzkonzept Vertragsvorlagen, Leitlinien, etc. 20 LMI :: LEB :: CLOUD4HEALTH Anwendungsszenarien in cloud4health Aufbau von Registern Z.B. für medizinische Forschung und Health Technology Assessment (HTA) „Hüftimplantate besser mit oder ohne Zement einsetzen?“ Pharmakovigilanz Erkennen von Signalen aus Arztbriefen und Medikationslisten „Sehnenruptur aufgrund von Antibiotika“ Plausibilitätschecks „Wurden Biologicals bei einer Psoriasisbehandlung wirklich erst als letzte Möglichkeit angewendet?“ Pathologie „TNM, Grading, Morpholoy ICD-O3, … aus diktierten Berichten“ 21 LMI :: LEB :: CLOUD4HEALTH Zusammenfassung Sekundärnutzung Strukturierte und unstrukturierte Daten Text Mining Deidentifizierung Cloud computing Dynamische Infrastruktur Services on demand Externe und Inhouse-Nutzung „One Stop Shop“ Datenschutz Anwendungsbeispiele Register, Forschung, Pharmacovigilanz… 22 LMI :: LEB :: CLOUD4HEALTH BACKUP SLIDES 23 LMI :: LEB :: CLOUD4HEALTH 24 Beispiel: Endoprothesenregister UKER 200 Arztbriefe 500 OP-Berichte + 2 RHÖN-Kliniken LMI :: LEB :: CLOUD4HEALTH What is Cloud Computing? Metaphore / Paradigm Unlimited (elastic) ressources Everybody can access from everywhere 25 LMI :: LEB :: CLOUD4HEALTH Deidentification 26 2 LMI :: LEB :: CLOUD4HEALTH Trusted Cloud LMI :: LEB :: CLOUD4HEALTH 28 Process Use Case Description Fragestellung Identification of Data Sources Einschlusskriterien Klinische Notwendige Daten Quellsysteme zur Beantwortung Schnittstellen, Formate, Qualität ... Eigentümer und Schutzbedarf Allowance Szenario Eigentümer Datenschützer Data Extraction Technische Realisierung Ggfs. Syntaktisch & Einverständnis des semantisch Patienten