Cloud Computing für Big-Data-Analysen in der Medizin

Werbung
Cloud Computing für Big-Data-Analysen in der Medizin
Sekundärnutzung klinischer Daten
Business Intelligence
Data Warehouse
Sekundärnutzung klinischer Daten
lokal
Extract
LIS
SQL
KIS/
KAS
CSV
…
Transform
Load
Aggregation
...
...
PIDgen
Fakten
Query-Tool
XLS
Terminology
...
Dimensi
onen
Statistik
Visualisierung
...
WWW
…
Was ist mit … Freitext?
99.9%
71%
80%
53%
Ansatz
Faktenextraktion
Deidentifizierung
Fokus
– Cloud Services für Big-Data-Analysen im
Gesundheitswesen
– Erschließung unstrukturierter Daten
– Datenschutz
Größe
– 4 Mio EUR
– 46,5 Personenjahre
lokal
c l o u d
Extract
LIS
Transform
Load
SQL
PIDgen
KIS/
KAS
…
Aggregation
WWW
CSV
Terminology
Fakten
Query-Tool
Texte
XLS
DeIdent
...
Textmining
...
...
Dimensi
onen
Statistik
Visualisierung
…
Architektur
KRANKENHAUS
STUDIENPORTAL
ETL
Anonymisierung
Data Mining
Strukturierte Daten
Anonymisierter Text
Annotationen
TRUSTED CLOUD
Text Mining
Data
Warehouse
1
C
2
3
A
•
•
•
Structured Data
Annotation Data
K-Anonym Export
B
D
Datenextraktion
1
Deidentifizierung
2
IDAT-Translator
3
---------------------------------------------------------------
Person (entspricht Name)
--------------------------------------------------------------- surname <string>
- familyname <string>
- affix
<string> (Graf von)
- titel <string> (Dr., Prof., ....,)
- sex [f|m] <enumeration>
Division
--------------------------------------------------------------- organisation (Universität, Rhön Kliniken) <string>
- clinic (Bsp. Uniklinik, Waldkrankenhaus) <string>
- department (Innere Medizin) <string>
- city (Freiburg) <string>
- service? (Sprechstunde, Ambulanz..) <string>
---------------------------------------------------------------
---------------------------------------------------------------
Date
--------------------------------------------------------------- Day <byte> 11
- Month <byte> 1..12
- Year <byte> 1921
- Weekday <byte> 1..7
- Holiday <string> (Weihnachten, Ostern ..)
---------------------------------------------------------------
Location
ID
--------------------------------------------------------------- entity [MedicalRecordId, ???] <enumeration>
- - value <string>
---------------------------------------------------------------
AGE
--------------------------------------------------------------- days <int>
# in Tage, da Alterangaben bei Neugeborenen eingeschlossen werden müssen
--------------------------------------------------------------- street <string> (Tennenbacherstrasse.)
- housenumber <string> (11a)
- city code <int> (79132)
rule
"IdatPerson"
- city <string>
(Freiburg)
- countrywhen
<string>
- building? (Beispiel Bahnhof, Flughafen, Post)
-------------------------------------------------------------------
--------------------------------------------------------------then
---------------------------------------------------------------
BIOMETRICS
--------------------------------------------------------------- entity <enumeration> [size, weight] # eav schema
- unit <enumeration> [metric]
- value
idat:PersonIDAT()
ContactData
(entspricht Phone)
idat.setFirstname(„XXXXX“);
OTHER
----------------------------------------------------------------------------------------------------------------------------idat.setFamilyname(StringUtils.left(idat.getFamilyname(),1));
# all other
- phoneNumber <int>
-- countryCode
(+49)
idat.setAffix(null);
-- areaCode (761)
idat.setTitel(null);
-- phoneNumber (65465468)
- email ([email protected])
idat.setSex(idat.getSex());
end
---------------------------------------------------------------
13
Klinikportal
Studien
Konfiguration
Steuerung
lokaler klinischer
Komponenten
Deidentifizierung
Klinisches
Portal
Oberfläche für
Anwender und
Administratoren
Übersicht aller
Teilschritte
Letzte klinische
Instanz vor der
Cloud
1
C
2
3
A
4
5
B
•
•
•
Structured Data
Annotation Data
K-Anonym Export
D
TEXT-MINING IN DER CLOUD
4
Klinik A
Klinik B
VPN
VPN
VPN
EP
EP
Worker
Worker
VLAN C
Worker
EP
VLAN A
VLAN B
Broker
Worker
Klinik C
Broker
Broker
Worker
Worker
Worker
Worker
Worker
TEXT-MINING IN DER CLOUD
•
Verschiedene Standard-Text-Mining-Komponenten für medizinische Daten
–
–
–
–
–
–
–
Diagnosen
Prozeduren
Funktionstests (EKG)
TNM-Klassifikation
Medikamente
Laborwerte
Personendaten (Name, Alter, etc.)
•
Weitere anwendungsspezifische Komponenten
•
Durch Einsatz des Apache UIMA-Frameworks beliebig in der Cloud skalierbar
– ca. 100.000 Arztbriefe pro Stunde mit 8 Instanzen
TEXT-MINING IN DER CLOUD
TEXT-MINING IN DER CLOUD
5
19
1
C
2
3
6
A
4
5
•
•
•
Structured Data
Annotation Data
K-Anonym Export
B
D
Zentrales Studienportal
6
• Zugriff auf Daten
• Mehrwertdienste
– Statistische Analyse
– Data-Mining
• Averbis Healthcare
Analytics, Pentaho,
Qlikview, i2b2 ...
Anwendungsmöglichkeiten
Im Projekt wurden 4 konkrete Anwendungsszenarien umgesetzt:
• Qualitätsmonitoring medizinischer Produkte
• Retrospektives Befüllen von Registern am Beispiel des Endoprothesenregisters
Deutschland
• Klinische Leitlinien/Plausibilität von Verordnungen
• Zusammenarbeit mit P3 zur Überprüfung von Verordnungen im Bereich der
Psychiatrie
• Biodatenbanken
• Extraktion von Tumorentitäten und -graduierung (z.B. TNM-Kodierungen) aus
großen Pathologiedatenbeständen
• Pharmakovigilanz
•
Detektion von Nebenwirkungen an verschiedenen Fallbeispielen
22
Anwendungsmöglichkeiten
Text Mining unterstützt verschiedene Prozesse in Klinik, Forschung
und Administration
Behandlung
Forschung
DiagnoseSupport
Prädiktive
Analysen
Machbarkeitsstudien
Coding & Billing
HypothesenValidierung
Patientenrekrutierung
QualitätsManagement
Semantische
Interoperabilität
Commercial
Insights für
Pharma
Pharma
Anwendungsmöglichkeiten
Text Mining unterstützt verschiedene Prozesse in Klinik, Forschung
und Administration
Behandlung
Forschung
DiagnoseSupport
Prädiktive
Analysen
Machbarkeitsstudien
Coding & Billing
HypothesenValidierung
Patientenrekrutierung
QualitätsManagement
Semantische
Interoperabilität
Commercial
Insights für
Pharma
Pharma
Diagnose-Support
Zeige mir alle Patienten mit typischen Morbus Pompe-Symptomen, aber ohne eine
Morbus Pompe-Diagnose
Anwendungsmöglichkeiten
Text Mining unterstützt verschiedene Prozesse in Klinik, Forschung
und Administration
Behandlung
Forschung
DiagnoseSupport
Prädiktive
Analysen
Machbarkeitsstudien
Coding & Billing
HypothesenValidierung
Patientenrekrutierung
QualitätsManagement
Semantische
Interoperabilität
Commercial
Insights für
Pharma
Pharma
Machbarkeitsstudien
Machbarkeitsstudien
Datenschutz
Modell 3
Modell 2
Modell 1
Die cloud4health-Modellszenarien
Anonymisierung in Klinik
keine Reidentifizierung
ohne
Einwilligung
(retrospektiv)
Pseudonymisierung in Klinik
Reidentifizierung und follow-up in Klinik
Einwilligung
(prospektiv)
Pseudonymisierung klinik-übergreifend
Reidentifizierung und follow-up übergreifend
Leistungsfähigkeit / Komplexität
Konkretes und generisches Datenschutzkonzept
Konkrete
Datenschutzkonzepte
für 3 Use Cases
(Pilotanwendungen)
•
•
•
Nachschlagewerk von 9 Dokumenten
Alle datenschutzrechtlich relevanten
Prozesse und Maßnahmen
kontinuierliche Fortschreibung
Generisches
Datenschutzkonzept
•
•
•
Abstraktion von konkreten
Anwendungsfällen
Abstraktion von konkreten Akteuren
Blaupause für künftige Ableitungen
Zusammenfassung
cloud4health - Sekundärnutzung
medizinischer Daten
• Cloud Computing
−
Dynamische Infrastruktur und Dienste
• Strukturierte und unstrukturierte Daten
−
Deidentifizierung und Text Mining
• Vielfältige Anwendungsbeispiele
−
Forschung, Industrie, Versorgung …
• Datenschutz
… besten Dank für
Ihre Aufmerksamkeit!
www.averbis.com
Kontakt:
[email protected]
Herunterladen