Big Data in der Medizin

Werbung
DGHO-JAHRESTAGUNG – TEIL 2
KONGRESS
Big Data in der Medizin
IT-Systeme in Krankenhäusern bereiten Unmengen von
Daten aus unterschiedlichen Quellen, die von spezialisierten
interdisziplinären Teams gewonnen worden sind, zu wertvollen Informationen auf. Durch die Ausweitung der Analysen auf mehrere Tausend anonymisierte Patienten und die
Vernetzung mit anderen Kliniken und Forschungszentren
wird ein Ökosystem zum Wohle des Patienten geschaffen.
Dieses auf Big-Data-Ansätzen gestützte, evidenzbasierte und
patientenorientierte Gesundheitswesen ist in naher Zukunft
Realität.
Digitalisierung des Lebens
Man stelle sich ein Krankenhaus vor,
in dem die Behandlung der Patienten
massgeblich durch IT-Systeme unterstützt wird, die Informationen aus umfangreichen Patientenakten und molekularen Profilen extrahieren und dabei
spezifische Risiken und Möglichkeiten
durch in der Analyse auftretende Muster aufzeigen können.
Diese Systeme bereiten Unmengen von
Daten aus unterschiedlichen Quellen
zu wertvollen Informationen auf, die
von spezialisierten interdisziplinären
Teams gewonnen worden sind. Durch
die Ausweitung der Analysen auf mehrere Tausend anonymisierte Patienten
und die Vernetzung mit anderen Kliniken und Forschungszentren wird ein
Ökosystem zum Wohle des Patienten
geschaffen. Dieses auf Big-Data-Ansätzen gestützte, evidenzbasierte und
patientenorientierte Gesundheitswesen
wird in naher Zukunft Realität sein.
Was ist „Big Data“?
Heutzutage können wir durch die
Auswertung von Massendaten Problematiken untersuchen, zu denen es
bis vor Kurzem keine brauchbaren
Theorien gab. Eine einfache Definition von Big Data ist „Automatisierung von Erfahrung“: Man lernt aus
I Seite 102
der Vergangenheit mit Blick auf die
Zukunft und vermeidet es, einen Fehler zweimal zu machen.1
Generell bezieht sich der Begriff Big
Data auf ein System, das eine enorme
Menge von Daten aus unterschiedlichen Quellen mit hoher Geschwindigkeit erfassen, generieren, speichern,
verwalten, analysieren, visualisieren,
konsolidieren und teilen kann.2 Der
Begriff steht auch für eine Reihe von
Methoden zu vorhersagender Datenanalytik, die aus Daten mittels spezieller Algorithmen zur Wissensgewinnung relevante Informationen herausfiltert.
Big Data in der klinischen
Krebsforschung
Durch die jüngsten technischen Entwicklungen in der biomedizinischen
Forschung werden Big-Data-Methoden auch im Gesundheitswesen relevant.3, 4 Man geht davon aus, dass
die Daten aus dem Gesundheitswesen
im Jahr 2020 ein Volumen von bis zu
25 000 Petabyte erreicht haben werden.5 Beim Kampf gegen Krebs konzentriert sich Big Data auf eine systematische und holistische Sicht der
Biologie von Krebs, indem eine Unmenge grossflächiger Patientendatensätze aggregiert werden. Solche Daten sind ausserordentlich heterogen,
Q. Zhong, Zürich
P. Wild, Zürich
komplex und multifaktoriell, was die
Auswertung dieser Daten nach klinischer Relevanz durch einen einzelnen
Menschen vor eine grosse Herausforderung stellt bzw. unmöglich macht.
Folglich führt im modernen Gesundheitswesen nur die Zusammenarbeit
in multidisziplinären Teams aus Ärzten, Biologen, Computerwissenschaftlern, Mathematikern, Ingenieuren und
Anwälten sowie der Einsatz von innovativen Lösungen der Bioinformatik,
fortgeschrittenen Analysetools und
ausgeklügelten Visualisierungstechniken zum Erfolg.6
Die grössten Datenmengen mit einer
zentralen klinischen Relevanz resultieren aus der Gensequenzierung. Diese
erlaubt seit der kompletten Entschlüsselung des menschlichen Genoms
20037 umfassende Studien der Krebsbiologie auf Gen-Ebene. Die Rohdaten des Genoms einer einzelnen Person sind etwa 100GB gross, können
jedoch für weniger als 1000 US-Dollar mit noch nie dagewesenem Durchsatz analysiert werden.8 Zur Erforschung des klinischen Potenzials des
Genoms haben das „100,000 Genomes Project“ in Grossbritannien, die
„Precision Medicine Initiative“ in den
USA und das BGI in China Pläne für
eine Analyse der genomischen Daten von einer Million Personen ange­
stossen.9 Ausserdem hat ein PilotproHämatologie & Onkologie 1/16
DGHO-JAHRESTAGUNG – TEIL 2
KONGRESS
jekt des International Cancer Genome
Consortium (ICGC) in Deutschland
gepaarte Tumor- und Normalgenome
von 2600 Personen ausgewertet.10
Neben der Analyse einer immer grösseren Zahl von Patienten kommen auch
neue experimentelle Technologien zur
Generierung klinischer Daten zur Anwendung. Diese gehen über Genomik
hinaus und umfassen Proteomik, Transkriptomik, Metabolomik sowie Hochdurchsatz-Bildgebungsverfahren.4 Integrative Analysen,11 welche heterogene Datensätze vereinen, wurden u.a.
bereits an Endometrium-12, klarzelligen Nierenzell-13 und Lungenkarzinomen14 durchgeführt und tragen zu einem besseren Verständnis verschiedener Krebstypen bei.
Big-Data-Systeme und Analytik
Im Zeitalter von Big-Data-Lösungen
können die Daten über einen einzelnen Patienten aus Dutzenden verschiedenen Quellen stammen; u.a.
sind dies demografische Daten, klini-
sche Messungen, Biopsieproben mit
pathologischen Merkmalen, radiologische und histologische Bilder, Biomarker für Krankheiten, persönliche
Omiks-Profile,15 Proteinprofile und
-funktionen, molekulare Schnittstellen
und Netzwerke, Signal- und Metabolismuswege, klinische Versuche, physiologische Zustände, Erkenntnisse
aus Therapien und andere Patienteninformationen aus Informationssystemen von Kliniken und Labors. Neben
der Vielzahl von Datenquellen wird
die Aufbereitung dadurch erschwert,
dass die Daten strukturiert oder unstrukturiert, digital oder handschriftlich sowie z.T. zeitabhängig vorliegen
können. Eine wesentliche Herausforderung liegt somit im Sammeln und
Transformieren der Daten in ein normiertes digitales Format als Basis für
die Anwendung modernster und wertschöpfender Analysemethoden.
Immer mehr Unternehmen und Spitäler haben den grossen Wert der
Informationsgewinnung mittels BigData-Lösungen erfasst und realisie-
ren Analysesysteme für den Kampf
gegen Krebs. Das von Google Ventures finanzierte Cloud-basierte Softwaresystem Flatiron geht die Kernherausforderungen der Onkologie an
(www.flatiron.com). IBM hat sich in
Zusammenarbeit mit dem Memorial
Sloan Kettering Cancer Center des
Gesundheitswesens mit seinem kognitiven System Watson angenommen,
das Ärzte automatisch mit Behandlungsempfehlungen bei Lungenkrebs
versorgt.16 Viele Unternehmen verfeinern ihre Behandlungsstrategien bei
Krebs und ändern so langfristig die
klinische Praxis.4 Am UniversitätsSpital Zürich (USZ) wurde die „Oracle
Health Sciences“-Plattform für eine
Kohorte von 40 Prostatakrebspatienten mit dem Ziel getestet, ein umfassendes klinisches Data-Warehouse bereitzustellen, das demografische, klinische und genomische Daten in einem integrierten Datenmodell vereint
und für multidimensionale Analysen
sowie für unvoreingenommene Prognosen verfügbar macht (Abb. 1).
Biobanken
Sequencing
Liquid
Probe
Tissue & Cell
Klinisches
Informationssystem
Reproduction
LIMS
Laboratory Information
Management System
PACS
Picture Archiving and
Communication System
Sequencing
Bilder Allgemein
Measurements
Raw files
Processing
Processing
(Universalarchiv)
Data Warehouse
Clinical & Research Data
Input files
Studiensystem
Krebsregister
( nicht nur USZ;
v.a. Survivaldaten)
Bereitstellung
anonymisierte und
verdichtete
Informationen
Separate, abgeschottete Zone
für Externe
Abb. 1: Mögliche Big-Data-Plattform am USZ zur effizienten Aufbereitung heterogener Datenquellen
1/16 Hämatologie & Onkologie
Seite 103 I
DGHO-JAHRESTAGUNG – TEIL 2
fizierung und Überlebensanalyse vorhersagt (überwachtes Lernen),17, 18
unbekannte Muster oder unerwartete
Korrelationen in einer Kohorte von
Patienten mit der gleichen Erkrankung, genetischen Veranlagung oder
Lebensweise entdeckt (unüberwachtes
Lernen)19 oder aussagekräftige Verbindungen zwischen multiplen Quellen findet und krebsgesteuerte Faktoren durch Genomanalyse identifiziert
(Abb. 2).20
Fragestellungen von Big Data
Die Analyse von enormen Datenmengen mit Big-Data-Ansätzen und -Lö-
Data sources
Biomedicine
Molecular
interaction
Drugs
CA A
Patient records EM VC CA A
O P LC CC
B R
Reports
Data analytics
Patient stratification
Mutation (exome)
Copy number
Gene expression
DNA methylation
microRNA
RPPA
Other Omics
TCGA Data
Image data
Disease specific survival
Diagnosis
sungen kann wichtige biomedizinische
Geheimnisse enthüllen und qualitative, bisher nicht zugängliche Einsichten in die Krankheitsbiologie bieten.
Dennoch stecken die klinische Interpretation der medizinischen Bilddaten21 oder „Whole genome“-Sequenz
und die Identifikation assoziierter genomischer Varianten noch in den Kinderschuhen.9, 22, 23 Durch die integrative klinische Omiks-Analyse verschiedener Tumoren kam zudem eine
neue Komplexitätsebene hinzu.11, 24
Zentralisierte Big-Data-Systeme sollen in Zukunft sehr grosse Datenmengen aus heterogenen Quellen und inkompatiblen Systemen zu wertvollen
Consolidation
Discovery
Inference
0.0 0.2 0.4 0.6 0.8 1.0
Aufgrund der schieren Menge und
Diversität der Daten sind analytische
Entscheidungen nur schwer zu treffen und allein von Menschen erstellte,
regelbasierte Heuristiken sind nicht
möglich. Maschinelles Lernen ist das
Rückgrat moderner analytischer Systeme. Es stellt eine Berechnungstechnik dar, die in riesigen und heterogenen Datenquellen verborgene Informationen auf vorurteilslose, skalierbare Weise mit hohem Durchsatz
erschliesst. Maschinelles Lernen verwendet ein kommentiertes Übungsset zur Erstellung eines Datenmodells,
das die Bezeichnungen eines unabhängigen Datensatzes für Patientenstrati-
KONGRESS
Condition 1
Condition 2
Condition 3
p < 0.001
N = 350
0
50
100 150 200
months
Drug
prescription
Driver
Personalized
medicine
Health records
Abb. 2: Anwendung von Methoden des maschinellen Lernens zur Gewinnung von biomedizinischem Wissen aus einer Vielzahl von Gesundheitsmassendaten für die Patientenstratifizierung oder Medikamentenverordnung
I Seite 104
Hämatologie & Onkologie 1/16
DGHO-JAHRESTAGUNG – TEIL 2
KONGRESS
Informationen vereinen. Unerlässlich
bleiben jedoch weiterhin kontrollierte
klinische Versuche und ein klares Versuchsdesign als Basis für die Sicherstellung einer hohen Qualität und Zuverlässigkeit der mittels Big-Data-Ansätzen aufbereiteten Informationen.
Bei allen positiven Aussichten verdienen folgende Herausforderungen eine
besondere Beachtung. Mit den neuen
experimentellen Methoden und Technologien werden immense Datenvolumina generiert, welche einen wesentlichen Teil des IT-Budgets verschlingen.
Die Speicherung und Archivierung besagter Volumina erfordert somit neue
finanzierbare Strategien.
Bei der Nutzung von Patienten- und
Gesundheitsdaten in Big-Data-Lösungen ist die Berücksichtigung rechtlicher und ethischer Aspekte sowie die
Einhaltung der entsprechenden Regelungen zentral.4, 25 Eine umfassende
„data governance“, welche die Einhaltung der Regelungen betreffend
Einverständniserklärung, Eigentümerschaft, Geheimhaltung, Sicherheit,
Schutz, Gesetzmässigkeit, Verschlüsselung und Fluss anonymer Personendaten zwischen Krankenhäusern und
Forschungseinrichtungen zum Gegenstand hat, ist zwingend. n
19
L aney D: 3D data management: controlling data volume, velocity, and variety. 2001
Liekens AM et al: BioGraph: unsupervised biomedical knowledge discovery via automated hypothesis generation. Genome biology 2011; 12: R57.
doi:10.1186/gb-2011-12-6-r57
20
3
oor AM et al: Big data: the challenge for small reN
search groups in the era of cancer genomics. British
Journal of Cancer 2015; doi:10.1038/bjc.2015.341
L ibbrecht MW, Noble WS: Machine learning applications in genetics and genomics. Nat Rev Genet 2015;
16: 321-332. doi:10.1038/nrg3920
21
4
ender E: Big data in biomedicine. Nature 2015; 527:
B
S1. doi:10.1038/527S1a
5
ersh W et al: Health-care hit or miss? Nature 2011;
H
470: 327-329. doi:10.1038/470327a
Fuchs TJ, Buhmann JM: Computational pathology:
challenges and promises for tissue analysis. Comput Medical Imaging Graph 2011; 35: 515-530.
doi:10.1016/j.compmedimag.2011.02.006
22
oorthie S et al: Informatics and clinical genome seM
quencing: opening the black box. Genet Med 2013;
15: 165-171. doi:10.1038/gim.2012.116
23
an Allen EM et al: Clinical analysis and interpreV
tation of cancer genome data. Journal of Clinical Oncology 2013; 31: 1825-1833. doi:10.1200/
JCO.2013.48.7215
24
ristensen VN et al: Principles and methods of inteK
grative genomic analyses in cancer. Nat Rev Cancer
2014; 14: 299-313. doi:10.1038/nrc3721
25
ymrek M et al: Identifying Personal genomes by
G
surname inference. Science 2013; 339: 321-324.
doi:10.1126/science.1229566
26
Flores M et al: P4 medicine: how systems medicine
will transform the healthcare sector and society. Personalized Medicine 2013; 10: 565-576. doi:10.2217/
PME.13.57
Literatur:
1
Joachim M. Buhmann, D. K. in ETH: Globe 2015
2
6
umar-Sinha C et al: Recurrent gene fusions in prosK
tate cancer. Nat Rev Cancer 2008; 8: 497-511
7
I
nternational Human Genome Sequencing Consortium: Finishing the euchromatic sequence of
the human genome. Nature 2004; 431: 931-945.
doi:10.1038/nature03001
8
edes L, Campany G: The new date, new format, new
K
goals and new sponsor of the Archon Genomics X
PRIZE competition. Nature Genetics 2011; 43: 10551058. doi:10.1038/ng.988
9
E isenstein M: Big data: the power of petabytes. Nature 2015; 527: S2-S4. doi:10.1038/527S2a
10
ourzac K: Collaborations: mining the motherlodes.
B
Nature 2015; 527: S8-S9. doi:10.1038/527S8a
11
einstein JN et al: The Cancer Genome Atlas
W
Pan-Cancer analysis project. Nature Genetics 2013;
45: 1113-1120. doi:10.1038/ng.2764
12
etz G et al: Integrated genomic characterization of
G
endometrial carcinoma. Nature 2013; 497: 67-73.
doi:10.1038/nature12113
13
ancer Genome Atlas Research Network: CompreC
hensive molecular characterization of clear cell renal cell carcinoma. Nature 2013; 499: 43-49.
doi:10.1038/nature12222
14
ollisson EA et al: Comprehensive molecular profilC
ing of lung adenocarcinoma. Nature 2014; 511: 543550. doi:10.1038/nature13385
15
hen R et al: Personal omics profiling reveals dynamic
C
molecular and medical phenotypes. Cell 2012; 148:
1293-1307. doi:10.1016/j.cell.2012.02.009
16
iller A: The future of health care could be eleM
mentary with Watson. Canadian Medical Association Journal 2013; 185: E367-E368, doi:10.1503/
cmaj.109-4442
17
F uchs TJ et al: Computational pathology analysis of
tissue microarrays predicts survival of renal clear cell
carcinoma patients. Med Image Comput Comput Assist Interv 2008; 11: 1-8
18
S chuffler PJ et al: TMARKER: a free software toolkit
for histopathological cell counting and staining estimation. Journal of Pathology Informatic 2013; 4(Supple): S2. doi:10.4103/2153-3539.109804
Fazit
Biomedizinische Studien mit Big-DataMethoden und -Lösungen bieten ein
bedeutendes Potenzial für die Unterstützung von Diagnosen, bei der Behandlung von Krankheiten, bei der
Stratifizierung von Patienten, für Ergebnisprognosen und für das Design
von klinischen Studien. Sie werden
hoffentlich zu einer personalisierten
Behandlung von Patienten mit vorhersagbaren Nebenwirkungen, besserer
Vorsorge und bekannten Risiken führen.26
1/16 Hämatologie & Onkologie
Autoren:
Dr. sc. Qing Zhong1
Roman Barnert2
Prof. Dr. Gunnar Rätsch3
Prof. Dr. Thomas Fuchs4
Prof. Dr. med. Peter Wild1
1
UniversitätsSpital Zürich
think beyond ag Schweiz
3 ETH Zürich
4 Memorial Sloan Kettering Cancer Center
2
n15
Seite 105 I
Herunterladen