DGHO-JAHRESTAGUNG – TEIL 2 KONGRESS Big Data in der Medizin IT-Systeme in Krankenhäusern bereiten Unmengen von Daten aus unterschiedlichen Quellen, die von spezialisierten interdisziplinären Teams gewonnen worden sind, zu wertvollen Informationen auf. Durch die Ausweitung der Analysen auf mehrere Tausend anonymisierte Patienten und die Vernetzung mit anderen Kliniken und Forschungszentren wird ein Ökosystem zum Wohle des Patienten geschaffen. Dieses auf Big-Data-Ansätzen gestützte, evidenzbasierte und patientenorientierte Gesundheitswesen ist in naher Zukunft Realität. Digitalisierung des Lebens Man stelle sich ein Krankenhaus vor, in dem die Behandlung der Patienten massgeblich durch IT-Systeme unterstützt wird, die Informationen aus umfangreichen Patientenakten und molekularen Profilen extrahieren und dabei spezifische Risiken und Möglichkeiten durch in der Analyse auftretende Muster aufzeigen können. Diese Systeme bereiten Unmengen von Daten aus unterschiedlichen Quellen zu wertvollen Informationen auf, die von spezialisierten interdisziplinären Teams gewonnen worden sind. Durch die Ausweitung der Analysen auf mehrere Tausend anonymisierte Patienten und die Vernetzung mit anderen Kliniken und Forschungszentren wird ein Ökosystem zum Wohle des Patienten geschaffen. Dieses auf Big-Data-Ansätzen gestützte, evidenzbasierte und patientenorientierte Gesundheitswesen wird in naher Zukunft Realität sein. Was ist „Big Data“? Heutzutage können wir durch die Auswertung von Massendaten Problematiken untersuchen, zu denen es bis vor Kurzem keine brauchbaren Theorien gab. Eine einfache Definition von Big Data ist „Automatisierung von Erfahrung“: Man lernt aus I Seite 102 der Vergangenheit mit Blick auf die Zukunft und vermeidet es, einen Fehler zweimal zu machen.1 Generell bezieht sich der Begriff Big Data auf ein System, das eine enorme Menge von Daten aus unterschiedlichen Quellen mit hoher Geschwindigkeit erfassen, generieren, speichern, verwalten, analysieren, visualisieren, konsolidieren und teilen kann.2 Der Begriff steht auch für eine Reihe von Methoden zu vorhersagender Datenanalytik, die aus Daten mittels spezieller Algorithmen zur Wissensgewinnung relevante Informationen herausfiltert. Big Data in der klinischen Krebsforschung Durch die jüngsten technischen Entwicklungen in der biomedizinischen Forschung werden Big-Data-Methoden auch im Gesundheitswesen relevant.3, 4 Man geht davon aus, dass die Daten aus dem Gesundheitswesen im Jahr 2020 ein Volumen von bis zu 25 000 Petabyte erreicht haben werden.5 Beim Kampf gegen Krebs konzentriert sich Big Data auf eine systematische und holistische Sicht der Biologie von Krebs, indem eine Unmenge grossflächiger Patientendatensätze aggregiert werden. Solche Daten sind ausserordentlich heterogen, Q. Zhong, Zürich P. Wild, Zürich komplex und multifaktoriell, was die Auswertung dieser Daten nach klinischer Relevanz durch einen einzelnen Menschen vor eine grosse Herausforderung stellt bzw. unmöglich macht. Folglich führt im modernen Gesundheitswesen nur die Zusammenarbeit in multidisziplinären Teams aus Ärzten, Biologen, Computerwissenschaftlern, Mathematikern, Ingenieuren und Anwälten sowie der Einsatz von innovativen Lösungen der Bioinformatik, fortgeschrittenen Analysetools und ausgeklügelten Visualisierungstechniken zum Erfolg.6 Die grössten Datenmengen mit einer zentralen klinischen Relevanz resultieren aus der Gensequenzierung. Diese erlaubt seit der kompletten Entschlüsselung des menschlichen Genoms 20037 umfassende Studien der Krebsbiologie auf Gen-Ebene. Die Rohdaten des Genoms einer einzelnen Person sind etwa 100GB gross, können jedoch für weniger als 1000 US-Dollar mit noch nie dagewesenem Durchsatz analysiert werden.8 Zur Erforschung des klinischen Potenzials des Genoms haben das „100,000 Genomes Project“ in Grossbritannien, die „Precision Medicine Initiative“ in den USA und das BGI in China Pläne für eine Analyse der genomischen Daten von einer Million Personen ange­ stossen.9 Ausserdem hat ein PilotproHämatologie & Onkologie 1/16 DGHO-JAHRESTAGUNG – TEIL 2 KONGRESS jekt des International Cancer Genome Consortium (ICGC) in Deutschland gepaarte Tumor- und Normalgenome von 2600 Personen ausgewertet.10 Neben der Analyse einer immer grösseren Zahl von Patienten kommen auch neue experimentelle Technologien zur Generierung klinischer Daten zur Anwendung. Diese gehen über Genomik hinaus und umfassen Proteomik, Transkriptomik, Metabolomik sowie Hochdurchsatz-Bildgebungsverfahren.4 Integrative Analysen,11 welche heterogene Datensätze vereinen, wurden u.a. bereits an Endometrium-12, klarzelligen Nierenzell-13 und Lungenkarzinomen14 durchgeführt und tragen zu einem besseren Verständnis verschiedener Krebstypen bei. Big-Data-Systeme und Analytik Im Zeitalter von Big-Data-Lösungen können die Daten über einen einzelnen Patienten aus Dutzenden verschiedenen Quellen stammen; u.a. sind dies demografische Daten, klini- sche Messungen, Biopsieproben mit pathologischen Merkmalen, radiologische und histologische Bilder, Biomarker für Krankheiten, persönliche Omiks-Profile,15 Proteinprofile und -funktionen, molekulare Schnittstellen und Netzwerke, Signal- und Metabolismuswege, klinische Versuche, physiologische Zustände, Erkenntnisse aus Therapien und andere Patienteninformationen aus Informationssystemen von Kliniken und Labors. Neben der Vielzahl von Datenquellen wird die Aufbereitung dadurch erschwert, dass die Daten strukturiert oder unstrukturiert, digital oder handschriftlich sowie z.T. zeitabhängig vorliegen können. Eine wesentliche Herausforderung liegt somit im Sammeln und Transformieren der Daten in ein normiertes digitales Format als Basis für die Anwendung modernster und wertschöpfender Analysemethoden. Immer mehr Unternehmen und Spitäler haben den grossen Wert der Informationsgewinnung mittels BigData-Lösungen erfasst und realisie- ren Analysesysteme für den Kampf gegen Krebs. Das von Google Ventures finanzierte Cloud-basierte Softwaresystem Flatiron geht die Kernherausforderungen der Onkologie an (www.flatiron.com). IBM hat sich in Zusammenarbeit mit dem Memorial Sloan Kettering Cancer Center des Gesundheitswesens mit seinem kognitiven System Watson angenommen, das Ärzte automatisch mit Behandlungsempfehlungen bei Lungenkrebs versorgt.16 Viele Unternehmen verfeinern ihre Behandlungsstrategien bei Krebs und ändern so langfristig die klinische Praxis.4 Am UniversitätsSpital Zürich (USZ) wurde die „Oracle Health Sciences“-Plattform für eine Kohorte von 40 Prostatakrebspatienten mit dem Ziel getestet, ein umfassendes klinisches Data-Warehouse bereitzustellen, das demografische, klinische und genomische Daten in einem integrierten Datenmodell vereint und für multidimensionale Analysen sowie für unvoreingenommene Prognosen verfügbar macht (Abb. 1). Biobanken Sequencing Liquid Probe Tissue & Cell Klinisches Informationssystem Reproduction LIMS Laboratory Information Management System PACS Picture Archiving and Communication System Sequencing Bilder Allgemein Measurements Raw files Processing Processing (Universalarchiv) Data Warehouse Clinical & Research Data Input files Studiensystem Krebsregister ( nicht nur USZ; v.a. Survivaldaten) Bereitstellung anonymisierte und verdichtete Informationen Separate, abgeschottete Zone für Externe Abb. 1: Mögliche Big-Data-Plattform am USZ zur effizienten Aufbereitung heterogener Datenquellen 1/16 Hämatologie & Onkologie Seite 103 I DGHO-JAHRESTAGUNG – TEIL 2 fizierung und Überlebensanalyse vorhersagt (überwachtes Lernen),17, 18 unbekannte Muster oder unerwartete Korrelationen in einer Kohorte von Patienten mit der gleichen Erkrankung, genetischen Veranlagung oder Lebensweise entdeckt (unüberwachtes Lernen)19 oder aussagekräftige Verbindungen zwischen multiplen Quellen findet und krebsgesteuerte Faktoren durch Genomanalyse identifiziert (Abb. 2).20 Fragestellungen von Big Data Die Analyse von enormen Datenmengen mit Big-Data-Ansätzen und -Lö- Data sources Biomedicine Molecular interaction Drugs CA A Patient records EM VC CA A O P LC CC B R Reports Data analytics Patient stratification Mutation (exome) Copy number Gene expression DNA methylation microRNA RPPA Other Omics TCGA Data Image data Disease specific survival Diagnosis sungen kann wichtige biomedizinische Geheimnisse enthüllen und qualitative, bisher nicht zugängliche Einsichten in die Krankheitsbiologie bieten. Dennoch stecken die klinische Interpretation der medizinischen Bilddaten21 oder „Whole genome“-Sequenz und die Identifikation assoziierter genomischer Varianten noch in den Kinderschuhen.9, 22, 23 Durch die integrative klinische Omiks-Analyse verschiedener Tumoren kam zudem eine neue Komplexitätsebene hinzu.11, 24 Zentralisierte Big-Data-Systeme sollen in Zukunft sehr grosse Datenmengen aus heterogenen Quellen und inkompatiblen Systemen zu wertvollen Consolidation Discovery Inference 0.0 0.2 0.4 0.6 0.8 1.0 Aufgrund der schieren Menge und Diversität der Daten sind analytische Entscheidungen nur schwer zu treffen und allein von Menschen erstellte, regelbasierte Heuristiken sind nicht möglich. Maschinelles Lernen ist das Rückgrat moderner analytischer Systeme. Es stellt eine Berechnungstechnik dar, die in riesigen und heterogenen Datenquellen verborgene Informationen auf vorurteilslose, skalierbare Weise mit hohem Durchsatz erschliesst. Maschinelles Lernen verwendet ein kommentiertes Übungsset zur Erstellung eines Datenmodells, das die Bezeichnungen eines unabhängigen Datensatzes für Patientenstrati- KONGRESS Condition 1 Condition 2 Condition 3 p < 0.001 N = 350 0 50 100 150 200 months Drug prescription Driver Personalized medicine Health records Abb. 2: Anwendung von Methoden des maschinellen Lernens zur Gewinnung von biomedizinischem Wissen aus einer Vielzahl von Gesundheitsmassendaten für die Patientenstratifizierung oder Medikamentenverordnung I Seite 104 Hämatologie & Onkologie 1/16 DGHO-JAHRESTAGUNG – TEIL 2 KONGRESS Informationen vereinen. Unerlässlich bleiben jedoch weiterhin kontrollierte klinische Versuche und ein klares Versuchsdesign als Basis für die Sicherstellung einer hohen Qualität und Zuverlässigkeit der mittels Big-Data-Ansätzen aufbereiteten Informationen. Bei allen positiven Aussichten verdienen folgende Herausforderungen eine besondere Beachtung. Mit den neuen experimentellen Methoden und Technologien werden immense Datenvolumina generiert, welche einen wesentlichen Teil des IT-Budgets verschlingen. Die Speicherung und Archivierung besagter Volumina erfordert somit neue finanzierbare Strategien. Bei der Nutzung von Patienten- und Gesundheitsdaten in Big-Data-Lösungen ist die Berücksichtigung rechtlicher und ethischer Aspekte sowie die Einhaltung der entsprechenden Regelungen zentral.4, 25 Eine umfassende „data governance“, welche die Einhaltung der Regelungen betreffend Einverständniserklärung, Eigentümerschaft, Geheimhaltung, Sicherheit, Schutz, Gesetzmässigkeit, Verschlüsselung und Fluss anonymer Personendaten zwischen Krankenhäusern und Forschungseinrichtungen zum Gegenstand hat, ist zwingend. n 19 L aney D: 3D data management: controlling data volume, velocity, and variety. 2001 Liekens AM et al: BioGraph: unsupervised biomedical knowledge discovery via automated hypothesis generation. Genome biology 2011; 12: R57. doi:10.1186/gb-2011-12-6-r57 20 3 oor AM et al: Big data: the challenge for small reN search groups in the era of cancer genomics. British Journal of Cancer 2015; doi:10.1038/bjc.2015.341 L ibbrecht MW, Noble WS: Machine learning applications in genetics and genomics. Nat Rev Genet 2015; 16: 321-332. doi:10.1038/nrg3920 21 4 ender E: Big data in biomedicine. Nature 2015; 527: B S1. doi:10.1038/527S1a 5 ersh W et al: Health-care hit or miss? Nature 2011; H 470: 327-329. doi:10.1038/470327a Fuchs TJ, Buhmann JM: Computational pathology: challenges and promises for tissue analysis. Comput Medical Imaging Graph 2011; 35: 515-530. doi:10.1016/j.compmedimag.2011.02.006 22 oorthie S et al: Informatics and clinical genome seM quencing: opening the black box. Genet Med 2013; 15: 165-171. doi:10.1038/gim.2012.116 23 an Allen EM et al: Clinical analysis and interpreV tation of cancer genome data. Journal of Clinical Oncology 2013; 31: 1825-1833. doi:10.1200/ JCO.2013.48.7215 24 ristensen VN et al: Principles and methods of inteK grative genomic analyses in cancer. Nat Rev Cancer 2014; 14: 299-313. doi:10.1038/nrc3721 25 ymrek M et al: Identifying Personal genomes by G surname inference. Science 2013; 339: 321-324. doi:10.1126/science.1229566 26 Flores M et al: P4 medicine: how systems medicine will transform the healthcare sector and society. Personalized Medicine 2013; 10: 565-576. doi:10.2217/ PME.13.57 Literatur: 1 Joachim M. Buhmann, D. K. in ETH: Globe 2015 2 6 umar-Sinha C et al: Recurrent gene fusions in prosK tate cancer. Nat Rev Cancer 2008; 8: 497-511 7 I nternational Human Genome Sequencing Consortium: Finishing the euchromatic sequence of the human genome. Nature 2004; 431: 931-945. doi:10.1038/nature03001 8 edes L, Campany G: The new date, new format, new K goals and new sponsor of the Archon Genomics X PRIZE competition. Nature Genetics 2011; 43: 10551058. doi:10.1038/ng.988 9 E isenstein M: Big data: the power of petabytes. Nature 2015; 527: S2-S4. doi:10.1038/527S2a 10 ourzac K: Collaborations: mining the motherlodes. B Nature 2015; 527: S8-S9. doi:10.1038/527S8a 11 einstein JN et al: The Cancer Genome Atlas W Pan-Cancer analysis project. Nature Genetics 2013; 45: 1113-1120. doi:10.1038/ng.2764 12 etz G et al: Integrated genomic characterization of G endometrial carcinoma. Nature 2013; 497: 67-73. doi:10.1038/nature12113 13 ancer Genome Atlas Research Network: CompreC hensive molecular characterization of clear cell renal cell carcinoma. Nature 2013; 499: 43-49. doi:10.1038/nature12222 14 ollisson EA et al: Comprehensive molecular profilC ing of lung adenocarcinoma. Nature 2014; 511: 543550. doi:10.1038/nature13385 15 hen R et al: Personal omics profiling reveals dynamic C molecular and medical phenotypes. Cell 2012; 148: 1293-1307. doi:10.1016/j.cell.2012.02.009 16 iller A: The future of health care could be eleM mentary with Watson. Canadian Medical Association Journal 2013; 185: E367-E368, doi:10.1503/ cmaj.109-4442 17 F uchs TJ et al: Computational pathology analysis of tissue microarrays predicts survival of renal clear cell carcinoma patients. Med Image Comput Comput Assist Interv 2008; 11: 1-8 18 S chuffler PJ et al: TMARKER: a free software toolkit for histopathological cell counting and staining estimation. Journal of Pathology Informatic 2013; 4(Supple): S2. doi:10.4103/2153-3539.109804 Fazit Biomedizinische Studien mit Big-DataMethoden und -Lösungen bieten ein bedeutendes Potenzial für die Unterstützung von Diagnosen, bei der Behandlung von Krankheiten, bei der Stratifizierung von Patienten, für Ergebnisprognosen und für das Design von klinischen Studien. Sie werden hoffentlich zu einer personalisierten Behandlung von Patienten mit vorhersagbaren Nebenwirkungen, besserer Vorsorge und bekannten Risiken führen.26 1/16 Hämatologie & Onkologie Autoren: Dr. sc. Qing Zhong1 Roman Barnert2 Prof. Dr. Gunnar Rätsch3 Prof. Dr. Thomas Fuchs4 Prof. Dr. med. Peter Wild1 1 UniversitätsSpital Zürich think beyond ag Schweiz 3 ETH Zürich 4 Memorial Sloan Kettering Cancer Center 2 n15 Seite 105 I