Data Lakes: Lösung oder neue Herausforderung für BigBig-DataData-Integration? Integration? PD Dr. Christoph Quix Fraunhofer-Institut für Angewandte Informationstechnik FIT Life Science Informatics Abteilungsleiter High Content Analysis & Information-intensive Instruments [email protected] Informatik 5 (Databases & Information Systems) Leiter der Forschungsgruppe Big Data & Model Management RWTH Aachen University © Fraunhofer-Institut für Angewandte Informationstechnik FIT Die üblichen Probleme eines BigBig-DataData-Projekts Welche Datenquellen sind verfügbar? Wo sind die Daten, die ich für meine Anwendung brauche? Welche Schnittstellen bietet die Datenquelle? Mit welchem API kann ich effizient auf die Daten zugreifen? Wie kann ich die Daten mit anderen Daten in Beziehung setzen? Wie kann ich die Daten in mein gewünschtes Zielsystem und die gewünschte Zielstruktur bringen? Wie kann man die Daten kontinuierlich aktualisieren? … Datenzugriff & Verfügbarkeit Data Lakes als universeller Datenspeicher © Fraunhofer-Institut für Angewandte Informationstechnik FIT Quelle des Data Lake If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. state The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples. samples James Dixon (Pentaho) https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/ Datenquellen © Fraunhofer-Institut für Angewandte Informationstechnik FIT Heterogenität Unsicherheit Komplexität Datennutzer Agenda Motivation und Einleitung Aktueller Stand der Praxis Architektur eines Data-Lake-Systems Herausforderungen bei der Umsetzung eines Data-Lake-Systems Zusammenfassung und Ausblick © Fraunhofer-Institut für Angewandte Informationstechnik FIT Agenda Motivation und Einleitung Aktueller Stand der Praxis Architektur eines Data-Lake-Systems Herausforderungen bei der Umsetzung eines Data-Lake-Systems Zusammenfassung und Ausblick © Fraunhofer-Institut für Angewandte Informationstechnik FIT Aktueller Stand der Praxis Häufig genannte Eigenschaften eines Data-Lake-Systems Speicherung der Daten in ursprünglicher Struktur Daten von beliebigen Quellen können hinzugefügt werden Ein Data Lake hat mehrere Datenquellen Metadaten sind wichtig Governance ist erforderlich Aber Wenig Details zu erforderlichen Funktionen und Datenmodellen Keine Referenzarchitekturen „Beratungsintensiv“ © Fraunhofer-Institut für Angewandte Informationstechnik FIT Abstrakte DLDL-Architektur von pwc Hadoop stellt nicht die Architektur für ein Data-LakeSystem bereit, es kann aber eine wichtige Komponente sein. Quelle: pwc: http://www.pwc.com/us/en/technologyforecast/2014/cloud-computing/assets/pdf/pwc-technologyforecast-data-lakes.pdf © Fraunhofer-Institut für Angewandte Informationstechnik FIT DLDL-Architektur für ein FlightFlight-TrackingTracking-System Boci, E. & Thistlethwaite, S.: A novel big data architecture in support of ADS-B data analytic Proc. Integrated Communication, Navigation, and Surveillance Conference (ICNS), 2015, 2015 C1-1-C1-8 © Fraunhofer-Institut für Angewandte Informationstechnik FIT Agenda Motivation und Einleitung Aktueller Stand der Praxis Architektur eines DataData-LakeLake-Systems Herausforderungen bei der Umsetzung eines Data-Lake-Systems Zusammenfassung und Ausblick © Fraunhofer-Institut für Angewandte Informationstechnik FIT Vorschlag für eine DLDL-Architektur © Fraunhofer-Institut für Angewandte Informationstechnik FIT Ingestion Layer Geringer Aufwand für das Laden von Datenquellen (kein ETL!) Unterstützung für die Extraktion von Metadaten und Daten Grad der Automatisierung? Schema für semi-strukturierte Daten (JSON, XML) Schema-on-Read Lazy Loading Aufgaben des DL-Administrators: Konfiguration der Datenquellen Überwachung der Datenqualität © Fraunhofer-Institut für Angewandte Informationstechnik FIT Storage Layer Welcher Typ von Datenspeicher? HDFS? NoSQL? RDBMS? Hybrid! Einheitliche Schnittstelle für Datenzugriff Übersetzung der Anfragen und Transformation der Daten Metadatensystem und -modell Speicherung von Schemata, Mappings, Datenqualitätsinformationen und Datenherkunft Enge Verknüpfung von Daten und Metadaten Aufgaben des Data Scientist: Verwaltung der Metadaten Definition von Data Marts (anwendungsspezifisch oder -unabhängig) © Fraunhofer-Institut für Angewandte Informationstechnik FIT Interaction Layer Suche & Navigation im Datenbestand Wenig direkte Anfragen (SQL), eher „Google“-ähnliche Anfragen Metadaten und Daten Nutzerinterkation muss als Metadaten erfasst werden Definition von genauen Anfragen Erfassen von bisher unbekannten Datenzusammenhängen Metadaten-Management Exploration des DL-Systems (was gibt es?) Semantische Annotationen Aufgaben des Nutzers Inkrementeller Aufbau von Data Marts (evtl. mit Data Scientist) Anreicherung der Metadaten © Fraunhofer-Institut für Angewandte Informationstechnik FIT HUMITHUMIT-Ansatz Human‐zentrierte Unterstützung inkrementell‐ interaktiver Datenintegration am Beispiel von Hochdurchsatzprozessen in den Life Sciences (BMBF-Projekt 2015-2018) Integration nach dem PayPay-asas-youyou-go-Prinzip go Daten werden inkrementell erfasst und integriert Interaktive Werkzeuge für die Exploration und Selektion von Daten, für die Definition semantischer Beziehungen und Visualisierung Trennung von Speicherung und Verarbeitung, Rohdaten werden mit Metadaten in Data Lake erfasst und sind direkt verfügbar, Integrationsaufgaben nachgelagert http://humit.de © Fraunhofer-Institut für Angewandte Informationstechnik FIT Agenda Motivation und Einleitung Aktueller Stand der Praxis Architektur eines Data-Lake-Systems Herausforderungen bei der Umsetzung eines DataData-LakeLake-Systems Zusammenfassung und Ausblick © Fraunhofer-Institut für Angewandte Informationstechnik FIT Lazy & PayPay-AsAs-YouYou-Go Laden und Integration der Daten erfordert hohen manuellen und technischen Aufwand Wesentliche Aufgaben sollten erst dann erledigt werden, wenn sie wirklich erforderlich sind Aufgaben werden evtl. dadurch einfacher, da sie nur für eine bestimmte Anwendung und nicht generell gelöst werden müssen (z.B. Schemaintegration) Abwägung zwischen vorherigen „Investitionen“ und späteren „Benutzeraufgaben“ Nicht alle Aufgaben zum Cleaning, Integration, Transformation der Daten auf Benutzer abwälzen © Fraunhofer-Institut für Angewandte Informationstechnik FIT SchemaSchema-onon-Read & SchemaSchema-Evolution Schema-on-Read Schemata werden erst bei Zugriff auf die Daten erstellt ( Lazy) Methoden zum Ableiten eines Schemas aus semi-strukturierten Daten erforderlich Schema-Evolution Insbesondere semi-strukturierte Daten können häufig ihr Schema ändern, d.h. bereits erkannte Schemata müssen aktualisiert werden Schemata können während der Benutzung mit weiteren Constraints und semantischen Annotationen angereichert werden © Fraunhofer-Institut für Angewandte Informationstechnik FIT Datenqualität Datenqualitätsmanagement ist ganzheitliches Thema für ein Data-Lake-System Schon beim Laden der Daten muss Datenqualität überprüft werden, ansonsten gibt es einen Datensumpf Minimale Anforderungen für Datenquellen (z.B. Bereitstellung von bestimmten Datenfeldern oder Metadaten) Überprüfen bestimmter Qualitätsmerkmale durch Anfragen oder Sampling Qualitätsdaten in Metadatensystem verwalten und für Nutzer verfügbar machen © Fraunhofer-Institut für Angewandte Informationstechnik FIT Zusammenfassung und Ausblick Data-Lake-Systeme können die DatenDatenverfügbarkeit und den Datenzugriff in einer Organisation verbessern In Forschung und Praxis bisher noch wenig Arbeiten zu Data Lakes, daher gibt es wenig Referenzarchitekturen oder anerkannte „Best Practices“ Lösung oder neue Herausforderung? Sowohl als auch Gute Umsetzung mit Metadatenmanagement, Datenqualitätskontrolle und Governance kann Integration von Daten vereinfachen Neue Konzepte (nicht unbedingt neue Technologien) sind dafür notwendig DLs sind komplexe Systeme aus mehreren Komponenten, nicht nur HDFS Klassische Integrationsprobleme bestehen weiterhin, allerdings Verlagerung der Lösung © Fraunhofer-Institut für Angewandte Informationstechnik FIT