Data Lakes: Lösung oder neue Herausforderung für Big

Data Lakes:
Lösung oder neue Herausforderung für
BigBig-DataData-Integration?
Integration?
PD Dr. Christoph Quix
Fraunhofer-Institut für Angewandte Informationstechnik FIT
Life Science Informatics
Abteilungsleiter High Content Analysis & Information-intensive Instruments
[email protected]
Informatik 5 (Databases & Information Systems)
Leiter der Forschungsgruppe Big Data & Model Management
RWTH Aachen University
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Die üblichen Probleme eines BigBig-DataData-Projekts
Welche Datenquellen sind verfügbar?
Wo sind die Daten, die ich für meine Anwendung brauche?
Welche Schnittstellen bietet die Datenquelle?
Mit welchem API kann ich effizient auf die Daten zugreifen?
Wie kann ich die Daten mit anderen Daten in Beziehung setzen?
Wie kann ich die Daten in mein gewünschtes Zielsystem und die
gewünschte Zielstruktur bringen?
Wie kann man die Daten kontinuierlich aktualisieren?
…
Datenzugriff & Verfügbarkeit
Data Lakes als universeller Datenspeicher
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Quelle des Data Lake
If you think of a datamart as a store of bottled water – cleansed and packaged
and structured for easy consumption – the data lake is a large body of water in
a more natural state.
state The contents of the data lake stream in from a source to
fill the lake, and various users of the lake can come to examine, dive in, or
take samples.
samples
James Dixon (Pentaho)
https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/
Datenquellen
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Heterogenität
Unsicherheit
Komplexität
Datennutzer
Agenda
Motivation und Einleitung
Aktueller Stand der Praxis
Architektur eines Data-Lake-Systems
Herausforderungen bei der Umsetzung eines Data-Lake-Systems
Zusammenfassung und Ausblick
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Agenda
Motivation und Einleitung
Aktueller Stand der Praxis
Architektur eines Data-Lake-Systems
Herausforderungen bei der Umsetzung eines Data-Lake-Systems
Zusammenfassung und Ausblick
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Aktueller Stand der Praxis
Häufig genannte Eigenschaften eines Data-Lake-Systems
Speicherung der Daten in ursprünglicher Struktur
Daten von beliebigen Quellen können hinzugefügt werden
Ein Data Lake hat mehrere Datenquellen
Metadaten sind wichtig
Governance ist erforderlich
Aber
Wenig Details zu erforderlichen Funktionen und Datenmodellen
Keine Referenzarchitekturen
„Beratungsintensiv“
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Abstrakte DLDL-Architektur von pwc
Hadoop stellt
nicht die
Architektur für
ein Data-LakeSystem bereit,
es kann aber
eine wichtige
Komponente
sein.
Quelle: pwc: http://www.pwc.com/us/en/technologyforecast/2014/cloud-computing/assets/pdf/pwc-technologyforecast-data-lakes.pdf
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
DLDL-Architektur für ein FlightFlight-TrackingTracking-System
Boci, E. & Thistlethwaite, S.: A novel big data architecture in support of ADS-B data analytic
Proc. Integrated Communication, Navigation, and Surveillance Conference (ICNS), 2015,
2015 C1-1-C1-8
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Agenda
Motivation und Einleitung
Aktueller Stand der Praxis
Architektur eines DataData-LakeLake-Systems
Herausforderungen bei der Umsetzung eines Data-Lake-Systems
Zusammenfassung und Ausblick
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Vorschlag für eine DLDL-Architektur
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Ingestion Layer
Geringer Aufwand für das Laden
von Datenquellen (kein ETL!)
Unterstützung für die Extraktion
von Metadaten und Daten
Grad der Automatisierung?
Schema für semi-strukturierte Daten (JSON, XML)
Schema-on-Read
Lazy Loading
Aufgaben des DL-Administrators:
Konfiguration der Datenquellen
Überwachung der Datenqualität
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Storage Layer
Welcher Typ von Datenspeicher?
HDFS? NoSQL? RDBMS?
Hybrid!
Einheitliche Schnittstelle für Datenzugriff
Übersetzung der Anfragen und Transformation der Daten
Metadatensystem und -modell
Speicherung von Schemata, Mappings, Datenqualitätsinformationen
und Datenherkunft
Enge Verknüpfung von Daten und Metadaten
Aufgaben des Data Scientist:
Verwaltung der Metadaten
Definition von Data Marts (anwendungsspezifisch oder -unabhängig)
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Interaction Layer
Suche & Navigation im Datenbestand
Wenig direkte Anfragen (SQL), eher „Google“-ähnliche Anfragen
Metadaten und Daten
Nutzerinterkation muss als Metadaten erfasst werden
Definition von genauen Anfragen
Erfassen von bisher unbekannten Datenzusammenhängen
Metadaten-Management
Exploration des DL-Systems (was gibt es?)
Semantische Annotationen
Aufgaben des Nutzers
Inkrementeller Aufbau von Data Marts (evtl. mit Data Scientist)
Anreicherung der Metadaten
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
HUMITHUMIT-Ansatz
Human‐zentrierte Unterstützung
inkrementell‐ interaktiver Datenintegration
am Beispiel von Hochdurchsatzprozessen in den
Life Sciences (BMBF-Projekt 2015-2018)
Integration nach dem PayPay-asas-youyou-go-Prinzip
go
Daten werden inkrementell erfasst und integriert
Interaktive Werkzeuge für die Exploration und
Selektion von Daten, für die Definition
semantischer Beziehungen und Visualisierung
Trennung von Speicherung und Verarbeitung, Rohdaten werden mit
Metadaten in Data Lake erfasst und sind direkt verfügbar,
Integrationsaufgaben nachgelagert
http://humit.de
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Agenda
Motivation und Einleitung
Aktueller Stand der Praxis
Architektur eines Data-Lake-Systems
Herausforderungen bei der Umsetzung eines DataData-LakeLake-Systems
Zusammenfassung und Ausblick
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Lazy & PayPay-AsAs-YouYou-Go
Laden und Integration der Daten erfordert hohen manuellen und
technischen Aufwand
Wesentliche Aufgaben sollten erst dann erledigt werden, wenn sie
wirklich erforderlich sind
Aufgaben werden evtl. dadurch einfacher, da sie nur für eine
bestimmte Anwendung und nicht generell gelöst werden müssen (z.B.
Schemaintegration)
Abwägung zwischen vorherigen „Investitionen“ und späteren
„Benutzeraufgaben“
Nicht alle Aufgaben zum Cleaning, Integration, Transformation der
Daten auf Benutzer abwälzen
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
SchemaSchema-onon-Read & SchemaSchema-Evolution
Schema-on-Read
Schemata werden erst bei Zugriff auf die Daten erstellt (
Lazy)
Methoden zum Ableiten eines Schemas aus semi-strukturierten Daten
erforderlich
Schema-Evolution
Insbesondere semi-strukturierte Daten können häufig ihr Schema
ändern, d.h. bereits erkannte Schemata müssen aktualisiert werden
Schemata können während der Benutzung mit weiteren Constraints
und semantischen Annotationen angereichert werden
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Datenqualität
Datenqualitätsmanagement ist
ganzheitliches
Thema für ein
Data-Lake-System
Schon beim Laden der Daten muss Datenqualität überprüft werden,
ansonsten gibt es einen Datensumpf
Minimale Anforderungen für Datenquellen (z.B. Bereitstellung von
bestimmten Datenfeldern oder Metadaten)
Überprüfen bestimmter Qualitätsmerkmale durch Anfragen oder
Sampling
Qualitätsdaten in Metadatensystem verwalten und für Nutzer verfügbar
machen
© Fraunhofer-Institut für Angewandte Informationstechnik FIT
Zusammenfassung und Ausblick
Data-Lake-Systeme können die DatenDatenverfügbarkeit und den Datenzugriff in
einer Organisation verbessern
In Forschung und Praxis bisher noch wenig Arbeiten zu Data Lakes, daher
gibt es wenig Referenzarchitekturen oder anerkannte „Best Practices“
Lösung oder neue Herausforderung?
Sowohl als auch
Gute Umsetzung mit Metadatenmanagement, Datenqualitätskontrolle
und Governance kann Integration von Daten vereinfachen
Neue Konzepte (nicht unbedingt neue Technologien) sind dafür
notwendig
DLs sind komplexe Systeme aus mehreren Komponenten, nicht nur HDFS
Klassische Integrationsprobleme bestehen weiterhin, allerdings
Verlagerung der Lösung
© Fraunhofer-Institut für Angewandte Informationstechnik FIT