Hadoop Forum OOP München 2016 Ruht die Zukunft von Hadoop auf Spark? Timm Grosser, Leiter Beratung BI und Datenmanagement München, 02. Februar 2016 02.02.2016 © BARC 2016 2 BARC: Expertise für datengetriebene Unternehmen 02.02.2016 © BARC 2016 3 Umfangreicher Funktionsumfang aus einem integrierten Framework Spark Streaming (EchtzeitVerarbeitung) Spark SQL (Abfrage strukturierte Daten) MLlib (Maschinelles Lernen) GraphX (GraphenVerarbeitung) Spark R Spark Core YARN (oder Spark Standalone Scheduler) API für Zugriff auf Datenquellen 02.02.2016 © BARC 2016 4 Ruht die Zukunft von Hadoop auf Spark? 1. Bereits heute überzeugt Spark gegenüber MapReduce in der Performance, Anzahl der unterstützten Anwendungsfälle sowie Integration und Schnittstellen. 2. Spark zeigt klare Vorteile gegenüber MapReduce zur Nutzung des HDFS, insbesondere bei iterativen Prozessen, aber auch in der Batch-Verarbeitung. 3. Der weitere Ausbau des Funktionsumfangs, die Integration der analytischen SparkKomponenten untereinander sowie die Sicherstellung der Stabilität entscheiden mit über die Relevanz für das Hadoop-Ökosystem. 4. BARC sieht den Erfolg von Spark im Enterprise-Kontext mitunter abhängig von der Akzeptanz, Adaption und Nutzung des Frameworks als Datenzugriffs- und Verarbeitungsschicht durch kommerzielle Lösungen für Analytik und Datenmanagement. 5. Die Entwicklung und Adaption von Konkurrenzprodukten kann zum Risiko für Spark werden (Informatica Blaze, TU Berlin, …) Spark birgt hohes Potential für Standard-Analysen und fortgeschrittene Analytik, aber auch als performante Schnittstelle zur Nutzung von Hadoop. Demnach kann Spark als einer der relevantesten Bausteine für die Zukunft von Hadoop gesehen werden. 02.02.2016 © BARC 2016 5 Häufig genannte Herausforderungen für den Enterprise-Einsatz von Spark 1. Stabilität, einheitliche Versionen sowie Roadmap des Frameworks unterliegen durch die Open Source Weiterentwicklung einem gewissen Risiko 2. Verwaltung erfordert heute intensiv technische Fähigkeiten (bspw. Cluster Verwaltung) 3. Limitierungen in der Massendatenverarbeitung 4. Support für den Enterprise Einsatz ist heute noch relativ unbekannt (bspw. Databricks) 02.02.2016 © BARC 2016 6 Bleiben Sie in Kontakt! Timm Grosser Leiter Beratung BI und DM Tel +49 931-880651-0 CIO Roundtable Analytics & Big Data 02.02.2016 [email protected] @timmgrosser © BARC 2016 7