Big Data Christopher Thomsen Senior Consult & Competence Center Big Data Lead OPITZ CONSULTING Deutschland GmbH Was ist 1 Big Data? Variety Small Data Projekte Volume Velocity SMALL DATA Visualisierung Analyse & Reporting Datenablage & -gewinnung Skalierbare Backend Infrastruktur BIG DATA Batch Datenstrom > > > > > > Skalierung > > > > > Verarbeitung Advanced Vernetzte Analytics Datenbasis Und was ist dieses 2 Hadoop? Hadoop ist ... ● ● ● ● ein Framework für die Verwaltung von Cluster-Kapazitäten. eine Software, welche Redundanz und Lastverteilung gewährleistet. auf Skalierung mit kostengünstiger commodity Hardware ausgelegt. eine Open-Source Plattform für viele andere Werkzeuge. Hersteller nutzen Hadoop um ... ● ● ● ihre Software leichter skalierbarer zu machen. performanceoptimierte Appliancelösungen anbzubieten. eine kostengünstige Storagealternative anbieten zu können. Master Node i Die Hadoop Infrastruktur bietet mit YARN eine standardisierte Skalierungsplattform für hunderte Spezialistenwerkzeuge. Data Node Data Node Data Node Data Node Data Node Data Node i Master Node Konsument Data Node Data Node Data Node Data Node Data Node Data Node Das Hadoop Filesystem (HDFS) bietet eine redundante und lastverteilte Storageplattform für aufliegende Applikationen. Applikation Sprache Algorithmus Datameer, RapidMiner, Big Data Discovery, ... Java, Scala, Python, HiveQL, PigLatin, ... MapReduce, Tez, Slider, Spark, Flink Betriebssystem YARN, Mesos Cluster Beowulf, Aiyara Server x86, ARM ! Das Hadoop Ökosystem ist ein Werkzeugzoo Apache betreut alleine 30+ Toplevel Big Data Projekte Jedes Werkzeug hat einen spezialisierten Anwendungszweck Keine Allrounder! > > > > > > > > > > > 3 Aber geht das nicht auch in SQL mit meiner Oracle Database? Relationale Datenbanken sind ... ● ● ● Allrounder ACID konform für die direkte und indirekte Nutzung durch Konsumenten ausgelegt Sie scheitern häufig an ... ● ● ● ● ● Datenvolumen im Terabytebereich Streaming Applikationen nicht tabellarischen Daten Kostenstrukturen für Low Value Daten Anforderungen die Spezialistentools benötigen Viele Hadoop Tools sind ... ● ● ● ● Batchorientierte Werkzeuge Generische Plattformen Auf maximalen Datendurchsatz optimiert für die Verwaltung sehr großer Dateien und Tabellen optimiert Sie sind NICHT geeignet für .. ● ● ● ● wahlfreie Zugriffe Abfragen mit niedriger Latenzanforderung direkten Zugriff durch Endkonsumenten Die Arbeit mit vielen kleinen Dateien oder vielen kleinen Tabellen Und was ist mit NoSQL? ! Hadoop ≠ Key-Value Store Column-Family Store NoSQL ≠ Big Data Hadoop ∈ Big Data Graph Database Document Store NoSQL ∈ Big Data Ein RDBMS Verarbeitungsprofil Logging Index Management 11% Query execution 20% 18% 12% Locking 10% 29% Buffer Management Latching A C I D Atomicity Consistency Isolation Durability Transaktionen werden ganz oder garnicht ausgeführt Nur valide Datensätze werden gespeichert Transaktionen beeinflussen sich nicht untereinander Einmal geschriebene Daten gehen nicht verloren Availability A Eine Datenbank kann nur 2 dieser Kriterien erfüllen C P Consistency Partition tolerance NoSQL, RDBMS und Hadoop zu vergleichen ist schwierig! Setzt man Big Data Werkzeuge wie konventionelle Datenbanken ein, verliert Big Data fast immer! Anders herum gilt das Gleiche jedoch auch! RDBMS erreichen die Leistungsfähigkeit von Big Data Systemen im Benchmark nicht. + + Was machen 4 Deutsche Unternehmen bereits mit Big Data? Ist Big Data für Ihr Unternehmen relevant? Quelle: Bitkom Research 71% Ja Datenwachstum pro Jahr 22% oder mehr in 9 von 10 Deutschen Unternehmen +229% Quelle: Bitkom Research 2015 2020 Der Mittelstand hat sich mit Big Data Storagelösungen gewappnet Bereits investiert Investition geplant Storage Analysetools Rekrutierung Storage AnalyseCloud tools Berater Rekrutierung Cloud Berater Großunternehmen investierten in Analysewerkzeuge und Personal Quelle: Bitkom Research Nutzt Ihr Unternehmen bereits Big Data? Quelle: Bitkom Research 9% Ja In unserem Unternehmen sind genügend Daten für die Anwendung von Big Data Tools vorhanden. 46% 32% 16% 6% Big Data Tools / Lösungen sind derzeit zu wenig ausgereift. 17% 25% 30% 28% Es gibt ausreichend Big Data Spezialisten. 12% 19% Volle Zustimmung 36% Tendenzielle Zustimmung 33% Tendenzielle Ablehnung Komplette Ablehnung Have fun on DOAG Big Data Days TO DO BIG DATA