Big Data

Werbung
Big Data
Christopher Thomsen
Senior Consult &
Competence Center Big Data Lead
OPITZ CONSULTING Deutschland GmbH
Was ist
1
Big Data?
Variety
Small Data
Projekte
Volume
Velocity
SMALL DATA
Visualisierung
Analyse & Reporting
Datenablage & -gewinnung
Skalierbare Backend Infrastruktur
BIG DATA
Batch
Datenstrom
>
>
>
>
>
>
Skalierung
>
>
>
>
>
Verarbeitung
Advanced
Vernetzte
Analytics
Datenbasis
Und was ist dieses
2
Hadoop?
Hadoop ist ...
●
●
●
●
ein Framework für die Verwaltung von Cluster-Kapazitäten.
eine Software, welche Redundanz und Lastverteilung gewährleistet.
auf Skalierung mit kostengünstiger commodity Hardware ausgelegt.
eine Open-Source Plattform für viele andere Werkzeuge.
Hersteller nutzen Hadoop um ...
●
●
●
ihre Software leichter skalierbarer zu machen.
performanceoptimierte Appliancelösungen anbzubieten.
eine kostengünstige Storagealternative anbieten zu können.
Master Node
i
Die Hadoop Infrastruktur bietet
mit YARN eine standardisierte
Skalierungsplattform für hunderte
Spezialistenwerkzeuge.
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
i
Master Node
Konsument
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Das Hadoop Filesystem (HDFS)
bietet eine redundante und
lastverteilte Storageplattform für
aufliegende Applikationen.
Applikation
Sprache
Algorithmus
Datameer, RapidMiner,
Big Data Discovery, ...
Java, Scala, Python,
HiveQL, PigLatin, ...
MapReduce, Tez, Slider,
Spark, Flink
Betriebssystem
YARN, Mesos
Cluster
Beowulf, Aiyara
Server
x86, ARM
!
Das Hadoop
Ökosystem ist
ein Werkzeugzoo
Apache betreut
alleine 30+ Toplevel
Big Data Projekte
Jedes Werkzeug hat
einen spezialisierten
Anwendungszweck
Keine Allrounder!
>
>
> > >
> >
>
>
>
>
3
Aber geht das nicht
auch in SQL mit meiner
Oracle
Database?
Relationale Datenbanken
sind ...
●
●
●
Allrounder
ACID konform
für die direkte und indirekte
Nutzung durch Konsumenten
ausgelegt
Sie scheitern häufig an ...
●
●
●
●
●
Datenvolumen im
Terabytebereich
Streaming Applikationen
nicht tabellarischen Daten
Kostenstrukturen für Low
Value Daten
Anforderungen die
Spezialistentools benötigen
Viele Hadoop Tools sind ...
●
●
●
●
Batchorientierte Werkzeuge
Generische Plattformen
Auf maximalen
Datendurchsatz optimiert
für die Verwaltung sehr
großer Dateien und Tabellen
optimiert
Sie sind NICHT geeignet für ..
●
●
●
●
wahlfreie Zugriffe
Abfragen mit niedriger
Latenzanforderung
direkten Zugriff durch
Endkonsumenten
Die Arbeit mit vielen kleinen
Dateien oder vielen kleinen
Tabellen
Und was ist mit
NoSQL?
!
Hadoop
≠
Key-Value
Store
Column-Family
Store
NoSQL
≠
Big Data
Hadoop ∈ Big Data
Graph
Database
Document
Store
NoSQL ∈ Big Data
Ein RDBMS Verarbeitungsprofil
Logging
Index
Management
11%
Query
execution
20%
18%
12%
Locking
10%
29%
Buffer
Management
Latching
A
C
I
D
Atomicity
Consistency
Isolation
Durability
Transaktionen
werden
ganz oder garnicht
ausgeführt
Nur valide
Datensätze
werden
gespeichert
Transaktionen
beeinflussen sich
nicht
untereinander
Einmal
geschriebene
Daten gehen nicht
verloren
Availability
A
Eine Datenbank
kann nur 2 dieser
Kriterien erfüllen
C
P
Consistency
Partition
tolerance
NoSQL,
RDBMS
und
Hadoop
zu vergleichen ist
schwierig!
Setzt man Big Data Werkzeuge wie
konventionelle Datenbanken ein,
verliert Big Data fast immer!
Anders herum gilt das Gleiche jedoch auch!
RDBMS erreichen die
Leistungsfähigkeit von Big Data
Systemen im Benchmark nicht.
+
+
Was machen
4
Deutsche
Unternehmen
bereits mit Big Data?
Ist Big Data für Ihr
Unternehmen
relevant?
Quelle: Bitkom Research
71%
Ja
Datenwachstum pro Jahr
22%
oder mehr in 9 von 10
Deutschen Unternehmen
+229%
Quelle: Bitkom Research
2015
2020
Der Mittelstand hat sich mit
Big Data Storagelösungen gewappnet
Bereits investiert
Investition geplant
Storage
Analysetools
Rekrutierung
Storage
AnalyseCloud tools
Berater
Rekrutierung
Cloud
Berater
Großunternehmen investierten
in Analysewerkzeuge und Personal
Quelle: Bitkom Research
Nutzt Ihr
Unternehmen
bereits Big Data?
Quelle: Bitkom Research
9%
Ja
In unserem Unternehmen sind genügend Daten für die
Anwendung von Big Data Tools vorhanden.
46%
32%
16%
6%
Big Data Tools / Lösungen sind derzeit zu wenig
ausgereift.
17%
25%
30%
28%
Es gibt ausreichend Big Data Spezialisten.
12%
19%
Volle Zustimmung
36%
Tendenzielle Zustimmung
33%
Tendenzielle Ablehnung
Komplette Ablehnung
Have fun on
DOAG
Big Data Days
TO DO BIG DATA
Herunterladen